이 논문은 대규모 언어 모델(LLM)의 효율적인 추론 방법을 제안한다. LLM은 수십억 개의 매개변수를 가지고 있어 추론 시 많은 계산 및 메모리 자원이 필요하다. 특히 다중 헤드 어텐션(MHA)이 LLM의 계산 및 메모리 요구사항의 50% 이상을 차지한다.
저자들은 MHA의 여러 헤드가 유사한 토큰에 주목하는 것을 관찰했다. 이를 바탕으로 저자들은 CHAI(Clustered Head Attention)를 제안한다. CHAI는 상관관계가 높은 헤드를 클러스터링하여 한 대표 헤드만 계산하도록 함으로써 계산 및 메모리 요구사항을 줄인다.
실험 결과, CHAI는 LLAMA-7B, LLAMA-33B, OPT-66B 모델에서 최대 3.2%의 정확도 저하로 최대 21.4%의 메모리 절감과 최대 1.73배의 추론 시간 단축을 달성했다. 또한 CHAI는 이전 방법인 DEJAVU보다 더 나은 성능을 보였다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы