이 논문은 대규모 언어 모델(LLM) 추론의 계산적 어려움이 여전히 주요 장애물이라는 점을 지적한다. 많은 응용 프로그램에서 긴 입력 시퀀스를 지원하고 대량으로 처리해야 하는 요구가 증가하면서, 토큰 생성이 데이터 전송에 의해 병목 현상을 겪게 된다.
이를 해결하기 위해 SparQ Attention이 제안되었다. SparQ Attention은 캐시된 기록에서 선택적으로 가져오는 방식으로 주의 집중 계층 내에서 메모리 대역폭을 더 효율적으로 활용하여 LLM 추론 처리량을 높인다. 이 기술은 사전 학습 설정을 수정하거나 추가 미세 조정을 수행할 필요 없이 기존 LLM에 직접 적용할 수 있다.
실험 결과, SparQ Attention은 Llama 2, Mistral, Pythia 모델에서 정확도 저하 없이 최대 8배의 주의 집중 데이터 전송 절감을 달성했다. 또한 다양한 하위 작업에서 강력한 성능을 보였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Luka Ribar,I... a las arxiv.org 03-13-2024
https://arxiv.org/pdf/2312.04985.pdfConsultas más profundas