Core Concepts
희소 어텐션 메커니즘을 활용하면 연쇄 사고 추론의 정확도를 유지하면서도 추론 비용을 효과적으로 줄일 수 있다.
Abstract
희소 어텐션 메커니즘 기반 연쇄 사고 추론 최적화 연구 논문 요약
본 논문은 대규모 언어 모델에서 연쇄 사고 (Chain of Thought, CoT) 추론 시 발생하는 높은 비용 문제를 해결하기 위해 희소 어텐션 메커니즘을 적용한 연구를 다룬다.
생성 인공지능 (GenAI) 및 대규모 언어 모델 (LLM) 기술의 발전은 GPT, Llama, Gemini 등의 제품으로 이어지며 언어 생성의 유창성과 의미적 일관성을 크게 향상시켰다.
연쇄 사고 추론은 LLM 발전의 핵심 요소로, 이전 모델들이 가졌던 맥락 이해 부족 문제를 해결하고, 복잡한 추론 작업을 단계별로 분해하여 해결할 수 있도록 돕는다.
그러나 CoT는 중간 추론 단계 생성으로 인해 시퀀스 길이가 크게 증가하여 추론 비용이 급증하는 문제점을 야기한다.
본 연구는 희소 어텐션 메커니즘을 통해 CoT 추론 비용을 줄이면서 모델 성능을 유지하는 것을 목표로 한다.
희소 어텐션 메커니즘은 각 토큰이 관련성이 높은 소수의 다른 토큰에만 집중하도록 하여 어텐션 계산의 복잡성을 줄인다.
이는 인간의 시각 피질에서 나타나는 희소 코딩에서 영감을 받은 것으로, 정보 처리의 효율성을 높이는 데 기여한다.
본 연구에서는 그래프 이론을 기반으로 희소 어텐션 메커니즘을 설계하여, 어텐션 계산을 그래프 순회 문제로 취급한다.
희소 어텐션 메커니즘은 지역 어텐션, 청크 희소성, 동적 희소성과 같은 다양한 방법으로 구현될 수 있다.