Conceitos essenciais
SVD-LLM은 대규모 언어 모델 압축을 위한 새로운 특이값 분해 기반 방법론으로, 압축 손실을 최소화하는 데이터 화이트닝 기법과 압축 후 모델 파라미터 업데이트 기법을 제안한다.
Resumo
본 논문은 대규모 언어 모델(LLM)의 압축을 위한 새로운 특이값 분해(SVD) 기반 방법론인 SVD-LLM을 제안한다.
기존 SVD 기반 LLM 압축 방법들은 두 가지 한계를 가지고 있다: 1) 작은 특이값 truncation이 높은 압축 손실을 초래할 수 있다는 점, 2) SVD truncation 후 나머지 모델 파라미터 업데이트가 부재하다는 점.
SVD-LLM은 이러한 한계를 해결하기 위해 다음과 같은 두 가지 핵심 기술을 제안한다:
- 압축 손실과 직접적인 관계를 가지는 truncation-aware 데이터 화이트닝 기법
- 압축 후 정확도 저하를 보상하기 위한 레이어 단위 폐쇄형 모델 파라미터 업데이트 기법
실험 결과, SVD-LLM은 11개 데이터셋과 3개 LLM 패밀리의 7개 모델에서 기존 방법들 대비 우수한 성능을 보였으며, 특히 높은 압축률에서 큰 성능 향상을 달성했다. 또한 SVD-LLM은 다른 LLM 압축 기법들의 성능을 더욱 향상시킬 수 있으며, KV 캐시 압축에도 활용될 수 있다.
Estatísticas
대규모 언어 모델 GPT-3는 325GB 이상의 GPU 메모리를 소비한다.
대규모 언어 모델 압축 시 ASVD 방법에서 압축률이 30%에서 40%로 증가할 때 perplexity가 28배 증가했다.
ASVD 방법에서 압축률이 30%에서 40%로 증가할 때 평균 적응 손실이 3.2배 증가했다.
Citações
"The advancements in Large Language Models (LLMs) have been hindered by their substantial sizes, which necessitate LLM compression methods for practical deployment."
"Singular Value Decomposition (SVD) offers a promising solution for LLM compression. However, state-of-the-art SVD-based LLM compression methods have two key limitations: truncating smaller singular values may lead to higher compression loss, and the lack of update on the remaining model parameters after SVD truncation."