核心概念
대형 언어 모델의 민감도 인식형 혼합 희소성 가지치기 방법 소개
統計
LLaMA-7B 모델의 밀도: 5.63 (WikiText2), 35.79 (PTB), 7.34 (C4)
LLaMA-13B 모델의 밀도: 4.88 (WikiText2), 40.99 (PTB), 6.73 (C4)
Baichuan-13B 모델의 밀도: 5.61 (WikiText2), 16.49 (PTB), 8.23 (C4)
引用
"우리의 방법은 SparseGPT와 비교하여 더 나은 성능을 보여줌"
"민감도 인식형 혼합 희소성 가지치기 방법은 희소성 가지치기에 새로운 최고 성능을 제공"