LLM Surgeon은 대규모 언어 모델을 효율적으로 압축할 수 있는 일반적인 프레임워크를 제공한다. 이 방법은 모델의 손실 함수 곡률을 정확하게 근사하고 가중치 간의 상관관계를 고려하여 구조화된 압축을 수행할 수 있다.
본 논문은 대규모 언어 모델의 압축 및 가속을 위해 어파인 변환 기반의 양자화 기법을 제안한다. 이를 통해 기존 방식에 비해 양자화 오류를 크게 줄이고, 특히 저비트 양자화에서 우수한 성능을 달성할 수 있다.
SVD-LLM은 대규모 언어 모델 압축을 위한 새로운 특이값 분해 기반 방법론으로, 압축 손실을 최소화하는 데이터 화이트닝 기법과 압축 후 모델 파라미터 업데이트 기법을 제안한다.