Core Concepts
大規模言語モデル(LLM)のメモリフットプリントと計算コストを削減するために、重み行列の低ランク構造を利用した新しい圧縮アルゴリズム「CALDERA」が提案されている。
Abstract
CALDERA: 低ランク・低精度分解を用いた大規模言語モデルの圧縮
本論文は、大規模言語モデル(LLM)のメモリフットプリントと計算コストを削減するために、重み行列の低ランク構造を利用した新しい圧縮アルゴリズム「CALDERA」を提案する研究論文である。
LLMの展開を容易にするために、メモリ使用量と計算コストを削減する効果的な圧縮技術を開発する。
従来の低ランク近似と量子化技術の限界に対処し、精度を維持しながらより高い圧縮率を達成する。
CALDERAは、重み行列Wを、低ランク因子LとR、および量子化されたバックボーンQを用いて、W ≈ Q + LRと近似する。
較正データを用いた学習: 較正データセットを用いて、量子化された層出力のフロベニウスノルム誤差を最小化するように、Q、L、Rを学習する。
反復的な低ランク因子更新: 量子化による歪みを最小限に抑えるために、ランク制約付き回帰フレームワークを用いて、LとRを反復的に更新する。
低精度表現: メモリフットプリントをさらに削減するために、LとRを低精度形式で表現する。
低ランク適応によるファインチューニング: 量子化によるパフォーマンス低下を軽減するために、特定のタスクのデータセットを用いて、低ランク因子LとRをファインチューニングする。