核心概念
大規模言語モデルの推論コストを大幅に削減しつつ、タスクパフォーマンスを維持する新しい手法CATSを提案する。
摘要
本研究では、大規模言語モデル(LLM)の推論コストを削減する新しい手法CATSを提案している。
- LLMの多層パーセプトロン(MLP)ブロックの活性化が疎であることに着目し、この特性を活用する。
- CATSは、活性化関数を新たに定義することで、制御可能な水準の疎性を実現する。
- CATSを適用したモデルは、Mistral-7BやLlama2-7Bなどの基本モデルと同等のタスクパフォーマンスを示す。特に50%の疎性レベルでも同等のパフォーマンスを維持できる。
- CATSモデルは、同じ疎性レベルでReLUficationよりも優れたタスクパフォーマンスを示す。
- CATSの疎性を活用した専用GPUカーネルの実装により、トークン生成の推論時間を15%改善できる。
統計資料
大規模言語モデルの訓練には膨大なGPU時間とCO2排出が必要とされている。
推論コストは訓練コストを上回ることが多く、推論の効率化が重要である。
引述
"LLMsの展開は、その膨大な推論コストのため依然として課題となっている。"
"活性化の疎性は、MLPブロックの重み行列の一部の計算を省略できることを示唆している。"
"CATSは、制御可能な水準の疎性を実現し、基本モデルと同等のタスクパフォーマンスを示す。"