Concepts de base
大規模言語モデルをストリーミング環境で効率的に活用するための新しい手法「StreamingLLM」を提案する。StreamingLLMは、モデルの事前学習時に注意スインクを導入することで、長文入力に対しても安定した性能を発揮できる。
Résumé
本論文では、大規模言語モデル(LLM)をストリーミング環境で効率的に活用する新しい手法「StreamingLLM」を提案している。
ストリーミング環境での LLM 活用には2つの主な課題がある:
- デコーディング時に前トークンの Key と Value の状態(KV)をキャッシュし続けると、メモリ使用量が増大する。
- 既存のLLMは、事前学習時の注意窓サイズを超えると性能が大幅に低下する。
StreamingLLMは、これらの課題に対処するため、以下の2つの特徴を持つ:
- 注意スインクと呼ばれる初期トークンのKVを保持し、最新トークンのKVとともに注意スコアの計算に使用する。これにより、初期トークンの情報を失わずに効率的な推論が可能。
- 事前学習時に専用の注意スインクトークンを導入することで、ストリーミング時に初期トークンを追加する必要がなくなる。
実験の結果、StreamingLLMは、Llama-2、MPT、Falcon、Pythiaなどの大規模言語モデルに適用可能であり、4百万トークンを超える長文入力に対しても安定した性能を発揮できることが示された。また、従来手法と比較して最大22.2倍の高速化を実現した。
Stats
大規模言語モデルの注意スコアの多くが初期トークンに集中していることが分かった。
初期トークンを除去すると、言語モデルの性能が大幅に低下する。
注意スインクトークンを事前学習時に導入することで、ストリーミング時に初期トークンを追加する必要がなくなる。
Citations
"LLMsは初期トークンを注意スインクとして使用する傾向がある。"
"注意スインクトークンを事前学習時に導入することで、ストリーミング時の初期トークン追加が不要になる。"