本研究では、大規模言語モデル(LLM)を用いた対話型AIアプリケーションの効率的なサービングを実現するため、プロキシモデルに基づくスペキュレーティブな最短ジョブ優先(SSJF)スケジューラを提案している。
LLMは自動回帰的な生成モデルであるため、リクエストの実行時間が非決定論的になる。従来のLLMサービングシステムはFCFS(先着順)スケジューリングを使用しているが、これはヘッドオブラインブロッキングの問題を引き起こす。
本研究では、軽量なプロキシモデル(fine-tuned BERTモデル)を使ってLLM出力トークン長を予測し、その予測結果に基づいてSSJFスケジューラを実現した。SSJFは既存のLLMサービングシステムに直接適用でき、メモリ管理や一括処理の変更を必要としない。
評価の結果、SSJFはFCFSに比べて平均ジョブ完了時間を30.5-39.6%短縮し、スループットを2.2-3.6倍向上させることができた。また、プロキシモデルの予測精度も高く、予測オーバーヘッドは無視できるレベルであることが示された。
Іншою мовою
із вихідного контенту
arxiv.org
Глибші Запити