本論文では、BASS (Batched Attention-optimized Speculative Sampling)と呼ばれる新しいシステムを提案している。BASS は、大規模言語モデルの推論を高速化し、GPU 利用率を大幅に向上させることができる。
BASS の主な特徴は以下の通りである:
実験結果では、BASS が従来の自己回帰的な推論や単一シーケンス推論に比べて、大幅な高速化と GPU 利用率の向上を実現していることが示されている。例えば、7.8B モデルを単一 A100 GPU で推論する際、バッチサイズ8の場合、1トークンあたり平均5.8msで生成でき、スループットは1.1Kトークン/秒に達する。これは従来手法に比べて2.15倍の高速化に相当する。
さらに、時間制限内での生成精度も大幅に向上しており、HumanEval タスクでは、Pass@First 43%、Pass@All 61%を達成している。これは単一シーケンス推論では実現できない水準である。
BASS は、大規模言語モデルの高速で正確な推論を実現する新しいシステムであり、幅広い応用分野での活用が期待される。
翻譯成其他語言
從原文內容
arxiv.org
深入探究