Core Concepts
ストリーミング音声認識のためのキャッシュベースの効率的な推論手法を提案し、従来のバッファリングアプローチよりも高精度かつ低遅延を実現する。
Abstract
本論文では、ストリーミング音声認識のための効率的かつ高精度なモデルとして、FastConformerアーキテクチャをベースとしたStateful Conformerを提案している。主な特徴は以下の通り:
- エンコーダの過去コンテキストと未来コンテキストを制限することで、ストリーミング向けに適応させた。
- 非自己回帰型のエンコーダを、推論時に自己回帰型のRecurrentモデルに変換するためのキャッシュメカニズムを導入した。これにより、バッファリングによる無駄な計算を回避できる。
- CTCデコーダとRNNTデコーダを共有するハイブリッドアーキテクチャを提案した。これにより、計算コストの削減と精度の向上を実現した。
提案手法をLibriSpeechデータセットと大規模マルチドメインデータセットで評価した結果、従来のバッファリングアプローチと比べて、高精度かつ低遅延・低計算量を実現できることを示した。さらに、複数の遅延を同時に学習する手法を提案し、単一の遅延モデルよりも高精度な結果を得られることも示した。
Stats
提案手法のCTCモデルは、LibriSpeechのtest-otherセットで7.1%のWER(平均遅延1360ms)を達成した。
提案手法のRNNTモデルは、LibriSpeechのtest-otherセットで6.3%のWER(平均遅延1360ms)を達成した。
大規模マルチドメインデータセットでも、提案手法がバッファリングアプローチを上回る精度を示した。
Quotes
"我々は効率的かつ高精度なストリーミング音声認識モデルを提案する。"
"提案するキャッシュメカニズムにより、バッファリングによる無駄な計算を回避できる。"
"ハイブリッドアーキテクチャにより、計算コストの削減と精度の向上を実現した。"