本論文では、ストリーミング音声認識のための効率的かつ高精度なモデルとして、FastConformerアーキテクチャをベースとしたStateful Conformerを提案している。主な特徴は以下の通り:
提案手法をLibriSpeechデータセットと大規模マルチドメインデータセットで評価した結果、従来のバッファリングアプローチと比べて、高精度かつ低遅延・低計算量を実現できることを示した。さらに、複数の遅延を同時に学習する手法を提案し、単一の遅延モデルよりも高精度な結果を得られることも示した。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Vahid Norooz... om arxiv.org 05-06-2024
https://arxiv.org/pdf/2312.17279.pdfDiepere vragen