本論文では、ストリーミング音声認識のための効率的かつ高精度なモデルとして、FastConformerアーキテクチャをベースとしたStateful Conformerを提案している。主な特徴は以下の通り:
提案手法をLibriSpeechデータセットと大規模マルチドメインデータセットで評価した結果、従来のバッファリングアプローチと比べて、高精度かつ低遅延・低計算量を実現できることを示した。さらに、複数の遅延を同時に学習する手法を提案し、単一の遅延モデルよりも高精度な結果を得られることも示した。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Vahid Norooz... lúc arxiv.org 05-06-2024
https://arxiv.org/pdf/2312.17279.pdfYêu cầu sâu hơn