本研究では、リアルタイム音声認識の性能評価を行った。従来の音声認識システムは、事前に録音された音声を一括して処理するバッチ処理が主流だったが、リアルタイム音声認識では音声入力を短い断片に分割して処理する必要がある。
まず、3つの音声分割アルゴリズム(固定間隔分割、VAD分割、フィードバック分割)と3つのASRモデル(Whisper Tiny、Base、Large)の組み合わせを評価した。バッチ処理と比較して、リアルタイム処理では単語誤り率(WER)、単語情報損失(WIL)、単語マッチ誤り率(MER)が悪化することが分かった。
VAD分割が最も高精度だが遅延が大きく、固定間隔分割が最も低精度だが遅延が小さい。一方、提案したフィードバック分割は、VAD分割と比べて2-4%のWER増加と引き換えに1.5-2秒の遅延減少を実現した。
また、精度と遅延のトレードオフを可視化したマトリックスから、用途に応じて最適なアルゴリズムを選択できることを示した。今後は、クライアントでの音声認識処理の検討や、より小さな音声断片に対応したモデルの開発などが課題として挙げられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Carlos Arria... at arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.05674.pdfDeeper Inquiries