本研究では、重複発話認識のための新しい手法「Hypothesis Clustering and Merging (HCM)」を提案している。
まず、スピーカー埋め込みをk-meansクラスタリングすることで、スピーカークラスタートークンを定義する。これらのトークンを入力の先頭に付加して、注意機構付きエンコーダ・デコーダモデルを訓練する。
推論時には、入力音声からスピーカートークンの確率を推定し、上位N個のトークンを用いて複数の認識仮説を生成する。これらの仮説は、編集距離に基づく階層的クラスタリングによって統合され、最終的な出力が得られる。
この手法は、スピーカー数に依存しない柔軟性があり、同一スピーカーの重複認識を回避できる。実験では、特に3スピーカーの環境で大幅な性能向上を示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yosuke Kashi... at arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.15732.pdfDeeper Inquiries