核心概念
ターゲットスピーカープロファイルのエラーに耐性を持つ新しいスピーカーダイアライゼーションモデルを提案する。従来のモデルでは、プロファイルのエラーに弱いという課題があったが、本手法では疑似スピーカープロファイルを導入し、また学習時のプロファイル生成手法を改善することで、この課題を解決する。
摘要
本論文では、ターゲットスピーカーボイスアクティビティ検出(TS-VAD)の新しい手法であるProfile-Error-Tolerant TS-VAD (PET-TSVAD)を提案している。
TS-VADは、入力オーディオ信号とスピーカープロファイルを使ってスピーカーダイアライゼーションを行う手法であるが、スピーカープロファイルのエラーに弱いという課題があった。
PET-TSVADでは以下の2つの改善を行う:
- 疑似スピーカープロファイルを導入し、初回のダイアライゼーションで検出されなかったスピーカーの活動を捉えられるようにする。
- 学習時にはクラスタリングアルゴリズムを複数使ってスピーカープロファイルを生成し、学習時とテスト時のミスマッチを低減する。
これらの改善により、PET-TSVADはVoxConverse及びDIHARD-Iデータセットにおいて、従来のTS-VADよりも優れた性能を示した。特に、スピーカー混同エラーが大幅に改善された。
統計資料
15dBから40dBの範囲でランダムにSNR比を設定して、ノイズと残響を付加した多話者会話音声を21,000時間分生成した。
各会話音声に対して、AHCクラスタリングとNME-SCクラスタリングを適用し、複数のスピーカープロファイルを抽出した。