本論文では、ターゲットスピーカーボイスアクティビティ検出(TS-VAD)の新しい手法であるProfile-Error-Tolerant TS-VAD (PET-TSVAD)を提案している。
TS-VADは、入力オーディオ信号とスピーカープロファイルを使ってスピーカーダイアライゼーションを行う手法であるが、スピーカープロファイルのエラーに弱いという課題があった。
PET-TSVADでは以下の2つの改善を行う:
これらの改善により、PET-TSVADはVoxConverse及びDIHARD-Iデータセットにおいて、従来のTS-VADよりも優れた性能を示した。特に、スピーカー混同エラーが大幅に改善された。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor