本論文では、ターゲットスピーカーボイスアクティビティ検出(TS-VAD)の新しい手法であるProfile-Error-Tolerant TS-VAD (PET-TSVAD)を提案している。
TS-VADは、入力オーディオ信号とスピーカープロファイルを使ってスピーカーダイアライゼーションを行う手法であるが、スピーカープロファイルのエラーに弱いという課題があった。
PET-TSVADでは以下の2つの改善を行う:
これらの改善により、PET-TSVADはVoxConverse及びDIHARD-Iデータセットにおいて、従来のTS-VADよりも優れた性能を示した。特に、スピーカー混同エラーが大幅に改善された。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Dongmei Wang... klokken arxiv.org 04-05-2024
https://arxiv.org/pdf/2309.12521.pdfDypere Spørsmål