本論文では、ターゲットスピーカーボイスアクティビティ検出(TS-VAD)の新しい手法であるProfile-Error-Tolerant TS-VAD (PET-TSVAD)を提案している。
TS-VADは、入力オーディオ信号とスピーカープロファイルを使ってスピーカーダイアライゼーションを行う手法であるが、スピーカープロファイルのエラーに弱いという課題があった。
PET-TSVADでは以下の2つの改善を行う:
これらの改善により、PET-TSVADはVoxConverse及びDIHARD-Iデータセットにおいて、従来のTS-VADよりも優れた性能を示した。特に、スピーカー混同エラーが大幅に改善された。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Dongmei Wang... às arxiv.org 04-05-2024
https://arxiv.org/pdf/2309.12521.pdfPerguntas Mais Profundas