이 논문은 화자 프로파일 오류에 강인한 대상 화자 음성 활동 탐지 모델 PET-TSVAD를 제안한다.
기존 TS-VAD 모델은 화자 프로파일 오류에 취약한 문제가 있었다. 화자 프로파일 오류에는 두 가지 유형이 있다. 첫째, 다수의 화자가 하나의 클러스터로 병합되는 경우이다. 둘째, 단일 화자가 다수의 클러스터로 분할되는 경우이다. 이러한 오류가 발생하면 TS-VAD 모델은 화자 활동을 정확하게 탐지할 수 없다.
이를 해결하기 위해 PET-TSVAD 모델을 제안한다. 첫째, 추가적인 가상 화자 프로파일을 도입하여 첫 번째 통과 화자 분리에서 누락된 화자를 탐지할 수 있도록 한다. 둘째, 다양한 클러스터링 알고리즘을 활용하여 화자 프로파일을 생성하고, 이를 활용해 모델을 훈련함으로써 훈련-테스트 간 데이터 불일치를 줄인다.
실험 결과, PET-TSVAD 모델은 VoxConverse와 DIHARD-I 데이터셋에서 기존 TS-VAD 모델보다 우수한 성능을 보였다. 특히 화자 혼동 오류가 크게 감소하였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Dongmei Wang... at arxiv.org 04-05-2024
https://arxiv.org/pdf/2309.12521.pdfDeeper Inquiries