이 논문은 화자 프로파일 오류에 강인한 대상 화자 음성 활동 탐지 모델 PET-TSVAD를 제안한다.
기존 TS-VAD 모델은 화자 프로파일 오류에 취약한 문제가 있었다. 화자 프로파일 오류에는 두 가지 유형이 있다. 첫째, 다수의 화자가 하나의 클러스터로 병합되는 경우이다. 둘째, 단일 화자가 다수의 클러스터로 분할되는 경우이다. 이러한 오류가 발생하면 TS-VAD 모델은 화자 활동을 정확하게 탐지할 수 없다.
이를 해결하기 위해 PET-TSVAD 모델을 제안한다. 첫째, 추가적인 가상 화자 프로파일을 도입하여 첫 번째 통과 화자 분리에서 누락된 화자를 탐지할 수 있도록 한다. 둘째, 다양한 클러스터링 알고리즘을 활용하여 화자 프로파일을 생성하고, 이를 활용해 모델을 훈련함으로써 훈련-테스트 간 데이터 불일치를 줄인다.
실험 결과, PET-TSVAD 모델은 VoxConverse와 DIHARD-I 데이터셋에서 기존 TS-VAD 모델보다 우수한 성능을 보였다. 특히 화자 혼동 오류가 크게 감소하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Dongmei Wang... lúc arxiv.org 04-05-2024
https://arxiv.org/pdf/2309.12521.pdfYêu cầu sâu hơn