본 논문은 기존의 판별적 접근 방식을 벗어나 생성 모델 기반의 대상 화자 음성 활동 탐지 기법을 제안한다.
먼저, 이진 레이블 시퀀스 공간에 직접 생성 모델을 적용하는 것은 효과적이지 않음을 확인했다. 이를 해결하기 위해 오토인코더를 이용해 이진 레이블을 밀집된 잠재 공간으로 변환한 후 생성 모델을 적용하는 Flow-TSVAD 방법을 제안했다. 실험 결과, Flow-TSVAD가 강력한 Seq2Seq-TSVAD 시스템을 능가하는 성능을 보였다.
또한 Flow-TSVAD는 추론 단계에서 2단계만으로도 안정적인 결과를 얻을 수 있어 효율적이다. 생성 모델의 특성상 다양한 샘플링을 통해 다양한 결과를 얻을 수 있으며, 이를 앙상블하면 성능이 더욱 향상된다.
본 연구는 전형적인 판별 작업인 화자 분리 분야에 생성 모델을 성공적으로 적용했다는 점에서 의의가 있다. 향후 다른 화자 분리 패러다임에도 생성 모델을 적용하는 연구가 필요할 것으로 보인다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies