מושגי ליבה
다양한 모달리티(텍스트 프롬프트, 오디오 참조)를 활용하여 화자 정체성과 감정 스타일을 정밀하게 제어할 수 있는 제로샷 텍스트-음성 합성 시스템을 제안한다.
תקציר
이 논문에서는 StyleFusion-TTS라는 제로샷 텍스트-음성 합성 시스템을 소개한다. 이 시스템은 텍스트 프롬프트, 오디오 참조, 화자 음색 참조 등 다양한 모달리티의 입력을 활용하여 화자 정체성과 감정 스타일을 정밀하게 제어할 수 있다.
핵심 구성요소는 다음과 같다:
- 일반 스타일 융합 인코더(GSF-enc): 다양한 모달리티의 입력을 활용하여 화자 정체성과 감정 스타일 임베딩을 생성하고 이를 분리하는 모듈
- 계층적 컨포머 TSCM(HC-TSCM): 화자 정체성과 감정 스타일 임베딩을 최적으로 융합하는 모듈
- VITS 기반 텍스트-음성 합성 모델에 GSF-enc와 HC-TSCM을 통합하여 제로샷 텍스트-음성 합성 성능을 향상시킴
실험 결과, StyleFusion-TTS는 기존 SOTA 모델들에 비해 화자 유사도, 감정 스타일 제어 성능이 우수한 것으로 나타났다. 이를 통해 StyleFusion-TTS가 제로샷 텍스트-음성 합성 분야에 기여할 수 있음을 보여준다.
סטטיסטיקה
화자 유사도 점수가 4.19로 기존 SOTA 모델들에 비해 높게 나타났다.
감정 스타일 제어 정확도가 83.3%로 기존 모델들에 비해 우수한 성능을 보였다.
스펙트럼 왜곡 지표(MCD)가 5.762로 낮게 나타나 합성 음질이 우수함을 보여준다.
ציטוטים
"다양한 모달리티(텍스트 프롬프트, 오디오 참조)를 활용하여 화자 정체성과 감정 스타일을 정밀하게 제어할 수 있는 제로샷 텍스트-음성 합성 시스템을 제안한다."
"StyleFusion-TTS는 기존 SOTA 모델들에 비해 화자 유사도, 감정 스타일 제어 성능이 우수한 것으로 나타났다."