이 논문에서는 StyleFusion-TTS라는 제로샷 텍스트-음성 합성 시스템을 소개한다. 이 시스템은 텍스트 프롬프트, 오디오 참조, 화자 음색 참조 등 다양한 모달리티의 입력을 활용하여 화자 정체성과 감정 스타일을 정밀하게 제어할 수 있다.
핵심 구성요소는 다음과 같다:
실험 결과, StyleFusion-TTS는 기존 SOTA 모델들에 비해 화자 유사도, 감정 스타일 제어 성능이 우수한 것으로 나타났다. 이를 통해 StyleFusion-TTS가 제로샷 텍스트-음성 합성 분야에 기여할 수 있음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhiyong Chen... at arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.15741.pdfDeeper Inquiries