本研究では、従来の音声合成システムが持つ課題、すなわち感情表現やためらいの欠如による機械的な印象を解決するため、ゼロショット学習を用いた新しい音声合成パイプラインを提案している。
まず、言語モデルにプロンプトを与えることで、感情表現やためらいを含む文章を生成する。次に、生成された文章から感情表現やためらいの部分を抽出し、それらを音声合成に活用する。この方法により、より人間らしい音声を生成することができる。
具体的には、以下のような特徴がある:
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Rohan Chaudh... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01339.pdfYêu cầu sâu hơn