本研究では、音楽スタイル変換のための新しい一般的なフレームワークを提案しています。このフレームワークは、時間周波数アプローチを採用し、楽器音色、演奏スタイル、作曲スタイルの3つのタイプの音楽スタイル変換を可能にします。
提案モデルの主な特徴は以下の通りです:
拡散モデルを用いて、入力スペクトログラムから目標スペクトログラムへの変換を行います。これにより、複雑な変換フレームワークの設計や高い計算コストを必要とせずに、多様なスタイル間の変換を実現できます。
潜在空間での変換処理により、計算コストを大幅に削減し、高速な音声生成を実現しています。
GuideDiffと呼ばれる新しい音声生成モデルを提案し、スペクトログラムから高品質な音声波形を生成することができます。
実験結果から、提案モデルは基準モデルと比較して、スタイル変換性能と音声品質の両面で優れた結果を示しています。さらに、消費者向けGPUでも実時間の変換と音声生成が可能であることが確認されました。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询