言語モデルとテキストから音楽生成モデルを統合することで、長期的な構造を持つ2.5分の音楽作品を生成することができる。
音楽メタデータを入力条件として使い、4小節の多重トラックMIDIシーケンスを生成する。トークンをランダムにドロップすることで、ユーザーが全ての入力条件を完了する必要がなく、より柔軟な制御が可能になる。
大規模な音声データを活用し、MIRモデルを用いてシンボリック音楽を生成することで、手動アノテーションデータを必要とせずに高品質な音楽生成モデルを構築できる。さらに、SymPACフレームワークを用いることで、ユーザーの入力に応じて柔軟に音楽を生成することができる。
拡散モデルを用いた音楽スタイル変換フレームワークを提案し、高品質な音声生成を実現する。
音楽生成と分離を同時に行う単一モデルの重要性と可能性を探求