本研究では、大規模な音声データを活用し、MIRモデルを用いてシンボリック音楽を生成する手法を提案している。従来のシンボリック音楽生成では、手動でアノテーションされたデータが不足しているため、性能の向上が困難であった。
提案手法では、まず、音声データに対してMIRモデルを適用し、拍、コード、セクション、メロディ、楽器などの情報を抽出する。これらの情報をトークン化し、拡張REMIエンコーディングを用いて表現する。このようにして得られたデータを用いて、言語モデルを学習する。
さらに、提案するSymPACフレームワークでは、ユーザーの入力に応じて柔軟に音楽を生成できるようにしている。具体的には、ユーザーの入力をプロンプトバーとして表現し、有限状態機械を用いて、ユーザーの入力に沿った音楽を生成する。
実験の結果、提案手法は、大規模な音声データを活用することで、高品質なシンボリック音楽生成が可能であることが示された。また、SymPACフレームワークを用いることで、コード進行やセクション構造などの制御入力に応じた音楽生成ができることが確認された。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Haonan Chen,... ב- arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.03055.pdfשאלות מעמיקות