核心概念
言語モデルとテキストから音楽生成モデルを統合することで、長期的な構造を持つ2.5分の音楽作品を生成することができる。
摘要
本論文では、音楽生成モデルが長期的な音楽構造を学習することが困難であることを指摘し、その問題に対する解決策として、言語モデルとテキストから音楽生成モデルを統合する手法を提案している。
具体的には以下の通りである:
- 音楽生成モデルであるMusicGenをテキスト入力に対応させるため、大規模言語モデルのChatGPTを用いて、MusicGenが理解可能なテキストプロンプトを生成する。
- ChatGPTにITPRA理論に基づいた音楽構造の設計や、前の部分を参照するなどの制約を与えることで、長期的に一貫性のある音楽構造を生成する。
- 部分間の滑らかな遷移を実現するため、確率分布の線形補間や前の部分からの音声プロンプトの利用などの手法を導入する。
実験の結果、提案手法により2.5分の長さの構造化された音楽作品を生成できることが示された。音楽専門家による主観評価と、自己類似行列を用いた客観的評価の両方で、提案手法の有効性が確認された。
統計資料
提案手法により生成された音楽は、人間が作曲したPond5の音楽と同程度の構造的一貫性を持つ。
MusicGenのみで生成した音楽と比べ、提案手法の音楽は構造的に優れている。
引述
"音楽生成モデルが長期的な音楽構造を学習することは非常に困難である。"
"言語モデルと音楽生成モデルを統合することで、長期的に一貫性のある音楽構造を生成できる。"