מושגי ליבה
멜-로포머는 멜 대역 프로젝션 모듈과 주파수와 시간 차원을 별도의 시퀀스로 모델링하는 RoPE 트랜스포머를 특징으로 하며, 보컬 분리와 보컬 멜로디 전사 작업에서 최신 성능을 달성한다.
תקציר
이 논문은 멜-로포머라는 새로운 딥 뉴럴 네트워크 모델을 소개한다. 멜-로포머는 두 가지 핵심 설계를 특징으로 한다:
- 멜 대역 프로젝션 모듈: 다중 주파수 대역에 걸쳐 정보적인 특징을 포착할 수 있는 모델의 능력을 향상시킨다.
- 주파수와 시간 차원을 별도의 시퀀스로 모델링하는 RoPE 트랜스포머: 주파수와 시간 차원의 상호 관계를 효과적으로 학습할 수 있다.
멜-로포머는 두 가지 핵심 MIR 작업에 적용된다:
- 보컬 분리: 오디오 믹스처에서 노래 음성을 분리하는 작업
- 보컬 멜로디 전사: 노래 음성의 주요 멜로디를 전사하는 작업
이 두 작업은 최적화 목표가 다르지만, 멜-로포머는 우수한 성능을 보여준다. 보컬 분리 모델을 사전 학습 모델로 활용하여 보컬 멜로디 전사 모델을 미세 조정하는 접근법을 제안한다.
실험 결과, 멜-로포머는 벤치마크 데이터셋에서 보컬 분리와 멜로디 전사 작업 모두에서 최신 성능을 달성했다. 이는 멜-로포머의 효과성과 다양성을 입증한다.
סטטיסטיקה
보컬 분리 작업에서 멜-로포머는 MUSDB18HQ 테스트 세트에서 13.29 dB의 SDR 점수를 달성했다.
보컬 멜로디 전사 작업에서 멜-로포머 대형 모델은 MIR-ST500 테스트 세트에서 COnPOff 지표 62.5%를 달성했다.
ציטוטים
"멜-로포머는 멜 대역 프로젝션 모듈과 주파수와 시간 차원을 별도의 시퀀스로 모델링하는 RoPE 트랜스포머를 특징으로 한다."
"멜-로포머는 보컬 분리와 보컬 멜로디 전사 작업 모두에서 최신 성능을 달성했다."