본 논문은 대규모 사전 학습 모델(PTM)을 특정 작업에 맞춰 최적화하는 새로운 접근법을 제안한다. 기존 PTM은 일반적인 작업을 위해 구축되어 특정 작업에 대한 성능 향상이 필요하다. 또한 PTM을 실제 응용 프로그램에 적용하기 어려운 문제가 있다.
이를 해결하기 위해 본 논문은 압축과 작업 특화 적응을 결합한 새로운 파이프라인을 제안한다. 이를 통해 음성 감정 인식 작업에 최적화된 간단하면서도 효과적인 사전 학습 모델 Vesper를 개발했다.
Vesper는 WavLM 모델을 기반으로 하며, 감정 특화 마스킹 전략과 계층적/교차 계층 자기 지도 학습을 통해 음향 및 의미 정보를 효과적으로 학습한다. 실험 결과, Vesper-4는 WavLM Base보다 성능이 우수하고, Vesper-12는 WavLM Large보다 성능이 우수하면서도 모델 크기가 절반 수준이다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Weidong Chen... alle arxiv.org 04-19-2024
https://arxiv.org/pdf/2307.10757.pdfDomande più approfondite