이 논문은 다국어 및 다중 과제 음성 모델인 Whisper의 성능 격차 문제를 해결하기 위한 DistilWhisper 접근법을 제안합니다.
주요 내용은 다음과 같습니다:
Whisper 모델은 99개 언어를 다루지만, 일부 저자원 언어에서 성능이 낮은 문제가 있습니다. 이는 모델 크기가 작아질수록 더 심각해집니다.
DistilWhisper는 언어별 전문가 모듈과 지식 증류를 결합하여 이 문제를 해결합니다.
언어별 전문가 모듈은 Whisper-small 모델에 추가되어 병렬로 작동합니다. 이를 통해 언어별 성능을 향상시킬 수 있습니다.
지식 증류는 Whisper-large-v2 모델에서 Whisper-small 모델로 전달되어, 대형 모델의 강건성을 유지할 수 있습니다.
실험 결과, DistilWhisper는 표준 fine-tuning이나 LoRA 어댑터 대비 in-domain과 out-of-domain 모두에서 성능이 우수합니다. 또한 매우 적은 추가 파라미터만으로도 Whisper-small과 Whisper-large-v2 간 성능 격차를 35.2% 줄일 수 있습니다.
데이터 양에 따른 실험에서도 DistilWhisper가 일관되게 우수한 성능을 보였습니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Thomas Palme... lúc arxiv.org 03-13-2024
https://arxiv.org/pdf/2311.01070.pdfYêu cầu sâu hơn