다양한 음성 데이터 증강 기법을 활용하여 HuBERT와 wav2vec 모델의 음소 인식 및 자동 음성 인식 성능을 향상시킬 수 있다.
다국어 및 다중 과제 음성 모델인 Whisper의 성능 격차를 해결하기 위해, 언어별 전문가 모듈과 지식 증류를 결합한 DistilWhisper 접근법을 제안합니다. 이를 통해 작은 모델 크기에서도 다국어 기능을 유지하면서 저자원 언어의 음성 인식 성능을 향상시킬 수 있습니다.