Główne pojęcia
SpeechColab Leaderboard는 다양한 자동 음성 인식 시스템의 성능을 공정하고 재현 가능한 방식으로 평가하기 위한 일반 목적의 오픈소스 플랫폼이다.
Streszczenie
이 논문은 SpeechColab Leaderboard라는 오픈소스 자동 음성 인식 평가 플랫폼을 소개한다. 이 플랫폼은 다음과 같은 특징을 가진다:
- 데이터셋 저장소와 모델 저장소를 제공하여 사용자들이 데이터와 모델을 쉽게 공유하고 재현할 수 있게 한다.
- 평가 파이프라인을 통해 대소문자, 구두점, 약어, 복합어 등 다양한 요소를 고려하여 자동 음성 인식 시스템을 공정하게 평가한다.
- 기존의 Token Error Rate(TER) 평가 지표의 한계를 개선한 modified TER(mTER) 지표를 제안한다.
이 플랫폼을 활용하여 다양한 오픈소스 및 상용 자동 음성 인식 시스템을 대규모로 벤치마킹하였다. 그 결과, 최신 대규모 모델들이 기존 시스템을 크게 앞서는 것을 확인하였다. 또한 평가 파이프라인의 세부 요소들이 최종 성능에 미치는 영향을 분석하였다.
Statystyki
최신 대규모 모델인 Whisper는 기존 DeepSpeech 모델 대비 WER이 50~80% 감소하여 큰 성능 향상을 보였다.
오픈소스 모델들이 LibriSpeech 데이터셋에서는 상용 API 서비스를 크게 앞서지만, 다른 데이터셋에서는 성능이 떨어지는 경향이 있다.
대소문자, 구두점, 약어, 복합어 등의 정규화 처리가 최종 성능에 큰 영향을 미친다.
Cytaty
"SpeechColab Leaderboard는 일반 목적의 오픈소스 플랫폼으로, 다양한 자동 음성 인식 시스템을 공정하고 재현 가능한 방식으로 평가할 수 있다."
"최신 대규모 모델들이 기존 시스템을 크게 앞서는 것을 확인하였다."
"평가 파이프라인의 세부 요소들이 최종 성능에 미치는 영향을 분석하였다."