핵심 개념
Whisperモデルをリアルタイム環境で活用するためのシステムWhispyを提案する。Whispyは低遅延で高精度な音声認識を実現する。
초록
本論文では、Whisperモデルをリアルタイム環境で活用するためのシステムWhispyを提案している。Whispyは以下の特徴を持つ:
- 入力オーディオストリームを短いチャンクに分割し、Whisperモデルを用いて逐次的に認識する
- 重複するチャンクの認識結果を比較し、最適な文字起こしを生成するアルゴリズムを採用
- VAD(Voice Activity Detection)を活用し、無音区間の認識を省略することで計算コストを削減
- 実験の結果、Whisperオフラインモデルと比べて1-2%程度のWER(Word Error Rate)の劣化に留まり、低遅延での認識が可能
Whispyは、ウェブ会議などのリアルタイムコミュニケーションシステムに容易に統合できるよう設計されており、音声要約や話者識別などの機能も提供する。
통계
Whispyの総処理時間は0.44秒~1.66秒の範囲
Whisperモデルのサイズが大きいほど処理時間が長くなる
チャンクサイズが長いほど、WERが低下する傾向にある