Core Concepts
LLMとスピーチエンコーダを統合したASRシステムの性能を、大規模な中国語データセットを用いて詳細に調査し、最適な構成を見出した。
Abstract
本研究は、11,000時間以上の中国語音声データを用いて、LLMとスピーチエンコーダを統合したASRシステムの性能を詳細に調査した。主な発見は以下の通り:
- スピーチエンコーダについて、Whisperはより堅牢だが可塑性が低く、HuBERTはより適応性が高い。
- プロジェクタについて、Transformerの学習能力はQformerよりも優れている。
- LLMについて、LLMを統合したASRシステムの性能は、その言語(ここでは中国語)に対するLLMの熟達度と正の相関がある。
- 提案する3段階の訓練アプローチにより、スピーチエンコーダの音響モデリング能力とLLMの言語モデリング能力を効果的に整合させ、AISHELL-1、Test Net、Test MeetingデータセットでSOTAの性能を達成した。
本研究では、データ準備、訓練、推論、スコアリングを含む再現可能なレシピを公開し、事前学習モデルも公開する予定である。これにより、LLMベースのASR研究の深化が期待される。
Stats
本研究で使用したデータセットは合計11,000時間以上の中国語音声データ
訓練データには、WenetSpeech、AISHELL-1、AISHELL-2、AISHELL-4が含まれる
テストデータには、AISHELL-1、AISHELL-2、Test Net、Test Meeting、SPEECHIO 0-4、内部ノイズ、内部アクセントが含まれる