Core Concepts
ゼロショット音声合成を用いてアクセント音声データを拡張することで、アクセント音声に対する自動音声認識の性能を向上させることができる。
Abstract
本研究では、自動音声認識(ASR)システムの性能が低下する要因の1つであるアクセント音声データの不足に着目し、ゼロショット音声合成(ZS-TTS)を用いたデータ拡張手法を提案している。
まず、ASRモデルをLibriSpeechデータセットで事前学習し、インド英語アクセントのデータセットで fine-tuning を行った。その結果、アクセント音声に対する性能が大幅に低下することが確認された。
次に、ZS-TTSモデルを用いてアクセント音声を合成し、ASRモデルの fine-tuning に活用した。その結果、合成データを25%混ぜることで、アクセント音声に対するWER(単語誤り率)を最大5%改善できることが示された。さらに、合成データを75%混ぜた場合、アクセント音声に対するWERを最大14%改善できることが確認された。
一方で、複数のアクセントを含むデータセットを用いた実験では、ZS-TTSによる合成データの活用が効果的ではなかった。これは、Interspeech 2020 データセットの音声品質が低いことが原因と考えられる。
最後に、従来の音声拡張手法(RIR、ノイズ、スピード変化、SpecAugment)とZS-TTSによる合成データの組み合わせを試みたが、アクセント音声に対する性能向上には至らなかった。
Stats
ASRモデルをLibriSpeechデータセットで事前学習した場合のWER:
test-clean: 2.34%
test-others: 5.55%
インド英語アクセントデータセットでの WER: 22.24%
インド英語アクセントデータセットで fine-tuning したASRモデルのWER: 8.33%
ZS-TTSによる合成データを25%混ぜた場合のWER改善率: 12-14%
ZS-TTSによる合成データを75%混ぜた場合のWER改善率: 9.5-11%
Quotes
"Contemporary ASR systems necessitate a substantial volume of meticulously labeled speech data to yield accurate and effective transcriptions."
"The substantial decline in ASR system performance when confronted with non-native speech patterns provides empirical evidence that models primarily trained on the utterances of native speakers lack the required robustness to effectively model underrepresented pronunciation patterns."
"Our methodological approach involves the utilization of the ZS-TTS system as outlined in [5], coupled with the employment of a transformer-based ASR model from [6]. This choice is motivated by the openness and ease of training and deployment of both models."