本研究では、大規模深層学習モデルWhisperを用いて、聴取者の語彙レベルの応答を予測する手法を提案した。
まず、Whisperを零細学習で適用したところ、既存の基準を上回る性能を示した。さらに、Whisperの各モジュールを微調整することで、最大で66%の相対的な性能向上が得られた。特に、畳み込みエンコーダの微調整が重要であり、低レベルの音響特徴が人間の知覚と大きく異なることが示唆された。
また、モデルサイズの増大に伴い、性能が向上することが確認された。これは、Whisperの高い精度と頑健性が人間の知覚とも関連していることを示唆している。
一方で、雑音タイプによって性能が大きく異なり、特に4話者雑音に対する予測精度が低かった。これは、Whisperの雑音頑健性が人間の知覚と必ずしも一致していないことを示している。
全体として、本研究の結果は、大規模深層学習モデルを用いた顕微鏡的聴取可能性予測の有効性を示しており、人間の音声知覚メカニズムの理解に貢献すると期待される。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы