本研究では、単一チャンネルスピーチ強調システムの処理歪みが自動音声認識性能に与える影響を分析した。まず、スピーチ強調誤差を干渉誤差、雑音誤差、アーティファクト誤差の3つの成分に分解する手法を用いて、各誤差成分が自動音声認識性能に与える影響を直接的に評価する分析手法を提案した。この分析の結果、アーティファクト誤差が自動音声認識性能の大幅な劣化の主な原因であることが明らかになった。
この知見に基づき、2つの実用的なアプローチを提案した。1つ目は、観測信号と強調信号を線形補間するObservation Adding (OA)手法で、数学的に証明したようにアーティファクト誤差を低減し、自動音声認識性能を向上させることができる。2つ目は、アーティファクト誤差を重視した新しい学習目的関数Artifact-Boosted Signal-to-Distortion Ratio (AB-SDR)を提案し、アーティファクト誤差を低減することで自動音声認識性能を向上させることができる。
これらの提案手法は、実際の雑音環境下でも自動音声認識性能を大幅に向上させることが実験的に確認された。本研究の成果は、単一チャンネルスピーチ強調システムの設計指針を与えるものであり、実用的な雑音ロバスト自動音声認識システムの実現に貢献するものである。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Tsubasa Ochi... alle arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.14860.pdfDomande più approfondite