核心概念
音声感情認識(SER)の主要な課題の1つは、環境ノイズによる性能低下である。本研究では、事前学習済みの音声強調モジュールを活用し、低レベルの特徴補償と高レベルの表現校正を行うことで、ノイズに強いSERシステムを実現する。
要約
本論文では、ノイズに強いSERシステムを実現するために、TRNetと呼ばれる二段階リファインメントネットワークを提案している。
まず、事前学習済みの音声強調モジュールを用いて、入力音声のノイズ除去と信号対雑音比(SNR)の推定を行う。次に、推定したSNR係数を利用して、低レベルの特徴補償と高レベルの表現校正を行う。
低レベルの特徴補償では、ノイズ除去音声と目標音声のスペクトログラムを近づけるように学習する。高レベルの表現校正では、目標音声と近似したスペクトログラムから抽出した特徴表現の整合性を取るように学習する。
実験結果から、提案手法であるTRNetは、ノイズ環境下でも高い性能を維持しつつ、クリーン環境下での性能も保つことができることが示された。また、SNR推定の役割や特徴表現の特性についても分析を行っている。
統計
観測信号xは、目標音声信号xs とノイズ信号xnの和で表される。
音声強調の目的は、xからxsを復元することである。
低SNRでは、ノイズ除去による利得が信号歪みによる損失を上回るが、高SNRでは逆の傾向となる。
引用
"One persistent challenge in Speech Emotion Recognition (SER) is the ubiquitous environmental noise, which frequently results in diminished SER performance in practical use."
"To increase the robustness of SER in noisy environments, one strategy involves focusing on feature engineering, exploring the design of feature sets that are insensitive to noise contamination."
"Recent research has explored methods that integrate speech enhancement (SE) with SER models, aiming to improve the robustness of back-end SER models under noisy environments through noise reduction pre-processing."