핵심 개념
実世界の状況で収集された声のメッセージから、スピーチ感情認識を行う方法について
초록
この記事は、実世界の状況で収集された声のメッセージを使用してスピーチ感情認識モデルを作成する方法に焦点を当てています。Emotional Voice Messages(EMOVOME)データベースを使用し、専門家と非専門家によって連続および離散的な感情でラベル付けされた100人のスペイン語話者の会話から得られたデータを用いました。eGeMAPS特徴量、トランスフォーマーベースモデル、およびその組み合わせを使用して、話者非依存型のSERモデルを作成しました。事前学習済みUnispeech-LモデルとそのeGeMAPSとの組み合わせが最高の結果を達成しました。
통계
61.64% UA for 3-class valence prediction with Unispeech-L model and eGeMAPS combination.
55.57% UA for arousal prediction with Unispeech-L model and eGeMAPS combination.
42.58% UA for emotion categories prediction.
인용구
"This study significantly contributes to the evaluation of SER models in real-life situations, advancing in the development of applications for analyzing spontaneous voice messages."