本文提出了一個雙階段框架,用於在人類語音噪音條件下進行強健的語音情感識別(SER)。
第一階段,作者訓練了一個目標說話者提取(TSE)模型,利用大規模的混合語音語料庫,以提取目標說話者的語音。
第二階段,作者提出了兩種訓練方法:
TSE-SER-base:先使用TSE模型提取目標說話者的語音,然後用這些提取的語音訓練SER模型。
TSE-SER-ft:在第二階段,同時fine-tune預訓練的TSE模型和訓練SER模型,利用含有情感語音的混合語音。這種聯合訓練不僅可以改進TSE系統,也可以提高SER的性能。
實驗結果表明,與不使用TSE方法的基線相比,提出的框架在人類語音噪音條件下可以提高14.33%的無權重準確率(UA)。此外,作者還探討了說話者性別對SER性能的影響,發現在不同性別的混合情況下,該框架表現尤其出色。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Jinyi Mi, Xi... klokken arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19585.pdfDypere Spørsmål