本文提出了一种跨模态融合网络CFN-ESA,用于对话情感识别任务。主要包括以下几个部分:
采用循环神经网络编码器(RUME)提取每个模态的上下文情感信息,并缩小多模态数据之间的异质性差距。
设计注意力机制的跨模态编码器(ACME),将文本模态视为主要的情感信息源,视觉和声学模态作为辅助信息源,以更好地捕捉跨模态的互补信息。
引入基于标签的情感转移模块(LESM),作为辅助任务指导主任务学习,从而使主任务在情感转移场景下更多关注跨模态交互建模,而不是过度依赖上下文建模。
在MELD和IEMOCAP两个公开数据集上进行了大量实验,结果表明CFN-ESA显著优于现有的基准模型。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Jiang Li,Xia... klokken arxiv.org 04-16-2024
https://arxiv.org/pdf/2307.15432.pdfDypere Spørsmål