本文提出了一种基于超图神经网络的多视角事件相机动作识别框架HyperMV。首先,将离散的事件数据转换为帧式中间表示,并使用共享卷积网络从不同视角提取特征。然后,将每个视角和时间段的特征视为顶点,通过基于规则和KNN的策略构建超边,建立多视角超图神经网络,捕捉视角和时间特征之间的高阶关联。同时引入顶点注意力机制进行特征融合。最后,为每个顶点分配权重生成最终嵌入用于动作分类。
实验结果表明,HyperMV在跨主体和跨视角场景下均显著优于基线方法,并且在帧式多视角动作识别中也超越了最新水平。此外,本文还构建了目前最大规模的事件相机多视角动作数据集THUMV-EACT-50,为该领域的研究提供了有价值的资源。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yue Gao,Jiax... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19316.pdfDeeper Inquiries