本文提出了CoT Rerailer框架,通过有效过滤可能存在缺陷的推理路径,并采用多智能体辩论的方式进行严格的错误检测和纠正,从而提高大型语言模型在复杂推理任务中的准确性、效率和可信度。
本文提出了一种基于深度学习的可靠视觉惯性SLAM系统SL-SLAM,通过结合深度特征提取和深度匹配方法,在各种复杂环境下提高SLAM系统的适应性和鲁棒性。
本文提出了一种名为DiffMap的新方法,利用潜在扩散模型来学习地图的结构先验,从而增强传统的地图分割模型。该方法可以作为任何地图分割模型的辅助工具,其预测结果在短距离和长距离检测场景中都有显著改善。
现有的说话头合成方法存在同步性问题,包括人物身份、嘴唇运动、面部表情和头部姿态等方面。SyncTalk通过Face-Sync Controller、Head-Sync Stabilizer和Portrait-Sync Generator三个模块,有效解决了这些同步性问题,生成了高度同步和逼真的说话头视频。
提出了一个系统设计的客观基准MMBench,用于对视觉语言模型进行全面、稳健的评估。
提出了一个利用多粒度交互机制的多模态实体对齐框架MIMEA,有效地实现了同模态关系和跨模态交互,确保对齐实体在语义上更加接近。
本文提出了一种基于卷积神经网络的几何图形分类算法模型,通过利用LeNet-5架构的特征提取和分类能力,并在训练过程中使用交叉熵损失函数提高模型的泛化能力,从而提高了几何图形分类的平均识别准确率。
将视觉信息与逻辑推理相结合是解决复杂视觉推理任务的关键。提出了一种名为科托的创新多模态思维链框架,通过感知-决策架构有效整合视觉输入和文本推理,并利用多模态大型语言模型作为多方面专家来增强思维链生成过程。
生成式信息检索是一种新兴的信息检索范式,通过生成模型直接生成相关文档标识符来实现检索,突破了传统基于相似度匹配的局限性,为信息检索带来了新的发展方向。
提出了一种基于对比语言-图像预训练的自适应提示学习方法(APNE-CLIP),利用文本信息同时缓解域偏移和类别偏移问题,提高通用多源域适应的分类性能。