Grunnleggende konsepter
提出了一种新颖的双中央窝自注意力机制(Bi-Fovea Self-Attention, BFSA),模拟了鹰眼的生理结构和视觉特性,使网络能够从粗到细地学习目标的特征表示。此外,设计了一种生物灵感的鹰视觉(Bionic Eagle Vision, BEV)模块,结合了卷积和BFSA的优势,并引入了一种新颖的双中央窝前馈网络(Bi-Fovea Feedforward Network, BFFN)来模拟生物视觉皮层的信息处理方式。基于此,提出了一个统一高效的金字塔骨干网络家族,称为鹰视觉变换器(Eagle Vision Transformers, EViTs),在计算效率和性能方面显示出显著的竞争优势。
Sammendrag
本文提出了一种新颖的生物灵感视觉变换器EViT,旨在解决当前视觉变换器面临的一些挑战,如高计算复杂度和缺乏合适的归纳偏差。
首先,作者受到鹰眼的生理结构和视觉特性的启发,提出了一种新的双中央窝自注意力机制(BFSA)。BFSA模拟了鹰眼的浅中央窝和深中央窝,使网络能够从粗到细地学习目标的特征表示。
其次,作者继续沿用鹰眼双中央窝的设计原则,引入了一种新颖的双中央窝前馈网络(BFFN)。BFFN受神经科学启发,模拟了生物视觉皮层的分层并行信息处理方式。
基于BFSA和BFFN,作者设计了一种生物灵感的鹰视觉(BEV)模块,并将其作为基本构建块,提出了一个统一高效的金字塔骨干网络家族,称为鹰视觉变换器(EViTs)。EViTs包括4个变体,在计算效率和性能方面显示出显著的竞争优势。
在ImageNet-1K分类、COCO 2017目标检测和实例分割、ADE20K语义分割等主流视觉任务上,EViTs都展现出了出色的性能,优于或与当前最先进的方法相当。这表明EViTs具有良好的泛化能力和适用性。
Statistikk
与同等参数和计算量的PVTv2-B2和PVTv2-B3相比,EViT-Small和EViT-Base在COCO 2017目标检测和实例分割任务上分别提高了0.4%和0.7%的mAP。
在ADE20K语义分割任务上,EViT-Small和EViT-Base的mIoU分别比PVTv2-B2和PVTv2-B3高0.9%和1.2%。
在ImageNet-1K分类任务上,EViT-Large以2562的输入分辨率可达84.9%的Top-1准确率,仅需12.5 GFLOPs和60.1M参数。
Sitater
"EViTs exhibit highly competitive performance in various computer vision tasks such as image classification, object detection and semantic segmentation."
"Especially in terms of performance and computational efficiency, EViTs show significant advantages compared with other counterparts."