본 논문은 실시간 객체 탐지를 위한 새로운 모델 RT-DETR을 제안한다. RT-DETR은 DETR 모델을 기반으로 하며, 두 가지 핵심 개선 사항을 포함한다.
효율적인 하이브리드 인코더: 다중 스케일 특징을 신속하게 처리하기 위해 인트라-스케일 상호작용과 크로스-스케일 융합을 분리하는 설계를 도입했다. 이를 통해 속도를 크게 향상시켰다.
불확실성 최소화 쿼리 선택: 분류 점수와 위치 정확도를 모두 고려하여 초기 쿼리의 품질을 높임으로써 정확도를 향상시켰다.
또한 RT-DETR은 디코더 레이어 수를 조정하여 다양한 시나리오에 맞게 속도를 유연하게 조절할 수 있다.
실험 결과, RT-DETR-R50은 COCO val2017에서 53.1% AP와 108 FPS를 달성하여, 기존 YOLO 탐지기를 속도와 정확도 모두에서 능가했다. RT-DETR-R101은 54.3% AP와 74 FPS를 달성했다. 또한 RT-DETR-R50은 DINO-Deformable-DETR-R50보다 2.2% AP 높고 약 21배 빠른 속도를 보였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yian Zhao,We... lúc arxiv.org 04-04-2024
https://arxiv.org/pdf/2304.08069.pdfYêu cầu sâu hơn