Główne pojęcia
YOLO 시리즈는 속도와 정확도의 적절한 균형으로 인해 실시간 객체 탐지에서 가장 널리 사용되는 프레임워크가 되었다. 그러나 YOLO의 속도와 정확도는 NMS에 의해 부정적인 영향을 받는다. 최근 엔드-투-엔드 Transformer 기반 탐지기(DETR)가 NMS를 제거하는 대안을 제공했지만, 높은 계산 비용으로 인해 실용성이 제한되어 왔다. 본 논문에서는 이러한 딜레마를 해결하는 실시간 탐지 Transformer(RT-DETR)를 제안한다. RT-DETR은 속도 향상과 정확도 향상을 위한 두 단계의 설계를 통해 실시간 객체 탐지에서 최고 수준의 성능을 달성한다.
Streszczenie
본 논문은 실시간 객체 탐지를 위한 새로운 모델 RT-DETR을 제안한다. RT-DETR은 DETR 모델을 기반으로 하며, 두 가지 핵심 개선 사항을 포함한다.
-
효율적인 하이브리드 인코더: 다중 스케일 특징을 신속하게 처리하기 위해 인트라-스케일 상호작용과 크로스-스케일 융합을 분리하는 설계를 도입했다. 이를 통해 속도를 크게 향상시켰다.
-
불확실성 최소화 쿼리 선택: 분류 점수와 위치 정확도를 모두 고려하여 초기 쿼리의 품질을 높임으로써 정확도를 향상시켰다.
또한 RT-DETR은 디코더 레이어 수를 조정하여 다양한 시나리오에 맞게 속도를 유연하게 조절할 수 있다.
실험 결과, RT-DETR-R50은 COCO val2017에서 53.1% AP와 108 FPS를 달성하여, 기존 YOLO 탐지기를 속도와 정확도 모두에서 능가했다. RT-DETR-R101은 54.3% AP와 74 FPS를 달성했다. 또한 RT-DETR-R50은 DINO-Deformable-DETR-R50보다 2.2% AP 높고 약 21배 빠른 속도를 보였다.
Statystyki
본 논문에서 제안한 RT-DETR-R50 모델은 COCO val2017 데이터셋에서 53.1% AP를 달성했다.
RT-DETR-R101 모델은 COCO val2017 데이터셋에서 54.3% AP를 달성했다.
RT-DETR-R50 모델은 T4 GPU에서 108 FPS의 추론 속도를 보였다.
RT-DETR-R101 모델은 T4 GPU에서 74 FPS의 추론 속도를 보였다.
Cytaty
"YOLO 시리즈는 속도와 정확도의 적절한 균형으로 인해 실시간 객체 탐지에서 가장 널리 사용되는 프레임워크가 되었다."
"최근 엔드-투-엔드 Transformer 기반 탐지기(DETR)가 NMS를 제거하는 대안을 제공했지만, 높은 계산 비용으로 인해 실용성이 제한되어 왔다."
"본 논문에서는 이러한 딜레마를 해결하는 실시간 탐지 Transformer(RT-DETR)를 제안한다."