Concetti Chiave
RTMO는 YOLO 아키텍처에 좌표 분류를 통합하여 상위 다운 방식과 유사한 정확도를 달성하면서도 높은 속도를 유지하는 원스테이지 자세 추정 모델이다.
Sintesi
이 논문은 실시간 다중 인물 자세 추정을 위한 RTMO 모델을 소개한다. RTMO는 YOLO 아키텍처에 좌표 분류 기법을 통합하여 구현되었다.
RTMO의 핵심 구성요소는 다음과 같다:
- Dynamic Coordinate Classifier (DCC): 각 인스턴스의 바운딩 박스에 맞춰 동적으로 좌표 빈을 할당하고 표현을 학습하여 효율적인 좌표 예측을 수행한다.
- Maximum Likelihood Estimation (MLE) 기반 손실 함수: 샘플의 불확실성을 학습하여 어려운 샘플과 쉬운 샘플 간 균형을 맞추는 최적화를 수행한다.
RTMO는 기존 원스테이지 모델 대비 정확도와 속도 면에서 모두 우수한 성능을 보인다. COCO 벤치마크에서 최고 73.3% AP를 달성하였으며, 단일 V100 GPU에서 141 FPS의 추론 속도를 보였다. CrowdPose 데이터셋에서도 새로운 최고 성능을 기록하였다.
Statistiche
RTMO-l 모델은 COCO val2017 데이터셋에서 74.8% AP를 달성하였다.
RTMO-l 모델은 단일 V100 GPU에서 141 FPS의 추론 속도를 보였다.
RTMO-l 모델은 CrowdPose 데이터셋에서 73.2% AP를 달성하여 원스테이지 모델 중 최고 성능을 기록하였다.
Citazioni
"RTMO는 YOLO 아키텍처에 좌표 분류를 통합하여 상위 다운 방식과 유사한 정확도를 달성하면서도 높은 속도를 유지하는 원스테이지 자세 추정 모델이다."
"RTMO의 Dynamic Coordinate Classifier (DCC)는 각 인스턴스의 바운딩 박스에 맞춰 동적으로 좌표 빈을 할당하고 표현을 학습하여 효율적인 좌표 예측을 수행한다."
"RTMO의 Maximum Likelihood Estimation (MLE) 기반 손실 함수는 샘플의 불확실성을 학습하여 어려운 샘플과 쉬운 샘플 간 균형을 맞추는 최적화를 수행한다."