Concetti Chiave
다양한 로봇 플랫폼의 데이터를 활용하여 일반화된 로봇 정책을 학습할 수 있음을 보여준다.
Sintesi
이 논문은 로봇 학습을 위한 대규모 데이터셋과 이를 활용한 RT-X 모델을 소개한다.
데이터셋 분석:
- 22개의 로봇 플랫폼, 60개의 개별 데이터셋으로 구성
- 프랑카 로봇이 가장 많은 데이터를 제공하며, xArm과 구글 로봇이 가장 많은 트라젝토리를 제공
- 다양한 물체와 행동이 포함되어 있음
모델 설계:
- RT-1-X와 RT-2-X 모델을 제안
- 이미지와 언어 지시를 입력받아 이산화된 엔드이펙터 액션을 출력
- 다양한 로봇 플랫폼의 데이터를 활용하여 학습
실험 결과:
- RT-1-X 모델은 개별 로봇 데이터셋 기반 모델 대비 50% 높은 성능 달성
- RT-2-X 모델은 개별 로봇 데이터셋 기반 모델 대비 3배 높은 일반화 성능 달성
- 모델 크기, 입력 히스토리 길이, 웹 사전 학습 등의 설계 선택이 성능에 중요한 영향을 미침
Statistiche
다양한 로봇 플랫폼에서 수집된 1백만 개 이상의 트라젝토리 데이터를 활용하였다.
이 데이터셋은 527개의 기술(160,266개 작업)을 포함하고 있다.
Citazioni
"Large, high-capacity models trained on diverse datasets have shown remarkable successes on efficiently tackling downstream applications."
"Can such a consolidation happen in robotics? Conventionally, robotic learning methods train a separate model for every application, every robot, and even every environment. Can we instead train 'generalist' X-robot policy that can be adapted efficiently to new robots, tasks, and environments?"