核心概念
단순 모방 학습만으로는 정밀 조립과 같은 고정밀 작업을 수행하기에 충분하지 않으며, 잔차 강화 학습을 통해 행동 복제 모델을 개선하여 로봇의 조립 성공률을 높일 수 있다.
摘要
ResiP: 잔차 강화 학습 기반 정밀 조립 로봇 제어
본 연구 논문에서는 행동 복제(BC)와 강화 학습(RL)을 결합하여 로봇 조립과 같은 장기간 계획 및 고정밀 제어가 요구되는 조작 작업에서 높은 성공률을 달성하는 ResiP(Residual for Precise Manipulation) 방법을 제시합니다.
본 연구는 행동 복제(BC)만으로는 달성하기 어려운 고정밀 로봇 조작 작업의 성공률을 향상시키기 위해 잔차 강화 학습(RL)을 활용하는 것을 목표로 합니다.
ResiP는 먼저 데모 데이터셋을 사용하여 행동 복제(BC) 모델을 학습시킵니다. 이 모델은 궤적 세그먼트(즉, 오픈 루프로 실행되는 액션 청크)를 예측하는 "플래너" 역할을 합니다. 그러나 BC 모델은 오픈 루프 방식으로 액션 청크를 실행하기 때문에 안정적인 실행에 필요한 세밀한 반응성이 부족합니다.
이러한 BC 모델의 한계를 극복하기 위해 ResiP는 학습된 BC 모델을 고정시키고, RL을 사용하여 학습된 작은 단일 단계 잔차 정책으로 이를 보강합니다. 잔차 정책은 각 상태와 액션을 관찰하고 BC 모델에서 예측한 액션에 추가할 수정 액션을 예측합니다.