RIME은 선호도 기반 강화 학습(PbRL)에서 노이즈가 있는 선호도로부터 효과적으로 보상 함수를 학습하기 위한 강건한 알고리즘이다.
RIME의 주요 구성 요소는 다음과 같다:
동적 임계값을 사용하는 디노이징 판별기: 예측된 선호도와 실제 선호도 레이블 간의 KL divergence를 기반으로 신뢰할 수 있는 샘플을 선별한다. 이를 통해 노이즈가 있는 선호도로부터 강건하게 보상 함수를 학습할 수 있다.
보상 모델의 웜 스타트: 사전 학습 단계에서 내재적 보상을 이용해 보상 모델을 사전 학습하여, 온라인 학습 단계로의 전환 시 발생하는 성능 저하를 완화한다.
실험 결과, RIME은 다양한 로봇 조작 및 보행 과제에서 기존 PbRL 알고리즘들을 크게 능가하며, 노이즈가 있는 선호도에 대한 강건성을 크게 향상시킨다. 또한 웜 스타트 기법이 강건성과 피드백 효율성 측면에서 모두 중요한 역할을 한다는 것을 확인하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jie Cheng,Ga... lúc arxiv.org 03-13-2024
https://arxiv.org/pdf/2402.17257.pdfYêu cầu sâu hơn