RIME은 선호도 기반 강화 학습(PbRL)에서 노이즈가 있는 선호도로부터 효과적으로 보상 함수를 학습하기 위한 강건한 알고리즘이다.
RIME의 주요 구성 요소는 다음과 같다:
동적 임계값을 사용하는 디노이징 판별기: 예측된 선호도와 실제 선호도 레이블 간의 KL divergence를 기반으로 신뢰할 수 있는 샘플을 선별한다. 이를 통해 노이즈가 있는 선호도로부터 강건하게 보상 함수를 학습할 수 있다.
보상 모델의 웜 스타트: 사전 학습 단계에서 내재적 보상을 이용해 보상 모델을 사전 학습하여, 온라인 학습 단계로의 전환 시 발생하는 성능 저하를 완화한다.
실험 결과, RIME은 다양한 로봇 조작 및 보행 과제에서 기존 PbRL 알고리즘들을 크게 능가하며, 노이즈가 있는 선호도에 대한 강건성을 크게 향상시킨다. 또한 웜 스타트 기법이 강건성과 피드백 효율성 측면에서 모두 중요한 역할을 한다는 것을 확인하였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jie Cheng,Ga... a las arxiv.org 03-13-2024
https://arxiv.org/pdf/2402.17257.pdfConsultas más profundas