이 논문은 강화 학습 정책의 교란에 대한 강건성을 향상시키는 방법을 제안한다. 강화 학습 정책은 시뮬레이션에서 학습되지만 실제 환경에 배포될 때 성능이 저하되는 문제가 있다. 이는 모델링 오류, 측정 오류, 실제 환경의 예측 불가능한 교란 때문이다.
저자들은 리프 쉬츠 정규화가 가치 함수 추정의 민감도를 줄여 정책의 강건성을 향상시킬 수 있다고 가정한다. 이를 위해 빠른 경사 부호 방법(FGSM)을 활용하여 가치 함수 추정의 오차를 줄이는 "명시적 리프 쉬츠 값 추정(ELVEn)"을 제안한다.
실험 결과, ELVEn-SAC가 기존 방법인 SC-SAC보다 교란에 대한 강건성이 높고 기본 환경에서의 성능도 유사하거나 더 좋은 것으로 나타났다. 또한 ELVEn-SAC가 ϵ 하이퍼파라미터에 덜 민감한 것으로 확인되었다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Xulin Chen,R... klokken arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13879.pdfDypere Spørsmål