이 논문은 강화 학습의 두 가지 주요 시간적 패러다임인 할인 보상과 평균 보상에 대해 다룬다. 할인 보상 알고리즘은 성능이 좋지만 평가 오류가 발생할 수 있는 반면, 평균 보상 알고리즘은 성능이 다소 낮지만 무한 시간 관점의 예측이 가능하다는 특징이 있다.
저자들은 마르코프 흐름 정책(Markov Flow Policy, MFP)이라는 새로운 알고리즘을 제안한다. MFP는 비음수 신경망 흐름을 활용하여 포괄적인 미래 예측을 가능하게 하며, 평균 보상 강화 학습 알고리즘의 성능을 크게 향상시킨다.
MFP는 TD7 코드베이스에 통합되어 MuJoCo 벤치마크에서 평가되었다. 실험 결과, MFP는 기존 DDPG 알고리즘에 비해 평균 16.16% 향상된 성능을 보였다. 특히 ant 환경에서 109.3%의 성능 향상을 보였다. 이를 통해 MFP가 평균 보상 강화 학습 문제에 대한 실용적이고 효과적인 솔루션임을 입증하였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies