Download Linnk AI
•
Research Assistant
>
Sign In
insight
-
강화 학습 제어
연속 공간에서 정책 최적화를 가속화하기 위한 극값 탐색 기반 행동 선택
연속 공간에서 정책 최적화 과정에서 효율적인 탐색을 위해 극값 탐색 기반 행동 선택 기법을 제안한다. 이를 통해 저품질 궤적 샘플링을 줄이고 학습 효율을 높일 수 있다.
1