Основные понятия
이 논문에서는 액션 기반 및 파라미터 기반 탐색 모두에서 작동하는 정책 기반 원시-듀얼 알고리즘을 통해 제약 조건이 있는 연속 제어 문제를 해결하기 위한 새로운 프레임워크를 제안하며, (약) 지배 가정 하에 전역적 마지막 반복 수렴 보장을 제공합니다.
Аннотация
제약 조건이 있는 강화 학습을 위한 정책 경사의 마지막 반복 전역 수렴: 연구 논문 요약
Montenegro, A., Mussi, M., Papini, M., & Metelli, A. M. (2024). Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning. Advances in Neural Information Processing Systems, 38.
본 연구 논문에서는 액션 기반 및 파라미터 기반 탐색 모두에서 작동하는 정책 기반 원시-듀얼 알고리즘을 통해 제약 조건이 있는 연속 제어 문제를 해결하기 위한 새로운 프레임워크를 제안합니다. 저자들은 제안된 알고리즘이 (약) 지배 가정 하에 전역적 마지막 반복 수렴 보장을 제공함을 증명합니다.