이 논문은 그리디-GQ 알고리즘의 유한 시간 오차 한계를 분석한다. 그리디-GQ 알고리즘은 선형 함수 근사를 사용하는 최적 제어 문제에서 사용되는 오프-정책 알고리즘이다.
논문의 주요 내용은 다음과 같다:
그리디-GQ 알고리즘이 i.i.d. 설정에서 O(1/√T), 마르코프 설정에서 O(log T/√T)의 속도로 수렴함을 보였다.
중첩 루프 방식의 그리디-GQ 알고리즘 변형을 제안하고, 이의 샘플 복잡도가 O(log(1/ϵ)ϵ^-2)임을 보였다. 이는 기존 그리디-GQ 알고리즘과 동일한 수준이다.
그리디-GQ 알고리즘의 유한 시간 오차 한계는 일반적인 비볼록 최적화 문제에 대한 확률적 경사 하강법의 결과와 일치한다. 이는 두 시간 규모 업데이트의 추가적인 어려움에도 불구하고 달성된 것이다.
제안된 분석 기법은 두 시간 규모 비볼록 강화 학습 알고리즘에 대한 일반적인 접근 방식을 제공한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yue Wang,Yi ... lúc arxiv.org 05-03-2024
https://arxiv.org/pdf/2209.02555.pdfYêu cầu sâu hơn