이 논문은 그리디-GQ 알고리즘의 유한 시간 오차 한계를 분석한다. 그리디-GQ 알고리즘은 선형 함수 근사를 사용하는 최적 제어 문제에서 사용되는 오프-정책 알고리즘이다.
논문의 주요 내용은 다음과 같다:
그리디-GQ 알고리즘이 i.i.d. 설정에서 O(1/√T), 마르코프 설정에서 O(log T/√T)의 속도로 수렴함을 보였다.
중첩 루프 방식의 그리디-GQ 알고리즘 변형을 제안하고, 이의 샘플 복잡도가 O(log(1/ϵ)ϵ^-2)임을 보였다. 이는 기존 그리디-GQ 알고리즘과 동일한 수준이다.
그리디-GQ 알고리즘의 유한 시간 오차 한계는 일반적인 비볼록 최적화 문제에 대한 확률적 경사 하강법의 결과와 일치한다. 이는 두 시간 규모 업데이트의 추가적인 어려움에도 불구하고 달성된 것이다.
제안된 분석 기법은 두 시간 규모 비볼록 강화 학습 알고리즘에 대한 일반적인 접근 방식을 제공한다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yue Wang,Yi ... klo arxiv.org 05-03-2024
https://arxiv.org/pdf/2209.02555.pdfSyvällisempiä Kysymyksiä