이 논문은 강화 학습 문제에서 복잡한 모델과 대규모 상태-행동 공간을 다루는 방법을 제안한다. 기존 연구는 주로 소규모 상태-행동 공간이나 선형 모델에 초점을 맞추었지만, 실제 세계 문제에서는 더 복잡한 모델과 대규모 공간이 필요하다.
논문에서는 커널 릿지 회귀를 사용하여 상태-행동 가치 함수를 표현하는 강화 학습 알고리즘 π-KRVI를 제안한다. π-KRVI는 도메인 분할 기법을 사용하여 더 나은 신뢰 구간을 얻고, 이를 통해 최적의 후회율 보장을 달성한다.
구체적으로:
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Sattar Vakil... a las arxiv.org 03-15-2024
https://arxiv.org/pdf/2306.07745.pdfConsultas más profundas