核心概念
커널 릿지 회귀를 사용하여 대규모 상태-행동 공간과 복잡한 가치 함수에서 최적의 후회율 보장을 달성하는 강화 학습 알고리즘을 제안한다.
摘要
이 논문은 강화 학습 문제에서 복잡한 모델과 대규모 상태-행동 공간을 다루는 방법을 제안한다. 기존 연구는 주로 소규모 상태-행동 공간이나 선형 모델에 초점을 맞추었지만, 실제 세계 문제에서는 더 복잡한 모델과 대규모 공간이 필요하다.
논문에서는 커널 릿지 회귀를 사용하여 상태-행동 가치 함수를 표현하는 강화 학습 알고리즘 π-KRVI를 제안한다. π-KRVI는 도메인 분할 기법을 사용하여 더 나은 신뢰 구간을 얻고, 이를 통해 최적의 후회율 보장을 달성한다.
구체적으로:
- π-KRVI는 상태-행동 공간을 하위 도메인으로 분할하고, 각 하위 도메인에서 커널 릿지 회귀를 수행한다. 이를 통해 더 나은 신뢰 구간을 얻을 수 있다.
- 커널 스펙트럼의 크기 변화를 활용하여 최대 정보 획득과 함수 클래스 커버링 수를 개선한다.
- 이를 바탕으로 다항식 고유값 감쇄 커널에 대해 ˜O(H2T(d+α/2)/(d+α)) 후회율 보장을 달성한다. 이는 기존 결과 대비 큰 개선이다.
- Matérn 커널의 경우, 이 결과는 커널화된 밴딧 문제에 대한 하한과 일치한다(로그 인자 차이).
统计
상태-행동 공간 크기 |S × A|에 의존하지 않고 H2T(d+α/2)/(d+α)의 후회율 보장
Matérn 커널의 경우, 커널화된 밴딧 문제의 하한과 일치하는 후회율 보장
引用
"커널 릿지 회귀는 강력한 예측기와 불확실성 추정기를 제공하여 강화 학습 알고리즘의 설계와 분석에 활용될 수 있다."
"기존 분석 결과는 주로 상태-행동 수가 작거나 선형 모델과 같은 단순한 모델에 초점을 맞추고 있다."