그리디-GQ 알고리즘은 선형 함수 근사를 사용하는 최적 제어 문제에서 빠르게 수렴하며, 이 논문에서는 이에 대한 가장 엄밀한 유한 시간 오차 한계를 제시한다.
마르코프 흐름 정책은 비음수 신경망 흐름을 활용하여 포괄적인 미래 예측을 가능하게 하며, 평균 보상 강화 학습 알고리즘의 성능을 크게 향상시킨다.
다중 목표 강화 학습 문제를 단일 목표 강화 학습 하위 문제로 분해하고, 이를 효율적으로 탐색하기 위해 UCB 기반 획득 함수를 사용한다.
다중 카메라를 활용하여 단일 카메라에서도 최적의 정책을 학습할 수 있는 다중 관점 표현 학습 방법을 제안한다.
명시적 리프 쉬츠 값 추정과 빠른 경사 부호 방법을 결합하여 강화 학습 정책의 교란에 대한 강건성을 향상시킬 수 있다.
순차적 추천 시스템에서 강화 학습 알고리즘의 안정성과 성능을 향상시키기 위해 보수적 Q-러닝과 대조 학습 기법을 통합하는 방법을 제안한다.
모델 예측 제어 기반 접근법을 통해 환경 모델링과 가치 함수 추정을 개선하여 강화 학습의 효율성과 샘플 활용도를 높임
비전-언어 모델(VLM)을 활용하여 자연어 설명만으로 복잡한 과제를 학습할 수 있는 제로샷 보상 모델을 제안한다.
커널 릿지 회귀를 사용하여 대규모 상태-행동 공간과 복잡한 가치 함수에서 최적의 후회율 보장을 달성하는 강화 학습 알고리즘을 제안한다.
RIME은 노이즈가 있는 선호도에서도 효과적으로 보상 함수를 학습할 수 있는 강건한 선호도 기반 강화 학습 알고리즘이다.