이 논문은 다중 목표 강화 학습(MORL) 문제를 효과적으로 해결하는 방법을 제안한다. MORL 문제는 서로 상충되는 여러 목표를 최적화해야 하는 문제이다. 이를 위해 저자들은 다음과 같은 접근법을 제안한다:
다중 목표 문제를 선형 효용 함수로 표현된 단일 목표 강화 학습 하위 문제로 분해한다. 이를 위해 K개의 피벗 벡터를 사용하여 효용 함수 공간을 K개의 하위 공간으로 나눈다.
각 하위 공간에 대해 M개의 효용 함수 벡터를 정의하고, 이를 사용하여 K*M개의 단일 목표 강화 학습 문제를 풀어 Pareto 최적 해를 찾는다.
각 학습 단계에서 UCB 기반 획득 함수를 사용하여 Pareto 전선의 하이퍼볼륨을 최대화할 것으로 예상되는 효용 함수 벡터를 선택한다. 이를 통해 탐색과 활용의 균형을 달성한다.
실험 결과, 제안 방법이 다양한 기준선 방법들에 비해 우수한 성능을 보였다. 특히 Pareto 전선의 하이퍼볼륨이 크고, 정책 아카이브의 크기가 작아 메모리 효율성이 높다. 또한 정책이 효용 함수 공간에서 보간할 수 있어 추가 학습 없이도 성능을 개선할 수 있다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询