Keskeiset käsitteet
본 논문에서는 자기회귀 전문가 혼합 모델을 활용하여 관측 데이터로부터 제어 정책을 학습하는 새로운 모방 학습 방법을 제안합니다.
Tiivistelmä
관측 기반 모방 학습: 자기회귀 전문가 혼합 접근 방식
본 연구는 운전자의 행동 데이터만을 이용하여 제어 정책을 학습하는 것을 목표로 합니다. 이는 기존의 모방 학습 방법들이 제어 입력 정보에 의존하는 것과 차별화되는 점입니다.
본 연구에서는 자기회귀 전문가 혼합 (Autoregressive Mixture of Experts, AME) 모델을 활용하여 제어 정책을 모델링합니다. AME 모델은 여러 개의 선형 시스템 (전문가)으로 구성되며, 각 시스템은 특정 상황에서의 제어 정책을 나타냅니다. 게이팅 함수는 현재 상태 및 이전 제어 입력을 기반으로 어떤 전문가를 선택할지 결정합니다. 모델 학습은 두 단계로 이루어집니다. 첫 번째 단계에서는 시스템 역학 모델을 이용하여 제어 입력 시퀀스를 추정합니다. 두 번째 단계에서는 추정된 제어 입력 시퀀스를 사용하여 정규화된 최대 가능도 추정 문제를 해결하여 정책을 학습합니다. 또한, 다단계 예측의 정확성을 위해 Lyapunov 안정성 제약 조건을 학습 절차에 통합하여 식별된 모델의 점근적 안정성을 보장합니다.