核心概念
연속적 도메인 무작위화(CDR)는 도메인 무작위화와 지속적 학습을 결합하여 시뮬레이션에서 순차적으로 무작위화 매개변수의 부분 집합을 학습함으로써 시뮬레이션-실제 전이를 향상시킨다.
要約
이 논문은 도메인 무작위화(DR)와 지속적 학습(CL)을 결합한 연속적 도메인 무작위화(CDR) 기법을 제안한다. DR은 시뮬레이션 매개변수를 무작위화하여 실제 시스템과의 격차를 줄이는 데 사용되지만, 많은 매개변수를 동시에 무작위화하면 태스크 난이도가 증가하여 최적의 정책을 찾기 어려워질 수 있다. CDR은 이 문제를 해결하기 위해 시뮬레이션에서 매개변수를 순차적으로 무작위화하고 CL을 사용하여 이전 무작위화의 영향을 기억하도록 한다.
CDR은 두 가지 버전으로 구현된다:
- CDR-λ: PPO 알고리즘과 정규화 기반 CL 알고리즘인 Elastic Weight Consolidation(EWC)를 결합한다. 각 무작위화 태스크에 대해 별도의 네트워크 스냅샷과 Fisher 정보 행렬을 저장한다.
- CDR-Oλ: PPO와 온라인 EWC를 결합하여 단일 네트워크와 Fisher 정보 행렬을 유지한다.
실험 결과, CDR 모델은 완전 무작위화 또는 순차적 무작위화 기반 파인튜닝 대비 시뮬레이션-실제 전이 성능이 우수하고 무작위화 순서에 덜 민감하다. 특히 CDR-Oλ가 가장 좋은 성능을 보였다.
統計
도달 태스크에서 CDR-Oλ 모델은 실제 시스템에서 가장 높은 보상을 얻었다.
그래스핑 태스크에서 CDR 모델은 파인튜닝 대비 실제 시스템 성능이 더 안정적이었다.
引用
"연속적 도메인 무작위화(CDR)는 도메인 무작위화와 지속적 학습을 결합하여 시뮬레이션에서 순차적으로 무작위화 매개변수의 부분 집합을 학습함으로써 시뮬레이션-실제 전이를 향상시킨다."
"CDR 모델은 완전 무작위화 또는 순차적 무작위화 기반 파인튜닝 대비 시뮬레이션-실제 전이 성능이 우수하고 무작위화 순서에 덜 민감하다."