핵심 개념
복합적인 가정 내 작업을 수행하는 로봇 에이전트는 환경 탐색과 물체 상호작용을 숙달해야 한다. 이를 위해 에이전트는 여러 하위 목표를 개별적으로 처리하는 다단계 합성 추론 접근법을 사용한다.
초록
이 연구는 복합적인 대화형 지시 따르기 작업을 해결하기 위한 다단계 합성 추론 에이전트(MCR-Agent)를 제안한다. MCR-Agent는 다음과 같은 3단계로 구성된다:
- 정책 합성 제어기(PCC): 언어 지시에 따라 수행할 하위 목표 순서를 추론한다.
- 마스터 정책(MP): 탐색을 전담하며, 상호작용이 필요한 시점을 판단한다.
- 상호작용 정책(IP): 개별 상호작용 작업을 수행한다.
이러한 다단계 구조를 통해 에이전트는 복잡한 작업을 효과적으로 처리할 수 있다. 특히 마스터 정책은 물체 인코딩 모듈(OEM)을 활용하여 탐색 중 상호작용 대상 물체를 파악한다.
실험 결과, MCR-Agent는 기존 방식 대비 높은 효율성을 보이며, 특히 새로운 환경에서 우수한 성능을 달성했다. 이는 다단계 합성 추론 접근법이 복합적인 대화형 지시 따르기 작업에 효과적임을 보여준다.
통계
제안한 MCR-Agent 모델은 기존 방식 대비 새로운 환경에서 10.84%의 절대적 성능 향상을 달성했다.
MCR-Agent는 기존 방식 대비 새로운 환경에서 9.69%의 경로 길이 가중 성공률 향상을 보였다.
인용구
"로봇 에이전트가 자연어 지시에 따라 가정 내 잡무를 수행하려면 복잡한 환경 탐색과 물체 상호작용을 숙달해야 한다."
"우리는 다단계 계층적 프레임워크인 MCR-Agent를 제안하여 복합적인 작업을 의미 있는 하위 목표로 분해하고, 해당 하위 목표를 효과적으로 처리한다."