Core Concepts
활성 추론은 에이전트가 환경에서 행동을 선택하고 학습하는 메커니즘을 설명하는 이론입니다. 이 논문에서는 이산 시간 환경에서의 활성 추론에 대한 간단하고 명확한 수학적 설명을 제공합니다.
Abstract
이 논문은 활성 추론의 이산 시간 모델에 대한 간단하고 명확한 수학적 설명을 제공합니다.
주요 내용은 다음과 같습니다:
- 추론 부분:
- 에이전트가 주어진 생성 모델을 사용하여 현재 및 미래 상태에 대한 신념을 업데이트하는 방법 설명
- 기대 자유 에너지 함수를 정의하고 이를 사용하여 행동을 선택하는 메커니즘 설명
- 학습 부분:
- 에이전트가 생성 모델의 매개변수를 디리클레 사전을 사용하여 학습하는 방법 설명
- 예시:
- T-미로 환경에서 에이전트의 행동 선택 과정을 자세히 설명
논문은 활성 추론의 수학적 세부사항과 구현에 초점을 맞추고 있으며, 이론적 동기부여나 뇌 구현에 대해서는 다루지 않습니다.
Stats
에이전트의 상태 공간은 위치와 보상 조건의 2차원으로 구성됩니다.
관측 공간은 위치, 보상, 단서의 3차원으로 구성됩니다.
행동 공간은 중심으로 이동, 오른쪽 팔로 이동, 왼쪽 팔로 이동, 단서 위치로 이동의 4가지 행동으로 구성됩니다.
관측 커널 p(o|s)와 전이 동역학 커널 p(s'|s,a)는 구체적인 수식으로 정의됩니다.
선호 분포 pC는 보상 관측을 선호하고 손실 관측을 억제하도록 정의됩니다.
Quotes
"활성 추론은 에이전트의 행동 선택 및 학습 메커니즘을 설명하는 이론이다."
"이 논문에서는 이산 시간 환경에서의 활성 추론에 대한 간단하고 명확한 수학적 설명을 제공한다."
"에이전트는 기대 자유 에너지 함수를 최소화하는 방식으로 행동을 선택한다."