LM 잠재 공간의 의미론을 이해하고 분석하는 새로운 방법론을 제안한다. 어휘 기반의 의미 기준을 정의하여 모델 중심의 분석을 가능하게 하고, 이를 통해 성능 향상과 해석 가능성 제고를 도모한다.
GPT-NEO 125M 모델은 학습 데이터에서 전체 문단을 암기하고 재현할 수 있으며, 이러한 암기 메커니즘은 모델의 다양한 층과 구성 요소에 걸쳐 있지만 특정 주요 구성 요소에 집중되어 있다.
신뢰할 수 없는 언어 모델의 활성화 패턴에서 진실을 가리키는 패턴을 찾아내는 Eliciting Latent Knowledge (ELK) 방법론을 소개하고 평가한다.
LLM은 정치적 편향성을 보이며, 이는 미디어 편향성 탐지에 중요한 영향을 미친다.
대규모 언어 모델이 다양한 문화적 맥락을 적절히 반영하지 못하고 서구 문화에 편향된 모습을 보인다.