이 연구는 LLM이 문서 관련성 평가 시 인지적 편향인 임계값 프라이밍 효과에 영향을 받는지 탐구했다. 실험 결과, LLM은 이전 문서의 관련성 수준에 따라 후속 문서의 관련성 점수를 체계적으로 편향되게 평가하는 것으로 나타났다. 구체적으로:
프롤로그의 길이가 4이고 에필로그의 길이가 4일 때, GPT-3.5, GPT-4, LLaMa2-13B, LLaMa2-70B 모두 임계값 프라이밍의 영향을 받았다. GPT-3.5와 GPT-4가 LLaMa2-13B와 LLaMa2-70B보다 더 큰 영향을 받았다.
주제별로 LLM의 임계값 프라이밍 효과 정도가 다르게 나타났다. 일부 주제에서는 대부분의 모델이 임계값 프라이밍 효과를 보이지 않았거나 앵커링 효과와 유사한 결과를 보였다.
이 연구 결과는 LLM의 인지적 편향을 이해하고 IR 평가 과정에서 이를 고려할 필요성을 시사한다. 향후 연구에서는 다양한 주제와 문서 조합, 추가 LLM 모델을 활용해 이 현상을 더 깊이 탐구할 필요가 있다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問