이 연구는 인간과 OpenAI의 GPT-4 대규모 언어 모델의 문제 해결 행동을 조사하여 가산 편향을 탐구했다. 588명의 미국 참가자와 680회의 GPT-4 모델 반복을 통해 4개의 사전 등록된 실험을 수행했다.
실험 1과 3에서는 대칭성 생성 과제를, 실험 2와 4에서는 요약문 편집 과제를 사용했다. 해결 효율성(실험 1, 2)과 지시문 가치(실험 3, 4)를 조작했다.
전반적으로 가산 편향이 관찰되었다. 인간 참가자는 감산이 상대적으로 더 효율적일 때 가산 전략을 덜 사용했지만, GPT-4는 반대로 감산이 더 효율적일 때 가산 전략을 더 많이 사용했다. 지시문 가치 측면에서 GPT-4는 "편집"보다 "개선"할 때 더 많은 단어를 추가했지만, 인간은 이런 효과가 나타나지 않았다.
이 연구 결과는 일상생활에서 감산 해결책을 고려할 필요성과 언어 모델의 출력을 신중히 평가해야 할 필요성을 시사한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询