이 연구는 장문 문맥 학습 능력을 평가하기 위한 벤치마크 LongICLBench를 소개한다. LongICLBench는 28개에서 174개의 레이블을 가진 6개의 데이터셋으로 구성되어 있으며, 입력 길이가 2K에서 50K 토큰까지 다양하다.
연구 결과, 장문 문맥 LLM은 입력 길이가 짧은 경우 긴 문맥을 효과적으로 활용할 수 있지만, 입력 길이가 길어질수록 성능이 크게 저하된다. 특히 174개의 레이블을 가진 가장 어려운 Discovery 데이터셋에서는 모든 LLM이 과제 정의를 이해하지 못해 0에 가까운 정확도를 보였다.
추가 분석을 통해 일부 모델은 문맥 내 레이블 위치에 민감하게 반응하는 경향이 있음을 발견했다. 이는 장문 문맥 이해와 추론 능력이 현재 LLM에게 여전히 큰 과제임을 시사한다. LongICLBench는 향후 장문 문맥 LLM 평가를 위한 더 현실적인 벤치마크가 될 것으로 기대된다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询