핵심 개념
대형 비전-언어 모델은 객체 환각 문제를 겪고 있으며, 이는 시각 요약 및 추론과 같은 다양한 비전-언어 작업에 부정적인 영향을 미칠 수 있다. 이를 해결하기 위해 LURE라는 간단하면서도 강력한 알고리즘을 제안한다.
초록
이 논문은 대형 비전-언어 모델(LVLM)에서 발생하는 객체 환각 문제를 다룬다. 객체 환각은 이미지에 실제로 존재하지 않는 객체를 생성하는 문제로, 다양한 비전-언어 작업에 부정적인 영향을 미칠 수 있다.
저자들은 객체 환각의 주요 요인을 통계적으로 분석했다. 첫째, 공동 발생(co-occurrence) 패턴: 학습 데이터에 특정 객체들이 자주 함께 나타나면 모델이 이를 학습하여 실제로는 존재하지 않는 객체를 생성할 수 있다. 둘째, 불확실성(uncertainty): 모델이 불확실한 객체를 생성할 가능성이 높다. 셋째, 객체 위치(position): 생성된 텍스트의 후반부에 더 많은 환각이 나타난다.
이를 바탕으로 저자들은 LURE라는 후처리 방식의 객체 환각 교정기를 제안했다. LURE는 공동 발생, 불확실성, 위치 정보를 활용하여 환각이 포함된 설명문을 정확한 설명문으로 변환한다. 실험 결과, LURE는 기존 최고 성능 방법보다 객체 환각을 효과적으로 줄일 수 있었다.
통계
객체 환각이 많이 발생하는 설명문일수록 공동 발생 점수가 높다.
환각 객체는 불확실성이 높은 객체에서 더 많이 나타난다.
생성된 텍스트의 후반부에 더 많은 환각 객체가 포함되어 있다.
인용구
"Large vision-language models (LVLMs) have shown remarkable abilities in understanding visual information with human languages. However, LVLMs still suffer from object hallucination, which is the problem of generating descriptions that include objects that do not actually exist in the images."
"To address this issue, we propose a simple yet powerful algorithm, LVLM Hallucination Revisor (LURE), to post-hoc rectify object hallucination in LVLMs by reconstructing less hallucinatory descriptions."