이 논문은 대형 비전-언어 모델(LVLM)에서 발생하는 객체 환각 문제를 다룬다. 객체 환각은 이미지에 실제로 존재하지 않는 객체를 생성하는 문제로, 다양한 비전-언어 작업에 부정적인 영향을 미칠 수 있다.
저자들은 객체 환각의 주요 요인을 통계적으로 분석했다. 첫째, 공동 발생(co-occurrence) 패턴: 학습 데이터에 특정 객체들이 자주 함께 나타나면 모델이 이를 학습하여 실제로는 존재하지 않는 객체를 생성할 수 있다. 둘째, 불확실성(uncertainty): 모델이 불확실한 객체를 생성할 가능성이 높다. 셋째, 객체 위치(position): 생성된 텍스트의 후반부에 더 많은 환각이 나타난다.
이를 바탕으로 저자들은 LURE라는 후처리 방식의 객체 환각 교정기를 제안했다. LURE는 공동 발생, 불확실성, 위치 정보를 활용하여 환각이 포함된 설명문을 정확한 설명문으로 변환한다. 실험 결과, LURE는 기존 최고 성능 방법보다 객체 환각을 효과적으로 줄일 수 있었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yiyang Zhou,... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2310.00754.pdfDeeper Inquiries