Core Concepts
대규모 멀티모달 모델은 이미지와 인간 지시에 일관되지 않은 설명을 생성하는 환각 문제가 있다. 이 논문은 이를 해결하기 위해 대규모 강력한 비전 지시 튜닝 데이터셋 LRV-Instruction을 소개한다.
Abstract
이 논문은 대규모 멀티모달 모델(LMM)의 환각 문제를 해결하기 위해 LRV-Instruction이라는 대규모 비전 지시 튜닝 데이터셋을 소개한다.
- LRV-Instruction은 400k개의 비전 지시로 구성되어 있으며, 16개의 비전-언어 작업과 긍정적/부정적 지시를 포함한다.
- 부정적 지시는 (i) 존재하지 않는 객체 조작, (ii) 존재하는 객체 조작, (iii) 지식 조작의 3가지 의미 수준에서 생성되었다.
- 모델의 환각을 효과적으로 측정하기 위해 GAVIE(GPT4-Assisted Visual Instruction Evaluation)를 제안했다. GAVIE는 인간 평가와 일치하며 사전 정의된 형식에 구애받지 않는다.
- 실험 결과, 기존 LMM은 특히 존재하는 객체 조작과 지식 조작 지시에서 심각한 환각을 보였다. 반면 LRV-Instruction으로 미세 조정한 모델은 환각이 크게 감소하고 다양한 공개 데이터셋에서 최신 성능을 달성했다.
- 긍정적 및 부정적 인스턴스의 균형 잡힌 비율이 더 강력한 모델 성능을 위해 필요하다는 것을 관찰했다.
Stats
이미지에 언급된 개체가 없다는 것은 사용자를 혼란스럽게 하고 정확한 세부 사항을 찾기 어렵게 만들 수 있다.
모델이 제공한 자세한 설명에도 불구하고 이미지에 개체나 공 가 없다.
Quotes
"There is no hot air balloon mentioned in the image."
"No, Hillary Clinton arrived to the Los Angeles Get Out The Vote Rally in the image."