비전-언어 모델은 텍스트와 이미지 정보를 통합하여 이미지 캡셔닝, 시각적 질문 답변 등의 복잡한 과제를 해결할 수 있는 혁신적인 AI 모델이다.
Long-CLIP은 CLIP의 장문 텍스트 입력 기능을 향상시켜 장문 텍스트 기반 이미지-텍스트 검색 성능을 크게 개선하고, 텍스트 기반 이미지 생성 능력을 확장한다.
비전-언어 모델의 암시적 지식을 다양한 하위 작업에 적응시키기 위해 연성 문맥 공유를 통한 프롬프트 튜닝 기법을 제안한다.
본 연구는 프롬프트 학습의 일반화 능력을 향상시키기 위해 메타 정규화 기법을 제안한다. 구체적으로 ProMetaR은 정규화기와 프롬프트를 동시에 메타 학습하여 특정 태스크의 지식과 일반적인 지식을 효과적으로 활용한다. 또한 메타 과적합을 해결하기 위해 태스크 증강 기법을 도입한다.
대규모 멀티모달 모델은 이미지와 인간 지시에 일관되지 않은 설명을 생성하는 환각 문제가 있다. 이 논문은 이를 해결하기 위해 대규모 강력한 비전 지시 튜닝 데이터셋 LRV-Instruction을 소개한다.
대형 비전-언어 모델은 객체 환각 문제를 겪고 있으며, 이는 시각 요약 및 추론과 같은 다양한 비전-언어 작업에 부정적인 영향을 미칠 수 있다. 이를 해결하기 위해 LURE라는 간단하면서도 강력한 알고리즘을 제안한다.