核心概念
텍스트-이미지 생성 모델의 출력물에 존재하는 인공물, 부정합, 낮은 미적 품질 등의 문제를 해결하기 위해 풍부한 인간 피드백 데이터셋을 수집하고 이를 활용하여 자동으로 피드백을 예측하는 모델을 개발하였다.
摘要
이 논문은 텍스트-이미지 생성 모델의 품질 향상을 위한 풍부한 인간 피드백 데이터셋과 모델을 제안한다.
- 데이터 수집:
- 18,000개의 생성 이미지에 대해 인간 평가자들이 이미지 내 인공물/부정합 영역, 텍스트-이미지 불일치 영역, 불일치 키워드, 그리고 4가지 세부 점수(현실성, 정렬성, 미적 품질, 전체 품질)를 제공하는 RichHF-18K 데이터셋을 구축하였다.
- 모델 개발:
- 멀티모달 트랜스포머 기반의 Rich Automatic Human Feedback (RAHF) 모델을 개발하여 생성 이미지에 대한 풍부한 피드백을 자동으로 예측할 수 있게 하였다.
- 활용 사례:
- RAHF 모델이 예측한 점수와 히트맵을 활용하여 생성 모델(Muse)의 파인튜닝 및 지역 인페인팅을 수행하여 생성 이미지의 품질을 향상시켰다.
이 연구는 텍스트-이미지 생성 모델의 품질을 향상시키기 위한 새로운 접근법을 제시하였으며, 향후 다양한 활용 방안을 제시하고 있다.
统计
생성 이미지의 약 10%만이 인공물 및 부정합이 없는 것으로 나타났다.
데이터셋 내 샘플의 약 25%가 완벽한 평가자 일치도를 보였고, 약 85%가 좋은 일치도를 보였다.
引用
"텍스트-이미지 (T2I) 생성 모델은 텍스트 설명을 기반으로 고해상도 이미지를 생성하는 데 큰 진전을 이루었지만, 여전히 많은 생성 이미지에서 인공물/부정합, 텍스트 설명과의 불일치, 낮은 미적 품질 등의 문제가 발생한다."
"이 논문에서는 (i) 이미지 내 부정합 또는 불일치 영역 표시, (ii) 텍스트 프롬프트에서 누락되거나 잘못 표현된 단어 주석 등의 풍부한 인간 피드백을 수집하고, 이를 자동으로 예측하는 모델을 개발한다."