본 논문은 텍스트-이미지(T2I) 생성 모델의 프롬프트-이미지 일관성을 향상시키기 위한 최적화 프레임워크인 OPT2I를 소개한다. OPT2I는 사전 학습된 T2I 모델, LLM, 그리고 프롬프트-이미지 일관성 점수 측정기로 구성된다. 사용자가 제공한 프롬프트를 시작으로, LLM은 일관성 점수를 최대화하는 대안 프롬프트를 반복적으로 생성한다. 실험 결과, OPT2I는 다양한 T2I 모델과 LLM, 일관성 지표에 대해 강건하게 작동하며, 기존 프롬프트 대비 최대 24.9%의 일관성 향상을 달성할 수 있다. 정성적 분석에 따르면, 최적화된 프롬프트는 생성된 이미지에서 누락된 요소들을 강조하거나 프롬프트 내 순서를 변경하여 일관성을 높인다.
To Another Language
from source content
arxiv.org
Deeper Inquiries