텍스트-이미지 생성 모델의 출력물에 존재하는 인공물, 부정합, 낮은 미적 품질 등의 문제를 해결하기 위해 풍부한 인간 피드백 데이터셋을 수집하고 이를 활용하여 자동으로 피드백을 예측하는 모델을 개발하였다.
텍스트 프롬프트와 정확하게 일치하는 이미지를 생성하는 것은 여전히 큰 과제이다. 이 연구는 초기 노이즈의 유효성이 이 문제의 근본 원인이라고 밝히고, 초기 노이즈 최적화(INITNO) 기법을 제안한다. INITNO는 초기 잠재 공간을 유효 및 무효 영역으로 분할하고, 노이즈를 유효 영역으로 안내하는 최적화 파이프라인을 개발한다.
다중 주제 개인화를 위해 세그먼트 마스크를 활용하여 주체 간 아이덴티티를 효과적으로 분리할 수 있다.
LCM 기반 미리보기 메커니즘을 활용하여 인코더 기반 텍스트-이미지 개인화 모델의 정체성 보존과 프롬프트 정렬을 향상시킨다.
참조 이미지를 기반으로 사용자 맞춤형 텍스트-이미지 생성을 위한 인간 해석 가능하고 전이 가능한 프롬프트를 자동으로 생성하는 PRISM 알고리즘을 제안한다.
본 연구는 대규모 언어 모델(LLM)을 활용하여 텍스트-이미지 생성 모델의 프롬프트-이미지 일관성을 향상시키는 최적화 프레임워크를 제안한다.
선택적 정보 설명(SID)을 통해 텍스트-이미지 개인화 모델의 원치 않는 임베딩 얽힘을 효과적으로 감소시킬 수 있다.
LLM을 활용하여 텍스트-이미지 모델의 안전 필터를 우회하고 원치 않는 이미지를 생성할 수 있다.