이 논문은 텍스트-이미지 개인화 문제를 다룹니다. 최근 인코더 기반 접근법이 개인화 속도를 높였지만, 정체성 보존과 프롬프트 정렬에 어려움을 겪고 있습니다.
저자들은 다음과 같은 기술을 제안합니다:
LCM(Latent Consistency Model) 기반 미리보기 메커니즘: 이를 통해 이미지 공간 손실을 인코더 학습에 적용할 수 있습니다. 이는 정체성 보존을 향상시킵니다.
주의 집중 공유 모듈: 생성 이미지가 입력 이미지의 주의 집중 특징을 활용할 수 있게 하여, 정체성 보존을 높입니다.
일관된 데이터 생성: SDXL-Turbo를 활용하여 동일한 주체에 대한 다양한 스타일의 이미지를 생성함으로써 프롬프트 정렬을 향상시킵니다.
실험 결과, 제안 기법은 기존 인코더 기반 접근법 대비 정체성 보존과 프롬프트 정렬 성능이 향상되었음을 보여줍니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Rinon Gal,Or... at arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03620.pdfDeeper Inquiries