이 논문은 텍스트-이미지 개인화 문제를 다룹니다. 최근 인코더 기반 접근법이 개인화 속도를 높였지만, 정체성 보존과 프롬프트 정렬에 어려움을 겪고 있습니다.
저자들은 다음과 같은 기술을 제안합니다:
LCM(Latent Consistency Model) 기반 미리보기 메커니즘: 이를 통해 이미지 공간 손실을 인코더 학습에 적용할 수 있습니다. 이는 정체성 보존을 향상시킵니다.
주의 집중 공유 모듈: 생성 이미지가 입력 이미지의 주의 집중 특징을 활용할 수 있게 하여, 정체성 보존을 높입니다.
일관된 데이터 생성: SDXL-Turbo를 활용하여 동일한 주체에 대한 다양한 스타일의 이미지를 생성함으로써 프롬프트 정렬을 향상시킵니다.
실험 결과, 제안 기법은 기존 인코더 기반 접근법 대비 정체성 보존과 프롬프트 정렬 성능이 향상되었음을 보여줍니다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Rinon Gal,Or... a las arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03620.pdfConsultas más profundas