이 연구는 텍스트-이미지 개인화에서 발생하는 원치 않는 임베딩 얽힘 문제를 해결하기 위해 선택적 정보 설명(SID)을 제안한다.
먼저 배경, 근접 객체, 연관 객체, 질감 재배치, 자세 편향 등 5가지 주요 편향을 확인하였다. 이러한 편향은 참조 이미지의 정보가 주체 임베딩에 얽히면서 발생한다.
이를 해결하기 위해 SID를 제안했다. SID는 참조 이미지의 텍스트 설명에 주체 이외의 객체에 대한 정보를 추가하는 방식이다. 이를 통해 주체 임베딩과 비주체 정보의 얽힘을 효과적으로 감소시킬 수 있다.
SID는 최적화 기반 모델(DreamBooth, Custom Diffusion, SVDiff, Textual Inversion)에 통합되었으며, 교차 주의 맵 분석과 주체 정렬, 비주체 분리, 텍스트 정렬 등의 정량적 평가를 통해 SID의 우수성을 입증하였다. 또한 인간 평가에서도 SID의 효과를 확인하였다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések