이 논문에서는 CLIP-VQDiffusion이라는 새로운 모델을 제안한다. 이 모델은 CLIP의 멀티모달 임베딩 공간과 벡터 양자화 확산 모델을 활용하여 텍스트 없이도 텍스트 기반 이미지 생성이 가능하다.
사전 학습 단계에서 VQ-GAN을 통해 이미지 토크나이저를 학습한다. 학습 단계에서는 CLIP 이미지 임베딩을 활용하여 노이즈가 있는 이미지 잠재 코드를 깨끗한 잠재 코드로 복원하는 확산 모델을 학습한다. 추론 단계에서는 CLIP 텍스트 임베딩을 활용하여 이미지를 생성한다.
실험 결과, FFHQ 데이터셋에서 기존 최신 방법보다 4.4% 향상된 clipscore를 달성했으며, 분포 내/외의 텍스트에 대해서도 매우 사실적인 이미지를 생성할 수 있었다. COCO 데이터셋에서도 기존 방법과 비교할만한 성능을 보였다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы