核心概念
잠재 적대적 확산 증류(LADD)는 기존 방식의 한계를 극복하고 고해상도 다중 종횡비 이미지 합성을 가능하게 하는 새로운 증류 접근법이다.
要約
이 논문은 확산 모델의 느린 추론 속도 문제를 해결하기 위해 제안된 새로운 증류 접근법인 잠재 적대적 확산 증류(LADD)를 소개한다.
LADD의 핵심 내용은 다음과 같다:
- 픽셀 기반 접근법 대신 사전 학습된 잠재 확산 모델의 생성 특징을 활용하여 훈련을 단순화하고 성능을 향상시킴
- 노이즈 수준에 따른 차별화된 피드백을 제공하여 전역적 형태와 지역적 특징을 효과적으로 제어할 수 있음
- 잠재 공간에서 작동하므로 대용량 모델 활용과 고해상도 합성이 가능
이를 통해 LADD는 기존 방식보다 훨씬 간단한 훈련 설정으로도 우수한 성능을 달성할 수 있다.
논문에서는 LADD를 Stable Diffusion 3 모델에 적용하여 SD3-Turbo를 개발했다. SD3-Turbo는 4단계의 샘플링만으로도 원본 모델과 동등한 이미지 품질을 달성할 수 있다. 또한 다양한 응용 분야(이미지 편집, 이미지 복원)에서도 LADD의 효과를 입증했다.
統計
확산 모델은 일반적으로 수십 번의 네트워크 평가가 필요하여 추론이 느리다.
적대적 확산 증류(ADD)는 단일 단계 합성을 달성했지만, 고정된 사전 학습 DINOv2 네트워크의 한계가 있다.
LADD는 사전 학습된 잠재 확산 모델의 생성 특징을 활용하여 훈련을 단순화하고 성능을 향상시킴.
引用
"LADD는 기존 방식의 한계를 극복하고 고해상도 다중 종횡비 이미지 합성을 가능하게 하는 새로운 증류 접근법이다."
"LADD는 사전 학습된 잠재 확산 모델의 생성 특징을 활용하여 훈련을 단순화하고 성능을 향상시킨다."
"SD3-Turbo는 4단계의 샘플링만으로도 원본 모델과 동등한 이미지 품질을 달성할 수 있다."