核心概念
자기 지도 학습 인코더를 통해 추출한 표현을 활용하여 무조건적 이미지 생성 성능을 크게 향상시킬 수 있다.
要約
이 논문은 무조건적 이미지 생성 문제를 해결하기 위한 새로운 접근법인 표현 조건부 생성(Representation-Conditioned Generation, RCG) 프레임워크를 제안한다.
RCG는 다음 3단계로 구성된다:
- 사전 학습된 자기 지도 학습 인코더를 사용하여 이미지 분포를 표현 분포로 매핑한다.
- 노이즈 분포에서 표현을 생성하는 표현 생성기를 학습한다.
- 생성된 표현을 조건으로 하여 이미지를 생성하는 이미지 생성기를 학습한다.
이를 통해 RCG는 기존 무조건적 생성 모델들의 성능을 크게 향상시킬 수 있었다. ImageNet 256x256 벤치마크에서 RCG는 기존 최고 성능 대비 64% 향상된 FID 2.15를 달성하였다. 이는 클래스 레이블을 활용한 최고 성능과 맞먹는 수준이다. 이러한 결과는 무조건적 생성 문제에 대한 새로운 돌파구를 제시한다.
統計
무조건적 LDM-8 모델의 FID가 39.13에서 RCG 적용 시 11.30으로 71% 감소했다.
무조건적 ADM 모델의 FID가 26.21에서 RCG 적용 시 6.24로 76% 감소했다.
무조건적 DiT-XL/2 모델의 FID가 27.32에서 RCG 적용 시 4.89로 82% 감소했다.
무조건적 MAGE-B 모델의 FID가 8.67에서 RCG 적용 시 3.98로 54% 감소했다.
무조건적 MAGE-L 모델의 FID가 7.04에서 RCG 적용 시 3.44로 51% 감소했다.
引用
"RCG 프레임워크는 개념적으로 간단하고 유연하지만 무조건적 생성에 매우 효과적이다."
"RCG는 기존 생성 모델의 레이블 의존성을 크게 줄일 수 있다."
"RCG의 무조건적 생성 성능은 최고 수준의 클래스 조건부 생성 방법과 맞먹는 수준이다."