핵심 개념
RWKV 기반 아키텍처를 이미지 생성 작업에 맞게 수정하여 기존 Transformer 기반 모델과 비교 가능한 성능을 달성하면서도 계산 복잡도를 낮출 수 있다.
초록
이 논문은 RWKV 모델의 장점을 활용하여 이미지 생성을 위한 새로운 아키텍처인 Diffusion-RWKV를 제안한다.
- 이미지를 패치로 분할하고 RWKV 기반의 양방향 RNN 블록을 통해 처리한다. 이를 통해 선형 복잡도로 장거리 의존성을 모델링할 수 있다.
- 스킵 연결, 조건 통합 등 이미지 생성에 필요한 다양한 기술을 적용하였다.
- 다양한 규모의 Diffusion-RWKV 모델을 CIFAR10, CelebA, ImageNet 데이터셋에서 학습하였다.
- 실험 결과, Diffusion-RWKV는 기존 Transformer 기반 모델과 비교해 유사한 성능을 보이면서도 계산 복잡도가 낮은 것으로 나타났다.
통계
이미지 생성 모델의 FLOPs는 Diffusion-RWKV-H/2가 1.60×10^11, DiT가 2.13×10^11로 Diffusion-RWKV가 25% 더 낮다.
Diffusion-RWKV-H/2의 ImageNet 256×256 FID 점수는 2.95로 최고 수준의 성능을 보인다.
인용구
"Transformers have catalyzed advancements in computer vision and natural language processing (NLP) fields. However, substantial computational complexity poses limitations for their application in long-context tasks, such as high-resolution image generation."
"This paper introduces a series of architectures adapted from the RWKV model used in the NLP, with requisite modifications tailored for diffusion model applied to image generation tasks, referred to as Diffusion-RWKV."