核心概念
상태 공간 기반 아키텍처를 활용하여 확산 모델의 확장성과 성능을 향상시킨다.
要約
이 논문은 상태 공간 기반 아키텍처를 활용한 새로운 확산 모델인 DiS(Diffusion State Space Models)를 제안한다. DiS는 시간, 조건, 노이즈 이미지 패치 등 모든 입력을 토큰으로 처리하며, 상태 공간 기반 백본을 사용한다.
실험 결과, DiS는 CNN 기반 또는 Transformer 기반 U-Net 모델과 비교해 성능이 동등하거나 우수하며, 특히 확장성 측면에서 뛰어난 것으로 나타났다. 모델 크기를 늘리면 FID 성능이 지속적으로 향상되었다. 또한 DiS-H/2 모델은 ImageNet 256x256 및 512x512 벤치마크에서 이전 확산 모델과 유사한 성능을 달성하면서도 계산량을 크게 줄였다.
이 연구는 확산 모델의 백본 아키텍처 선택이 중요함을 보여주며, 향후 대규모 멀티모달 데이터셋에서의 생성 모델 발전에 기여할 것으로 기대된다.
統計
확산 모델의 정방향 프로세스는 마르코프 체인으로 정의할 수 있다.
상태 공간 모델은 입력 x(t)와 출력 y(t) 사이의 관계를 잠재 상태 h(t)를 통해 모델링한다.
상태 공간 모델의 계산 복잡도는 자기 주의 메커니즘을 사용하는 Transformer에 비해 입력 길이에 선형적이다.
引用
"Diffusion models have emerged as potent deep generative models in recent years, for their capacity in high-quality image generation."
"State space models (SSMs) with efficient hardware-aware designs, have shown great potential in the realm of long sequence modeling."
"Motivated by the successes observed in language modeling with Mamba, a pertinent inquiry arises: whether we can build SSM-based U-Net in diffusion models?"