이 논문은 상태 공간 기반 아키텍처를 활용한 새로운 확산 모델인 DiS(Diffusion State Space Models)를 제안한다. DiS는 시간, 조건, 노이즈 이미지 패치 등 모든 입력을 토큰으로 처리하며, 상태 공간 기반 백본을 사용한다.
실험 결과, DiS는 CNN 기반 또는 Transformer 기반 U-Net 모델과 비교해 성능이 동등하거나 우수하며, 특히 확장성 측면에서 뛰어난 것으로 나타났다. 모델 크기를 늘리면 FID 성능이 지속적으로 향상되었다. 또한 DiS-H/2 모델은 ImageNet 256x256 및 512x512 벤치마크에서 이전 확산 모델과 유사한 성능을 달성하면서도 계산량을 크게 줄였다.
이 연구는 확산 모델의 백본 아키텍처 선택이 중요함을 보여주며, 향후 대규모 멀티모달 데이터셋에서의 생성 모델 발전에 기여할 것으로 기대된다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Zhengcong Fe... um arxiv.org 03-29-2024
https://arxiv.org/pdf/2402.05608.pdfTiefere Fragen