이 논문은 상태 공간 기반 아키텍처를 활용한 새로운 확산 모델인 DiS(Diffusion State Space Models)를 제안한다. DiS는 시간, 조건, 노이즈 이미지 패치 등 모든 입력을 토큰으로 처리하며, 상태 공간 기반 백본을 사용한다.
실험 결과, DiS는 CNN 기반 또는 Transformer 기반 U-Net 모델과 비교해 성능이 동등하거나 우수하며, 특히 확장성 측면에서 뛰어난 것으로 나타났다. 모델 크기를 늘리면 FID 성능이 지속적으로 향상되었다. 또한 DiS-H/2 모델은 ImageNet 256x256 및 512x512 벤치마크에서 이전 확산 모델과 유사한 성능을 달성하면서도 계산량을 크게 줄였다.
이 연구는 확산 모델의 백본 아키텍처 선택이 중요함을 보여주며, 향후 대규모 멀티모달 데이터셋에서의 생성 모델 발전에 기여할 것으로 기대된다.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Zhengcong Fe... ที่ arxiv.org 03-29-2024
https://arxiv.org/pdf/2402.05608.pdfสอบถามเพิ่มเติม