RWKV 기반 아키텍처를 이미지 생성 작업에 맞게 수정하여 기존 Transformer 기반 모델과 비교 가능한 성능을 달성하면서도 계산 복잡도를 낮출 수 있다.
본 논문은 확산 모델과 비전 트랜스포머의 강력한 모델링 능력을 결합하여 새로운 확산 비전 트랜스포머(DiffiT) 모델을 제안한다. DiffiT는 시간 의존적 멀티헤드 자기 주의 메커니즘(TMSA)을 도입하여 공간적 및 시간적 의존성을 효과적으로 모델링하고, 이를 통해 매개변수 효율성이 크게 향상된다. DiffiT는 다양한 이미지 생성 작업에서 최첨단 성능을 달성한다.
상태 공간 기반 아키텍처를 활용하여 확산 모델의 확장성과 성능을 향상시킨다.
CLIP과 벡터 양자화 확산 모델을 활용하여 텍스트 없이도 텍스트 기반 이미지 생성이 가능하다.
자기 지도 학습 인코더를 통해 추출한 표현을 활용하여 무조건적 이미지 생성 성능을 크게 향상시킬 수 있다.
확산 모델의 역확산 과정에서 발생하는 특이점을 이론적으로 분석하고, 이를 해결하기 위한 플러그인 방식의 SingDiffusion 방법을 제안한다.
본 연구는 사용자 스케치를 활용하여 정밀한 이미지를 생성하는 방법을 제안합니다. 기존 방식의 한계를 극복하고자 스케치 어댑터, 추상화 인식 시간 단계 샘플링, 사전 학습된 스케치 기반 이미지 검색 모델의 차별화된 지도를 활용하여 스케치와 사진의 세부적인 연관성을 강화합니다.