核心概念
확산 모델을 이용한 비디오 초해상도 기법에서 저해상도 비디오로부터 공간 적응 및 시간적 일관성 학습을 통해 고해상도 비디오 생성의 공간적 충실도와 시간적 일관성을 향상시킨다.
要約
이 논문은 확산 모델을 이용한 비디오 초해상도 기법을 제안한다. 기존 확산 모델 기반 초해상도 기법은 각 프레임을 독립적으로 처리하여 공간적 충실도와 시간적 일관성이 저하되는 문제가 있었다. 이를 해결하기 위해 저해상도 비디오로부터 공간 적응 및 시간적 일관성 학습을 수행한다.
구체적으로, 공간 적응 모듈(SFA)은 저해상도 비디오 특징을 이용하여 고해상도 프레임 특징을 픽셀 단위로 적응적으로 조절한다. 시간적 일관성 모듈(TFA)은 고해상도 비디오 특징 내 시간적 상호작용을 강화하고, 저해상도 비디오 특징과의 교차 주의 메커니즘을 통해 시간적 정렬을 수행한다. 이를 통해 고해상도 비디오 생성 시 공간적 충실도와 시간적 일관성을 향상시킨다.
실험 결과, 제안 기법인 SATeCo는 REDS4와 Vid4 데이터셋에서 기존 최신 기법 대비 우수한 성능을 보였다. 특히 사용자 선호도 평가에서도 높은 점수를 받아 제안 기법의 효과를 검증하였다.
統計
저해상도 비디오와 고해상도 비디오 간 공간적 충실도와 시간적 일관성을 향상시키기 위해 픽셀 단위 특징 적응과 시간적 특징 정렬이 필요하다.
제안 기법 SATeCo는 REDS4 데이터셋에서 PSNR 31.62dB, SSIM 0.8932, LPIPS 0.1735, DISTS 0.0607, NIQE 4.104의 성능을 달성했다.
Vid4 데이터셋에서는 PSNR 27.44dB, SSIM 0.8420, LPIPS 0.2291, DISTS 0.1015, NIQE 5.212의 성능을 보였다.
引用
"확산 모델을 이용한 비디오 초해상도에서의 어려움은 두 가지 측면에서 기인한다: 1) 확산 과정의 불확실성을 완화하여 시각적 외관을 보존하는 방법, 2) 고해상도 비디오 프레임 간 시간적 일관성을 보장하는 방법."
"SATeCo는 저해상도 비디오로부터 공간-시간적 가이드를 학습하여 확산 과정을 보정함으로써, 고해상도 비디오 생성의 공간적 충실도와 시간적 일관성을 향상시킨다."