ガイダンスは高ノイズ領域では有害、低ノイズ領域では不要であり、中間のノイズ領域でのみ有効である。そのため、ガイダンスを最適な区間に制限することで、サンプル品質と分布品質を大幅に改善できる。
生成画像の自然さを評価するための新しい指標「Anomaly Score」を提案する。この指標は、生成画像の表現空間の複雑さ(complexity)と脆弱性(vulnerability)を捉えることで、人間の知覚に合致した評価を行う。
マスクプロンプトを導入することで、前景と背景の関係をより良くモデル化し、高品質な画像を生成できる。
拡散モデルを人間の好みに合わせて最適化するために、ピクセル単位のフィードバックを活用したピクセル単位の強化学習アルゴリズムPXPOを提案する。
視覚的自己回帰モデリング(VAR)は、従来の自己回帰モデルの課題を解決し、言語モデルベースの自己回帰モデルが強力な拡散モデルを初めて超えることを可能にした新しい視覚的生成フレームワークである。
データ効率的なGANの一般化性能を向上させるため、バッチ正規化の勾配爆発問題を解決する新しい正規化手法CHAINを提案する。CHAINは、ゼロ平均正則化と、リプシッツ連続性制約付き平均二乗正規化を組み合わせることで、GANの訓練の安定性と一般化性能を向上させる。
拡散モデルのサンプリングプロセスを大きなステップから小さなステップに蒸留することで、サンプリング速度を向上させる。
拡散モデルの反復的な除雑音プロセスを最適化モデルとして再定義し、移動平均メカニズムを活用することで、過去のすべてのサンプルを活用し、周波数領域での安定化を実現する。