Основні поняття
視覚的自己回帰モデリング(VAR)は、従来の自己回帰モデルの課題を解決し、言語モデルベースの自己回帰モデルが強力な拡散モデルを初めて超えることを可能にした新しい視覚的生成フレームワークである。
Анотація
本論文は、視覚的自己回帰モデリング(VAR)と呼ばれる新しい画像生成フレームワークを提案している。従来の自己回帰モデルは、画像をトークン列に変換し、1つずつ順次生成するため、効率が低く、画像の空間構造を損なう問題があった。
VAR では、画像を複数の解像度レベルのトークンマップに分割し、低解像度から高解像度へと順次生成する方式を採用している。これにより、空間構造を保ちつつ、効率的な生成が可能となる。
具体的には以下の通り:
- 画像をマルチスケールのトークンマップに量子化する新しい VQVAE アーキテクチャを提案した。
- トークンマップを低解像度から高解像度へと順次生成する自己回帰モデルを構築した。これにより、従来の自己回帰モデルを大幅に上回る性能を達成した。
- VAR モデルの性能がスケーリング則に従うことを実証し、言語モデルと同様の拡張性と汎化性を持つことを示した。
- 画像補完、画像編集などの下流タスクでも良好な性能を発揮することを示した。
これらの成果により、VAR は言語モデルの長所を視覚モデルに移植し、画像生成分野の新たな地平を切り開いたと言える。
Статистика
ImageNet 256x256ベンチマークにおいて、VAR(2B)はFID 1.80、IS 356.4を達成し、従来の自己回帰モデルを大幅に上回った。
VAR(2B)は従来の自己回帰モデルに比べ、推論速度が20倍高速である。
VAR(2B)は、3B、7Bパラメータの拡散変換器(DiT)よりも優れた性能を示した。
Цитати
"VAR直接活用GPT-2のようなトランスフォーマーアーキテクチャを視覚的自己回帰学習に用いる。"
"VAR、初めて言語モデルベースの自己回帰モデルが強力な拡散モデルを超えることを可能にした。"
"VAR モデルはスケーリング則に従い、言語モデルと同様の拡張性と汎化性を持つことを実証した。"