本論文は、視覚的自己回帰モデリング(VAR)と呼ばれる新しい画像生成フレームワークを提案している。従来の自己回帰モデルは、画像をトークン列に変換し、1つずつ順次生成するため、効率が低く、画像の空間構造を損なう問題があった。
VAR では、画像を複数の解像度レベルのトークンマップに分割し、低解像度から高解像度へと順次生成する方式を採用している。これにより、空間構造を保ちつつ、効率的な生成が可能となる。
具体的には以下の通り:
これらの成果により、VAR は言語モデルの長所を視覚モデルに移植し、画像生成分野の新たな地平を切り開いたと言える。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Keyu Tian,Yi... alle arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02905.pdfDomande più approfondite