المفاهيم الأساسية
自己回帰型テキスト画像生成モデルにおいて、連続トークンを用いたランダム順序モデルは、離散トークンを用いたモデルやラスタ順序モデルと比較して、スケーラビリティと生成画像の品質において優れている。
الملخص
Fluid:連続トークンを用いた自己回帰型テキスト画像生成モデルのスケーリング
この論文は、テキストから画像を生成する自己回帰型モデルのスケーリングに関する研究論文である。特に、トークンの表現方法(離散/連続)と生成順序(ランダム/ラスタ)という2つの重要な設計要素が、モデルの性能とスケーリングに与える影響について詳細に分析している。
本研究は、自己回帰型テキスト画像生成モデルにおいて、トークンの表現方法と生成順序がモデルのスケーラビリティと生成画像の品質にどのような影響を与えるかを調査することを目的とする。
テキスト画像生成モデルとして、VQGAN(離散トークン)とStable Diffusion(連続トークン)の2種類のトークナイザを用いた自己回帰型モデルを構築。
生成順序として、GPTのような因果的注意機構を用いたラスタ順序モデルと、BERTのような双方向的注意機構を用いたランダム順序モデルを用意。
上記を組み合わせた4種類のモデルを、パラメータ数を変えて学習し、検証損失、FID、GenEvalスコア、生成画像の品質を比較。