Keskeiset käsitteet
ユーザープロンプトを自動的に最適化することで、テキストから画像への一貫性を向上させる
Tiivistelmä
本論文では、テキストから画像への生成モデル(T2I)の一貫性を向上させるための新しい最適化フレームワーク「OPT2I」を提案している。OPT2Iは、大規模言語モデル(LLM)を活用して、ユーザープロンプトを反復的に最適化し、一貫性スコアを最大化する。
具体的には以下の通り:
- ユーザープロンプトを入力として、T2Iモデルで画像を生成する
- 生成された画像とプロンプトの一貫性を評価するスコア(decomposed CLIPScore、DSGスコア)を計算する
- LLMを使ってプロンプトを最適化し、一貫性スコアを高めるプロンプトを見つける
- この最適化プロセスを反復的に行い、最終的に最も一貫性の高いプロンプトを出力する
実験の結果、OPT2Iは従来手法と比べて一貫性を最大24.9%向上させることができ、かつ画質(FID)も維持できることが示された。また、LLMの選択やT2Iモデルの違いにも頑健であることが確認された。
Tilastot
生成画像とユーザープロンプトの一貫性スコアの平均が最大24.9%向上した。
生成画像のFIDスコアは維持された。
生成画像の再現率(recall)は向上したが、精度(precision)は低下した。
Lainaukset
"OPT2Iは、T2Iモデル、LLM、一貫性メトリクスの組み合わせに頑健であり、ユーザープロンプトに対する一貫性を最大24.9%向上させることができる。"
"OPT2Iは、画質(FID)を維持しつつ、生成画像の再現率(recall)を向上させることができる。"