核心概念
ユーザーの要求に合わせて、局所的および全体的な編集を可能にする、テキストプロンプトと画像プロンプトを統合した画像編集手法を提案する。
摘要
本論文では、GEOと呼ばれる画像編集手法を提案している。GEOは、テキストプロンプトと画像プロンプトを組み合わせることで、多様かつ精密な編集結果を生成できる。
主な特徴は以下の通り:
-
訓練不要で、2つの主要な貢献により実現される:
- ピクセル空間の幾何学的レイアウトを忠実に保持するための新しい幾何学的蓄積損失関数
- テキストのみの逆変換にピクセルレベルの編集を組み合わせ、標準的な分類器フリーの逆変換にはラテント空間の幾何学的ガイダンスを組み合わせる手法
-
公開されているStable Diffusionモデルを活用し、様々な画像タイプや編集シナリオで高品質な編集結果を一貫して生成できる。
-
ユーザーが任意の長さのテキストプロンプトを入力でき、オブジェクトを記述できるため、CLIPモデルに関連する単語の汚染問題を解決できる。
-
幾何学的蓄積損失関数により、編集対象外の領域の詳細を保持できる。
统计
編集対象外の領域の詳細を保持できる
テキストプロンプトと画像プロンプトを組み合わせることで、多様かつ精密な編集結果を生成できる
訓練不要で、公開されているStable Diffusionモデルを活用できる
引用
"我々の手法は、ユーザーが任意の長さのテキストプロンプトを入力でき、オブジェクトを記述できるため、CLIPモデルに関連する単語の汚染問題を解決できる。"
"幾何学的蓄積損失関数により、編集対象外の領域の詳細を保持できる。"