Core Concepts
OmniBooth 是一個圖像生成框架,它允許透過文字提示或圖像參考進行實例級別的多模態自定義,並透過潛在控制信號將空間、文字和圖像條件無縫整合,實現更強大的可控性。
Abstract
OmniBooth:透過多模態指令學習圖像合成的潛在控制
這篇研究論文介紹了 OmniBooth,一個創新的圖像生成框架,旨在解決「具有實例級別自定義的空間控制」問題。此框架允許使用者透過多模態指令(如文字提示和圖像參考)精確控制生成圖像中實例的位置和屬性。
開發一個圖像生成框架,實現對圖像中實例位置和屬性的精確控制。
探索使用多模態指令(文字和圖像)進行實例級別自定義的可能性。
OmniBooth 的核心貢獻在於其提出的「潛在控制信號」(lc),這是一種高維空間特徵,能夠無縫整合空間、文字和圖像條件。
空間控制: lc 首先用於表示輸入的全景分割遮罩,以實現空間控制。
文字控制: 透過將文字嵌入「繪製」到統一的 lc 中,實現基於文字提示的實例級別開源詞彙生成。
圖像控制: 透過將圖像嵌入「扭曲」到 lc 中,實現基於圖像參考的精細控制和個性化身份生成。
OmniBooth 建立在 ControlNet 框架的基礎上,並將其從 RGB 空間擴展到潛在空間,從而實現更細微的控制。此外,該方法還採用了多尺度訓練和隨機模態選擇等策略,以增強模型的靈活性和泛化能力。