本論文では、テキストから画像への生成モデル(T2I)の一貫性を向上させるための新しい最適化フレームワーク「OPT2I」を提案している。OPT2Iは、大規模言語モデル(LLM)を活用して、ユーザープロンプトを反復的に最適化し、一貫性スコアを最大化する。
具体的には以下の通り:
実験の結果、OPT2Iは従来手法と比べて一貫性を最大24.9%向上させることができ、かつ画質(FID)も維持できることが示された。また、LLMの選択やT2Iモデルの違いにも頑健であることが確認された。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Osca... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17804.pdfPerguntas Mais Profundas