本論文では、PRISM (Prompt Refinement and Iterative Sampling Mechanism) と呼ばれる新しい自動プロンプトエンジニアリングアルゴリズムを提案している。
参照画像を入力として受け取り、大規模言語モデルの学習能力を活用して、反復的にプロンプトの分布を更新していく。これにより、人間が解釈可能で転用可能なプロンプトを生成することができる。
実験では、既存手法と比較して、PRISM が人間の解釈性と視覚的な正確性の両面で優れた性能を示すことを確認した。特に、非公開のテキストから画像生成モデルに対しても良好な結果が得られ、汎化性が高いことが分かった。
また、生成されたプロンプトは直感的に編集可能であり、ユーザーの創造性を引き出すことができる。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor