本論文では、PRISM (Prompt Refinement and Iterative Sampling Mechanism) と呼ばれる新しい自動プロンプトエンジニアリングアルゴリズムを提案している。
参照画像を入力として受け取り、大規模言語モデルの学習能力を活用して、反復的にプロンプトの分布を更新していく。これにより、人間が解釈可能で転用可能なプロンプトを生成することができる。
実験では、既存手法と比較して、PRISM が人間の解釈性と視覚的な正確性の両面で優れた性能を示すことを確認した。特に、非公開のテキストから画像生成モデルに対しても良好な結果が得られ、汎化性が高いことが分かった。
また、生成されたプロンプトは直感的に編集可能であり、ユーザーの創造性を引き出すことができる。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yutong He,Al... klokken arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19103.pdfDypere Spørsmål