Core Concepts
참조 이미지를 기반으로 사용자 맞춤형 텍스트-이미지 생성을 위한 인간 해석 가능하고 전이 가능한 프롬프트를 자동으로 생성하는 PRISM 알고리즘을 제안한다.
Abstract
이 논문은 참조 이미지를 기반으로 사용자 맞춤형 텍스트-이미지 생성을 위한 프롬프트를 자동으로 생성하는 PRISM 알고리즘을 제안한다.
- 서론:
- 프롬프트 엔지니어링은 텍스트-이미지 생성 모델의 출력을 제어하는 데 효과적이지만, 수동으로 작성된 프롬프트가 필요하여 비효율적이다.
- 이를 해결하기 위해 자동화된 프롬프트 생성 알고리즘이 개발되었지만, 모델 간 전이성이 낮고 화이트박스 접근이 필요하며 직관적이지 않은 프롬프트를 생성한다.
- PRISM 알고리즘:
- 참조 이미지를 입력받아 인간 해석 가능하고 전이 가능한 프롬프트를 자동으로 생성한다.
- 대형 언어 모델의 문맥 학습 능력을 활용하여 프롬프트 분포를 반복적으로 개선한다.
- 프롬프트 엔지니어, 텍스트-이미지 생성 모델, 평가 모델로 구성된다.
- 실험 결과:
- 기존 방법보다 프롬프트의 해석 가능성과 전이성이 우수하다.
- 다양한 텍스트-이미지 생성 모델에서 높은 성능을 보인다.
- 프롬프트의 편집 가능성을 보여준다.
- 결론 및 향후 과제:
- 대형 언어 모델의 취약점에 주의해야 한다.
- 안전성 향상을 위한 추가 조치가 필요하다.
Stats
참조 이미지 집합 {xi}M
i=1을 입력받아 프롬프트 y를 생성한다.
텍스트-이미지 생성 모델 G를 사용하여 프롬프트 y로부터 이미지 x를 생성한다.
이미지 유사도 평가 모델 D를 사용하여 생성된 이미지 x와 참조 이미지 xi의 유사도를 계산한다.
Quotes
"프롬프트 엔지니어링은 텍스트-이미지 생성 모델의 출력을 제어하는 데 효과적이지만, 수동으로 작성된 프롬프트가 필요하여 비효율적이다."
"기존 자동화된 프롬프트 생성 알고리즘은 모델 간 전이성이 낮고 화이트박스 접근이 필요하며 직관적이지 않은 프롬프트를 생성한다."