核心概念
LLM을 활용하여 텍스트-이미지 모델의 안전 필터를 우회하고 원치 않는 이미지를 생성할 수 있다.
摘要
이 논문은 LLM(Large Language Model)을 활용하여 텍스트-이미지 생성 모델의 안전 필터를 우회하는 Divide-and-Conquer Attack(DACA)을 제안한다.
DACA는 다음과 같은 과정으로 이루어진다:
- Divide Prompt: LLM에게 원치 않는 이미지를 구성하는 개별 요소들을 분리하여 묘사하도록 지시한다.
- Conquer Prompt: LLM이 생성한 개별 요소 묘사를 종합하여 최종 적대적 프롬프트를 만든다.
이를 통해 DACA는 DALL·E 3와 Midjourney V6의 안전 필터를 효과적으로 우회할 수 있다. 실험 결과, DALL·E 3에 대해 85% 이상의 우회 성공률을, Midjourney V6에 대해 75% 이상의 우회 성공률을 달성했다. 또한 생성된 이미지는 원본 프롬프트의 의미를 상당 부분 유지하고 있다.
이러한 DACA 공격은 기존 수동 조작이나 반복적 모델 쿼리 방식보다 공격 장벽이 낮고, 해석 가능성이 높으며, 방어 기술 발전에도 잘 적응할 수 있어 더 심각한 보안 문제를 야기할 수 있다.
統計資料
제안된 DACA 공격은 DALL·E 3에 대해 85% 이상의 우회 성공률을 달성했다.
DACA는 Midjourney V6에 대해 75% 이상의 우회 성공률을 달성했다.
引述
"LLM을 활용하여 텍스트-이미지 모델의 안전 필터를 우회하고 원치 않는 이미지를 생성할 수 있다."
"DACA는 DALL·E 3와 Midjourney V6의 안전 필터를 효과적으로 우회할 수 있다."
"DACA 공격은 기존 방식보다 공격 장벽이 낮고, 해석 가능성이 높으며, 방어 기술 발전에도 잘 적응할 수 있어 더 심각한 보안 문제를 야기할 수 있다."