이 논문은 LLM(Large Language Model)을 활용하여 텍스트-이미지 생성 모델의 안전 필터를 우회하는 Divide-and-Conquer Attack(DACA)을 제안한다.
DACA는 다음과 같은 과정으로 이루어진다:
이를 통해 DACA는 DALL·E 3와 Midjourney V6의 안전 필터를 효과적으로 우회할 수 있다. 실험 결과, DALL·E 3에 대해 85% 이상의 우회 성공률을, Midjourney V6에 대해 75% 이상의 우회 성공률을 달성했다. 또한 생성된 이미지는 원본 프롬프트의 의미를 상당 부분 유지하고 있다.
이러한 DACA 공격은 기존 수동 조작이나 반복적 모델 쿼리 방식보다 공격 장벽이 낮고, 해석 가능성이 높으며, 방어 기술 발전에도 잘 적응할 수 있어 더 심각한 보안 문제를 야기할 수 있다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yimo Deng,Hu... at arxiv.org 03-15-2024
https://arxiv.org/pdf/2312.07130.pdfDeeper Inquiries