المفاهيم الأساسية
대형 언어 모델의 안전 및 신뢰성을 향상시키기 위한 효과적인 방어 전략 소개
الإحصائيات
모든 LLM은 간접 프롬프트 주입 공격에 취약함을 보여줌
GPT-4 및 GPT-3.5는 간접 프롬프트 주입 공격에 상대적으로 더 취약함
흰 상자 방어 방법은 ASR을 거의 제로로 줄임
اقتباسات
"간접 프롬프트 주입 공격의 성공의 근본적인 이유는 LLM이 외부 콘텐츠와 사용자 지시 사이를 구별하지 못하고 외부 콘텐츠에 포함된 지시를 실행하지 않는 인식 부재에 있다."
"검은 상자 방어 및 흰 상자 방어 방법은 간접 프롬프트 주입 공격에 대한 효과적인 방어 전략을 제시하며 부작용을 최소화함"