이 논문은 정렬된 대규모 언어 모델(LLM)에 대한 탈옥 공격을 다룹니다. 기존 탈옥 공격 기법은 확장성 문제나 은밀성 문제를 겪었습니다. 이를 해결하기 위해 본 연구는 AutoDAN이라는 새로운 방법을 제안합니다.
AutoDAN은 계층적 유전 알고리즘을 사용하여 자동으로 의미 있고 은밀한 탈옥 프롬프트를 생성합니다. 초기 집단 생성 시 수작업으로 만든 탈옥 프롬프트를 활용하고, 문장 수준과 문단 수준의 교차 및 돌연변이 연산을 통해 최적의 프롬프트를 찾습니다. 이를 통해 기존 방식보다 높은 공격 강도와 은밀성을 달성할 수 있습니다.
실험 결과, AutoDAN은 기존 방식보다 약 60% 향상된 공격 강도를 보였으며, 퍼플렉시티 기반 방어 기법에도 효과적으로 대응할 수 있습니다. 또한 모델 간 전이성과 범용성 측면에서도 우수한 성능을 보였습니다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы