이 연구는 대규모 언어 모델(LLM)의 "탈옥" 프롬프트에 대한 저항성을 높이는 방법을 제시합니다.
225개의 유해한 작업과 10가지 다양한 탈옥 프롬프트로 구성된 데이터셋을 구축했습니다.
LLaMA-2 Chat, Vicuna 1.3, Mistral Instruct v0.2 등 3개의 7B 매개변수 모델을 사용했습니다. 이 모델들은 WANDA 가지치기 기법을 통해 10%, 20%, 30% 스파스성으로 압축되었습니다.
압축된 모델들의 탈옥 저항성을 평가한 결과, 10-20% 정도의 가지치기로 저항성이 향상되었지만, 30% 이상 가지치기하면 오히려 저항성이 감소했습니다.
이는 초기 모델의 안전성 수준에 따라 다르게 나타났는데, 가장 안전한 LLaMA-2 Chat 모델이 가장 큰 안전성 향상을 보였습니다.
가지치기된 모델들의 표준 벤치마크 성능 평가 결과, 성능 저하가 크지 않았습니다. 이는 가지치기가 모델의 언어 이해 능력을 저하시키지 않고, 오히려 정규화 효과를 통해 탈옥 프롬프트에 대한 저항성을 높인다는 것을 시사합니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究