본 연구는 대규모 언어 모델(LLM)에 대한 새로운 유형의 복합 백도어 공격을 제안한다. 이 공격은 여러 개의 트리거 키를 서로 다른 프롬프트 구성 요소에 분산시켜 숨기는 방식으로 이루어진다. 이를 통해 공격자는 모든 트리거 키가 동시에 나타날 때만 백도어가 활성화되도록 할 수 있다.
최근 발전된 생성형 AI로 인해 대형 언어 모델(LLM)에 대한 광범위한 접근이 가능해졌습니다. 이에 따라 이 강력한 기술의 잠재적 오용에 대한 우려가 제기되고 있으며, 서비스 제공자들은 이에 대한 방어 조치를 취하고 있습니다. 이러한 보안 제한을 우회하기 위해 최근 탈옥 프롬프트가 가장 효과적인 메커니즘 중 하나로 등장했습니다.
본 연구는 대규모 언어 모델의 안전 기능을 우회하기 위해 자동으로 의미 있고 은밀한 탈옥 프롬프트를 생성하는 방법인 AutoDAN을 제안한다.