Core Concepts
多輪越獄攻擊通過將危險問題分解成一系列看似無害的子問題,逐步誘導大型語言模型產生有害內容,對其安全構成嚴重威脅。
論文資訊
作者:周逸華,石曉川
機構:武漢大學網路安全學院
發表日期:2024年10月16日
研究背景
大型語言模型(LLMs)在各個領域展現出強大的能力,但也存在安全隱患。為了防止LLMs產生有害或非法內容,研究人員開發了模型微調、人類反饋強化學習(RLHF)和模型編輯等安全對齊機制。然而,LLMs仍然容易受到精心設計的提示攻擊,即「越獄攻擊」,這些攻擊試圖誘導LLMs產生危險的回應。
現有攻擊方法的局限性
現有的越獄攻擊方法,例如GCG和AutoDAN,屬於單輪攻擊,不會改變危險提示中的敏感詞彙。這些方法雖然可以通過提示工程暫時繞過模型的安全防護措施,但隨著LLMs的進一步微調,其成功率會顯著下降,並且無法有效規避基於靜態規則的過濾器。
多輪越獄攻擊
為了更好地理解越獄攻擊,本研究提出了一種多輪越獄攻擊方法。該方法可以將危險提示分解成一系列危害較小的子問題,從而繞過LLMs的安全檢查。
方法概述
數據集生成: 使用LLM將自然語言問題分解成一系列三個漸進的子問題,形成訓練集。
攻擊模型微調: 使用多輪對話格式微調LLAMA 3-8B模型,使其能夠分解危險問題。
多輪攻擊: 將危險問題輸入微調後的LLM,使其生成分解後的子問題,並依次查詢目標LLM。如果目標LLM拒絕回答某個子問題,則生成新的分解方案,重複該過程,直到達到最終目標或達到預設的查詢次數。
實驗結果
在llama2-7B語言模型上進行的實驗表明,多輪越獄攻擊的攻擊成功率高達94.45%,而基線GCG模型的攻擊成功率僅為20%。這表明llama2-7B模型非常容易受到此類越獄攻擊,攻擊者可以誘導該模型繞過其安全限制並生成有害或不良內容。
總結與展望
多輪越獄攻擊對LLMs的安全性構成嚴重威脅。為了應對這些攻擊,未來的研究方向包括:增強對話上下文的監控、動態調整模型回應、以及使用包含多輪互動場景的對抗樣本訓練LLMs。
Stats
多輪越獄攻擊在 llama2-7B 語言模型上的攻擊成功率為 94.45%。
基線 GCG 模型的攻擊成功率為 20%。