核心概念
本文介紹了一種稱為激活工程的新方法,通過干預語言模型內部激活值來引導模型輸出,並提出了一種名為激活添加 (ActAdd) 的具體技術,該技術在不影響模型整體性能的情況下,有效控制文本的情感和主題。
要約
研究論文摘要
文獻資訊: Turner, A. M., Thiergart, L., Leech, G., Udell, D., Vazquez, J. J., Mini, U., & MacDiarmid, M. (2024). Steering Language Models With Activation Engineering. arXiv preprint arXiv:2308.10248v5.
研究目標: 本文旨在探討如何更有效地引導大型語言模型 (LLM) 的輸出,以克服現有方法(如提示工程、微調)的局限性。
研究方法: 本文提出了一種稱為激活工程的方法,並重點介紹了其中一種名為激活添加 (ActAdd) 的技術。ActAdd 通過計算對比提示詞組(例如「愛」與「恨」)在模型中的激活值差異,得到一個引導向量。在推理過程中,將該向量添加到模型的特定層級,即可引導模型生成符合預期屬性的文本。
主要發現: 實驗結果顯示,ActAdd 在情感控制和降低文本毒性方面取得了最先進的成果,同時有效保留了模型的整體性能,例如在不影響其回答事實性問題的能力的情況下,成功引導模型生成特定主題的文本。
主要結論: 激活工程,特別是 ActAdd,為引導語言模型輸出提供了一種有效且輕量級的方法,在不損害模型整體性能的情況下,實現對文本屬性的精細控制。
研究意義: 本研究為語言模型的操控和價值對齊提供了新的思路,未來可進一步探索更通用的引導方法,並應用於其他領域,例如強化學習和模型可解釋性。
研究限制與未來方向: ActAdd 需要手動調整超參數,例如注入係數和干預層級。未來研究可以探索自動化超參數選擇的方法,並進一步研究 ActAdd 對模型推理能力的影響。
統計
ActAdd-OPT 的毒性比次佳方法 PREADD-D-OPT 低 8%。
ActAdd-LLaMA-3 的毒性比未經調整的 LLaMA-3 低 5%。
在負面情緒轉為正面情緒的任務中,ActAdd 的成功率優於其他方法。
在 ConceptNet 事實性問題基準測試中,ActAdd 對模型回答正確答案的機率影響微乎其微。
引用
"LLMs contain hidden capabilities we do not know how to fully elicit."
"We therefore hypothesize the presence of an elicitation overhang: we do not know how to elicit all relevant abilities and information from frontier models."
"Activation engineering involves creating vectors of activations which cause desired changes to output text when added to the forward passes of a frozen LLM."
"ActAdd is lightweight and effective, achieving SOTA on toxicity reduction and sentiment shift while retaining overall model capabilities."