本論文では、大規模言語モデル(LLM)の堅牢性を向上させるためのPIDコントロールベースの自己修復プロセスを提案している。
まず、LLMをディスクリート力学系として解釈し、入力データに対する攻撃に対する堅牢性を軌道最適化問題として定式化する。次に、LLMの各層の変換を線形直交変換として近似し、PIDコントローラの解析的な解を導出する。これにより、オンラインでの推論時の計算コストを大幅に削減できる。さらに、簡略化された設定でのこの制御システムの誤差解析を行い、LLMの堅牢性向上の有効性を示す。
提案手法は、既存の敵対的訓練法と比較して以下の利点がある:
数値実験の結果、提案手法は標準的な訓練モデルおよび敵対的訓練モデルの両方において、様々な攻撃に対する堅牢性を大幅に向上させることが示された。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania