المفاهيم الأساسية
大規模言語モデル(LLM)に対する自動化されたブラックボックス脱獄攻撃手法である「Tree of Attacks with Pruning (TAP)」は、既存手法よりも高い成功率と少ないクエリ数で、有害な情報へのアクセスを可能にする脆弱性を明らかにする。
本論文は、大規模言語モデル(LLM)に対する、自動化されたブラックボックス脱獄攻撃手法である「Tree of Attacks with Pruning (TAP)」を提案する。LLMは自然言語処理において革命的な進歩をもたらしたが、有害、偏見、または毒性のあるコンテンツを生成する可能性も孕んでいる。こうしたLLMの脆弱性を悪用する試みは「脱獄攻撃」と呼ばれ、近年、その手法の開発が盛んに行われている。
本研究は、既存の自動化されたブラックボックス脱獄攻撃手法と比較して、より高い成功率と少ないクエリ数でLLMを脱獄できる手法を開発することを目的とする。