Alapfogalmak
本文提出了一種名為 output2prompt 的新型黑盒方法,可以在無需訪問模型內部狀態(如 logits)或使用對抗性查詢的情況下,僅從大型語言模型的文本輸出中提取生成這些輸出的提示。
作者:Collin Zhang, John X. Morris, Vitaly Shmatikov
機構:康乃爾大學電腦科學系
出版資訊:arXiv:2405.15012v2 [cs.CL] 8 Oct 2024
本研究旨在探討如何從大型語言模型 (LLM) 的輸出中提取生成這些輸出的提示,特別是在無法訪問模型內部狀態或使用對抗性查詢的情況下。