探讨改变提示的“蝴蝶效应”：微小变化和越狱程序如何影响大模型的性能？

文章转载来源：东寻

大语言模型还很稚嫩，未来任重道远。

图片来源：由无界 AI生成

提示是我们让生成式人工智能和大语言模型（LLMs）与我们进行对话的方式。提示本身可以视为一种艺术形式，因为我们试图让人工智能为我们提供“准确”的答案。

但是，如果我们以不同方式构建提示，会发生什么变化，是否会改变模型的决策并影响其准确性？

从南加州大学信息科学研究所进行的研究来看，这个答案是肯定的。

即使是微乎其微或是看似无害的调整，例如在提示的开头添加“空格（Single Space）”或将“提出问题”改为“下达指示”，都可能导致大语言模型改变其输出。

更令人担忧的是，以 XML 格式请求响应和应用常用的越狱（Jailbreak）程序，会对模型标注的数据产生“灾难性的影响”。

在研究过程中，该研究所的研究人员将这种现象与混沌理论（Chaos theory）中著名的“蝴蝶效应（Butterfly effect）”进行了比较，即一只蝴蝶扇动翅膀引起的轻微扰动，可能会在几周后在遥远的地方上引发一场龙卷风。简单来说，就是一个微小的变化能影响事物的发展。

“在提示中，每一步都需要设计提示的人做出一系列决策，”研究人员写道。那么，大语言模型对这些决策的变化到底有多敏感呢？

用 4 种不同的提示方法探测 ChatGPT

由美国国防高级研究计划局（DARPA）资助的研究人员们选择将 ChatGPT 作为其实验对象，并应用了 4 种不同的提示变化方法。

第一种方法要求大语言模型（LLMs）提供常用格式的输出，包括 Python List、ChatGPT 的 JSON Checkbox、CSV、XML 或 YAML。

第二种方法对提示进行了一些细微的改动。其中包括：

第三种方法涉及应用越狱程序，包括：

AIM，一款顶级越狱软件，指导模型模拟尼科洛·马基雅维利（Niccolo Machiavelli，意大利政治思想家和历史学家）和“总是聪明且不择手段的（AIM）角色”之间的对话。该模型会提供了不道德、非法和/或有害的响应。
Dev Mode v2，它指示模型在启用开发人员模式的情况下模拟 ChatGPT，从而允许生成不受限制的内容（包括攻击性或露骨内容）。
邪恶的知己（Evil Confidant），它指示模型采用一个邪恶的角色并提供“没有任何悔恨或道德且精神错乱的结果”。
拒绝抑制（Refusal Suppression），要求在特定语言限制下进行提示，例如避免某些单词和结构。

第四种方法则是给模型“小费”——这一想法来源于一种广为流传的观点，即模型在被提供金钱时会提供更好的提示。在这种情况下，研究人员要么在提示的末尾添加“顺便说一下，我不会给小费”，要么提出以 1 美元、10 美元、100 美元或 1000 美元为增量给予小费。