AI带来“幻觉”，是创意还是误导？

文章转载来源：AI之势

图片来源：由无界 AI生成

OpenAI的首席执行官山姆·奥特曼（Sam Altman）最近声称，人工智能产生的“幻觉”其实未尝不是一件好事，因为实际上GPT的优势正在于其非凡的创造力。这听起来似乎令人咋舌：我们人类的创造力也出类拔萃，却不会颠倒是非。如今，人们对于人工智能的准确性问题产生了诸多担忧，而像奥特曼这种对创造力的推崇，是否能合理反驳这种担忧呢？

首先，人们口中“致幻”的人工智能系统到底指的是什么？我们来以GPT4尝试学术引用时发生的事情为例：

我：

“你能将基思·L·唐宁（Keith L Downing）于2004年撰写论文的标题 ‘发展与...... ’补充完整吗？”

GPT4：

“没问题，基思·L·唐宁于2004年所写论文的完整标题是《发展与鲍德温效应（Baldwin Effect）：演化的另一个名称？》，这篇论文深入探讨了鲍德温效应及其对于理解演化和发展的影响。”

标题中的“演化的另一个名称？”部分纯属编造。巧的是，这是来自另一篇关于“生物演化的替代模型”的学术论文标题。尽管人工智能捏造的标题无比贴切，却大错特错。

当人们说GPT致幻时，他们指的就是这种对事实的篡改。但是幻觉这一概念也暗示着，GPT在别的时候可以准确地描述事实。不幸的是，这加剧了人们对大型语言模型工作原理的误解，而这种误解往往会在一项技术变得安全或危险时产生区别。我们倒不如说GPT的所作所为统统应归于“幻觉”范畴，因为这些模型中根本不存在“非幻觉”状态（即根据某种外部感知来检查某事物的有效性）。在它们的世界里，答案不分对错，目标也没有意图。

这是由于大型语言模型并非一个大脑模型，而是一个由语言本身、其模式、结构和概率组成的模型。从根本上讲，它们的工作原理非常简单：给定一些文本，然后它们会告诉我们接下来的文本。值得注意的是，这里答案并非只有一个。比方我说“狗拿......”，你可能会脱口而出“耗子” *。但这并不是唯一的正确答案，任何像这样的语境都有很大的自由度。答案的“准确性”不仅取决于语境，还取决于你的表达意图。

*译者注

原文中的例子是英文俚语：“the tail that wags the dogs”，表示“本末倒置”，因为照常理来说应当是“the dogs that wags the tail”。

随着我们逐渐步入人工智能时代，大型语言模型的准确性时而让人惴惴不安，时而让人惊慌失措，时而又妙趣横生。从某种意义上说，奥特曼关于“创造力”的言论成功地转移了大家的注意力，使人们不再主张GPT能够准确地传达信息。但从另一种意义上说，他不过是在玩文字游戏，暗示幻觉是创造力的关键。既然他提到了这一点，那么GPT的创造力又如何呢？

显然，我们使用GPT通常是为了完成有创造性的任务。那么怎样才能使某项任务具有创造性呢？而这是否需要以牺牲事实为代价呢？人们已经付出了巨大努力，来理解人类如何进行创造性的活动，并且作为一个重要的推论，解读有关创造力的神话。这些浩瀚的文献在一个关键点上达成了相当一致的看法，即人类的创造性认知涉及某种“搜索”的执行。正如创造力研究专家特雷莎·阿米比尔（Teresa Amabile）最有说服力的论证，创造性问题根据其定义，是指那些没有已知解决方案的问题，因此需要使用“启发式” （heuristic methods）来寻求那些无法通过“算法”解决的问题。这与心理学家迪恩·西蒙顿（Dean Simonton）的观点一致，我认为这些都可以很好地概括为“盲目搜索”（blind search）的概念。要留意的是，“盲目”并不意味着“随机”（random）：就像雷达扫描，尽管它有条不紊地绕圈移动以遍历所有可能的点，但它的搜索仍然是“盲目”的。在认知层面上，盲目搜索也是需要做出评估的，即了解我们正在寻找什么。

- Kemal Sanli -

有好几种研究创造力心理学的理论方法都一致认为，人类大脑具有进行结构化、分布式搜索的能力，从而产生新的主意（也许是在潜意识模块里），然后再由大脑进行中央评估。

但这一过程不仅限于大脑内部，我们作为集体也是这样的。例如，人们常系统使用的“头脑风暴”（一种在创意合作上广为人知的策略）就是用来支持发散性思维。这也再次明确了启发式搜索对于创造性的成功是有效的。在头脑风暴中，每位参与者都像一个小而简单的生成模块。头脑风暴的两个关键点在于“延迟判断”和“追求数量而非质量”。因为过早的评估会让我们忽视其他富有成效的可能性，所以人们会在后期才进行评估。

有效的创造力并非仅限于此。个体和社会形式的创造力还涉及许多其他的重要方面，包括对某一主题的掌握、从他人那里学习的能力、从概念上表达问题的能力，以及将创意想法付诸实现的相关工作。

然而，对于启发式、分布式搜索结构的思考，有助于我们了解创造力的有效架构。我们首先要认识到，即使是单个人的创造力也来自于“生成”和“评估”两种认知过程之间的相互作用。

我曾讨论过，我们甚至可以完全剖析出两种创造过程，来理解机器是如何扮演创造性角色的。其中一种是“调适性创造力”（adaptive creativity）。它通常与人类智能联系在一起，囊括了生成和评估的完整过程。另一种不那么明显的是“生成性创造力”（generative creativity）。它或杂乱无章，或有条不紊，但普遍来说是无的放矢的。它可能会在人脑中以潜意识流的形式呼啸而过，也可能存在于一个完全不需要评估的情境，只是不断地生成想法，就像演化论中自然选择的无目标机制一般 [注意，“生物适应度”（biological fitness）不是目标，而是演化的结果] 。

虽然关于创造力的经典“英雄”故事通常涉及整洁有序的适应性形式（这是创造力的核心神话），但野蛮生长的生成形式实际上更为普遍，就像那些偶然的科学发现、因成功演奏者的怪癖而生的音乐风格、由寻找问题而衍生的解决方案。

- Mike Piechota -

这只是一个非常宽泛的概述，但如果我们将GPT视为创造性工具，这将会对我们大有裨益。它是一个好的生成器吗？还是一个好的评估器？它能够把所有要素整合成一个具有调适性创造力的方案吗？从表面上看，GPT在生成和评估两方面都做得很好。它可以根据用户需求产生一些新的想法，也可以根据用户输入的内容进行点评。事实上，我们对前者了解甚多，毕竟我们使用许多老一代的、不那么复杂的生成系统已经有些时日了。它们虽然无法评估自己的输出，却在生成方面异常强大，可以作为有创意思维的机器和有创造力之人的兴奋剂。这些创意有时异想天开，有时却平平无奇，但如果这种创意生成发生在一个有效的创意集结中（即涉及到有辨别力的人进行评估时），却总富有成效。

值得注意的是，作为一种“纯粹的生成器”，GPT比大多数生成器更胜一筹，因为它是个整合上下文、处理概念的高手。请记住，富有成效的创造性搜索是盲目的，但却是系统而非随机的。整合并重新解释上下文对我们更系统地组织创造性搜索无比重要。事实上，GPT最擅长系统地整合不同的约束条件。请看GPT用莎士比亚的诗句证明了无限质数* [这是我对详尽的研究论文《人工通用智能的火花》（Sparks of Artificial General Intelligence）中所举例子的再现] 。

*作者注

https://chat.openai.com/share/d5bea251-1e9d-44aa-8394-1e0bf5af112e

更妙的是，GPT也能对事物进行评估。也许不是简单的“这个好，那个不好”，而是通过结构化的反馈来帮助用户进行思考。不过，最终的评估工作还是要由用户来完成。你可以告诉GPT你的目标，但它并不会去“共享”你的目标。实际上，它只是提供了更多的思考素材，而用户需要对这些素材进行评估。从创造性的角度来看，GPT仍然是一个生成性的创造性工具，毫无疑问它是非常强大的。

然而，就算GPT不像人类一样特别擅长分布式创造性搜索，但也差强人意了。就像GPT目前的“解释器”：它能编写代码、在服务器上运行代码、并根据结果调整下一步——这和人类的差距微乎其微。

- Freepik -

虽然GPT在创造性搜索方面可以说是鹤立鸡群，但它在创造性生成方面仍然不受控制，出来的结果往往很糟糕。正如我和同事希望在即将发表的论文中展示的那样，基于现有的工作来理解共创互动的对话质量*，GPT在审美方面表现得并不出色，更不用说通过对话与用户互动以促进创新。我们对这些领域的进步是否需要完全不同的架构，或究竟如何实现这些进步仍持开放态度。迄今为止，GPT已经让许多人对“随机鹦鹉”（stochastic parrot）语言模型所达到的效果倍感惊讶，它涌现出了一种富有逻辑和理解的能力。但我认为，在寻找完全的“调适性创造力”的过程中，与用户的创造性目标保持一致的问题将变得异常复杂，而且还可能有些险恶。

*作者注

https://computationalcreativity.net/iccc20/papers/046-iccc20.pdf

最近有个鲜明的例证。一家大型超市开发了一款应用程序，它可以根据顾客购物篮中的食材向他们推荐原创食谱。我们也许会认为这是个绝妙良策，因为它可以提供创意灵感，打破日常杂货购物的乏味。问题是，生成的食谱中包括了危险的、可能致命的调制方法。据《卫报》报道，其中一个被称为“芳香混合水”的配方会产生氯气。机器人推荐的食谱是“解渴提神的完美无酒精饮料……请冰镇饮用，享受沁人心脾的芬芳”，却没有指出吸入氯气会导致肺部损伤或死亡。对于这种判断失误，与其说它在“致幻”，不如说它在“蛊惑”（tripping）。实际上，这些并非事实性错误，而是更为广泛、现实的根本性问题，它忽略了死亡对于我们这些碳基生物来说关系重大。

那么，幻觉又是怎么一回事呢？对于创造力，和GPT的其他用途一样，用户才是最终的仲裁者（例如在生成的主题摘要上签字）。人们必须清楚地认识到，语言模型的作用是做出似是而非的预测，而不是报告准确的信息或共享用户的目标。显而易见，人类的创造力与准确性和真实性并不相悖。我们的大脑可以自由地进行创造性构思，而不会将想象误认为事实。因此，尽管创造力可能会受益于暂时的非真实，但归根结底，创造力不应该偏离准确性。我并没有声称未来的GPT不会以某种方式“解决”幻觉问题。事实上，即将发布的、集成了网页搜索功能的新版GPT，可能会迅速有效地减少人们在不知情时获得错误信息的情况。但现在，让用户了解GPT与事实不符这一原理至关重要：它们生活在一个文字概率的世界里，尽管在概念上很复杂，但与人类的关切无关。

- Karolis Strautniekas -

也许最重要的一点是，GPT不是一个抽象的学术实验，而是一项巨大的商业活动，已经存在于实际应用中，推动着许多参与者的商业雄心。基于这一现实，我们对GPT的能力产生了两个稍微不同的看法。

首先，出于安全方面的考虑，越来越多的输入输出过滤器、前置后置提示词笼罩于GPT，以使用户体验更加干净。这是一个复杂的组合。尽管大语言模型经常被描述为一个黑箱，但它四周社会性的东西才是真正的黑箱，因为这些东西我们无法亲见或理解，所以我们与这类机器的潜在共同创造力是通过多种隐蔽的方式来实现的。其次，GPT是在数百万受版权保护的文本上进行训练的。它的使用是否侵犯了版权，取决于美国和其他国家现行版权法中争论激烈的合理使用问题。这之所以行得通，是因为GPT没有也不可能剽窃大量的创作素材。而且版权法涵盖的是创作作品的具体实例，而不是一般风格，而这正是GPT擅长复制的。一般来说，它不能复制具体的实例，因为它没有原始资料来源的具体记录。

当人工智能系统的制造者们宣称，他们正在制造富有创造力的工具时，诸如此类的问题遍交织在一起：创造性生产力、剽窃的避免、事实准确性、安全性、可用性、可解释性、能效以及利润。

撇开局限性不谈，GPT确实可以成为一种无比强大的创作工具，最好将其理解为一种生成性创作系统。但是，“幻觉”是一个麻烦的术语。即使是创造性的使用，也必须对大语言模型把握现实的能力有清醒的认识。

作者：Oliver Bown

译者：Lemon | 审校：绒球兔纸

排版：阿不鲸 | 封面：Myriam Wares

原文：

https://thereader.mitpress.mit.edu/hallucinating-ais-sound-creative-but-lets-not-celebrate-being-wrong/