大模型幻觉问题再成焦点，LeCun为Galactica喊冤：早ChatGPT前两周推出的它本该风光无限

文章转载来源：Yangz

图片来源：由无界 AI生成

众所周知，幻觉问题一直是困扰大模型的一大难题。近日，一个名为 Vectara 的 AI 平台通过自建幻觉评估模型（该模型已在Hugging Face上开源供商业使用），计算得出了目前市面上大多数公共 LLM 的幻觉频率，并以排行榜的形式在 X 上发布了截止 11 月 1 日的测试结果。

从榜单上可以看到，GPT-4 的准确率为 97.0%，幻觉率为 3.0%，而 Google Palm 的两款 LLM 表现垫底，其中 Palm Chat 的准确率为 72.8%，幻觉率甚至高达 27.2%。

榜单一经发出，大批网友纷纷转发，但也有专家指出了该排行榜中所含的问题以及我们应该关注到的细节。

英伟达高级 AI 科学家Jim Fan 指出，这项研究只评估了摘要与原文的“事实一致性”，而没有评估摘要本身的质量。通过简单的复制，摘要总能达到 100%的事实一致性，可以做到完全不存在幻觉。此外，该评估依赖于使用另一个“judge LLM”来决定幻觉是否发生，但几乎没有详细说明该如何进行提示以及如何真正捕捉谬误。Jim Fan 举例道，“假设模型注入了一些无关但真实的事实。比如文章只提到 ‘巴黎’，但模型却返回‘巴黎，法国的首都’。这算不算幻觉？”

Jim Fan 表示，事实上，这项研究甚至可能会惩罚那些总结得更好的模型，因为它们往往会进行更多的转述和提炼。此外，他也呼吁道，在下结论之前，还是务必阅读评估协议。这一点对于 LLM 任务和其他任何 ML 系统都普遍适用。

Jim Fan 的观点得到了很多大佬的支持，而 Meta 首席人工智能科学家 Yann Lecun 也是转发了本条推特。

或许是这个排行榜大火，Meta 一年前发布的但只存活了三天的 LLM——Galatica 的共创者 Ross Taylor 今日也是打破沉默，转发了 VentureBeat 关于 Galatica 因幻觉问题被网友喷到下线的故事原委。而 Yann LeCun 也是感慨道：“你知道‘早发布，勤发布’这句开源圈的老话吗？说到人工智能，还应加上‘是的，但要准备好忽略 Twitter 上暴民们荒谬的末日预言’。”

Galactica 的故事

那么，一年前 Meta 的 Galactica 究竟发生了什么？

一年前，也就是 OpenAI 发布 ChatGPT 的两周前，Meta 发布了一个名为 Galactica 的研究演示。作为一款开源的“科学大语言模型”，Galactica 是在包括 4800 万篇科学论文在内的数据基础上训练出来的，Meta 称 Galactica 能够“总结学术文献、解决数学问题、生成维基文章、编写科学代码、注释分子和蛋白质等”。

然而，Galactica 只公开存活了三天。2022 年 11 月 17 日，Meta 因“幻觉”这个当时还未成为主流的词被网友喷到撤下了演示版。许多人对 Galactica 有时非常不科学的输出感到震惊。是的，和其他 LLM 一样，Galactica 会输出一些听起来有理但实际上是错误的信息。

当时，Meta 首席科学家 Yann LeCun 为该模型进行了辩护，并发布了一系列推文，但一切无济于事。Galactica 没有成为生成式人工智能时代改变游戏规则的模型。

两周后，ChatGPT 正式发布。尽管 ChatGPT 同样存在幻觉问题，但这并没有减缓 ChatGPT 成为 LLM 之星的步伐。在短短两个月内，ChatGPT 的月用户数量就达到了 1 亿，而现在每周的用户数量已经达到 1 亿。

Ross Taylor 表示，Galactica 是当时其领域中一个很好的模型；在计算量分别减少 10 倍和 2 倍的情况下，它的性能超过 PaLM 和 Chinchilla。此外，整个研究团队也只有 8 个人，比当时其他 LLM 团队少了一个数量级。

然而，由于工作量巨大，团队在没有检查的情况下就发布了 Galactica 基础模型的演示。Ross Taylor 表示，发布演示的考虑因素之一是，其团队希望了解人们用于 LLM 的科学查询的分布情况（这对指令调整和 RLHF 非常有用）。然而网友们却在领域之外进行了查询，从而招致了大范围的谩骂，团队也失去了态势感知能力。据 Taylor 自己讲述，该团队也曾假设分享基础模型的所有缺陷，并在演示版上加上四个关于幻觉的免责声明，但并没有起作用。

Taylor 称，另一个失误是团队把愿景什么的都写在网站上，导致人们误把网站当成了“产品”。而事实上，该团队并没有将其视为产品！只是一个基本模型演示。

Ross Taylor 对 Galactica 的遭遇感到痛心，但他并没有后悔。Taylor 表示，“与其后悔，不如有所作为。”幸运的是，Galactica 的大部分工作和研究都促成了 LLaMA 系列的发布。

Meta 人工智能研究副总裁 Joelle Pineau 在接受 VentureBeat 采访时解释说：Meta“很可能错误地估计了”人们对 Galactica 的期望，但“我们已经将从中吸取的教训融入到下一代模型中”。

2023 年 2 月，Meta 发布了 Llama 模型在人工智能研究领域掀起了一场风暴，随后在 7 月，Meta 推出了商用的 Llama 2，8 月又推出了 Code Llama。随着 Llama 成为首个主要的免费”开源“LLM，开源人工智能开始崭露头角，并引发了一场热火朝天的讨论。

错误地谩骂可能适得其反

Galactica 死于非命，正如 Lecun 所讲，“它是被一群贪婪的推特暴徒谋杀的。暴徒们声称，我们现在所说的 LLM 幻觉将摧毁科学出版系统。结果，一个对科学家非常有用的工具被摧毁了。”

是啊，在如今大火的 AI 圈子里，独立思考显得尤为重要。“打着人工智能伦理的幌子，错误地谩骂可能会适得其反。”

参考资料

https://venturebeat.com/ai/what-meta-learned-from-galactica-the-doomed-model-launched-two-weeks-before-chatgpt/
https://github.com/vectara/hallucination-leaderboard
https://twitter.com/rosstaylor90/status/1724547381092573352
https://twitter.com/DrJimFan/status/1724464105371939301