YannLeCun：生成模型不适合处理视频，AI得在抽象空间中进行预测

文章转载来源：机器之心

AI 理解视频不能依靠在像素空间中预测。

图片来源：由无界 AI生成

在互联网文本数据即将枯竭之际，很多 AI 研究者将目光转向了视频。但如何让 AI 理解视频数据成了新的难题。

在 2024 世界经济论坛的一次会谈中，图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 被问到了这个问题。他认为，虽然这个问题还没有明确的答案，但适合用来处理视频的模型并不是我们现在大范围应用的生成模型。而且新的模型应该学会在抽象的表征空间中预测，而不是在像素空间中。

一起参与讨论的还有斯坦福大学教授、Coursera 联合创始人 Daphne Koller。她的研究领域主要是人工智能及其在生物医学科学中的应用。她指出了理解因果关系对于构建未来AI系统的重要性。

以下是视频的文字版本：

主持人：我在世界经济论坛中参与过一些讨论。他们说，我们的数据快用完了，真的吗？网络上没有那么多了？

Daphne Koller：是真的。

主持人：但是自动驾驶汽车可能提供更多数据。Yann，你觉得呢？

Yann LeCun：我完全同意 Daphne 的观点。当然，如果我们致力于 LLM，或者说是自回归 LLM，我们可以看到它们的发展正趋向极致。毫无疑问，数据资源正变得越来越少，我们基本上已经使用了互联网上所有的公共数据。小型 LLM 使用十万亿 token 进行训练。以每个词大约 2 字节计算，我们用于训练的数据总量大约是 2*10¹³ 字节，用普通人的阅读速度来说，读完这些数据需要 15 万到 20 万年。

想象一下，一个孩子通过眼睛看到了多少东西。比如一个四岁的孩子，我们来试着量化一下 Ta 生活中所看到的信息量：每秒视神经传输大约 20 兆字节的数据，在孩子的头四年的生活中，醒着的时间有 16000 小时，每小时 3600 秒，计算可以得出有一千兆字节的信息量。由此可以看出，一个四岁的孩子所看到的信息总量，是最大的大模型所消化的数据量的 50 倍。

四岁的孩子比我们拥有的最大的 LLM 要聪明得多。Ta 积累的知识量看似更少，但这是因为形式不同。实际上，对于这个孩子来说，Ta 对世界如何运作有着很丰富的认知，而我们今天还不能用 LLM 做到这一点。我们还需要发明一些新的科学方法和技术，来让未来的 AI 系统像孩子一样，能够利用这些看到的信息。这将需要一些科学和技术上的突破，可能会在一年、三年、五年、十年后发生，很难说出准确的时间，因为这是个挑战。

主持人：确认一下我是否理解了你的意思。可获得的文本数据量会增长，但并不是无限的。而我们能输入到这些机器中的视觉数据量却是巨大的，远远超过文本数据。

Yann LeCun：我刚才提到的 16000 小时的视觉内容，相当于 YouTube 上 30 分钟的上传量。这意味着，我们拥有的数据远远超过我们能处理的量。问题在于，我们如何让机器从视频中学习呢？我们并不知道。

主持人：那么如果下一步是要处理视频输入，需要什么样的新架构呢？显然大型语言模型并不是好的选择，它的构建方式并不适合处理视频，那我们现在需要构建什么？

Yann LeCun：大型语言模型或者一般的 NLP 系统，通常是用这种方法训练的。拿一段文本，然后故意删掉一些地方，接着用一个巨大的神经网络来重建文本，也就是预测那些被删掉的词，也就是通过删掉一些词来「破坏」文本。像 ChatGPT 和 Lama 这样的模型都是这样训练的。你只需删掉最后一个词就能训练它们。从技术上讲实际上更复杂，不过大体就是这么个意思，训练这个系统来重建输入中缺失的信息。

一个显而易见的想法就出现了，为什么我们不用图片来试试呢？拿一张图片，通过移除一小部分来损坏图像，然后训练大型神经网络来恢复它。但这并不奏效，或者说效果并不好。这方面已经有很多尝试，但都不太成功。对于视频也是一样。

我已经研究视频预测九年了。我一直在尝试预测，就是向系统展示一段视频，然后训练它预测接下来会发生什么。如果系统能做到这点，它可能就能理解世界的一些基本规律，就像文本系统试图预测下一个词一样。它得能理解句子的含义，但这也做不到。

主持人：你的意思是，你拍了一段视频，你让视频里的人拿着笔把手举高，然后放开，我就能预测笔会掉下来。但现在机器并不能做到这一点？

Yann LeCun：主要的问题在于，你的笔有一些特殊的摆放方式。当你把它丢下去的时候，它会沿着特定的轨迹下落。我们大多数人无法准确预测轨迹是什么，但可以预测物体会掉下来。婴儿大概要花九个月的时间，才能理解没有支撑的物体会掉下来。这种直觉上的物理知识，婴儿九个月就能学会，那我们怎样让机器也做到这一点呢？

主持人：等一下，我想问个可能有点傻的问题。如果想要这些技术有效果，并持续革新，那就需要它们能够理解视频，毕竟数据都在视频里。但我们自己都不完全理解视频，这个矛盾该如何解决呢？

Yann LeCun：其实目前还没有真正的解决办法。但目前最有希望的，至少是能用于图像识别的东西，说出来可能会让大家惊讶，并不是生成式的。

所以最有效的模型不是生成图像的，不是重建，也不是直接预测。它做的是在一个抽象的表征空间中进行预测，就像我无法准确预测你手中的笔会如何掉落一样。但我可以预测它将会掉落。在某种抽象的层面上，一支笔具体在哪里以及它的确切摆放方式和其他具体细节，我都可以做出预测。

所以，我们需要在抽象表征空间中预测，而不是具体的像素空间。这就是为什么像素空间的预测都失败了，因为它太复杂了。

Daphne Koller：但是这不仅仅是关于视频的问题。我认为婴儿学到的另一件事是因果的概念。他们通过对世界的干预，并观察发生的事情来学习的。而我们的 LLM 还没有做到这一点。它们完全是预测性引擎，只是在建立关联，没有真正理解因果关系。而理解因果关系，对于人类与物质世界的交互极为重要，尤其是在我们尝试将数字信息与实体世界联系起来的时候。这是当前模型中缺失的一项很重要的能力。这种能力在实际应用的模型中缺失，在计算机进行常识推理的能力中也是缺失的。当我们尝试将其应用于其他领域，无论是制造业、生物学还是任何与物理世界互动的领域时，这种能力也都是缺失的。

Yann LeCun：在具身系统中，它实际上是有效的。有些系统是建立在对世界的模型上的。比如，这里有一个表示在时间点 t 的世界状态的模型，这里是我可能会采取的行动。想一想，在时间点 t+1 世界的状态会是什么？这就是所谓的世界模型。如果你有了这种世界模型，你就可以规划一系列行动来达到一个特定目标。

目前，我们还没有任何基于这一原理的 AI 系统，除了非常简单的机器人系统。它们的学习速度并不快。因此，一旦我们能够扩展这种模型的规模，我们就能拥有能理解世界、理解物理世界的系统。它们可以规划，可以推理，可以理解因果关系。因为它们知道一个行动可能产生什么效果。它将以目标为导向。我们可以利用这种规划给它们设定目标，这就是人工智能系统的未来架构。在我看来，一旦我们搞清楚怎么实现这一切，就不会有人还愿意用目前的方式。

原视频地址：https://www.weforum.org/events/world-economic-forum-annual-meeting-2024/sessions/the-expanding-universe-of-generative-models/