Sora带来的四点启发

文章转载来源：AI之势

文章来源：硅基立场

作者：王兆洋

图片来源：由无界AI生成

Sora的发布是一件大事，大到开始出现人传人的“出来见上帝”现象，而到底为何大却无人关心。观察各种讨论后还是觉得有些重要的东西没有说透，把很多信息和思考串起来总结成了四条“启发”，提前剧透，以下这里没有见上帝部分。

1. 视觉数据能训练出更强的泛化能力？

ChatGPT标志着语言模型完成了“涌现”拥有了泛化能力。之后我一直很好奇不同模态的训练数据混合的效果，以及谁才是泛化能力诞生过程里决定性的那一个。

在去年前半年我遇到每个做图像或视频生成模型的人都会问他一个问题：语言模型模块在图像或视频模型里到底有多关键？后来Dalle3似乎回答了这个问题，它的能力突破被广泛认为来自GPT提供的语言模型板块的强大能力。

去年底我的这个保留问题变成了：如果用了正确的方法，只用图像或者视频数据训练出来的模型，泛化能力会是怎样？

这个好奇来自两个判断，一个是视频数据是“全互联网的文字数据都被用完了”之后的下一个增量；另一个，是视频数据被广泛认为信息密度不如文字因此它与智慧的关系也不如文字，但我认为它包含的是另一种抽象维度的信息，比如时空关系和物理规律等，这些都因为数据“非格式化”而未被“开发”，但它潜力巨大。在我有限的翻阅论文的经验里，有一篇关于多模态领域重要的模型VLMO的论文里，曾提到一个有意思的实验结论：当你完全拿一个在视觉数据上训练好的模型，可以直接对文本数据建模，甚至不需要微调就可以有很强的文本生成能力。但反过来用语言训练在视觉上生成，则差很多。后来去年MJ6V的一个重要功能提升也是文字生成，它用扩散模型的思路带来了语言能力，这都让我更加好奇。

而这一次Sora某种程度就是在回答这个问题：它把视频数据统一了，然后用大语言模型的方法理解视频，最后产生了对物理世界的“涌现”也就是泛化能力。这种能力是语言模型无法得到的。

这是很重要的一个信息。这可能不只是对理解AI有帮助，对理解我们作为人的一些智能也有帮助。

另外再提一个很有意思的细节，Sora这个模型的名字取自一个日语单词，Sora在日语是天空的意思。而这个词在日语里有时候会用作动词，意思是“用心记，而不用看任何写下来的材料”，变化出来的词比如“Soranjiru”, そらんじる的意思就是“remember by heart”。

这不就是Sora的能力。

2. 现在OpenAI只剩下一条路线：Scaling Law。

从Sora可以确定的信息来看，它的成功靠的是在所有人认为已经证明不可能的情况下，用数据精确处理后的大规模预训练硬生生带来了涌现——熟悉么，对，就是ChatGPT的又一次重演。

而这也是OpenAI的Scaling law的又一次成功。而过去很长一段时间很多人开始质疑scaling law。比如在过去几个月跟业界一线从业者交流中，大家几乎默认GPT4就是一个MOE（专家模型，由一群不同模型组成的大模型），而这被解读为单一模型能力撞墙，暗含着OpenAI坚持的scaling law的破产。但现在看，可能并非如此。在Sora的技术报告里有一句很有意思的话：Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

“最大模型”。这句话有些故意含糊，是OpenAI最大的模型？比GPT5还大？还是这个系列最大的模型？最大的大又指的是什么大？

总之，大力出奇迹仍在继续。

OpenAI 的Scaling law原本是它的研究中得出的一个学术结论，它来自Ilya 和Karpathy等OpenAI的顶尖科学家们，但它正在快速变成一种路线，充满Altman意志的路线，变成这家公司的核心战略。Altman和科学家们的关系也呈现一种智术师与统治者的关系，思想体系诞生于前者，但最终为被后者按照个人意志改造。

不知所踪的Ilya和刚刚离职的Karpathy，作为OpenAI曾经最有代表的科学家都强调过scale的重要，但前者很快开始警惕无限扩张过程里的失控危险，于是开始超级对齐项目，而这个项目在OpenAI拿不到足够算力资源也被认为是宫斗爆发的导火索之一。Karpathy 则是从科研角度想弄清楚scale和算法的关系，提出“Algorithmic progress was necessity, now bonus”。而这句话带来的一统天下的前景，显然在“野心家”眼里会超过一切。

所以，今天如果把Scaling law视作这家公司的唯一路线，Altman最近的很多动作也就更好理解：

在竞争上，7万亿的传言，就是比别人更早scale到一个临界点，并且让其他人没卡可以用来scale，让自己的规模冲到极致从而让别人无路可走。在研究上，不再给学术界的研究足够的credit，也不认为有必要给。前者聚拢来的资源远超提出一些研究方法的学界，于是任何人的研究，都能变成他的成果——学术界造出来的，OpenAI全吞掉。

今天可以看到，每次OpenAI的新东西出来，都会有人出来“维权”原创，从Q*到今天sora背后的patch，推特上一名支持开源的学者说到：今天已经没有任何一条学术规范没有被OpenAI无视过。

而且这些都是Altman的“哲学”之一。几天前我刷到奥特曼的一条推特：

you have a right to your actions,

but never to your actions' fruits.

当时还在想这是什么意思，紧接着Sora来了，Karpathy走了。我们也明白了。

Ilya和Karpathy两个在坚持闭源的决心上远没有Altman坚定，对开源一直比较暧昧的人，最终成了这一切的注脚。

这一切是不是也让你感到很熟悉？Scaling law正在被Altman演化成OpenAI版的moving fast and break everything 。也许这也是今天逼出了一个最强扎克伯格的原因。这也再次说明Altman和扎克伯格可能才是同一类人。

3. 这只是我们和AGI的第一次亲密接触，一切仍在中间态。

这几天人们拿各种文生视频产品和Sora对比，发现它全面碾压，而非各有所长。这其实反而更说明它是视觉模型本身的ChatGPT时刻，第一次证明这条路线可行，并让人们看到未来雏形。

不过，Sora在生成视频的意义之外，还在于语言模型突破后又迎来视频和物理世界虚拟生成的突破，所以更大的意义是向着AGI前进的一个里程碑。

GPT4出现后，微软当初那篇全面评测的论文，取名通用人工智能的火花，它的团队原本起的标题叫做：与通用人工智能的第一次接触。而从迈向更通用的智能的意义来看，Sora更适合这个标题。

它预示着新拼图会继续不断出现，也意味着一切都还没到“彻底变天”，反而今天的一切都只是中间态。

Sora对Dalle3的冲击已经很容易想到，而被Sora强行抢了头条的Gemini不仅明确用了MOE，而且第一次达到100万上下文长度——这已经不是对语言模型的突破，当你可以有100万上下文，你可以放进更多模态的数据，所以这样看它是和Sora有直接竞争关系的，为什么要选在Gemini 1.5后几小时急着用一个“PPT”发布Sora，可能也更好理解了，OpenAI比谁都明白，有了上下文长度就有了一切，不管你叫什么模态的模型。

这一切都指向今天还被认为是最强大的GPT——它也只是个中间态。一切都还有机会。

4. 不必妄自菲薄

说实话，从OpenAI去年宫斗闹剧到今天的Sora发布，围绕它们的刷屏让我非常羡慕，多希望有我们自己的企业和产品和明星人物也能获得如此高度讨论。

其实从宫斗的处理，到今天Sora发布，OpenAI的每一次重要的动作和发布，都配合着一场场精巧设计的叙事和campaign，它的设置议题的能力，节奏控制，公众引导熟练自如。哪怕你只想喊两句“中美差距拉大”吃一吃情绪馒头，也至少该知道这一切。

OpenAI是在gpt4已经训练出来后，才决定发布基于Gpt3.5的ChatGPT，Altman在去了国会听证并高声呼吁要减速AI的发展、政府多多监管后，转头几天就按下按钮发布了ChatGPT 的app，Anthropic 拿到亚马逊的最重要一笔融资后发现OpenAI给ChatGPT做了第一次大更新，上线了语音和图像功能，以及这一次还没ready的Sora硬抢谷歌 Gemini 的头条，Altman掌控下的OpenAI在议程设置上几乎登峰造极。

此外，OpenAI的每个人几乎都是一个品牌，都是一个推特上的AI界马斯克。一次发布，团队就多几个明星人物，成为以后媒体们选题的天然来源。

而且这种同样的模式已经越来越明显的在硅谷AI创业公司蔓延开来，比如号称要干掉Google的perplexity的印度CEO，比如从传统浏览器变成“要再造一个互联网那么大的平台”的Arc浏览器。而这背后与AI行业发展急需的资源，人才，注意力，市场竞争等直接挂钩。

中国的同行们似乎已失去了这个能力。努力追赶是必须的，但作为一个天天和一线创业者打交道的人，我开始感觉我们对自己严苛到妄自菲薄的事实也在起着反作用。

我们不缺同样带来极佳体验的AI模型和产品，也不缺技术社区影响力极佳的个体和作品，但却没有在我们自己的讨论里形成该有的关注。也许所有人该放开一些包袱了。

OpenAI不是transformer发明者，Stable Diffusion不是diffusion 发明者，Mistral不是MOE发明者，其实如果对标，它们本质都可以理解是一个个ASML，所以“我们为什么没有诞生OpenAI”是不是并不等于“我们为什么没从头发明某某技术”？对原创技术的理解和定义是不是在我们妄自菲薄的过程里被扩大化了，是不是哪怕一家像ASML这样的“只做沙子的搬运工”的公司今天诞生在中国也躲不过先被骂套壳的命运？

有时候，问题提错了可能一切就都错了。