Sora发布后，Pika创始人回应：很振奋，我们将直接冲

文章转载来源：AI之势

文章来源：钛媒体

作者：李程程

图片来源：由无界AI生成

OpenAI刚刚推出的Sora像是一颗炸弹，再一次引爆全球。

作为AI视频模型，Sora可以根据文本指令创建现实且富有想象力的场景，能够生成具有多个角色、特定类型的运动，以及主体和背景的准确细节的复杂场景的高清视频，并且时长可以达到一分钟。

Sora对语言的理解也达到了一个新的层级，使其能够准确地理解提示词，并生成表达充满活力的情感的视频。它建立在过去对DALL·E和GPT模型的综合研究之上，提出了一种新的模型可能。它不仅可以理解用户在提示中提出的要求，还能理解它们在物理世界中的存在方式。

重要的是，Sora是一个diffusion transformer，而transformers已经在语言建模、计算机视觉和图像生成等各大领域已经表现出了杰出的扩展特性。

作为一种扩散模型（diffusion models），Sora除了能够根据文本指令生成视频之外，还能够获取现有的静态图像并从中生成视频，准确地动画图像的内容并关注小细节。Sora还可以获取现有视频并对其进行扩展或填充缺失的画面。

Sora从大型语言模型中获得灵感，这些模型通过互联网规模数据的训练来获得通用能力。（截图来自OpenAI发布的Sora技术研究报告：Video generation models as world simulators）

OpenAI发布的技术报告认为，Sora的研究结果表明，扩展视频生成模型是构建物理世界通用模拟器一条极具前景的途径。它使人工智能理解和模拟运动中的物理世界，迈向了一个新的高度。

因此，Sora也被认为是AGI实现过程里的重大里程碑事件，而不仅仅只是视频生成。

在Sora发布之前，Runway和Pika都被认为是视频生成赛道的佼佼者。Sora发布之后，很多人认为，它凭一己之力已经轻松“吊打”且即将“干翻”这两家新兴独角兽公司，并对创业者的命运表示担忧。

然而，他们自己对此却似乎兴奋更多于恐惧。Pika创始人郭文景独家回应钛媒体App称，“我们觉得这是一个很振奋人心的消息，我们已经在筹备直接冲，将直接对标Sora。”

此外，郭文景还透露，目前已经在招人了，具体计划暂时还不能对外透露。

Pika Labs成立于2023年4月，同年11月发布首个产品Pika 1.0。Pika1.0能够生成和编辑3D动画、动漫、卡通和电影，并且普通用户还可以对其进行加工，被视为一款零门槛“视频生成神器”。

在与钛媒体创始人赵何娟的【AI新生代】系列对话中，郭文景也曾提到，目前生成式视频发展的一个重要限制是算法的成熟度，这也是Pika的核心主攻方向。

“我觉得视频跟语言模型不太一样，关于语言模型大家已经知道大概的方法，算法其实已经比较成熟了。但视频现在没有很好的算法，它不是一个规模化的问题，不是说现在大家的GPU不够多，很多时候其实是算法上还没有很好的一个思路。”郭文景说。

而此次Sora的发布，也给行业提供了一个非常好的算法思路，可能反倒为Pika这样的领先创业公司提供更成熟算法路线可能。

事实上，面对实力强劲的OpenAI，郭文景也早已做好了准备。早在数月前，赵何娟也曾问过郭文景，在视频生成赛道上最关心的对手是谁，郭文景当时即表示，应该是OpenAI。

作为一个在东亚文化里成长的女生，郭文景大学本科毕业于哈佛，而斯坦福博士尚未毕业就辍学创业。其创立的Pika 1.0版本的demo视频流出之后，即一鸣惊人，它能够生成和编辑包括3D动画、动漫、卡通或者电影风格的视频，并且使用起来也很容易上手。

它还允许用户自己上传视频片段，并使用生成式AI来编辑和重新构建场景。电影质感，动画级特效，Pika 1.0的视觉效果十分炸裂，似乎让普通人都能成为电影导演，即将成为一种可能。

这支最初由4个人组建pika_labs，融资超过5500万美元，几乎所有AI领域的知名早期投资公司都参与了此轮融资。

而就在Pika1.0发布才过去四个月不到，同赛道的Sora的横空出世，在AI视频生成这条路上，又增加了很多变数和可能性。

以下是之前钛媒体创始人赵何娟与Pika创始人郭文景的【AI新生代】对话实录：

当电影梦叠加AI的“魔法”

赵何娟：Hello，Demi，很高兴又见面了，很高兴你能够来到我的直播间，与我们一起来探讨这一波AI浪潮下新生代崛起的话题。作为硅谷最近非常火热的AI生成式视频项目Pika的创始人，外界对你们的讨论也特别多。我想大家应该都会对你的创业，对你本人都会很感兴趣。
我们可不可以先从你自己的经历开始聊一聊，你是怎么从哈佛大学读本科，然后到斯坦福大学读的硕博的？又怎么选择了文本生成视频这个方向来创业的？

郭文景：大家好，我是Demi。我从小就对创意行业比较感兴趣，也因此我选择去斯坦福大学。之前我一直在做AI，两年前加入斯坦福大学读博，我选的方向就是AI for content creation.，用AI做一些内容创作。

我当时跟了两个老师。一个老师是斯坦福大学人工智能实验室的主任Chris Manning，另一个老师之前是用计算机做电影的，他曾经获过两次奥斯卡奖。斯坦福也是一直尝试用AI做内容创作。我也在游戏公司做过一些AI for虚拟人，AI for 3D游戏内容，以及原画的一些的探索。

之所以开始创立Pika，一个是对这个方向比较感兴趣，另外也是我自己特别想做一些电影和视频，但我不是专业的。我曾经跟一些朋友想做一个AI电影，过程让我意识到，虽然现在视频制作已经非常先进，但还是有很多瓶颈。

我觉得AI一定会改变现在视频制作的方式。如果能够用最好的AI技术，去想象未来视频制作的方式，是一件非常有意思的事情。我就开始做Pika这个项目。

赵何娟：你在创立Pika之前，先参加了Runway的AI视频大赛。你现在做的Pika，一个很重要的或者说比较大的竞争对手就是Runway。你为什么去参加Runway的大赛，同时要做一个跟Runway完全竞争的项目？而且，Runway在这个领域里目前还是领先的。

郭文景：我当时参加这个大赛的时候，没有想要做AI视频的公司，纯粹是兴趣。当时我们放寒假，我发现这个比赛就挺有意思的，我想做一个电影。我们当时还找了一个编剧去写这个剧本，也找了一些做AI的朋友和大学同学。

这个过程，让我们意识到现在视频制作还是非常复杂。我们有很多创意是很好的，但并不能很好地实现。我们也用了很多Runway的工具，也用了一些其他的工具，我们发现还有很多空间。

赵何娟：你发现在做视频或者电影创作的时候，深入研究发现制作过程还是有很多瓶颈，主要的瓶颈是哪些？

郭文景：我当时想要把视频的背景变成一些其他的背景，包括几秒钟的视频，就要花掉我好几个小时，电脑还会出错。我想要把一个视频放嵌入到iPad的屏幕，过程也非常复杂。我根据一些教程学了一遍以后，第二遍我就直接忘记了，中间还有可能出错。这应该是比较简单的任务，没想到还需要花这么多时间和精力去做。

我们当时做的电影，找了演员，做的是从真人变成动漫的形式，当时可能还没有任何模型去做，视频到视频的功能。我们其实是用了一些新的论文，去实现的。其实AI能做，但是市面上没有很好的工具。

坚定AI信仰：比起数据，技术才是底气

赵何娟：现在GPT大模型也在不断升级，迭代速度还是蛮快的。可能在你想做那件事情的时候，还没有工具能做，但是可能当你自己去做的时候，发现其他的工具都开始做了。所以，你们来做这件事情的核心竞争力是什么呢？

郭文景：首先，我们还是比较相信自己的技术背景的。我们创始团队有斯坦福博士，团队还有麻省理工等院校的博士，和一些比较非常优秀的本科生，我还是想打造一个比较顶尖的技术团队。

相对Runway来说，我们还有几个不同。关于产品的定位和产品的策略，Runway可能还是更偏向于一些专业的用户。它们推出的很多功能，主要是面向电影制作，或者说电影工作室，更偏于一些专业用户。

但我们想做得更加偏普通用户能用的一些工具。不一定说是要做电影，也可以是帮你编辑一些个人的视频，或者是做一些比较有趣味的视频。

Runway它可能做的范围会更加广一些，比如说3D、语音、agent，各种不同的模型，方式更偏向于有一个新的算法，有新的一些功能。但我们是从视频编辑和视频制作的角度出发。

赵何娟：还有一个很重要的问题是数据。相比Runway这样已经跑在前面的公司，或者是相比其他的一些大的平台，比如说，像迪士尼现在也在做自己的视频生成的相关的模型，你们会不会认为，数据是最难与之竞争的？你们怎么解决数据的问题？

郭文景：数据的确很难与迪士尼竞争。OpenAI是现在最好的语言模型，但是为什么有很多语料库的公司，没有做出最好的语言模型呢？迪士尼也不代表它的数据一定会更好，因为它的数据量比较有限。其实很多语言公司最后还是看技术。

赵何娟：你刚才讲到的另外一个不同，你们的定位不一样。你们更偏向于普通用户，普通消费者，而不是只针对电影制作者这类专业用户。怎么理解你们想要针对普通用户这样的一个定位？像TikTok这样也是针对普通用户，每个人都可以在上面做一段创作或者短视频，是不是你们也会往平台方向去拓展？

郭文景：我们现在没有这方面的想法，我们更多是基于技术之外的一些功能性的开发。

赵何娟：那普通用户怎么用你们呢？他们用Pika，更多是用来做什么呢？

郭文景：我们现在更多是希望用户可以做一些视频的生成和视频编辑。具体的应用，目前我们还是比较开放态度，是让用户去决定。我们现在更多是把技术瓶颈突破。

赵何娟：现在技术突破上最大的一个难题是什么？

郭文景：我觉得视频跟语言模型不太一样，关于语言模型大家已经知道大概的方法，算法其实已经比较成熟了。但视频现在没有很好的算法，它不是一个规模化的问题，不是说现在大家的GPU不够多，很多时候其实是算法上还没有很好的一个思路。

举例子来说，比如现在大部分常用的视频模型，根据设计来讲，它就不可能生成很长的视频，因为它每一帧的图片是一起生成的。它有一些算法上的瓶颈，无法做出我们想象的那种非常长、非常好的视频。它其实还需要一些算法知识上的突破。

赵何娟：接下来的创业里，对于你来说，还会有哪些挑战？

郭文景：AI是高速发展的一个行业，一定会有很多的变化，竞争对手也有很多的变化，整个行业日新月异。更多的挑战是一些不确定的挑战，我们也不知道未来会发生什么。所以，对我们来讲，我们的心态是，这就是没有什么挑战。

现在我们更多的是想建立一支比较好的团队。没有什么挑战是不能克服的。可能有些挑战更难一些，你花的时间需要更多，去探索，去找到一个解决方案。

赵何娟：你之前是对AI和创作感兴趣，但你与团队在磨合的过程，或者在组建团队的过程里，发现就凭兴趣做事，和做公司之后，感受有什么不一样的吗？

郭文景：我们很幸运的一点是，我们做的公司，就是我们的兴趣。我就是目标用户。我有时候工作闲的时候，就会去用我们的产品，去做一些视频。包括我们最早的一些市场向的视频，就是我做的。

我们比较幸运的一点，是因为我们对自己的这个方向特别感兴趣。所以，我们的团队也是相对比较有活力，都是属于比较有自主动力的人，而且团队还比较小。创业是最幸福的事情，在做自己最想做的事情，而且跟一群我们觉得非常优秀，同样对这件事感兴趣的人一起做这件事情。

赵何娟：你们的投资机构，光速创投的合伙人Michael，他说，Pika团队是他见过行动力最快的团队，我不知道你怎么看待这个评价？

郭文景：我们团队一直比较看重执行的效率，这可能也是小团队的一个优势。

赵何娟：我们再来聊聊趋势。之前我有看到英伟达的科学家说，2022年是影像之年，2023年是声波之年，2024年是视频之年，你怎么看这个演化的过程？近几年说视频也都好多年了，为什么说今年是视频之年？

郭文景：视频可能现在虽然没有那么完美，但是今年一定会有比较大的突破，因为现在用AI一个做好的视频，需要在prompting，提示词上有一些技术。你可能需要在这方面比较有经验，就能做比较好的视频。但如果你没有很有经验，就不能做出很好的视频。

这是因为现在视频模型还没有那么成熟，但我们觉得马上会非常成熟。

今年可能就可以做出产品，是能够让所有人不需要有很多的经验，就能够做很好的视频。

赵何娟：接下来也想聊一聊你对整个AI的行业的一些判断。你怎么看待最新的这一波的AI革命浪潮，有没有可能有更多的机会也是你感兴趣的？除了你现在做的视频之外，你接下来还有没有哪些想法？

郭文景：我非常相信AI浪潮。我知道很多人可能会觉得AI浪潮实在有点太火了，或者是有一些过度，有些泡沫。但我们还是很相信的。不管说这个热度是否过火，但是技术真的是有突破。我们也相信，未来AI一定会改变很多行业，很多的应用，包括应用的一些使用。这个是毋庸置疑的。可能包括视频制作或者说音乐制作，购物方式，AI都会对传统的方式有颠覆。

“别人家的女儿”是如何长成的？

赵何娟：你做这个的事情，你家人怎么看呢？

郭文景：我家人还挺支持我做任何我想做的事情的。

赵何娟：Pika创业项目出来之后，你们公布了融资信息，又发布demo，大家也都非常关注你的家庭背景，都说这是“别人家的女儿”。
所以，从你自己角度来说，你觉得家庭的教育，对你不管是求学，还是创业的想法，起到了什么启发或者作用？一个这么优秀的女孩子的成长，一个很好的家庭教育还是很重要的，或者是起到了很至关重要的作用。

郭文景：我觉得我还是挺幸运的，我的整个成长经历，也挺感恩，不管是对我的老师，或者是家里人。因为我从小一直对创意行业比较感兴趣，我小学的时候，其实是想做一个作家，想要追求一些文艺的梦想，包括我家里人，其实当时特别希望我能走一些文艺的路线。我当时坚持要做编程这条路线的时候，我还跟我父母大吵了一架。我有姐姐和妹妹，她们是做的偏这个艺术方面的一些工作。

赵何娟：你小时候那么喜欢写作，什么时候开始又开始对编程感兴趣的？是什么触发你突然对编程感兴趣了？

郭文景：我当时特别喜欢诗歌。我小时候喜欢写作，喜欢看诗歌、散文集。我特别喜欢一些比较抽象的诗歌，一些带有隐喻的散文，结构上的设计上比较巧妙的诗歌和散文。

当时接触到编程，也是纯粹觉得非常有意思。五六年级的时候，刚好家里有一本书讲的是LOGO程序语言，是一个小乌龟画画的一个语言。当时暑假没事儿干，看了这本书，就学会了这个LOGO语言。你可以通过编程的方式，去做一些创作。

程序跟诗歌还是有一些共通之处的，是需要去设计的。比如说，结构化的编程，你需要设计一下，函数怎么搞，结构怎么搞。但它与诗歌不一样的点是，你最后的输出的这个东西，是可以交互的。

赵何娟：你可能在小学的时候接触编程是玩儿，但是，在成长的过程之中，比如说，中学之后就要开始想专业方向。你在专业方向选择的时候，为什么没有选文艺那条路？比如说，去学文学或者是学艺术相关的，而是完全走上了这个计算机科学这条路。

郭文景：我其实到初中、高中以后，就逐渐喜欢上了编程。纯粹是个人兴趣，没有想到编程会对我升学有帮助。当时每天要先好好做作业就开始去编程。编程与文学不一样的有意思的点是，编程真的能做一些应用，一些实际上的大家都能用的一些应用。我觉得这件事情非常的magical。

大学也是兴趣导向的。我大学本科修的是数学。但是，我同时也与一些博士生一起，上一些计算机的课。在哈佛修的是数学学位，同时拿了一个计算机的研究生学位。我在哈佛也上了很多人文课。

前两年，我就把计算机和数学的学位拿到了。后面两年，其实我主要都在上人文课，关注文艺的一些事情。

赵何娟：这个也蛮有意思的，不管是计算机还是文艺，都是你的兴趣。然后，你现在就把这些不同的兴趣，通过创业，把它结合起来了。

郭文景：这是两个不同方向的兴趣。大一时候，我就开始接触AI。因为当时觉得AI像是一种魔法，AI这么神奇，这么powerful。比如说，AI当时能够做人脸检测之类的，我觉得非常不可思议。对AI也感兴趣，对艺术和创作一直都很感兴趣，我很难找到一个更让我觉得更有意思的事情。

赵何娟：你从哈佛学习，又来到了斯坦福。这两所学校，一个在美东，一个在美西。你觉得这两所大学对你来说，以及你在这两所学校里收获的东西，有什么不一样么？

郭文景：两者不同的话，其实很难说。主要是本科经历和博士经历不是很一样。大学可能会更广一些，更注重一些探索，可能会修不同的领域的课，会认识不同领域的人，但博士可能更偏专业一些。

赵何娟：美东的文化和硅谷的文化相比，差异其实也蛮大的。在你看来，这两所学校的教育模式、创新，或者与企业界的联合的方式，有什么不一样？你会更受益于哪一种？你的创业可能会更受益于哪一种？

郭文景：其实挺难对比的。每个学校环境不太一样。可能在哈佛，在美东，大部分的朋友都在搞金融，但是，斯坦福会有更多同学对创业感兴趣。

斯坦福有很多计算机的课，计算机与其他学科结合的课也非常多。哈佛与计算机相关的，没有几个课，我们当时要上一些博士level的课，可能也就二十几个人。甚至，我当时还在MIT上了一节课。

其实计算机相关的，在哈佛也是第二大的学位。在哈佛很多学习计算机的人，后来也没有去做计算机相关，很多人去做股票、咨询或者产品经理之类的工作。

赵何娟：斯坦福的创意氛围更浓，斯坦福大学也有很多辍学创业的，都还比较成功。你的前辈们在硅谷各领风骚好几年。过几年，又会有一波新兴的创业新秀起来。这也与硅谷和斯坦福独特的文化有很大的一个关系。
你当时怎么就下定决心，决定辍学去创业的？尤其你是从小成绩就很好，是家里的掌上明珠，为什么有辍学这个跟你之前的人生可能很不一样的决定？

郭文景：相比读博来讲，我个人对创业会更感兴趣。我其实在哈佛从中间也辍学了一年，再回去读的。我当时大二的时候，在Facebook就是现在Meta全职工作了一年，在AI研究实验室，主要是感兴趣。对创业比较感兴趣，是因为我觉得还能做一些应用。

我比较喜欢追求自己热爱的事情。在美国，一些本科生辍学还是挺正常的一件事情。我的幸运的点是我的导师。包括我的博士的导师，都特别支持我。他们在学术上都非常资深，一个是斯坦福人工智能实验室主任，一个是获得了两个奥斯卡奖。我博士的导师，现在是我创业的导师和顾问。现在我还是会定期去见他们。