专访｜VideoPoet核心作者：揭秘谷歌革命性视频生成技术

文章转载来源：AIGC

图片来源：由无界 AI生成

在全球新一代 AI 独角兽的竞赛中，视频生成技术作为最具潜力的领域之一备受关注。最近，Google 推出了名为 VideoPoet 的大型语言模型，它不仅能够从文本和图像生成视频，还具备风格迁移、视频声音频等功能，其动作生成的丰富性和流畅度令人印象深刻，被广泛认为是革命性的 zero-shot 视频生成工具。本期专访特邀 VideoPoet 的核心作者于力军同学和 Google 机器学习工程师 Yishuai，与 SenseAI 一同进行技术思考与应用探索。

视频生成的技术层面是在现有的技术框架下的规模化还是会有更加创新的框架出现，目前是未知的，唯一确定的是，今年的视频生成技术还会有新一轮的迭代，然后走向成熟，最终促使应用层的又一轮爆发。

视频生成的应用层面，是短视频先行，消费侧需求时长更短，质量要求更灵活；同时供给侧，受制于现有算法架构和算力消耗，ROI 还未商业可行；内容品类上，看好动漫动画，自然风光和教育方向。

未来视频生成是混合动态的：拍摄不会被取代，依然是重要素材的来源，但生成是很好的补充、延展、想象具像化。

模型即产品：AI应该在人类创作和具像化过程中的每一步去适应人类，辅助人类，这个前提就是模型具备了多模态输入能力和下游生成编辑能力的最小单元，和模型的交互是极简和动态的，在任意时间维度和生成状态中，都可以灵活的输入和编辑，模型会自己去理解和生成。

01 背景与研究方向

在本期播客中的嘉宾于力军，目前是卡内基梅隆大学的人工智能领域的博士生。于博士的学术之旅始于北京大学，专业为计算机科学和经济学。他在 CMU 的研究主要是与 Alexander Hauptmann 博士合作，聚焦于多媒体的研究。他们的团队从多媒体检索起步，逐渐过渡到视频理解，并最终专注于视频生成技术的创新。于博士特别致力于多模态大型模型的研究，重点是多任务生成的视角。此外，他与谷歌有着长期的合作关系，他在谷歌的导师是Jiang Lu老师，他是CMU研究组的毕业生，目前在谷歌担任研究科学家，专注于视频生成领域。他们在谷歌的很多重要研究都是围绕这一主题展开的。

02 技术架构 Q&A

SenseAI：基于LLM的视频生成模型会不会在长期比Diffusion 类型的模型更具潜力和优势？LLM的架构和 Diffusion 架构图片和视频生成，未来是否会到一个趋势，就是各自生成的质量都非常接近，但是 LLM 架构在视频内容和逻辑上会更突出。还是会有别的趋势？

于博士：这是一个很好的问题，刚才问题当中所抛出的这些观点，我大体上是同意。因为现在在语言领域LLM 发展的非常好，它有这个很强的逻辑能力，推理能力，然后同时，现在又具有这个非常好的多模态泛化能力，那么我是相信使用 LLM 作为 backbone 去做这个视频生成，在各方面的扩展性，这个逻辑一致性上会比将来的 Diffusion 模型更好。当然这是建立在我们现在的观测上，也许有一天这个 Diffusion Model 也会产生一定的进步。但视觉质量上，将来可能是会逐渐饱和的，现在我们也看到一些这个产品出来，已经达到了一定程度上的可能性。而将来我们可能更多是在内容上去进行推进，然后其实这两个技术路线也不是非此即彼的，我们也可以这个结合 LLM作为这个Latent Model（潜在模型）去利用它的这个多模态的zero shot和逻辑性。最后，我们再结合上一定的 Diffusion 的高质量的能力去做最后一步，从Latent space回到Pixel space的过程。将来也可能是一个混合的架构。

SenseAI：介绍一下VideoPoet独特的架构设计

于博士：它是概念上非常简单的模型。我们就是利用了一个大语言模型结构的 Causal 的 Transformer。然后这个 Transformer，完全是在 Token Space进行操作，那么我们的 Token，包括图像和视频 Token，然后也包括音频 Token，同时还包括这个文本的这个Embedding。那么我们怎么把这些模态都统一到这个 Token space，我们使用了每一个模态特有的 Tokenizer 。这里面图片和视频，我们使用了我之前设计的 MAGVIT-v2 Tokenizer。我们可以把图片和任意长度的视频 Tokenize 到一个空间里，然后同时它有很高的重建的效果，所以保证了我们 Video 的生成质量。然后音频部分，我们使用的是 SoundStream 这是一个已经成熟的 Tokenizer。然后文本部分，我们就是使用已有的 T5 去 Embedding，这些模态混合在一块儿，然后我们进行大量的多模态，多任务的预训练。使得他能够进行文生视频，图生视频、视频生音频，风格转换以及视频编辑等等其他各种应用。

（参考：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html）

SenseAI：把这个 LLM 的基于一个多模态词汇表进行训练，然后能够生成就您讲的高保真、长时间，而且动作的复杂度很高的这类视频。我们想了解在里面语音模型它提供怎么样价值？我们对语言模型的选择会有很高要求吗？

于博士： 其实在这个里面，language model是比较重要的一个模型。当然我们说这些 tokenizer 也很重要，那 tokenizer 其实对每个模态进行一定比例的压缩，然后使得 language model 更好的学习。而最后，我们把所有的模态都放上 token ，然后这里面的每一个生成任务，都是由这个 language model 它在进行学习的，然后它在大规模的预训练之后，可以进行很好的这个 generalization 以及 transfer。对于model 的选择有很高的要求，目前来看，我们需要不小的参数量来放在这个 language model 里面，使得它才能学习到我们目前展现出来这些能力。但是你说如果具体到这个LLaMA、 GPT 还是 PaML 或者 Gemini 这种级别的 architecture comparison，我觉得目前可能不会有那么大的影响。它是一个 Causal Language Model这件事很重要。

SenseAI：这样也可以保证或是帮助我们的模型，随着 backbone 的进化而不断进化对吗？

于博士： 对的，我们可以始终就是利用 language space 最新的这个研究来提升我们视频生成以及多模态的生成质量。

SenseAI：明白，因为前面你已经提到关于这个MAGVIT 的 tokenizer 的使用了，所以我们想了解一下，对于这个 tokenizer 的选择上，我们其实很关注它的哪些性能，它对稳我们这个视频生成的稳定性上都提供怎么样的帮助，未来，我们可能还会尝试一些其他的怎么样的一些 tokenizer？

于博士： 对 tokenizer 其实是以 transformer 作为backbone的，就是以 language model 的视频生成模型里面非常重要的一个模块，我们很早就开始做这个系列了，大概去年夏天的时候。那个时候最早我们做了一版这个 3D tokenizer，当时是市面上最好的。然后我们基于这个 tokenizer 试图去 scale up这个事情， transformer 模型做到一定程度之后，我们就会发现它仍然被这个tokenizer bottleneck。

所以今年这个夏天左右的时候，我们就开始了这个 MAGVIT-V2 的tokenizer的研究，主要的目标有两个，一个是我们希望大幅提升这个视频的视觉的质量。同时，我们也希望能够尽可能利用更多的更大的词表。这是因为之前的视觉 tokenizer，通常它只有 1000 到 8000的词表大小。对于 language model 来说，这其实是非常小的，不太好发挥出它现在这么大规模参数的能力。而我们常见的语言模型，通常在 200K 左右，那么我们在 MAGVIT-V2 里面通过一个创新的quantization 办法，使得我们的词表也可以 scale 到200K 甚至更大。然后同时我们在 MAGVIT-V2 里面进行了一个改动，就是我们不再用这个纯 3D的model，我们已经发现它比 2D 要很好很多，但是其实比单纯的这个 3D modeling 更好的一个变种是causal 3D modeling，就是我们的结合它视频在时间轴上的这个自然属性，永远只依赖前面的帧。然后这样的话使得我们第一帧就是单独的，使得它可以做图片和视频的 joint tokenization。同时，它可以做视频的无限长的 tokenization，然后这个也在结合causal LLM的时候，使得我们对后面的token预测要简单很多，因为它永远是一个单向的dependency，

在未来的话，tokenizer 我觉得还有很大的提升空间，因为目前来看，它仍然是一个很小的模型，只有几百 million 的参数，相比于我们的这个 VideoPoet的 Transformer 来说是非常小的，然后在 scalability上它可能仍然是一个 bottleneck。然后我们会去探索如何把这个模型做大？如何去修改其中目前的一些训练的目标，比如说它仍然设计了一个GAN loss，没有那么稳定，那么有没有可能用 diffusion 或者consistency 进行替代，这也是值得一个研究的课题。

（参考 https://magvit.cs.cmu.edu/v2/）

SenseAI：以后未来任何使用图片做图形encoding的地方都能用上这个 tokenizer，如果是这样情况下，那么 diffusion 类型的模型有没有可能也能先用MAGVIT 的 tokenizer。有没有这类的可能？

于博士： 这是非常好的问题，我们是希望未来需要使用图片 encoder 的地方都可以使用它。然后同时我们在进行 MAGVIT-V2 设计的时候也进行了多方面的评估。首先，我们在标准的这个 benchmark 上获得了一定效果；然后同时我们也使用它单纯进行了video compression，我们发现它在相同 bandwidth下，它的 compression quality 就是在你重建出来之后，是比目前厂商用的 H265 要更好的。是和下一代的算法叫 H266VVC，是可以打一个平手的。当然目前的 tokenizer，在压缩和解压缩过程中，它需要用到 GPU 或者 CPU 可能 cost 还会更大一点。然后第三点就是我们也进行了这个视频理解方面的这个评测，发现这个 tokenizer 的 token对于自监督学习，然后用于动作识别等等的应用也是有帮助的。然后涉及到 diffusion model，这也是一个非常好的问题。最近也有另一个工作，它就是使用了MAGVIT-V2 的 encoder 和 decoder，然后在这个enorder 和 decoder的这个 latent space里面做了一个 latent diffusion，那么 diffusion model一样可以用我们的 tokenizer 或者更准确的说，我们这一类tokenizer 目前已经测试过几个 transformer，全都是有非常好的性能。

SenseAI：关于这个动作的丰富性和合理性，一直是这个视频生成的一个问题。我们跟其他团队交流过程中，大家也会提到类似这个世界模型的这种概念就是对环境物体交互基础理解，可以解决这个问题，您对这方面怎么看，在这个方面上有没有持续的优化。

于博士： 动作的丰富性，我觉得目前就是2023年，已经过去了，大家也看到了很多提升。这里面比较关键的点，在一开始的时候，大家都是从 stable diffusion 之类的模型初始化，它是一个二级的模型，然后我们给它稍微加一点 temporal attention或者这个 temporal convolution。试图把它改造成一个视频模型。那么这个过程中，它对时间的建模其实是比较弱的，所以使得我们看到它都不怎么动，动作的丰富性，这个幅度都比较差。而这个 MAGVIT 系列就是，包括今年出来的其他一些工作都是使用了原生的 3D 建模。那么 3D 建模就是说我们同时去学习时间和空间上的这个变换。那么这样一来，我们获得的这个视频，它的动作幅度就会更大一些。连贯性会更好一些，当然，我们说局部的动作。在更大的范围内，我们怎么能获得更连贯的，更加丰富的，甚至这个更加合理的动作，可能就要依赖我们中间这个大模型。随着它的参数量提高它能力的增强，就像你说的对世界的理解的更深刻了，可能它自己学习出了这个世界的物理规律，那么它生成出来的内容也就是遵循我们人类的常识，看起来就非常合理，我觉得是仍然需要前进一段时间，但是我是相信它的，这可能就是将来我们做多模态大模型的一条思路，可能语言不是那么必要的，但是我们通过这个原始世界的自然观察。把这些规律学出来，这对模型提出了更高的要求，这也是值得未来研究的一个方向。

SenseAI：关于有一个小细节，这个论文的后半还也提到这个 super resolution ，您刚才说到其他的论文中，其实也都用到了这个，就我们现在就会在想，那是不是每一个视频生成的模型都需要用到这个？目前这方面的可探索空间有多大？目前的架构是否比较通用，尤其是对 LLM 和 Diffusion 类型，是不是都比较公平？

于博士： 其实归根结底需要 super resolution 的原因是我们的原生的那个模型，它输出的这个分辨率、时长都比较低，所以我们需要为了能够获得更好看的效果。在后面再嫁接一个模型。最终来说，当我们能原生模型能够输出比较高的分辨率，像现在一些图像的工作可能就可以了，那么它就不再需要这个 super resolution。当然在现阶段，因为视频是一个这个维度比较高的领域，那么它对效率的要求也更高一些，可能还是需要仍然使用 super resolution 一段时间，然后架构上是否通用，目前我们用的架构在里面其实是一个 mask 的 transformer。然后做 super resolution，因为它会更快一些。它又不是 Diffusion，它比 Diffusion 更快一些。而常见的diffusion model，他们会用这个 diffusion objective 自己去学一个 super resolution，至少到目前为止，这条 super resolution 上的技术路线，大家还是没有很大程度的共享的，我觉得以后可能可以。不过这里面其实有一个问题，就是 super resolution，目前当然大家都 teacher forcing ，就是我用原始的低分辨率视频和原始的高分辨率视频去学习，而更好的办法可能是我用模型就是前一阶段模型的输出，是低分辨率到后面的高分辨率这样进行学习，这个叫 student forcing，它会使得你这个distribution shift 更小，而就需要对每个模型专门进行 super resolution 的训练，这个可能通用性就会下降。

SenseAI：我们对数据这块儿也很感兴趣，就是一直以来数据的收集和处理对视频生成来说也很关键，也想了解一下在 Videopoets 里面我们做了怎么样的选择工作，我们是否有一些大规模处理数据的方法或者工具？以及现在数视频类的数据的短缺，我们有没有注意观察到有一类可能对生成效果帮助很大，但是目前还没有被收集的数据类型？

于博士：数据的话，现在至少从很多工作来看，这个是对模型非常重要的一个点，但其实我们这个工作主要的关注点在模型这边，所以对数据处理是比较少的。我们也从其他研究工作中看到，对于数据的筛选，整理和标注是这个模型，特别是审美相关的生成质量影响非常大的一个点。

SenseAI：除了数据以外，其实这个论文中也提到，对于社会责任和公平上做了一些分析，这个也是非常有远见的设计，就是这方面您能讲一讲具体上怎么做，怎么去平衡的吗？

于博士： 对这个是我们一些合作者进行了model的社会公平性分析，然后这个有一些非常有意思的现象，就是我们会发现这个模型的输出上，当我们去选定一组这个 prompt，它会更偏好这个年轻人，比如说18到35岁。然后男性以及肤色较浅的人种。我们会观测到这样的现象，同时会努力去设计一些 prompt 去使得它最后输出的分布更接近于真实的分布。但是目前这个研究还比较早期，我们希望这些观测可以在这个。之后模型迭代的时候，我们从数据的角度进行优化，使得我们做出模型是更加负责任的，更加就是具有尽可能小的 Bias。

SenseAI：我们也很好奇 VideoPoet 的下一步会在哪些地方持续做优化，包括像多模态的组合输入，我们这个 language model 内部的结构设计上会不会还有一些创新，而在性能上，我们希望会在哪些方面持续做优化。

于博士： 确实，这个毕竟我们其实是最早把这个language model style 的 video generation 做出来，其实这个模型还有很大的提升空间。那么language model 给大家带来的想象空间是很大的，比如说它有很强的 zero shot capability 甚至 in-context learning。那么一个发展方向就是我能不能进一步去scale这个model，它在预训练的时候可能并没有什么 task specific design。而是到 inference 的时候，我给他进行少量的 instruction tuning 或者甚至只是给他收几个 example，然后教会他进行一些新的任务。比如说我们可以以非常小的代价让他学会 video segmentation。那么这说明我们的模型可能本来就是对世界有一个很强的理解了，甚至比较用比较小的代价，让它能不能教会我这个牛顿定律。这些都是非常有意思的事情，就从科研角度；而从应用角度来说，我可以以非常低的代价去做customized generation。也是非常有意思的应用。

从性能上的优化来说，现在我们这一类模型，包括其他视频生成模型可能也一样。最大的 bottleneck 是我们生成的时间的长度。以及在固定时间长度下，我们希望能原生的出尽可能高的 resolution 。那么这些就是回到这个 LLM 的 backbone 上。我们希望它对这个 long context support 能更强，比如说能到几百K。然后同时效率又不会下降太多，就是在一个合理的 cost 范围内，使得我们能够支持这个更长的更高分辨率的视频生成，然后同时它是在 single task 里面把这些东西都学了，那么它会对多模态的组合内容的，逻辑上的合理性都会有很大的提高。

SenseAI：我们近期其实也看到有确实有一些更多的优秀的视频的生成论文出来，您是否有这种感觉，就视频生成的文艺复兴时期要到了，现有架构的这种一些 scaling 的解决方案，在短期是不是还有一些新架构颠覆的机会？

于博士： 对我们最近也看到非常多的工作，就是视频生成领域现在在蓬勃发展，然后我还是很有信心的，我觉得这个2024年可能这个视频生成会真的走向应用。你说到底是现有架构下的 scaling，还是会有新架构，我觉得可能再过几个月，我们也许看还能看到一轮的技术迭代，我觉得到年底左右的时间，可能会走向成熟。

参考材料

https://magvit.cs.cmu.edu/v2/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html