可生成无限长视频，谷歌最新视频生成模型VideoPoet究竟有多强

文章转载来源：Kyle

图片来源：由无界 AI生成

最近一波视频生成模型突然出现，在许多情况下展示了令人惊叹的如画质量，例如 Runway、Pika。然而当前视频生成的瓶颈之一是产生连贯大运动的能力。在许多情况下，即使是当前领先的大模型也会产生较小的运动，或者当产生较大的运动时，会表现出明显的伪影。

谷歌刚刚发布了零镜头视频生成大模型 VideoPoet。

它能够执行各种视频生成任务，包括文本到视频、图像到视频、视频风格化、视频修复和修复，以及视频转音频。该工具被感叹是一个突破性文生视频工具。

目前市场上一些领先的视频生成模型都是基于扩散的，然而，VideoPoet 不是。

VideoPoet 的重要特点之一就是，它将许多视频生成功能无缝集成在单个大模型中，而不是依赖于专门针对每个任务的单独训练的组件。

白皮书：https://storage.googleapis.com/videopoet/paper.pdf
研究论文：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

VideoPoet 概述

VideoPoet 是一种简单的建模方法，可以将任何自回归语言模型或大型语言模型（LLM）转换为高质量的视频生成器。它包含一些简单的组件：

预训练的 MAGVIT V2 视频分词器和 SoundStream 音频分词器将可变长度的图像、视频和音频剪辑转换为统一词汇表中的离散代码序列。这些代码与基于文本的语言模型兼容，有助于与文本等其他模式的集成。
自回归语言模型跨视频、图像、音频和文本模态学习，以自回归预测序列中的下一个视频或音频token。
大模型训练框架引入了多模态生成学习目标的混合，包括文本到视频、文本到图像、图像到视频、视频帧延续、视频修复和修复、视频风格化和视频到视频 -声音的。此外，这些任务可以组合在一起以获得额外的零样本功能（例如文本到音频）。

这个简单的秘诀表明，语言模型可以合成和编辑具有高度时间一致性的视频。 VideoPoet 展示了最先进的视频生成功能，特别是在生成各种大型、有趣且高保真度的动作方面。 VideoPoet 模型支持生成方形或纵向视频，以针对短格式内容定制生成视频，并支持从视频输入生成音频。

下图说明了 VideoPoet 的功能。输入图像可以被动画化以产生运动，并且（可以选择裁剪或遮罩）视频可以被编辑以进行修复或修复。对于风格化，该模型接收代表深度和光流（代表运动）的视频，并在顶部绘制内容以产生文本引导的风格。

VideoPoet 概述，能够在各种以视频为中心的输入和输出上执行多任务处理。该大模型可以选择将文本作为输入来指导文本到视频、图像到视频、视频到音频、风格化和绘画任务的生成。

VideoPoet 的特点

1. 能生成更长的视频，或者说任意时长的视频

目前市场上的视频生成模型一般仅能生成很短的视频，1秒、2 秒......默认情况下，VideoPoet 输出 2 秒的视频，但该模型还能够通过给定 1 秒视频剪辑的输入来预测 1 秒的视频输出来生成长视频。这个过程可以无限地重复，以生成任意时长的视频。尽管输入上下文很短，但该模型显示出先前作品中未见的强大的对象身份保留，如这些较长持续时间的剪辑所示。

VideoPoet 任务设计详细图，显示各种任务的训练和推理输入和输出。使用 tokenizer 编码器和解码器将模态与标记进行转换。每个模态都被边界 token 包围，任务token指示要执行的任务类型。

2. 可控视频编辑

VideoPoet 模型可以编辑主题以遵循不同的动作，例如舞蹈风格。在下面的示例中，模型使用不同的提示处理相同的输入剪辑。

3. 交互式视频编辑

还可以进行交互式编辑，将输入视频延长较短的持续时间并从示例列表中进行选择。通过从候选列表中选择最佳视频，可以从较大的生成视频中精细地控制所需运动的类型。

4.图像到视频生成

VideoPoet 可以获取任何输入图像并生成与给定文本提示匹配的视频。

5.零镜头风格化

VideoPoet 还能够根据文本提示对输入视频进行风格化，并展示风格上令人愉悦的提示遵守情况。

5. 应用视觉样式和效果

可以在文本到视频的生成中轻松组合样式和效果。我们从一个基本提示开始，并向其附加一个样式。

6.零镜头可控相机运镜

VideoPoet 预训练的一个新兴特性是，通过在文本提示中指定摄像机镜头的类型，可以实现很大程度上高质量的摄像机运动定制。

VideoPoet 生成的示例

我们的模型生成的一些示例如下所示：

VideoPoet 根据各种文本提示生成的视频，参考来源：https://sites.research.google/videopoet/

对于文本到视频，视频输出的长度是可变的，并且可以根据文本内容应用一系列动作和样式。为了确保负责任的做法，我们参考公共领域的艺术品和风格，例如梵高的“星夜”。

按照以下文本输入：

1. “浣熊在时代广场跳舞” A Raccoon dancing in Times Square

2. “一匹马在梵高的《星夜》中驰骋”A horse galloping through Van-Gogh’s ‘Starry Night’

3. “两只熊猫打牌”Two pandas playing cards

4. “一大团爆炸飞溅的彩虹油漆，出现一个苹果，8k” A large blob of exploding splashing rainbow paint, with an apple emerging, 8k

对于图像到视频，VideoPoet 可以获取输入图像并通过提示将其动画化。

带有文本提示来引导动作的图像到视频的示例。每个视频都与其左侧的图像配对。

左：“一艘在波涛汹涌的大海、雷暴和闪电中航行的船，画布上的动画油画”。

中：“飞过有许多闪烁星星的星云”。

右：“大风天，一个拄着拐杖站在悬崖上的流浪者，俯视着下面旋转的海雾”。

对于视频风格化，我们在将一些额外的输入文本输入 VideoPoet 之前预测光流和深度信息。

在 VideoPoet 文本到视频生成的视频之上进行视频风格化的示例，其中使用文本提示、深度和光流作为调节。每对中的左侧视频是输入视频，右侧是风格化输出。

左：“戴着墨镜的袋熊在阳光明媚的海滩上拿着沙滩球。”

中：“泰迪熊在清澈的冰冻湖面上滑冰。”

右：“一只金属狮子在熔炉的光芒下咆哮。”

VideoPoet 还能够生成音频。在这里，我们首先从模型生成 2 秒的剪辑，然后尝试在没有任何文本指导的情况下预测音频。这使得能够从单个模型生成视频和音频。

默认情况下，VideoPoet 模型会生成纵向视频，以根据短格式内容定制其输出。为了展示其功能，我们制作了一部由 VideoPoet 生成的许多短片组成的短片。对于剧本，我们要求巴德写一个关于一只旅行浣熊的短篇故事，并附有逐个场景的分解和附带的提示列表。然后，我们为每个提示生成视频剪辑，并将所有生成的剪辑拼接在一起以生成下面的最终视频。

“一名宇航员开始在火星上跳舞。然后五彩缤纷的烟花在背景中爆炸。”