文章转载来源:极客公园
Stability AI CTO Tom Mason 认为,AIGC 的下一波浪潮将是音视频和 3D
整理 | 凌梓郡
编辑| 郑玄
图片来源:由无界版图AI工具生成
整整一年,AI 绘画的话题热度不减。人们惊异于大模型做起了「画师」,这让 AIGC(AI 生成内容)成为了热门的资本赛道。「下一波浪潮肯定是视频、音频和 3D 内容,」Stability AI 的 CTO Tom Mason 坚定地认为,他们目前正在全力研究生成视频和音频的相关模型。
将 AI 绘画推向高潮的是 Stable Diffusion,一个前所未有的开源模型,对所有人开放、能够又快又好地生成图画。它的诞生路径也与众不同:源于开源社区,而非大公司。它的主要推动者是 Stability AI。公司将自己作为社区的贡献者之一,并希望探索出一条开源、AI 模型、社区共同前进的道路。
Stability AI 成立于 2019 年,不到三年已经成为估值超 10 亿美元的独角兽。Stability AI 专注于生成模型,认为它在未来会成为互联网的重要组成部分。如果说上一代 AI 算法带来的是广告推荐,那么「生成式 AI 正在做的,就是让消费者成为创作者,给他们创作他们自己消费的媒体内容的能力」。
今年的 IF 2023,极客公园邀请了 Stability AI 的 CTO(首席技术官)Tom Mason,他以自己的视角分享了 AIGC 从默默无闻到突然爆发的全过程,并对 AIGC 未来影响世界的方式给出了自己的预测。以下是他在大会上的分享实录,经极客公园整理发布。
(在极客公园创新大会 IF 2023 现场,极客公园创新业务总监 Ashley 对 Tom Mason 的访谈视频进行解读。)
极客公园:请简单介绍一下,在来到 Stability AI 之前,你都有怎样的经历?
Tom Mason:我之前有 15 年的时间都在伦敦经营着一家科技公司,为大型汽车公司开发了很多不同的平台,也为很多创业公司提供技术支持。在接触 AI 和 Stability AI 之前,我从事过很多领域。
大概 2 年前,我开始和一个开源社区一起,开发一个叫做 Disco Diffusion 的 Python Notebook,用来生成动画和图像。那是一个很棒的社区,我和他们共事了好几个月,一起打造了给非技术用户使用的新工具。Python Notebook 和一个同时开发的产品,后来成为了 Dream Studio,通过这段经历,我发现了 Stability AI,也就是现在我所在的公司。
极客公园:Stability AI 是一个怎样的公司?
Tom Mason:Stability AI 非常坚持开源,某种程度上也是我们的根基所在。我们协助支持了大概 8 个开源社区,共计超过 10 万名成员,他们专攻不同的模态,从语言到图像、到音频 、视频和 3D。
我们会提供算力支持,并会资助一部分研究人员,我们拥有非常大的计算集群,现在我们在 AWS 上有 4000 个 A100 节点,在其他地方还有 1500 个节点。这些计算集群正在以非常快的速度增加,我们会将资源开放给研究员们,以便他们训练模型,这些模型最终会开源。所以可以说 Stability AI 是一个基础平台,它的支柱其实是这些开源社区。
同时我们内部有团队也会给他们提供支持,建设 HPC 超算、管理这些计算集群;数据团队会提供数据上的帮助;跨职能团队(负责)跨社区的一些协助工作。
另外我们还有一个非常大的基础设施部门,他们的工作主要是开发 API 和产品。我们会通过平台网站向全世界发布 API 和我们自己打造的产品。
极客公园:开源为什么至关重要?
Tom Mason:我因为开源 AI 技术开启了这段旅程。于我而言,开源 AI 令人惊喜到难以置信。从我自己的家里,我可以登陆开源社区,与一个包含了所有完整信息的模型交互,并使用它做一些更酷的事,在它的基础上创建工具,这就像一次飞跃。所有这些推进了人类历史的进程,我们正生活在这样一个无比奇妙的时刻。这些(开源)赐予人类的,让我们能够去创造更美好、更伟大的事业,我也真的非常荣幸能参与到这个进程里,成为这个公司的一员,见证这个时刻的发生。
比如 Stable Diffusion 的发布,我觉得开放一个如此大规模如此复杂的模型,并不是那么一件容易想到、做到的事情,(但它真的发生了)并且带来了创造力的爆发。
每天早上醒来,我都可以在网上看到 10 个不同的新项目,有很多人都在做一些了不起的事情,每一个小项目都有可能成为一家新公司,成为一个新的开源社区。
极客公园:Stability AI会成为像 OpenAI 一样的机构吗?
Tom Mason:Open AI 非常专注于 AGI(通用人工智能)。但这绝对不是我们的目标,我们想建立好的生成模型。因为生成式 AI 很有可能会产生更大的影响力。目前已经有很多理论在讨论它将如何实现,特别是通过语言模型和视频模型,以及其他的带有时序信息的模型。
现在 AGI 不是我们关注的重点。我们只专注于构建不同模态的、好用的生成模型,用大型数据集支持这些模型的定制化,以及支持开源。这就是我们和 OpenAI 的主要区别。我们绝对百分百地致力于让我们的模型开源,并将这项技术公开,让全世界的人都可以不受任何限制地使用它。这绝对是一件非常重要的事情,因为这项技术是如此具有革命性。
Stable Diffusion 最新的版本公开|来源:stability AI 官网
极客公园:AIGC 在这一年受到了前所未有的关注,在你看来,爆发前有哪些重要的时刻?
Tom Mason:我认为 AI 领域其中一个重要转折点是 2017 年关于 Transformer 的论文,《Attention Is All You Need》发表。论文介绍了注意力机制的概念,这使得神经网络变得更加普及;紧接着,基于 Transformer 网络,图像生成领域出现了很多研究,其中出现了扩散模型。最开始是 Latent Diffusion,现在有了 Stable Diffusion,它最初是由 CompVis 团队开发的。
极客公园:在这个过程中,Stable Diffusion 是怎么诞生的?
Tom Mason:接下来两个重要的转折点,分别是数据集和算力。我们支持的其中一个项目 LAION,就专注于收集和建立海量的数据集,他们现在有 50 亿图文匹配的多语种数据集,其中 20 亿是有英文标注的图片。
在这 20 亿的基础上,我们筛选出大约 10 亿数据集用于 Stable Diffusion,数据集的工作开始于 2、3 年前,每年规模都在增长,数据集的规模是非常重要的。除了 LAION 以外,并没有其他可用的数据集拥有这样的规模。所以当 CompVis 团队和 LAION 团队开始合作,这个神经网络就诞生了。
第三个关键要素是算力的满足,在这之前,学术研究人员,开源研究者们必须通过大学的网络,或者其他提供算力资源的公司,申请算力资源。而目前 Stability AI 拥有世界上第十或第十一大的自用的超算。我们将这些资源提供给有需要的开源研究员,所以他们现在有能力训练世界上最大的模型,与任何其他公司相竞争。这对社区的帮助非常大。让他们能够有资源去做研究和开发,
也因此带来了现在发布的这些超棒的模型,我相信这个趋势还会增长。随着来到 2023 年,这里会涉及更多其他模态,比如视频,模型会越来越大,数据集会越来越大,所以这个趋势大概率会持续下去。
(Tom Mason 在 IF 2023 大会现场的分享。)
极客公园:今年,通过文字生成图像非常引人注目,在这之后,内容生产领域还会有怎样的变化?
Tom Mason:下一波浪潮肯定是视频、音频和 3D。语言模型和图像模型的爆发和流行,实际上源于数据集的开放。我们能够从互联网上提取大量的文字,用它来训练图像模型。这其实是过去几年,图像和语言模型能够爆发性发展的一个重要原因。视频模型已经开始出现,它们同样依赖于大规模、有标注的整洁数据集,这样模型才能进行高效的训练。
这是我们现在主攻的领域,音频也是类似的。我们有一个叫 Harmonai 的团队,正在主攻文字和音频。现阶段通过训练的模型输出的结果已经非常出色,且是能够通过文字输入生成的,所以这是一个非常令人兴奋的领域,我个人的热情在于视频和动画,我在加入 Stability 之前就一直在做这方面的事情。
互联网上并没有足够大量的视频数据集和音频数据集,这是我们的当务之急。我们应该会通过合作的形式来完成(数据集搭建)。语言模型和图像模型的爆发和流行,实际上源于数据集的开放。我们能够从互联网上提取大量的文字,用它来训练图像模型。这其实是过去几年,图像和语言模型能够爆发性发展的一个重要原因。
大量的视频内容,是被大型电影公司和流媒体公司版权所有的,所以帮助那些公司使用他们的数据集,开发新的视频模型,对我们来说很重要,这是我们的核心策略之一,就是让数据变得更智能,去更好地利用好那些大多时候没有被妥善使用的大型数据集。
极客公园:视频内容的生成的模型什么时候会发布?
Tom Mason:毫无疑问是明年。我们现在已经有正在训练的视频模型了,我们也跟那些我前面提到的大数据集所有者建立了合作关系,我觉得模型的架构还需要优化,不过我们已经有了一些有趣的可选方案。
我非常期待明年年中,我们能够做出一个不错的视频模型,当然是短视频,然后慢慢向长视频(发展),这可能需要用到多模型组合。同时,还要优化好场景融合和其他的相关技术。
我们的一个工具 Dream Studio,就是用来编辑和制作动画的,我们其实正在研究动画生成的 API,让人们只用一张图片就可以生成动画,使用一种 2D 转 3D 的深度估计方法。这是一个非常酷的技术,跟视频扩散有一点区别,我们会在明年早些时候发布,让用户体验。视频扩散则会在明年晚些时候发布。
我非常期待有一天,我们能够打造出动画和视频扩散(模型)的工具。3D 也是,明年会成为一个热门领域。我们已经看到很多包含 NeRF(注:一种将 2D 图像转 3D 模型)的管线,允许我们创建 3D 模型和资产。通过文本管线、文生图、2D 转 3D,或者摄影作品里的环境通过 NeRF 转换成 3D 模型。这些管线目前(生成速度)还非常慢,但他们正在快速地提升效率。
极客公园:视频、3D 的生产模型会给人们带来怎样的全新体验?
Tom Mason:用户应该很快就可以通过这些生成式管线,在 VR 或游戏场景里创建 3D 资产了。这会是一件很重要的事情,它几乎会立刻让你想到元宇宙。在里面可以创建你自己的环境,玩家只要口述他们希望沉浸在什么样的游戏资产或环境中就可以了。这会非常令人兴奋。
我想我们中很多人都想象过。在 VR 里,围绕我们的整个环境都是(自动)生成的。玩家能够完全掌控音乐、3D 资产和环境氛围,这样你就能完全掌控你的体验。这与当下行业里生成式 AI 取得的进展非常契合。生成式 AI 正在做的,就是让消费者成为创作者,给他们创作他们自己消费的媒体内容的能力。它会是一个非常令人兴奋的时刻。
极客公园:目前,生成 3D 内容有哪些挑战?
Tom Mason:就当下的 3D(内容生成)而言,我觉得挑战主要是生成的时间,以及分辨率。这二者是相关联的,NeRF 模型越精确,跑起来就越慢,如果考虑什么是图像模型最令人惊艳的进展,就是生成时间(缩短)。
一年前,生成一张高分辨率的图片可能会需要几分钟,2、3 分钟或者 4 分钟才能生成完成。但比如通过跑在我们 API 上的 Stable Diffusion,只需要差不多 2-3 秒的时间,所以在性能表现上有成数量级的进步。这也就是为什么,这个模型可以如此成功,因为它足够小,生成得可以足够快。因此它能够跑在本地的 GPU 上,同时速度也更快。
所以我们需要看到,在 3D 内容生成领域也需要有类似这样的突破,通过一张照片生成一个还不错的网格模型,现在大概需要 10 分钟左右,对想要将其嵌入创作体验的普通用户来说太慢了,人们想要的是能够快速响应的创作工具。
所以我觉得我们需要专注解决这个问题。
极客公园:那视频生成模型的技术成熟度如何?
Tom Mason:我有信心它的进展会快很多。我们已经看到一些新的采样技术和模型架构,能大大缩短推理时间。图像模型构成了视频模型的核心。某种程度上,视频模型是在图像模型基础上增加了时序信息,所以只要我们把图像模型做得更小,那么视频模型也可以变得更高效,这是视频领域研究比较明确的方向。
我觉得我们有挺大概率在明年年底实现视频实时(生成)。我能看到视频的图像推理时间在明年很快就可以达到至少 1 秒 1 帧的速度,然后到年底的时候达到实时输出的流畅度,3D 就会相对遥远一些,这取决于技术的迭代情况。但毫无疑问,我们会与包括英伟达在内的很多公司,共同在 3D 内容生成领域持续坚定地投入。
Stability AI 官网
极客公园:你提到 Stability AI坚持开源,支持了 8 个开源社区,开源社区的运作是怎样的?
Tom Mason:我们开源社区的运作模式,与 Linux 以及其他大家熟悉的开源项目是类似的,唯才是用。通过 Git 管理(社区成员)对代码库的贡献,社区成员互相审核代码,一旦审核通过,就可以合并到主干。
对于我们支持的开源社区,我们资助了一些能够带领社区的研究人员,这也使他们能够全职地参与到项目里。许多从事这些项目的人都是利用业余时间做的,又或者是在攻读大学学位或博士学位时做的。他们中的许多人即使想全职投入项目的工作,但现实也无法让他们做到。我们资助了一些项目核心研究人员,让他们能够完全把精力投入到这个项目中。
当然,我们也是在非常确定这个人是对社区至关重要的情况下才这么做。这些人要么是在创造社区方面发挥了重要作用,要么他们能够将社员聚集在一起,总有一部分人在组织里不可或缺,扮演着粘合剂的角色。对于这些人,我们会去尽力地支持他们。
极客公园:StabilityAI 在社区里扮演怎样的角色?
Tom Mason:我认为关键是,我们与社区里的其他成员并无区别。作为一家企业,我们只是社区中的一员。我们并没有掌控它,我们只是一个贡献者。
我想我们所有人都是这样认为的。除此之外,我们并不想扮演其他更多的角色。作为一家企业,我们只想以积极开放的方式做出贡献,并推动生态的改善。我想大家都很认同这一点。并且我们也希望自己能做出更多积极的贡献。
极客公园:你们希望自己的模型能够影响 10 亿人,这会怎样发生?
Tom Mason:一个令人激动的事实是,我们正在用大量不同的语言来训练模型。现在并没有大规模的多语言生成模型,但多语言数据集出现后就不一样了。
当下大家对于这项技术的认知并不多。我们看到模型覆盖范围的统计数据,它在全球的覆盖范围依然非常小。所以在未来的一两年里,我们将用不同的语言来训练模型,并让 Stable Diffusion 兼容更多语言。我们希望可以与全球的合作伙伴一起,对我们而言与不同国家的机构合作非常重要。我们可以一起用不同语言训练这些模型。
这并不需要把技术重新开发一遍,这实际上是对现有程序的重新应用。既然我们拥有了这些架构,我们就应该快速地将它们推广出去。我们希望将整个模型培训的过程和知识都分享出去,让各个国家的合作伙伴和供应商都能掌握。这样,在未来 12 个月内,图像生成或许在全球各地还会再一次掀起浪潮,视频和音频领域也是如此。10 亿这个数字可能还远远不够,但这是我们当前的目标。
来源:极客公园
发布人:暖色
声明:该文观点仅代表作者本人,不代表火讯财经立场。火讯财经系信息发布平台,仅提供信息存储空间服务。
如文章涉及侵权, 请及时致函告之,本站将第⼀时间删除⽂章。邮箱:840034348@qq.com