开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

文章转载来源：机器之心

图片来源：由无界 AI生成

生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。

传统 3D 建模涉及游戏、影视、建筑等多个行业，普遍依赖专业人员手动操作，生产周期短则几天，多则以月为单位，单个 3D 模型的创建成本至少需要几千元。生成式 AI 技术在 2D 图像生成领域的成功经验，让人们看到了 AI 在变革 3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启，但当前市面上的 3D 生成类的 AI 技术仍然存在各种不足，大家都在期待出现一个让自己眼前一亮的产品。

2021 年 1 月初，OpenAI 发布 DALL・E，并以输入文字 prompt「一把牛油果形状的扶手椅」，丰富的形象、清晰的结构标志着文字生成图片的技术走向成熟。

MIT 科技评价道：「这把牛油果扶手椅可能是 AI 的未来（This avocado armchair could be the future of AI）」

Prompt（提示词）：an armchair in the shape of an avocado. 图源：OpenAI

2023 年 12 月，机器之心体验了 VAST 自研的 3D 大模型 Tripo，当经典的「牛油果手扶椅」以精致的形态快速丝滑地在眼前生成，我们立刻意识到，生成式 AI 迎来了又一个里程碑时刻。

Prompt（提示词）：avocado chair. 图源 TripoAI

VAST 是谁？

经过一番搜索，我们发现，最近走红的两项 3D 生成技术 Wonder3D 和 CSD 都与这家公司有关。

不久前，一个名为 Wonder3D 的开源项目被开发者发掘，它能够在 3 分钟内从单个图像重建高保真纹理网格。在开源平台 GitHub 上，这个项目短时间内就斩获了 3.3K Github Star：

体验链接：https://huggingface.co/spaces/flamehaze1115/Wonder3D-demo

与此同时，一项利用图像扩散模型实现 3D 生成的理论突破成果「CSD 」也引发了众人关注：

VAST 此前仅有的公开亮相是创始人在图形学盛会 SIGGRAPH 五十周年庆典中进行的 Keynote 演讲。通过当时的报道可以了解到，VAST 是一家专注于通用 3D 大模型的技术研发及产品落地的初创公司。

作为首位在 SIGGRAPH 发表主题演讲的中国创业者，VAST 创始人宋亚宸提到，VAST 的目标是减少制作高质量 3D 资产和环境所需的专业知识和成本，让 3D 内容生成变成一件更容易的事。

「3D 技术代表了下一个前沿方向，开启了沉浸式表达的新维度，我们相信 AI 可以让任何人创造出令人惊叹的 3D 内容，且不受制于想象力之外的任何因素。」

作为一家初创公司，VAST 的创始人为何能够与业内巨头英伟达、索尼、Unity 的掌门人同台演讲？它们又是如何推动了 Wonder3D 和 CSD 这样的技术突破？

带着这份好奇心，机器之心拜访了 VAST 在北京的办公室。

了解过团队情况后，我们发现 VAST 可以说是「卧虎藏龙」：

算法团队成员清一色来自海内外的顶尖高校和技术大厂，具有丰富的人工智能及图形学经验。

CTO 梁鼎师从戴琼海院士，曾担任商汤通用视觉和语言大模型发起人和垂类语言大模型负责人，著有论文 40 多篇，引用 7000 次，国内专利 100 多项，海外专利 14 项。

首席科学家曹炎培师从胡事民院士，前腾讯 ARC Lab 和 AI Lab 3D 方向专家，拥有论文 40 多篇，近期在 3D 生成方向的相关成果包括 Dream3D、DreamAvatar、 Sparse3D、HiFi-123、TGS 等。

还有一位出生于 97 年的青年科学家郭元晨，他是清华大学博士生，师从张松海副教授，也是知名 3D 生成开源项目 threestudio 的发起者、核心贡献者。该项目已经在 GitHub 社区收获了 4.4K 星标，是目前为止功能最完整、使用最广泛的 3D 生成代码框架。

threestudio 地址：https://github.com/threestudio-project/threestudio/

随后，VAST 和机器之心聊了聊他们正在进行的技术探索。

AI 在 3D 生成领域的壁垒，如何打破？

我们聊到的第一个问题是：在 3D 内容的生成上，AI 还面临着哪些挑战？

要理解这个问题，首先需要理解 3D 内容制作的特殊性。

数字 3D 内容起源于 20 世纪 60 年代的计算机图形学，迄今已衍生出众多细分领域。一般来说，完整的 3D 生产管线涵盖概念设计、3D 建模、纹理 / 材质、动画和渲染等多个环节。

传统流程中，3D 数字内容的生成均由积累⻓时间学习和⼯作经验的专业艺术家进行创作，加⼊了⼤量的⼈⼯经验设计，且不同艺术家⼯作流程不同，没有绝对统一的标准。对于这些资深的专业 3D 创作者来说，3D 内容生成也是一项非常复杂且耗时的工作。

此外，3D 数字内容表达的多样性，也为 AI 的学习过程增添了更多挑战。多边形⽹格、细分曲⾯、⻣骼动画、顶点动画、物理模拟动画，不同的材质涉及不同的渲染管线。表达方式的不统一，导致 3D 内容的制作本身比 2D 更具挑战性。

以我们熟悉的视觉模型和语言模型为例，它们会通过对预训练数据的「学习」来摸索规律，最终展现出一种非常接近「创造」的能力。实现这种学习能力的前提是图像、视频、语音、文字均有比较通用的表示形式。

对于现有的生成式大模型来说，3D 数字内容就像是一种很新的「语言」体系。因此，想让 AI「学会」生成媲美人类水准的 3D 模型，同时保证速度，并不是一件容易的事。

已取得阶段性突破的研究大多遵循 2D 优化路线：利用已有生成模型的 2D 生成能力，通过多视角优化将生成维度提升到三维。

斩获了 ECCV 2020 最佳论文荣誉提名的 NeRF（Neural Radiance Fields，神经辐射场渲染）在多视图重建静态三维场景方面获得了重要进展。这项基础理论的突破开启了新的一波 3D x AI 热潮，在此基础上，有研究者引入了擅长文本到图像生成的扩散模型，比如 Google 去年发布的 DreamFusion 算法，提出采用「Score Distillation Sampling」实现从文本到 3D 的生成。DreamFusion 的优点是几乎不需要事先训练，实现了在没有 3D 数据的情况下生成物体 3D 表示，缺点是速度慢（长达数个小时）。

OpenAI 在去年同期发布的 Point-E 则采用了在 3D 数据集训练的方案，还强调了「可以用单块 NVIDIA V100 GPU 在一到两分钟内生成 3D 模型」，但它在从文字到 3D 的转换过程中偶尔还是无法理解文本叙述的内容，导致生成的形状与文本提示不匹配，而且生成结果的精细度不足。

总之，沿袭此路线的后续研究很多，但始终没有一个方案能兼顾模型的生成质量、速度、多样性和可控性。

「通用 3D 大模型」的探索之路

知名计算机科学家 Rich Sutton 教授曾在 2019 年的《The Bitter Lesson》文章中给出过一个论断：对于 AI 模型的训练来说，要在短期内有所提升，研究人员可以利用专门领域的人类知识。但如果想要长期地获得提升，更好地利用计算能力才是王道。

正如早期的 CV 领域，普遍认为只要设计出更好的特征描述就可以持续进步，但后来大获成功的深度学习方法仅使用卷积或注意力机制就能得到更好的效果。其中 ImageNet 等海量图像数据集、GPU 提供的强大计算能力，以及 CNN、Transformer 等高可扩展性的模型架构起到了至关重要的作用。

VAST 认为，AI 要想在 3D 生成领域获得长足发展，同样需要跳出对人类知识的依赖，凭借更庞大的数据和更多的计算「学习」一种「通用方法」。

具体到 3D 领域，让 AI 突破瓶颈获得「通用能力」的方法论又是什么呢？

在 VAST 看来，这个目标可以从三个方向的工作入手：表示、模型和数据。

充分利⽤算⼒的关键，最重要正是在于找到合适的「表示」。⽐如 3D 内容制作中常用三⻆⽹格来模拟复杂物体的表面，这种表示对 GPU 渲染算⼒友好，但是对深度学习算法来说并不够友好。

VAST 希望寻找一种更加灵活、利于计算的 3D 统一表示，同时兼容现有的图形管线。

在最近的论文《SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes》，他们提出了一种新的动态场景表示方法，通过将场景运动和外观分解为稀疏控制点和稠密的 3D Gaussians，显著提高了动态场景的可编辑性和渲染质量，在新视角合成和保持外观的运动编辑方面均显著优于现有方法。

另外一项研究《Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers》则探索了基于三平面（triplane）和高斯泼溅（3D Gaussian Splatting）融合的 3D 表示，利用高度可扩展的 Transformer 架构即可实现 2 秒内的高质量图生 3D。

此外，探索「3D tokenizer」也是一种不错的思路。此前的一项研究表明，在相同的训练数据、模型大小和训练预算条件下，如果利用良好的视觉 tokenizer，掩码语言模型在图像和视频基准的生成保真度和效率方面同样可达到与扩散模型相同的水准。对于 3D 生成任务来说，将 3D 表示转化为与语言 token 相近形式的 token 表示，或许有助于将现有的理解和生成大模型应用在 3D 领域。

在「模型」层面，VAST 近期的多项研究都探索了如何充分利用大模型在其他模态下的先验、设计准则、训练经验，以提升模型对 3D 数据的学习能力。

比如近段时间爆火的 Wonder3D 就创新地提出了复用强大的 2D 图像生成模型同步生成多视角一致法向和 RGB 图，实现了 2 分钟高质量图生 3D。他们利用多视角法向图表示 3D 几何信息，从而可以有效利用大量 2D 数据先验。

此外，VAST 还在最新的一项研究「UniDream」中提出了可输出具有高质量 PBR 材质、可重光照 3D 模型的多阶段文生 3D 框架。这一框架分为三个组成部分：1. 复用强大的 2D 图像生成模型，以文字为条件，同步生成解耦的多视角一致的法向和基础色；2. 结合在大量 3D 数据训练的可泛化 3D 重建模型，从多视角图片生成基础 3D 先验；3. 利用材质解耦的 SDS 优化方法，得到最终具有高质量几何和 PBR 材质的 3D 模型。

「数据」层面的挑战同样不容忽视。由于优质、原生、多样化的 3D 数据集资源的稀缺，模型的最终表现受限，导致可以生成的 3D 内容有限，泛化能力不足。这也是为什么一部分研究者尝试过直接用 3D 数据集进行训练和微调模型，但都没能取得太理想的效果的原因。

针对这个问题，VAST 自 2023 年初成立以来一直不断积累在 3D 数据上的优势，目前已拥有全世界最大的 3D 高质量原生数据库（千万级别）。

基于千万 3D 原生数据训练的大模型

已有落地产品

经历了近一年的探索，VAST 在今年 12 月已经完成了通用 3D 大模型 Tripo 的研发。

VASTAI

，赞 11
Tripo AI Fantasy: Launched，与艺术家Rui Huang共创

Tripo 基于海量 3D 高质量原生数据库训练，是一个数十亿参数级别的 3D 大模型。得益于 VAST 在「通用 3D 大模型」路线上的技术探索，Tripo 在生成的质量、速度、成功率上行业领先。目前，已经实现 8 秒钟生成带纹理 3D 网格模型，可以进入传统管线进行二次编辑和调整。在此基础上，可以再用5分钟的时间进行优化，优化后的 3D 模型可以接近人类手工制作的 3D 模型质量，成功率超过 95%。

Tripo 也已经在 12 月 21 日正式上线，目前支持「文生 3D」和「图生 3D」两种能力。

前往 VAST 官网免费体验 Tripo 3D 生成能力：www.tripo3d.ai

我们可以观察到， Tripo 有着较强的泛化能力，不管是写实、风格化任务，还是结构复杂的幻想生物，也能在短时间内完成，展现出了在 3D 创意内容方面的巨大潜力。

随着对高质量数据集的更深入利用和算法的不断进步，Tripo 未来有望在极短时间内创造出质量媲美人工建模水准的作品。

3D 生成，何时迎来「ChatGPT 时刻」？

在与 VAST 技术团队的交流中，我们发现，在领先业界进行通用 3D 大模型的探索之外，这家公司在产业化探索上同样做到了「快人一步」。

不到一年时间内，VAST 已经搭建起了针对国内外 B 端和 C 端用户的端到端产品矩阵，并与数十家海内外游戏、动画、工业、云计算等行业领军企业在 3D 数据及 3D 内容生成等领域建立了战略合作关系。

放眼未来，VAST 的「野心」不止于此。成立之初，这个团队已经定下目标：让任何人都可以成为「超级创作者」，充分实现自己的创意。

需要承认的是，目前的 AIGC 3D 技术距离目标还需要一段探索期。但在这次技术浪潮中，VAST 已经成为了从 0 到 1 的推动者之一。下一步，VAST 将攻克来自真实世界的更多难题。

在与 VAST 团队的交流中，我们充分感受到了这种坚定的技术热情：

「VAST 相信，当通用 3D 大模型的能力逐渐增强，用户进行 3D 创作的门槛将不断降低，真正的 3D 内容大爆发时代必然会到来，这就是属于 VAST 这群年轻人的『OnePiece』。」CEO 宋亚宸表示。

目前，VAST 还在构建一个交互式 3D 内容平台，希望为全世界的专业人士和业余爱好者打造一个共享创作、发现作品和访问定制 3D 资产的交流中心。

或许在不久之后，3D 赛道也会出现像「ChatGPT」这样的现象级产品，而 VAST 这家年轻的中国初创公司格外值得期待。