布局多模态大模型:清华系团队完成近亿元天使轮融资,蚂蚁领投

转载
518 天前
8566
奇幻空间

文章转载来源:奇幻空间

作者:澎湃新闻

记者 邵文

·生数科技成立于2023年3月,核心成员主要来自清华大学人工智能学院,是国内最早布局多模态通用大模型的团队之一。本轮融资由蚂蚁集团领投,百度风投、卓源资本跟投,目前估值1亿美元。

国内多模态大模型发展出现新动向。6月19日,由清华大学计算机系教授、人工智能研究院副院长朱军带领的新团队完成了近亿级天使轮融资。

澎湃科技(www.thepaper.cn)了解到,这家名为北京生数科技有限公司(以下简称“生数科技”)的多模态大模型创业公司宣布完成近亿元人民币的天使轮融资。由蚂蚁集团领投,百度风投、卓源资本跟投,目前估值1亿美元。本轮融资后续将主要用于核心研发团队的建设,加速多模态大模型和应用产品的研发。

多模态大模型指的是将文本、图像、视频、音频等多模态信息联合起来进行训练的模型。此前,OpenAI联合创始人伊尔亚·苏茨克维(Ilya Sutskever)曾表示,“人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念,从而更好地理解世界”。​​​

生数科技模型支持的图像生成。

生数科技成立于2023年3月,由北京瑞莱智慧科技有限公司、蚂蚁集团和百度风投联合孵化成立,前瑞莱智慧副总裁、毕业于清华大学计算机系的唐家渝出任首席执行官,致力于打造可控的多模态通用大模型。据悉,这是ChatGPT火热后,蚂蚁集团第一次下场投资大模型公司,也是朱军在瑞莱智慧后的第二次创业。瑞莱智慧是一家人工智能基础设施和解决方案的提供商。

生数科技的团队核心成员来自清华大学人工智能研究院,主要是朱军带领的课题组。该课题组致力于贝叶斯机器学习的基础理论和高效算法研究,是国际上最早研究深度概率生成模型的团队之一。2022年1月,该团队提出的无训练推理框架Analytic-DPM被OpenAI应用于DALL·E 2模型处理策略中,此后提出采样算法DPM-Solver,现作为全球最快图像生成算法被Stable Diffusion等大量开源项目所采用。

修改视频中画面元素(提示语: a Swarovski crystal swan is swimming in a river),最左原视频、中间生数科技效果、最右Runway效果。

据介绍,生数科技是国内最早布局多模态通用大模型的团队之一,其于2023年初开源了全球首个基于Transformer的多模态扩散大模型UniDiffuser,首次实现基于一个底层模型高质量地完成图生文、图文联合生成、图文改写等多种生成任务。

Transformer模型于2017年由谷歌的一个团队推出,是一种深度学习模型,可以按输入数据各部分重要性的不同而分配不同的权重。该模型主要用于自然语言处理(NLP)与计算机视觉(CV)领域。GPT等目前主要的大模型均基于Transformer开发。

“整体来看,目前业内做图像生成大模型的思路是一样的,都是基于扩散模型。我们的创新之处在于修改了底层的主网络,首个把Transformer用在Diffusion Model技术里面实现多模态。”唐家渝近日在接受媒体采访时说。

唐家渝认为,现阶段市面上的模型和产品仅仅解决了初级阶段的可生成性问题,但生成的结果仍有很大的不确定性和不可控性,模型对用户意图的把握、精确细节的控制仍存在很大不足,比如难以对生成的图像画面中元素的位置、细节做到准确的控制,生成的3D模型在表面精细度、色彩光影的准确性方面仍处于较低水平。

3D内容生成(提示语:a DSLR photo of a blue jay standing on a large basket of rainbow macarons)。

生数科技向澎湃科技介绍,其在3D内容生成方面,研发了业内首个基于三视图自动生成3D内容的技术,以及无需任何3D训练数据的文生3D内容技术,效果方面可以做到细节精细化,能够接近产业级应用,“所训练的大模型在图像生成方面已超过Stable Diffusion最新版基础模型水平,预计将于年内赶超Midjourney最新版本。”

Stable Diffusion是由初创公司StabilityAI、CompVis与Runway合作开发的文本到图像生成模型,于2022年发布,现已开源。Midjourney是一款2022年3月面世的文本到图像生成工具,经历多个迭代,进入公开测试阶段,其逼真效果引发中文网络热议。Stable Diffusion和Midjourney都是目前全球范围内行业领先、评价很高的AI工具。