梅涛:HiDream.ai视频生成已打破业界4秒瓶颈,能够支持15秒以上

转载
336 天前
9501
机器之心

文章转载来源:机器之心

原文来源:机器之心

图片来源:由无界 AI‌生成

文生图的战争尚未结束,视频生成已经开始加速跑了。

Pika 爆火以后,视频生成技术的进步成为大众眼中 AIGC 的一个新焦点。马斯克则直接做出预判称,明年将是 “人工智能电影” 元年。

而比起文生图的生成效果,如今市面上的 AI 视频生成效果,在实际体验中可以说是一言难尽。

在 4-5 秒的时间限制下,实测常见工具对 Prompt 的意图理解水平忽高忽低。输入 “小猫在森林中小提琴”,可能出现猫首人身、一只手是猫爪一只手是人手、有猫没有小提琴、有小提琴但没拉等一系列问题。

在实际应用中,如今的文生视频技术面临着准确性、一致性以及时长限制等诸多问题,距离 “AI movie” 的愿景还很遥远。

机器之心曾在六月份专访过的视觉多模态大模型公司 HiDream.ai 近期告诉我们,在视频生成领域,HiDream.ai 在即将推出的新产品中已经能够做到打破如今 Runway、Pika 普遍面临的 4 秒时长限制,做到支持 15 秒钟左右的生成时长。

HiDream.ai 成立于今年 3 月,由原京东副总裁、前微软研究院资深研究员梅涛院士创立。梅涛是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow,是多媒体领域荣获国际最佳论文奖最多的华人学者(15 项),也是科技部科技创新 2030 人工智能重大项目首席科学家。

梅涛告诉机器之心,HiDream.ai 团队在文生视频上创新了一套自己的思路:不直接从文本向视频转换,而是从文本先向图片转换,生成关键帧,再由此在时间维度上前后进行拓展。

“这种方法不仅能够提高视频生成的稳定性、细节处理和美感,还为视频生成的时长拓展提供了可能性—— 从一个简短的 prompt 出发,通过大语言模型自动生成分镜头的脚本(script)。然后针对每一个镜头脚本,通过 “文生图” 的方式生成一幅图(关键帧),将这些关键帧通过 “图生视频” 的方式转换为单一镜头的视频,最终将这些视频拼接成一个完整的视频,形成 15 秒甚至更长时间的多镜头视频。”

视频生成的时长性限制在商业化应用上是重要的掣肘。在 15 秒的生成长度下,基本可以覆盖常见短视频的生成需要,而 4 秒则很为难。

HiDream.ai 在文生视频上的新解法主要基于他们自身的基因。成立之初,HiDream.ai 在文生图上投入了大量资源,打造了自研的智象多模态基础模型。

在半年前机器之心对梅涛的专访中,他曾立下 “将在今年年底前,在基础模型上超越 Stable Diffusion 最新版本,而在产品上则要赶超 Midjourney” 这样的目标。时隔半年,梅涛告诉机器之心,这个目标已在今年十一月被提前完成。

半年的时间里,HiDream.ai 基于其底层视觉大模型推出了图片生成平台 “Pixeling 千象” 以及面向电商平台 AIGC 工具 “PixMaker”,两个工具在商业化上都实现了一定进展。

资金方面,除了收获到第一轮由科大校友组成的资方支持,HiDream.ai 在过去半年还获得了来自科大讯飞创投基金以及阿尔法公社的支持,两轮融资共筹集近 1 亿人民币。梅涛透露,如今第三轮融资也正在开启,新一轮融资预计会在 2024 年 Q1 完成。


打破业界 4 秒瓶颈,已能够支持 15 秒视频生成


机器之心:最近 Pika 特别火,从你们的角度看,它火的原因可能是什么,为什么引起这么多关注?

梅涛:我们通常不评论任何公司。但从整个行业的角度来看,半年前我们提出要做多模态视频生成,那时没有人相信能做出来。但现在,大家已经看到了一些初步成果。

其实无论是像 Runway 还是 Pika,虽然产品功能上还比较初级,这些公司都逐渐获得了关注,这是一个好现象,说明大家都意识到了视频生成的巨大市场潜力。

机器之心:半年过去了,文生视频整个赛道的技术进展可能处于什么阶段?

梅涛:以图片生成为例,如果我们说 GPT 有 1.0、2.0、3.0 到 4.0 的话,图片生成应该处于 2.0 阶段。我们现在做的最大模型是 100 亿,基本上跟 GPT 2.0 差不多,我们可能正在向 3.0 方向发展。但视频生成方面可能还处于更早期的 1.0 阶段。

视频生成领域有很多技术挑战。首先,好的视频生成模型需要一个优秀的图片生成模型,也就是多模态基础模型,作为基础,这一步就意味着视频生成的门槛非常高。

其次,视频生成还需要要有效处理单个镜头内部动作的连续性和一致性。如果无法实现在时间域上像素级的运动预测,就会出现运动模糊或不符合逻辑的扭曲。

第三,在视频编辑功能上,如果我们需要修改某些特定的元素,比如改变某个物体或者人物的动作,目前来说非常难,因为保持连续、一致非常困难;同时,如果要做到长视频生成,如何保持特定 IP 在多个镜头中的一致性,也十分挑战。

我们现在认为,从视频生成本身来看,直接由从文字生成视频并不可靠。

首先,它是从一维信号跃迁到三维信号,中间实际上跨越了二维信号,即图片。从一个低维信号恢复出高维信号,本身就是一个非常难的技术问题。

其次,文生视频中的不确定很大。通常输入一个文字 Prompt,在目前的算力情况下,你可能需要等待几分钟才能得到一个 4 秒钟的视频结果,并且这个结果可能并不是你想要的。后来我们发现,我们的用户在使用我们的产品时,有相当一部分人,他们首先使用 Prompt 生成关键帧,然后从时间维度上前后进行扩展,这样结果更可控。

所以,我认为今天很多从文字生成视频的公司虽然想法很好,但我们团队认为,通过文字到图片再到视频的过渡可能更好。

我们将来可能会延续这个思路,实现从文字到图片到视频的单镜头过渡,然后再到多个镜头、多个故事线。这意味着,我们在系统内部需要帮用户编写脚本,然后把简单的 prompt 分成不同镜头,每个子镜头都可以用我们目前的方法解决。也就是先解决传统视频制作过程中的 “拍摄” 环节。

当然我们还需要继续解决镜头内外的连续性,包括今天讨论的运动的一致性、连贯性问题,也就是说同一个人或 IP 在一个镜头出现后,应该在下一个镜头中继续保持一致性,不能随意变化。这其实是一个挑战。因此,我们的思路基本上是从单镜头到多镜头,从简单的语义到复杂的剧本生成。

机器之心:直接从文本生成视频和先从文本生成图片再生成视频,这两种方法在效果上可能有什么差异?

梅涛:如果是文生视频,那么对用户而言,他们通常不会察觉到生成过程中是否经历了从文本到图片,再从图片到视频的阶段。

我们的产品从设计上对用户来说,流程仍然是,输入 prompt,等待,然后得到视频。但对我们的系统来说,先将文本转换为图片,再从图片生成视频,这个过程会带来更多的确定性。直接从文本到视频可能会导致更多的扭曲或突变;但因为在生成图片的中间步骤中,由于当前文本生成图片的质量已相对较高,从图片到视频的过程更可控。

我们认为,从文本到图片,再到视频的方法会提高视频生成的稳定性、细节处理、视觉真实性和美感,这些都是基于我们从用户那里获得的反馈。

此外,即使用户选择一键生成视频,我们内部仍会隐式地先生成一张关键帧图片。如果用户想要更多的选择,我们也提供选项,让他们先查看这张图片,然后基于这张图片扩展到视频。这样做为用户提供了更多的可能性。

机器之心:上面提到的,文生视频的不同阶段(1.0、2.0、3.0)表现可能是怎样的?

梅涛:文生视频的 1.0 版本主要解决的是大约 4 至 5 秒钟单镜头视频的生成问题。

目前,1.0 版本对于卡通、动漫、科幻、空镜头等主题已经可以做到接近影视工业标准;但还有一些问题尚未完美解决,尤其是视频的连贯性和细节处理,比如人物的手势动作和微表情变化、多个人物的互动关系等(例如让孩子微笑或两个人握手的场景)。

对于 2.0 版本,我们的目标是解决单镜头的时长问题,即将单个镜头视频的长度从目前的 4 秒提升到 7 秒左右,甚至更长。一般来说,视频作品中单个镜头的长度不会特别长,所以能做到 7 秒就比较成熟了。将来如果需要更长时间的单镜头视频,我们也可以基于视频的最后一帧,在时间域继续往前扩展即可。

3.0 版本的目标是从单镜头过渡到多镜头的处理,能够讲述更长的故事,如一分钟的视频,可能包含 10 至 20 个或更多的镜头。这需要解决多方面的细节问题,如 IP 的一致性、运动的连贯性以及多机位的处理。

对于 1.0 版本,如果是卡通、动漫、科幻类型的视频,我们今天就能做得很好。但对于真人视频,例如影视作品中人物细微的表情变化和手势连贯性等,还需要更长的时间来攻克。

所以 1.0 版本虽然在真人高清视频方面还有很多挑战,但我们会先尝试动漫、科幻和空镜头等风格。而目前无论我们还是其他公司的产品,在真人高清视频制作方面都还未能做得特别好,成功率还比较有限。

机器之心:在视频中生成真人在技术上的难度会体现在什么地方?

梅涛:并不是说在真人和卡通形象的生成上会有不同的技术,而是在真人的生成上,技术的优劣势会体现地更加明显,容易被大家看出来细微的差别。

例如,人的眼睛和鼻子稍有变化,就会显得不自然。真人中的手指细节,如手指的粗细或数量,也必须精确,不能出现六个指头或手部扭曲等问题。

机器之心:如果说目前我们仍停留在 1.0 阶段,能否具体分享下,这个阶段需要重点攻克的技术难点是什么?

梅涛:我们面临的主要挑战是提高细节生成的精度。目前不仅仅需要分辨率,而是要提升整体生成的视觉质量,包括人物和 IP 的细节处理。

其次,从我们的角度看,即使我们在 1.0 阶段遇到一些未解决的难点,但仍可以努力向 2.0、3.0 版本迈进。这涉及到将文本转换为剧本,然后再将剧本划分为多个小片段,最终拼接成一个较长的视频,例如 15 到 20 秒。

我们在即将公开的论文中提出了我们的解决思路:从一个简短的 prompt 出发,通过大语言模型自动生成剧本或脚本。基于每段脚本生成一幅关键帧,再将每幅关键帧转换为短视频,最终将这些短视频拼接成一个完整的长视频。

这样做的好处,我们能够更好地保证长视频中的人物或风景的一致性,固定里面的场景,以保证内容的连贯性。我们实际通过这样一套方案来解决,从 1.0 到 2.0 这样一个过渡期的问题。

但如果说,我能让 1.0 做得更好,那当然是好事。既然图像到视频的小片段我们能做得更好,那么整个长视频自然也能做得很好。换句话说,我们在这个流程中的每一个小环节做得更好,都能导致最后结果的提升。

机器之心:这个流程里,最核心的难点是什么?

梅涛:核心难点首先在于生成脚本(Script)。我们的系统能够从一个提示(prompt)自动生成相匹配的剧本。其次是从脚本到图像的转化,尤其是保持对象(如一只老鼠的 IP)在不同镜头下的一致性。

例如,输入 “老鼠” 可能生成不同类型的老鼠,如仓鼠或怪兽,但我们需要保持其一致性。最后,从图像到视频的转化中,我们需要确保保持 IP 的固定性和与脚本的一致相关性。

机器之心:在商业化应用中,4 秒和 15 秒的视频制作有什么区别?

梅涛:从技术上讲,4 秒的时长目前确实是一个瓶颈。但我们在跟商业伙伴讨论的时候,都同意 4 秒实在太短,不够实用。所以我们才尝试把它拓展到 15 秒甚至更长。

但同时,我们也意识到,如果内容没有变化,即使时长增加,对用户来说也毫无意义。而我们的系统,类似于一个 agent,可以分析脚本、安排镜头,并通过语言和视觉模型保证 IP 的高度一致性。这不仅是技术上的创新,也是对客户需求的直接回应。

在具体的商业应用方面,4 秒和 15 秒的应用空间大不一样。以短视频和网剧为例,通常需要十几秒至一分半的时长,这是 4 秒钟难以满足的。

这意味着在时间线上进行延长,使作品更接近剧本或短剧。如果成熟到一定程度,我们甚至可以制作几分钟长的短剧。大家之所以对视频如此关注,是因为视频生成提供的想象空间比单纯的图像要大得多。

机器之心:在视频生成的研发方面,你们团队有什么经验背景?

梅涛:我们团队在视频制作方面积累了十几年的经验,这是一个重要的优势。

比如学术界最早的一篇 Caption-to-Video 的工作 “To Create What You Tell: Generating Videos from Captions”,就是我们团队发表在多媒体顶级会议 ACM Multimedia 2017 Brave New Idea Track,在当时看还是非常大胆和前瞻的尝试。

我们还是最早进入 “视觉和语言” 这一领域的研究小组。早在 2016 年,我们就推出了 “视频和语言” 的公开评测数据集 “MSR-VTT”;今天全球已经有超过 500 家机构在使用这个数据集,包括 OpenAI、Google 等顶尖团队,相关的论文引用量也已超过了 1,500 次。

我们不仅仅遵循传统视频制作的流程,还结合了我们过去在视频生成过程中的经验和当前所有视频 AI 技术,实现了完美的结合。在创新方面,虽然想法很重要,但真正的挑战在于将这些想法实现。例如,我们在微软时常说 “Idea is cheap”,关键在于你能否将其实施。所以我们的目标是成为第一个实现这些想法的团队。

机器之心:未来你们在视频生成上产品的预期目标和计划是什么样?

梅涛:我们的千象早在 9 月份就已经支持视频生成的一系列功能了,包括文生视频、图生视频、视频风格化编辑等。近期会上线 15 秒钟左右的多镜头视频生成。

长期来看,我们会继续解决细节问题,如手势、人脸识别、连续性问题,以及镜头间的一致性等。我们今天上线的产品并非完美,但用户的使用和反馈将帮助我们改进产品。我们的产品策略是先让用户开始使用,然后根据反馈不断迭代和改进。


已提前完成超越 Stable Diffusion 的目标


机器之心:你们之前提到的目标是图像生成产品要超过 Midjourney,基础模型要超过 Stable Diffusion。现在这个目标的完成情况如何?

梅涛:半年前,我们设定了这个目标,我们已经在 11 月达成,我们的基础模型已经在 10 月底超过了 Stable Diffusion 的最新版本。我们的模型目前达到了 100 亿参数,这是视觉生成式大模型领域中单个最大的模型。

机器之心:有什么标准可以来验证这一结论?

梅涛:我们最近进行了一项评测。香港中文大学测试了包含 3200 个 prompt 的数据集,分为四种类型的 prompt 来测试不同模型的生成能力。

我们的模型在三个主要指标中有两个领先,超过了 Midjourney V5、DALL-E 3 和 Stable Diffusion XL。

测试链接:https://github.com/tgxs002/HPSv2

此外,我们进行了一项由 100 名用户和设计师组成的匿名评估,结合客观和主观的评价,进一步证实了我们的结果和 Midjourney V5 的结果不相上下,在很多图片类别上甚至还超过了 Midjourney V5。

机器之心:在追赶目标的过程中,你们主要做了什么?

梅涛:在模型上,我们主要做了两个核心层面的改动:


一是我们并没有简单用 CLIP 进行编码,而是基于 CLIP 自己训练了一套自有的框架,这套文本编码器比传统的 CLIP 性能要更加好。

第二,我们在 Diffusion Model 中综合利用了 Latent Code 以及 Pixel 两种压缩方法,将前者的全面性和高效性与后者对细节的把握度做结合,做了一套属于我们自己的 Diffusion Model。

在数据上,我们已经实现了数据回流使用,我们 C 端产品千象的月活目前接近两万,并且还在持续上升。在前端,用户每次的 Prompt 输入后都会得到四张图片和两段视频,用户的选择数据对我们来讲也是一种反馈。

此外,我们有专门的设计师团队会对生成结果进行评测,并对数据进行清洗,这些对我们的模型训练和性能提升都有显著影响。

机器之心:您在半年前提过接下来最重要的三件事,一是模型迭代到百亿级别,二是文生图超越 MJ,三是在小 B 群体初步验证种子产品。最后一件事,完成的情况如何?

梅涛:目前我们主要开发了两款产品,面向设计师的工具 “千象” 以及面向电商商家的 AI 制图工具 “PixMaker”。

“千象” 产品的设计里,我们不仅能实现图片生成,还提供图片编辑功能,允许设计师进行智能拓图、重绘、抠图和排版,我们近期还上线了矢量图生成和转换的功能。

此外,我们还建立了一个社区,允许图片设计师分享他们的作品。我们已经形成了一个集工具、内容和社区于一体的概念。未来,我们还计划开发更多功能,以更好地满足设计师的需求。

我们的基础模型大概每两周迭代一次,然后每一到两个月会有一次较大的迭代。功能方面,我们基本上每周都会上线一些小功能,所以我们产品的迭代速度非常快。

就商业化方面来说,从 10 月份到 11 月份不到两个月的时间里,我们的月活跃用户已即将达到两万。其中,付费用户已经超过了一千。这对我们来说非常重要,我们需要知道用户是谁、他们为什么来到我们这里,以及他们为什么会付费。他们的付费行为对我们来说是非常关键的,这是 C 端的情况。

“PixMaker” 是面向电商场景的 AIGC 产品,可以支持用 AI 代替拍摄,一键批量生成高质量的商品图,也能一键替换模特以及场景,能够帮助商家在没有版权的风险下,实现上架效率提升 5 倍以上,成本降低 80% 以上。

这个领域目前我们已经签约了十几家跨境电商企业,这个速度还是相当快的。我们希望明年能够在跨境电商图片 AIGC 工具领域成为第一梯队公司。

机器之心:类似 “PixMaker”,百度和阿里都有类似工具,你们的区别和优势是什么?

梅涛:首先,我们更专注于视觉方面,而他们可能更关注语言。我们使用的闭源模型在生成图片的精细度和真实感方面明显优于开源模型,我们的模型至少比开源模型先进一到两个代际。

此外,我们的产品在精细化、可用性、可控性和通用性方面表现更佳。我们能确保对电商产品 SKU 图片的高度精确控制,达到 99% 到 100% 的准确度。我们的模型也能适应大量不同的 SKU 品类,展现出良好的通用性和复用性。

客户通常会使用他们的真实数据来评估我们的产品。虽然 AIGC 这个领域相对较新,客户的需求可能无法一次性全部满足,但我们已经在这个领域中进行了大约三个月的改进和优化。

现在我们已经完全覆盖了大多数品类,如跨境电商的快消品。现在我们在努力改善对于更具挑战性的产品类别,如服饰和假发的处理。

机器之心:能否举例说明跨境电商的快消品行业是怎么用你们产品的?

梅涛:当然可以。跨境电商的快消品行业对我们的工具至少有三个方面的要求:通用性、可用性以及可控性。

通用性上,假设一家跨境电商拥有 10 万个 SKU,商家希望我们的工具需要尽可能全面覆盖所有种类的产品,既要包括标准的也要包括非标的。

可用性上,对于为这 10 万个 SKU 生成商品图这件事来讲,成本需要降低,如果需要客户从每个产品生成的 100 副图中挑选一副,显然成本过高;相比之下,如果我们能在 100 副生成的图片中,客户就能找到 80 张直接能用的,这就体现了高可用性,因为它显著降低了成本、提高了效率。

最后是可控性。举例来说,如果客户提供的是怡宝瓶装水的图片,我们生成的图像不能是其他品牌。这意味着我们必须确保产品的精确匹配。对于电商行业来说,这三个方面相辅相成且至关重要,不论是成本、覆盖性还是实用性。

关于具体的应用,比如说一个电商客户给定一个 SKU 的白底图,这是他们的产品。他们可能希望我们基于这张白底图生成营销图像或商品主图。

他们可能希望指定某些场景,比如放在户外的石头上、室内的桌子上,或者厨房里的灶台上。我们的任务就是根据客户的输入提示,在任意想要的地方展示这个 SKU。难点在于,生成的图像必须与原始产品保持一致,以防买家发现产品与卖家描述不符。

第二点是关于图像与背景融合的合理性。整个图片的色彩、光影、空间布局、逻辑,甚至视觉美感,都应达到一定的摄影师水准,或至少相对接近这一水准。否则,图片可能不会刺激用户的购买欲。因此,这几个方面都有一定的要求。

针对服饰类的产品道理一样。比如一个商家,往往需要一个普通店员或专业模特来制作成品图,比如不同肤色、外貌、身材的模特。因为他做跨境电商,需要考虑销售地点,可能涉及不同肤色的人群,比如白人、黑人、亚洲人等。

那我们就需要根据用户的输入 —— 他的店员或模特穿着特定的服饰,输出在海边沙滩、城市街道或是室内等场景下,不同肤色、年龄、神态下的模特图。用户可以调用我们的服务或使用我们线上签约的方案。这样他们就可以生成用于营销或传播的产品主图。

机器之心:使用这种技术,他们的成本降低了多少?

梅涛:成本降低了大约 10 倍,甚至更多。现在这种传统商业拍摄的成本非常之高,如果是在一般的摄影棚内对 SKU 进行布景拍摄,一张图的成本约为 30 到 50 元。如果涉及到模特,可能达到几百元。而使用我们,成本降低了不止 10 倍。

如果可用性提高,成本会进一步降低。我们的目的部分是降低成本,同时也是提高效率。例如,原来可能需要 10 个设计师才能完成的工作量,现在可以由更少的设计师完成,从而使他们能够处理更多的品类。

机器之心:目前产品的可控性水平如何?

梅涛:我们对产品的可控性,特别是服饰类商品,能够达到近乎百分之百的可靠性。尽管在某些情况下,例如多人拍摄时,可能会存在些许重叠或细微差异,但这些差别对用户而言几乎是无法察觉的。因此,我们的可控性接近百分之百,虽然偶尔会遇到一些特别困难的案例。

机器之心:预期的话,这块的营收可能会是多少?

梅涛:目前我们已经签约的有十几家,还有二十几家正在内测,基本上也快要签约了。明年希望能吸引一两百家电商客户,主要是中腰部和头部客户。我们也非常重视尾部客户,因为这类品牌商全国大约有几十万家。我们的目标是明年实现千万级的收入。

机器之心:对于 “千象”,半年前您提到,让文生图工具切入设计师的工作流是你们在市场竞争中的打法,你们的具体实践是怎样的?

梅涛:我们的目标群体包括专业设计师和泛设计师人群,后者包括设计爱好者、自媒体人士、有设计需求的学生,甚至一些公司负责企业宣传的人员。

我们的策略是通过横向和纵向的方法来理解和满足他们的需求。横向方面,我们识别并满足设计师的共性需求,如智能编辑、智能重绘、分层排版等。纵向方面,我们针对特定行业(如电商)开发更深入的产品集合,包括自动抠图、图片合成、光影效果处理、矢量图转换,以及 IP 的确定性需求。通过这种方式,我们既满足了广泛的基本需求,又能深入特定行业的专业需求。

机器之心:那像 “Pixeling 千象” 和 “PixMaker”,两者相比在商业化方面,哪个是接下来的重点?

梅涛:我们最关键的目标是服务好 C 端用户,即泛设计师用户群体。当然,B 端市场我们会持续努力。所以我们的重点肯定是为设计师提供出图需求的工具,或者说包括视频和图像编辑需求的工具。

在商业化上,我们采用订阅制,用户可以选择按月或按年付费。在国内,接下来我们会关注电商、教育等赛道,通过生态合作的方式,一起发展。另外,我们不会仅限于国内,我们有计划将面向 C 端的业务拓展到海外。

机器之心:对于出海的具体计划是什么?

梅涛:我们目前仍在探索和尝试出海的过程中。我们会从国外社区开始推广我们的产品,然后跟随跨境电商一起出海。

机器之心:你认为国内市场和国外市场的竞争情况有什么不同?

梅涛:根据我们前段时间在硅谷与当地一些创业团队的交流,国外市场的内卷程度比国内要好很多。国外市场的空间更大,全球化程度更高,用户的付费意愿更强。此外,国外市场在商业化同质化方面表现得更好,生态方面做的更好。

机器之心:推向海外的话,你怎么看待会跟 MJ 有直接竞争?

梅涛:我认为我们比 Midjourney 走得更靠前。我们更重视交互设计,想要实现更深层次的、渐进式用户交互体验。我们有自己的独立平台,在图片和提示语理解方面,我们计划结合大语言模型进行更好的交互式设计。

机器之心:这块面向 C 端的业务规模预计会是怎样?

梅涛:根据我们的估计,全球的核心设计师人数大约是一个亿,其中中国大约有 2,000 万,超过 80% 需要具备视觉设计能力。但这还不包括泛设计师人群,如自媒体人员、企业 HR、小型电商店家等,他们也有实际的需求,所以整体市场规模会更大。

大模型商业化及应用爆发或在明年

机器之心:您判断,明年大语言模型和文生图的发展趋势会怎样?

梅涛:目前,对于大语言模型和文生图的投资已经基本上告一段落。商业化方面可能稍有滞后,因为大语言模型的实际落地需要依赖于应用。

就目前情况来看,今年大语言模型并没有出现大规模的突破。尽管目前很多公司都在开发语言模型和文生图,但它们的商业化规模仍然相对较小,还没有达到预期。

商业化的爆发需要一个过程。我们预计大语言模型的商业化和应用层的爆发将会在明年发生。对于文生图,预计也会在明年在小领域实现大规模的商业化或爆发。

机器之心:大爆发的概念可能是一个什么样的规模?

梅涛:这个规模不好界定,因为它涉及一些核心数据。目前看到的公开数据显示,即使在头部企业,大语言模型的调用量也可能不会特别高。

像微软和 OpenAI 这样的公司的调用量可能还是可观的。但即使是他们的市场化收入规模,在北美整体市场中也不算特别高。所以,我认为大爆发可能意味着调用量与搜索量相近的数量级。举例来说,如果每天的搜索量是 10 亿次,那么 AI 生成内容(AIGC)的调用量也不应显著低于这个数量级。

机器之心:商业化上的爆发可能是怎样的?

梅涛:商业化爆发可能意味着在各个领域都有显著的突破。

大语言模型的商业化最终需要针对不同领域进行调整,因为每个领域的需求不同。如果每个领域都有重大创新,从而推动底层大模型的发展,那将是一个繁荣的现象。

目前我们看到的是各个公司在不断刷榜单,推出不同的模型,但尚未看到这些模型在实际应用中的体现。因此,整个生态系统还需要时间来构建。

机器之心:没有出现大规模应用的原因可能是什么?

梅涛:目前大模型实际上是很难应用的,它的实际落地成本非常高。比如,当人们使用大模型时,就像一个小孩想攀登高山或进入大森林,他们找不到一条明确的道路。

因此,人与 AGI 或大语言模型之间需要一个桥梁,这个桥梁可能是一个应用,或者未来可能是一个 AI Agent。如果没有这样的中间层,我们的语言模型和视觉模型就无法充分发挥作用,也无法创造价值。所以,构建这一层是需要很多人共同努力的任务。

机器之心:刚刚您提到文生图领域,今年很多公司在商业化方面未达预期,这是为什么?

梅涛:对于文生图领域的大规模商业化问题,我认为目前还没有定论。这主要是因为视觉内容生成还在面临不确定性和不可控性,以及细节处理的精细化等方面的挑战。

目前使用量不多的原因之一是工具还不够完善。用户在应用层面需要更多丰富的工具来辅助他们更好地实现创意,例如,写出有效的提示(prompt)等。

当前的 AIGC 工具能够满足用户的创意生成需求,但这在整个设计师供应链中只占了 10% 到 20%。真正要做的是深入到链条的下游,包括素材搜集、编辑精修和最终成品交付,这些占据了设计流程的 70% 到 80%。

目前的 AIGC 尚不能深入到这些环节,但这并不意味着未来也做不到。我们需要设计更好的交互和创新玩法,使 AIGC 能够真正融入工作流程,为用户带来便利,这将是未来的一个巨大发展空间。

机器之心:您预计,文生视频技术的成熟时间点可能是怎样的?

梅涛:我个人认为,到 2024 年年底可能会出现一些优秀的成果。因为我们可能已经处于技术爆发的前期阶段,所以我判断 2024 年将是重要的一年。届时,我们的技术投入,特别是在视频方面,将会加大。

机器之心:接下来整体的战略目标是什么?

梅涛:明年我们会主打视频。在商业化方面,我们有三个战略目标:第一个是我们要建立一个针对 C 端设计师的工具和社区,并在月活跃用户和付费用户方面取得一些突破。

第二个目标是我们想在 B 端电商领域成为这个行业的领头羊,成为提供跨境电商 AIGC 工具的领先者。

第三个目标则是创新方面,特别是视频。目前坦白说,全世界还没有看到哪一家在视频方面做得特别成熟,技术还在迭代,商业化也在探索。