第一手|快手自研的文生图大模型“可图”来了,已于近期开启内测

转载
461 天前
7876
AI梦工厂

文章转载来源:AI梦工厂

原文来源:GenAI 新世界

作者|李禾子

图片来源:由无界 AI‌ 生成

今年下半年以来,快手正在频频发力大模型业务。

GenAI新世界第一手获悉,快手在AIGC领域的最新进展——自研文生图大模型“可图”(Kolors)已在公司内部全面开启内测。

继上个月推出大语言模型“快意”(KwaiYii)后,快手在不到一个月的时间内,又推出了文生图大模型“可图”(Kolors),在大模型业务方面继“文生文”之后又补上了“文生图”这块版图。

GenAI新世界从可图项目组研发成员侧了解到,“可图”文生图大模型有着三个突出特点,分别是强大的文本理解、丰富的细节刻画,以及多样的风格转化。

而从“可图”大模型内部平台测试版的首页排布可以看出,它已经拥有了成熟的产品雏形。

“可图”大模型内部平台测试版首页

尽管“可图”大模型尚未开启外部测试,它的具体表现我们依然可以从快手App两天前上线的“AI玩评”功能中略知一二。

“AI玩评”已于9月15日在快手主站开放内测,由“可图”文生图大模型提供技术支持。

就在我们以为这又是一个单纯面向短视频创作者的文生图工具、会出现在视频编辑后台时,快手却颇让人意外地把“AI玩评”功能放在了评论区。

也就是说,以后你在某个短视频下评论,可能不再需要煞费苦心去找适合的图片/表情包了,快手直接就能为你生成一张。

在“AI玩评”上线当天,获得测试资格的用户已经开始在快手官方的评论区开始了“许愿式”留言。

GenAI新世界也在第一时间获得了内测资格,下面就来看看我们的一手体验。

首先在快手App打开任意一条视频的评论区,找到评论输入框右侧的“AI”按钮,就可以很方便地进入“AI玩评”的功能界面。

生成图片的前提是需要先输入一段至少六个字的文字,输入后右侧的AI图标就会自动亮起,告诉你可以开始生成。

先来试试一些比较常规的描述看它能不能听懂,比如输入“阳光照耀的沙滩,一个小孩在海边玩耍”。

几秒之后下方就会出现一组AI生成的图像,每张都标注了不同的风格,包括了新海诚、像素画、写实动漫、国风、赛博朋克和皮克斯等等,据说有十几种。如果对生成的几组图不满意,还可以点右上角的“换换看”重新生成一组。

从生成的图像来看,理解还是挺到位的。

再输入几句中国古诗句,它竟然也听懂了:

从画面的细节来看,不管是叶片和花瓣的细微纹路,还是根根分明的花蕊,难得能处理得不错(叶片外围的枯边也体现出来了)。

据说快手AI研究团队更改了去噪算法的底层公式和加噪公式,同时精选了一批高细节、高美感的优质数据,在模型学习的后期进行有侧重学习。能让生成图片的细节纹理更丰富,想必也与此有关。

我们再来输入一些中文语境下有着特定含义的词组:

也不错,至少没有把鱼香肉丝画成一只鱼加一片肉,隔着屏幕也闻到了麻婆豆腐的辣味(上面甚至还撒了葱花点缀)。

它甚至能听懂什么是干饭人(“干饭”本来是西南官话方言):

“可图”大模型对中文表达的理解从一开始可以说就被纳入了考虑。

据快手研发人员透露,快手AI有着数十亿的图文训练数据,这些数据来自开源社区和自研AI技术合成,并且覆盖了常见的三千万中文实体概念,在此基础上训练研发了一个强大的中文CLIP模型。

自研的中文LLM加上融合CLIP的图文特征作为文生图的文本理解模块,让“可图”大模型能更好地理解中文特色概念,减少了复杂概念、属性混淆等文生图领域常见问题。

不过,既然是把“AI玩评”的功能放在了评论区,也要来看看它在评论场景下表现如何。

蹭个热点,输入描述心情的“抢不到火车票非常沮丧”,“AI玩评”还是生成了一些比较能反映这种情绪的有趣图像:

而当我输入那句表情包里经典的“我听不懂,但是我大受震撼”,发现还是生成的简笔画风格和新海诚风格表现最贴切(最受欢迎的生成风格预定?):

整体体验下来,“AI玩评”还是有可圈可点的地方,当然前提依然是能用合适的prompt,以及是比较常见的描述来提示AI。而如果考虑到网友们在评论时自由表达心情和口语化的普遍特点,这一功能依然可以做许多探索。

从“AI玩评”功能其实能看出一部分快手对于大模型应用的思考,也就是——非常强调“落地”。

不同于早前很多致力于打造通用大模型产品的公司,快手这样短视频内容社区,在大模型产品功能的研发上要更重视和社区的结合,在乎的是用户是不是能真正用到。

就像8月依托“快意”大模型推出的“AI对话”功能,有一部分是基于搜索场景,能让用户更便捷精准地找到平台上的内容(在给出答案的同时也会附带相关视频、百科的链接),服务用户的思路同样也延续到了“AI玩评”。

至于为什么把“可图”大模型在快手站内首先落地到评论区,快手的官方回答是,

“快手应用的累计互关用户对数超过311亿对,同比增长近50%,日均互动(包括点赞、评论和转发等)总量达80亿次。有较强用户粘性的短视频评论区成为AIGC能力最佳的落地应用场景之一……(花时间和精力找配图)在很大程度上抑制了用户发布评论的意愿,AI玩评能够极大提升用户参与评论的积极性和满意度。”

当然,既然将“可图”大模型做成了产品,背后可能还承载着快手更大的野心。

今年5月的一季度财报电话会上,快手CEO程一笑第一次向外界透露了快手大模型业务的进展:已组建大模型研发团队,并依托过去在AIGC算法和大规模语言模型方面的技术积累,按计划推进大模型开发和训练。

两个月后,快手在7月8日宣布开始内测“搜索智能问答产品”,拉开了大模型应用落地的序幕。

随后就是较为密集的产品及功能发布:8月8日快手开始“AI对话”功能内测,8月21日大语言模型“快意”开启内测,9月15日主站内测“AI玩评”功能,直到今天“可图”文生图大模型浮出水面……

值得注意的是,快手曾在今年8月10日、面向平台创作者举办的光合创作者大会上第一次正式且较为详尽地介绍了其大模型业务的进展。

针对此前一直向外界透露甚少的大模型业务,快手在这次大会上一口气公布了了多项进展。其中就包括了文本、图像、视频乃至3D素材和音乐音频生成的多种能力,覆盖了视频创作的创意激发、素材挖掘及剪辑制作各个环节,同时还针对直播场景重点介绍了快速制作属于用户自己的孪生数字人的解决方案“快手智播”。

甚至这场一年一度的大会本身,包括海报和嘉宾出场方式等等,也罕见地充满了AIGC的元素。

选择从零开始自研大模型的快手,不知不觉已经积累了许多,慢慢搭建起它口中的“全模态大模型AIGC解决方案”。

所以到这次推出“可图”大模型,快手可以说也是有备而来。

虽然今年以来国内各大公司都开始陆续推出各自的大模型产品,但就内容公司来说,我们似乎还没有看到过一款能真正让人印象深刻的产品,如何能在训练出一个靠谱大模型的基础上探索出更多属于内容公司的新玩法,想想还是挺让人期待的。