文章转载来源:腾讯研究院
原标题:《谁在布局生成式AI?》
作者:白惠天,腾讯研究院研究员;王强,腾讯研究院资深专家、前沿科技研究中心主任
纵览生成式人工智能(Generative AI或AIGC,两种表述均可,国内更多用AIGC)进化史,从AI诞生之始,人们就试图让机器生成内容,与其对话,并诞生了最早的图灵测试标准。多年来,生成式AI的发展一直不温不火。直到去年Midjourney、Stable Diffusion等文生图应用点燃了大众的热情,再到11月ChatGPT的横空出世,更是引发了现象级热潮,让生成式AI走入了亿万用户的视野。
本文结合国际企业实践经验,从大模型生态构建方式、行业应用的切入路径这两个视角切入,描绘生成式AI的行业应用版图,分享我们初步的观察与思考。
模型即服务(MaaS)的新生态加速形成
结合目前行业“基础设施层-模型层(MaaS)-应用层”三层结构,我们预计未来可能形成一个模型即服务(MaaS)的新生态。自下而上,三层结构的构成如下:
基础设施层:GPU芯片、AI芯片、超级计算机等算法基础设施,以及机器学习框架、云操作系统等软件。
模型层(MaaS):通用AI大模型,以及基于大模型在垂直领域训练生成的行业模型(中间层),即在预训练AI大模型基础上,可以快速微调或使用嵌入等方式、开发出场景化、定制化、个性化的中小模型,实现在不同行业、垂直领域、功能场景的工业流水线式部署,同时兼具按需使用、高效经济的优势。
应用层:AIGC技术面向终端用户带来的新的功能、产品、服务和应用等;正如之前的“互联网+”一样,“AIGC+”或者说“AI+”将来有望和各行各业深度结合,持续带来新的应用形式。未来,一方面,现有的APP都可以用大模型重做一遍,另一方面,还会出现更多新的AI原生类APP,从而诞生更多新的独角兽甚至巨头企业。
大模型走向通用性和垂直性并重的纵深布局
在AIGC技术应用布局上,通用性和垂直性并重。
所谓“通用性”指的是横向能力,适用于各个行业,具体而言包括语义多轮对话、知识库构建、智能搜索、企业级RPA、多模态内容生成、代码生成等方面:
1、语义多轮对话:AIGC技术在语义多轮对话中发挥着巨大的优势,尤其是在高客单价销售和私域交流场景下。例如,直播话术中,AIGC能够迅速学习并掌握最佳实践,如各类Chatbot和IQ for sales。
2、知识库构建:AIGC技术从简单的资料概括整理发展到帮助用户阅读理解、生成个性化资料库,以及基于高效资讯归纳的新搜索功能。这使得AIGC既可应用于企业级人工智能,也可成为个人助理(如Mem)。
3、智能搜索:AIGC在智能搜索领域的应用也取得了显著成果,如New Bing、Perplexity等。凡积累了知识库的系统,都可以借助AIGC实现语义搜索功能。
4、企业级RPA(Robotic Process Automation):结合LLM(Large Language Models)技术和RPA,AIGC在企业级应用中发挥着重要作用。典型应用包括微软的Copilot以及CRM领域的Salesforce等,它们紧密结合行业场景,为用户赋能。
5、多模态内容生成:在智能写作助手、广告主视觉创作、智能NPC等领域,AIGC技术带来了创新应用,除了文字,还可以生成图片、视频,甚至3D数字内容。
6、代码生成:代码作为一种更标准化的文本,AIGC在代码生成方面具有巨大潜力,如GitHub Copilo已经有很不错的表现,在这个领域,正在有更多的代码生成工具出出现,有望大幅提升码农的生产力,也为普通的非技术工作者提供了更为便捷的工具,大幅降低了编程门槛。
所谓“垂直性”指的是纵向能力,通过对不同行业Know-how的学习,AIGC技术可以进化为行业专家,从而大幅加速各行业的数字化转型。
结合国外企业的投融资信息,我们列举了医疗、金融、零售和制造几个行业的典型例子:
国外科技企业纷纷“卷”出了新高度
在Open AI的直接带动(微软)或刺激(谷歌等)下,大模型已经成为巨头军备竞赛新的杀手锏。不仅加速大炼“大模型”,还在原有的产品中快速加入大模型的能力,以期在新的范式转换和技术浪潮中占得先机。
先是5月初,谷歌I/O大会推出PaLM2大模型,其对话产品Bard未来也能像ChatGPT一样,接入网络,实时搜索网页。同时推出Duet AI,给谷歌的办公套件Workspace全新升级。
近日,微软开发者大会则推出了Windows Copilot,打造每个人的AI助手。Windows Copilot将直接集成到Windows 11中,在所有应用和程序中都可使用,就像我们在Edge、Office程序和GitHub中看到的Copilot侧边栏一样。
除了传统科技巨头,创业企业同样表现出极高的市场活力和技术实力,各模态应用快速落地,爆款产品不断推出。随着技术不断演进,尤其是Diffusion、Transformer和Clip等模型的提出,AIGC的商业化在多个领域开始落地,其中代码生成、文本生成、图像生成、音视频/游戏等领域已有不少爆款级产品。
更多头部企业创新产品和解决方案可参见下表:
大模型生态合作的5种典型方式
目前,大模型可能的生态合作和商业模式正在渐次展开,我们梳理了主要的5种。其中API调用和插件是大多数公司接入大模型能力的主要方式。
1、API调用:大多数公司使用大模型的主要方式
在当前的技术环境下,API调用被广泛应用于知识库和客户服务领域。公司通过利用ChatGPT开放的Fine Tuning API,将自有的Knowledge Base(包括产品文档、常见问答、客服历史对话等)上传到ChatGPT,从而建立私有模型。值得注意的是,尽管如此,创业公司仍无法拥有该模型的所有权。
通过这种方式,ChatGPT的用户可以拥有专属的Chat Bot,它不仅具备常规对话功能,还可以利用企业自有、甚至非公开的训练数据来提供高度针对性的服务。
以OpenAI的GPT-3/3.5/4为技术基础,一些创新公司如QUANTUM ENGINE(类似Character.ai和Inworld,由创始人Jesse Lyu于2023年创建)旨在基于ChatGPT改善玩家体验并提升生产环节效率。这些公司通过引入开放式对话,重新探索NPC的价值,以提升沉浸感与交互方式。同时,实现了开放式游戏视觉引擎联动的三个步骤:生成对话、行为与蓝图的自动化。一个典型的示例是“当马斯克想把特斯拉卖给比尔盖茨”的Demo,该Demo展示了如何自由选择角色并自动生成对话。
价格方面,尽管不同类型、不同公司的定价方式各有千秋,但整体上大模型日益向生态扩展方向发展。典型如OpenAI开放了GPT-4(纯文本)、ChatGPT API和WhisperAPI(应用程序接口),允许开发者将ChatGPT集成至他们的应用程序和服务中。2023年3月1日,OpenAI基于GPT 3.5 Turbo模型开放了ChatGPT API;API收费模式为0.002美元/1000tokens。相较于前一代开放接口GPT 3.5,性能更强的同时,价格下降90%,进一步加速了ChatGPT相关应用生态的发展。
2、插件模式:Plugin让大模型有望成为新的OS
除API调用外,2023年3月24日,OpenAI公布了重磅消息:ChatGPT支持接入第三方插件,并一口气上架了11个插件。通过这些插件,用户可以用ChatGPT购买商品,预定酒店、机票,搜索专业数据等,这大大解放了ChatGPT的生产力,为其发展带来了更多的可能性。这种插件模式为Plugin可能的应用方式和影响提供了丰富的发展前景。
总之,不管是作为操作系统还是应用商店,AI的转折点已经到来。
3、进一步的探讨:机遇还是陷阱?护城河在哪里?
综合上述API调用方式的分析,我们不禁产生一个灵魂之问:模型是OpenAI的,核心技术不在自己手里,AIGC应用层企业的护城河在哪里?
PitchBook调查数据显示,仅在2022年,生成式AI(即AIGC)赛道就发生了78笔投资,总融资金额超过13.7亿美元,几乎相当于过去5年的融资总和。同期,出现了OpenAI、Stability AI、Jasper等估值超过10亿美元的独角兽。预计2023年,生成式AI赛道的融资次数、额度将会更多。
然而,“GPT狂飙,AI投资突进,整个创投市场都热得发烫。稀缺的公司分分钟独角兽,做大模型的人才出500万年薪也难招,但与此同时,有的创业公司还没来得及在市场上露出锋芒,就已经被一日千里的OpenAI拍倒在PPT阶段,难以翻身”——AIGC应用层融资过热,是否“虚假繁荣”?
换言之,ChatGPT“更强、更快、更便宜”了,现有应用还有市场吗?关于这个问题的回答我们将以Grammarly、Jasper.ai 的使用体验及 Quantum-engine创始人的现身说法为例尝试做出回答。
(1)ChatGPT对Grammarly说:我干掉你,与你无关?
Grammarly为全球每天的3000万用户(包括50000个专业机构)提供语法校对服务。然而,在ChatGPT出现后,这一市场格局可能面临挑战,据悉reddit、twitter 等地充满了正在认真考虑退订 Grammarly 。
(2)Jasper“真香”,为什么?
Jasper支持各平台广告/博客图文内容生成,截至2022年12月底,Jasper付费用户达到7万,估值已达15亿美元,旗下有多款产品接入GPT-3进行商业性文字创作。
虽然底层模型是OpenAI的(亲测调整设问方式后可在ChatGPT中得到高度一致的营销文案结果输出,核心功能可替代),且Jasper定价更高,但截至目前Jasper的估值和用户量并未受到影响,这引发了关于其发展和市场竞争力的思考。
(3)创始人视角:应用层壁垒在于前端用户体验
QUANTUM ENGINE 创始人表示ChatGPT在游戏行业的应用呈现出巨大潜力,包括游戏角色对话生成、剧情编写、游戏元素创意等方面,为游戏开发者提供强大的支持。作为对话生成应用,低延时性对用户体验至关重要,类似于在弱网条件下云视频会议产品Zoom适当牺牲视频质量以优先保障音频流畅以保证用户通话体验,AIGC应用也需要关注此类需求,为用户精准提供更舒适的前端用户体验。
由此观之,行业应用层的独特优势决定了未来百花齐放的生态,深耕行业特性、优化前端体验才能应对大模型飞速迭代带来的潜在危机。
按用户侧类型划分,生成式人工智能(AIGC)在C端和B端市场呈现出两类路径,其中C端已经达到可用、甚至好用的临界点,B端将从高价值先导领域向MaaS生态扩展。
C端市场已经达到可用的临界点
C端应用包括效率工具的下一代产品、游戏未来的新形态和制作新方式,以及为数字人、元宇宙、机器人等交叉领域带来新空间。此外,AIGC还带来了内容创作领域的大爆发。
B端市场,从高价值先导领域向MaaS生态扩展。
1、生成式AI从效率角度切入,提升写作和生产力。
例如,会议、招聘、各类办公助手(文档助手、编程助手)等应用场景。
2、生成式AI在高价值领域如营销、金融育等领域率先切入
以营销为例,AIGC技术可以大幅降低创意成本、大量生成广告素材和文案。Jasper作为市场上最为火爆的广告、营销图文生成产品,在截至2022年12月底时,付费用户达到7万,2022年年收入7500万美元,估值已达15亿美元。
在金融领域中,AIGC应用探索方向集中在智能客服、智能投顾、商户入网、欺诈检测、智能营销等领域。然而,在算法风险、隐私保护、信息安全等方面仍然面临较大的挑战。
3、知识密集型领域蕴含着生成式AI应用的巨大潜力
在医疗领域,GPT-4作为一种医学AI聊天机器人,在医学领域的潜在应用方式主要包括医疗记录、医学知识和医疗咨询,可以帮助医护人员提升工作效率和患者问诊体验。但它也存在局限性,并可能带来系列潜在风险。
在教育领域的应用已较为成熟。以Duolingo为例,他们利用GPT-4推出了新产品“Duolingo MAX”学习平台,提供了“解释答案”和“角色扮演”两项全新的AI功能。
在这些领域中,AIGC技术不断拓展应用场景,为各行各业带来了前所未有的效率提升和创新机遇。但我们也应当关注到其中的挑战与风险,确保技术在发挥潜能的同时,也能保障用户的利益和安全。
除了千行百业的多模态应用,在B端市场,如下图所示的模型层中AIGC技术业在逐渐围绕头部几家大模型形成的MaaS生态发展。
畅想未来,生成式人工智能将进一步与生产、生活深度融合。而大模型带来的变革才刚刚开始。也特别欢迎大家联系我们,一起探讨大模型在行业应用主战场落地的机会和挑战。
企业级RPA+大模型的AutoGPT方式可能颠覆现有的软件模式
产业层面,企业级RPA(Robotic Process Automation)结合大模型的方式将在更多行业实现落地(譬如金融、零售、政府、制造、物流、地产、教育等),并财务,HR,客服等应用场景展现极为出色的能力,从而实现更高效的工作流程和业务处理。譬如说AutoGPT已昭示Prompt 工程的下一个前沿,即便是非科班出身的小白,借助 AutoGPT不到 3 分钟就能成功建立一个网站,完成一份详实的市场调研也可以在弹指间轻松实现。
组织变革和个人自雇等兴起,将带来应用软件的全新革命
当一个人就能成为一支团队,这将有可能诞生具有To C体验的B端现象级产品。在产业变革的加速驱动下,未来在组织层面业将发生深刻变革,个人和小团队模式可能成为重要形态,引发To B和To C软件的边界进一步模糊……
当然这还只是我们的初步的思考,生成式AI技术影响下的未来势必继续颠覆我们的认知、持续突破想象的边界,带来生产力的新革命。无论如何,未来已呼啸而至。
来源:腾讯研究院
发布人:暖色
声明:该文观点仅代表作者本人,不代表火讯财经立场。火讯财经系信息发布平台,仅提供信息存储空间服务。
如文章涉及侵权, 请及时致函告之,本站将第⼀时间删除⽂章。邮箱:840034348@qq.com