大模型,冷静!

转载
483 天前
8887
AIcore

文章转载来源:AIcore

文|《中国企业家》记者 赵东山

编辑|李薇

图片来源:由无界 AI‌ 生成

大模型创业狂飙200多天后,中国探索者们的心态,从理想亢奋来到现实落地。

在此之前,AI大模型的创业在其公司本身之外,还被赋予了民族情绪、时代风口等更多的意义——面对通用大模型ChatGPT的横空出世,中国创业者们壮志未酬很快达成共识:如何打造一个中国版的OpenAI和ChatGPT。

毫无疑问,ChatGPT是今年的世界顶流。因为它,OpenAI网站的流量在4月份就超过了18亿,进入了全球流量排名前20。然而,网络分析公司Similarweb公布的数据显示,在狂飙半年后,ChatGPT的访问量首次出现负增长,6月份的访问量环比下滑9.7%

ChatGPT流量骤降引发全球科技界对AI产业泡沫化风险的担忧和讨论,《经济学人》杂志甚至做出“越大越好的AI之路快行不通了”的论断。而成为“中国版ChatGPT”的想法,也在和中国创业圈渐行渐远。

金沙江创始合伙人朱啸虎在朋友圈写道:“不要迷信通用大模型,因为明年GPT-3.5就成commodity(通用基础设施),而三年后,GPT-4也会是。对于大部分创业者,场景优先,数据为王!”

从业者们心态变化的同时,大模型创业市场已经开始出现分野

中国的大模型企业们已经不再执着于“成为中国的OpenAI”这种理想化目标,也不再痴迷于对参数模型和算力的追求,他们有了更务实的答案,也更注重其对实际产业场景中的问题解决。

AI大模型的竞逐迎来了新的赛道节点。


集体务实


今年年初,携程创始人、董事局主席梁建章开始接触ChatGPT。近些年,他以人口学家的身份活跃在学界和企业界,不过他也曾是中国最早和最小的程序员,也差点成为人工智能方向的博士。

13岁时梁建章设计了一个写格律诗的程序获得全国大奖,15岁考入复旦大学少年班,毕业后赴美国留学并在21岁获得乔治亚理工学院电脑系硕士学位。22岁那年正在攻读博士的梁建章,突然意识到理论知识的局限性,选择放弃读博入职美国甲骨文。

ChatGPT的出现,让梁建章庆幸自己当年没有继续念人工智能博士,因为“所有的这些自然语言处理的算法,都一下被它(ChatGPT)全部打败了”。他回忆,刚开始接触ChatGPT的时候,“非常非常震惊”,第二个感觉是谦卑,“我们最后做出来最智能的算法,竟然是跟人脑的生物构造那么的接近”。

梁建章开始思考AI大模型与携程业务的结合点。

在梁建章看来,智能社会背景下,旅游业作为“难以自动化的精神需求行业”,其需求会随着整体社会富裕程度的提升而增多,在经济中的占比也会扩大。他将目光锁定在旅游行业的垂直大模型上。

过去半年,来自携程各个业务的成员组成携程大模型技术团队。在大模型研发初期,携程根据大模型的战略要求进行了组织架构调整,并形成了包括通用技术团队、内容策略团队、榜单团队等不同部门,根据大模型产品的不断升级迭代对技术团队进行适配。

梁建章表示,携程会不遗余力地为大模型投入,“长远对我们的客户或者是商户有价值的,我们就应该非常坚定地投资下去。这个(大模型)非常新,技术团队不断优化他们的投资数额,但是我们不设限。”

携程在7月中旬正式发布了旅游行业垂直大模型问道。问道筛选了200亿非结构性旅游数据,结合携程现有的结构性实时数据,以及携程历史训练的机器人和搜索算法,进行了自研垂直模型的训练,“同时,我们投入了巨大人力对旅行通用回复内容进行生成和校验。”梁建章强调。

来源:受访者

在问道发布前,携程已经进行内测,客服人员王芸明显感觉自己的工作发生了很大的变化。以前,她一天要接150多个电话,为客人解答售后订单取消、行李丢失等问题;如今,王芸转型成行前推荐客服,从幕后走进直播间,为网友提供旅行前需要准备的服务和建议。

在梁建章看来,通用大模型的基础上,解决旅游行业准确率的问题依然是关键:“旅游是个重消费的行业,即使规划节省了半小时,但推荐的酒店或者行程结果可能有5%的几率是错的。”因此,相较于ChatGPT那样的通用大模型,梁建章更看重垂直大模型的机会

虽然在参数上不及通用大模型,也没有通用大模型对算力等条件的苛刻要求,但垂直大模型对数据和场景提出了更高的要求。

问道大模型训练中最大的挑战是真实场景下,用户获取旅游信息过程中,多轮交互数据的搜集和清洗,数据量和数据准确性需要不断修正,特别是旅游行业变化巨大,三年前的目的地信息到现在有可能已经全部过时,特别是疫情对全球旅游业的影响更是加剧了数据的时效性。

和携程一样,越来越多的公司把大模型的赛道放到了垂直领域。

京东交出的言犀大模型答卷,也将产业大模型作为重要特征。在京东集团新CEO许冉看来,过去的人工智能技术发展,曾经数次临近应用爆发的边缘,但最终往往昙花一现,而技术没有在产业端形成扎实的应用是重要的原因之一

在7月7日华为盘古大模型3.0的发布会上,华为云CEO张平安更是直言,“盘古大模型没有时间作诗和聊天。参数再多、对话能力做得再好,但如果解决不了实际问题,也没有多大用处。”

腾讯至今还没有公布通用大模型混元的进展,但却高调公布了行业大模型路线,一口气抛出10大行业超过50个解决方案。腾讯副总裁、腾讯政企业务总裁李强同样表示:“通用大模型不是模型应用的唯一方向,面向垂直产业的模型会成为大模型价值的引爆点。”


心态转变


大模型创业者心态转变的一个显性的节点,是从王慧文被确诊抑郁症,其创办的光年之外被美团收购开始。大家突然意识到,即便是那个曾经众望所归、被寄予厚望的明星公司,也可能因为各种意外的出现而不得不停止

就在半年前,一夜之间其他风口似乎都消散了,只有大模型是C位。中国科技圈的创业者与投资人,纷纷飞往硅谷向OpenAI学习,张一鸣、马化腾、王兴,这些巨头的一号位或者决策中心人物,一夜间回到刚创业时的亢奋、好奇状态,深夜阅读论文、交流技术。

那时候,似乎每个中国大模型探索者思考问题的角度都是带着家国情怀的。面对ChatGPT的快速迭代,中国创业者们给自己设定的目标都是如何在多少时间内实现反超。

李彦宏称,“百度文心一言在研发阶段时,百度技术团队曾与ChatGPT进行对比测试,当时差距是40分的水平,一个月能追得上”;王小川也表示,将在年底做出中国最好的大语言模型。

来源:视觉中国

360创始人周鸿祎在此前接受《中国企业家》的采访时说道,大模型已不是商业竞争的维度了,如果中文互联网的封闭性和移动互联网导致的APP之间的数据孤岛问题未能解决,很可能导致人工智能引擎训练的局限性,进而可能导致中美之间新一轮AI革命的代际差距。

关于为什么没有在中国诞生OpenAI这样的公司,中国的企业家们甚至在当时开始反思,过往国内的人工智能探索过于实用主义了,一切以KPI为导向,以至于大家根本没有那样的投入决心和耐心,而因此错过了这样的重要节点。

激情之下,在百度文心一言打响第一枪之后,超过80个AI大模型在半年内涌现,仅在上海举办的2023世界人工智能大会上就出现了30多个大模型,用“百模大战”来形容当下大模型的火热一点也不夸张。

但我们真的需要这么多大模型吗?我们到底需要什么样的大模型?

事实上,李彦宏很早便提出,“创业公司重新做一个ChatGPT其实没有多大意义。我觉得基于这种大语言模型开发应用机会很大,没有必要再重新发明一遍轮子,有了轮子之后,做汽车、飞机,价值可能比轮子大多了。”

京东集团技术副总裁何晓冬同样从一开始意识到,“大模型要有价值的话,得落在产业上,而且最好是产业价值大的领域,这样才能真正成为一个长期可持续的事儿,否则就可能会成为昙花一现的东西。”


新的变量


就在国内创业者们苦苦为AI大模型探索时,扎克伯格的一记大招给这个本就瞬息万变的领域带来了新的变量。

北京时间7月19日凌晨,Meta发布了开源大模型Llama 2,再次引爆了AI圈:Llama 2不仅性能不输GPT-3,而且免费、开源,还可商用。Llama 2是Meta今年3月初发布的Llama模型的后续版本。

随后的微软Inspire合作伙伴大会上,微软CEO萨提亚·纳德拉宣布了Meta与微软合作的消息,这项合作让Llama 2可以运行在微软的云服务Microsoft Azure上。与此同时,亚马逊AWS云也加入与Meta的合作中。

Llama 2对大模型创业者的意义在于,就像安卓系统之于APP开发一样,开发者不用重复造轮子了,直接用最低的成本获得大模型的基础设施使用,从而可以更加聚焦自身的产业场景。

这在某种程度上也意味着,对于大多数创业者而言,选择聚焦产业垂直应用被证实确实是一条更具实用价值的道路。

不过,不同于通用大模型,产业大模型对行业参与者也提出了不同的门槛和要求:一方面,产业大模型要求开发者具备一定技术积累和实力;另一方面,产业大模型也要求操盘者具备丰富的产业应用实践场景。

梁建章告诉《中国企业家》:“通用大模型最重要的指标可能是,多少的参数或者是用多少的GPU等等,但垂直大模型,大语言模型只是其中的一个组成部分,它还有和其他数据的结合,包括人工的校验等等,这些是更重要的。最终指向是不是可以把客户的这些提问、问答来检验效率提升了多少,准确性、可靠性提升了多少。”

“旅游最大问题就是可靠性,这确实比AI作诗、写文章、写小说可能更复杂,也是一项长期的工作,凡是可以把这个提升到80%、90%,95%,甚至99%的事情,都是值得有必要做的。”梁建章最后表示。