AI硬核思辨:AI原生应用,在中国为什么卷不动?

转载
298 天前
8598
硅星人

文章转载来源:硅星人

原文来源:硅星人

图片来源:由无界 AI生成

1月6日,“知乎AI先行者沙龙”就热点话题开启两场圆桌对谈,由硅星人/品玩CEO骆轶航对话众多AI专家。

对话主题:“AI落地进行时,让创新真正触手可及”

参与嘉宾:兔展智能董应赛、网易伏羲游戏李乐、WPS AI汪大炜、WeShop吴海波。

主持人:硅星人/品玩CEO骆轶航

以下是对话内容实录:

中国的AI原生应用发展这么慢的原因是什么?

骆轶航:感谢大家,刚才听了行远和博杰两位老师讲得非常好玩,行远其实每个东西做得看上去都跟大语言模型没有关系,其实这几年脉络是下来的,你无聊问答的那个东西做早了,你晚四年到五年做那可能就是完全不同的一个场景,其实我觉得特别有意思,他坚持一个路径能做一些非常有意思的事。

博杰老师特别有意思,昨天我们几个朋友在一起讨论过这个问题,博杰老师把AI分成了有用和有趣两类,我们问你为什么不把智能、可感知、可推理甚至做一些最重要的生成当作一个划分呢?他说这是一个基础、一个标准没有这个我们谈什么?我们是在这个基础之上才去谈有趣和有用这两类。

我还是做一个简单的调研,现在在场的同学们有多少人以为自己用过AI Agents?有多少人用过有用的Agent?说白了帮你法律顾问、财务顾问、文档顾问?有多少人用过有趣的Agent,陪聊之类的,我特别担心大家不用有趣的Agent。

我进门的时候做那个测试,你向左还是向右,向左是愿意接受AI的陪伴,向右是不愿意,我义无反顾地选择了向左,作为一个i人,我觉得不是一个E人,我觉得如果可以不跟人沟通,用AI陪伴我觉得也还蛮好的。其实我觉得AI陪伴有用的维度我可能有一个观点跟博杰老师不太一样,跟这个阶段不太一样。但是博杰老师是在做事,我是在扯淡,这是差别。

如果我们真的相信成本未来能够降下来的话,有趣一端能够创造更大的价值,因为这个世界大部分是有用的,他们也不会做很多的事情,这是一个很有意思的事,我们今天就落地去聊一聊AI的应用、AI的应用能够产生,我们怎么能够尽快地去落地,我们先上来给每个人拍一个砖,问每个人一个问题。

过去也一年一些大佬拼命地去跟大家去讲,我们不要再去开发那么多模型了,“百模大战”东西太多了,赶紧开发应用吧。但过去的一年事实上至少在国内并没有出现真正的所谓的native AI APP的大繁荣,一部分人还在卷模型,普通人对AI应用很多时候可能无感,可能少部分的AI应用,最近这一两个月可能会有爬坡。我相信现在有的人可能注意到豆包现在投放量蛮大,有人人还用到了豆包、还用到了星野,海外用户可能大家都用Character AI、包括用派、用AI等等,但是其实整个应用在国内没有得到一个大的繁荣,很多平台也都推出了自己的工具包,希望开发者去开发应用,好像也没有那么多,原因是什么?是模型不行?还是什么原因?大家的观察,我相信各位都在做,有基于国内的基础模型去做的,也有基于海外的模型去做的,大家能不能直言不讳地讲讲这个原因。

“底层模型做开发还是有差距,是需要承认的”

董应赛:原来经过这几轮技术的更迭,大家可能会通常有一个认识,觉得可能在中国移动互联网,可能会更繁荣一点,就是做应用这个事在中国更有热情,大家更愿意去做,而且用户基础也在这里,觉得中国通常都会对做这件事情,或者说回到这个问题上开发AI APP的热情以为会比美国更多一点,我觉得这一次通用人工智能最重要的还是基础的技术是不是做得很扎实,这个应用的效果才能做得好。

我自己的体会是因为我原来在Mate、在Facebook工作过几年,我一直跟我美国的朋友有交流,其实是会发现国外它有一个跟中国最大的一个不同就是大家的人才密度其实还是更高、更集中一点。比如说真的是OpenAI、Google等三家人才密度是非常高的,在资源、资金、算力,人才投入在相对集中的公司里面,做出来的模型确实是很好的。比如说大家都在说是不是做了接近于GPT4的能力了,刚才前一场沙龙的交流过程中听到几位专家的说法其实也比较有自信会觉得可能差距没有那么大,但是我们自己的体验在应用端,要基于这些底层的模型来做一些开发的时候,还是会觉得是有差距,是要去承认的。而且在国内事实的情况是比较分散。

骆轶航:模型太多了是吧?

董应赛:模型太多的,人才不够集中,僧多粥少,哪怕在国外、在美国做这些AI研究的公司中华人占比不低,国内大家如果更集中一点这个事情是能做得比现在更好的,大厂也想做,也涌现了很多创业公司,资金也会比较分散,可能后面我们再聊一些投资都有问题。

回到根本的问题上,可能还是底层的模型,至少我们现在感觉还是有一些差距的。所以在这次AI这个浪潮里面跟之前的不同,比如说移动互联网里面,无论是抖音还是做社交平台,更依赖于底层的技术是不是成熟才能把一个应用给做好,我觉得这个是我想来分享的。

“技术永远没有做到最好的时候,但是我们却可以在目前的技术条件下做出很好的产品”

李乐:我的想法可能会相反。我举个例子,当然这个是游戏里面的例子,我昨晚也说过,2018年的时候,我就把一个SQL TO SQL的模型放到游戏里面去,那个能力大家能感知到的,可能连个小学生的作文都写不清楚,我们就很好地选择了一个游戏里面的养育系统这样一个场景,就是现在游戏里面玩家生出来的那个小孩,把对话AI加到小孩上面去,小孩的父母亲就是那些玩家可以跟小孩进行聊天。即使在这样的2018年年底那样一个技术水平下都有非常多的玩家跟他去进行聊天,所以从我的角度来说,我觉得对做产品的人来说,我觉得有更高的一个挑战,就是我们要在现有的基础情况下根据我们业务的场景去想我们应该去做什么样的一个应用,所以我觉得我们做产品的人应该要有更多的思考和主观能动性在里面,所以这个应用的市场才能做得更好一点,所以这是我的一个看法。

另外一个,当然我觉得不要把它变成一个吐槽性质的东西,我们国内的模型跟海外有多大的一个差距,我们看到从现在这个时间点来看,大家已经比去年上半年的时候信心足了很多了,而且还在快速地研发的过程之中,各种性能也在不停地提升。但这里面会涉及到很多的问题,我觉得因为国内还是会做得慢一些,特别是很多高质量的开源的模型拿出来给市场的也慢一些。

从我的角度来说,我了解到很多的公司也看到了市场上面一些好的例子以后,他们也有所触动,也在做相关的一个东西,我觉得站在游戏行业这个角度来说,可能在今年年中左右会有更多更好的应用出来,它可能是一个时间窗口的问题。

当然,我觉得还有一个问题就是目前来看AI还是很贵的,就是你的研发很贵,你的线上推理很贵,特别是在我们游戏的场景。我们的QPS是非常大的,游戏方承受的压力也很大,大家游戏要做差异化,他们真的就是咬着牙跟我们一起做创新,我们也希望这一块算力的成本,不论是我们训练的成本还是我们在线推理的成本,都能够尽快去降低。

骆轶航:我特希望我们的嘉宾在台上这么能够打起来,提供截然不同的看法,模型确实还是有问题,人才我承认,如果全球有一百人能做的,人家三家加起来占80个你确实很难受,即便这样的情况下模型还是有进步的空间,做产品的人怎么能够更快地具备AI的思维,我们那会儿老提互联网思维、移动互联网,但是做产品要有AI的思维,用好自然语言,打开他的想象力去做一些事,昨天李乐老师秀了一个demo我就非常开心。接下来让汪大炜聊一聊,你们可以不讲你们怎么进入的,你们可以讲一点感受。

“需要更多的工作来让模型与用户需求匹配起来,用户也在不断学习如何更好地使用AI应用”

汪大炜:我讲一下从去年到今年一共发生了什么事情,这个可以去解答为什么,某一部分可以解答中国为什么做应用的人比较少,我们很早就做AI了,我们2017年就开始做AI相关的事情,但那时候CV、语音这种场景的,还有翻译校对,去年12月我们就关注到GPT的事情,关注到这个事情到底能不能做?真正启动大概是2023年2月份,当时整个公司开了一个会,核心的骨干都在一起说这个事情,我们判断这个事情可能会颠覆未来办公的方式,大家一定要投入到这个里面,当时我们内部两千多号研发,所有人如果你今天不去聊天AI的事情,可能你就会逐步逐步被淘汰那种感觉就会很明显。

在那个时候我们就开始找包括国内的、海外的模型的服务商,因为其实我们其实本质上不太做大模型,我们更多的还是用户场景里面找到用户的场景,去给用户提供这样的服务,所以我们找这样的合作方说哪些服务是合作方可以给我们一起共创、一起支持。海外的包括谷歌的、OpenAI我们也找了,国内的大家也看过包括 Mini Max这些、百度我们都有相关的一些合作,然后我们就开始做两件事情,第一件事情是看用户的场景里面有哪些是可以AI化去改造的,因为我们觉得AI化改造之后是能给用户带来很强的或者很大的效率上的提升,那我就去找一些事情,包括当时我们还去找了一些翻译的专门做出版社的翻译的老师,包括去做一些用语言的事情,找哪些产品可以做到。然后我们就发现了6月份发布会我们说了几个方向,比如说AIGC的方向、Copilot的方向和那个 inside方向,我们在做这件事情的时候,跟这些模型就开始说我们接进来,接进来我们调,看怎么样可以接到这个场景里去,那个时候整个行业里面的应用都是像对话式的交互方式的,我右侧一个对话面板跟它说一个我的需求,它帮我做完,基本上是这样子,我们朝着这个方向去努力,模型方我的需求是这样的,办公场景你给我做一些什么样的适配,生成的大纲你给我做格式的标签,大模型里面没有语料和训练,要把这些训练项目加进去一起去训练,让它带格式的属性标签出来,方便我后面做数据的操作,那个过程中6月份我们开了一个发布会告诉大家有这个事情可以做内测的时候,当时我们的感觉是模型叫勉勉强强可以用,可以放进来,这个完整的链路看上去可以完完整整地去使用,大概是这种感受。

我们去内测过程中就发现了一些问题,用户在真正的办公使用场景里面它的任务是一个复杂的任务,不是一个简单的单一任务,当我以一个指令的方式,以一两句话,或者几句话去让他做这件事情的时候,他没有办法把这件事情一步一步猜出来,而且这个上面每一个人的想法、每个人需要改的地方都不一样,我们上了一个月的内测,我们今天的产品在今天的WPS里面是有问题的,我们后续不断地去做修改。大家可以看到最早一些用户右侧浏览这种方式很舒服,实际使用过程中我生成一个PPT难道里面的大纲内容不改呢?肯定要改,AI生成的内容跟你想要的内容是不是符合的,没有办法一步到位,你一定会去改这个东西、一定会去调整,一定会去加进自己的东西,一定会往后走,我们把AI整体的能力打散,放到用户功能流程里面每一个部分加持它,这样的情况下你会感觉变得聪明,整个过程中模型也会不断地迭代,真正到年底我们真正发公测的时候,这个模型是超过我们想象中的进步的。虽然跟OpenAI还是有一定的差距,跟3.5还是有一定的差距,但是你觉得我可以用这个,我们用户用他使用的数据告诉我,他已经真正地在用这件事情,有一部分已经用到了他的整个生产环节里面去,或者工作环节里面去,这个是我们看到觉得未来一个比较好的方向,在未来可能1年多的时间里面我们认为还是这样的方向在整个产品或应用层面的一个表现。

回到这个话题里面来说,我觉得今天的国内的基础模型不是不能用,也不是说很烂、很糟糕,其实他们已经在有些场景下、有些应用的方向上有个很好的基础在上面,只是我们真正地到了用户的使用过程当中,我们真的需要做很多的事情,让用户的需求跟我模型的匹配能做起来。同时我们也看到用户也在学习,这是一个很关键的因素,我们6月份之前,我们看到用户其实在整个使用过程当中问问题,跟现在问问题的质量真的会有差别。所以我觉得这两个因素会慢慢逐步逐步地去改变大家去做AI的应用的部分的能力。

骆轶航:大炜你刚才讲这些东西都可以写个文章了,上半场我们聊TPF,TPF怎么去实现,俊旸讲的吧,铁震和俊旸两个人讲的,TPF这个事是试错试出来的,这个就是典型的TPF的过程,没有人告诉你答案,这个就是典型的TPF的过程,这个TPF的过程不仅是产品团队自己的P怎么去适应这个不可知的T,其实用户也参与进来了,我觉得这个过程实际上是一个特别特别有意思的过程,尽管这个东西跟一开始你们想的不一样,这个探索还是有价值的,我也知道你们4月份的时候,我就跟庆元总去聊过,当时的想法很美妙、很乐观,一年扑腾下来很多东西什么是能实现的,什么是不能实现的,大家有更清晰的认知,他这个特别好,但是肯定要花时间。

“现在的应用更容易被吃掉 动手才知道基础模型的边界在哪里”

吴海波:我们是最近一年AI应用中商业化走得比较顺的。我觉得这个问题可以拆成两个问题相对讨论。第一个问题是native的AI APP是什么东西?

骆轶航:有这个东西吗?这个事存在吗?现在每年没有共识的概念。

吴海波:刚才这个问题的讨论是说这个APP的生态没有起来,这一拨跟上一拨有个巨大的区别,比如说以WeShop举例,我做一个电商行业的商拍,就是把商家都是要上架到线上,需要一个商品,让AI可以做一个更有效率的事情,所有人都会问一个问题,淘宝做了怎么办?抖音做了怎么办?拼多多做了怎么办?那么你在中国这个环境下避免不了地要去讨论这个问题,你做native AI APP的生态的繁荣是不可能几个大厂在那里搞几个APP出来,一定是靠千千万万的开发者冲进来,这个问题不只是有中国出来,我记得11月份的OpenAI开发布会,Twitter上有一个大V发了一篇推,OpenAI给我发了500美金的优惠券拿走了我500万美金是指的公司,大概是这个意思。我觉得中国我们以前的环境中大厂对我们的拷贝是另一个维度的东西,今天有一个维度的东西,我特别喜欢我们刚才讨论的是基础模型,公司用得比较多的是SD,SD不算大模型,单机就可以跑起来,它确实是foundation model,这个东西它在不停地吃掉一些应用层面的东西,它天然就能做应用,所以这个时候native APP没有火起来我觉得有很多很多开发者他是有顾虑的,他觉得自己一轮下来一个创新的点子有可能再过半年、一年东西没有了,场景不存在了,给另一个公司直接就吃掉了,所以这个问题不止国内,全球都有这个问题。

骆轶航:叫This model is eating native APP。

吴海波:今天如果要做应用,绕不开什么是native APP,这个东西我肯定是没有共识答案给你,但我脑子里可能有一些什么不是,大概是这个意思。

关于中国的基础模型,我觉得现在是非常make sense可以理解,整个基础模型是要去争一些东西,这么多大厂他们有资源,相关有资源的人肯定要投入到这个事情上拿到一个票,现在我们国家,至少国内最好的技术、最好的资源都在做这件事情,make sense,从年初到现在看到他们的测试,我们按我们自己的场景去测,它持续进步是很快的,只是对应用的来讲,这个东西一定会成为应用行业的β,整个行业的β就像移动互联网,整个移动互联网的β不停变好的时候所有人受益,我做应用的要思考的点是我是不是α,如果我不是α,我做的事情是给β那我就完蛋了,所以我们核心是想什么是α、什么是β?但是讲了这么多好像没有什么结论,我想说的点跟前面两位嘉宾是类似的,你要动手,你动了手你才知道foundation model的边界在哪里,你才知道你的客户是怎么给你反馈的,你坐在这里思考非常哲学的问题,因为这些东西我们做应用很多做产品经理出身的人非常喜欢在哲学层面上去做很多这样的探讨、逻辑对应,可以讨论得非常形而上,但是落不了地的时候你没有感觉,一定要把自己的手弄脏才会有感觉、才会进来,我觉得这是一个非常关键的点。所以我是比较认同我们是一定要实践出真知的。

骆轶航:总结一下四位,应赛和海波客观地强调了现实、现状其实对应用造成的一些挑战,我觉得两位讲的第一个观点某种程度上我也是同意的,基础模型,基础模型的话,比如说它是GPT4,你是另外一个类似的东西,你是另外一套基础模型,其实如果你们之间有差异是会影响,这个东西其实某种意义上延缓或者阻遏了我们中国的这些产品经理的产品感和产品能力,某种程度上被这个东西所影响,其实现在应用更容易被吃掉,更容易被base model的某一部分能力吃掉,当然移动互联网早期也有这样的事情,但是我们发现这个东西更容易被吃掉,这是一个现实。

但是各位谈到另外一个话题也很重要,就是动手,第一个就是基础模型有差距,但它其实赶的速度蛮快,这个我不得不承认,过去一年,我们就不说小的开源模型了,大的模型我们说陪伴模型,我天天玩陪伴,它的进步我还是非常有感知的,文心一言的进步你是肉眼可见几个月一次进步的,智普跟百川同一个道理。

另外一个product market这个东西是靠动手试出来的,它不是靠大家想出来的,不动手就能有这个东西的,我觉得不是。

对话主题:“‘百模大战’之后,预见行业新生态”

对话嘉宾:零一万物黄文灏、通义千问林俊旸、HuggingFace王铁震、新浪微博张俊林,一同激辩行业生态。

主持人:硅星人/品玩CEO骆轶航

过去一年开源社区对大模型的发展真的有贡献么?

对话嘉宾:HuggingFace工程师王铁震、新浪微博新科技术研发负责人张俊林、零一万物Yi预训练负责黄文灏、通义千问开源负责人林俊旸

骆轶航:特别荣幸今天能够来主持知乎AI先行者沙龙,刚才听了汪玉教授和张拳石教授两场分享,聊得我心情有点沉重,这个挺正常的,每次我参加活动的心态都是这样的,带着特别乐观的情绪来,自己本身也是大模型的乐观主义者,每次聊着聊着就会发现其实困惑很多、挑战很多,办法是不是比挑战多其实并不知道。其实这两场聊下来,汪玉教授其实更多的是从算力、硬件、成本的角度去思考这个问题,有很多问题我们今天看到问题摆在这儿是不是有解我们不知道。

神经网络能够在多大程度上解决大模型的真正存在的幻觉问题、准确性问题、拟合如何去做?这个也是我们每天都在探讨的问题。我们今天要聊“百模大战”遇见行业新生态,“百模大战”本身这个事情我们应该怎么来看?这是一个好事还是一个有疑问的事?我觉得这个事实本身就是有待讨论的。“遇见行业新生态”,现在的行业一年下来了有没有新生态?这个生态新不新?还是说我们跟去年一样还在一个旧生态里面,本身也很有意思。

在座的四位其实我仔细看了看,张俊林其实观察的角色更多一点,我本身我的工作是信息跟资源的二道贩子,内容、社区、媒体,科技类的新媒体和社区本身就是二道贩子,其实我更是一个观察者。中间三位仔细一看就很不幸,基本都在搞开源,我不是说搞开源很不幸,我就是说

其实过去一年非常有意思,包括我们在中国讨论“百模大战”的时候,其实我觉得某种程度上来说,我们很大程度上是在一个开源社区,或者在一个开源工程的环境里去讨论。

国内任何一个做大模型的公司,包括头部的巨头其实也都至少号称自己是开源社区的贡献者,基本上是这样一个情况。但是过去一年其实我们看到的一个状况其实是一些全球的头部的闭源的大语言模型吸引了人们最多的眼球,事实上创造了最多的使用量和用户量,以及产品化的进度是非常快的。

开源领域,我们看到了那么多大语言模型,也有很多使用量和下载量,其实舆论作为一个新生态它是不是真的存在?或者说它本身真正地对大语言模型快速地落地和产品化到底有多大的贡献?其实有的时候我还是蛮怀疑的。包括6月底7月初LLaMA 2发布,国内也有一些人基于LLaMA 2做一些成果,全球也有很多人用它在做,好像现在也出现了一些瓶颈、也出现了一些问题。所以第一个问题我还是想先请教各位,大家怎么看过去一年全球也好、中国也好,整个基于开源的这个生态,除了LLaMA这个东西之外,我们看到有哪些真正对整个大语言模型向前发展有重要意义的突破?还是说开源搞了一年,事实上对于大语言模型的落地和发展来说是在自嗨了?

“少量的高质量的数据对于训练一个模型是非常重要的,闭源反而推动了开源本身再去做一些新的突破和尝试”

张俊林:我特别支持开源这个形态。我认为从去年年初到现在,开源对于我们对大模型的认知、了解,包括对整个生态落地的繁荣,有很大的促进作用。我们首先说对大模型的认知,对我来说,我印象最深的过去一年有两个进展,我讲一下我的看法。

第一个看法,我们叫大语言模型分两个阶段,预训练、加一个post training,SFT,instruction tuning,就是让大模型更能理解命令。经过一年的研究我们认为第一阶段的结论没有大的变化,还是推大模型、增加数据规模质量,这个没有大的变化。

怎么把第二阶段做好我认为基本摸透了。基于开源得出的大方向,用更少、更高质量的数据,大模型就能更好地理解你的命令。这意味着说对于我们来说,真正有能力去做的企业全球范围很少,对于我们没有能力去做的其实可以把精力花在这一部分,怎么能做得更好。

骆轶航:俊林老师,我能不能这么理解,其实对于很多训练者来说,数据本身比模型重要?

张俊林:我觉得现在可以下这个结论。包括基座其实也是这样的,数据质量比数量重要得多。

第二个我印象最深的,就是过去一年的进展,我感触最深的一直从大模型出现开始,我一直问自己这样一个问题,我们能不能做小模型?我现在比较主观地判断,我们应该去做这件事,我相信2024年大概率会推出这种小模型,它的效果已经非常好。

骆轶航:现在已经有了。

张俊林:现在已经有了,比如微软,包括Mistral ,效果其实不差。过去一年开源这件事的贡献是什么呢?我认为有两个:一是证明它是可行的,二是它指出了路径。从数据质量来说,我可以把模型规模推得很小,但是我要用更多的高质量的数据,这个量也不用特别大,我还可以保证这个小模型效果还是不错的。当然现在目前这个阶段小模型的水准跟GPT4肯定还是没法比,但是我们如果把大模型能力拆借一下,你会发现将来我们做小模型是非常乐观的。如果把大模型拆一下,可以把大模型三种能力理解得特别重要,第一种是语言能力,小模型哪怕你再小,1B的、2B的没有问题,和大模型比、和自动驾驶这个等级比没有任何问题,语言模型小模型没有任何问题,已经追上了。

知识获取能力原则上应该是模型越大越好。如果说小模型再加外挂知识库,其实它的知识能力不一定比大模型差。

小模型缺陷在推理能力。未来一年如果我们有办法能够打破这个障碍,把小模型的推理能力提上去,在2024年应该能看到小规模的模型的效果可能不一定比闭源的大模型差,这两点是我最近一年体会最深的两个点。

骆轶航:简单总结一下,一个是少量的高质量的数据对于训练一个模型的重要性,哪怕你对于大部分没有能力,没有办法从基座去做的。第二个小语言模型的普适性,尤其是小语言模型在推理能力方面如何能够实现,至少在某些方面,或者某一个维度、某一个领域和大模型不相上下的一个效果。

“开源提供了多样性,有更多的选择”

王铁震:开源提供了多样性,有更多的选择。模型的效果来看,闭源模型是一定比开源模型好的。如果闭源模型它是收费的,它要向用户收费,它还没有一个外面大家随便就能在HuggingFace上下载的免费模型好,那这个闭源公司它也运作不下去的,而且开源模型不管我们在这儿做什么样的创新,它是开源的,它的东西是发paper大家都知道,闭源这些公司它可以去吸取里面好的地方用在它的模型里面,但是闭源模型它用的什么技术,开源这边可能不知道的,如果他不写paper。

骆轶航:他们现在基本都不发paper了。

ChatGPT出来之后,对行业来讲是一个好的事情。行业AI这些年都是开源推动的。直到GPT3出现,大家说我花了几百万、几千万去训练一个模型,我为什么要把它开源?除了我们圈子以外的人,对文本模型没有那么多关注的,其实大家是不愿意去开源,那个时候开源我感觉都有点停滞了,我甚至都有点担心。

GPT4一出来之后大家就更担心了,对话模型比以前的文本模型做的能力更强,对话的模型又出来,感觉里面有很多黑科技我们都不知道,我感觉过去一年,年初的时候开源还是比较沮丧的这么一个状态,但是经过这一年的发展,我感觉开源这个活力又回来了,大家又开始愿意去开源很多模型,愿意去把自己的知识贡献出来。大家形成合力了,每个人可以去探索不同的方向,有的人可以做预训练、去调数据,有的人可以做微调,甚至把模型做小,做在不同的硬件上面,你提供了比ChatGPT一个公司、OpenAI一个公司在这个领域进化快得多的一个能量,所以我觉得开源还是在这个领域做了非常多有价值的工作。

但你说单靠开源一个产品,它的技术能力肯定是跟闭源有差距的,它的产品肯定也是有差距的,毕竟开源就是一个网上大家能下载的东西,还是需要一个商业公司花很多模型之外的能力去把它变成一个非常好的产品,这都很正常,这两个其实是互相促进的,闭源打在前面,开源后面去追,大家一起去把这个领域去做得更深,让更多的人把这个技术用起来。

骆轶航:其实反而我刚才听到一个观点我觉得还蛮有意思的,反而是闭源的大模型这一两年,2022年底到2023年进展其实反而推动了开源本身再去做一些新的突破和尝试。

王铁震:因为开源一开始还是我们小圈子自嗨,闭源的公司真正让普通人了解到我们到底在做什么,然后让我们的工作变得更有意义。

骆轶航:HuggingFace是受益者毫无疑问是吗?

王铁震:对,没错。

“开源让大家的热情更高”

骆轶航:我们聊了HuggingFace这个受益者,我们看看通义千问,通义是开源人类历史上参数最大的一个开源模型对吗?我能这么说吗?

林俊旸:其实也不算,Falcon其实更大。

骆轶航:那其实我想聊聊,俊旸聊一聊开源的事吧,从过去一年有什么成就?从你们这个角度。

林俊旸:骆老师总是提非常敏感的问题,开源是否造成虚假繁荣这个现象,其实刚才铁震的回答我觉得他是想逼我放更强的模型到他们社区。

骆轶航:他就希望所有人都做雷锋嘛。

林俊旸:开闭源是一个选择,闭源模型比开源模型更强是不是成立,我其实是打问号的。我们今天在谈的是OpenAI和非OpenAI是这个差距。可能我有点暴论,我个人感觉像Gemini AI和Claude的话,我觉得还是非常有信心,单从语言模型来说,多模态就另说了。

骆轶航:你是说我们搞不了OpenAI,我们还超不过GeminiAI和Claude吗?是这个意思吗?

林俊旸:至少有戏,至少在很多场合里面还是有来有回的。

骆轶航:你指的是通义吗?

林俊旸:我不能拿我自己来说。我觉得好多模型都做得不错,可能是部分方面的,之前我们可能会有一些部分方面,甚至有一些是部分地超越GPT4,但是大家始终感觉跟GPT4的差距还是很大。大家看国内的模型,开源也好、闭源也好,其实不用3.5,用AI会更好,跟GPT4可能有一些差距。

上半年的时候,我觉得差距跟Claude还比较有差距,下半年我感觉差距在缩小。我跟做开源模型的国外的人去聊,像Upstage他们其实更加有信心,我在他们的讲座说我们跟OpenAI可能还有一年的差距。他说你说得不对,我也有很多OpenAI的朋友,我觉得就半年的差距,他非常有信心。

我们现在在做开源模型,说实话我是开闭源同行。刚才铁震说的我是认同的,有最强的货肯定得留着,我得活着赚钱呀。能把开源打出去,我肯定更有信心能更好一些。

开源对我来说帮助我们这个团队很大的一个点,上半年通义千问已经出来了,但是很少人在讨论通义千问,你能明显地感觉到,在那个时候大家会觉得说通义千问是一个搜索的模型,但是到了今年这一个时候,也许我有点大言不惭,但是我至少能跟大家坐到这个台上来发表我刚才的这个暴论,我觉得一定程度上我们这个团队还是成功了那么一点点。

我们其实在做闭源的时候,我们当时把问题看得太简单,因为如果你仔细分析,你可能就会得出结论说,大模型无非是几个问题,数据、算力、模型、参数,我们传统大厂一想就说这事我适合,那我就做呗,我做闭源肯定能把这些搞垮,这些创业公司不可能搞得过我们,但是到年初的时候你看到ChatGPT也好、百川也好,其实大家非常热闹地去做了很多东西。

我觉得开源是造福了全社会,让大家热情更高,能把更好的技术给弄出来。所以我们当时也尝试说我们开源出去会不会更好?我们开出去就发现了很多问题,用户会反馈说这个模型可以这样优化、哪方面优化,这些意见一回来我们知道原来我们自己的评测还不能覆盖好自己做的这个事情,我们能做更好的模型。我也看到有了这些基座模型之后,研究院们做了很优秀的工作,包括现在在年初的时候,大家看到OpenAI觉得非常羡慕,它能做RLHF,然后大家就去盲目地跟风RLHF,铁定是失败的,这个不用说,因为我们团队已经失败了8个月。

骆轶航:你们失败了8个月,发布通义之后就失败了?

林俊旸:我是说RLHF这项技术,因为你通过SAD的话,你一定能炼造一个对标ChatGPT的模型,无非就是强和弱的问题,但是你想让它更上一层楼,肯定得上RLHF嘛,但是你看RLHF的技术很多的,就包括DPO大家做得更细,大家发现说原来我可以很稳定地做很好。然后有些高手玩PPO玩得好的,他PPO他也能玩出花来,但是这个事情如果说闭源的公司自己内部去做我必须得承认一个事情,你得看你自己的人才密度有没有OpenAI这么高,你才能去谈这个闭源的问题。如果你认为你的团队人才密度足够高的话,你可以赌这一把,说实话跟学界的合作和学习让我们自己的进步非常大。我们自己的效果提升不是说我们自己强,而是说我们真的跟开源社区、跟学界大家发paper这些人学了很多的东西。

接下来如果我们作为开源的,一个是开更好的节奏模型让大家去用,我们还要做一件事情,让大家怎么用得更爽,学界的人完全可以跟我们有更多的合作,今天我非常感谢HuggingFace,如果没有HuggingFace的话,今天大家根本不可能用大模型用得这么爽的。

骆轶航:你不感谢你们自己的ModelScope吗?

林俊旸:ModelScope这是第二个问题,我待会儿。

骆轶航:我一直不确定你能不能代表ModelScope说话主要是?

林俊旸:我算是友情代言,我一定程度上我也能说,但是我们ModelScope跟HuggingFace的合作也非常多,待会儿我们连还可以互动在聊一下ModelScope的这个问题。

骆轶航:我建议这一次一定要把你们俩放在一起,就是想看这个。

有了这些事情之后,大模型已经越来越平民化,据我所知,中专的学生已经在学习大模型,普惠这件事情非常好,每个人都非常有创造力,大家都有创造力这个社区、这个行业才能发展得快,有了这个以后学界和业界真的能够发展得好,大家分清好自己的职责有好了。这是我的一些暴论。

骆轶航:简单总结一下这个暴论,第一个就是说开源模型做得好的话,我干不了ChatGPT,我还干不了Claude和Gemini AI吗?这是暴论一。

暴论二,其实大厂们,以阿里为代表之一的大厂们,其实不光厂,创业公司你刚才讲的我左手搞开源、右手怀里揣着一个更大的闭源,这个典型的还不是阿里,这个典型的分明是百川跟智谱,其实大家都在走这条路,这条路就是给自己留一条商业化的活路,同时把能开源的部分基本上能开源出去,繁荣社区、繁荣一个人同时让自己做得很好,这个是一个基本的路,大厂基本上都在干这个活。

“整个开源社区给应用生态创造了很大的价值”

骆轶航:从零一的角度来去看,本身我们也是开源社区的受益者,从这个角度到底有什么意义?对一个其实已经正经干活干了七八个月的大模型创业公司来说怎么看待这个问题?

黄文灏:我先说一下我对“百模大战”的看法,我觉得其实模型要分成两个部分,一个是 pre model,就是基础模型,后面都是 post train,就是 continue training,SFT都是属于后面的部分,其实前半部分真正做training基础模型从头用数据开始好好做训练的其实并没有特别多,过去一年大家都加一块可能十个?十几个模型吧,全球加在一块,大概也就这样一个量。

我们如果自己做过就知道train一个模型,不管再小,7B、13B可能也是几百万的钱。因为我们现在在train比较大的模型,就知道这个钱的开销是很恐怖,所以这个事情不是传统意义上的开源社区可以做的,而且很多开源是说大家合起来来自不同组织的人去train一个模型,这个事情在pre train阶段是很难做到的。

另外一部分是 post train,就是在SFT continue training我们有了以前出来的模型,比如说像LLaMA,英文有LLaMA,中文比如说通义,我们有些模型,这些模型在国外有很多的开发者基于我们的模型,他们花很少的成本,比如我说去准备几千条SFT数据,用LLaMA那种方式,我可能几美金、几千美金就可以用一个很好的模型,我不赞成他们应该被称作“百模大战”,做了一些SFT以后又可以叫一个新的名字,这个其实是繁荣了很多行业的开发者。

开源模型的应用,往下沉来看, ChatGPT它很大,它有几亿用户这样的量在里面,其实有很多应用它已经开始用开源模型做了,它只要能适应它的那个场景,就是到 technical product fit我可以把成本压下来,我可以自己去做scalation,我可以自己去做量化。在这种情况下,其实是有大量的比如说一个应用它有几万用户、几十万用户,但这样的用户应用的量其实是很大的。

再回到刚才骆老师的问题,我觉得也可以 Echo一下,之前我们也会有一些风波吧。

骆轶航:是你主动要谈的啊。

黄文灏:没关系,我觉得早晚还是要谈一下,刚才我记得汪老师的PPT里面有一句话,叫架构借鉴LLaMA,我可以简单说一下LLaMA的paper里面,关于Architecture 的部分其实就很短,大概四分之一页吧,它第一句话叫Rebased on GPT herb Transformer Architecture leveraged various improvements。第一个他用了pre-norm,这个是GPT3用的,它也注了。第二个是 swi-GLU,然后这个是palm用的,第三个是rotary,这个是 GPT near S5用的,只有这三个,其他都跟Transformer一样,但这三个也是大家普遍在用的,所以很多人说LLaMA的架构让国内的大模型训练有了希望,这一点我是不认同的。我觉得大家都知道,因为Transformer就长这样,它能变的地方很少,我们都试过了,大家就会训练出一些很不错的模型。

再回到开源的问题,我们在开源上的确做得非常地不到位,改了一些变量,我们也雇了开源的经理,开源的经理今天也来了现场,后面也跟开发者很频繁地互动,我觉得大家开源就以比较规范的方式开源,后面我们也发现我们改回了LLaMA架构以后突然变好了,很多国外的开发者就可以用了,基于我们的模型去做各种各样的尝试、微调,使更个开源社区会非常繁荣。我觉得我们的模型应该是在国外的开源社区里面用得最多的国内的模型,就是我们最后还是沿用了LLaMA这个标准架构,这一点也是一个很有意思的事情。

而且我刚才看大家越来越多开源的人都是这样去做,整个生态其是也是在越变越好。

骆轶航:我觉得文灏其实也释放了两个暴论,第一个暴论就是其实没有真正的“百模大战”、真正从基础端能够去train一个模型的,十模大战、二十模大战到头了在中国,其实不存在那个意义的“百模大战”。

第二个问题当时我听了之后我还是“嗯”了一下,其实就是说LLaMA架构的出现事实上繁荣了中国的基础模型的生态,这个事其实本身不是这个道理,跟大家看到的其实并不是完全一样的。

黄文灏:对,我觉得大部分做技术,真正训练模型的觉得LLaMA其实没有什么。