肖仰华:AI大模型,宣告人工智能步入“重工业时代”

转载
508 天前
9601
腾讯研究院

文章转载来源:腾讯研究院

作者:肖仰华,复旦大学计算机学院教授

图片来源:由无界 AI工具生成

本文节选自复旦大学肖仰华教授在闭门会上的发言整理:


大模型助力产业发展实现“端到端”的价值变现


很高兴参加本次论坛,给大家从产业发展角度分享关于我国大模型产业发展的一些思考。

首先来看一看,为什么要对大模型有高度的重视?可以说以ChatGPT为代表的这一波大模型的发展,其实只是整个通用人工智能到来的前哨,后续又产生了一系列的技术创新,比如Dalle-2、Midjourney等图文生成模型的发展,其生成结果有时已经可以做到以假乱真;PaLM和PaLM-2等具身多模态大模型的到来,也与机器人产业的未来发展密切相关。

自去年12月份以来,一系列对产业发展具有革命性、里程碑意义的技术创新,在短短三四个月内接二连三的到来。可以说这也宣告了通用人工智能时代的到来,未来必将掀起一番新的产业浪潮和革命。

我们认为,这一波AGI的革命是一场全新的“元革命”。大家知道历次的产业革命、技术革命,比如说电的发明、蒸汽机的发明,都是人类智能本身的产物,但唯独这次革命是一场关乎“智能”本身的革命——机器的智能有望接近甚至完全超越人类的智能。

关于智能本身的革命,绝不是传统意义上那些技术革命所能比拟的,所以它更像一场“元革命”,我们需要在战略上予以高度重视。这不单单是我个人的观点,最近国家政治局开会也形成了这样一种观点,整个AGI发展太快了,现在很多观点的刷新不能按年,要按月来算。有些报告是2个月前的内容,但是在当前飞速发展的环境下,有些观点可能已经过时。

大模型对于产业发展来讲有非常重要的意义,这涉及到我在很多场合提到过的现在数据的价值变现。发展“数智中国”、数字经济是我们国家非常重要的发展战略,所有地方政府都喊出发展数字经济的口号。对于数字经济,其中很重要的一环是数据的价值变现。我们以前做人工智能大数据,实际上变现的道路很曲折、很艰难、很重,很多投资界的朋友都在说以前投的大部分公司多年以来好像总是入不敷出。但是现在有了大模型之后迎来了一个新的机会,实现了一种“端到端”的价值变现。

大数据是不挑的,不管什么数据,大模型都可以“炼”一下,把数据“炼”成一个大模型,并通过大模型进行赋能。你会发现它并不需要太多人的干预,不像以前做大数据、人工智能,甲方既要出钱还要出人,还需要告知知识体系、商业逻辑等要素,这是一种非常重的变现方式。但是有了大模型、有了ChatGPT之后,通过大模型统一赋能来实现数据的价值变现的这条路径现在越来越清晰。尤其是随着AgentGPT和AutoGPT等技术出来之后,大模型和信息系统很多能力都可以串联在一起,共同解决商业场景中非常复杂的任务。因此可以说大模型能实现的“端到端”的变现方式给我们带来一场重大的机遇。

To C市场而言,大模型的意义在于有望重塑互联网的入口。ChatGPT在短短几个月已经拥有2亿的用户,现在ChatGPT背后的生态插件已经非常多样,也就是说我们可以不直接用微信跟朋友聊天,可以先跟ChatGPT聊一聊,比如要买什么电影票,打什么车,打开什么地图,订什么餐,这使它极有可能成为互联网的新入口。大家知道互联网产业入口的每一次变更都是一场革命,所以对To  C来讲是可以看得见的,新入口即将到来。

对于To B行业而言,大模型的第一个意义好比是引擎升级。比如我们造几百年车了,车就是一个壳子四个轮子,但几百年来我们从传统的蒸汽到油气到现在的电力,车的引擎在不断变化。我们以前整个人工智能、大数据的产品,比如信息系统、软件产品,用的都是小模型,现在我们可以换上大模型,这种引擎的升级换代是第一个意义。

第二,大模型有望成为To B行业中新的控制器。To B场景下企业内部有各种各样的信息系统,包括客户关系管理系统、企业资源管理系统、OA办公系统,还有数据库、知识库、行业文档库等。但是这些库以前都是分散的,我们上面接一个大模型之后,这个大模型有望成为一个控制器,它可以协同企业中、生态中的各种各样的信息系统,共同完成一个新的、更复杂的决策,完成更复杂的规划任务。

大模型有望成为控制器,把整个传统的信息系统串联到一起,从而真正意义上实现To B场景的复杂决策,而To B场景本质上就是要实现复杂决策的,所以大模型对To B行业来说有着非常重大的意义。


大模型宣告AI进入重工业时代


从整个大模型产业的关键因素来看,可以说以生成式语言模型为代表的通用人工智能发展,基本宣告了人工智能走上了一个重工业时代。以前整个人工智能是典型的手工作坊,每个部门有很多小的部门,每个部门做一个AI产品,这都是手工作坊式。现在有了大模型以后,基本上都是优先让道给大模型。很多企业都在这样做,把算力全部省出来给大模型用。

为什么说背后是这样一个逻辑?大模型是典型的“重工业”,重工业跟传统手工作坊有非常本质的不同,我们使用大模型赋能各个行业的关键,第一在于一个大模型本身能不能炼制好,第二是很多应用以及周边的生态能不能做好。大模型进入重工业时代之后有几个很重要的因素:

第一,大模型。所谓大模型有多大?大家应该有这样一个印象,我们以前在BERT时代只有几亿参数,后来到十亿参数。但是现在主流已经到了六七十亿参数,甚至到百亿参数,模型本身的参数越来越大是主要因素。

第二,大算力。大模型对于大算力提出了前所未有的需求,所有人都有深刻感受。现在所有企业要么在买算力,要么在买算力的路上,大家现在最缺的就是算力。大模型第一波竞争首先体现为算力的竞争,第二波的竞争可能体现为数据的竞争,但是目前竞争的焦点还在于算力,谁有算力谁就有主动权、话语权,这个现象目前已经体现得很明显了。

第三,大数据。进入数据PK时代,有没有核心高质量的数据非常关键。最终的赢家,至少目前的赢家是算力提供方,大家看到英伟达市值破万亿,主要逻辑就在这里。最终的赢家有可能是数据的拥有者。

第四,精工艺。这是以往小模型时代不会关注的因素,就是炼制工艺,我们称之为“工艺过程”。大模型的工艺过程很重要,现在炼大模型很像过去炼丹,需要把原料全部掉炼丹炉。我前几天刚刚参观了宝钢,当时拍了一张照片,他们留着2500立方米的炼钢炉,那个炉子非常大,不管什么原料,经过初步的清洗全部在里面,然后去炼,炼几天出炉。炼钢出炉就是钢水,而我们现在练大模型出炉就是大模型,炼钢要干的事我们都要干,其中第一个重点在于做原料的配方。现在数据配方是最关键的,把哪些数据按何种方式配比,现在很多属于独门秘籍,秘而不宣的。OpenAI大模型的快速发展很多时候在于配方配得好,但是我们不知道它的配方,很多人也都在尝试。

第二个重点在于数据清洗,宝钢把原料送进炼丹炉之前专门有一个分厂,它专门做钢铁式原料的清洗,参数设计,包括火候、温度、湿度,还有流程设计、质量控制。这都是炼大模型过程中非常关键的因素,这种工艺过程也是我们当前大模型产业发展过程中真正缺少的。

我国数据基础是跟别的国家一样好的。在模型方面,大家都用开源模型,这个不存在秘密,我们真正在什么方面有所欠缺?我们缺在“工艺”上,我们的工艺过程不如OpenAI。现在国内大部分大模型都是在去年12月份才开始训练,我们很难在短短三四个月内赶上OpenAI花了4年时间的训练工艺,所以我们必须静下心来,扎扎实实把工艺打磨好。这个事情非常关键。


从应用带动模型底座,从外围攻破内核


现在ChatGPT,或者后续版本GPT-4真的已经变得超级强大了吗?实际上并没有,大模型还是存在能力天花板的。我们现在有很多论调,一种是悲观论,觉得人家什么都很强,而我们什么都不行;另一种是盲目乐观,觉得它根本什么都不是。这两种极端的论调、观点都有问题,实际上我们要客观的看,它的确是很强,但是它也有天花板,是有问题的,而它的问题恰恰是我们的机会所在。所以目前最重要的是不要被人家的发展速度冲昏了头脑,要冷静分析什么能做、什么不能做,它不能做的事情是我们恰恰要开辟的新赛道。只要我们在它们不能做的地方做得比它好,我们就有我们的价值。

现在这些大模型并不是什么都能做。我们在很多复杂的场景,比如在To B的场景、在企业服务市场,大模型实际上仍然存在很多短板。我们这么多年都想做司法的智能化、医疗的智能化和金融的智能化,但是这么多年都没能真正实现。ChatGPT是很重要的机会,但是直接让它去解决领域问题,现在还是很难做好。

还有在广大的工业、农业等实体经济方面的智能化怎么做?这些智能化都有普遍的特点,大部分任务是复杂决策,比如工业设备的故障排查、疾病诊断、投资决策,这些都是严肃的应用场景,它们需要的能力绝不单单是ChatGPT现在给我们带来的开放聊天能力。

我们承认ChatGPT开放聊天能力很强,以前聊个三天三夜都不觉得无聊,但即使聊天很有趣、很好玩,它也不能解决这些场景的问题。这些场景问题的解决取决于很多复杂的能力。

第一是需要有行业专家该有的知识,像服务器出了故障,到底什么地方出了故障,根因是什么?这个问题在缺乏IT的知识的条件下根本解决不了。第二是需要很多的复杂逻辑,像疾病诊断的时候,是有一些逻辑思考的。第三是需要宏观态势的研判能力,比如说投资决策,在不同态势的环境下对一支股票的预判完全不一样。第四是综合任务的拆解能力,一个很复杂的任务,能不能拆解成一个个原子任务。第五是精密的规划能力,在面临很多行动的情况下,我先做什么、后做什么。第六是复杂约束的取舍能力,我们在做一个决策时往往都面临约束,比如说成本约束,所以我们需要做很多取舍:哪些约束必须满足、哪些约束必须舍弃。第七是未知事物的预见能力,在投资过程中企业可能会出现一些难以预料的新状况,ChatGPT未必具备人类在面临这些突发状况时的处理能力。第八是不确定场景的推断能力,我们大部分决策都是在信息不充分、不完全的时候进行的,否则会丧失先机。这些能力都仍然是ChatGPT,或者说通用大模型目前没有具备的能力。

未来大模型能不能解决这些问题,能不能具备这些能力,会直接影响到它们的投资价值。理清楚这个逻辑之后,实际上大模型最后想创造商业价值有两个关键要素:

一方面是底座模型要强大,另一方面是领域应用也不可以忽视。底座模型好比一个练武术的人练内功,即使内功练得再好最终还是要练套路,不知道大家喜不喜欢看武侠小说,金庸武侠小说的气宗和剑宗就是这么回事,所谓的气宗练内功,强调内功为王;所谓的剑宗认为套路为王,形式很重要。实际上这两个因素都重要。

只重视底座大模型是不够的,还得有领域应用,还需要领域知识,才有应用效果。

目前我们的现状是什么?我们一窝蜂地跟随了底座大模型先行者的脚步,所以大模型同质化严重。总体而言,技术型企业往往“重模型、轻应用”,应用型企业往往“重应用、轻模型”,其实这两个都不可取,这就跟我刚才说的气宗和剑宗的道理一样,既要内功深厚,也要套路熟练,这两个都达到一定水平才能创造商业价值。

我们实际有自己的机会,虽然我们底座模型不如ChatGPT、不如GPT-4,这一块我们要追赶。但是领域应用这块是我们的强项,恰恰是我们国内企业擅长做的事,所以我们大模型产业发展战略实际是很清晰的,可以走一条从应用带动模型底座,从外围去攻破内核的道路,去发展整个大模型的产业生态

这是我们非常重要的思路,可以走一条“农村包围城市”的路,从应用带动底座,从外围攻破内核的路。我们先把各行各业的应用做好,通过各行各业的应用带动数据、算力、模型和工艺的研制,这些发展之后最终能带动底座大模型的提升。我刚才也提到过,我们想花三四个月达到OpenAI花了4年发展的模型水平并不现实,我们可能要承受一段时间底座大模型不如别人的状态。我估计这种状态短则持续1年,长则持续2-3年或更长一段时间,我们可能要一直追赶。但是我们有很好的应用,有应用之后会给我们带来很多机会。


不要让大模型成为一场华丽的烟花秀


我们刚才从宏观战略角度提出了一些改进战略,现在我们可以从具体对策、战术层面进行考虑:

第一,我们可以推动数据联盟,这是我们的优势。像上海数据交易所,贵阳、北方数据交易所数量较多,而且我们在数据交易这块的法律法规是相对比较健全的,还是很先进的,我们有很多的法规保障。所以我们完全可以为大模型的发展促进数据交易体系的建设,我们是有技术、有优势的,我们可以依托数据交易所去开展这个工作。

第二,算力协同。我们一定要加快健全国产的算力生态,我们最近在策划,把所有算力的企业叫过来,共同讨论能不能推动联盟的成立。算力只有在使用之后才能帮你反馈问题,要不然很麻烦,现在这个问题很严重了,而且要注意这个算力不仅仅是GPU这块,还有网卡这块都存在分散、异构的问题,这都对大模型发展带来限制。

第三,模型生态。大模型技术本身要尽快建立健全、开源的生态。尤其是开源生态很重要,OpenAI是闭源的,我们可以发展开源的生态。开源生态可以集思广益,让volunteer对模型本身带来完善和优化。

第四,人才培养。这也是我们大模型产业发展非常关键的一点,这里要说几个核心的数据,差不多在一二月份的时候,行业里很多人认为,国内能够做大模型的人不超过1000人,保守估计只有两三百人,一点儿都不夸张。我自己体会很深刻,我自己的团队,我们算是比较幸运,两三年前就做大模型了,今年有博士生、硕士生毕业的,但凡做大模型的同学,全是身价被人家翻一倍的挖走。现在大模型人才非常稀缺,我们复旦在这个时间点有大模型炼制经验的学生可能不超过20人,而我们整个计算机学院有将近几千名学生。这是因为大模型炼制要求很高,首先像A1版的服务器就要备几台,一台的成本现在是100万,十台就是1000万,有能力满足设备要求的学校就不多。所以现在人才短缺是非常大的问题。这是政府、学校都要思考的问题。

此外,大模型出来之后对人才的能力和素质要求跟以往是不一样的,我发现我们跟很多厂商合作,我们实际上最缺的是大模型做产品设计,现在大模型有这个能力,而我们传统有很多应用,但是这个大模型怎么嵌到应用里面来,形成怎样的产品,大家都不知道,懂大模型的人往往不懂产品,懂产品的人往往对大模型的认知还处在早期阶段,所以这种跨学科、跨领域的复合型人才要求特别高,这块人才短板非常厉害

第五,发展诊断和评测体系。现在各家自说自话,都说自己好,将来市场很需要一个客观的评价,到底哪一家好,它好在哪。事实上比较好的状态是各家有各家的特长之处,这一家擅长这个,那一家擅长那个。最怕的是这么多家都说自己好,这里面肯定同质化很严重,所以我们未来要建立起评测的标准和体系。

第六,要持续优化大模型的落地成本。大模型成本很高,很多甲方都在观望,最近三个月市场特别有意思,大家都在观望,甚至很多甲方钱都准备好了但是停下来的,为什么?大家在想大模型是不是下一代的技术,现在贸然投入某类技术方案,马上被大模型替代了,这个投资肯定有问题,所以大家都在观望。观望中有一个很重要的因素:大模型落地因素成本太高了,我们如何降低它的成本,使它给我们带来的收益远远大于投入,非常重要。

第七,大模型产业怎样向绿色、生态化发展。我两个月前就开过玩笑,大家不用想,今年的夏天肯定更热。据说nividia市值超过1万亿了,不知道又要有多少显卡进入市场。这些显卡都要消耗电能,消耗电能会发热,所以今年暑期肯定会更热,大家要做好心理准备。我估计明年也是这样,关键问题是什么?其实都是能源消耗问题,我们消耗太多的能量来做计算,将来人工智能产业的绿色化、生态化是非常重要的问题,很快,我相信要不了多久大家会意识到这个问题的严峻性。

第八,持续加快大模型的技术研究。大模型技术并不是像大家想象得那样完美,仍然存在很多问题,比如,一本正经的胡说八道,大模型的乱编乱造,大模型的幻觉,大模型到底体现谁的价值观、意识形态,以及大模型的隐私泄露,大模型的安全等等,这里面有太多等待解决的问题了。

由ChatGPT所引发的通用人工智能产业变革,我相信才刚刚开始。我们需要以更深切的思考、更扎实的实践,牢牢抓住大模型以及其他通用认知智能技术给我国数字化转型与高质量发展所带来的全新机遇……大模型绝不是宣传文案中的噱头,也绝不能成为一场华丽的烟花秀,而要成为实实在在的能够推动社会发展与进步的先进生产力。