Meta商用开源最牛大模型背后:巨头保命式竞争,马斯克、苹果另辟蹊径

转载
472 天前
7214
腾讯科技

文章转载来源:腾讯科技

文:腾讯科技 郭晓静

图片来源:由无界 AI生成

Meta7月19日在其官网宣布大语言模型Llama2正式发布,这是Meta大语言模型的最新版本,也是Meta首个开源商用的大语言模型,同时,微软Azure也宣布了将与Llama2深度合作。

根据Meta的官方数据,Llama 2 相较于上一代其训练数据提升了40%,包含了70亿、130亿和700亿参数 3个版本。Llama 2 预训练模型接受了 2 万亿个 tokens 的训练,上下文长度是 Llama 1 的两倍,其微调模型已经接受了超过 100 万个人类注释的训练。

其性能据说比肩GPT-3.5,也被称为开源最优的大模型。消息一经发布,媒体与业界甚至给出了Llama2开源商用,即将改变大模型领域竞争格局的论断。这件事的影响究竟有多大?即将给产业带来什么样的影响?我们邀请两位业界人士聊了聊,一位是利欧集团数字科技有限公司产品研发中心副总经理周崧弢,他带领团队几乎评测了国内外主流的大部分大模型;另外一位是安信元宇宙研究院院长焦娟,多年一直深度观察国内外的科技产业生态。

以下为两位的主要观点:

① Llama2在模型参数、时间消耗、算力消耗等方面综合考虑,与GPT-3.5对比是有底气的。

② 生成式人工智能会给整个开源体系带来天翻地覆的变化。

③ 未来一段时间内,开源和闭源一定是互相摇摆,在这个领域会形成相当长一段时间的互相的博弈和竞争的格局。

④ Llama2的商用开源不一定会降低创业者使用大模型的成本,但是有可能引起大模型服务商开始打价格战,这对于应用者和创业者来说是个好消息。

⑤ 海外巨头在AI领域的竞争,已经不太像是发展第二曲线这么简单,竞争激烈而决绝,甚至有点保命的味道,背后的原因值得深思。

以下为对话内容精选:

腾讯科技:从行业从业者或应用者角度,如何去评测一个大模型?

周崧弢:国际上用的比较多的大模型评测框架是MMLU,它考虑了57个学科,从人文到社科到理工多个大类的综合知识能力,我们大多数情况也是基于这个框架来评测。但是我们的行业是广告业,基于广告业的属性,会增加一些其它的评测项目。

我们在集团的管理会上也说过,广告业的重点不在于创造力,而在于控制。生成的结果一定要和广告主、它的产品性能、外观、logo等,有100%的还原。在这些还原达成之后,才能有发散和想象的空间。所以我们会针对于大模型的幻觉的控制,去做单独的测试。但是绝大多数市面上的大语言模型及图片生成的扩散模型,都很难百分百满足广告主的需求。通用大模型被发布之后,离完全商用还有很长一段路要走。

另外,我们考虑的最重要的就是成本问题:闭源模型有直接的报价体系,我们一般会衡量千Token的费用。对于开源模型来说,要测算的环节更多,从部署到精调到最后上线进行推理,算力消耗成有多少,维护开源模型投入的开发成本、数据成本有多少。

大模型质量反馈加上成本的估算,我们就能形成一个对模型的评价,简单一句话就是,性价比越高,越受欢迎

焦娟:从我们的角度来讲,更看重的是如何去定义一些垂直方向的需求。因为全球范围来讲的话,不管是硬科技公司还是互联网公司,真正有能力去定义需求的可能不会特别多,所以这个命题就可以转换成——大模型公司自己能不能去定一些垂类的细分方向的需求,如果不能的话,能否联合生态合作伙伴探索出比较好的垂类方向。当然,如果某些公司自己能够在特定的方向中有自身的数据积累、经验积累那会更好。这是我们的视角,从应用、定义垂类细分行业需求的角度。

腾讯科技:Llama2在性能上真的可以超越或比肩GPT-3.5吗?

周崧弢: 针对Llama2的大模型还在评测中,大约需要2周的时间。但是从我们对于论文的学习,和目前已经进行的一些简单的评测中,可以讲一些大概的比较。

在预训练的阶段和GPT原来的模式有几点不同,而且这些改变,之前其它模型公司都没有做过。首先就是在预训练阶段,将传统Transformer的多头注意力机制,改变为分片群组的机制。有点类似或模仿我们原来在做大数据处理的时候,处理大规模并行数据的时候,所用的分片的技术。把大量的Attention需要的Query(请求)一组一组成组起来,每个组放到一个训练单元里面去,这样并行的效率和速度,理论上是会大幅提升。这部分我觉得是Meta在之前大规模并行处理经验上,做出的一个新的改变。

基于这个改变,我觉得他们理论上在算力的需求和时间消耗上,比现有的大模型要提升很多倍。我预估Llama2按照他们的说法,是一月份就开始做,按照发布时间来计算,比Llama1的预训练时间应该要短,因为它的参数量比Llama1要大。这样的话,多轮训练的可能的这个周期是被压缩的。这和论文中所提到的GQA密切相关。在这一点上,应该是超过了GPT4的,虽然我们不知道GPT-4具体是多少,但是根据外界猜测,GPT-4是远高于GPT-3和GPT-3.5的。

对GQA,我们目前觉得,GQA的处理方式对于有足够算力卡,特别是有GPU并行算力资源的用户来说,的确可以提高训练速度。不过测试和同行测评发现这个功能对算力池规模和硬件要求很高,因为众所周知的原因,中国内地的开发者拥有大规模GPU并行算力资源的少,所以GQA可能会对我们来说是鸡肋。

另外第二点,在调整阶段,我们知道GPT体系在归一化的时候,都做了层化的数据处理,使得数据训练的结果很精确,但是也非常消耗算力。但是Llama2用了不一样的方案,就是在分层处理的基础上又加了权重系数,这样对于效率的提升和准确度维持是很有帮助的,对算力的节约也是有帮助的。这两点是在预训练阶段所做的优化。

另外论文中也提到,Llama1的Embedding位置是固定的,不能修改。但是在Llama2中,这是可以动态调整的,这也是一个亮点。这个我们也很感兴趣,想知道究竟能产生什么样的实际效果。

除了这些,Llama2很明显吸收了Llama1及GPT系列的一些工程化经验,就是在RHLF阶段的成功经验都复用了,应该会有很大的改善。

最后就是比参数,目前看到的就是它自己在官网上公开的那些参数。包括它的人工强化反馈的参数大概有100多万,精调的部分达到十几万。这些参数的话,他敢放出来就意味着,Meta在模型参数、时间消耗、算力消耗等方面综合考虑,是有底气的。

腾讯科技:为什么商用开源的门槛设定到了月活跃用户数不超过七个亿?

焦娟:开个玩笑,我觉得这个规定还是“很敞亮的”——Meta打出了一张明牌,既然防不住别人去研究,那就干脆放开。本质上是内部博弈的一种结果。Meta的财务指标从2021年初就不是太好了,所以一直也在寻找第二增长曲线。2021年10月Meta改名,All in 元宇宙,但是并没有看到太实质的起色。它推出现在的大模型,是可以与自身的硬件融为一体的。相当于打出来一张明牌,既要硬件、又要软件、又要操作系统,希望能在AI时代有自己的一席之地,但是开源的同时,也不希望能够太有利于竞争对手。大家可以看到,7亿月活的产品有YouTube 25亿、苹果 18亿、微软 14亿、三星 10亿、领英 9亿、Snapchat 7.5亿等。

腾讯科技:商用开源和研究授权究竟有什么本质不同?对开源生态可能会有什么不同的影响?

周崧弢: 大语言模型爆发之后,开源这件事情也变得很复杂,大家对于开源的定义和这个规则做了很多的调整。会涉及到你是算法本身开源、数据研究开源等等。对于现在新的语言模型或者是生成式模型的整体的开源的判断:第一是要看它的算法代码是不是开源,然后看它的训练数字集会不会开源出来。第三看基于开源算法,如果我做了精调或者是其它处理,你的授权政策会有什么样的约束。第四就是使用你的模型推理出来的结果,模型方是不是有控制权。我们一般从这几个方向来判断,这个模型的“开源”对我们是否真的有应用价值。

关于研究开源和商业开源,我记得最典型的例子就是Stability AI这家公司,我记得LLama2开源前的两周,StabilityAI的XL那个版本也发布了,就是只有研究授权开源,明确规定,可以用模型和数据去做研究,比如你是研究员或者是属于某所高校,但是如果用这个模型去做商业化,是完全禁止的,需要单独申请授权才有可能使用。

大模型的开源授权,我觉得和原来开源的那套逻辑已经有很大变化,环节和流程设置得非常细,有可能生成式人工智能会给整个开源体系带来天翻地覆的变化。

腾讯科技:Llama2的商用开源,会对大模型的竞争格局造成什么样的影响呢?

焦娟:海外巨头的竞争中,有一个风格,就是要让自己的产品和服务有辨识度,所以Meta叫元宇宙,苹果一定要叫新宇宙,别人闭源,我就要占领开源。过去的开源,可能是有自由情怀的极客去做的事情,思路也比较简单。而现在如此大的商业体去主导这件事,更多还是商业利益上的考虑。

周崧弢:我认为整个生成式人工智能这个体系竞争格局的三要素——算力、算法、模型,还是没变。其实模型只占三分之一的竞争因素,模型改变的话,最多只能改变三分之一或者比三分之一多一点,我估计乐观一点,可能到45%左右。

国内和国外的格局还是不太一样,国外算法层面的格局比较明显。国外的数据基本是被清洗过和被矢量化过的,训练数据集已经很充分了,在数据方面的竞争优势不明显,除非你具有某个行业的专有数据。算力也不是国外巨头能拉开差距的地方,巨头其实都有实力去拼算力。

首先,国内拥有核心底层算法的公司其实很有限;第二,国内的数据,被清洗程度、矢量化程度其实是不高的。早期如果投入大量的力量做数据的结构化处理的公司,其实它可以弥补在算力、在算法上面的不足。第三,国内其实是短期之内是缺算力的。所以LLama2开源对于国内的格局的影响,目前来讲并不好判断。

再说回国外,整个生成式人工智能里面,谷歌才是真正的先驱,然后他差点就被搞成先烈了。就是因为整个生成式人工智能的源出论文就是《Attention is all you need》,然后包括最早的开源模型T5其实都是谷歌的。曾经谷歌也是笑傲群雄。不料后来杀进了一匹黑马OpenAI,最早GPT-1、GPT-2都是开源的,GPT-3开源之后又闭源了。当OpenAI进场的时候,开源才是整个生成式人工智能的主流。

OpenAI这个时候找到了微软,也拥有了很贵的算力,成了谷歌强有力的竞争对手。2022年开始,生成式人工智能这个市场,就开始进入到闭源的体系中。OpenAI从掌握算法,加上微软的算力、数据,闭源打造产品,产品又成了现象级的爆款,微软和OpenAI都从中获益。我认为Meta开始决定进入到这个领域的时候,估计也是从头开始仔细研究了发展历史,既然看到了OpenAI从开源领域撤回到闭源,那我还是用开源的方式,再重新打败你的魔法。

在这之前,Meta也看到了几家小公司开源之后的生命力,特别是Stability AI,这家公司并没有深厚的根基,要钱没钱、要技术没技术,突然之间杀出来的,虽然这家公司现在还是有很多的争议。

我记得Llama1是3月份就是对外宣布开源,当时还说是“不小心开源的”,然后Stability AI也说我是不小心把代码泄露了,所以也开源了。整体路径是,谷歌奠定了开源的基调,然后OpenAI和微软又把它折回到闭源的体系里面,然后Meta和Stability AI又把它又放到了开源里面,我觉得未来一段时间内,开源和闭源一定是互相摇摆,在这个领域会形成相当长一段时间的互相的博弈和竞争的格局。

腾讯科技:Meta开源Llama2是迫不得已还是主动战略选择?

焦娟:肯定是主动战略选择,因为本身Meta、微软、谷歌三家在AR领域主要的三个竞争对手,混战了大概有十几年。Meta很快地推出了LLama2,至少比谷歌要快。开源和闭源的选择,都不会脱离掉本质的一些利益诉求,所以说彻底改变竞争格局,我觉得可能意义没那么大。第二就是国内的情况不太一样,所以国内的竞争格局要再观察一下。

不管是开源还是闭源,本质上就是全球这几家公司彼此之间在新的大机遇面前的战略选择。在发力布局眼前的时候,还希望尽可能去攻占比尔呢的腹地。海外巨头的竞争,都已经不太像是发展第二或第N增长曲线这么简单。竞争激烈而决绝,甚至有点保命的味道。

我觉得这点才是最值得大家去探讨的:他们这些行为的背后到底是什么样的大环境或者大背景,让他们一定以这样决绝的方式、军备竞赛一样的方式去做这件事情。

最近也有一些值得关注的事情发生,马斯克的X-AI这家公司的成立,它要重新理解现实物理世界,所有巨头都在盯着AGI的真正实现。这个版图越来越大。然而,新的商业世界和新的商业版图,总需要有一些新的爆款应用和爆款产品来做牵引,这在2023年实现可能还有点难。我们可以把希望放到2024年,也许苹果的MR眼镜会是一个新的契机。

腾讯科技:我们还看到另外两家海外巨头,马斯克和苹果,并没有高调宣布自己在大模型领域的进展,这点怎么看?

焦娟:他们只是暂时按兵不动,而且可以肯定的是,他们推出的东西,肯定不会再叫大模型。我觉得我们可以再去关注下一层,具身智能。在这个方向,马斯克是最不用担心的。而苹果最大的优势在于软硬结合。

周崧弢:我们自己也大概测了一下,M2的芯片在浮点算力上面是可以和英伟达的卡去抗衡。苹果有可能走的是软硬件一体化,它其实是超越大模型目前的竞争格局。

具身智能,我觉得有可能是未来整个通用人工智能发展的一个新的里程碑,因为一旦你拥有了强大的推理能力,一定会扩展到物理世界,而控制物理世界的核心点,就是要嵌入身体或者是嵌入到物理世界的传感器中,那这就是变成具身智能的体系。就如刚刚周老师所说,这个是反而又变成了马斯克的一系列公司。

当我们把软件和硬件重新结合在一起去看整个通用人工智能的时候,你就会发现,竞争格局又发生改变了,已经不是Google、Meta和open AI这几家在竞争,而是有可能会有更多的硬件公司加入进来。

腾讯科技:Llama2的商用开源,是不是有可能把大模型创业的成本打下来?

周崧弢: 这块我现在不确定,因为虽然是省了租用API的开销,但是你会发现6月15号OpenAI大降价之后几乎是一折促销,所以闭源模型也在打价格战。反而是说,如果用开源模型的话,需要多少硬件成本、算力成本、数据成本?隐含成本不好估算。单纯从LLama2的开源来说,我觉得对于创业来说的话,不见得是一个节约成本的路径。

针对推理成本,我们目前测的和结合国外测试者的评价文章,发现一些特定类型的推理任务,比如分类或者langchain的工作流,Llama2的推理效率和时间消耗是减少了,但是其他类型的任务,如果和GPT-3.5-turbo-0615的快照版本相比,不一定会便宜(仅仅是推理算力消耗方面);还有就是现在的原厂版本对中文理解非常流畅和准确,但是中文表达几乎是0,所以中国的创业者想要完全用上Llama2必须花大的代价解决中文表达的精调或者引导,或者等开源社区提供中文的表达版提供……这个成本不低。

另外,Llama2的商用开源,确实有可能引起大模型服务商开始打价格战,这对于应用者和创业者来说是个好消息。

焦娟:坦率讲,在国内我还是比较期待一些行业模型或垂类模型。我自己挑了大概几家看好的公司,特征是一直在这个行业内做的很扎实,有持续的数据积累和平台建设的经验。另外就是,我觉得这轮并不是一个船票贵不贵的一个问题,而是你不管贵不贵,大家都面临着转型。