国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90%GPT-4

转载
319 天前
5833
智能边界

文章转载来源:智能边界

文章来源:新智元

狂飙三个月,智谱AI的大模型全家桶震撼发布了!GLM-4性能超进化,堪称「国产GPT-4」;GLMs和GLM Store,直接对标OpenAI的GPTs。

图片来源:由无界 AI生成

今天,国内唯一一家全系对标OpenAI的公司,又搞了一个大新闻!

就在刚刚,智谱AI发布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。

其中,GLM-4不仅在中文能力上超过了所有竞争对手。

而且,长文本能力也一骑绝尘,实现了128K「大海捞针」全绿。

除此之外,智谱AI这次还发布了「定制化的个人GLM大模型」GLMs和GLM Store,再次对标OpenAI的GPTs!


新一代GLM-4,全面比肩GPT-4!


那么,这次新一代基座大模型GLM-4,究竟强在了哪?

与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。

它能够支持更长的上下文,具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。

同时,GLM-4也增强了智能体能力。

基础能力

从众多评测集中可以看到,GLM-4的性能提升非常明显。

相比于GPT-4,GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。

而在HumanEval数据集上,GLM-4则拿到了72分,明显超过了GPT-3.5和GPT-4的水平。

指令跟随

在IFEval评测集上,在Prompt提示词跟随(中文)方面,GLM-4达到了GPT-4 88%的水平。

在指令跟随(中文)方面,则达到了GPT-4 90%水平,大大超过GPT-3.5。

中文对齐

在模型实际应用过程中,大家更关注的,是中文的对齐能力。

在对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4在6月13日发布的版本,逼近GPT-4最新(11月6日Turbo版本)效果。

在专业能力、中文理解、角色扮演方面,GLM-4甚至超过了GPT-4的精度。

不过,在中文推理方面,GLM-4的能力还有待进一步提升。

128K长文本

此前的128K大海捞针测试,难倒了众多大模型,但GLM-4却顺利通过。

在大海捞针测试中,128K文本长度内,GLM-4模型均可做到几乎百分百的精度召回。

GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。

开发者再也不用担心文档太长,一次性处理不完了。

同时,模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。

多模态能力

这一次,GLM-4的文生图和多模态理解都得到增强。

全新推出的CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近最新OpenAI发布的DALL·E 3。

在对齐、保真、安全、组合布局等各个评测维度上,CogView3的效果都达到DALL·E3 90%以上水平。

相对之前,CogView3的语义理解能力都得到大大增强。

「鱼眼镜头中,有一只乌龟坐在森林里。」

模型准确地理解了什么是鱼眼镜头,以及乌龟在森林里的环境应该是怎么搭配的。

「西兰花下面的斑马」,模型理解得很准确。

「一只打扮的像20世纪80年代的职业摔跤手的博美犬,脸上涂着霓虹绿、霓虹橙,还有亮绿色的颜料」,这么复杂的prompt,模型也没出错,对于颜色、场景,都做到了高质量还原。

「一个放大镜在一页20世纪50年代的《蝙蝠侠》漫画的上空」,模型非常准确地理解了空间位置,以及放大镜蕴含的逻辑作用。


GLM-4 All Tools全家桶来了


上面,都还只是常规的单项模型基础能力提升,大会上最让人眼前一亮的,还是GLM-4-All-Tools全家桶。

在以往,我们都需要魔法咒语一样的提示词或者代码,才能调用大模型的能力。无论是回答问题、画一幅画还是使用外部知识源,总觉得LLM还不够聪明。

而现在,得益于GLM模型的强大Agent能力,GLM-4实现了自主根据用户意图,自动理解、规划复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,从而完成更加复杂的任务。

也就是说,GLM全家桶的能力,终于实现了ALL IN ONE!

画图

在AI画图方面,GLM-4 All Tools可以很好地结合上下文语境进行创作。

比如,我们可以先画一只卡通柯基。

随后只要说「它开始跑步了」,GLM-4 All Tools就能理解,我们要的还是这只柯基在往前跑。

告诉GLM-4 All Tools「一只小兔子加入它一起」,它就明白柯基是主角,兔子需要跟在柯基后面,同时保持奔跑。

告诉它「跑得越来越快了」,背景就会虚化。

总之,GLM-4 All Tools对上下文语境的理解非常准确。

代码解释器

同样,GLM-4也内嵌了代码解释器,能够自动调用代码解释器,进行复杂的方程或者微积分求解。

在以下数据集上,GLM-4 All Tools取得了和GPT-4 All Tools相当的性能。

下面这道数学多项式,该怎么求解?

或许可以直接训练一个数学模型,但问题更复杂的时候,LLM就容易出现幻觉。

而GLM-4,则可以通过调用Python解释器,进行复杂计算,自动写出求解代码。

不仅是数学问题,代码解释器还能完成文件处理、数据分析、图表绘制等复杂任务,支持处理Excel、PDF、PPT等格式的文件。

可以让模型自动生成PPT大纲,还能调用代码,生成PPT文件。

网页浏览

靠着All Tools全家桶,GLM-4可以实现更高级的网页浏览。

期间,模型会根据任务自行规划检索任务,自行选择信息源,自行与信息源交互。

比如可以问它:我要参加2023年的CCF开源大会,当地天气是怎样的?

这个问题的难点在于,我们并没有告诉它会议地点,模型自动进行了两次搜索,第一搜到了大会是10月21日在长沙举行,第二次搜到了长沙在10月21日的天气。

可以看到,GLM-4 All Tools的网页浏览准确率,已经超过了GPT-4,令人印象深刻。

Function Call

All Tool还有一个通用能力:根据用户提供的function描述,自动选择所需function并生成参数,以及根据function的返回值生成回复。

这方面的能力,已经跟GPT-4基本持平,在中文理解上,GLM-4 All Tools比GPT-4略强。

多工具自动调用现场实测

在大会现场,GLM-4 All Tools进行了一番怼脸实测。

比如,让GLM-4 All Tools联网搜索「智谱2024 DevDay的宣传语」,然后就此主题画一幅画。

可以看到,大模型自动搜索找到了相关发布页面。

同时,生成的图片也很好地还原了GLM-4的意境。

这幅图描绘了智谱2024 DevDay宣传语中的场景。图中展现了勇敢的⼈站在汹涌的潮头,⾯对远处的⻛暴毫不畏惧。

GLM-4可以识别语义并联网,搜索多个数据源。

它还可以生成一段代码,把生成的数据可视化出来,生成简单的图表。

一句简单的输入,联网搜索、提取、代码解释器、绘图等多项原生能力就随之启动,根本无需手动控制。模型强大的理解、解释能力,也就随之而来。

我们可以让GLM-4搭建一个多项式回归预测模型,预测未来5年的全球GDP发展态势。

这样,就能更直观地看到过去十年和未来五年的发展趋势。

根据从MacroTrends获取的数据,我绘制了2007年⾄2022年全球GDP的折线图。在图表中,我已经将下降的数据点标记为红⾊,以便于识别。您可以查看这张图表,以直观地看到全球GDP的变化情况。

值得一提的是,GLM-4升级后,API调用价格维持0.1元/千tokens不变,继续保持较低水平。


国产「GPTs」全新上线


可以看到,智谱AI针对OpenAI的这种对标,不仅仅是「我有」产品,而是在诸多方面都达到了可比程度。

最令开发者期待的是,国产「GPTs」也来了!

DevDay上,智谱AI上线了定制化个人GLM大模型——GLMs。

现在,无需代码基础,任何用户均可用简单的prompt指令,创建属于自己的GLM模型智能体,从而实现对大模型的便捷开发。

比如,智谱AI这次就给自己的DevDay做了一个GLMs。

只要打开智谱清言,进入智谱DevDay的智能体,就可以提问今天大会的事宜。甚至能直接要到现场PPT的下载地址。

并且,GLMs模型应用商店,也有开发者分成计划。

看得出,智谱AI可定制Agent——GLMs的发布,以及上线的GLM Store,在走和OpenAI一样的路线。

继首届开发者大会上发布定制GPTs之后,OpenAI上周正式推出人们期待已久的GPT Store。

短短2个月的时间,全世界已经诞生了300万个自定义的ChatGPT。网友纷纷表示,这就是AI时代的「APP Store」时刻。

简单来说,GLMs降低了大模型的使用门槛,可以让更多的人参与进来,为AI广泛落地铺平了道路。

相较于调用单纯的大模型,GLMs就像一个Agent,可以通过上传文件,比如私有数据等,让其获得额外的知识。这样,定制化的GLMs就能提升对特定问题回答的准确性,以极高的精度执行任务。

苹果在2008年推出APP Store的最大价值在于,创造了一个新的生态,为第三方开发者带去数百万亿美元的收入。

在AI新时代下,不论是GPT Store,还是GLM Store,都将带领世界开发者走向一条新的LLM商业化道路。

好消息是,GLMs和GLM Store今天就已正式上线!


复杂的模型产业链,一步步做起


众所周知,大模型是一个复杂的产业链。而行业对此的共识是:共同创造,才能产生真正的社会价值。

那么,要做到这一点,首先要让大模型本身的能力足够强。

第一步,模型够强

在这一方面,智谱AI从未停下过自己的脚步。

自2019年成立以来,这家AI初创公司便致力于打造新一代认知智能大模型,专注于做大模型的中国创新。

一年后,智谱AI从0开始研发全新的GLM预训练架构,并在2022年推出了中英双语千亿级超大规模预训练模型GLM-130B。

到了2023年,GLM系列大模型保持每3-4月更新一次的频率,逐渐形成了全面的AIGC产品矩阵。

而这一次,性能足以媲美GPT-4的基座大模型GLM-4,是智谱AI进一步研发能力的体现。

智谱AI CEO张鹏在技术开放日上表示,「GLM-4的推出,标志着国产大模型有能力对标世界人工智能最先进水平」。

模型之后,就是生态

除了模型自身的能力之外,开源社区和学术界的支持也至关重要。

开源的意义在于,联合全球的开发者、研究机构、企业,共同让模型的数据更丰富、模型更优化、应用更全面。

而对于个人开发者和中小企业来说,也能以最低的成本调用模型,不需要花费高昂成本。

在国外,Meta以Llama 1的发布为起点,开辟了开源大模型竞相爆发的新路线。

随着越来越多研究人员的加入,羊驼家族也迎来了大爆发:Alpaca,Vicuna,Llama-Adapter,Lit-Llama等变体相继出现。

几个月后,Llama 2在很大程度上取代了Llama 1,成为功能更强的基础模型,甚至官方还推出了其他的微调版本。

同样,国内的开源引领者智谱AI也早有布局。

2022年,智谱AI率先开源高精度双语千亿模型GLM-130B和ChatGLM-6B。

目前,GLM系列模型在Hugging Face上的下载量已经超过了1100万,在GitHub上累计星标超过5万。而智谱AI也成功跻身全球最受欢迎开源机构第5。

基座大模型GLM-4和GLMs等,会进一步推动GLM的模型生态建设,让智谱AI已经构建起的全模型产品线更加强大。

2024年,智谱对于学术的支持还会继续。1000万元现金和算力资源的大模型科研基金,2023年来已经有三十余所高校参与。

现在,每一个研究者,均有机会参与大模型的研究,还会拥有自己研发的知识产权。

此外,智谱AI还针对开源社区发起了大模型开源基金,为优秀的开发者提供了高达三个「一千」的支持——1000张卡、1000万人民币和1000亿tokens。

同时,智谱AI还重磅升级了面向全球大模型创业者的「Z计划」。

创业基金的总额,达到10亿元!

这项基金,用于支持大模型原始创新,覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等各个方面。

联合上下游,推动产业升级

而在商业领域,智谱AI在2023年里已经积累了1000多家合作伙伴,并与200多家实现了深度共创。

怎么看一个大模型好不好用?最终结果,还是要看有没有真正的落地。

目前,GLM系列模型的能力,已经覆盖了包括金融、咨询、互联网、传统消费产品、智能制造、传媒等诸多领域。

与此同时,智谱AI还将包括国产芯片、不同垂直领域服务集成商等上下游行业合作伙伴团结到一起,共同推动整个产业进步与升级。

可以看到,围绕着GLM系列模型的生态圈,正在加速形成。

智谱AI CEO张鹏表示,「一枝独秀不是春,中国的人工智能事业要繁荣、要发展,需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿,而且有能力为打造繁荣的国产大模型生态贡献自己的力量」。

参考资料:

https://chatglm.cn/main/toolsCenter