文章转载来源:AI之势
原文来源:阿尔法公社
图片来源:由无界 AI生成
真正能与GPT-4正面比拼性能的AI基础模型终于出现了。
北京时间12月7日凌晨,Google DeepMind发布了Gemini系列AI基础模型,它分为Gemini Ultra,Gemini Pro,Gemini Nano三个版本,其中Gemini Ultra在32个测试中的30个超越了之前的SOTA模型,Gemini Pro会成为Bard背后的模型,Gemini Nano则将搭载于Pixel 8 Pro,是一个定位在端侧的模型。
Gemini是一个原生多模态的模型,直接和GPT-4和GPT-4V对标,而且Google在安全性上经过了加强,它经过最全面安全评估,包括偏见和有害内容方面,还能防护包括网络攻击、“越狱”在内的潜在风险。
Google为开发者和企业客户推出了Google AI Studio和Vertex AI,Google AI Studio是一个免费的基于网络的开发者工具,开发者们可以利用API快速搭建AI应用,Vertex AI则允许企业用户定制Gemini,并完全控制数据。
今年3月中旬,OpenAI的GPT-4发布,其性能对其他AI基础大模型呈现碾压之势,这让Google感到深刻的威胁。4月21日,Google将Google Brain和DeepMind两个最强大的AI实验室合并,集中精锐的研究力量,并让DeepMind的创始人Demis Hassabis来领导公司。
与OpenAI一样,Hassabis一直以来的愿景也是打造AGI,他在发布会中表示:“我始终相信,如果我们能够构建更智能的机器,就能利用它们以难以置信的方式造福人类。长期以来,我们一直希望构建新一代的人工智能模型,这些模型的灵感来自于人类理解和与世界互动的方式。这样的人工智能,感觉上不像是一款智能软件,更像是一种有用且直观的东西——一个专家助手或助理。”
高性能的原生多模态模型系列
Gemini系列AI基础模型分为Gemini Ultra,Gemini Pro,Gemini Nano三个版本。
其中Gemini Ultra适用于高度复杂的任务;Gemini Pro是性能和尺寸最平衡的版本,适用于多种任务的扩展;Gemini Nano则适用于端侧,可以直接搭载于移动设备。
不过Gemini Ultra还需要完成更严格的信任和安全检测,以及红队测试和RLHF,才能推向市场,它的上线时间会是2024年初,主要面对开发者和企业客户。
在性能方面,从自然图像、音频和视频理解到数学推理,GeminiUltra在32个广泛使用的学术基准测试中的30个上超越了当前的最先进结果。
其中Gemini Ultra以90.0%的成绩成为首个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该测试结合了数学、物理、历史、法律、医学和伦理等57个科目,用于测试世界知识和解决问题的能力。
此外,值得注意的是,在与推理、数学和编码等几个评判大模型真正能力的测试中,Gemini Ultra几乎是全面领先GPT-4的。
以下是Gemini的技术资料里更详细的对比,能够了解到Gemini Ultra和Gemini Pro与主流模型的性能差异。
在多模态能力的对比中,无论是图片,视频还是音频,Gemini Ultra也在大多数测试中超越了GPT-4V,这些测试凸显了Gemini的原生多模态特性,并表明了Gemini更复杂推理能力的早期迹象。
另外,在更复杂的MMMU基准测试中Gemini Ultra取得了领先的59.4%的得分,该基准测试包含了跨不同领域、需要深思熟虑的推理的多模态任务。
此前,创建多模态模型的标准方法涉及分别训练不同模态的组件,然后将它们拼接在一起以大致模仿这些功能。这些模型有时在执行某些任务(如描述图像)方面表现良好,但在更概念性和复杂的推理上则有所挣扎。
Gemini则是原生的多模态模型,它一开始就在不同的模态上进行预训练,然后Google再用额外的多模态数据对其进行了微调,以进一步提高其效果。这有助于Gemini从根本上无缝理解和推理各种输入。
这也使Gemini能够很好的理解文本、图像、音频等内容,能够适应更多的复杂应用需求。
对于生成式AI非常重要的程序编码需求,Google使用一个专有版本的Gemini,创建了一个更高级的代码生成系统AlphaCode 2,它擅长解决超出编码范畴、涉及复杂数学和理论计算机科学的竞赛编程问题。
AlphaCode 2相比此前的AlphaCode显示出巨大的进步,据估计它的表现优于85%的人类参赛者,而AlphaCode的数据是超越近50%参赛者。
负责任的大厂,强大的安全性
除了性能提升外,作为一个科技大厂,Google一直在人工智能的安全性上十分重视。具体到Gemini,Google做了以下措施:
1.对模型进行全面安全评估的,包括偏见和有害内容方面。
2.利用对抗测试技术,帮助提前识别Gemini部署中的关键安全问题。
3.与多元化的外部专家和合作伙伴合作,对Gemini在一系列问题上进行压力测试。
4.为了限制伤害,Google构建了专门的安全分类器来识别、标记和筛选涉及暴力或负面刻板印象的内容。
5.与行业和更广泛的生态系统合作,例如MLCommons、前沿模型论坛及其AI安全基金。
Gemini Pro加持的Bard,针对开发者和企业用户的Google AI Studio和Vertex AI
在产品方面,Google会将Gemini模型的能力扩展到各种服务中,例如搜索、广告、Chrome和Duet AI(企业级效率应用)。
直接对标ChatGPT的Bard,将会把背后的模型从PaLM2,换成经过精细调整的Gemini Pro版本,以实现更高级的推理、规划、理解等功能。不过虽然Bard已经在170多个国家和地区提供服务,未来Google会开放更多的模态,并支持新的语言和地区。
明年初,Google将推出Bard Advanced,它背后的模型将是Gemini Ultra,而不是Gemini Pro。
Gemini Nano这个面向端侧的小参数模型将搭载在Google的Pixel 8 Pro手机上,提供例如录音摘要,Gboard的智能回复等功能,未来还有更多可能性。
此外,从12月13日开始,Google会为开发者和企业客户提供Gemini API以访问Gemini Pro模型。
Google AI Studio是一个免费的基于网络的开发者工具,开发者可以使用API快速搭建产品原型并验证产品功能。
Vertex AI让企业用户可以自定义Gemini,并完全控制数据,它还提供完全托管的服务,并为模型的安全、隐私以及数据治理和合规性负责。
尽管仍然需要到实际场景中检验,但是Gemini Ultra是第一款真正意义能力与GPT-4持平或超越的AI模型,此前的Claude2和Inflection2只是在部分细分测试上追上了GPT-4的分数。
在技术上,Gemini模型原生多模态的范式代表了大模型的发展方向,在未来2-3年内,新推出的大模型都应该是多模态大模型。而只有大模型具有了多模态能力,它才有可能完整的“理解”世界,才有可能在未来诞生AGI的雏形。
此外,部署在移动端的Gemini Nano模型也代表了另一个趋势,相比联网使用云端的大模型,端侧模型虽然通用能力上欠缺,但是更灵活,更安全,经过微调后在特定任务上也具有高可用性。随着端侧AI算力的不断增强,它应该具有不小的开发潜力。
在生态建设上,Google提供为开发者提供了API和应用搭建工具Google AI Studio,让开发者可以使用先进的AI模型搭建自己的原生AI应用。它也为企业用户提供模型定制和模型部署的服务。
这些做法,与Meta,Amazon,百度,阿里等科技巨头较为类似,它们都想通过生成式AI重塑自己的业务,并建立新的生态,从而打开第二增长曲线。
其中Meta和阿里更激进些,不但有云平台,而且开源了自己的基础模型(llama2,通义千问);Amazon的力度也不小,不但提供自己的闭源模型,还接入了Claude等第三方的先进模型。
当然,在产品和生态打造上,目前最成功的仍然是OpenAI的ChatGPT、助手API和GPTS。而他成功的基础,又是基于能力强大的GPT-4。
所以,当Gemini Ultra的能力赶超GPT-4后,对于创业者意味着什么?
首先,这让人人都是产品经理越来越成为现实,有产品想法和能力的人可以更快更低成本的验证自己的想法,而不需要太多的开发经验。
对于那些具有产品能力和开发能力的个人创业者,现在除了GPT-4外有了另一个足够强大的模型可用,而且竞争有可能使得API的成本降低,具有更多的试错空间。
对于基于API或定制模型打造垂直行业应用的创业公司,与开发者一样,他们有了更多的选择,并有望降低成本。但是真正的成本降低,可能还是得等足够高效和低成本得算力芯片成熟。
来源:AI之势
发布人:暖色
声明:该文观点仅代表作者本人,不代表火讯财经立场。火讯财经系信息发布平台,仅提供信息存储空间服务。
如文章涉及侵权, 请及时致函告之,本站将第⼀时间删除⽂章。邮箱:840034348@qq.com