在开源面前,OpenAI没有护城河:今天,大模型的安卓时刻来了

转载
487 天前
5900
AI之势

文章转载来源:AI之势

原文来源:知危

图片来源:由无界 AI‌ 生成

过去半年里,OpenAI 正通过 GPT 惊艳所有人。

人们普遍认为 GPT 的诞生是新时代的 “ iPhone ” 时刻,它将像 iPhone 把人们带往移动互联网时代一样,成为新的 AI 大模型时代的门钥匙。

不过,移动互联网的繁荣进程中,不只有 iPhone 的功绩,还有安卓及其背后各大安卓阵营手机厂商的功绩。

甚至,单从出货量角度来看,安卓阵营对移动互联网时代的贡献似乎更大。

而现在,属于 AI 大语言模型的 “ 安卓时刻 ”,要来了。

当地时间 7 月 18 日,北京时间的今日凌晨,Meta 发布了最新一代的开源大模型 Llama 2。

根据 Meta 官网的公开数据,本次发布的 Llama 2 模型系列共包括 70 亿、130 亿 和 700 亿三个参数的变体模型。

Llama 2 经过两万亿个 tokens 的训练,人工注释数据超过 100 万条。而相比于 Llama 1,Llama 2 的训练数据增加了 40%,上下文长度也是前者的两倍。

经过此次升级,根据 Meta 公开的论文显示,虽然目前 Llama 2 在各项大模型测试中仍逊色于 GPT-3.5,但在与目前开源大模型的跑分对比中,已经有了屠榜一般的表现。

Llama 2 与 GPT、PaLM 的跑分对比

Llama 2 与其他开源大模型跑分对比

或许你一看到 Llama 2 逊色于 GPT-3.5 就会觉得嗤之以鼻,毕竟后者已经进化到 4.0 的版本了。

但,你要明白,安卓在刚推出的时候,也是非常拉胯的,而开源让安卓阵营现在能与 iPhone分庭抗礼。

所以,此次 Llama 2 发布最大的亮点其实在于:

Meta 在开源基础上更进一步,允许了该模型的免费商用。( 月活大于 7 亿的产品需要单独申请商用权限,但很少有企业能达到这个标准 )

图灵奖得主,Meta 首席科学家杨立昆也在推特直言,这将改变大语言模型市场的格局:

知危编辑部也联系到了在学术圈和开源社区都颇具影响力的智源 AI 研究院,他们的评价是:

开源是必由之路, 说 Llama 2 的发布是“ 安卓时刻 ”也不无道理,用开源来占领市场,就是一个竞争策略。

与 Llama 2 商用开源相对应的是,OpenAI 在开源面前的态度一直含糊不清。

开源,或者说是开放源码运动,正式开始于上世纪的九十年代末,参与者们信仰软件的开放源代码、信息共享和自由使用。

Android 的兴起、GitHub 的流行,都和开源脱不了关系。Linux 系统也诞生于这波运动中, 如今的路由器、交换机、智能洗衣机、智能电饭煲、交换机、服务器等等设备上,几乎搭载了各类 Linux 系统。

包括几年前的美国火星车登陆成功,也象征着火星成为第二个 Linux 计算机数量超过 Windows 的星球。

毫不夸张地说,如今开源改变了软件的协作和创新模式,改变了技术格局。

但在大语言模型领域,领头羊 OpenAI 却似乎和名字里的 Open 背道而驰。

即便 OpenAI 创始人山姆·奥特曼多次在公开场合提到,将在未来开放 GPT-3、GPT-4 的源码,但这至今依旧是空头支票。

包括马斯克在退出 OpenAI 之后,也多次公开炮轰 OpenAI,不满 OpenAI 大肆赚取利润, 并逐渐闭源。

OpenAI 首席科学家 Sutskever 对此的回应则是,过早开源会让 OpenAI 失去技术领先的地位,并且大语言模型的威力巨大,开源恐有安全隐患。

马斯克质疑 OpenAI 不 Open

不同于 OpenAI 在开源面前的畏畏缩缩,Meta 则是坚定的开源支持者,并且在一定程度上推动了 AI 的历史进程。

而 Meta 今天的这一决策,和 Meta 的首席科学家杨立昆,势必有着一定的关系。

早在 2014 年,扎克伯格就意识到了 AI 的前景,在 DeepMind 最终被谷歌收购之后, 扎克伯格转头找到了 AI 学术领域的大佬杨立昆。

曾在大名鼎鼎的贝尔实验室工作过的杨立昆,是 “ 卷积神经网络 ” 的开发者之一,彼时的他正在纽约教书。

根据 VOX 的报道,为了得到杨立昆这匹千里马,扎克伯格答应了科研成果必须开源、实验室必须建在纽约、实验团队不需要考虑盈利等等要求。

杨立昆任职期间成果颇丰,诸如开发了风靡全球的 AI 框架 Pytorch,改进了 GAN( 生成式对抗网络 ),推出大语言模型 Llama 和 AI 图像模型 SAM 等等。

正如当年所约定的那样,这些项目已全部开源。

在大语言模型的浪潮之下,Llama 大语言模型也备受开源社区的欢迎。

诸如 Hugging Face 等开源社区中,充斥着各种被魔改后的羊驼( Llama 的中文译为羊驼 )。

包括斯坦福的 Alpaca、UCB 的 Vicuna......各种基于 LlamA 的修改的模型纷纷涌现。

在不少的大模型跑分榜单上,GPT-3.5 和 GPT-4 之下,几乎都是羊驼家族屠榜。

另外,对于 OpenAI 口中出于安全考虑的闭源理由,杨立昆也是不太认同的。

在他看来,使人工智能平台安全、良善、实用的唯一方法就是开源。

换句话说,技术掌握在少数人的手里是危险的,只有让监管 AI 的力量也同时进化,才能尽可能地管住 AI。

在目前看来,暂时只有开源能办到。

总的来讲,在 OpenAI 领衔的大语言模型浪潮中,Meta 所带领的开源大军,正在开源社区中疯狂攻城掠地。

另一方面,开源和闭源之间的冲突也在逐渐白热化。

在今年的五月份,一位谷歌研究人员 “ 不小心 ” 泄露的备忘录,就把这场大战摆在了台面上。

知危编辑部简单总结了一下这份备忘录中,谷歌研究员的提到几个要点:

①开源 AI 正在蚕食谷歌和 Open AI 的领地;

②小模型比大模型更具有竞争力;

③数据质量远比数据数量更重要;

④谷歌打不过开源;

⑤相比于开源需要谷歌,谷歌更需要一个开源生态。

再简短点讲,这份洋洋洒洒上千字的文章就透露着一个最核心的信息:

在开源面前,谷歌和 OpenAI 都没有护城河。

所以,再回看这次发布的 Llama 2 ,Meta 直接把商业用途的限制给去掉了,实属是又给闭源阵营将了一军。

开源的 Llama2 不仅免费,还更能供开发者自行调整,从而满足大部分商业公司的低成本和个性化需要。

但,最终开源和闭源谁才是胜者,知危编辑部觉得并不好下定论。

毕竟开源也并不是万能解药,开发人员良莠不齐、公开的一些安全隐患等等,都是开源经常遇到一些问题。

开源和闭源之争,归根结底是竞争策略不同,一个更注重扩大市场和制定标准,一个更看重盈利和本身技术的领先。

诸如安卓与 iOS、Linux 与 Windows,最后或许并无真正的输赢之分,而是在不同的需求下,找到自己的合理定位。

但,毫无疑问,Llama 2 搅动了整个市场,已经让生态开始有微妙的变化:

① OpenAI 股东之一的微软,这次成了 Llama 2 的首选合作伙伴,微软似乎正在两头押注。

② Meta 宣布 Llama 2 将能在高通芯片上运行,这对 AI 芯片霸主英伟达而言势必是种挑战。

总之,这大语言模型圈儿的戏,是越来越复杂,越来越有趣了。

如果因为 Llama 2 搅的这场浑水,让 AI 时代能更快来临的话,请大家记得,这不仅是 Meta 的功劳,也是开源社区的功劳。