马斯克、Grok与“数据封建主”

转载
422 天前
4552
AI梦工厂

文章转载来源:AI梦工厂

原文来源:AI新智能

图片来源:由无界 AI生成

下周,马斯克踌躇已久的Grok就要上线了。

在OpenAI接连甩出炸街新闻的这段时间,这事似乎没掀起太大波澜。

然而,越低调的狙击,往往伤害越高。

具体来说,Grok的这次年末突袭,隐藏了老马背刺OpenAI的一件“秘术”。

所谓的“秘术”,其实也很简单,就是X平台上不断涌现的,真实的人类数据。

在大模型数据愈发吃紧的今天,连OpenAI自己,也开始直接拿用户数据训练了。

在此情况下,掌握了X这样一个源源不断的“数据喷泉”,无疑就有了一张将来翻盘的“底牌”。

但话虽如此,但Grok毕竟是一个社交平台,上面的大部分信息,都是未经核验,且质量参差不齐的,直接拿来训练大模型,不怕幻觉迭出吗?

了解大模型的老马,一定知道这点。

但即便如此,Grok的上线,对特斯拉,对老马也仍是利大于弊。

因为倘若不走这一步棋,将来的AI赛道上,马斯克最多只能做割据一方的“数据封建主”,并且终将面临“护城河”被攻破的命运。

这样的未来,很可能也是日后众多国内企业的命运。

1 数据封建主

何谓“数据封建主”?

简单来说,就是以独有数据为垒,在某些垂直的行业、领域内“圈地为王”的大小企业。

这样的概念,最初由希腊前财政部长雅尼斯·瓦鲁法克斯提出,是其在欧洲各国在美国科技企业压榨、盘剥之下发出的感慨。

而自从11月初的OpenAI开发者大会后,这种争当“数据封建主”的声音,就开始在业内不绝于耳。

希腊前财长雅尼斯·瓦鲁法克斯

毕竟,在应用层的路被GPTs堵死的情况下,独有数据就成了很多企业唯一的优势。

那么,老马推出Grok,是想以X平台的数据为基础,成为新一代的“数据封建主”吗?

答案是否定的。因为在未来,这类“数据封建主”的命运,就是其壁垒会随着技术发展不断被削弱,以至于被更强的通用模型步步蚕食。

在这方面,老马的Grok,已经展示出了两种攻破这类“护城河”的方式。

其中一种,就是通过将模型置于“数据枢纽”的位置,使模型的触手伸向原来鞭长莫及的行业、领域。

很多人都知道,美国并没有中国的微信这样集社交、支付、娱乐、资讯于一身的综合平台。这并不是因为美国人能力不行,而是美国的各大金融机构,与科技巨头之间是一种互为竞争的关系。

马斯克对于X的收购,不仅在某种程度上结束了这样的“割据”,也为其打造成一个类似微信的超级APP提供了基础。

倘若X平台真的能成为一个以音频、视频、消息、支付/银行为中心,同时链接商品、服务和机会的全球市场。那么到了那时,Grok就会成为这个数据枢纽的中心,从而获得来自不同行业、地区或模态的海量数据。

如此一来,Grok的定位就不再是一个局限于社交平台的整蛊大模型,而是成为了连接各领域的综合性交互入口。

随着时间的推移,这种综合性入口+大模型的协同效应,将会使那些不用Grok,或不上X的用户,与经常使用的用户之间差距越来越大。

这种情况下,各个垂类行业的数据壁垒尽管依然存在,但若脱离了Grok,却很难被用户接受。

于是,这些被拿捏的“数据封建主”们为了求存,只得向Grok效忠。

2 协同效应

除了以占据数据枢纽的方式,对各个“数字封地”进行蚕食外,Grok这类大模型攻破数据护城河的另一大方式,就是端云协同的形态,编织一张巨大的包围网。

具体来说,在将来的端侧大模型这条赛道上,由特斯拉提供算力(Dojo),X和特斯拉提供训练数据,xAI进行模型研发,最终将产出模型反哺给X平台和特斯拉的产品(汽车、人形机器人),将构成极为坚固的三角阵营。

那么,在大模型逐渐走向端侧的未来,这样的三角阵营,将怎样攻破一个个“数据护城河”?

在这里,我们可以用一个电商行业的例子进行推演。

假设,有一个企业,基于某个局部的电商赛道,用行业独有数据训练出了个专有大模型,而马斯克的Grok打算入侵这个领域,那么在数据收集阶段,其很有可能会采取一种“领域交叉”的战术。

具体来说,特斯拉汽车在行驶过程中收集到的交通、地理和用户行为数据;机器人在家庭、工厂等场景中收集到的环境和操作数据;以及X平台上的社交信息,都为马斯克的团队提供了丰富的信息来源。

当马斯克的团队将这些数据整合在一起时,他们就可能会发现一些新的模式和关联,从而在某种程度上削弱这个专有大模型的独特优势。

这种战术的核心理念就在于:这个世界上没有任何一个行业、领域,是完全孤立存在的。

除了外围攻势外,这样的三角阵营,还能通过“合纵连横”的方式,瓦解掉一个个孤立的“数据护城河”。

简单来说,面对大模型逐渐端侧化的趋势,马斯克的三角阵营提供了一种端到端的解决方案。

其涵盖了从不同来源进行数据采集、处理、训练到部署的整个流程。这意味着企业无需在各个环节寻找不同的技术和服务提供商,从而降低了实施难度和成本。

简化的流程有助于企业更快地应用AI技术,提高数据处理和分析能力。

在此情况下,就可能会有相当一部分企业,决定牺牲数据的独有性,加入三角阵营的生态,从而换来更高的AI部署效率。

这种逻辑,本质上就和移动互联网时代,很多商家即使忍受高抽成,也要入驻平台,换取更低的获客成本一样。

在这样围困之下,一座座孤立的“数据城堡”,终将难以抵挡日渐壮大的Grok。

3 通向AGI之路

面对Grok潜在的,咄咄逼人的攻势,各个想以数据为垒的AI企业,将何去何从?

在回答这个问题之前,有一个更重要的问题,那就是:

这种对“数据护城河”的坚守,真的是一种正确的方向吗?

此前,在红杉资本总结报告《生成式AI的第二幕》中,曾有那么一段话:

“‘数据护城河是站不住脚的’:应用公司生成的数据并没有创造出无法逾越的护城河,而且下一代基础模型很可能会摧毁创业公司构建的任何数据护城河。相反,工作流程和用户网络似乎正在创造更持久的竞争优势。”

那么,未来真的会如红杉所说:“下一代基础模型会摧毁任何数据护城河”吗?

至少从技术层面上看,这种可能性是存在的。

此前,在讨论OpenAI泄露的Q*项目时,NVIDIA的高级AI科学家Jim Fan,就在推特上和马斯克、LeCun讨论了合成数据的问题。

Jim Fan认为使用计算机生成(合成)数据可以提供下一次几十万亿高质量数据集。唯一的问题,就是需要想办法确保数据的持续高质量和多样性。

而AI三大教父之一的LeCun则表示:“动物和人类只需少量的训练数据,就能很快变得非常聪明。我认为新的架构可以像动物和人类一样高效地学习。”

OpenAI首席科学家Ilya也表示,数据问题可以解决

总体来说,对于数据问题,Jim Fan和LeCun代表了两种不同的解决思路。

一种是通过合成数据的方式解决;另一种则是研发新的架构(如世界模型),让模型仅用很少的数据,就能“举一反三”。

但无论方案优劣如何,这些技术构想,都代表了学术界渴望打破“数据限制”的一种集体意志。

同样地,站在用户的角度来说,人们也更乐于看到一个通用性更强,能精通更多任务的大模型,而不是每换一种场景,就要切换不同的模型。

而当一种技术方向,成为上至科学家,下至百姓的共同意志时,它的实现就只是时间问题了。

从这个角度上说,所谓的“数据壁垒”,都是终将要消失的。

现在的很多互联网公司,都是根据用户的行为数据,结合模型在做一些业务,而如果用户遇到了整合能力更强的大模型,那之前的很多业务、功能(例如听歌),也许就会变成一个个插件,这样就没有数据壁垒了。

而在这个向AGI过渡的阶段中,真正有潜力的团队,应该是那些能够摸索出“数据壁垒”之外的核心竞争优势的团队。

诚如月之暗面的CEO杨植麟所说:不同组织衍生不同的文化,文化又衍生不同的系统,而系统又了衍生不同的结果。

在技术、数据方面发展趋于平缓的情况下,开发范式,制度和观念,这些软性的、抽象的因素,就成为了决胜的关键。

而这种“数据”之外的因素,这也是AI时代,人之为人最伟大的源泉所在。