Meta:买得起千亿算力,留不住关键的人

转载
9 小时前
3847
深潮TechFlow

文章转载来源: 深潮TechFlow

撰文:Ada,深潮 TechFlow

庞若鸣在 Meta 的工位还没坐热,就走了。

2025 年 7 月,扎克伯格用一份总价超过 2 亿美元的多年薪酬方案,从苹果手里抢走了这位 AI 基础设施领域最抢手的华人工程师。庞若鸣被安排进 Meta 超级智能实验室,负责搭建下一代 AI 模型的基础设施。

7 个月后,OpenAI 把他挖走了。

据 The Information 报道,OpenAI 对庞若鸣展开了长达数月的招募攻势。尽管庞若鸣曾告诉同事“自己在 Meta 工作得非常愉快”,但最终还是选择了离开。据彭博社报道,他在 Meta 的薪酬方案与里程碑挂钩,提前离职意味着放弃大部分未兑现的股权。

2 亿美元,买不了 7 个月的忠诚。

这不是一个简单的跳槽故事。

一个人的离开,一群人的信号

庞若鸣不是第一个走的。

上周,Meta 超级智能实验室开发者平台产品负责人 Mat Velloso 也宣布离职,此人去年 7 月从谷歌 DeepMind 离职加入 Meta,待了不到 8 个月。再往前推,2025 年 11 月,在 Meta 待了 12 年的图灵奖得主、首席 AI 科学家 Yann LeCun 宣布离职创业,做他一直鼓吹的“世界模型”。Geoffrey Hinton 的核心弟子、Meta 生成式 AI 研究副总裁 Russ Salakhutdinov 也在近期官宣离开。

要理解 Meta AI 的人才流失,得先理解 Llama 4 到底有多伤。

2025 年 4 月,Meta 高调发布 Llama 4 系列的 Scout 和 Maverick 模型。官方的纸面数据堪称华丽,声称在 MATH-500 和 GPQA Diamond 等核心基准测试(Benchmark)中,全面压制了 GPT-4.5 和 Claude Sonnet 3.7。

然而,这款承载着 Meta 野心的旗舰模型,在开源社区的第三方独立盲测中迅速“现了原形”,实际泛化与推理能力与宣传出现了断崖式落差。面对社区的强烈质疑,首席 AI 科学家 Yann LeCun 最终承认,团队在测试阶段“使用了不同的模型版本来跑不同的测试集,以优化最终得分”。

在严谨的 AI 学术界与工程界,这触碰了不可饶恕的红线。换句话说,团队把 Llama 4 训练成了一台只会做往年真题的“小镇做题家”,而非真正拥有前沿智能的“优等生”。考数学就给你看数学卷王,考编程就给你看编程卷王,每个单项测试看起来都很强,但实际上这不是同一个模型。

这在 AI 学术界叫“摘樱桃”,在应试教育界叫“替考”。

对一向以“开源灯塔”自居的 Meta 而言,这场风波直接摧毁了其在开发者生态中最宝贵的信任资产。它的直接代价是,扎克伯格对原有 GenAI 团队的工程底线“彻底失去信心”,并由此拉开了后续空降高管、架空核心基建部门的序幕。

他花了 143 亿到 150 亿美元收购数据标注公司 Scale AI 49%的股份,把 28 岁的 Scale AI CEO Alexandr Wang 空降为 Meta 首席 AI 官,成立 Meta 超级智能实验室(MSL)。图灵奖得主 LeCun 在新架构中需要向这位 28 岁的年轻人汇报。10 月,Meta 裁撤 MSL 约 600 个岗位,包括 LeCun 一手创建的 FAIR 研究部门的成员。

而原计划在 2025 年夏天发布的旗舰模型 Llama 4 Behemoth 也被一再推迟,从夏天推到秋天,最终无限期搁置。

Meta 转而开发代号为“Avocado”的下一代文本模型和代号为“Mango”的图像/视频模型。据报道,Avocado 的目标是对标 GPT-5 和 Gemini 3 Ultra。原定 2025 年底交付,因为性能测试和训练优化不达标,推迟到 2026 年第一季度。Meta 正在考虑将其闭源发布,放弃 Llama 系列一贯的开源传统。

Meta 在 AI 模型上犯了两个致命错误。第一是对 benchmark 造假,这直接摧毁了开发者社区的信任;第二是把 FAIR 这种需要十年磨一剑的基础研究部门,硬塞进一个追求季度 KPI 的产品组织里。这两件事加起来,就是现在人才流失的根本原因。

自研芯片:另一条断掉的腿

人才在跑,芯片也出了问题。

据 The Information 报道,Meta 上周砍掉了其内部正在开发的最先进 AI 训练芯片项目。

Meta 的自研芯片计划叫 MTIA(Meta Training and Inference Accelerator)。公司的初始路线图雄心勃勃:MTIA v4 代号“Santa Barbara”、v5 代号“Olympus”、v6 代号“Universal Core”计划在 2026 到 2028 年间陆续交付。其中 Olympus 被设计为 Meta 首款基于 2nm chiplet 架构的芯片,目标是同时覆盖高端模型训练和实时推理,最终取代英伟达在 Meta 训练集群中的角色。

现在,这个最先进的训练芯片被砍了。

Meta 并非没有进展,MTIA 在推理端有了一些成果。代号“Iris”的 MTIA v3 推理芯片已经在 Meta 的数据中心大规模部署,主要用于 Facebook Reels 和 Instagram 的推荐系统,据称降低了 40%到 44%的总体拥有成本。但推理和训练是两回事。推理是跑模型,训练是练模型。Meta 能自己做推理芯片,但造不出能跟英伟达正面刚的训练芯片。

历史上这不是第一次。2022 年,Meta 曾尝试自研推理芯片,在小规模部署中失败后直接放弃,转头给英伟达下了大单。

自研芯片受挫,直接加速了 Meta 的外购狂潮。

1350 亿美元的恐慌性采购

2026 年 1 月,Meta 宣布今年的资本支出预算为 1150 亿到 1350 亿美元,几乎是去年 722 亿美元的两倍。这笔钱的大头,都要花在芯片上。

10 天之内,三笔大单接连落地:

2 月 17 日,Meta 与英伟达签署多年期、跨代际战略合作协议。Meta 将部署“数百万颗”英伟达 Blackwell 和新一代 Vera Rubin GPU,外加 Grace 独立 CPU。分析师估计交易规模在数百亿美元级别,Meta 成为全球第一家大规模部署英伟达 Grace 独立 CPU 的超算客户。

2 月 24 日,Meta 与 AMD 签署价值 600 亿到 1000 亿美元的多年期芯片协议。Meta 将采购 AMD 最新的 MI450 系列 GPU 和第六代 EPYC CPU。作为交易的一部分,AMD 向 Meta 发行了最多 1.6 亿股普通股的认股权证,相当于 AMD 约 10%的股份,以每股 0.01 美元的价格,按交付里程碑分批归属。

2 月 26 日,据 The Information 报道,Meta 与谷歌签署了一份价值数十亿美元的多年期协议,租用谷歌云的 TPU 芯片来训练和运行其下一代大语言模型。同时,双方还在讨论 Meta 从 2027 年起直接购买 TPU 部署到自己的数据中心。

一家社交媒体公司,在 10 天内同时向三家芯片供应商下了可能总计超过千亿美元的订单。

这不是多元化布局。这是恐慌性采购。

算力焦虑的三层逻辑

Meta 为什么这么急?

第一,自研芯片指望不上了。最先进的训练芯片项目被砍,意味着 Meta 在可预见的未来只能靠外购来满足 AI 训练需求。推理端的 MTIA 芯片能处理推荐系统这类成熟业务,但要训练 Avocado 这种对标 GPT-5 的前沿模型,必须用英伟达或同等级别的硬件。

第二,竞争对手不会等。OpenAI 已经拿到了从微软、软银到阿联酋主权基金的海量资源。Anthropic 锁定了谷歌和亚马逊各 100 万颗 TPU 和 Trainium 芯片的供应。谷歌 Gemini 3 完全在 TPU 上训练完成。Meta 如果拿不到足够的算力,连赛道的入场券都保不住。

第三,可能也是最根本的,扎克伯格需要用“购买力”来弥补“研发力”的不足。Llama 4 翻车、核心人才流失、自研芯片受挫,这三件事叠加在一起,让 Meta 的 AI 叙事在华尔街面前变得脆弱。此刻签下英伟达、AMD、谷歌三家的大单,至少释放一个信号:我们有钱,我们在买,我们没有放弃。

Meta 现在的策略就是,搞不定软件就砸硬件,留不住人就买芯片。但 AI 竞赛不是一个靠写支票就能赢的游戏。算力是必要条件,不是充分条件。没有顶级的模型团队和清晰的技术路线,再多的芯片也只是仓库里的昂贵存货。

买家的困境

回头看 Meta 在 2 月份的三笔交易,一个有趣的细节被大多数人忽略了。

Meta 向英伟达买的是当前的 Blackwell 和未来的 Vera Rubin;与 AMD 的交易,买的是 MI450 和未来的 MI455X;向谷歌租的是当前的 Ironwood TPU,计划明年直接购买。

三家供应商,三套完全不同的硬件架构和软件生态。

这意味着 Meta 要在英伟达的 CUDA、AMD 的 ROCm 和谷歌的 XLA/JAX 三套截然不同的底层生态中反复横跳。多供应商策略固然能分散供应链风险、压低硬件采购溢价,但这将带来指数级飙升的工程复杂度。

这正是 Meta 当前最致命的软肋,要让一个万亿参数的模型在这三套底层编程模型完全不同硬件上都能高效训练,需要的不只是懂 CUDA 的工程师,而是能从零搭建跨平台训练框架的架构师。

这种人全世界可能不超过 100 个。庞若鸣是其中之一。

花 1000 亿美元买进全球最复杂的硬件组合,同时却在流失能驾驭这些硬件的大脑,这才是扎克伯格这场豪赌中最魔幻的画面。

扎克伯格的赌局

把镜头拉远一点看,扎克伯格在过去 18 个月对 AI 的操作路径,和他当年 All In 元宇宙的节奏惊人地相似:

看到趋势,重金投入,大举招人,遇到挫折,战略急转,再重金投入。

2021 到 2023 年是元宇宙,结果每年亏上百亿,最后股价从 380 美元跌到 88 美元。2024 到 2026 年是 AI,同样是不计代价地砸钱、频繁的组织重组,同样是「信我,我有 vision」的叙事。

不同的是,这次 AI 的风口确实比元宇宙实在得多。而 Meta 有钱烧,其广告业务产生了充沛的现金流,2025 年第四季度 Meta 营收 599 亿美元,同比增长 24%。

问题在于:钱能买到芯片,买到算力,甚至是工位上坐着的人,但买不到留下来的人。

庞若鸣选择了 OpenAI,Russ Salakhutdinov 选择了离开, LeCun 选择了创业。

扎克伯格现在的赌注是,只要买到足够多的芯片、建好足够大的数据中心、花足够多的钱,总能找到或者培养出能用这些资源的人。

这个赌注可能成立。Meta 毕竟是世界上最有钱的科技公司之一,超过 1000 亿美元的经营现金流是它最坚固的护城河。从 OpenAI 到 Anthropic、从谷歌到其他竞争对手,Meta 都在持续挖人。据量子位报道,Meta 超级智能团队 44 人中,近 40% 来自 OpenAI。

但 AI 竞赛的残酷之处在于,算力储备、人才名单、模型表现都是是公开的,Llama 4 的 benchmark 造假事件证明,在这个行业里,你没有办法靠 PPT 和公关来维持领先。

市场最终只认一样东西:你的模型够不够好。

食物链的位置

AI 军备竞赛进入 2026 年,食物链的排序已经初步清晰:

顶端是 OpenAI 和谷歌。OpenAI 有最强的模型、最大的用户基数和最激进的融资。谷歌有自研芯片、自研模型以及自研云基础设施的完整垂直整合。Anthropic 紧随其后,靠 Claude 模型的产品力和谷歌、亚马逊的双线算力供应,稳居第一梯队。

Meta? 它砸了最多的钱、签了最多的芯片合同、做了最频繁的组织重组,但到目前为止,还没有拿出一个能让市场信服的前沿模型。

Meta 的 AI 故事有点像 2005 年的雅虎。当时雅虎也是互联网最有钱的公司之一,也在疯狂收购和砸钱,但就是做不出谷歌那样的搜索引擎。钱不是万能的。扎克伯格需要想清楚是,Meta 到底要在 AI 上做什么,而不是看到什么热就买什么。

当然,写 Meta 的讣告还为时过早。35.8 亿月活用户、599 亿美元的季度营收、全球最大的社交数据集,这些是任何竞争对手都难以复制的资产。

如果代号 Avocado 的下一代模型能在 2026 年如期交付并重返第一梯队,扎克伯格所有的砸钱与重组都会被包装成“力挽狂澜的战略魄力”。但如果再次不及预期,那这 1350 亿美元换来的,将只是一座座通电发热的硅晶圆仓库。

毕竟,硅谷的 AI 军备竞赛从来不缺挥舞支票的超级买家。缺的是,知道如何用这些算力炼出未来的人。