GPT-4“炼丹”指南：MoE、参数量、训练成本和推理的秘密

转载

971 天前

4558

AIGC

文章转载来源：AIGC

原创：拾象

来源：海外独角兽

作者：Dylan Patel，Gerald Wong

编译：Haina、wenli、Cage

编辑：Siqi

图片来源：由无界 AI‌生成

本文编译自专栏 SemiAnalysis，作者是 Dylan Patel 和 Gerald Wong。不久前，Dylan Patel 还爆料过 Google 内部信：We Have No Moat, And Neither Does OpenAI 。

GPT-4 是科学和工程深度结合创新的结果，中间有无数的 tricks，对于外界，如果能了解 GPT-4 的结构就如同获得了最强模型的“炼丹秘方”。这篇内容十分详尽地给出了 GPT-4 的架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、以及 MoE 模型等参数和信息细节。

Dylan 和 Gerald 认为，OpenAI 之所以不公开 GPT-4 的架构，并不是出于所谓 AI Safety 的考虑，而是因为这个架构很容易被复制；被称为“天才黑客”的 George Hotz 也表达过类似观点，不过，George 认为 GPT-4 由 8 个专家模型的 MoE 构成，每个专家模型的参数量约为 1100 个。

两位作者预计，Google、Meta、Anthropic、Inflection、Character.ai、腾讯、字节跳动、百度等公司在短期内将拥有与 GPT-4 一样甚至更强大的模型能力。即便 GPT-4 的架构“很容易被复制”，但在他们看来 OpenAI 拥有最持久的护城河——最多体量的终端用户、领先的工程人才，以及在模型代际变化中的先发优势。

友情提示：文章中的数据来自于原作者的多方收集和研究，尚未经 OpenAI 证实，而 Dylan Patel 的研究普遍被认为可信度很高，可以作为一篇不错的 GPT-4 深度研究材料参考。此外，我们认为文章中易复制的观点可能有些“标题党”的嫌疑，因为除 OpenAI 和 Google 外，目前擅长复杂 MoE 框架训练和推理的科学家很稀缺，且当前的 GPT-4 也只是初代 MoE，并不是 OpenAI 给出的最终答案，并且过程中的大量经验是其他团队没有的，而这些经验一定也会成为 OpenAI 的独特优势。

以下为本文目录，建议结合要点进行针对性阅读。

关键词：

来源：AIGC

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：大模型需要实干派

下一篇：拆解OpenClaw致富迷局：全民“养龙虾”，别人在如何赚钱？

暖色

18114篇

文章总数

120588364

浏览数

GPT-4“炼丹”指南：MoE、参数量、训练成本和推理的秘密

18114篇

120588364

新闻排行

不只是ChatGPT：AI自动化工具崛起，商业化落地路径全解析

亚太首次！香港证监会放行演唱会收益权RWA，粉丝经济迎来合规资产化时刻

华尔街时间之外，传统资产定价权向链上易手

ArthurHayes：美国打了40年中东战争，次次都降息，这次也别想例外

英伟达史上最强财报，为何换来史诗级暴跌？一篇看懂NVDA的“算力金融学”

数解稳定币的真实使用图谱：全球持币数超1.7亿，超九成流向DEX和CEX

程序员必看：Web3求职找工作，这四类高危涉赌平台要避开

OpenClaw深度调研：3002个社区技能的筛选逻辑与生态全景

友情链接：