GPT-5前瞻！GPT-5将具备哪些新能力？

文章转载来源：新火种

作者：小岩

编辑：彩云

来源：新火种

Sam Altman在整个AI领域，乃至整个科技领域都被看作是极具影响力的存在，而2023年OpenAI无限反转的宫斗事件更是让Sam Altman刷足了存在感，他甚至被《时代》杂志评为“2023年度CEO”。

也正因此， Sam Altman的一条推文，瞬间就可以成为轰动整个AI行业的信号，特别是当这条推文还与万众期待的“GPT-5”有关的时候。

2023年平安夜，Sam Altman在社交平台大胆公布了2024年的雄心壮志。他所发表的关键词不仅涵盖了2024年OpenAI的整体规划，更契合了用户的迫切需求。这其中包括：

AGI（请耐心等待）
GPT-5　
更好的语音模式　　
更高的费率限制　　
更好的GPT　　
更好的推理　　
对工作/行为程度的控制
视频　　
个性化　　
更好的浏览　　
“使用OpenAi登录”　　
开放源代码

Sam Altman透露，OpenAI计划在接下来的一年内实现多个令人瞩目的里程碑。其中所涉及到的内容，不仅仅一次简单的技术更新，更是一场至关重要的AI变革。当然，最受关注的，还是GPT-5。

AI领域的开源与闭源之争：类似于Android与IOS之争。

对于AI界来说，大家除了关心 GPT-5能否在技术壁垒上有所突破，更关心一个重点：GPT-5能否实现开源？

大模型的开源和闭源之争一直是行业内争论的焦点，这种争论，与移动互联网时代的Android与IOS之争有异曲同工之妙。有意思的是，各个AI大厂对于开源还是闭源的选择也不尽相同。

目前拔得头筹的OpenAI的GPT-4和百度的文心一言都坚持闭源，Meta选择了开源的道路，相继面向“学术研究用途”开源了LLaMA和LLaMA-2模型。百川智能则兼具开源和闭源，在学术领域选择了开源，使用7B和13B两种尺寸的大模型；商业探索上将53B闭源，以保护商业利益和技术的竞争优势。

GPT的闭源，为OpenAI带来了可观的收入。据The Information报道，OpenAI CEO Sam Altman对员工表示，公司正以每年13亿美元（约合人民币94.93亿元）的速度产生收入，平均每月收入超过1亿美元，相较于去年全年2800万美元增长超过450倍，达4542%。这个数据也比3个月前预期的年收入高30 %。这也让2023年成为OpenAI公司成立8年来，收入增长最快的一年。而这些，恰恰是GPT-4闭源所带来的。

关键词：GPT-5能实现开源吗？

那么，GPT-5能实现开源吗？未必。

对于商业模式，OpenAI曾在官网中明确指出“打算继续免费提供ChatGPT”，但也会选择从付费的高级服务的用户和企业中获得收入。而且，虽然OpenAI嘴上说着“不指望在近期内盈利”，但考虑到开发和提供大模型的高成本，生存问题仍然是其不得不面对的挑战。

此外，尽管OpenAI实现了快速增长，但背后的行业成本却不容忽略。根据公开信息显示，2022 年，OpenAI开发GPT-4，仅训练成本支出约5.4亿美元。2023年4月，OpenAI每天为ChatGPT支付的运营成本约694.4万美元（其中主要是电费），年化运营成本约为2.5亿美元，综合年化成本可能超过13亿美元。毫无疑问，OpenAI依旧处于亏损阶段。

所以，倘若没有商业化的维持，OpenAI恐怕很快会迎来破产。更重要的是，已经通过GPT-4闭源尝到甜头，获得大量收入的OpenAI，显然没有充足的理由将GPT-5完全开源，这无异于自毁壁垒，在大模型赛道的竞逐中丧失领先优势。从这个层面来说。GPT-5实现开源的概率不大。

即便Sam Altman在推文中将“开源”标注成了关键词，但更多的也只是在迎合行业的呼声，我们还不能将其解读为“企业2024年的发展目标”。

不过，“部分开源”的可能性并非没有。GPT-5完全开源的可能性虽然比较小，但是为了GPT相关生态建设，对与GPT相关的工具集提供开源的可能性却很高。或许，OpenAI会通过为较少部分提供开源的方式，为开发者的开发，调试，分享提供便利。

未来的GPT-5，究竟会具备哪些新能力？

近日，艾伦人工智能研究所发布了Unified-IO 2，它的发布极具意义，因为它可以帮助我们更好的预判GPT-5的能力。

为什么这么说呢？Unified与ChatGPT之间存在着怎样的关系？

事实上，早在2022年6月，艾伦人工智能研究所就推出了第一代Unified-IO，它是首批能够处理图像和语言的多模态模型之一。大约在同一时间，OpenAI正在内部测试GPT-4，并在2023年3月正式发布。所以，Unified-IO可以看作是对于未来大规模AI模型的前瞻。换句话说，因为Unified-IO 2的出现，我们可以大致预判一点：OpenAI可能正在内部测试GPT-5，并很有可能在几个月后发布。

艾伦人工智能研究所推出的Unified-IO 2是第一个可以处理和生成文本，图像，音频，视频和动作序列的模型。这个新的高级人工智能模型使用几十亿个数据点进行训练，虽然模型大小只有7B，却展现出迄今为止最广泛的多模态能力。它的训练数据包括：10亿个图像-文本对，1 万亿个文本标记，1.8亿个视频剪辑，1.3亿张带文本的图像，300万个3D资产和100万个机器人代理运动序列。研究团队将总共120多个数据集组合成一个600 TB的包，涵盖220个视觉，语言，听觉和动作任务。Unified-IO 2采用编码器-解码器架构，并进行了一些更改，以稳定训练并有效利用多模态信号。

模型可以回答问题，根据指令撰写文本、以及分析文本内容；可以识别图像内容，提供图像描述，执行图像处理任务，并根据文本描述创建新图像；可以根据描述或说明生成音乐或声音，以及分析视频并回答有关视频的问题。此外，通过使用机器人数据进行训练，Unified-IO 2还可以为机器人系统生成动作，例如将指令转换为机器人的动作序列。由于多模态训练，它还可以处理不同的模态，例如，在图像上标记某个音轨使用的乐器等。

总体而言，Unified-IO 2在超过35个基准测试中表现良好，包括图像生成和理解，自然语言理解，视频和音频理解以及机器人操作。在大多数任务中，它能够比肩专用模型，甚至更胜一筹。在图像任务的GRIT基准测试中，Unified-IO 2获得了目前的最高分。通过这些，我们也可以更好的窥见未来GPT-5的模样。

对于AI发展而言，科技生态与商业化是缺一不可的核心要素。技术和应用的发展需要商业化提供必要的支持和保障；而商业化的成功也离不开生态环境的建设。两者之间必须相辅相成，有机结合。希望在未来发布的GPT-5中，OpenAI可以起到先导作用，率先实现生态与商业化之间的平衡。