一周岁的ChatGPT和它的最佳CP,测评表现仅次于GPT-4的第二大语言模型

转载
351 天前
6656
AI之势

文章转载来源:AI之势

原文来源:深思SenseAI

图片来源:由无界 AI生成

如果说 OpenAI 的 ChatGPT 是博学多才高智商学霸,Inflection 的 Pi 就是情商拉满体贴入微又不失俏皮的 Personal AI。几天前,Inflection 推出了自己的第二个模型:Inflection-2——测评表现仅次于 GPT-4,而成为目前第二大大语言模型。

50 人团队,拥有世界上最大的 GPU 集群:22000 张 H100,总融资 15 亿美金,去年 3 月份成立的 Inflection 给大语言模型带来了温度,并祝一周岁的 ChatGPT 生日快乐。


AI Native 产品分析          


Pi

1. 产品:Pi (Inflection.ai 的对话机器人)

2. 创始团队

  • Mustafa Suleyman,Inflection CEO,DeepMind 联合创始人,《经济学人》董事会成员,也是哈佛大学肯尼迪学院贝尔弗科学与国际事务中心的高级研究员;
  • Reid Hoffman,LinkedIn 联合创始人,前 Paypal COO,硅谷著名风投机构 Greylock 合伙人;
  • Karén Simonyan,前 Google AI 科学家,在牛津大学完成博士后研究后,创办的第一家公司被 DeepMind 收购,随后成为 DeepMind 首席科学家。

3. 创业背景

Mustafa Suleyman 在意识到“对话式 AI”会是未来趋势之后,在 Google 内部引发了争议,因为这会影响 Google 最赚钱的搜索广告系统(因为有了 AI,用户会直接得到最有效的信息);所以,他于 2022 年 1 月份辞职,创办了自己的公司:Inflection.ai。

4. 产品简介

Pi 是目前 Inflection.ai 推出的第一款聊天机器人,相比于 ChatGPT 冷冰冰的文字输出,Pi 能够与你产生更强的链接,与你产生更多的对话,真正了解你的需求之后,再用“更像人话”的语气告诉你答案——是一个真正懂你、具有同理心的 AI 伴侣。

5. 发展进程

  • Inflection.ai 创立于 2022 年 3月;
  • 2023 年 5 月,推出 AI 对话机器人 Pi,同期拿到 2.25 亿美元种子轮融资;
  • 2023 年 6 月:拿到微软领投的 13 亿美元融资,Reid Hoffman、比尔·盖茨、Google 前 CEO Eric Schmidt 以及英伟达跟投;
  • 2023 年 11 月,推出第二代大模型 Inflection-2。


01. 什么是 Pi


主打 Personal AI 的 Inflection,11 月 22 日将自己的大模型又进行了升级,推出了具有 1750 亿参数的 Inflection-2;并且宣布,会在之后的几个月内,将最新的模型应用于自己的聊天机器人:Pi。

Pi 是 Inflection.ai 推出的第一款聊天机器人,与 ChatGPT 不同的是,Pi 并没有强调自己能够帮助人们在生产力方面提升多高的效率,而是突出它的陪伴属性,就像一位真正的老朋友,Pi 会始终保持同理心,站在用户的角度的思考问题,并且照顾用户的情绪。

如果 GPT 是一个“高 IQ”的工具人,那么,“Pi”则可以看作是一个“高 EQ”的伴侣——当你迷茫的时候,它可以是你的 Life Coach;当你伤心的时候,它可以给你一些安慰......

官网对 Pi 特点的描述

目前,Pi 提供多个终端的使用,不仅有网站与 iOS app,还支持在 Ins、Fb、Whatapp 直接使用,甚至你还可以直接通过手机号,与其进行短信对话——这非常符合 Inflection.ai 的定位,毕竟,真正的 AI 伴侣,就是应该随时陪伴你的身边。

此外,在具体上使用上,除了进行打字交流之外,Pi 还提供了 6 种不同的音色,方便用户与其进行直接对话。

Pi 于 2023 年 5 月上线,4 个月后,Pi 已经突破了 10 亿次对话,且目前网站月均 PV 已达到 300 多万次。(数据来源:similarweb)


02. Pi VS. ChatGPT


作为定位为 AI 伴侣的 Pi,其逻辑与数学能力,可能并不如 GPT,但是,对于长文本的理解、以及体现出的人性与温暖,远远胜过 GPT。

首先,Pi 会表达出对用户很强的认同感,并且对话状态让你感觉是真的在与它“聊天”,而绝非使用 GPT 时那种带有强目的性地“答案搜寻”。

提问:今天和我的男朋友分手了,有什么办法可以挽回?对比 Pi 与 ChatGPT 的回答,可以明显地看到,左图中的 Pi,更像一个真实的人在与你谈话,而右图中的 GPT,则像一个“理科男”——客观冷静地分点列出了不同的解决方案。如果 Pi 是 ENFP,ChatGPT 就是 INTJ。

 Pi 与 ChatGPT 的不同回答

其次,与 ChatGPT 不同,Pi 并不急于给出答案,而会联系上下文,向你提出更多的问题,为的只是更加了解用户,然后给出最合适的答案——这也是 Inflection 所说的“同理心”,也体现出了 Inflection 模型突出的长对话能力。

为了说明这一点,我们进行了一个测试,对这两个机器人提问 2 个连续问题:

1. 你知道 Notion 吗?它是什么?

2. 我遇到了一些问题。

可以看到,Pi 的回答是循序渐进的,当我提出第 2 个问题之后,Pi 还能够根据前文,继续提问“你在用 Notion 的时候遇到了什么问题?”;

而反观 ChatGPT,再对第一个问题进行长篇幅的说明之后,第二个问题并没有联系上下文,而是刷新了“记忆”,重新开始与用户的对话。

Pi 与 ChatGPT 的不同回答


03. 关于 Inflection 2


Pi 刚推出的时候,用的是 Inflection-1 模型;就在 11 月 22 日,Inflection-2 模型推出,这个拥有 1750 亿参数的模型,在各项大模型评估中,分数仅略低于 GPT-4,成为了顾名思义的全球第二大模型。

与 Inflection-1 相比,Inflection-2 具有更丰富的知识,更强的操控性以及更高的逻辑推理能力,以下这张图,表明了 Inflection-2 在多种模型评估中,都远胜于 Inflection-1,并且和谷歌的 PaLM2 站到了同一水平线;此外,在多种 AI 性能评估标准中(比如 MMLU、TriviaQA、HellaSwag 和 GSM8k),Inflection-2 都略好于后者。

Inflection-1、Inflection-2 与 PaLM 性能评估

Inflection-2 是在 5,000 个英伟达 H100 GPU 训练而成,尽管训练规模比 Inflection-1 大不少,但是得益于英伟达的帮助,Inflection 完成了从 A100 到 H100 的过度,因此,Inflection-2 可以在更低成本的基础上,提供更高的服务效率。

所以,对于 Pi 的更新来说,这是里程碑的一步;然而,这仅仅只是一个开始,Inflection 有着全球第一大的 GPU 集群(22000 张 H100),所以,Personal AI 的发展进展,可能会比大多数人想象中快不少。

接下来,我们来具体看看,Inflection-2 在各项模型评估中的表现。

首先,在 MMLU (5-shot) 上评估上,设置了从高中到专业水平的多种任务,Inflection-2 是除了 GPT-4 之外表现最佳的模型,甚至超过了具有因果链推理能力的 Claude 2。

各模型在 MMLU (5-shot) 上的表现

其次,在常识与科学问题的回答上,Inflection-2 也取得了超过 Inflection-1、PaLM-2(Google)、LLaMA(Meta)的分数,表现非常优异。

各模型在常识、科学问题回答上的得分

此外,在理解自然语言、提供准确信息和处理复杂查询方面的能力方面,相对于其他的模型,Inflection-2 同样也取得了不错的成绩,仅仅是在 Natural Questions(1)上表现略低于 PaLM2-Large。

各模型在 NaturalQuestions、Trivia QA 上的得分

最后,是对模型在数学以及逻辑推理能力上的评估,作为定位是服务于高 EQ 聊天机器人的模型,这方面的能力并不是其训练时的重点;但是通过下列图片,你依然能够看到,Inflection-2 在数学以及逻辑上的能力,仅次于 GPT-4。

所以,综合几项评测看下来,Inflection-2 已经是非常强大的 LLM;相比于自己的上一代模型,在各项评分上都取得了不少的增长;主要可能也是得益于英伟达的合作,在硬件上为模型训练提供了巨大的帮助。

不过,Inflection 本身的商业模式也是非常值得看好的,不仅有自己的基础大模型,可以进行 ToB 销售(并且现在也提供 API),而且也有自己的 ToC 产品 Pi(与之形成对比的,则是集成 GPT 服务的个人助理 rewind.ai)。

所以,这也是它能在融资额上(总共 15 亿美元),成为仅次于 OpenAI 第二大公司的原因所在。

此外,Inflection 与 OpenAI 也可能代表着 2 种不同的模型使用趋势,对于前者而言,每个人仅需要 1 个 AI 机器人足矣,不仅能提供情感陪伴,也能够提高日常生产力;而后者,代表的是则是,人们可能在不同的场景,都需要一个细分方向的 AI,比如 AI 医生,AI 律师,写作 AI 助手等——这也是为什么微软会分别重金押注这 2 家公司的原因之一。


04. 彩蛋:关于 Mustafa Suleyman


最后,带来一个小彩蛋,关于 CEO Suleyman 的传奇之处,以及 Inflection 这家公司是如何创立的。

Suleyman,生于 1984 年,自幼受到母亲护士身份的影响,从小目睹各种“人间疾苦”;而他的叙利亚父亲是一名出租车司机,同时也是一位热心的社区活动参与者——这样的成长背景,为 Suleyman 的人文主义观念奠定了基础。

后来,他在牛津大学学习哲学,但当时为了帮助在 911 后的穆斯林青少年,他从牛津辍学——不过,他自己也亲口承认,正是在牛津这段经历中,他对科技与人文主义的态度开始逐渐形成。

2010 年,Suleyman 与 Demis Hassabis、ShaneLegg 一起创办了 DeepMind,随后在 2014 年被谷歌以 6.5 亿美金收购;随后在 2016 年,Suleyman 在英国皇家医学学会启动了 DeepMind Health 项目,为了提高国民医疗服务的效率以及提高一线医疗保健的质量。

后来,Suleyman 成为了 DeepMind 应用 AI 的负责人,其工作职责是将机器学习技术应用到谷歌产品和流程等广泛场景,到 2019 年,他的团队在谷歌大约启动了 50 个 AI 项目,并且将 AI 应用于谷歌数据中心,让其冷却成本降低了 30%。

2020 年,Suleyman 看到了“对话式”人机交互的趋势,并加入了谷歌的自然语言研究团队,开始研究早期版本的 LaMDA 模型,当时他的主要贡献,就是提供了一种能让 AI 尽量“基于事实”,而非“幻觉”给出回答的方法,这也是后来 Inflection 最看重的模型能力。

随后,LaMDA 引起了谷歌高管的注意,但是由于与当前谷歌商业模式产生冲突(用户可绕过搜索广告直接得到 AI 给出的最佳答案)以及对反垄断法律的担忧(绕过搜索中呈现的第三方创作者,仅由谷歌为用户直接提供答案),Suleyman 的个人愿景并没有得到持续的重视——所以,他选择辞职,创办了现在的 Inflection AI,一个“对话式的”,充满“人文主义”色彩的,具有同理心的 AI 伴侣。

参考材料

https://inflection.ai/inflection-2

https://www.fastcompany.com/90959853/mustafa-suleyman-inflection-pi