用MoE技术和开源模型建立差异化MistralAI获4.15亿美元融资

转载

901 天前

13629

AGIing

文章转载来源：AGIing

图片来源：由无界 AI生成

12月8日，Mistral AI在X（原Twitter）上发布了一条磁力链接，直接开源了自己最新的MoE（Mixture of Experts）大模型Mixtral 8x7B，这个模型不仅在测试成绩上追平甚至超越了Llama 2 70B和GPT-3.5，也带动MoE（Mixture of Experts）成为开源AI社区的最火议题。

伴随着这个模型的开源，Mistral AI完成了自己的最新一轮融资，这轮融资由a16z和Lightspeed Venture Partners领投，总金额约合4.15亿美元。根据彭博社报道，这一轮中，英伟达和Salesforce也承诺以可转换票据的形式参与投资，金额1.2亿欧元。这使得Mistral AI的估值达到约20亿美元，自6月份首次亮相以来，其估值已增长超过七倍，成为欧洲最成功的大模型公司。

在今年6月，Mistral AI获得1.05亿欧元（约合1.13亿美元）的种子融资，由Lightspeed Venture Partners领投，众多欧洲投资机构及前谷歌首席执行官Eric Schmidt、法国亿万富翁Xavier Niel和法国广告巨头JCDecaux参投。

为什么这家22人的创业公司可以短时间内连获两轮大额融资？一方面，它由来自DeepMind和MetaAI的技术专家组建了“世界级团队”，并用高性能和高效率的开源AI模型证明了自己的实力和潜力。另一方面，它为法国和欧洲提供了自主可控AI的机会，其开源路线也让企业开发者有了更多的选择。

DeepMind与llama核心技术专家联手建立欧洲自己的OpenAI

Mistral AI的三位联合创始人是来自DeepMind的Arthur Mensch（CEO）及MetaAI的两位资深技术专家Timothée Lacroix（CTO）和Guillaume Lample（首席科学家）。

Arthur Mensch参与了Deepmind的多个经典的模型：Flamingo（重要的多模态模型）、Chinchilla、Gopher，他是Flamingo和Chinchilla的核心贡献者，对多模态、RAG等技术有深刻的理解。

Timothée Lacroix和Guillaume Lample是MetaAI的llama系列开源大模型的核心研究人员。其中Timothée Lacroix在Meta有8年工作经历，对于AI模型推理和嵌入模型有深入研究，Guillaume Lample则对模型的推理能力和预训练有丰富经验。

Mensch介绍，三位创始人联合创立Mistral AI，其使命是让生成式AI为所有企业所用。“目前我们已经证明了AI的能力，但是它仍然不够普及，我们需要解决这个问题，为更多人提供易于使用的AI和工具，以创造自己的产品。”Mensch表示。

Mistral AI在其博客文章中表述了做开源AI模型的初衷：“我们相信对于生成式AI，采取开放方式是必要的。

我们坚信，通过训练我们自己的模型，公开发布它们，并促进社区贡献，我们可以构建一个可信的替代方案，对抗正在形成的人工智能寡头垄断。开放权重的生成式AI模型将在人工智能革命中发挥关键作用。”

而OpenAI和谷歌等走闭源路线的大公司则认为，将大模型开源是有危险的，这可能导致底层大模型被“坏人”掌握，并被做成恶意工具。

OpenAI和谷歌也以身作则，花费数月时间为大模型开发安全防护措施，以确保它们不能被用来传播虚假信息和仇恨言论，或生成有偏见的问题回答。

a16z的合伙人Anjney Midha在接受《纽约时报》采访时表示：“我们相信人工智能应该是开放的，开源方法已成为除计算机操作系统、编程语言、数据库等几乎所有其他技术领域的常态。”

Lightspeed的合伙人Antoine Moyroud在接受TechCrunch采访时则说：“支持Mistral AI的一个原因是其创始人对生成式AI的愿景，以及知道何时何地应用这一技术。这是一个非常有才华的团队，我们认为，目前全球只有大约70-100人拥有他们在语言模型及其优化方面的专业知识。”

用开源的MoE模型以小博大

翻开Mistral AI的X（原Twitter）页面，最上方的两条内容都是磁力链接，这代表了他们对两个模型的开源。

Mistral 7B初试啼声

今年9月，Mistral AI发布了其首个语言模型Mistral 7B，拥有73亿参数，它在基准测试中成绩超过了Meta的Llama 2等参数更大的先进开源模型。

据Mistral AI的CEO Mensch表示，他们为其LLM设计了一种更高效、更具成本效益的训练方法，其模型的运营成本不到OpenAI或谷歌最佳大模型的一半。

Mistral 7B在所有基准测试中超越了Llama 2 13B ，在许多基准测试中超越了Llama 1 34B ，在代码性能上接近CodeLlama 7B，同时在英语任务上表现良好。

Mistral 7B分组查询注意力（GQA）以实现更快的推理使用滑动窗口注意力（SWA）以较小的成本处理更长的序列。

最重要的是，该模型是在Apache 2.0许可下发布的，这是一种高度宽松的方案，除了归属之外没有使用或复制的限制。这意味着，无论是业余爱好者、数十亿美元的大公司，只要他们有能力在本地运行该系统，或愿意支付所需的云资源费用，都可以使用该模型。还可以在HuggingFace上使用 Mistral 7B针对任何任务进行微调。

Mistral团队表示，他们在训练Mistral 7B的同时，重建了顶级性能的MLops堆栈，并从零开始设计了最复杂的数据处理管道。

Mixtral 8x7B展现实力

12月，Mistral AI再次发布一条磁力链接，开源了他们的MoE（Mixture of Experts）大模型Mixtral 8x7B。Mixtral 8x7B是一款具有开放权重的尖端稀疏专家混合模型（SMoE），它具有32k Tokens的上下文能力以及对包括英语、法语、意大利语、德语和西班牙语在内的多种语言的支持，它同样采用Apache 2.0许可证进行开源。

MoE（Mixture of Experts）在Transformer模型中的应用主要是为了提高模型的处理能力和效率。MoE通过将大型模型分解为多个“专家”子模块来实现这一点。每个专家负责处理输入数据的一个特定方面或子集。

在MoE架构中，每个专家可能是一个小型的Transformer模型，专门处理特定类型的输入数据。例如，一个专家可能专注于处理自然语言的语法结构，而另一个专家可能专注于理解语义内容。

MoE架构中的一个关键组成部分是门控机制，它决定了哪些专家应该被用于处理特定的输入数据。这种机制可以基于输入数据的特性来动态选择最合适的专家组合。

通过使用MoE，Transformer模型可以更有效地扩展到大规模数据集和复杂任务。这是因为它允许模型仅激活和使用处理特定输入最相关的专家部分，而不是整个模型。

具体到Mixtral 8x7B，它是一个仅限解码器的模型，其中前馈块从8组不同的参数集中选择。在每一层，对于每个标记，一个路由网络选择这些组中的两组（“专家”）来处理标记，并将它们的输出以加法方式结合。

它拥有46.7B的总参数量，但每个token只使用其中12.9B参数。因此，Mixtral的实际执行速度和所需的成本，都只相当于一个12.9B的模型。

在性能上，它在大多数基准测试中超越了目前开源大模型的标杆Llama 2 70B，并且与GPT3.5不相上下，在总共7项对比测试中，它获得4项测试的最高分数。

在另一项包含Mistral 7B的测试中，可以看出，Mistral 7B的分数几乎总是高于Llama 2 7B甚至Llama 2 13B，而Mixtral 8x7B相对Llama 2 70B也有非常明显的优势，再考虑到Mixtral 8x7B在推理成本上的优势（比Llama 2 70B快6倍），这个对比的结果更加明显。

大模型的幻觉和偏见内容是评判其可用性的重要指标，Mixtral 8x7B在TruthfulQA、BBQ、BOLD等相关基础测试上获得了比Llama 2 70B明显更优的结果。Mixtral在TruthfulQA基准测试中更为真实（73.9%对比50.2%），并且在BBQ基准测试中表现出更少的偏见，Mixtral在BOLD上展现出比Llama 2更多的积极情绪。

Mixtral还推出了 8x7B Instruct，这个模型通过监督式微调和直接偏好优化（DPO）进行了优化，以便精确地遵循指令。在MT-Bench上，它达到了8.30的分数，使其成为最好的开源模型，其性能可与GPT3.5媲美。

可用性和商业模式

目前，Mistral AI开放了首个平台服务的测试版—la plateforme。平台提供了三个基于指令生成文本的聊天模型，以及一个嵌入模型。

Mistral-tiny和Mistral-small已经正式发布，而性能更强的mistral-medium还处在测试阶段。这些模型在开放网络抽取的数据上进行预训练，随后通过标注进行指令微调。

Mistral-tiny基于Mistral 7B Instruct v0.2，Mistral-small基于Mixtral 8x7B，Mistral-medium还在测试中，不过其性能非常值得期待。

除此之外，MistralAI还开放了API，其模型也能在 Hugging Face、Poe、Replicate等平台上直接使用。

那么做开源的Mistral AI商业模式是什么呢，很有可能是现阶段开源模型可以免费使用，但是在后期可能推出更大性能更强的模型，并以API的方式收费。

鉴于Mistral AI对于底层技术的理解深度和创新，他们也可能搭建AI定制化平台，为企业用户提供微调，RAG，定制化等服务。

Mistral AI在一篇博客中写道：“我们的商业产品将作为白盒解决方案分发，使权重和代码源都可用。我们正在积极开发托管解决方案和专门针对企业的部署。”

创业公司做开源大模型的意义在哪里？

创始人的基因决定了企业的基因，Mistral AI的创始人们来自llama团队和DeepMind，本身就具有开源的基因，这一定程度上促使他们采用开源的战略。而且因为创始团队和技术团队能力的强大，它们的小模型和MoE模型不仅拥有超强的性能/参数比，而且在推理成本上有明显的优势。

并且这种“小模型”的策略，是有意为之，Mistral AI的创始人Mensch认为，小模型有助于Agents的开发和应用，因为如果在GPT-4上运行 Agents，推理成本会很高，很容易很快就耗光资金。但如果能通过小模型将Agents运行的计算成本降低100倍，那么就有机会构建很多有意思的应用了。

除了开源、小模型、MoE技术外，Mistral AI的另一个差异化是它面向的欧洲市场。

一方面，欧洲拥有超过100家的500强公司，多集中在传统行业如汽车、石油和天然气、制药、电信、银行等。它们拥有足够的付费能力，且对先进技术解决方案有强烈的需求。

另一方面，欧洲有特殊的经营环境，主要表现在更严格的监管和技术透明度要求，例如GDPR和欧盟AI法案等。身处欧洲的AI独角兽，更有可能适应这些法规，并有可能获得更多支持。

llama2的开源本身对于生成式AI的应用生态就是利好，帮助AI应用公司节省了巨量的模型预训练成本。现在有Mistral AI这样既开源，又能让小模型有超强性能，还能用MoE模型去媲美更大尺寸模型的先进AI技术公司，这对于AI应用的发展将起到更大的推动作用。

关键词：

来源：AGIing

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：整合AI押注工业元宇宙的微软，2024年会是收获之年吗？

下一篇：RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

用MoE技术和开源模型建立差异化MistralAI获4.15亿美元融资

DeepMind与llama核心技术专家联手建立欧洲自己的OpenAI

用开源的MoE模型以小博大

创业公司做开源大模型的意义在哪里？

18256篇

124362569

新闻排行

RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

数字人民币2.0全景：从16.7万亿交易额之后的制度化跃迁

催生万亿新资产：AI代理如何拥有、赚取和交易

250亿美元RWA市场背后的政策红线：42号文的“境内严禁”到底划在哪？

GPT-5.4与百万token时代：上市公司的AI转型窗口还剩多久

美国资本重注拉美：赌的不是增长，是金融体系的"关键节点"

对话美财长ScottBessent，解构2026宏观迷雾下的“世界想象力”

友情链接：