揭秘Meta押注人工智能新武器:两款自研芯片+超算

转载
550 天前
6233
腾讯科技

文章转载来源:腾讯科技

原文:腾讯科技

过去几年,Facebook母公司Meta在元宇宙上投入巨资,并不断致力于相关硬件和软件的开发,甚至可能为此忽略了人工智能领域的最新趋势。但随着生成式人工智能爆火,Meta似乎重新调整了公司方向,开始在人工智能领域发力。美国当地时间周四,Meta发布了两款用于人工智能的自研芯片,并透露了其在人工智能超算方面取得的最新进展。

在周四的虚拟活动中,Meta展示了其为人工智能工作负载开发的内部基础设施,包括支持运行生成式人工智能,该公司在新推出的广告设计和创作工具中都集成了这种新技术。这是Meta展示实力的一次尝试。此前,该公司在采用对人工智能友好的硬件系统方面始终行动迟缓,这削弱了其与谷歌和微软等竞争对手保持同步的能力。

Meta负责基础设施的副总裁亚历克西斯·比约林说:“建立我们自己的硬件能力,使我们能够控制从数据中心设计到培训框架的每一层堆栈。这种水平的垂直整合是推动人工智能研究向前发展的必要条件。”

在过去十年左右的时间里,Meta花费了数十亿美元招募顶级数据科学家,并构建了新型人工智能,包括现在为其应用和服务中的发现引擎、审核过滤器和广告推荐提供支持的人工智能。但该公司始终难以将许多雄心勃勃的人工智能研究创新转化为产品,尤其是在生成式人工智能方面。

直到2022年,Meta才通过使用CPU和为加速人工智能算法而设计的定制芯片来运行其人工智能工作负载。但Meta取消了原计划于2022年大规模推出的定制芯片,因为这需要对其几个数据中心进行重大重新设计,它转而订购了价值数十亿美元的英伟达GPU。


AI加速器芯片


为了扭转局面,Meta计划开始开发一种更雄心勃勃的内部芯片,并定于2025年推出。这种芯片能够用于训练人工智能模型,也能支持运行它们。

Meta将这款新芯片称为Meta训练和推理加速器,简称MTIA,并将其归类为加速人工智能训练和推理工作负载的“芯片家族”。“推理”指的是运行某个经过训练的模型。MTIA是一种专用集成电路(ASIC),即将不同电路组合在一块电路板上的芯片,允许被编程以并行执行一个或多个任务。

图1:为人工智能工作负载定制的人工智能芯片

比约林继续说道:“为了在我们的重要工作负载中获得更好的效率和性能,我们需要一个与模型、软件堆栈和系统硬件共同设计的定制解决方案。这为我们的用户在各种服务上提供了更好的体验。”

定制人工智能芯片越来越成为大型科技公司的主打产品。谷歌开发了一种处理器TPU(张量处理单元),用于训练PaLM-2和Imagen等大型生成式人工智能系统。亚马逊向AWS客户提供专有芯片,用于培训(Trainium)和推理(Inferentia)。据报道,微软正在与AMD合作开发一款名为“雅典娜”的内部人工智能芯片。

Meta表示,该公司在2020年开发了第一代MTIA(MTIA v1),并使用7纳米工艺生产。它可以从128 MB的内存扩展到128 GB,在Meta设计的基准测试中,Meta声称MTIA能比GPU更有效地处理“低复杂度”和“中复杂度”的人工智能模型。

Meta表示,在芯片内存和网络领域仍有很多工作要做,随着人工智能模型规模的增长,这些领域都还存在瓶颈,需要将工作负载分散到多个芯片上。令人觉得巧合的是,Meta最近收购了英国芯片独角兽Graphcore位于奥斯陆的人工智能网络技术团队。就目前而言,MTIA的重点是针对Meta应用系列的“推荐工作量”上进行严格的推理,而不是培训。

但Meta强调,在运行推荐工作负载时,不断改进的MTIA“大大”提高了公司的效率,从而使Meta能够运行“更多增强”和“尖端”的人工智能工作负载。


人工智能超级计算机


也许将来有一天,Meta会将其大部分人工智能工作负载交给MTIA负责。但目前,这家社交网络巨头依靠的是其专注于研究的超级计算机Research SuperCluster。

Research SuperCluster于2022年1月首次亮相,由企鹅计算、英伟达和Pure Storage合作组装,目前已经完成了第二阶段的建设。Meta表示,Research SuperCluster现在总共包含2000个英伟达DGX A100系统,配备16000个英伟达A100 GPU。

那么,Meta为什么要在内部建造超级计算机呢?首先,这里有其他科技巨头带来的压力。几年前,微软对其与OpenAI合作开发的人工智能超级计算机进行了大肆宣传,最近又表示将与英伟达合作,在Azure云上构建新的人工智能超级计算机。同时,谷歌也在吹捧自己的人工智能超级计算机,该计算机拥有26000个英伟达H100 GPU,远远超过Meta的超算。

图2:Meta公司用于人工智能研究的超级计算机

但Meta表示,除了保持与其他同行同步,Research SuperCluster还允许其研究人员使用Meta系统中的现实世界示例来训练模型。这与该公司之前的人工智能基础设施不同,后者只能利用开源和公开可用的数据集。

Meta发言人表示:“Research SuperCluster人工智能超级计算机用于推动人工智能研究在几个领域的发展,包括生成式人工智能。这实际上与人工智能研究的工作效率息息相关。我们希望为人工智能研究人员提供最先进的基础设施,使他们能够开发模型,并为他们提供一个促进人工智能发展的培训平台。”

在其巅峰时期,Research SuperCluster的计算能力可以达到5 exaflop,Meta声称这是世界上最快的计算机之一。Meta表示,它使用Research SuperCluster来训练大语言模型LLaMA。今年早些时候,Meta向研究人员开放了“封闭发布”的大语言模型访问权限。Meta说,最大的LLaMA模型在2048个A100 GPU上进行了训练,耗时21天。

Meta发言人称:“Research SuperCluster将帮助Meta的人工智能研究人员建立新的、更好的人工智能模型,这些模型可以从数万亿个例子中学习,工作跨越数百种不同的语言,无缝地分析文本、图像和视频,以及开发新的增强现实工具等。”


视频转码器


除了MTIA, Meta还在开发另一种芯片来处理特定类型的计算工作负载。这款芯片被称为Meta可扩展视频处理器,简称MSVP,它是Meta内部开发的第一个专用集成电路(ASIC)解决方案,专为应对视频点播和流播的处理需求而设计。

有些人可能还记得,Meta多年前就开始构思定制的服务器端视频芯片,并在2019年宣布了一款用于视频转码和推理工作的ASIC。MSVP就是这些努力的成果之一,也是在流播领域重新推动竞争的结果。

Meta技术主管哈里克里希纳·雷迪和陈云青(音)在他们合著的博客文章中写道:“仅在Facebook上,人们就把50%的时间花在了观看视频上。我们需要服务于世界各地的各种设备(如移动设备、笔记本电脑、电视等),例如上传到Facebook或Instagram的视频被转码成多个比特流,它们具有不同的编码格式、分辨率和质量,MSVP是可编程和可扩展的,可以配置为有效地支持VOD所需的高质量转码,以及直播所需的低延迟和更快的处理时间。”

图3:Meta的定制芯片旨在加速视频工作负载,如流播和转码

Meta表示,该公司的计划是最终将大部分“稳定而成熟”的视频处理工作负载转移给MSVP,只对需要特定定制和“显著”提高质量的工作负载使用软件视频编码。Meta还称,通过智能去噪和图像增强等预处理方法,以及伪影去除和超分辨率等后期处理方法,MSVP在提高视频质量方面的工作仍在继续。

雷迪和陈云青称:“将来,MSVP将使我们能够支持更多Meta最重要的用例和需求,包括短视频,从而实现生成式人工智能、AR/VR和其他虚拟现实内容的高效交付。”


人工智能焦点


如果说最新硬件公告中有一个共同点的主线,那就是Meta正在拼命加快人工智能的发展步伐,特别是在生成式人工智能方面。

今年2月,据称Meta首席执行官马克·扎克伯格已将提升Meta的人工智能计算能力作为首要任务,他宣布成立新的顶级生成式人工智能团队,用他的话说,这将为公司的研发“涡轮增压”。Meta首席技术官安德鲁·博斯沃思最近也表示,生成式人工智能是他和扎克伯格花费最多时间的领域。据Meta首席科学家杨立昆透露,该公司计划部署生成式人工智能工具,在虚拟现实中创造物品。

今年4月,扎克伯格在Meta第一季度财报电话会议上表示:“我们正在探索WhatsApp和Messenger的聊天体验,Facebook和Instagram上的帖子和广告的视觉创作工具,以及随着时间推移的视频和多模式体验。我希望这些工具对每个人都有价值,从普通人到创作者再到企业都是如此。例如,我预计,一旦我们获得了这种体验,就会有很多人对商业信息传递和客户支持方面的人工智能代理产生兴趣。随着时间的推移,这也将扩展到我们在虚拟世界的工作中,在那里人们将更容易创建化身、对象、世界和将所有这些联系在一起的代码。”

在某种程度上,Meta正感到到越来越大的压力,投资者担心该公司的行动不够快,无法在生成式人工智能的巨大潜在市场分一杯羹。目前,该公司还没有推出可与Bard、必应或ChatGPT等聊天机器人竞争的产品。在图像生成方面也没有取得太大进展,这是另一个爆炸式增长的关键领域。

如果这些预测是正确的,生成式人工智能软件的总目标市场规模可能达到1500亿美元。美国投行高盛预测,这将使GDP增长7%。

即使部分预测成真,也可以弥补Meta在增强现实头盔、会议软件和Horizon Worlds等元宇宙技术上的数十亿美元投资损失。Meta负责增强现实技术的部门Reality Labs上个季度净亏损40亿美元,预计整个2023年的运营亏损将继续增加。