算力狂欢,谁是“中国版”英伟达?

转载
480 天前
7142
AIGC

文章转载来源:AIGC

来源:芯潮IC

文: 王艺可 十巷

编辑:苏扬 叙白

“芯事重重”腾讯科技半导体产业研究策划,本期芯潮IC联合腾讯科技,聚焦大模型爆火的背后,全球芯片算力市场的新格局的形成,头部企业的布局以及国产厂商的追逐。

ChatGPT意外掀起的一波AI革命,再次带火了AI芯片市场。

“A800 和 H800 这类芯片,从原来的12万人民币左右,变成了现在25万甚至30万,甚至有高达50万一片。”这是发生在国内芯片分销圈的真实一幕,除了价格不断暴涨,国内大厂想大批量拿芯片,还要得和黄仁勋“有直接关系”。

正所谓“无芯片,不AI”,随着大模型的算力需求飙升,身为AI技术地基的芯片迎来了重要商机。OpenAI曾预计,人工智能科学研究要想取得突破,所需要消耗的计算资源每3到4个月就要翻一倍,资金也需要通过指数级增长获得匹配,这也被称为人工智能领域的“摩尔定律”。

英伟达CFO克雷斯表示,目前AI 算力市场的需求已经超出了公司对未来数个季度的预期,订单已经多到做不过来。

生成式AI这波浪潮,让英伟达赚了个盆满钵满。在上市14年之后,英伟达成功跻身万亿美元市值俱乐部,而实现这一目标,硅谷巨头们诸如苹果用了37年、微软用了33年、亚马逊用了21年,特斯拉跑得最快,只用了11年。

这也刺激着中国芯片企业跃跃欲试,诸如海光信息、寒武纪、龙芯中科、壁仞科技、天数智芯等国产芯片企业,都怀揣一颗“中国版”英伟达的雄心,尝试凭自研为国产大模型赋能。一些大厂也开始用自研AI芯片支持模型的部分训练或推理任务,如百度昆仑芯片、阿里含光800......

面对AI算力带来的万亿市场,国内企业能不能吃到这波红利呢?国产芯片厂商该如何越过英伟达“高山”?这是任何一家公司都无法逃避的问题。


01、AI狂潮缔造了一个万亿市值的英伟达


爱穿皮衣的男人最先吃到了AI红利。

2022年底,ChatGPT问世后,迅速在全世界引起了 AI 狂潮。在这其中,一直押注AI未来的英伟达,成为了ChatGPT浪潮中受益最多的公司之一。在今年的英伟达GTC大会上,英伟达创始人CEO黄仁勋披露了全新的人工智能及芯片技术,并称人工智能的“iPhone时刻”已经到来。

在发布会上,黄仁勋表示,类似ChatGPT的大型语言模型的部署是一个重要的全新推理工作负载,为了支持大型语言模型推理,英伟达发布了一系列围绕 AI 领域的产品和服务,其中,采用全新架构和更先进制程的 H100 芯片最为引人注目。

图源:NVIDIA官网

这款 GPU是基于 NVIDIA Hopper 架构的 H100 ,配有一个 Transformer 引擎,旨在处理驱动类似ChatGPT的 预训练模型。与用于 GPT-3 处理的 HGX A100 相比,配备四对 H100 与双 GPU NVLink 的标准服务器的训练速度可提10 倍。

“H100可以将大语言模型的处理成本降低一个数量级。”黄仁勋曾表示。基于H100芯片,英伟达还构建了最新的DGX超级计算机,搭载8个H100 GPU,使它们连接成为一个巨大的GPU,为AI基础设施的构建提供“蓝图”,目前全新的DGX超级计算机已经全面投产。

在这之后,英伟达旗下 A100、H100、A800 和 H800 等高性能 GPU 芯片应声涨价,尤其旗舰级芯片H100,4 月中旬在海外电商平台就已炒到超 4 万美元,甚至有卖家标价 6.5 万美元。

同时,英伟达的中国特供版 A800 和 H800芯片也遭到了哄抢。“国内大模型企业基本上很难拿得到这些芯片。整个市场需大于求,缺货非常厉害。”电子元器件采购供应商「广鑫世纪」创始人张觉对芯潮IC坦言:“今年,这类GPU芯片从原来的12万人民币左右,变成了现在是25万甚至30万,甚至有高达50万一片。”。

毫无疑问,英伟达在高性能GPU方面的技术领先地位,旗下A100和H100两款AI芯片是ChatGPT这样的大语言模型的核心动力。

一些云计算专业人士认为,1万颗英伟达A100芯片是一个好的AI模型的算力门槛。而微软为OpenAI构建的用于训练其模型的AI超级计算机就配备了1万颗英伟达的GPU芯片。无独有偶,国内各互联网大公司也纷纷向英伟达下大单,据晚点 LatePost报道,字节今年向英伟达订购了超过 10 亿美元的 GPU,另一家不便透露姓名的大公司,其订单也至少超过 10 亿元人民币。

更夸张的是,这些公司最终能否抢到卡,更多是看商业关系,尤其以往是不是英伟达大客户的企业。“你是和中国英伟达谈,还是去美国找老黄(黄仁勋)直接谈,都有差别。”

由此,英伟达的财务数据再度攀上新高。5月25日,英伟达发布一季度财报,AI芯片所在数据中心业务的营收创历史新高,保持10%以上同比增速。

黄仁勋透露,现在整个数据中心产品系列都在生产中,都正在大幅增加供应,以满足激增的需求。

一系列好消息,直接带动英伟达股价节节走高。5月30日晚,美股开盘,英伟达市值直接突破1万亿美元。而7月19日,英伟达总市值更是在一夜间飙升了1750亿美元,再次引发投资热潮。

根据companiesmarketcap网站显示,英伟达总市值排名全球第6,也是目前市值最高的芯片公司,接近于两个台积电(5336亿美元),今年以来英伟达股价涨幅约180%。不得不承认,这波AI狂潮让黄仁勋的英伟达盆满钵满。


02、英伟达不可能独享算力狂潮


“英伟达不会永远在大规模训练和推理芯片市场占据垄断地位。”

这是特斯拉CEO埃隆·马斯克对社交问答网站和在线知识市场Quora的首席执行官Adam D'Angelo一条推文的回应,后者写道:“人工智能热潮被低估的一个原因是GPU/TPU短缺,这种短缺导致了产品推出和模型培训的各种限制,但这些都不明显。相反,我们看到的是英伟达的股价飙升。一旦供给满足需求,事情就会加速发展。”

显然,硅谷钢铁侠对此并不认同,他还评论称:“许多其他的神经网络加速器芯片也在开发中,英伟达不会永远垄断大规模训练和推理。”

一场风暴即将来袭。

以大模型为核心的AI狂潮,能带动多大的算力市场?东吴证券认为,AI模型算力需求持续扩张,打开高性能计算芯片的市场需求,预计2025年我国AI芯片市场规模将达到1780亿元,2019-2025复合年均增长率可达42.9%。从市场规模来看,AI芯片上处于起步阶段,但增长潜力巨大。

而AI芯片是一个广义概念,泛指专门用于处理人工智能应用中的计算任务的模块,是诞生于人工智能应用快速发展时代的处理计算任务硬件,凡是面向人工智能应用的芯片均被称为AI芯片。主要的技术路线有三种:通用型(GPU)、半定制型(FPGA)、定制型(ASIC)。

从大模型的训练、场景化的微调以及推理应用场景来看,以CPU+AI芯片提供的异构算力,并行计算能力优越、具有高互联带宽,可以支持AI计算效力实现最大化,成为智能计算的主流解决方案。

从市场份额来看,据艾瑞咨询测算,到2027年,中国的AI芯片市场规模预计将达到2164亿元。随着AI模型的优化落地,AI推理芯片的占比将日益提升。2022年,中国AI训练芯片以及AI推理芯片的占比分别为47.2%和52.8%。

目前,在AI芯片领域有三类玩家:一种是以英伟达、AMD为代表的老牌芯片巨头,产品性能突出;其二是以Google、百度、华为为代表的云计算巨头,这些企业纷纷布局通用大模型,并自己开发了AI芯片、深度学习平台等支持大模型发展。譬如,华为的鲲鹏昇腾、CANN及Mindspore,百度的昆仑芯等。最后还有一些小而美的AI芯片独角兽,如寒武纪、壁仞科技、天数智芯等。

虽然国产大模型爆发,可能引发算力缺口,但国内芯片厂商吃上国产替代这波红利只是时间问题。作为AI训练芯片研发商,“AI芯片第一股”寒武纪再次得到市场关注,股价不断拉升,最新市值突破900亿。

在云端产品线,寒武纪已经推出了四代芯片产品:2018年的思元100、2019年的思元270、2020年的思元290(车载)、以及2021年发布的思元370系列,用以支撑在云计算和数据中心场景下复杂度和数据吞吐量高速增长的人工智能处理任务。此外,寒武纪还有一款在研产品思元590,尚未发布。此外,2022年底,思元370系列与AIGC产品百度飞桨完成II级兼容性测试。

但国内大模型公司是否采用了寒武纪芯片,尚未得到准确消息。“在高端AI芯片领域,国产厂商处于刚刚起步的阶段,很多东西需要时间和金钱验证。”某资深芯片工程师袒露。哪怕是华为、百度、海光信息等企业的芯片也与英伟达产品有着明显差距。

曾有人坦言,英伟达与其他芯片厂商的差距,是院士与高中生的差别。就如同黄仁勋所言,英伟达“一直在奔跑”,想要超越巨人的其它芯片厂商只能奋力狂奔。


03、AI大模型背后的“权力游戏”


除了英伟达之外,另一个GPU巨头AMD,最近也有了行动。

近日,AMD发布最新加速卡,就在AMD推出最新加速卡Instinct MI300X的发布会现场,PPT上专门打出一行字——大语言模型专用,这被业界视为直接向英伟达宣战!

据悉,MI300X的高带宽内存(HBM)密度,最高可达英伟达H100的2.4倍,高带宽内存带宽最高可达H100的1.6倍,显然MI300X能运行比H100更大的AI模型。

MI300X所在的MI300系列,是AMD为AI和HPC打造的一系列最新APU加速卡。其中,MI300A是“基础款”,MI300X则是硬件性能更高的“大模型优化款”。

目前来看,MI300A已经出样,估计不久就能买上;大模型专用卡MI300X、以及集成8个MI300X的AMD Instinct计算平台,预计今年第三季度出样,第四季度就能推出。

这几年来,相比英伟达一直在AI领域的大动作,AMD的行动显得有点迟缓。正如DeepBrain AI的CEO Eric Jang所言,感觉AMD这几年让他很失望,5年来没什么变化。尤其是在AIGC的爆发过程中,如果AMD不努力跟上,差距只会越拉越大。

而随着AMD此次MI300系列产品的推出,终于能看到AMD和英伟达正面打擂台了。

但遗憾的是,市场对AMD的新卡好像不太买账。

就在这次AMD发布会期间,其股价不升反降。相比之下,英伟达股价还上涨了一波。市场情绪也不难理解,因为在高科技领域,尤其是新兴市场,一步快步步快、强者恒强正在成为商业市场的普遍逻辑。

但其实细究原因也能发现,英伟达垄断人工智能训练芯片市场的主要原因是其自研的CUDA生态。所以AMD MI300想要替代英伟达,首先需要兼容英伟达的CUDA生态,AMD为此推出ROCm生态圈,并实现通过HIP完全兼容CUDA,借此来减少用户已知成本。

对此,知名投资博主慕容衣认为,走兼容英伟达 CUDA 的路线的难点在于其更新迭代速度永远跟不上 CUDA ,并且很难做到完全兼容,即一方面迭代永远慢一步。英伟达 GPU 在微架构和指令集上迭代很快,在上层软件堆栈上很多地方也要做相应的功能更新,但是 AMD 不可能知道英伟达的产品路线图,软件更新永远会慢英伟达一步(例如 AMD 有可能刚宣布支持了 CUDA11, 但是英伟达已经推出 CUDA12了);另一方面,难以完全兼容反而会增加开发者的工作量,像 CUDA 这样的大型软件本身架构很复杂,AMD 需要投入大量人力物力用几年甚至十几年才能追赶上,因为难免存在功能差异,如果兼容做不好反而会影响性能。所以,这些也是大家目前不太买账的关键原因。

据Khaveen Investments测算,英伟达数据中心GPU 2022年市占率高达88%,AMD和英特尔瓜分剩下的部分。

自从去年OpenAI发布ChatGPT以来,新一轮科技革命持续发酵。可以说,很多年都没有哪一项科技进步如ChatGPT这般吸引全球的目光。

国内外各个科技公司、科研机构、高等院校都在跟进,不到半年时间,就跑出了非常多的大模型应用的创业公司,融资规模也屡创新高。

据知乎博主wgang梳理,包括百度、科大讯飞、第四范式、清华、复旦在内的国内各个大厂、创业公司、科研院校都相继发布了大模型产品:

图源:知乎wgwang

能看到,不仅是在通用领域,在具体的行业场景,尤其是一些专业性强、知识密度高的领域,科技公司们也在纷纷发布垂直领域的大模型。譬如美股上市公司百家云(RTC)结合对企业服务需求的洞察,近日发布了AIGC产品「市场易」,这也是首款适用于企业市场部内容生产场景的GPT大模型引擎。

有业内人士笑称:“国产大模型已形成群模乱舞、百模大战的局面,预计到年底会有超过100个的大模型。”

然而,大模型的发展需要算法、算力、数据三大重要因素的支撑,算力是大模型训练的重要能量引擎,也是目前国内发展大模型产业的一大壁垒。

芯片能力直接影响着高算力训练效果和速度。上文提到,尽管国产大模型产品频出,但从其背后支持的芯片来看,所有这些平台使用的要么是英伟达 A100、H100 GPU,要么是去年禁令后英伟达专门推出的减配版 A800、H800,这两款处理器带宽分别是原版的约3/4和约一半,避开了高性能 GPU 的限制标准。

今年 3 月,腾讯率先宣布已用上H800,在腾讯云发布的新版高性能计算服务中已使用了 H800,并称这是国内首发。

阿里云也在今年 5 月对内提出把 “智算战役” 作为今年的头号战役,GPU数量成为其战役的重要指标。

此外,商汤也宣称,其 “AI 大装置” 计算集群中已总共部署了近3万块GPU,其中有1万块是英伟达A100。字节和美团则直接从公司其他业务团队那里匀出GPU供大模型训练使用。甚至有厂家自2022年下半年起就持续在市场中寻觅能拆出A100的各类整机产品,目的仅是获得GPU芯片。“机子太多,存放的地方都不够用。”

据了解,国内头部科技企业在AI和云计算方面投入较大,过去A100的积累都达到上万块。

与此同时,中国科技大厂还在进行新一轮的采购竞争。

据某云服务商透露,字节、阿里等大公司主要是和英伟达原厂直接谈采购,代理商和二手市场难以满足其庞大需求。

正如上文提到的,字节跳动今年已向英伟达订购了超过10亿美元的GPU产品,仅字节一家公司今年的采购量就已经接近英伟达去年在中国销售的商用GPU总销售额。报道称,还有另一家大公司的订单也至少超过 10 亿元。

可见,中国大科技公司对于采购GPU非常急迫。

不止国内企业,国外大客户对英伟达的A100/H100芯片需求同样非常强烈。据数据统计,最早开始测试类ChatGPT产品的百度,2020年以来的年资本开支在8-20亿美元之间,阿里在60-80亿美元之间。同期,亚马逊、Meta、Google、微软这四家自建数据中心的美国科技公司的年资本开支最少均超过150亿美元。

目前英伟达订单能见度已至2024年,高端芯片非常紧缺。以现在的排产进度,就连A800/H800都要到今年底或明年才能交货。短期内,从其受追捧程度来看,唯一影响英伟达高端GPU销量的或许只有台积电的产能。


04、“疯抢”英伟达背后,国产芯片软硬皆不足?


从大模型产品芯片供应情况来看,在AI大模型训练上,现在A100、H100及其特供中国的减配版A800、H800找不到替代品。

那么,为什么在这一轮GPT热潮中,英伟达率先跑出来并表现出色?

华映资本管理合伙人章高男表示,一方面是因为英伟达布局最早,其微内核结构也是一代一代去演进和改进的。现在无论是从并发能力、总线速度,还是微内核对矩阵变换的成熟支持,其能力已经非常高效,包括它同时提供非常完善的CUDA计算平台,事实上已经成为深度学习算法实现的潜在行业标准,整个产业链的配套也非常完整,综合竞争壁垒和护城河深度极高。

总结来看,英伟达GPU目前的不可替代性,源自大模型的训练机制,其核心步骤是预训练(pre-training)和微调(fine-tuning),前者是打基础,相当于接受通识教育至大学毕业;后者则是针对具体场景和任务做优化,以提升工作表现。

那么,国产GPU芯片是否可以支撑大模型的算力需求呢?

在实际应用中,大模型对于算力的需求分为两个阶段,一是训练出ChatGPT大模型的过程;二是将这个模型商业化的推理过程。即AI 训练是做出模型,AI 推理是使用模型,训练对芯片性能要求更高。

基于此,国产AI芯片公司持续涌现,陆续发布产品推向市场。燧原科技、壁仞科技、天数智芯、寒武纪等公司都推出了自己的云端GPU产品,且理论性能指标不弱。海光信息的DCU芯片“深算一号”软硬件生态相对完整,且能够兼容CUDA架构。而腾讯、百度、阿里等互联网大厂也通过投资、孵化等方式在AI芯片领域大力布局。

其中,大模型训练需要处理高颗粒度的信息,对云端训练芯片的芯片处理信息的精细度和算力速度要求更高,现阶段国产GPU大多还不具备支撑大模型训练所需的能力,更适合做对信息颗粒度要求没有那么高的云端推理工作。

国内部分相关企业AI产品与应用 芯潮IC据公开资料整理

今年3月,百度李彦宏曾公开表示,昆仑芯片现在很适合做大模型的推理,将来会适合做训练。

天数智芯副总裁邹翾也向芯潮IC表示,国产芯片距离英伟达最新产品仍存在一定差距,不过在推理运算方面国产芯片可以做到不输主流产品的性能实力,而随着人工智能的应用普及,推理芯片的市场需求将加速增长,随着需求的扩大,国产芯片也将拥有更大的市场。

另有不愿意透露姓名的业内人士表示“国内通用GPU产品的确在满足大模型训练上与国际旗舰产品存在差距,但并非不可弥补,只是此前行业在产品定义里未朝着大模型方向做设计。”

目前,行业从业者在做相关的探索和努力,如思考能否通过Chiplet、先进封装的方式来提高芯片算力。目前国产GPU公司都在朝着大模型领域去做芯片开发和布局。

而从资本角度来看,华映资本管理合伙人章高男向芯潮IC表示,华映很早就高度关注算力基础设施,无论是GPU、DPU还是更前沿的光电混合计算,量子计算,都有针对性研究和布局。整体上则侧重于通用算力基础设施,譬如FPGA、边缘计算等。相比之下,目前很多围绕深度学习、特殊算法、局部算力优化等的算力芯片并不是其考虑的重点。

实际上,除了硬件性能差距外,软件生态也是国产AI芯片厂商的短板。

芯片需要适配硬件系统、工具链、编译器等多个层级,需要很强的适配性,否则会出现这款芯片在某个场景能跑出90%的算力,在另一场景只能跑出80%效能的情景。

上文提到,英伟达在这方面优势明显。早在2006年,英伟达就推出了计算平台CUDA,这是一个并行计算软件引擎,CUDA框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。开发者可使用CUDA更高效地进行AI训练和推理,更好的发挥GPU算力。时至今日,CUDA已成为AI基础设施,主流的AI框架、库、工具都以CUDA为基础进行开发。

如果没有这套编码语言,软件工程师发挥硬件价值的难度会变得极大。

英伟达之外的GPU和AI芯片如要接入CUDA,需要自己提供适配软件。据业内人士透露,曾接触过一家非英伟达GPU厂商,尽管其芯片和服务报价比英伟达更低,也承诺提供更及时的服务,但使用其GPU的整体训练和开发成本会高于英伟达,还得承担结果和开发时间的不确定性。

虽然英伟达GPU价格贵,但实际用起来反而是最便宜的。这对有意抓住大模型机会的企业来说,钱往往不是问题,时间才是更宝贵的资源,大家都必须尽快获得足够多的先进算力来确保先发优势。

因此,对于国产芯片供应商来讲,哪怕能通过堆芯片的方式能堆出一个算力相当的产品,但软件适配与兼容让客户接受更难。此外,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。

因为算力资源常需要以池化的形式呈现,数据中心通常更愿意采用同一种芯片,或者同一家公司的芯片来降低算力池化难度。

算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。对客户而言,把国产AI芯片用起来并不容易,更换云端AI芯片要承担一定的迁移成本和风险,除非新产品存在性能优势,或者能在某个维度上提供其他人解决不了的问题,否则客户更换的意愿很低。

作为当前唯一可以实际处理ChatGPT的GPU供应商,英伟达是当之无愧的“AI算力王者”。6年前,黄仁勋亲自向OpenAI交付了第一台搭载A100芯片的超级计算机,帮助后者创造ChatGPT,并成为AI时代的引领者。

不过,去年美国实施出口管制以来,英伟达已经被禁止向中国出口两款最先进的GPU芯片H100和A100。这对于下游应用企业来说,无疑是受到打击的。

从安全性以及自主可控的角度来说,这也为国内芯片企业提供了新的机遇窗口。尽管国产芯片在性能和软件生态上比不过英伟达、AMD等行业巨头,但在复杂的国际贸易关系及地缘政治因素等驱动下,“国产替代”成为国内半导体行业发展的主旋律。


05、结语


算力的每一次提升,都会掀起技术与产业变革的浪潮:CPU带领人类进入PC时代,移动芯片掀起移动互联网浪潮,而AI芯片打破了AI产业此前长达数十年的算力瓶颈。

如今,“人工智能的iPhone时刻”已经来临,走向下一个时代的路,或许已经摆在我们眼前。

尽管这些数据中心的AI芯片、软件系统等领域仍是国外厂商的天下,但如今,“算力国产化”的市场大门或许正在打开。