聊聊英伟达再次推出的专供中国版GPU芯片

转载
372 天前
4969
芯片客

文章转载来源:芯片客

原文来源:东不压桥研究院

图片来源:由无界 AI生成

英伟达又推出了专供中国市场的阉割版GPU芯片H20、L20、L2,分别基于英伟达的Hopper和Ada架构,据说大约今年12月至明年1月量产。

和A800、H800一样,英伟达这次还是对标美国1017出口管制的红线,通过限制某些参数达到了不违反美国新的芯片出口管制的效果。

美国商务部1017更新的出口管制规则,以“总处理性能”(total processing performance)和“性能密度”(performance density)两个指标来界定受管制的芯片,取代了原来以峰值算力(浮点算力)和带宽(双向传输速率)为标准的界定方法,并且不再限制带宽。这一改变让英伟达在去年1007规则后专供中国的A800和H800落入了管制范围,并且立即生效,英伟达还没出手的这些芯片马上就不能对中国提供了。

L20、L2和先进AI大模型训练基本没有什么关系,主要在推理和边缘计算发挥作用。H20则是直接和大模型训练相关的,技术的细节不多展开,SemiAnalysis已经有很具体的分析,简单说就是:H20高缓存、高带宽、低算力。英伟达通过限制H20GPU芯片的峰值算力,确保了它不超过1017规则中的“总处理性能”和“性能密度”,从而使它不属于管制芯片;但同时又提升了H20的带宽(因为1017新规不再限制带宽了)和存储容量(1017也没有对缓存提出要求)。

大模型训练的速度和效率取决于很多因素,如GPU的算力、带宽、内存(显存)容量和存储I/O性能、数据加载和预处理、模型架构、软件架构、算法、网络延迟、散热等。其中算力和带宽尤其重要。GPU算力高,就可以显著加速这并行计算操作,在合理的时间内处理更大量的数据集,加速模型的迭代和优化,有更多的计算资源来处理更多参数和层级、实现更复杂的模型训练。带宽足够高,可以确保数据快速传输到GPU进行并行处理,确保数据传输速度能跟得上GPU处理速度,充分利用GPU的处理能力,缩短模型训练时间,也能让模型更新实现更快速的同步。

A100的带宽是600G/s,A800和H800 都是400G/s,H20用英伟达独有的NVLink 互连技术把带宽提到了900G/s(和H100持平)。因为英伟达保留了完整的NVLink和PCIe带宽功能,意味着把数万张卡联网在一起做并行计算没有任何问题。H20虽然单卡总处理性能不如H100,但因为带宽足够,可以把多张卡堆叠、多个AI服务器集群在一起,弥补单卡算力不足的问题。同时,H20的存储容量比H100提升了16G。足够的存储存容量对于存储大模型的参数和中间数据也非常重要,内存不足可能就需要分批处理数据或模型,从而降低大模型训练的效率。

英伟达推出H20的时机也很耐人寻味。华为的昇腾910B的性能与A100单卡的总体性能很接近,因此1017新规后大家都觉得华为可能会因此成为国内唯一的GPU提供商,这几天也传出百度和360都大批量采购昇腾910B。但昇腾910B相比英伟达GPU芯片的缺陷是互联带宽少、软件生态不够成熟。这次英伟达推出H20恰恰是基于自己的CUDA软件生态系统,在互联带宽上大幅提升,对标华为的意思比较明显。这样一来,国内的大模型厂商可能就不会只考虑华为的昇腾系列,甚至很多公司可能在权衡之后选择买H20,对华为显然是不利的。但对英伟达来说,再次绕过了美国的出口管制,又可以多卖芯片(很多中国AI公司为了达到A100的性能可能会多买H20,通过堆叠集群来实现)。

美国和中国政府怎么看这个事?可能都有点纠结。美国商务部这两年来应该对英伟达很不爽,因为它显然一次次违背美国芯片出口管制的精神,帮助中国企业规避了美国的出口管制。从商务部这次在1017新规出台后对英伟达“特殊照顾”、单独通知新规对其立即生效,似乎也能感受到一二。雷蒙多在多个场合说过,尽管芯片管制会让美国企业受到一些损失,但为了国家安全是值得的,美国企业不能只图赚钱,不承担维护国家安全的责任。这些话感觉就像是专门给Jenson Huang说的。

但对英伟达这种做法,美国商务部可能更多是无奈。目前商务部只能用出口管制这个工具,但监管和法律永远落后于技术、落后于商业和技术创新,这次英伟达很快又搞出个新的阉割版,就很能说明问题。这种情况下,商务部下一步怎么办?等明年修改出口管制规则再把带宽重新放进去?英伟达还会不会再找出规避的办法呢?这种猫和老鼠的游戏,应该让雷蒙多很frustrated和disturbing,但一时之间似乎也没什么办法,毕竟英伟达是在美国法律框架内行事的。出口管制的弱点,在芯片出口管制中可谓是充分暴露。所以雷蒙多就芯片法案执行情况在国会听证时说,商务部“需要新的工具”。不管是对付华为还是对付英伟达,她是真需要比出口管制更趁手的工具。

然而,对崇尚经济和贸易自由化、自由市场经济的美国来说,政府直接干预美国企业和外国的商业交易已经不太符合自己的价值观了。如果出口管制无法阻止英伟达向中国出售高端GPU芯片,而美国政府又希望彻底阻断英伟达的规避,或许只能放弃从“芯片”入手,转而从如何阻断英伟达和中国公司的“交易”想办法。以笔者对美国制裁和国家安全法律极为有限的知识,暂时只能想到《国际经济紧急权力法》(IEEPA)。如果有懂美国法的朋友能想到其他的选项,请不吝赐教。

IEEPA 授权美国总统在宣布国家紧急状态时,采取管制国际商务和经济交易的措施,包括冻结资产、限制贸易、禁止金融交易等,但这需要美国企业的配合才能有效地执行。可能的场景是,美国认为让中国AI企业继续获得能给训练大模型的先进GPU芯片对美国国家安全构成了严重威胁,理论上总统可以依据IEEPA宣布国家紧急状态,然后出台一个行政令,要求美国GPU芯片公司不能和中国公司进行任何交易。

讽刺的是,IEEPA本来是为了限制一战时期《与敌国贸易法》(Trading with the Enemy Act,TWEA)给总统限制经济的权力的,但在后来却成为美国实施制裁、禁止美国企业和被制裁国家进行交易的常用法律工具。但是,IEEPA以前都是用在朝鲜、委内瑞拉、伊朗、中非等小国,美国企业本来和这些国家的商业联系就比较弱,所以在配合美国政府方面做得还可以。但如果换成了美国有大量商业存在和联系的中国,那情况自然就很不一样,美国企业的反弹也会更加强烈。

从相反方面来说,1017新规后,很快传出华为已经能做对标英伟达GPU的AI芯片,一些美国智库也质疑1017新规能不能限制中国公司不好说,反而帮了华为的大忙。英伟达的H20入场,虽说又规避了美国的出口管制,但无形中能分走华为昇腾910B的很多中国客户,防止华为在中国市场一家独大,似乎又应该是美国商务部希望看到的。

中国会有何反应也值得观察。对美国芯片出口管制的战略指向是算力和AI,着眼的是未来中美两国在AI这一新兴技术和关键产业上的战略竞争格局,中国政府和政策圈应该已经看得比较清楚了,因此国产替代的决心也很坚定,甚至有不少观点可能认为现在受制于人,就是因为过去没有太坚定地、更早地走国产自主。中国对美国放松对芯片的管制不抱希望,目前策略似乎是用关键矿产的出口管制进行一定程度的反制,同时有和中美双边关系问题逐渐切割的迹象,也就是科技竞争只管竞争,但不影响“通往旧金山”等涉及中美关系大局的政治议程。

华为在芯片领域的深度参与,中国的半导体从设计到制造注入了民企的效率,以及更高的执行能力与统合能力。其包括前段时间的7nm手机芯片在内的一系列肉眼可见的成绩,也极大提升了中国政府和产业界走国产替代的信心。RISC-V、3D堆栈小芯片技术、纳米压印等技术的革新,也有可能会使中国走一条不同的技术路线并取得成功。

这种情况下,最理想的肯定是国内围绕华为形成更有凝聚力的芯片产业生态系统,而不希望英伟达来搅局。华为轮值董事长徐直军前段时间也呼吁国内企业放弃幻想,大规模使用和扶植国产芯片,哪怕再难用也要坚持用,在不断磨合中帮助中国芯片产业尽快摆脱美国的控制、实现自主和供应链安全。但目前华为的GPU芯片产能毕竟有限,短期内难以满足国内大模型训练的需要,如果英伟达能够提供H2这种替代品,那对国内AI产业来说肯定是一个利好,也有利于中国在这一轮的AI竞争中缓解因芯片短缺导致的进度落后。

总之,围绕这一枚小小GPU芯片的博弈,是越来越热闹了。