要以计算集群的视角,来重新审视芯片!

转载
390 天前
1885
芯片客

文章转载来源:芯片客

文章来源:数据猿

作者:一蓑烟雨

图片来源:由无界AI生成

自古以来,技术与创新一直是国家竞争力的核心。在当今信息化时代,这一规律依然适用,特别是在计算产业领域。过去几十年,中国在多个技术领域都取得了引人注目的突破,从手机制造到5G通信,再到人工智能。但在计算产业领域,尤其是芯片技术方面,中国仍面临诸多挑战。

计算产业的重要性不言而喻,它是信息技术的基石,无论是大数据、人工智能、还是物联网,都离不开强大、稳定的计算能力。然而,对于一个希望在全球技术领域占据领导地位的国家来说,仅仅依赖于外部供应的算力是远远不够的。尤其是在全球政治经济环境日益复杂,技术封锁和摩擦频发的背景下,计算产业的国产化不仅关乎技术独立,更是国家安全的关键。

正因为如此,中国一直试图构建自主的计算产业。但事实上,尽管在某些子领域已取得不错的进展,总体来看,我们仍面临着巨大的挑战。其中,最为突出的便是芯片技术的滞后。无论是手机、服务器还是人工智能应用,当前多数核心的芯片仍然依赖于国际厂商,特别是英特尔、AMD、英伟达、高通等。

这种情况如何改变?有没有新的道路可以走?这正是本文希望探讨的问题。


以前的方案——正面硬刚


在过去的技术追赶之路上,中国在芯片产业的策略可以视为“正面硬刚”。这是一个直接、积极的追赶方式,意在尽快缩小与全球先进水平的差距。这样的策略或许适用于某些产业,但在芯片领域,挑战格外巨大。

华为在手机CPU领域取得的成功,为国内技术界注入了巨大信心。他们的麒麟系列芯片不仅在国内市场取得了显著的份额,甚至在国际市场上也展现了强大的竞争力。这一成就,似乎预示着中国芯片产业即将迎来一场翻盘。

但是,当我们将视角转向服务器领域,情况就大不相同了。在这个市场,英特尔、AMD好英伟达依然占据着绝对的主导地位。不仅是他们的芯片性能和稳定性被广大客户所认可,更重要的是,这两家公司背后的技术积累和生态建设,使得其他新兴竞争者很难近身。

具体来看,这其中有几个核心原因包括:

1、技术积累的巨大差距:

英特尔、AMD和英伟达在芯片领域的探索已经超过几十年。这种长时间的技术积累,使得他们在设计、测试和制造方面都积累了丰富的经验。而对于刚刚起步的中国芯片厂商来说,这种差距并不是短时间内可以缩小的。

2、研发与制造投入的巨大差异:

投资是技术进步的重要动力,无论是基础研究,还是新技术的应用探索,都需要大量的资金支持。英特尔、AMD等在这方面的投入,无疑要远远超过国内的芯片厂商。这使得中国厂商在研发速度、技术更新、以及创新应用等方面处于明显的劣势。

3、成熟的生态障碍:

芯片并不是孤立存在的,它需要与各种软硬件系统相匹配。英特尔、AMD、英伟达等芯片周边的软硬件生态已经十分成熟,从操作系统、开发框架、中间件到应用程序,都有丰富的支持。而中国厂商若想进入这个市场,不仅要有竞争力的产品,还要面对重构整个生态的巨大挑战。

面对这三大难题,国内芯片产业的追赶之路显然充满了曲折。但这并不意味着我们没有出路,或许我们可以换一个角度思考,寻找一条更加合适的发展道路。

另一个方案——基于“云”重构整个计算生态

面对正面硬刚策略的局限性,中国的计算产业应该思考:是否存在一种策略,既能实现技术的迅速发展,又不必与全球巨头进行直接碰撞?答案是,存在。而这个答案,来自于云计算技术的快速崛起。

云计算,正在彻底改变计算产业的面貌。如果说传统的计算模式是以硬件为核心,那么云计算则是以服务为导向,它不仅为企业和用户提供了更高效、更便捷的计算方式,更重要的是,它为芯片产业提供了一个全新的思路。

具体来看:基于华为的海思、龙芯和飞腾等国产芯片,与高速的存储硬件和数据中心级的网络设备相结合,构建基础的国产计算、存储资源池。在软件和系统架构方面,可以采用基于Linux的操作系统以保证兼容性与稳定性。与此同时,通过KVM、Docker和Kubernetes等虚拟化与容器化技术,提供计算资源池的快速部署、弹性伸缩和便捷的管理。

这个思路的核心,是资源的池化。在传统计算中,一个任务需要由一个或几个强大的芯片完成,而在云计算中,这个任务可以由多个性能并不出众的芯片共同完成。这种方式就像是“三个臭皮匠顶个诸葛亮”,不再注重单一芯片的性能,而是注重整体的计算能力,这正好规避了我们在单个芯片技术能力上的不足。

对中国的芯片产业来说,这意味着一个巨大的机遇。我们不必过分追求每一块芯片的绝对性能,而是可以将多块国产芯片通过技术整合,形成一个强大的计算集群。例如,两三块华为海思、龙芯或飞腾的芯片,完全有可能达到甚至超越一块英特尔芯片的计算能力。

而更进一步,这种方式还为我们提供了一个重构数据中心的机会。传统的数据中心,通常以英特尔、AMD、英伟达芯片为核心,但在云计算模式下,这种局面有望被打破。假设在一个数据中心中,我们完全有可能通过200万块国产芯片,构建出一个与100万块英特尔芯片相当的计算集群。而这不仅意味着成本的降低,更重要的是,我们成功构建了一个完全基于国产技术的计算平台。

这样的转变,无疑为中国的计算产业开辟了一片全新的蓝海。我们不再与全球巨头在同一竞技场上硬碰硬,而是利用云计算的优势,打破传统的计算边界,构建一个完全不同的计算模式,开辟了第二战场。

在这个方向上,我们有望避开与全球巨头的正面冲突,而是通过技术的创新和整合,构建出一个更为高效、更具竞争力,也更加面向未来的计算生态。

换个角度,我们避开国际芯片巨头的锋芒,而是换个战场,实现“你打你的,我打我的”。


同样的方式,来构建国产GPU计算集群


随着人工智能和大数据的兴起,GPU已逐渐成为高性能计算和深度学习的核心算力来源。英伟达在此领域的垄断地位,使得国产化更加迫切。面对巨大的技术和性能差距,国产GPU的道路是否也可以如同CPU那样,透过云计算的方式,来提升其在国内外市场的占有率呢?

人工智能,尤其是大模型的训练,对算力的需求是巨大的。每一个创新突破,背后往往都需要大量的数据进行训练和优化。传统的单一GPU已经难以满足现在的计算需求,而英伟达等国际厂商的高性能GPU因价格昂贵和供应链的不确定性,使得国内产业界面临巨大的挑战。

在这种背景下,国产GPU的发展显得尤为重要。尽管目前的技术和性能与英伟达还有差距,但这并不意味着我们在构建高性能GPU计算集群上无从下手。正如我们在CPU领域所做的,云计算的资源池化技术为我们提供了新的解决思路。

通过资源池化,我们可以将多个性能稍逊的国产GPU集结在一起,形成一个强大的计算集群。这不仅可以满足大型模型训练的算力需求,还可以有效降低总体成本,提高计算效率。这种“以量换质”的策略,可以为国产GPU“买”到发展和优化的时间,使其逐渐缩小与英伟达之间的技术差距。

此外,构建基于国产GPU的计算集群,也为相关的软硬件生态系统提供了更广阔的发展空间。我们可以从底层开始,优化操作系统、驱动、编译器,甚至上层的深度学习框架,使其更好地适配国产GPU的特性。与此同时,这种多GPU的并行计算方式也将为算法研究者带来全新的挑战和机遇,推动算法的进一步创新。

基于5G+云桌面,有望重构PC、手机领域的算力格局

目前,云计算主要改变的服务器端的算力供应方式,在个人电脑、智能手机等智能终端,还是以单个芯片来提供算力,云计算的作用并不明显。

但是,基于5G网络构建的整个通信网络体系,有望打通“云端”和终端的算力。将云端服务器计算集群的算力,通过5G网络直接实时提供给PC、智能手机等智能终端。

要明确的是,5G不仅仅是通信速度的提升,它所带来的低延迟、高带宽和海量连接,为云端算力“输入”到终端提供了前所未有的可能性。过去,云计算尚未在智能终端上留下重要的印迹,主要是因为带宽限制了其在移动设备上的应用。但随着5G的广泛部署,以及5G网络的持续提速,这一切都将变得不同。

在5G和云桌面技术的叠加效应下,我们即将进入一个颠覆性的数字化时代。这种联合所带来的最大革命,是对智能终端定义的根本性重塑。它们不再是一个独立运算的中心,而是成为了云端资源的门户和扩展。

当智能终端仅作为输入输出接口时,其设计和制造过程将发生巨变。终端不再需要复杂的散热系统、高容量电池或大容量存储,这意味着我们可以制造出更轻薄、更持久、更便携的设备,进一步提高用户的移动性和体验。不仅如此,由于去除了昂贵的高性能芯片,智能终端的生产成本将大幅降低,使得更多的消费者能够享受到先进的数字化服务。

而且,当硬件不再被高性能计算所束缚,设计师可以更加专注于用户交互、设备形态创新和功能拓展。未来的智能终端不仅仅局限于现有的手机、平板和笔记本,还可能涌现出全新的设备类型,如智能眼镜、可穿戴设备或其他增强现实设备。

随着云桌面技术的逐渐成熟,全球芯片供应的权力格局可能面临颠覆。过去,硬件的强大性能很大程度上决定了终端设备的运算能力,英特尔和高通因此在PC和智能手机市场确立了不可撼动的地位。但随着计算的逐步转向云端,局面开始发生改变。

这种变化为国产芯片制造商提供了一个难得的机会,使他们可以摆脱长期以来的技术劣势,建立新的品牌形象和市场地位。在云端的“三个国产臭皮匠”,就能抵得上在终端的一个“外国诸葛亮”。

当然,作为一个过渡方案,可以在电脑、手机等智能终端和云端服务器之间,实现算力分摊,把大部分算力放在云端,在终端只保留小部分算力。这样一来,在终端设备上放置一颗性能差一点的国产芯片,也足够满足使用需求了。


要实现这个思路,还需要多方面努力


需要指出的是,我们以上给出的基于云计算的国产计算产业方案,要真正落地,还有很长的路要走。构建基于国产芯片的高性能计算集群并不仅仅是硬件的“拼接”,而是一场涉及硬件、软件、网络和存储的综合大战。

我们可以从手机、电视到汽车看到,任何产品的成功都需要一个完善的生态系统支持。而对于计算集群,其生态更为复杂。那么,如何将这个构想转化为现实呢?整体上看,需要技术、生态与市场三重努力。

技术方面——并不是芯片的简单堆叠

组合多个国产芯片虽然能够提供相当的算力,但这并不意味着简单地叠加就能达到预期的效果。例如,多芯片之间的通信开销可能会极大,这会影响到整体的并行处理效率。同时,硬件之间的协同操作也是一个巨大的挑战,如何确保每一个组件都能发挥其最大的效能,而不是成为其他组件的瓶颈,是必须面对的计算问题。

软件生态——计算集群的灵魂

然而,仅仅解决了硬件上的问题还远远不够。软件是一个系统的灵魂。我们需要在国产计算集群基础上构建一个完善的软硬件生态。这意味着要开发新的云计算操作系统,这样的操作系统不仅需要兼容现有的软件应用,还要能够最大化地发挥国产芯片的特性。同时,我们还需要研发适配的中间件、数据库和应用软件生态,确保这一切能够在国产化的环境下无缝运作。

市场破冰——启动迭代飞轮

最终,一个技术的成功与否,还需要看其在市场中的表现。一个出色的技术如果没有得到市场的认可,那它最终也难以生存。因此,对于国产化计算集群来说,其真正的考验在于如何将其推向市场,让更多的用户体验到其带来的价值。这需要大规模的市场化应用,通过实际应用不断迭代和完善,解决暴露出来的短板和问题,并在此过程中降低成本,不断提升其服务水平。

以上,我们对中国计算产业的国产化进行了深入探讨,并提出了以云计算为基础构建国产计算集群的新方向。需要指出的是,这个方案不是为了国产化而国产化,而是顺应全球计算产业变革方向的顺势而为之举,代表了全球计算产业的未来发展方向。

基于云计算构建的国产计算集群,利用了全球计算产业向云化、集群化发展的大势,把握了云计算资源池化、高效整合的核心思想,成功地避免了与国际巨头正面硬碰硬的竞争。这是一种顺势而为的策略,充分利用了我们已经拥有的国产技术和资源,释放出了更大的潜能。

展望未来,这种策略无疑会为中国计算产业的国产化提供强有力的支持。随着技术的不断迭代和市场的逐渐扩张,我们有信心看到一个全新的、基于国产技术的计算产业生态逐步形成。这不仅会加速中国计算产业的国产化进程,更有可能重新定义全球计算产业的格局,使中国成为这个领域的领跑者。