谷歌AI芯片大升级:瞄准大模型和生成式AI,还集成主流深度学习框架

转载
445 天前
4658
AIcore

文章转载来源:AIcore

图片来源:由无界 AI 生成

一直以来,谷歌已经构建了业界领先的 AI 能力,比如引领新一代人工智能发展的 Transformer 架构、利用 AI 进行优化的基础设施等。其中谷歌云则致力于提供先进的 AI 基础设施服务,包括 GPU 和 TPU。

当地时间 8 月 29 日,谷歌云举办了 Google Cloud Next ’23 年度大会,推出了全新的 TPU 产品 ——Cloud TPU v5e,它是 AI 优化的基础设施产品组合,并将成为迄今为止最具成本效益、多功能且可扩展的云 TPU。目前已经提供了预览版。

我们了解到, TPU v5e 能够与 Google Kubernetes Engine(GKE)、用于构建模型和 AI 应用的开发者工具 Vertex AI 以及 Pytorch、JAX、TensorFlow 等深度学习框架集成在一起,提供了易用和熟悉的界面,很容易上手。

谷歌云还推出了基于英伟达 H100 GPU 的 GPU 超级计算机 A3 VMs,为大规模 AI 大模型提供支持。这款产品将于 9 月份全面上市。

谷歌 CEO 皮查伊。

谷歌首席科学家、知名学者 Jeff Dean 的推文。

此外在活动上,谷歌还宣布将 Meta 和 Anthropic 等公司的 AI 工具(如 Llama 2 和 Claude 2)添加到其云平台上, 在云产品中集成强大的生成式 AI 能力。目前包括 Llama 2 和 Claude 2 在内,谷歌云客户可以使用 100 多个强大的 AI 模型和工具。

相较于 TPU v4,TPU v5e 在哪些方面升级了

谷歌云这次推出的 TPU v5e 性能和易用性到底如何呢?我们接着来看。

根据官方提供的数据,Cloud TPU v5e 为中型和大型训练和推理带来了高性能和成本效益。这代 TPU 可以说专为大语言模型和生成式 AI 模型打造,与前代 TPU v4 相比,每美元训练性能提升高达 2 倍、每美元推理性能提升高达 2.5 倍。并且 TPU v5e 的成本不到 TPU v4 的一半,使更多机构有机会训练和部署更大、更复杂的 AI 模型。

TPU v5e 芯片。

值得一提的是, 得益于技术上的创新,这些成本效益并不需要牺牲任何性能或灵活性。谷歌云利用 TPU v5e pods 来平衡性能、灵活性和效率,最多允许 256 个芯片互连,总带宽超过 400 Tb/s,INT8 性能达到 100 petaOps。

一个 TPU v5e 的 2D 切片细节。

TPU v5e 还具有很强的多功能性,支持八种不同的虚拟机配置,单片内芯片数量可以从一个到 256 个,允许客户选择合适的配置来支持不同规模的大语言模型和生成式 AI 模型。

除了更强功能和成本效益之外,TPU v5e 的易用性也达到了一个全新的高度。现在客户可以通过 Google Kubernetes Engine(GKE)来管理 TPU v5e 以及 TPU v4 上的大规模 AI 工作负载编排,进而提升 AI 开发效率。对于喜欢简单托管服务的机构而言,Vertex AI 现在支持使用 Cloud TPU 虚拟机来训练不同的框架和库了。

另外如前文提到的,Cloud TPU v5e 为 JAX、PyTorch 和 TensorFlow 等领先的 AI 框架以及流行开源工具(Huggingface 的 Transformers 和 Accelerate、PyTorch Lightning 和 Ray)提供了内置支持。即将推出的 PyTorch/XLA 2.1 版本将支持 TPU v5e 以及用于大规模模型训练的建模和数据并行等新功能。

最后为了更轻松地扩展训练工作,谷歌云在 TPU v5e 预览版中引入了 Multislice 技术,使用户轻松扩展 AI 模型,并且可以超出物理 TPU pods 的范围,最多可以容纳数万个 TPU v5e 或 TPU v4 芯片。

利用多个 TPU Podslices 实现性能线性扩展。

截至目前,使用 TPU 的训练工作仅限于单片 TPU 芯片,TPU v4 的最大切片数量为 3,072。借助 Multislice,开发人员可以利用单个 Pod 内的 ICI(芯片内互连)技术或者通过数据中心网络(DCN)上的多个 Pod,将工作负载扩展到数万个芯片。

这种多层切片技术为谷歌构建其最先进的 PaLM 模型提供了支持。现在谷歌云客户也能体验这一技术了。

此次升级的 TPU v5e 得到了客户的高度认可。AssemblyAI 技术副总裁 Domenic Donato 表示,当使用 TPU v5e 在他们的 ASR(自动语音识别)模型上运行推理时,每美元的性能始终是市场同类解决方案的 4 倍。这种强大的软硬件组合能够为他们的客户提供更经济高效的 AI 解决方案。

随着谷歌云不断升级 AI 基础设施,越来越多的客户将选择使用谷歌云服务。据此前谷歌母公司 Aplabet 的介绍,超过半数的生成式 AI 初创公司正在使用谷歌的云计算平台。

对于谷歌而言,此次 Cloud TPU v5e 拉开了进一步变革产品模式、赋能云客户的序幕。

参考链接:https://cloud.google.com/blog/products/compute/announcing-cloud-tpu-v5e-and-a3-gpus-in-ga