中国互联网协会发布：2023年全球生成式AI产业研究报告

转载

1094 天前

8671

AIGC

文章转载来源：AIGC

2023年5月19日，在第七届世界智能大会“世界智能科技创新合作峰会”期间，由中国互联网协会、中国软件行业协会指导，天津市人工智能学会、至顶科技、至顶智库联合编写的《2023年全球生成式AI产业图谱》和《2023年全球生成式AI产业研究报告》重磅发布，为政府部门、行业从业者、教育工作者以及社会公众更好了解全球生成式AI发展情况提供参考。

图片来源：由无界 AI工具生成

生成式AI作为当前人工智能的前沿领域，成为全球最热的科技话题。2022年OpenAI发布ChatGPT，生成式AI在模型应用层面实现重要突破，仅两个月突破1亿月度活跃用户数，成为史上用户增长速度最快的消费级应用。全球多家科技企业加大在生成式AI领域的研发投入力度，不断在技术、产品及应用等方面推出重要成果，持续推动人工智能的创新与商业化落地进程，也将带动产业链相关企业快速发展。

在此背景下，在中国互联网协会、中国软件行业协会指导下，天津市人工智能学会、至顶科技、至顶智库联合发布《2023年全球生成式AI产业研究报告》，该报告从全球视角出发，对生成式AI的产业概况、基础设施、算法模型、场景应用、机遇挑战等方面进行梳理，全面展现生成式AI的产业发展情况，为政府部门、行业从业者、教育工作者以及社会公众更好了解生成式AI提供参考。

01生成式AI产业概况篇

1.1 生成式AI概念及内容生成阶段

生成式人工智能（Generative AI）是在专业生成内容（PGC）、用户生成内容（UGC）之后，利用人工智能技术自动生成内容的新型生产方式。

生成式AI基于海量训练数据和大规模预训练模型，自动生成创建文本、音频、图像、视频以及跨模态信息。
自2022年OpenAI发布ChatGPT以来，全球爆发生成式AI热潮，诸多科技类企业纷纷推出生成式AI模型、产品和相关底层基础设施及服务。

1.2 生成式AI产业发展驱动力

近年全球数据规模持续增长，IDC预计到2025年全球数据规模将达到175ZB，为人工智能模型训练提供海量数据资源；高性能AI芯片的推出为大规模预训练模型提供重要算力支撑；伴随技术的不断发展，Transformer、BERT、LaMDA、ChatGPT等模型实现快速迭代优化。在数据、算力和模型的共同推动下，全球生成式AI产业得以迅速发展，相关场景应用也不断丰富。

02生成式AI基础设施篇

2.1 AI高性能芯片为生成式AI训练提供算力支撑

人工智能的发展从深度学习时代进入到大模型时代，大规模预训练模型的参数量呈现指数级上升，需要高性能算力的支撑。

目前，大规模预训练模型训练算力是以往的10到100倍，当前主流生成式AI模型的训练广泛使用到英伟达Tensor Core GPU芯片，如微软斥资数亿美元购买数万颗英伟达A100芯片以帮助Open AI打造ChatGPT。

2.2 AI计算集群为生成式AI训练提供大规模算力资源

AI计算集群能够提供大规模算力、持续提高算力资源利用率、提升数据存储和处理能力，加速AI大模型训练和推理效率。

当前较为典型的AI计算集群如英伟达DGX SuperPOD、百度智能云高性能计算集群EHC、腾讯新一代高性能计算集群HCC等，相关算力基础设施持续为生成式AI训练场景提供强大算力资源，进一步降低模型训练门槛和成本，推动生成式AI模型的落地进程。

2.3 AI云服务为生成式AI模型开发提供平台支撑

人工智能预训练模型的开发对于云服务有较大需求，AI云服务可以提供人工智能开发模块，通过多元化的服务模式，降低开发者的开发成本和产品开发周期，为模型开发提供AI赋能。

典型案例如亚马逊SageMaker，其可提供图片/图像分析、语音处理、自然语言理解等相关服务，使用者无需了解参数和算法即可实现功能的应用。

百度飞桨EasyDL零门槛AI开发平台提供图像分类、物体检测、文本分类、声音分类和视频分类等功能，实现一站式自动化训练，降低AI定制开发门槛。

03生成式AI算法模型篇

3.1 全球生成式AI模型发展历程

3.2 语言类生成主流模型：OpenAI GPT-1至GPT-4

2018年以来，OpenAI先后发布GPT-1、GPT-2、GPT-3、ChatGPT、GPT-4等一系列生成式预训练模型。
GPT-1模型基于Transformer架构，仅保留架构中解码器部分；

GPT-2模型取消GPT-1中的有监督微调阶段；

GPT-3模型舍弃GPT-2的zero-shot，采用few-shot对于特定任务给予少量样例；ChatGPT通过采用RLHF（人类反馈强化学习）技术，增强对模型输出结果的调节能力；

2023年发布的GPT-4模型拥有更为强大的多模态能力，其支持图文多模态输入并生成应答文字，可实现对视觉元素的分类、分析和隐含语义提取，表现出优秀的应答能力。

3.3 语言类生成主流模型：Google Transformer到PaLM-E

2017年，Google发布具有标志性意义的Transformer模型，该模型的解码模块成为GPT模型的核心要素，通过引入注意力机制，可实现更大规模的并行计算，明显减少模型的训练时间，使得大规模AI模型得以应用。BERT模型、LaMDA模型在信息提取能力以及安全性等方面不断提升。

最新推出的PaLM-E模型具有很强的泛化和迁移能力，在完成视觉语言和通用语言任务的同时，可处理多模态数据（语言、视觉、触觉等），实现指导机器人完成相应任务的功能。

3.4 图像类生成主流模型：Diffusion Model

Diffusion Model相关研究可追溯到2015年,去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)在2020年被提出，展示扩散模型的强大能力，带动扩散模型的发展。模型主要包括两个过程：前向过程和反向过程，其中前向过程又称为扩散过程，扩散模型通过给图像增加高斯噪声破坏训练数据来学习，找出逆转噪声过程的方法，利用学习的去噪声方法实现从随机输入中合成新的图像。

Diffusion模型的优势在于生成的图像质量更高，不需要通过对抗性训练，在所需数据更少条件下，该模型图像生成效果有明显提升。