AIGC产业研究报告2023——图像生成篇

转载
565 天前
5546
AIGC

文章转载来源:AIGC

来源: 易观

图片来源:由无界 AI工具生成

今年以来,随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势,易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。

报告以内容生成模态作为视角,涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络,为各领域的应用开发者和使用者提供参考。

在本期图像生成篇中,报告从经典的GAN技术到目前主流的扩散模型展开,分析了图像质量、多样性、稳定性、可控性等模型关键能力的应用表现,以及在进行商业化落地时,来自数据、产品化、监管合规等方面的挑战和解决思路。


导语


图像作为人工智能内容生成的一种模态,一直在AIGC领域中扮演着重要角色,由于图像生成应用的广泛性和实用性,使其受到学术界和产业界相当多的关注。近年来,图像生成技术也取得了很多关键性突破,从经典的GAN技术到目前主流的扩散模型,以及在此基础上不断迭代出性能更强、生成效果更好的算法和模型,极大拓展了图像生成技术的应用领域和发展前景。而在进行商业化落地时,生成速度和稳定性的提升、可控性和多样性的增强,以及数据隐私和知识产权等问题,也需要在图像生成向各行各业渗透的过程中进行解决和探索。

本报告将聚焦于图像生成的技术发展和产业应用情况,提出影响模型应用能力的关键因素、商业化过程中的落地挑战,并展望未来的发展方向,以期为AIGC领域的应用开发者和使用者提供参考和借鉴。


定义


图像生成是指运用人工智能技术,根据给定的数据进行单模态或跨模态生成图像的过程。根据任务目标和输入模态的不同,图像生成主要包括图像合成(image composition),根据现有的图片生成新图像(image-to-image),以及根据文本描述生成符合语义的图像(text-to-image)等。

主要类型和应用领域

根据图像构成的类型,图像按照颜色和灰度的多少可以分为二值图、灰度图、索引图和RGB图,图像生成模型可实现不同图像类型的转换。

在实际应用中,模型的效果表现主要体现在生成图像的质量和图像的多样性,其在平面设计、游戏制作、动画制作等领域均有广泛的应用,另外,在医学影像合成与分析,化合物合成和药物发现等方面,图像生成也具有很大的应用潜力。

技术发展的关键阶段

作为计算机视觉领域的重要组成部分,图像生成的技术发展大致经历了三个关键阶段:

● GAN生成阶段:

生成对抗网络(GAN)是上一代主流图像生成模型,GAN通过生成器和判别器进行博弈训练来不断提升生成能力和鉴别能力,使生成式网络的数据愈发趋近真实数据,从而达到生成逼真图像的目的。但在发展过程中,GAN也存在稳定性较差、生成图像缺乏多样性、模式崩溃等问题。

● 自回归生成阶段:

自回归模型进行图像生成的灵感得益于NLP预训练方式的成功经验,利用Transformer结构中的自注意力机制能够优化GAN的训练方式,提高了模型的稳定性和生成图像的合理性,但基于自回归模型的图像生成在推理速度和训练成本方面的问题,使其实际应用受限。

● 扩散模型生成阶段:

对于前代模型在性能方面的局限性,扩散模型(Diffusion Model)已经使这些问题得到解决,其在训练稳定性和结果准确性的效果提升明显,因此迅速取代了GAN的应用。而对于产业应用中的大量跨模态图像生成需求,则需要结合CLIP进行,CLIP基于文本-图像对的训练方式能够建立跨模态的连接,显著提升生成图像的速度和质量。

目前,业内主流且生成效果优秀的图像生成产品主要是基于扩散模型和CLIP实现的。

主流模型实现原理及优缺点

● 主流模型解析

扩散模型(Diffusion Model)

1、实现原理:扩散模型是通过定义一个扩散步骤的马尔可夫链,通过连续向数据添加随机噪声,直到得到一个纯高斯噪声数据,然后再学习逆扩散的过程,经过反向降噪推断来生成图像。扩散模型通过系统地扰动数据中的分布,再恢复数据分布,使整个过程呈现一种逐步优化的性质,确保了模型的稳定性和可控度。

2、模型优缺点:扩散模型的优点在于其基于马尔可夫链的正向及反向扩散过程能够更加准确地还原真实数据,对图像细节的保持能力更强,因此生成图像的写实性更好。特别是在图像补全修复、分子图生成等应用上扩散模型都能取得很好的效果。但由于计算步骤的繁杂,相应地,扩散模型也存在采样速度较慢的问题,以及对数据类型的泛化能力较弱。

CLIP(Contrastive Language-image Pre-training)

1、原理:CLIP是基于对比学习的文本-图像跨模态预训练模型,其训练原理是通过编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和差异度计算来训练模型,从而能够根据给定的文本生成符合描述的图像。

2、模型优缺点:CLIP模型的优点在于其基于多模态的对比学习和预训练的过程,能够将文本特征和图像特征进行对齐,因此无需事先标注数据,使其在零样本图像文本分类任务中表现出色;同时对文本描述和图像风格的把握更加准确,并能够在不改变准确性的同时对图像的非必要细节进行变化,因此在生成图像的多样性方面表现更佳。

由于CLIP本质上属于一种图像分类模型,因此对于复杂和抽象场景的表现存在局限性,例如可能在包含时间序列数据和需要推理计算的任务中生成图像的效果不佳。另外,CLIP的训练效果依赖大规模的文本-图像对数据集,对训练资源的消耗比较大。

● 国内外代表模型:

影响模型应用能力的关键因素

从实际应用视角来看,图像生成模型的关键能力包括图像质量、图像多样性,以及图像稳定性和可控性,这些能力决定了模型在应用表现上的差异。

● 图像质量

图像质量包括生成图像的像素值,精细化程度,是否能够充分展现优秀的画质和细节信息的丰富程度,例如物体的细节、纹理和色彩,以及图像的真实程度,也就是在基于真实场景图像生成任务中,图像的整体表达能够符合现实世界的基本逻辑。例如在产品包装设计、海报设计等行业客户需求中,通常对于图像的尺寸、分辨率、噪声、亮度、深度等有着具体要求,需要结合应用场景对图像精度进行准确把握。

● 图像多样性

在图像多样性的应用上,主要取决于模型对于像素生成过程的控制能力,以及通过对数据分布的预测探索更加多样化的图像表达,从而能够更好地进行图像细节的控制,满足多种风格化生成的要求。其中,个人用户看重构图、颜色、主题和实体的细节表现力和风格的表达,以及图像的幻想程度、艺术性等。行业用户则在此基础上,更加强调在生成多张图像或是不同风格图像时,对语义一致性的把握,因此在满足图像多样性要求的同时能够保持核心元素表达的统一,将更有利于实现商用。

● 图像稳定性

实际应用中,原始图像可能会存在光线不足、模糊抖动,因此需要图像生成模型对于输入数据的噪声具有一定的鲁棒性,例如扭曲、失真、异常描述等,能够在存在干扰的情况下仍然生成高质量的图像。

● 图像可控性

图像可控性是使用者能够对生成图像进行细节控制和后续调整,例如图像的颜色、形状、纹理以及生成的物体数量等。可控性是图像生成产品实现成熟商业化的前提。

个人用户的实际需求主要在能否通过调整文本描述来修改局部细节,进行二次图像生成。行业用户对图像可控性的要求更高,包括能否进行全景控制、精确区域控制、任意细节控制等,因此需要考虑控制条件的注入、对新数据的泛化能力以及除文本外的其他控制方法。


典型产业应用场景


图像生成是计算机视觉领域的重要组成部分,与图像生成相关的典型应用场景包括图像分类、图像分割、图像生成、图像风格转换、图像修复、图像超分辨率等,结合数字信号处理技术、传感技术、虚拟现实技术的快速发展,目前已经广泛应用在各行各业的场景中。

● 图像分类、图像分割:可以在工业、工程设计等领域辅助进行目标识别、图像相似度检索,辅助CAD设计等;在医学领域可以帮助进行医学影像标注、解剖、病理结构变化分析等。另外,图像生成模型在零样本分类任务中的良好表现,可以在不需要进行额外训练的情况下快速创建项目,有效提升了模型的工程化能力,降低了对数据标注的要求和训练成本。

● 图像生成和图像风格转换:在艺术设计、产品设计、动画与游戏制作等方面均有充分的商业化潜力,可以将其大量应用于创作艺术作品,根据设计者的草稿图、创意概念来生成图像,以及图像合成、图像编辑、增强图像艺术性等,从而能够帮助设计师、建模师进行动漫人物、游戏场景的制作,帮助完成海报、产品LOGO和产品包装设计等工作。在电商的应用方面,图像生成可以在虚拟试衣间、模拟商品展示等场景提升用户的在线购物体验。

● 图像修复:能够根据已有图像的上下文信息修复缺失部分,例如上色、去除噪声或填充缺失部分,对图像对比度、锐度或色彩鲜艳度等图像要素的增强等,可以应用于数字化历史文献的修复、图像修补等。在摄影与影视制作方面,对老照片、老电影的修复和画质提升都具有很强的应用价值。

● 图像超分辨率:能够从低分辨率图像恢复和重建高分辨率图像,在医学影像处理场景中,结合模型的数据合成和预测能力进行图像识别、特征提取和图像重建,能够帮助医生创建逼真的病例和解剖结构,生成CT扫描图像,辅助进行病情的分析诊断。另外,在天文观测和卫星遥感观测等方面,利用图像超分辨率能够提升成像设备的性能,并克服时间差异、气象变化等因素引起的图像场景变化,为天文探索发现增加了更多可能性。

未来,随着图像生成技术的发展,其与3维生成的强相关性将会更多在视频、教育、建筑以及虚拟空间建模等方向形成纵深探索。模型的稳定可控能力是影响未来发展的核心要素,目前图像生成内容仍然存在较大的不确定性,对于艺术创作有助于激发灵感,但对图像本身可控性要求极高的领域来说,生成图像是否与预期目标相符,以及对图像精度的精准控制十分关键,这将有利于拓展其在生物医药、工业制造、航空航天等领域的应用前景。


商业化过程中面临的挑战


● 国内外主流图像生成产品及商业模式

从国内外市场需求和规模来看,目前图像生成在AIGC领域中总体的商业化进展较快。

国外主流的图像生成平台以Midjourney、Stable Diffusion、DALL-E 2为代表。其中,Midjourney采用闭源付费模式,在对Diffusion Model精调后部署在Discord上,用户通过与bot的交互来获得图片,从生成效果来说其对艺术风格的把握独树一帜。Midjourney通过早期开放公测积累了大量用户群,在Discord频道中形成了高活跃度的社群,以SaaS付费订阅模式提供通用或定制化服务,构建起了较为成熟的商业模式。

而Stable Diffusion则完全开源,因此模型的优化迭代速度非常快,形成了较好的开发者生态,其盈利手段主要通过API收费和面向专业领域的B端用户提供定制化模型服务;此外,Stable Diffusion可以作为插件应用嵌入Photoshop,支持直接在PS上生成图像并保存,能够为专业设计工作者的效率和体验带来显著提升。

DALL-E 2通过百亿级大规模参数集进行训练,能够形成稳定和高质量的图像,生成效果更接近真实照片,目前DALL-E 2采取闭源付费模式,而依托OpenAI与微软的深度合作关系,搭载ChatGPT能力并将产品嵌入微软的办公生态,将使DALL-E 2建立起核心竞争优势。

另外,Adobe也推出了图像生成模型集Firefly,并融入到Adobe工作流,Adobe还强调其训练数据来自Adobe Stock 素材库、公开许可内容和版权已过期的公共领域内容,可以生成专为商业使用的高质量图像,并计划和Photoshop、Illustrator、Premiere等系列产品深度整合,这些手段将有利于建立面向专业设计领域的客户优势,提升用户粘性。

对于国内市场而言,随着我国自主研发模型的技术进展,文心一格、CogView、ZMO等AI图像生成产品通过模型调优和知识增强训练,对中文提示词具备更强的理解能力,在美术创作、广告设计等领域已经形成了一定的用户基础。其中,文心一格提供面向C端用户的免费和付费模式,依托文心大模型的能力,文心一格在多模态交互方面具有明显优势;CogView通过API开放能力,支持与企业AI底座的能力对接和模型微调,并提供面向B端用户的定制训练和私有化部署服务;ZMO则将商业化重点聚焦在图生图任务中,进行产品图到营销海报等真实场景的图像生成,积累了一定规模且有付费意愿的小B端用户。可以预见,国内图像生成领域的商业化进程速度将加快并迎来用户的快速增长期,但仍然需要结合技术能力和产品能力进行深度打磨,通过构建数据层、模型层、应用层的生态闭环形成可持续发展。

● 图像生成商业化落地挑战

结合国外主流平台的成功经验与国内市场情况,打造成熟的商业模式需要关注来自三个方面的挑战。

● 数据能力挑战

图像生成的效果很大程度依赖于训练数据的规模和数据质量,图像生成产品在向更多专业领域和行业深入时,需要考虑行业存在的数据壁垒、数据量不足、数据质量不高等问题。另外,针对不同行业的特定场景的图像生成要求,需要结合行业知识进行增量训练,但目前图像生成模型仍然存在对复杂语义和抽象关系上的理解难度。

在模型训练阶段,可以通过数据增强策略、利用合成数据预训练等方式进行优化,提升下游任务的性能。但在商业化过程中,还需要考虑资源、性能、成本的平衡。因此,针对不同类型的用户群体,构建数据资产经营的闭环将起到决定作用。

对于C端用户,通过结合用户所输入的提示词(prompt)、生成图像选择等进行交互行为和偏好分析,利用这些沉淀的数据形成可靠的数据资产,以此提升数据筛选、标注和分类能力,以及模型的中文语义理解能力和图像风格化能力,更有针对性地进行模型迭代;同时引导用户形成中文生成内容社区,来优化内容分发方式,针对不同的用户圈层和付费意愿打造差异化的服务模式。Midjourney的一个关键成功因素就是基于Discord建立内容社区形成用户共创的格局,从而不断沉淀数据资产,提升用户粘性。

对于B端用户,可以借鉴Stability AI的商业模式,通过建立适用性良好的框架积累不同行业客群,沉淀内容和行业经验,以此提供面向用户特定需求的定制模型,例如能够对动画制作、影视制作、建筑设计等行业高质量的艺术效果图的需求进行模型调优和二次开发,形成具有行业属性的图像生成产品,将是国内图像生成下阶段商业化的成功关键。

● 产品化能力挑战

图像生成模型落地应用的过程中,需要解决模型训练阶段和下游任务实现之间的差距,满足产业场景下对图像生成的实际需求。例如在实际应用时,用户所输入的提示词直接决定了图像生成的实际效果,因此模型对于prompt的理解和运用非常关键。如果能在文生图过程中,减少文本描述量和复杂度的情况下保持对语义的准确把握,将明显降低用户的使用门槛;在此基础上,在用户意图的基础上进行扩展,生成超越预期的高质量图像,将有效提升用户体验,提升产品化能力。

而影响图像生成的产品化能力的因素,一是模型本身的性能能否直接满足应用要求,二是能否在产品中引入附加工具来解决模型局限性问题,而可控性是产品化的核心挑战。

其中一个实现方式是通过扩大参数集和数据集规模来提升模型性能,并提高对图像编辑、图像风格转化、图像超分辨率等多种下游任务融合应用的能力,从而支持多种个性化需求和控制生成图像的细节,相应地,也需要更强的模型部署能力、环境和配套资源。

另外,还可以通过引入ControlNet等微调模型来生成指定要求的图像,实现对画面中的物体位置、人物姿势等精确控制,优化图像生成模型不可控的问题,并能够进行视角调整、光影调整、细节添加等,以满足B端用户对于产品可控性的更高要求,同时也有利于在控制训练成本的前提下实现产品的快速落地。

● 监管合规挑战

生成式AI的发展不可避免引发来自人工智能技术应用风险的问题,商业化的一大前提是需要满足监管的合规性要求,近日网信办已经下发了《生成式人工智能服务管理办法》的征求意见稿,也将加速AIGC对于数据使用和行业发展的规范化。对于图像生成类产品,合规性考量主要包括隐私保护、版权保护、人工智能治理三个方面。

隐私保护方面,由于使用图像生成工具进行内容创作的成本低、操作简单、逼真程度高,在一定程度上造成了信息滥用问题,可能导致隐私泄露、伪造欺诈引发的信息安全和财产损失,例如将深度合成的人脸图像用于金融领域的身份识别欺诈,利用含有欺骗性或者其他有害的图像内容进行传播和其他不当行为等。因此需要提升图像在生成、流转、存储等过程中的数据安全,以及加强对伪造图像的判别和提示。

版权保护方面,图像生成模型基于网络公开数据进行训练,将可能会产生涉及图像知识产权的风险,例如有研究指出生成模型可能存在从训练数据中复制图像而不是生成新图像。目前,一些行业和相关机构已经要求所有生成式AI内容必须注明来源,或是直接禁用生成式AI的使用。图像生成作品是否应该受到版权保护,原创内容与生成内容的比例应该如何界定等,都是图像生成在实际应用中需要考量的问题。

人工智能治理方面,一是公平性问题,由于图像生成模型的训练数据包含大量未经过清洗的数据集,使图像生成模型中可能隐藏的如性别、种族、文化等数据偏见。二是模型可解释性问题,大模型在深度神经网络结构层级越来越复杂的情况下,存在对底层数据的淹没问题,导致模型的可解释性变弱,解析生成模型内部表征的难度变得越来越高。图像生成模型可以创建逼真场景或人物图像,其可解释性也与实际商用的可能性强相关。因此建立可信可控的人工智能需要纳入从模型训练到产品落地的全过程。


前沿探索与趋势展望


目前,图像生成技术的前沿探索主要聚焦在如何加强对图像实体关系的深度理解、提升多模态间转换生成效果、提高采样速度和样本质量的研究等方面,从而提升模型对复杂和抽象任务的图像生成效果,以及形成更强的跨模态能力和实用性。

其中,OpenAI提出的全新图像生成模型Consistency Models,不仅能够解决扩散模型迭代步骤多、采样速度慢的问题,并且无需对抗训练可以直接生成高质量样本,可以快速完成图像修复、图像超分辨率等多种图像任务,表现出了更强的应用潜力。另外,对于传统的GAN结构在增加架构容量导致的不稳定问题,已经有研究提出了全新的生成对抗网络架构,在推理速度和图像生成效果方面展现了更好的性能,可以看到GAN在图像编辑、图像转换等场景的应用潜力仍然存在。

从产业应用层面来看,随着用户规模化效应显现和治理规范的落地,下一阶段图像生成将向更加标准、细分的市场需求方向发展。在面向类型不同的使用者时,对生成效果的要求也存在不同的视角和选择偏好,C端用户关注图像生成平台的便捷性、付费模式、图像风格等使用体验。B端用户则更加看重图像生成的产品能力、服务模式,行业应用场景的丰富程度,以及与自有产品和系统结合的适用性、本地化部署要求等,用户的定制化需求也将明显增加。

因此需要在技术层面、商业模式层面进行共同探索,例如开发者生态、部署策略、垂直场景应用、IP合作分成、用户运营等,构建健康合规发展的产业生态模式,将有利于推动国内图像生成领域的产品化落地。