由于微信限制了第三方应用的跳转,请使用以下方法。

1. 点击右上角的

2. 选择在浏览器中打开

AIGC:Web3时代的生产力工具

转载
743 天前
8492

文章转载来源:国盛区块链研究院

原创 宋嘉吉、金郁欣 吉时通信


摘要


在我们《元宇宙(七):虚拟人的“灵魂”是什么?》的报告中,提到了虚拟人的灵魂并不仅是逼真的外表,而是来自于 AI 自主生成的内容。同时,元宇宙更倾向于开放世界游戏,AIGC 内容生成方式的创新将成为 Web3 时代全新的生产力工具。

AIGC(AI-Generated Content 人工智能生成内容)代表新一轮范式转移的开始。近期,硅谷的众多一线 VC 们开始将目光瞄准 AI 初创公司,尤其是生成式 AI 艺术这一领域。今年有两家独角兽 Stability 和 Jasper 均获得了超过一亿美元的融资,估值突破十亿美元。AIGC 赛道火爆不仅得益于技术进步、商业应用广泛和需求增长,还归功于该赛道还处于早期。虽然大型科技公司捕获了大量价值,初创企业仍有机会突破。

AIGC 将是 Web3 时代的生产力工具。当我们迈入 Web3.0 时代,人工智能、关联数据和语义网络构建,形成人与网络的全新链接,内容消费需求飞速增长。UGC\PGC 这样的内容生成方式将难以匹配扩张的需求。AIGC 将是新的元宇宙内容生成解决方案。AIGC 的生成利用人工智能学习知识图谱、自动生成,在内容的创作为人类提供协助或是完全由 AI 产生内容。不仅能帮助提高内容生成的效率,还能提高内容的多样性。随着 NLP(Natural Language Processing,自然语言处理)技术和扩散模型(Diffusion Model)的发展,AI 不再仅作为内容创造的辅助工具,创造生成内容成为了可能。由此,将来文字生成、图片绘制、视频剪辑、游戏内容生成皆可由 AI 替代。

AIGC 技术主要涉及两个方面:自然语言处理 NLP 和 AIGC 生成算法。自然语言处理是实现人与计算机之间如何通过自然语言进行交互的手段。AIGC 生成算法主流的有生成对抗网络 GAN 和扩散模型。扩散模型已经拥有了成为下一代图像生成模型的代表的潜力。它具有精度更高、可扩展性和并行性,无论是质量还是效率均有所提升,其快速发展成为 AIGC 增长的拐点性因素。同时,在机器学习的过程中,需要通过大量的训练来实现更准确的结果,目前以英伟达 A100 为主,对于底层算力需求将有飞速增长。

AIGC 在文字、图像、音频、游戏和代码生成中商业模型渐显。近期我们研究了国内外数十家 AIGC 相关企业,尤其在一些具备高重复性的任务、对于精度要求并不那么高的领域应用已逐步成熟,并在探索商业模式中。目前图片生产、文字生成较为常见,这类 AIGC 服务大多数时候会以提供 SaaS 服务的形式变现。

AIGC 未来发展核心:大模型、大数据与大算力。结合自然语言的大模型与数据集已成为 AIGC 发展的软件基础,OpenAI 的 Clip 模型基于 4 亿组高质量的英文图文对应数据训练而成;算力即权力将在 AIGC 数字时代更加凸显,Stable Diffusion 目前依赖于 4000 个英伟达 A100 的 GPU 集群,运营成本超 5000 万美金。为了让功能更加精确,未来还将更多地基于语种去开发垂直类的应用,便于更有目的性地为特定功能进行训练。

AIGC 投资框架:软硬件与数据集。生成算法、NLP 与算力决定 AIGC 能否运行,而高质量的数据集决定了 AIGC 质量与商业模式。

软件层面主要包括自然语言处理技术:谷歌、微软、科大讯飞、拓尔思;

AIGC 生成算法模型及数据集:英伟达、Meta、百度、蓝色光标、视觉中国、昆仑万维;

算力层包括:澜起科技、中兴通讯、新易盛、天孚通信、宝信软件、中际旭创等。

风险提示:技术创新不及预期:AIGC 的技术发展不及预期。以及底层硬件技术,如:超级计算机、算力的发展不及预期。政策监管风险:目前 AIGC 还处于相对早期,后续是否会出台 AIGC 作品相关知识版权或其他法律监管条款尚不明确。





1. 2022:AIGC 的崛起之年


近期,硅谷的众多一线 VC 们开始将目光瞄准 AI 初创公司,尤其是生成式 AI 艺术这一领域。今年 9 月 23 日,红杉美国官网发表了一篇名为《生成式 AI:一个创造性的新世界》的文章,认为 AIGC(AI-Generated Content 人工智能生成内容)会代表新一轮范式转移的开始。

2022 年 10 月,英国开源人工智能公司 Stability AI 宣布获得 1.01 亿美元融资,估值高达 10 亿美元,跻身独角兽行列,由 Coatue、Lightspeed Venture Partners 和 O'Shaughnessy Ventures LLC 参与投资。Stability AI 今年发布了 Stable Diffusion 的模型,主要用于根据用户输入的文字描述自动生成图像。Stable Diffusion 的诞生让 AI 绘画这个领域愈发火爆。最近,巴比特正式对外宣布,全面拥抱 AIGC,开始规模化采用 AI 配图,其中头条图片,全面由 AI 创作。包括但不限于巴比特网站和 App,微信公众号、百家号、网易号等自媒体平台,以及微博等社交媒体账号。


除了绘画以外,文字、音频、视频均可通过 AI 来生成。

l 文字:以 Jasper 为例,以 AI 文字生成为主打产品,通过其文字生成功能,用户可以生成 Instagram 标题,编写 TikTok 视频脚本、广告营销文本、电子邮件内容等工作。截止 2021 年,Japer 已拥有超过 70000 位客户,并创造了 4000 万美元的收入。


l 音频:以 Podcast.ai 为例,作为一个由 AI 生成的博客,每周都会探讨一个话题。在第一期节目中,其通过乔布斯的传记和收集网络上关于他的所有录音,Play.ht 的语言模型大量训练,最终生成了一段假 Joe Rogan 采访乔布斯的播客内容。


l 视频:目前的 AI 技术不仅可以生成图片,也能够生成序列帧,如:《幻觉东京》。经过 160 小时,完成 3 万多张独立插画,再进行手动微调。虽然目前还只是在原脚本和视频的基础上,通过 AI 逐帧完成图片生成的,但看到了 AIGC 参与到视频创作中的可能。而在诸多垂直类应用中,如体育、财经等,已经可以通过文字直接生成相应的短视频,如果配上虚拟人则可以实现自动播报。相比于单一的虚拟人读稿,基于 AIGC 生产的内容在镜头转换、表情动作结合方面更加逼真、自然。


随着 NLP(Natural Language Processing,自然语言处理)技术和扩散模型(Diffusion Model)的发展,AI 创造生成内容成为了可能。此前,内容生成主要运用 GAN(Generative Adversarial Network,生成对抗网络)来实现的,GAN 不同于扩散模型依赖于超大规模语言模型,因此难以实现通过文字的描述,自主理解内容并创造出图像、视频等。近年来,随着扩散模型的成熟,生成方式更接近于人脑的联想,AIGC 完成了内容创造辅助工具到内容创作主体的角色转变。


2. AIGC 是什么?


AIGC 是通过人工智能技术自动生成内容的生产方式。从 Web 1.0 的单向信息传递的“只读”模式到 Web 2.0 的人与人通过网络双向沟通交流的“交互”模式,内容的需求在不断增加。为了满足这一需求,同时也因为互联网的发展,内容的生成从单一的 PGC 演变到了现在的 UGC 并占据了主要市场。YouTube、Instagram、抖音、快手、B 站上有大量的内容来自于 UGC 创作者。当我们迈入 Web3.0 时代,人工智能、关联数据和语义网络构建,形成人与机器网络的全面链接,内容消费需求飞速增长,UGC\PGC 这样的内容生成方式将难以匹配扩张的需求。


我们认为,AIGC 将是 Web3 时代全新的内容生成工具,同样,将对现有的短视频、游戏及广告行业带来巨大的影响。AIGC 的生成利用人工智能学习知识图谱、自动生成,在内容的创作为人类提供协助或是完全由 AI 产生内容。不仅能帮助提高内容生成的效率,还能提高内容的多样性。

2.1 AIGC 发展简史

AIGC 的发展可以大致分为以下三个阶段:

l 早期萌芽阶段:20 世纪 50 年代—90 年代中期,受限于科技水平,AIGC 仅限于小范围实验

l 沉积积累阶段:20 世纪 90 年代中期—21 世纪 10 年代中期,AIGC 从实验向实用转变,受限于算法,无法直接进行内容生成

l 快速发展阶段:21 世纪 10 年代中期—现在,深度学习算法不断迭代,AI 生成内容种类多样丰富且效果逼真

近年来,AIGC 的发展迅速,从原来作为边缘侧服务于企业、机构的角色变为了现在 C 端零基础用户都可以使用的创作工具。开发侧重点上,AIGC 也从原先用于翻译、语音合成以及重复性工作转变为了更注重应用层面,用户能够便捷操作的方向。


2.2 技术

随着 NLP(Natural Language Processing,自然语言处理)技术和扩散模型(Diffusion Model)的发展,AI 不再仅作为内容创造的辅助工具,创造生成内容成为了可能。

自然语言处理技术 NLP

自然语言处理是实现人与计算机之间如何通过自然语言进行交互的手段。融合了语言学、计算机学、数学,使得计算机可以理解自然语言,提取信息并自动翻译、分析和处理。在自然语言处理技术发展之前,人类只能通过一些固定模式的指令来与计算机进行沟通,这对于人工智能的发展是一个重大的突破。

自然语言处理最早可以追溯到 1950 年,图灵发表论文“计算机器与智能”,提出“图灵测试”的概念作为判断智能的条件。这一测试包含了自动语意翻译和自然语言生成。

自然语言处理技术可以分为两个核心任务:

l 自然语言理解 NLU:希望计算机能够和人一样,具备正常人的语言理解能力。过去,计算机只能处理结构化的数据,NLU 使得计算机能够识别和提取语言中的意图来实现对于自然语言的理解。由于自然语言的多样性、歧义性、知识依赖性和上下文,计算机在理解上有很多难点,所以 NLU 至今还远不如人类的表现。

自然语言理解跟整个人工智能的发展历史类似,一共经历了 3 次迭代:基于规则的方法、基于统计的方法和基于深度学习的方法。


l 自然语言生成 NLG:将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等。NLG 的发展经历了三个阶段,从早期的简单的数据合并到模板驱动模式再到现在的高级 NLG,使得计算机能够像人类一样理解意图,考虑上下文,并将结果呈现在用户可以轻松阅读和理解的叙述中。自然语言生成可以分为以下六个步骤:内容确定、文本结构、句子聚合、语法化、参考表达式生成和语言实现。


NLP 主要被应用在四个方面:

l 情感分析:互联网上存在大量的信息,表达的内容都是多种多样的,但抒发的感情大致可以分为正面和负面的,可以被用来快速了解用户的舆情情况。

l 聊天机器人:近年来,智能家居的发展和普及使得聊天机器人的价值扩大。

l 语音识别:微信中可以通过语音进行输入或直接将语音转化为文字,汽车导航可以直接说目的地,大大提升了便利性。

l 机器翻译:机器翻译的准确率在近年大幅提高,YouTube 和 netflix 甚至可以做到视频机器翻译。


商业上,NLP 主要被应用在一下领域:

l 用于处理财务、医疗保健、零售、政府和其他部门手写或机器建立档案

l 文字处理工作,如:名称实体辨识(NER)、分类、摘要和关联撷取。这能将撷取、识别和分析文档资讯的流程自动化。

l 语意搜寻和资讯撷取和知识图表建立

l 跨零售、财务、旅游和其他产业客户的交互 AI 系统等。

神经网络,尤其是循环神经网络 (RNN)是当前 NLP 的主要方法的核心。其中,2017 年由 Google 开发的 Transformer 模型现已逐步取代长短期记忆(LSTM)等 RNN 模型成为了 NLP 问题的首选模型。Transformer 的并行化优势允许其在更大的数据集上进行训练。这也促成了 BERT、GPT 等预训练模型的发展。这些系统使用了维基百科、Common Crawl 等大型语料库进行训练,并可以针对特定任务进行微调。


Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。除了 NLP 以外,也被用于计算机视觉领域。与循环神经网络(RNN)一样,Transformer 模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。而与 RNN 不同的是,Transformer 模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则 Transformer 不必像 RNN 一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。


AIGC 生成模型

近年来,AIGC 的快速发展归功于生成算法领域的技术积累,其中包含了:生成对抗网络(GAN)、变微分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型(Diffusion Model)。可以看到,大模型、大数据、大算力是未来的发展趋势。我们认为,算法模型的突破是近年来 AIGC 得以快速突破的催化剂,下面将展开介绍一下两个非常常用的模型,分别是生成对抗网络和扩散模型。

l 生成对抗网络 GAN(Generative Adversarial Networks)

2014 年,Ian J.Goodfellow 提出了 GAN,是一种深度神经网络架构,由一个生成网络和一个判别网络组成。生成网络产生“假”数据,并试图欺骗判别网络;判别网络对生成数据进行真伪鉴别,试图正确识别所有“假”数据。在训练迭代的过程中,两个网络持续地进化和对抗,直到达到平衡状态,判别网络无法再识别“假”数据,训练结束。


GAN 被广泛应用于广告、游戏、娱乐、媒体、制药等行业,可以用来创造虚构的人物、场景,模拟人脸老化,图像风格变换,以及产生化学分子式等等。


其优点在于:

n 能更好建模数据分布

n 无需利用马尔科夫链反复采样,无需在学习过程中进行推断,没有复杂的变分下界,避开近似计算棘手的概率的难题

缺点:

n 难训练,不稳定。生成器和判别器之间需要很好的同步,但是在实际训练中很容易判别器收敛,生成器发散。两者的训练需要精心的设计。

n 模式缺失(Mode Collapse)问题。GANs 的学习过程可能出现模式缺失,生成器开始退化,总是生成同样的样本点,无法继续学习。

l 扩散模型 Diffusion Model

扩散模型是一种新型的生成模型,可生成各种高分辨率图像。在 OpenAI,Nvidia 和 Google 设法训练大模型之后,它们已经引起了很多关注。基于扩散模型的示例架构包括 GLIDE,DALLE-2,Imagen 和完全开源的稳定扩散。扩散模型已经拥有了成 为下一代图像生成模型的代表的潜力。以 DALL-E 为例,能够直接通过文本描述生 成图像,让计算机也拥有了人的创造力。


扩散模型的生成逻辑相比其他的模型更接近人的思维模式,也是为什么近期 AIGC 拥有了开放性的创造力。本质上,扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程来学习恢复数据。训练后,我们可以通 过简单地将随机采样的噪声传递给学习的去噪过程来生成数据。

从下图可以看到,扩散模型是一个潜在变量(latentvariable)模型,通过马尔科夫链映射到潜在空间。马尔可夫链是状态空间中经过从一个状态到另一个状态的转换的随机过程,下一状态的概率分布只由当前状态决定。在这一过程中逐步添加高斯噪声来获得近似的后验概率 q (

64x64

SolanaETF获批前景:从“几乎无望”到“2025年底前可期”,当前有哪些挑战?

App打开
64x64

专访Polkadot缔造者GavinWood:因过于超前经历了哪些误解和挫折?

App打开
64x64

交易机器人存在的跑路风险,UTONIC的AVS+MPC方案可以解吗?

App打开
更 火 的 区 块 链 资 讯
分享自火讯财经-长按识别快讯真伪