用户量超200万、生成1.2亿AI作品的无界AI,是怎么理解AIGC的?

转载
558 天前
10039
AIcore

文章转载来源:AIcore

原创丨头号 AI 玩家

整理 | 头号 AI 玩家

头图 | 无界 AI

* 头图使用无界 AI 创作,关键词:春江花月夜,国宝熊猫花花贵妃扮相,精细的画面,丰富的色彩(“新榜和 ta 的朋友”直播间观众提供)

5月4日,无界 AI 商务市场总监李本涨在“新榜和 ta 的朋友”视频号系列直播中进行了题为《从格物致知到人工智能,用哲学思想来理解 AIGC》的分享。

聊了聊如何从“格物致知”这一中国传统思想出发,增进对于 AIGC 的理解和认知,并对目前主流的 AIGC 模型及其应用场景进行了梳理介绍。

无界 AI 作为国内最早基于 Stable Diffusion 模型推出 AI 绘画工具的平台之一,截至目前,已历经 4 次版本迭代,累积了 200 万 + 的注册用户、生成了 1.2 亿 + 的 AI 作品。

本文整理自李本涨在直播中的分享自述,内容经嘉宾本人确认。


如何用“格物致知”的思想来理解 AIGC?


格物致知是中国传统哲学中的一种学习方法和观点,最早出自于《礼记・大学》:“致知在格物,物格而后知至”,后被宋代二程、朱熹等理学家们发扬光大。“格物”指观察和研究实际事物丰富经验,“致知“指通过实践和研究来验证和理解。

它的核心逻辑是通过经验和实践,来增进自己的理解和认知。这个观念深刻影响了中国古代哲学和文化,也成为了现代科学发展的重要理念之一。

那么距今这么多年的一种思想,能够去理解现在如日中天的人工智能吗?它们之间有什么共通之处?

首先是理论层面。



格物致知是通过经验和实践,去完善自己的思维模型。而人工智能则是通过处理大量的数据,发现数据之间的规律和模式,再通过编码形成算法模型。

所以我们很惊奇地发现,在理论层面,格物致知和人工智能,都是通过将经验或数据进行编码抽象实现的。

其次是应用层面。



从格物致知的角度来讲,通过思维模式的抽象化和触类旁通,可以把自己的理解迁移到不同的场景里面。

比如用格物致知的思维去理解如何做产品设计,因为产品设计本身需要大量的行业经验,做产品要画原型图,在此之前要做产品调研,然后再落实到具体的产品执行,也就是产品开发上。

而从人工智能的算法模型角度来讲,结合具体的行业场景,则能够落地不同的功能,最后再生成相应的内容。比如语言场景的 ChatGPT、绘画场景的 Midjourney 等等。

两者也都需要通过不断的反馈去迭代优化自己的思维模型和算法模型。

所以说,格物致知和人工智能不管是从理论层面,还是应用层面,相互之间的关联性和契合度都非常高。

一些学文科的朋友可能之前没有接触过人工智能,觉得人工智能是特别晦涩难懂或者特别理工科的东西,其实它跟哲学思考或者日常的学习应用是有异曲同工之妙的。

通过这样一个类比,我希望此前没有接触过 AIGC 的小伙伴能消除对 AIGC 的恐惧、疑虑和隔阂,坦然接受人工智能对现在主流社会或者我们的生活带来的冲击和影响。



AIGC 图灵测试


我们知道,图灵测试是一种判断计算机是否会思考的实验:一个人向计算机发问,另一个不知情的人试图从回答中区分是人还是计算机。如果计算机没有被辨认出,便视为通过了图灵实验。

如果我们用这一判断标准做一次 AIGC 图灵测试,结果会如何呢?

大家可以猜一下这些图哪些是由人创作?哪些是由 AI 创作的?


答案:案例一和案例三为 AI 创作,案例二为人创作


答案:三个案例均为 AI 生成


答案:案例一是真实照片,案例二是 AI 生成

可以说,目前的 AIGC 产物已经将真实虚拟的边界极大模糊了。

在 AIGC 时代我们应该不断调整自己的思维之“格”,不能再以固有的经验去判断现在的 AIGC 产物了,因为在很多维度上它已经大大超出了我们的原有认知。

再附上一些 AIGC 作品供大家欣赏:


AIGC 创作的童年回忆《灌篮高手》



结合机甲、三维模型的一些二次元 AIGC 作品



主流 AI 模型及其应用


接下来我们聊聊现在最流行的两种模型——文生图扩散模型和大语言模型的场景化应用。



目前主流的文生图扩散模型有 4 个:

1. Disco Diffusion

它是这一次文生图模型大爆发的先导。

Disco Diffusion 基于⼈⼯智能深度学习技术,运⽤开源⽂⽣图扩散模型(MIT 许可协议),并发布于 Google Colab 平台。这个⼯具可以直接在 Google Drive 上运⾏,同时也可以进行本地化部署和运行。

基于 Disco Diffusion ⽣成的图像⻛格⼤胆、构图抽象,发布不久就获得了⼤量早期接触 AI 绘画用户的喜爱和使⽤。

Disco Diffusion 早期的一些作品欣赏:





2. Midjourney

这也是如雷贯耳的一个文生图模型,主要搭载在 Discord 服务器上。

Midjourney 于 2022 年 7 ⽉ 12 ⽇进⼊公开测试阶段,使⽤者可通过使⽤ Discord 的机器⼈指令进⾏操作。

⽬前 Midjourney 已经更新到了 V5.1 版本,整个模型的⻛格发展变化极具 AI ⽂⽣图⾏业发展的代表性。从某种意义上来说,Midjourney 代表了 AI ⽂⽣图领域的审美标杆。





3. DALL・E2

这个是 OpenAI 团队于 2022 年发布的一个文生图模型。

它是 DALL-E 模型的升级版,使⽤了⼀种称为 GPT-3.5 的模型结构,并具有更⼤的模型参数和更多的训练数据。

与 DALL-E 相比,DALL-E2 可以⽣成更⾼质量、更复杂的图像,并且可以基于更抽象的输⼊进⾏图像⽣成,例如语⾔描述、草图等。





DALL・E 2 的绘画示例

4. Stable Diffusion

这个模型的特点是开源,同时出图效率非常高。

Stable Diffusion 的扩散模型是“潜在扩散模型”(LDM,Latent Diffusion Model)的变体。

它是由初创公司 StabilityAI、CompVis 和 Runway 合作开发的开源 AI ⽂⽣图模型。

该模型在⽣成细节丰富的不同背景的⾼分辨率图像⽅⾯⾮常稳健,同时还保留了图像的语义结构,速度也更快。

作为⼀个开源模型,基于 Stable Diffusion 的插件与社群⾮常活跃,⽽⽆界 AI 作为国内最早基于 SD 模型推出 AI 绘画⼯具的平台之⼀,也深度参与到了 AIGC 领域的技术发展、社区建设和产业化赋能中。

而文字场景下的大语言模型最有名的就是 ChatGPT 了,它发布于 2022 年年底,一个月就突破了 1 亿注册用户。众所周知,其所带来的行业颠覆性是完全超出大家之前的认知的。

第二个叫 AutoGPT,这是一个开源的自训练模型,它的特点是通过自我学习实现目标。ChatGPT 要不断地去跟它对话训练,而 AutoGPT 的特点是只要给它设定一个目标,它会自我训练,而且它是开源的,你可以部署到本地。ChatGPT 现在是不开源,你只能通过 API 去调用它的能力。

第三个叫 Anthropic,这个是谷歌投资、前 OpenAI 员工创办,目前还在发展当中的模型。大家认为它是 ChatGPT 最大的竞争对手。



无界 AI 是什么?


简单介绍一下无界 AI。

⽆界 AI 是一个 AIGC 内容创作平台,从 2022 年中旬⼊局 AI 绘画赛道,在国内应该算是比较早。虽然底层基于 SD 的大模型,但我们也做了很多二次开发,还有中小模型的研发,我们的定位是提升国产自主技术、美学与核心竞争力。

以下为无界 AI 的版本历程图,自 2022 年 5 月至今,一共上线迭代了四个版本。



这里向大家展示一些由无界 AI 生成的作品和插件功能。



无界 AI 人像作品欣赏



无界 AI 二次元精绘








那么这些功能具体可以用来做什么呢?

包括漫画创作、家装设计、虚拟模特换衣、以及打造虚拟人主播等等。









AIGC 版权问题何解?


我们认为 AIGC 时代的到来,预示着内容创作的一场爆炸式革命。但与此同时,版权侵权问题也受到了高度关注。

就技术原理而言,AIGC 模型在训练及使用过程中,利用版权作品的方式、利用行为的版权定性仍有待分析明确。

而区块链技术则可以保障 AIGC 数字版权的确权流转和保护,它的特点是可溯源、创作快、唯一性和成本低,我们可以把它定义为 AIGC 界的视觉中国。



下个十年将是 AIGC 的十年,关于 AI 会不会取代部分人类劳动者的讨论,有句话我觉得说得很对:取代你的不是 AI,而是使用 AI 的人。正所谓“君子生(性)非异也,善假于物也”。



AIGC 就是一个赋能工具,没必要去抵触它,而是应该思考如何利用它去提升自己的生产力,实现降本增效。

最后送给大家一句话:用你的格物之格,迎接属于自己的 AIGC 时代!