AI绘画工具Midjourney创始人:AI绘画技术是想象力的发动机

转载
869 天前
6562
奇幻空间

文章转载来源:奇幻空间

来源:澎湃新闻

作者:方晓

原标题:《AI绘画工具Midjourney创始人:人工智能像水》

汽车比人的速度快,但并不意味着我们不再行走。远距离移动大量物体时,我们需要发动机,无论是飞机、船只还是汽车。我们认为AI绘画技术是想象力的发动机。”

“人们完全误解了人工智能是什么。他们把它看作是一只老虎。老虎很危险,可能会吃掉我,是一个对手。水也有危险,你会淹死在水中,但你也可以在里面游泳,可以制造船只,可以用水坝发电。水是危险的,但它也是文明的驱动力。”

AI绘画会让艺术家们集体失业吗?

Midjourney是一款AI绘画工具,只要输入你想到的文字,就能通过人工智能产出相对应的图片,耗时只有大约一分钟。自今年5月推出beta版后,这款搭载在Discord社区上的工具迅速成为讨论焦点。

今年4月,另外一款大热的AI绘画工具DALL-E升级到第二代,并在7月对100万个用户开放测试,尽管要收费,还是吸引了大量用户涌入。

目前,AI生成的艺术品正悄悄开始重塑文化。过去几年里,机器学习系统从文本提示生成图像的能力,在质量、准确性和表达能力方面都得到了显著提高。这些画作在互联网上流传,给人们带来了一种新奇感。艺术家和设计师也正在把这些软件集成到工作流程中,很快,由人工智能生成和增强的艺术将无处不在。

但是,这些工具从实验室转移到日常用户手中,在创造新的视觉表达语言的同时,也很可能带来新的问题,比如版权纠纷、输出错误信息的潜在危险,都必须引起注意。

近日,科技媒体The Verge专访了Midjourney的创始人David Holz。这家公司目前只有约10个员工,但雄心勃勃。Holz说:人工智能增强下创造力的涌现,仍然只是冰山一角。

以下为采访内容,有删减。

问:你有什么背景?是怎么进入这个领域的?什么是Midjourney——一家公司,一个社区?如何描述它?

答:我2011年左右搬到旧金山,创办了名为Leap Motion的科技公司,运营12年后离开,再创办了Midjourney。

我们认为,(AI绘画工具)不是关于艺术或深度伪造(deepfake)的问题,而是,我们如何扩大人类物种的想象力?当计算机比99%的人类更擅长视觉想象力时,这意味着什么?这并不意味着我们将停止想象。汽车比人的速度快,但并不意味着我们不再行走。远距离移动大量物体时,我们需要发动机,无论是飞机、船只还是汽车。我们认为这项技术是想象力的发动机。因此,这是一件非常积极和人性化的事情。

问:许多实验室和公司正在开发类似的技术,将文本转化为图像。谷歌有Imagen,OpenAI有DALL-E,还有一些较小的项目,如Craiyon。这种技术从何而来,你觉得它未来会走向何处?Midjourney的愿景与这个领域的其他人有什么不同?

答:(人工智能带来图像生成工具)取得了两个突破。一个是理解语言,另一个是创建图像的能力,结合后可以通过理解语言来创建图像。这些工具将比人类更擅长制作图像,而且速度会非常快,在未来一两年内将能够实时制作内容:每秒30帧,高分辨率。会很贵,但是是可能实现的。然后在10年后,将能买到带有巨型人工智能处理器的Xbox,所有游戏都像梦一样。

我们去年9月开始测试原始技术,很快发现,大多数人不知道他们想要什么。你说:“这里有一台机器,你可以用它画任何东西,你想要什么?”他们说:“狗”。你说:“真的吗?”然后他们说:“粉红色的狗”。所以你给他们一张狗的图片,他们就说“好吧”,然后去做别的事情。

然而,如果你把他们放在一个小组里,他们会说“狗”,其他人会说“太空狗”,还有人会说“阿兹特克太空狗”,然后突然之间,人们明白了这些可能性,你正在创造一种被增强的想象力,一个可以用这种新能力学习和娱乐的环境。因此,我们发现人们真的喜欢一起想象,所以我们让(Midjourney)更具社交性。我们有一个巨大的Discord社区,大约有100万人在这些共享空间中共同想象。

问:你认为这种人类的集体与机器的集体是平行的吗?可以作为这些人工智能系统的某种制衡?

答:不存在机器的集体。每次你要求人工智能作画时,它都不记得或知道它做过的任何东西。它没有意志,没有目标,没有意图,没有讲故事的能力。所有的自我、意志和故事都是我们人类的。它就像一个发动机,发动机不会自己去哪,但人会去。

社区内有一百万人在制作图像,你必须支付额外费用才能退出社区——如果这么做,说明你是某种类型的商业用户。所以每个人都在互相撕裂,产生新的美学。几乎就像审美加速主义。它们不是人工智能美学,而是新的、有趣的人类美学,我认为它们会溢出到真实世界。

一个由百万人组成的社区,他们的想象力被人工智能增强了。(图 The Verge / Midjourneynone)

问:这种开放性能确保安全吗?因为有很多讨论,说人工智能图像生成器被用来生成潜在的有害内容,无论是令人讨厌的图像——血腥和暴力——还是错误信息。你如何阻止这种情况发生?

答:当你在某人制作的所有图像上写上他的名字时,他们在使用方面就更加有规范了。这很有帮助。

每当我们看到时都会禁止。如果必须的话,会禁言。

问:那真实的面孔呢,因为这是制造错误信息的另一个载体。模型是否生成逼真的面孔?

答:会产生名人面孔这类东西。但我们一般不会,我们有默认的风格和外观,既具有艺术性又美观。如果花100个小时尝试,也许可以找到一些合适的单词组合,让它看起来非常逼真,但你必须非常努力,让它看起来像一张照片。就我个人而言,我认为世界不需要更多的深度伪造,但它确实需要更多美丽的东西,所以我们专注于让一切看起来美丽和具有艺术性。

苏联时代的宣传海报警告流氓人工智能的危险。(图 The Verge / Midjourneynone)

问:你从哪里获得模型中的训练数据?

答:和其他人一样,我们的训练数据几乎来自同一个地方——差不多就是互联网。几乎每个大型人工智能模型都会提取它所能获得的所有数据和所有文本,以及能够提取的所有图像。

所以,我们最近的更新做了很大改进,你可能认为我们是通过(在训练数据中)放入大量绘画来做到的,但并没有。我们只是使用了用户作品的数据。

问:训练花了多少钱?

答:我不能谈论具体成本,但我可以说个大概。训练图像模型每次大概在5万美元左右。一次尝试无法正确理解,所以必须尝试3次、10次或者20次。很贵,比大多数大学所能支付得要多,但也不至于贵到10亿美元或需要购买一台超级计算机。

我相信培训和运营的成本都会下降。但运行成本实际上相当高。每张图片都花钱。每个图像都是在2万美元的服务器上生成的,我们必须按分钟租用这些服务器。

问:说到训练数据,一个有争议的方面是所有权问题。美国现行法律规定,不能对人工智能生成的艺术作品拥有版权,但我们不太清楚是否可以对训练数据中使用的图像拥有版权。艺术家和设计师努力创造一种特定的风格,但如果他们的作品现在可以被人工智能机器人复制,会发生什么?

答:我们的社区中确实有很多艺术家,他们对这个工具普遍持积极态度,认为这将使他们更有效率,并改善他们的生活。我们经常和他们交谈,问:“你还好吗?你对此感觉好吗?”

许多使用该平台的知名艺术家都在说同样的话,真的很有意思。他们说:“我觉得Midjourney是一个艺术学生,它有自己的风格,当你用我的名字来创作图像时,就像要求艺术学生创作一些受我艺术启发的东西。一般来说,作为一名艺术家,我希望人们从我创作的东西中获得灵感。”

问:您在对话中多次提到Midjourney的默认艺术风格,每个人工智能图像生成器都有自己的偏好和表达方式。你如何描述Midjourney的独特风格,你是如何有意识地发展它的?

答:我们尝试了很多东西,每次尝试新事物时,都会渲染出一千张图像。我们绝对不希望它看起来像照片。完美的照片让我有点不舒服,尽管我知道你有理由想要更逼真的东西。

我认为这种风格会有点异想天开、抽象和奇特,它倾向于以你可能不会要求的方式进行融合,以一种令人惊讶和富有美感的方式。它喜欢使用很多蓝色和橙色,有一些最喜欢的颜色和最喜欢的面孔。如果你给它一个非常模糊的指示,它会用它喜欢的方式来创作。所以,我们不知道为什么会发生这种情况,但它喜欢画一张特别的女人脸——我们不知道它来自哪里,来自我们的12个训练数据集之一——但人们只是称它为Miss Journey。还有一个家伙的脸,有点方正,带着压迫感,也出现了一段时间,但他还没有名字。

Journey小姐的油画肖像。(图 The Verge / Midjourneynone)

问:人工智能领域的一些人倾向于以宏大的术语来思考这项技术,他们将其与神比较,与有感知的人生相比。你觉得怎么样?

答:一段时间以来,我一直在试图弄清楚什么是Midjourney的人工智能图像生成器?你可以说它就像一个想象力的发动机,但也有别的东西。这就像摄影的发明吗?摄影被发明时,绘画就变得奇怪了,因为任何人都可以拍一张脸的照片,那么我为什么要画画呢?

是这样的吗?不,不是那样的。感觉就像发动机的发明:就像你每分钟都在创作一堆图像,你沿着想象的道路飞来飞去,感觉很好。但是,如果你再向未来迈出一步,你不是一次创作4张图像,而是1000或10000张,那就不同了。有一天,我做到了:我在几分钟内制作了4万张图像,突然之间,我面前有如此巨大的广度——所有这些不同的生物和环境——我花了四个小时才看完一切,在这个过程中,我感觉自己好像要淹死了。我觉得我是个小孩子,看着游泳池的深处,就像知道自己不会游泳,对水的深度有这种感觉。突然间,(Midjourney)感觉不像发动机,而是像一股洪流。我花了几周来消化,我想了想,然后我意识到,你知道吗?这实际上是水。

现在,人们完全误解了人工智能是什么。他们把它看作是一只老虎。老虎很危险,可能会吃掉我,是一个对手。水也有危险,你会淹死在水中,但流水的危险与老虎的危险大不相同。水是危险的,是的,但你也可以在里面游泳,你可以制造船只,可以用水坝发电。水是危险的,但它也是文明的驱动力,作为知道如何与水一起生活和共事的人,我们相处得更好。这是一个机会。它没有意志,没有恶意,是的,你可能淹死在里面,但这并不意味着我们应该禁止水。当你发现一个新的水源时,这真的是一件好事。

问:Midjourney是新的水源吗?

答:我觉得我们作为一个物种,共同发现了一种新的水源,Midjourney试图弄清楚的是,好吧,我们如何让人们使用它?我们如何教人们游泳?如何制造船只?如何建造水坝?如何从害怕溺水的人变成将来在海水中冲浪的孩子?我们正在制造冲浪板,而不是制造水。

将人工智能描绘成水的插图:一种可以用于善或恶的强大力量。(图 The Verge / Midjourneynone)

来源:https://www.theverge.com/2022/8/2/23287173/ai-image-generation-art-midjourney-multiverse-interview-david-holz