谷歌、英伟达都在卷的文本-CAD生成技术,应该如何优化?

转载
475 天前
10035
Yangz

文章转载来源:Yangz

撰文:Reggie Raye

来源:The Gradient

图片来源:由无界 AI工具生成

人工智能驱动的文本到图像生成技术尚未尘埃落定。然而,结果已经显而易见:一大波糟糕的图像如潮水般涌来。当然,这其中也有一些高质量的图片,但这并不足以盖过信噪比所造成的损失 -- 每有一位从 Midjourney 生成的专辑封面中获益的艺术家,就有五十个人会被 Midjourney 生成的深度伪造图片所欺骗。在这个世界上,信噪比下降是许多弊病的根源(想想科学研究、新闻业、政府问责制),这可不是什么好事。

现在有必要对所有图像都抱有怀疑的态度。(诚然,这种情况由来已久,但随着深度伪造事件的日益增多,人们的警惕性也应相应提高,而这除了令人不快之外,还会给认知造成负担)。不断猜疑 -- 或者说经常误导 -- 似乎是为一个无人问津的数字小玩意付出的高昂代价,而且迄今为止还没有带来什么好处。希望 -- 或者更恰当地说,祈祷 -- 成本与效益之比能很快进入理智状态。

但与此同时,我们应该注意到生成式人工智能领域的一个新现象:人工智能驱动的文本到 CAD 生成。其前提与文本到图像程序类似,只是程序返回的不是图像,而是三维 CAD 模型。

要求人工智能给出“蒙娜丽莎,但穿的是 Balenciaga”的图像,人工智能会将其转换为 3D 图像

这里有一些定义。首先,计算机辅助设计(CAD)是指用户创建物理对象(例如杯子、汽车和桥梁等)的数字模型的软件工具。(CAD 背景下的模型与深度学习模型无关;丰田凯美瑞 ≠ 循环神经网络。)但 CAD 也很重要;试着想想你上一次没有看到 CAD 设计的物体是什么时候。

说完了定义,现在让我们来看看想要进入文本转 CAD 世界的大玩家:欧特克(CLIP-Forge)、谷歌(DreamFusion)、OpenAI(Point-E)和英伟达(Magic3D)。以下是各公司的示例:

截至 2023 年初,主要参与者并没有阻止初创公司以近每月一家的速度涌现,其中 CSMSloyd 可能是最有前途的。

此外,还有一些奇妙的工具可以称为 2.5 D,因为它们的输出介于 2-D 和 3-D 之间。这些工具的原理是,用户上传一张图片,然后人工智能就能猜测出这张图片在三维空间中的效果。

这个贪婪杯通过 AI 将 SBF(Sam Bankman-Fried,被描绘成披着羊皮的狼和吹笛人)的形象变成了浮雕(图片来源:Reggie Raye/TOMO)

毫无疑问,开源动画和建模平台 Blender 是这一领域的佼佼者。而 CAD 建模软件 Rhino 现在也有 SurfaceReliefAmbrosinus Toolkit 等插件,可以很好地从普通图像生成 3D 深度图。

首先应该说,所有这些都令人兴奋。作为一名 CAD 设计师,我热切地期待着这些潜在的好处。工程师、3 D 打印爱好者和视频游戏设计师等许多人同样会从中受益。

不过,文本到 CAD 也有很多缺点,其中许多都很严重。简单列举如下:

  • 为大规模制造武器、种族主义或其他不良材料敞开大门
  • 引发垃圾模型浪潮,进而污染模型库
  • 侵犯受版权保护的内容创作者的权利

无论如何,不管我们愿不愿意,文本到 CAD 都将到来。但值得庆幸的是,技术人员可以采取一些措施来改进程序的输出,减少其负面影响。我们已经确定了此类程序可以提升水平的三个关键领域:数据集整理、可用性模式语言和过滤。

据我们所知,这些领域在文本到 CAD 的背景下基本上还没有被探索过。可用性模式语言的想法将受到特别关注,因为它有可能显著提高产出。值得注意的是,这种潜力并不局限于 CAD;它可以改善大多数生成式人工智能领域(如文本和图像)的结果。


数据集管理


被动收集

虽然并非所有文本到 CAD 的方法都依赖于三维模型的训练集(谷歌的 DreamFusion 是一个例外),但策划模型数据集仍然是最常见的方法。毋庸赘言,这里的关键在于要策划出一套出色的模型来进行训练。

而做到这一点的关键有两个方面。首先,技术人员应避免使用显而易见的模型来源:Thingiverse、Cults3 D、MyMiniFactory。虽然那里也有高质量的模型,但绝大多数都是垃圾。(Reddit 上的 thread“Thingiverse 为何如此糟糕?”就是说明了这一问题)。其次,应该寻找超高质量的模型库。(Scan the World 可能是世界上最好的)。

其次,可以根据质量对模型来源进行加权。艺术硕士(MFA)很可能会抓住机会来做这样的标注工作 -- 而且由于劳动力市场的不公平,他们只需要花很少的钱。

主动策划

策展可以而且应该发挥更积极的作用。许多博物馆、私人收藏和设计公司都很乐意对其工业设计藏品进行 3 D 扫描。此外,扫描除了能产生丰富的语料库外,还能为我们脆弱不堪的文化创造一个强大的记录。

法国人之所以能在圣母院大火后重建圣母院,全靠一个美国人的 3D 扫描技术。图片来源:Andrew Tallon/Vassar College

丰富数据

在创建高质量语料库的过程中,技术人员必须认真思考他们希望数据做什么。乍一看,主要用例可能是“授权硬件公司的经理们移动几个滑块,输出所需的产品蓝图,然后就可以进行生产”。然而,如果从大规模定制失败的历史来看,这种方法很可能会失败。

我们认为,更有效的用例是‘授权领域专家 -- 比如产品设计公司的工业设计师 -- 提示工程师,直到他们获得合适的输出,然后再进行微调,最终完成’。

这样的用例需要一些乍一看可能并不显眼的东西。例如,领域专家需要能够上传参考产品的图片,就像在 Midjourney 中一样,然后根据其目标属性 -- 风格、材料、动力学等 -- 对其进行标记。在这种情况下,采用分面方法可能会很有吸引力,专家们可以在下拉菜单中选择样式类型、材料类型等。但经验表明,通过丰富数据集来创建属性桶的做法并不可取。音乐流媒体服务潘多拉(Pandora)就采用了这种人工方法,但最终被依靠神经网络的 Spotify 击败。

收获

在严格的数据集整理领域(除少数例外),几乎没有人做过什么工作,因此,我们可以从中获益良多。这应该成为在文本到 CAD 的战争中寻求竞争优势的公司和企业家的首要目标。一个庞大而丰富的数据集很难制造,也很难模仿,这是最好的”微尘“。

从不那么公司化的角度来看,深思熟虑的数据集策划是推动创造精美产品的理想方式。迄今为止,生成式人工智能工具反映了其创造者的优先考虑事项,但与品味无关。我们应该为美的重要性表明立场。我们应该关心我们带到这个世界上的东西是否会让用户着迷,是否经得起时间的考验。我们应该反对将平庸的产品堆砌在平庸的浪潮中。

如果有些人认为美本身并不是目的,那么也许他们会被两个数据所说服:可持续性和利润。

过去一百年中最具标志性的产品 -- 伊姆斯(Eames)座椅、莱卡(Leica)相机、伟士帕(Vespa)踏板车 -- 都被其使用者视若珍宝。充满活力的爱好者们修复它们、出售它们,并继续使用它们。也许它们的复杂设计需要比当时的竞争对手多排放 20% 的废气。没关系。它们的寿命是以四分之一个世纪而不是以年来计算的,这意味着它们的消耗和排放其实更少。

1963 年的 Vespa GS 160 在 2023 年的售价为 13000 美元

至于利润,漂亮的产品溢价已不是什么秘密。。iPhone 的规格从来都无法与三星相比。然而苹果的收费却比三星高出 25%。可爱的菲亚特 500 超小型汽车的油耗比不上 F-150。但没关系,菲亚特赌对了,雅皮士们愿意为可爱多付 5000 美元。


可用性模式语言


概述

模式语言由多面手克里斯托弗 - 亚历山大(Christopher Alexander)于 20 世纪 70 年代首创。它被定义为一组相互促进的模式,每个模式都描述了一个设计问题及其解决方案。虽然亚历山大的第一种模式语言是针对建筑设计的,但它已被成功应用于许多领域(最著名的是编程),并且至少在生成设计领域同样有用。

在文本到 CAD 中,模式语言由一系列模式组成;例如,一个模式用于运动部件,一个模式用于铰链(运动部件的一个子集,因此向下抽象一层),一个模式用于摩擦铰链(再向下抽象一层)。摩擦铰链图案的格式如下:

与自然语言一样,模式语言包括词汇(设计方案集)、语构(方案在语言中的位置)和语法(模式可以解决问题的规则)。请注意,上述模式“摩擦铰链”是分层网络中的一个节点,可以通过有向网络图直观地显示出来。

这些模式体现了设计基本要素 -- 人类因素、功能、美学等方面的最佳实践。因此,这些模式的输出将更可用、更易懂(避免黑箱问题)、更易于微调。

最重要的是,除非文本到 CAD 的程序考虑到设计的基本原理,否则其输出结果只能是垃圾。什么都不做总比一台文本到 CAD 生成的,但屏幕无法保持直立的笔记本电脑要好。

在所有这些基本要素中,也许最重要也是最难考虑的是人类因素的设计。要设计出有用的产品,需要考虑的人类因素几乎是无穷无尽的。人工智能必须识别并设计出夹点、手指夹伤、位置不当的尖锐边缘、人体工程学比例等问题。

实践

让我们来看一个实际例子。假设 Jane 是 ABC 设计工作室的一名工业设计师,该工作室受委托设计一款未来派游戏笔记本电脑。按照目前的技术水平,Jane 可以使用 Fusion 360 这样的 CAD 程序,进入 Fusion 的生成设计工作区,然后花一周(或一个月)的时间与她的团队一起指定所有相关的约束条件:载荷、条件、目标、材料属性等。

但是,无论 Fusion 的生成设计工作区有多么强大,它都无法绕过一个关键事实:用户必须具备大量的专业领域知识、CAD 能力和时间。

更令人愉悦的用户体验是,只需提示文本到 CAD 程序,直到其输出满足用户的要求。这种以模式设计为中心的工作流程可能如下:

Jane 提示她的文本到 CAD 程序:“给我看一些未来游戏笔记本电脑的例子。以 TOMO 笔记本电脑支架的外形和眼镜王蛇的表面纹理为灵感”。

完全实现文本到 CAD 的转换,将实现从图像到可制造产品的闭环。

程序会输出六幅概念图,每幅图都包含“键盘布局”、“铰链结构”和“消费电子产品的端口布局”等图案。

Jane 可以回复说:“给我一些图片 2 的变体。让屏幕更内缩,键盘更有质感”。

Jane:" 我喜欢第三张,参数是什么?“

系统会根据其认为最相关的图案的”解决方案“字段,列出 20 个参数 -- 长度、宽度、显示器高度、按键密度等。

Jane 注意到没有指定铰链类型,于是输入”在列表中添加铰链类型参数并输出 CAD 模型“。

她在 Fusion 360 中打开模型,很高兴看到添加了适当的摩擦铰链。随着铰链参数化,她增加了宽度参数,因为她知道 Studio ABC 的客户希望屏幕能够承受大量的使用。

Jane 继续进行调整,直到她对外形和功能完全满意为止。这样,她就可以把它交给她的同事 Joe(一位机械工程师),由他进行检查,看看哪些定制部件可以用库存版本代替。

最后,Studio ABC 的管理层会很高兴,因为笔记本电脑的设计过程从平均 6 个月缩短到了 1 个月。令他们倍感欣慰的是,由于采用了参数化技术,客户提出的任何修改要求都可以很快得到满足,而无需重新设计。


彻底过滤


正如人工智能伦理学家 Irene Solaiman 最近在一次采访中指出的,生成式人工智能亟需彻底的防护措施。即使采用模式语言方法,生成式人工智能本身也无法防止产生不良输出。这就是防护栏的作用所在。

我们需要能够检测并拒绝要求提供武器、血腥、儿童性虐待材料(CSAM)和其他不良内容的提示。害怕惹上官司的技术专家可能会在这个清单上添加版权产品。但是,如果从经验来看,令人反感的提示可能会占查询的很大一部分。

一旦文本到 CAD 的模型被开源或泄露,这些要求中的很多都会被满足。(如果说 Defense Distributed 的传奇故事给了我们什么启示的话,那就是精灵永远不会回到瓶子里;由于德克萨斯州最近的一项裁决,美国人现在可以合法地下载 AR-15、3D 打印它,然后 -- 如果他感到受到威胁 -- 可以用它来射杀某人)。

此外,我们还需要广泛共享的性能基准,类似于围绕 LLMs 出现的基准。毕竟,如果无法衡量,就无法改进。

____

总之,由人工智能驱动的文本到 CAD 生成技术的出现既带来了风险,也带来了机遇,两者之间的比例还很不确定。低质量 CAD 模型和有毒内容的泛滥只是需要立即关注的几个问题。

在一些被忽视的领域,技术人员也可以对其进行有益的关注。数据集的整理至关重要:我们需要从高质量的来源追踪高质量的模型,并探索其他方法,如扫描工业设计藏品。可用性模式语言可以为纳入最佳设计实践提供一个强大的框架。此外,模式语言还将为 CAD 模型参数的生成提供一个强大的框架,这些参数可以进行微调,直到模型满足其使用要求为止。最后,必须开发全面的过滤技术,以防止生成危险内容。

我们希望本文提出的观点能帮助技术人员避免迄今为止一直困扰着生成式人工智能的陷阱,并提高文本到 CAD 的能力,以提供良好的模型,使许多即将使用它们的人受益。