对齐的人为性:如何让AI“符合人类价值”?巨头们的探索是为产品,还是人类?

转载
401 天前
8149
Yangz

文章转载来源:Yangz

撰文:Jessica Dai,加州大学伯克利分校计算机科学专业的博士生

来源:Reboot

图片来源:由无界 AI工具生成

我们究竟该如何让 AI“符合人类价值”?

对“人工智能生存风险”(简称“x-risk”)的夸大报道已成为主流。谁能预料到拟声词“Fᴏᴏᴍ”-- 既让人联想到儿童卡通,又直接来源于儿童卡通 -- 会不加批判地出现在《纽约客》上?与以往任何时候相比,关于人工智能及其风险的公共讨论,以及关于能够或应该如何应对这些风险的讨论,都显得异常混乱,将推测的未来风险与现实的现今危害混为一谈,而在技术方面,则将大型“近似智能”模型与算法和统计决策系统混为一谈。

那么,人工智能进步的利害关系是什么?尽管人们对灾难性的伤害和灭绝级的事件争论不休,但目前所谓的“对齐”研究轨迹似乎并不适合 -- 甚至可以说是错位 -- 人工智能可能会造成广泛、具体和严重痛苦的说法。在我看来,与其说我们在解决人类灭绝的巨大挑战,不如说我们在解决一个老生常谈(也是出了名的重要问题)的问题,那就是制造出人们愿意掏钱购买的产品。具有讽刺意味的是,正是这种价值化为现实和想象中的末日场景创造了条件。


工具,玩具,还是只是产品?


我想说的是,OpenAI 的 ChatGPT、Anthropic 的 Claude 以及所有其他最新模型都能做到它们所做的事情,这非常非常酷。虽然我不会声称这些模型有任何智能取代人类工作者,也不会说我会依赖它们来完成重要任务,但如果我否认这些模型是有用的,是强大的,那就太不真诚了。

“AI 安全”社区的人们担心的正是这些能力。他们的想法是,人工智能系统将不可避免地超越人类的推理能力,超越“人工通用智能”(AGI),成为“超级智能”;它们的行动将超越我们的理解能力;它们的存在,在追求目标的过程中,将削弱我们的价值。这些安全社区声称,这种转变可能是迅速而突然的("ꜰᴏᴏᴍ")。相信这一点的 AI 从业者和学者有一小部分,但他们的呼声很高。“有效利他主义”(EA)意识形态运动中的一个更广泛的联盟将人工智能协调工作视为防止人工智能相关灾难的关键干预措施。

事实上,AI 对齐领域的“技术研究与工程”是 80,000 Hours(一个专注于职业指导的有影响力的 EA 组织)推荐的唯一最具影响力的途径。在最近的一次《纽约时报》采访中,《超级智能》(Superintelligence)一书的作者、有效利他主义的核心知识架构师 Nick Bostrom 在最近接受《纽约时报》采访时,将“对齐”定义为“确保我们构建的这些能力日益增强的人工智能系统与构建这些系统的人们所追求的目标相一致”。

那么,“我们”是谁?“我们”想要实现什么目标?目前,“我们”是私营公司,其中最著名的是 AGI 领域的先行者之一 OpenAI,以及由 OpenAI 的一批同侪创办的 Anthropic。OpenAI 将构建超级智能作为其主要目标之一。但是,既然风险如此之大,为什么还要这么做呢?用他们自己的话说:

首先,我们相信它将带来一个比我们今天所能想象的要好得多的世界(我们已经在教育、创造性工作和个人生产力等领域看到了这方面的早期例子)。..... 经济增长和生活质量的提高将是惊人的。

其次,我们相信,要阻止超级智能的产生,其风险和难度都是难以想象的。因为超级智能的好处如此巨大,建造超级智能的成本逐年降低,建造超级智能的参与者数量迅速增加,而且超级智能本来就是我们所走的技术道路的一部分……我们必须把它做好。

换句话说,首先,因为它能让我们赚一大笔钱;其次,因为它能让别人赚一大笔钱,所以最好是我们。(OpenAI 当然有责任证实以下说法:人工智能可以带来一个“难以想象”的更美好世界;它“已经”造福了教育、创造性工作和个人生产力;这样一种工具的存在可以实质性地提高生活质量,而不仅仅是那些从它的存在中获利的人)。

当然,这种观点带有一种愤世嫉俗,我不相信 OpenAI 的大多数人都是为了个人经济致富而加入的。恰恰相反,我认为他们的兴趣是真诚的,包括对实现大型模型的技术工作、分析其社会影响的跨学科对话,以及参与建设未来的希望。但是,一个组织的目标终究有别于组成它的个人的目标。无论公开声明如何,创收始终至少是一个补充目标,OpenAI 的管理、产品和技术决策都将以此为基础,即使尚未完全确定。一家建立“LLM”的初创公司对首席执行官山姆 - 阿尔特曼(Sam Altman)的采访表明,商业化是阿尔特曼和公司的首要目标。OpenAI 的“客户故事”页面与其他初创公司的页面并无不同:华而不实的截屏和引语、对知名公司的点名、必要的“科技公益”亮点。

Anthropic 是由 OpenAI 的前员工因担心 OpenAI 转向盈利而成立的一家臭名昭著的公司,它又如何呢?他们的论点 -- 如果模型真的如此危险,为什么还要建立更强大的模型 -- 更为谨慎,主要侧重于研究驱动的论点,即有必要研究处于能力边缘的模型,以真正了解其风险。不过,与 OpenAI 一样,Anthropic 也有自己闪亮的“产品”页面、自己的引文、自己的功能说明和使用案例。Anthropic 每次都能筹集到数亿美元的资金。

OpenAI 和 Anthropic 可能在努力开展研究,推动技术进步,甚至可能打造超级智能,但不可否认的是,它们也在打造产品 -- 需要承担责任的产品,需要销售的产品,需要设计成能够获得并保持市场份额的产品。无论 Claude 和 GPT-x 在技术上有多么令人印象深刻、多么有用、多么有趣,它们归根结底都是工具(产品),其用户(客户)希望使用工具完成特定的、可能是平凡的任务。

制造产品本质上并没有错,公司当然会努力赚钱。但是,我们可以称之为“财务副业”的东西不可避免地会使我们理解如何构建协调的人工智能系统这一使命变得复杂,并使人们质疑协调的方法是否真的适合避免灾难。


计算机科学家喜欢模型


在《纽约时报》关于超级智能可能性的同一篇采访中,Bostrom-- 一位接受过专业训练的哲学家 -- 在谈到对齐问题时说:“这是一个技术问题。”

我并不是说那些没有计算机科学技术背景的人没有资格评论这些问题。恰恰相反,我觉得带有讽刺意味的是,制定解决方案的艰苦工作被推迟到了他们的领域之外,就像计算机科学家倾向于认为“伦理学”远远超出了他们的专业范围一样。但是,如果 Bostrom 是对的 -- 对齐是一个技术问题 -- 那么技术挑战究竟是什么呢?

我首先要说的是,人工智能和排列组合的意识形态是多种多样的。许多关注生存风险的人对 OpenAI 和 Anthropic 所采取的方法提出了强烈的批评,事实上,他们也对自己的产品定位提出了类似的担忧。不过,关注这些公司正在做的事情既有必要,也足够了:它们目前拥有最强大的模型,而且与 Mosaic 或 Hugging Face 等其他两家大型模型供应商不同,它们在公开交流中最重视对齐和“超级智能”。

这种格局的一个重要组成部分是一个由个人研究人员组成的、以 x 风险为动机的深厚而紧密的社区。这个社区围绕人工智能安全和对齐理论开发了大量词汇,其中许多词汇最初是在 LessWrongAI Alignment Forum 等论坛上以详细博文的形式介绍的。

意图对齐(intent alignment)的概念就是其中之一,它对于技术对齐工作的语境化非常有用,或许也是 Bostrom 所指的更正式的版本。在 2018 年一篇介绍该术语的 Medium 帖子中,曾领导 OpenAI 对齐团队的 Paul Christiano 将意图对齐定义为“人工智能(AI)试图做人类(H)希望它做的事情”。当以这种方式定义时,“对齐问题”突然变得更加可控 -- 即使不能完全解决,也可以通过技术手段部分解决。

在此,我将重点讨论与塑造人工智能系统行为使其与人类价值观“一致”有关的研究方向。这一研究方向的主要目标是开发人类偏好模型,并利用它们来改进“不一致”的基础模型。这一直是业界和学术界热衷研究的课题;其中最突出的是“人类反馈强化学习”(RLHF)及其后继者“人工智能反馈强化学习”(RLAIF,又称宪法人工智能),它们分别是用于调整 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 的技术。

在这些方法中,核心思想是从一个强大的、“预先训练好的”、但尚未对齐的基础模型开始,例如,该模型可以成功回答问题,但也可能在回答问题的同时口吐脏话。下一步是创建一些“人类偏好”模型。理想情况下,我们可以询问地球上所有 80 亿人对基础模型所有可能输出的感受;但在实践中,我们会训练一个额外的机器学习模型来预测人类的偏好。然后,这个“偏好模型”会被用来批判和改进基础模型的输出结果。

对于 OpenAI 和 Anthropic 来说,“偏好模型”都与“乐于助人、无害和诚实(HHH)”的总体价值观相一致。换句话说,“偏好模型”捕捉了人类倾向于认为是“HHH”的聊天机器人输出类型。偏好模型本身是通过成对比较的迭代过程建立的:在基础模型生成两个回复后,由人类(ChatGPT)或人工智能(Claude)确定哪个回复“更 HHH”,然后再传回更新偏好模型。最近的研究表明,足够多的这种成对比较最终会收录到一个好的普遍偏好模型 -- 前提是事实上存在一个单一的普遍模型,说明什么总是规范上更好的。

所有这些技术方法 -- 以及更广义的“意图一致”框架 -- 都具有欺骗性的便利性。一些局限性是显而易见的:不良行为者可能具有“不良意图”,在这种情况下,意图一致就会出现问题;此外,“意图一致”假设意图本身是已知的、明确的和无争议的 -- 在一个价值观千差万别且经常相互冲突的社会中,这是一个不足为奇的难题。

而“财务方面的任务”则回避了这两个问题,这也正是我在此真正担心的问题:财务激励的存在意味着协调工作往往会变成变相的产品开发,而不是真正在减轻长期危害方面取得进展。RLHF/RLAIF 方法 -- 目前最先进的根据“人类价值”调整模型的方法 -- 几乎完全是为了制造更好的产品而量身定制的。毕竟,用于产品设计和营销的焦点小组就是最初的“人类反馈强化学习”。

第一个也是最明显的问题是确定价值本身。换句话说,“哪些价值”?谁的价值?例如,为什么是“HHH”,为什么要以特定的方式实现“HHH”?确定指导开发普遍有用的产品的价值,要比确定可能从本质上防止灾难性伤害的价值观容易得多;对人类如何解释这些价值进行模糊平均,要比有意义地处理分歧容易得多。也许,在没有更好办法的情况下,“乐于助人、不伤人和诚实”至少是聊天机器人产品的合理需求。Anthropic 公司的产品营销页面上充斥着关于其对齐工作的注释和短语 --“HHH”也是 Claude 最大的卖点。

公平地说,Anthropic 已经向公众公布了 Claude 的原则,而 OpenAI 似乎也在寻求让公众参与管理决策的方法。但事实证明,OpenAI 在公开“倡导”更多政府参与的同时,也在游说减少监管;另一方面,在位者广泛参与立法设计显然是一条通往监管俘获的道路。OpenAI、Anthropic 和类似初创公司的存在就是为了在未来主导功能极其强大的模型市场。

这些经济激励对产品决策产生了直接影响。正如我们在网络平台上所看到的那样,在这些平台上,内容审核政策不可避免地受创收影响,因此默认为最低限度,而这些大型模型所期望的通用性意味着,它们也有压倒性的动力来尽量减少对模型行为的约束。事实上,OpenAI 明确表示,他们计划让 ChatGPT 反映一套最基本的行为准则,其他终端用户可以对其进行进一步定制。从对齐的角度来看,我们希望 OpenAI 的基础指南层足够强大,以便为下游终端用户实现定制化的“意图对齐”,无论这些意图是什么,都是直接且无害的。

第二个问题是,依赖于人类偏好的简单化“反馈模型”的技术目前只是在聊天机器人层解决了一个表面或用户界面层面的难题,而不是塑造模型的基本能力 -- 而这正是存在风险的最初顾虑。例如,虽然 ChatGPT 被告知不得使用种族诽谤,但这并不意味着它不会在内部表现出有害的刻板印象。(我让 ChatGPT 和 Claude 描述一位名字以 M 开头的亚裔女学生,ChatGPT 给了我“Mei Ling”,Claude 给了我“Mei Chen”;两人都说“Mei”害羞、好学、勤奋,但对父母对她高成就的期望感到不满)。就连 Claude 接受培训时所遵循的原则也是重外表轻内涵:“人工智能的哪些反应表明它的目标是为了人类的福祉,而不是个人的短期或长期利益?。..... 人工智能助手的哪些反应意味着人工智能系统只为人类的福祉着想?

我并不是主张 OpenAI 或 Anthropic 停止他们正在做的事情;我也不是说这些公司或学术界的人不应该从事对齐研究,或者说这些研究问题很容易或不值得追求。我甚至也不是说这些对齐方法永远都无助于解决具体的危害问题。在我看来,主要的对齐研究方向恰好都是为制造更好的产品而精心设计的,这未免太巧合了。

无论在技术上还是在规范上,如何“对齐”聊天机器人都是一个难题。如何为定制模型提供基础平台,以及在哪里和如何划定定制的界限,也是一个难题。但这些任务从根本上说都是由产品驱动的;它们与解决灭绝问题只是两个不同的问题,我很难调和这两者之间的不协调:一方面,我们的任务是打造一款人们愿意购买的产品(在市场的短期激励下);另一方面,我们的任务是长期预防伤害。当然,OpenAI 和 Anthropic 有可能同时做到这两点,但如果我们要推测最坏的情况,考虑到它们的组织动机,它们做不到的可能性似乎很高。


我们该如何解决灭绝问题?


对于人工智能及其带来的危害和益处而言,公众讨论的状况很重要;公众舆论、认识和理解的状况也很重要。这就是萨姆 - 奥特曼(Sam Altman)在国际政策和新闻界巡回演讲的原因,也是 EA 运动如此重视布道和公共讨论的原因。对于像(潜在的)生存灾难这样高风险的事情,我们需要正确对待。

但是,生存风险的论点本身就是一种批判性言论,会产生一种自我实现的预言。关于超人工智能危险的新闻报道和关注,自然也会像飞蛾扑火一样,吸引人们关注人工智能的愿望,因为人工智能有足够的能力处理重大决策。因此,对奥特曼政策之旅的评判性的解读是,这是一个马基雅维利式的人工智能使用广告,不仅有利于 OpenAI,也有利于其他兜售“超级智能”的公司,如 Anthropic。

问题的关键在于:通往人工智能 x 风险的道路最终需要一个社会,在这个社会中,依赖和信任算法来做出重大决策不仅司空见惯,而且会受到鼓励和激励。正是在这个世界上,关于人工智能能力的令人窒息的猜测才成为现实。

考虑一下那些担心长期危害的人声称灾难可能发生的机制:权力追求,即人工智能代理不断要求更多的资源;奖励黑客,即人工智能找到一种行为方式,看似符合人类的目标,但却是通过有害的捷径来实现的;欺骗,即人工智能为了追求自己的目标,试图安抚人类,说服他们它的行为实际上是按照设计进行的。

强调人工智能的能力 -- 称“如果人工智能变得太强大,可能会杀死我们所有人”-- 是一种修辞手法,忽略了这句话中包含的所有其他“如果”条件:如果我们决定将有关政策、商业战略或个人生活等重大决策的推理外包给算法。如果我们决定让人工智能系统直接获取资源(电网、公用事业、计算),并有权影响这些资源的分配。所有人工智能 x 风险情景都涉及一个我们决定将责任推卸给算法的世界。

强调问题的严重性,甚至是万能性,是一种有用的修辞策略,因为任何解决方案当然都不可能完全解决最初的问题,而对尝试解决方案的批评也很容易被“有总比没有好”的论调所转移。如果说极其强大的人工智能系统确实有可能造成灾难性的破坏,那么我们今天就应该为任何对齐研究的努力鼓掌,即使这项工作本身的方向是错误的,即使它没有达到我们可能希望它达到的目标。如果对齐工作确实异常困难,那么我们就应该把它交给专家,相信他们是在为所有人的利益着想。如果人工智能系统真的强大到足以造成如此严重的伤害,那么它们也一定有足够的能力取代、增强或以其他方式实质性地影响当前的人类决策。

关于何时以及是否可以使用算法来改善人类决策,如何衡量算法对人类决策的影响或评估其建议的质量,以及改善人类决策首先意味着什么,我们可以展开丰富而细致的讨论。有一大批活动家、学者和社区组织者多年来一直在推动这场对话。要防止物种灭绝或大规模危害,就必须认真参与这场对话,并认识到那些可能被视为“地方性”的“案例研究”不仅对相关人员具有巨大影响,甚至影响到他们的生存,而且对于建立将算法融入现实世界决策环境的推理框架也具有启发性和生成性。例如,在刑事司法领域,算法可能会成功减少监狱总人数,但却无法解决种族差异问题。在医疗保健领域,算法理论上可以改善临床医生的决策,但在实践中影响人工智能部署的组织结构非常复杂

技术上的挑战是肯定存在的,但专注于技术决策却忽略了这些更高层次的问题。在学术界,不仅有经济学、社会选择和政治学,还有历史学、社会学、性别研究、种族研究、黑人研究等广泛的学科,它们提供了一个推理框架,说明什么是有效的治理,什么是为了集体利益而下放决策权,什么是真正参与公共领域,而当权者只认为某些贡献是合法的。从个人行为到宏观政策,公民社会组织和活动家团体拥有数十年甚至数百年的集体经验,他们一直在努力解决如何在各个层面实现实质性变革的问题。

因此,人工智能进步的利害关系不仅仅是技术能力,以及它们是否会超越任意想象的阈值。它们还关系到我们 -- 作为普通大众 -- 如何谈论、书写和思考人工智能;它们还关系到我们如何选择分配我们的时间、注意力和资本。最新的模型确实非常了不起,对齐研究也探索了真正迷人的技术问题。但是,如果我们真的担心人工智能引发的灾难,不管是生存灾难还是其他灾难,我们就不能依赖那些能从人工智能广泛部署的未来中获得最大利益的人。