即使人类犯错,AIAgent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE

转载
353 天前
4231
学术头条

文章转载来源:学术头条

原文来源:学术头条

图片来源:由无界 AI生成

为了教会 AI Agent 新技能,比如打开厨房橱柜,研究者通常采用强化学习方法。这是一种试错过程,AI Agent 通过采取正确的行动接近目标而获得奖励。

在大多数情况下,人类专家需要精心设计奖励函数,从而鼓励 AI Agent 进行更多探索。随着 AI Agent 的探索和尝试,人类专家需要不断更新这个奖励函数。这一过程既耗时又低效,特别是在任务复杂、步骤繁多时,扩展起来更是十分困难

日前,麻省理工学院(MIT)、哈佛大学和华盛顿大学的研究团队开发了一种新型强化学习方法,这种方法不依赖专家设计的奖励函数,而是利用来自许多非专家用户的众包反馈(crowdsourced feedback),来指导 AI Agent 达成学习目标。

尽管用户众包数据常常存在错误,这种新方法依然能够让 AI Agent 更快速地学习,这与其他尝试使用非专家反馈的方法有所不同,而这些噪声数据通常会让其他方法失效。

此外,这种新方法支持异步收集反馈,使得全球各地的非专家用户都可以参与到教导 AI Agent 的过程中

MIT 电气工程与计算机科学系助理教授、Improbable AI Lab 主任 Pulkit Agrawal 表示:“在设计 AI Agent 时,最耗时且具挑战性的部分之一就是设定奖励函数。当前,奖励函数主要由专家设计,如果我们想让机器人学习多种任务,这种方式是难以扩展的。我们的研究提出了一种方案,通过众包来设计奖励函数,并让非专家参与提供有效反馈,从而扩大机器人的学习范围。”

未来,这种方法可以帮助机器人在人们家中快速学习特定任务,而无需人们亲自示范每项任务。机器人可以独立探索,由众包的非专家反馈引导其探索方向。

“在我们的方法中,奖励函数不是直接告诉 AI Agent怎样完成任务,而是指导它应该探索的方向。因此,即便人类监督存在一定的不准确性和噪声,AI Agent仍然能够进行有效探索,从而更好地学习,”Improbable AI Lab 研究助理、论文主要作者之一 Marcel Torne 解释说。


即使接收的答案有误,也能完成任务


一种收集强化学习用户反馈的方法是向用户展示 AI Agent 达到的两种状态的照片,并询问哪种状态更接近目标。例如,设想一个机器人的目标是打开厨房橱柜,其中一张照片可能显示它成功打开了橱柜,另一张则可能显示它打开了微波炉。用户需要选择表现更佳状态的照片。

有些早期方法尝试使用这种众包形式的二元反馈,来优化 AI Agent 用以学习任务的奖励函数。但问题在于,非专业人士容易出错,这会导致奖励函数变得极为混乱,以至于 AI Agent 可能无法达成目标

Torne 指出:“实际上,AI Agent 会过分认真地对待奖励函数,努力完美符合这一函数。因此,我们不直接优化奖励函数,而是用它来指导机器人应探索的区域。”

研究团队将这一过程分成两个独立部分,每部分由各自的算法驱动。他们将这种新型增强学习方法命名为人类引导探索(Human Guided Exploration,HuGE)

一方面,目标选择算法会持续接收众包的人类反馈并进行更新。这些反馈并非用作奖励函数,而是用于指引 AI Agent 的探索方向。简而言之,非专业用户提供的指引就像一路撒下的“面包屑”,逐渐引导 AI Agent 接近目标

另一方面,AI Agent 自己也会进行探索,这一过程是自我监督的,由目标选择器进行指导。它会收集自己尝试的动作的图像或视频,随后发送给人类,用于更新目标选择器。

这样做有助于缩小 AI Agent 需要探索的范围,引导它前往更接近目标的有希望的区域。但如果暂时没有反馈,或反馈迟迟未到,AI Agent 仍会继续自行学习,尽管速度较慢。这种方式允许反馈的收集不那么频繁,也可以异步进行。

Torne 补充道:“探索过程可以自主、持续进行,因为它会不断探索并学习新知识。当接收到更准确的信号时,它会以更明确的方式进行探索。它们可以按照各自的节奏运转。

由于反馈只是轻微地引导 AI Agent 的行为,即使用户提供的答案有误,AI Agent 最终也能学会如何完成任务。


更快的学习


研究团队在一系列模拟和真实环境的任务中测试了这种方法。

例如,在模拟环境中,他们利用 HuGE 高效学习一系列复杂动作,比如按特定顺序堆积积木或在迷宫中导航。

在真实环境的测试中,他们用 HuGE 训练机器人手臂来绘制字母“U”和拾取放置物体。这些测试汇集了来自三大洲 13 个国家的 109 名非专业用户的数据。

无论是在真实世界还是模拟实验中,HuGE 都使得 AI Agent学习完成任务的速度比其他方法更快。

此外,与制作和标注的合成数据相比,非专家众包的数据表现更佳。对非专家用户而言,标注 30 张图片或视频不到两分钟就能完成。“这展示了这种方法在扩展应用方面的巨大潜力,”Torne 补充说。

在一项相关的研究中,研究团队在最近的机器人学习会议上展示了他们如何改进 HuGE,使得 AI Agent 不仅能学习完成任务,还能自主地重置环境继续学习。例如,如果 AI Agent 学会了打开橱柜,这种方法还能指导它关闭橱柜。

“现在我们能让它在没有人工干预的情况下完全自主学习,”他说。

研究团队还强调,在这种以及其他学习方法中,确保 AI Agent与人类价值观保持一致是至关重要的。

未来,研究团队计划进一步完善 HuGE,让 AI Agent 能够通过自然语言和与机器人的物理交互等更多方式学习。他们还对将这种方法应用于同时训练多个 AI Agent 表示出了兴趣。

参考链接