李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令

转载

1060 天前

6906

AI之势

文章转载来源：AI之势

来源：量子位

李飞飞团队具身智能最新成果来了：

大模型接入机器人，把复杂指令转化成具体行动规划，无需额外数据和训练。

从此，人类可以很随意地用自然语言给机器人下达指令，如：

打开上面的抽屉，小心花瓶！

大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍，帮助机器人做行动规划。

然后重点来了， 真实世界中的机器人在未经“培训”的情况下，就能直接执行这个任务。

新方法实现了零样本的日常操作任务轨迹合成，也就是机器人从没见过的任务也能一次执行，连给他做个示范都不需要。

可操作的物体也是开放的，不用事先划定范围，开瓶子、按开关、拔充电线都能完成。

目前项目主页和论文都已上线，代码即将推出，并且已经引起学术界广泛兴趣。

一位前微软研究员评价到：这项研究走在了人工智能系统最重要和最复杂的前沿。

具体到机器人研究界也有同行表示：给运动规划领域开辟了新世界。

还有本来没看到AI危险性的人，因为这项AI结合机器人的研究而改变看法。

机器人如何直接听懂人话？

李飞飞团队将该系统命名为VoxPoser，如下图所示，它的原理非常简单。

首先，给定环境信息（用相机采集RGB-D图像）和我们要执行的自然语言指令。

接着，LLM（大语言模型）根据这些内容编写代码，所生成代码与VLM（视觉语言模型）进行交互，指导系统生成相应的操作指示地图，即3D Value Map。

所谓3D Value Map，它是Affordance Map和Constraint Map的总称，既标记了“在哪里行动”，也标记了“如何行动”。

如此一来，再搬出动作规划器，将生成的3D地图作为其目标函数，便能够合成最终要执行的操作轨迹了。

而从这个过程我们可以看到，相比传统方法需要进行额外的预训练，这个方法用大模型指导机器人如何与环境进行交互，所以直接解决了机器人训练数据稀缺的问题。

更进一步，正是由于这个特点，它也实现了零样本能力，只要掌握了以上基本流程，就能hold任何给定任务。

在具体实现中，作者将VoxPoser的思路转化为一个优化问题，即下面这样一个复杂的公式：

它考虑到了人类下达的指令可能范围很大，并且需要上下文理解，于是将指令拆解成很多子任务，比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成。

VoxPoser要实现的就是优化每一个子任务，获得一系列机器人轨迹，最终最小化总的工作量和工作时间。

而在用LLM和VLM将语言指令映射为3D地图的过程中，系统考虑到语言可以传达丰富的语义空间，便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作，也就是通过3DValue Map中标记的值来反应哪个物体是对它具有“吸引力”的，那些物体是具有“排斥性”。

还是以开头的例子举

关键词：

来源：AI之势

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：租2000张芯片做大模型：一家创业公司的生死抉择

下一篇：RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

暖色

18256篇

文章总数

124442421

浏览数

李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令

机器人如何直接听懂人话？

18256篇

124442421

新闻排行

RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

数字人民币2.0全景：从16.7万亿交易额之后的制度化跃迁

催生万亿新资产：AI代理如何拥有、赚取和交易

250亿美元RWA市场背后的政策红线：42号文的“境内严禁”到底划在哪？

GPT-5.4与百万token时代：上市公司的AI转型窗口还剩多久

美国资本重注拉美：赌的不是增长，是金融体系的"关键节点"

对话美财长ScottBessent，解构2026宏观迷雾下的“世界想象力”

友情链接：