破局利刃！英伟达合成数据新成果：为机器人造出“训练数据永动机”

转载

973 天前

5656

AIGC

文章转载来源：AIGC

原文来源：科创板日报

图片来源：由无界 AI生成

AI对数据的庞大需求之下，数据资源几近枯竭，因此各家公司已开始摸索一条获取数据的“新路”——自己“造”数据。不过之前的合成数据大多用于AI大模型训练，这一次，英伟达为机器人训练造出了“数据粮仓”。

英伟达与得克萨斯大学奥斯汀分校的一项最新研究论文中，介绍了一个名为“MimicGen”的系统，只需少量人类示范，便能自动生成大规模的机器人训练数据集。英伟达高级科学家Jim Fan表示，公司将开源一切，包括生成的数据集。

生成的数据规模有多大？利用10个人类演示，MimicGen能生成1000个合成示例；而有了200个人类演示，MimicGen更能直接生成50000个训练数据，涉及18个任务及多个模拟环境。

生成的数据集如何？

MimicGen能够在原有数据的基础上，对同一场景进行不同阶段的“进化”：

其还能在广泛的任务重置分布中生成不同的数据集，包括组装物品、倒咖啡、清理马克杯等：

能生成不同的新机械臂演示：

还有长时程任务训练数据：

现实世界场景数据也不在话下：

值得注意的是，研究人员们对比了不同的源数据集生成的数据。然而他们发现，得到的两组成果不相上下——这也表明了，“在大规模数据机制中，（源）数据质量可能不那么重要”。

不仅如此，研究人员们还比较了由10个人类演示与200个人类演示生成的数据，得出的结果同样差别不大。因此论文也坦承，需要进一步研究更多的人类演示数据是否会造成冗余及多余不必要的数据标注成本。

为何如此执着于合成数据？除了文章开头提到的源数据资源有限之外，收集数据也极为昂贵且耗时，而有了MimicGen这类系统，可以仅凭借少量数据，便自动生成大规模的丰富数据集，并且这些数据集横跨多个场景、对象实力、机械臂，还能用于长时程或高精度任务，堪称一条“扩大机器人学习的强大且经济”的有效途径。

“合成数据将为我们的‘饥肠辘辘’的模型提供下一波万亿级数据。”英伟达高级科学家Jim Fan在介绍MimicGen时如此说道，“机器人技术发展步调远远落后于其他AI领域的关键原因之一，便是缺乏数据——你无法从互联网上获取（机器人的）控制信号。”

“我们正在迅速耗尽来自网络的高质量真实数据，诞生于合成数据的AI将是未来的发展方向。”

关键词：

来源：AIGC

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：ChatGPT正在测试原生文件分析功能，DALL·E3能P图啦！

下一篇：杨斌丨既已“如神”，何以“善任”？——重温斯图尔特·布兰德的警示

破局利刃！英伟达合成数据新成果：为机器人造出“训练数据永动机”

生成的数据集如何？

18256篇

125122162

新闻排行

李国飞：繁荣越令人沉醉，危机往往埋得越深|《1929》推荐序

RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

数字人民币2.0全景：从16.7万亿交易额之后的制度化跃迁

催生万亿新资产：AI代理如何拥有、赚取和交易

250亿美元RWA市场背后的政策红线：42号文的“境内严禁”到底划在哪？

GPT-5.4与百万token时代：上市公司的AI转型窗口还剩多久

美国资本重注拉美：赌的不是增长，是金融体系的"关键节点"

友情链接：