DePIN与具身智能的融合:技术挑战与未来展望

转载
4 小时前
4725
Coinspire

文章转载来源: Coinspire

引言:2月27日,Messari 举办了一场关于“构建去中心化物理人工智能”的播客,邀请了FrodoBot Lab的联合创始人Michael Cho。他们聊了聊去中心化物理基础设施网络(DePIN)在机器人技术领域的挑战和机会。这个领域虽然还在起步阶段,但潜力巨大,可能会彻底改变 AI 机器人在现实世界中的运作方式。然而,和那些依赖大量互联网数据的传统 AI 不同,DePIN机器人AI技术面临的问题更复杂,比如数据收集、硬件限制、评估瓶颈,还有经济模式的可持续性。

在今天的文章里我们会拆解这次讨论中的关键点,看看DePIN 机器人技术遇到了哪些问题,扩展去中心化机器人的主要障碍是什么,以及为什么 DePIN 比中心化的方法更有优势。最后,我们还会探讨 DePIN 机器人技术的未来,看看我们是不是快要迎来DePIN机器人技术的“ChatGPT 时刻”。

DePIN智能机器人的瓶颈在哪里?

Michael Cho刚开始做 FrodoBot的时候,最头疼的就是机器人技术的成本问题。市面上商用机器人价格高得离谱,导致了AI 在现实世界中的应用产品很难推广。他最初的解决方案是:造一个低价格自主机器人,成本只要 500 美元,打算以比大多数现有项目便宜的价格优势取胜。

但随着他和团队深入研发,Michael 意识到,成本并不是真正的瓶颈。去中心化物理基础设施网络(DePIN)在机器人技术中的挑战,远比“贵不贵”复杂得多。随着 FrodoBotLab 的不断推进,DePIN 机器人技术的多个瓶颈逐渐浮出水面。要想实现大规模部署,以下这些瓶颈必须被克服。

瓶颈一:数据

和那些靠大量互联网数据训练出来的‘线上’AI大模型不同,具身化AI(embodied AI) 需要与现实世界互动才能发展出智能。问题是,目前世界上并不具备这种大规模的基础,而且大家对于怎么收集这些数据也没有共识。具身化AI的数据收集可以归为以下三大类:

▎第一类是人类操作数据,就是人类手动控制机器人时产生的数据。这类数据质量很高,能捕捉到视频流和动作标签——也就是人类看到什么,怎么作出相应的反应。这是训练AI 模仿人类行为最有效的方式,但缺点是成本高,劳动强度也大。

▎第二类是合成数据(模拟数据),这类数据对训练机器人在复杂地形中移动很有用,比如训练机器人在崎岖的地面上行走,对于一些专用领域很有用途。但对于一些变化多端的任务,比如做饭,模拟环境就不太行了。我们可以想象一下训练机器人煎蛋的情形:锅的类型、油温、房间条件的微小变化都会影响结果,而虚拟环境很难覆盖所有场景。

▎第三类是视频学习,就是让 AI 模型通过观察现实世界的视频来学习。虽然这种方法有潜力,但它缺少智能所需的真正物理的直接互动反馈。

瓶颈二:自主性水平

Michael提到他第一次在现实世界中测试 FrodoBot时,主要是用机器人做最后一英里的配送。从数据上看,结果其实还算不错——机器人成功完成了 90% 的配送任务。但现实生活里10% 的失败率是不可接受的。一个每十次配送就失败一次的机器人,根本没法商业化。就像自动化驾驶技术那样,无人驾驶可以有一万次的成功驾驶记录,但是一次失败就足以打败商业消费者的信心。

因此,要让机器人技术真正实用,成功率得接近 99.99% 甚至更高。但问题是,每提高0.001% 的准确率,都需要付出指数级的时间和精力。很多人低估了这最后一步的难度。

Michael 回忆说,2015 年他坐在谷歌的自动驾驶汽车原型里时,觉得完全自主驾驶马上就要实现了。十年过去了,我们仍然在讨论什么时候能实现 Level 5的完全自主性。机器人技术的进步不是线性的,而是指数性质的——每前进一步,难度都会大幅增加。这最后的 1% 准确率,可能需要几年甚至几十年才能实现。

瓶颈三:硬件:光靠 AI 解决不了机器人问题

退一步讲,即使 AI 模型再厉害,现有的机器人硬件也还没准备好实现真正的自主性。比如在硬件上最容易被忽视的问题是缺乏触觉传感器——目前最好的技术,比如 Meta AI的研究,还远远达不到人类指尖的敏感度。人类靠视觉和触觉与世界互动,而机器人对纹理、抓握和压力反馈几乎一无所知。

还有遮挡问题——当物体部分被挡住时,机器人很难识别和与之互动。而人类即使看不到物体的全貌,也能凭直觉理解它。

除了感知问题,机器人执行器本身也有缺陷。大多数仿人机器人把执行器直接放在关节上,导致它们笨重且潜在危险。相比之下,人类的肌腱结构让动作更平滑、更安全。这就是为什么现有的仿人机器人看起来僵硬且不灵活。像 Apptronik这样的公司正在开发更具生物灵感的执行器设计,但这些创新还需要时间才能成熟。

瓶颈四:硬件扩展为什么这么难

和那些只依赖计算能力的传统 AI 模型不同,智能机器人技术的实现需要在现实世界中部署物理设备。这带来了巨大的资本挑战。造机器人很贵,也只有那些最有钱的大公司才能负担得起大规模实验。即使是最高效的仿人机器人,现在的成本也高达数万美元,大规模普及根本不现实。

瓶颈五:评估有效性

这是一个“隐形”瓶颈。大家想一下,像ChatGPT这样的线上AI大模型几乎可以瞬间测试其功能——一个新语言模型被发布后,全世界的研究人员或者普通用户基本上在几小时之内就能对它的性能好坏得出结论。但评估物理 AI 需要现实世界的部署,这需要时间。

特斯拉的全自动驾驶(FSD)软件就是个好例子。如果特斯拉记录了 100 万英里且没有事故,这是否意味着它真的达到了 Level 5 自主性?1000 万英里呢?机器人智能技术的问题是,唯一验证它的方法是看它最终在哪里失败,也就意味着大规模,长时间的实时部署。

瓶颈六:人力

另一个被低估的挑战是,在机器人AI 开发中人类劳动力依然不可或缺。光靠 AI 是不够的。机器人需要人类操作员提供训练数据;维护团队保持机器人的运行;以及必不可少的研究人员/开发人员持续去优化 AI 模型。和那些可以在云端训练的 AI 模型不同,机器人需要持续的人类干预——这也是 DePIN 必须解决的一个主要挑战。

未来:机器人技术的 ChatGPT 时刻何时到来?

有些人认为,机器人技术的 ChatGPT 时刻即将到来。Michael 对此持一定的怀疑态度。考虑到硬件、数据和评估的挑战,他认为通用机器人 AI 距离大规模采用还很遥远。不过,DePIN 机器人技术的进展确实让人看到了希望。机器人技术的开发应该是去中心化的,而不是由少数大公司控制。一个去中心化网络的规模和协调性能够分散资本负担。与其依赖一家大公司出钱造几千台机器人,不妨将可以贡献的个人放入到一个共享网络中。

举例而言--首先,DePIN加速了数据收集和评估。不用等一家公司部署有限的机器人收集数据,去中心化网络可以以更大的规模并行运行、收集数据。例如,在最近一次阿布扎比的一场 AI 与人类机器人竞赛中,来自 DeepMind 和 UT Austin等机构的研究人员将他们的 AI 模型与人类玩家进行了测试。虽然人依然占上风,但研究人员对从现实世界机器人互动中收集的独特数据集感到十分振奋。这从侧面证明了对连接机器人技术各个组成部分的子网的需求。研究界的热情也表明,即使完全自主性仍然是一个长期目标,DePIN 机器人技术已经从数据收集和训练到现实世界部署和验证方面展示了切实的价值。

另一方面,AI 驱动的硬件设计改进,比如用 AI 优化芯片和材料工程,可能会大大缩短时间线。一个具体的例子是 FrodoBot Lab与其他机构合作,确保了两盒 NVIDIA H100GPU——每盒都包含八个 H100 芯片。这为研究人员提供了必要的计算能力,用来处理和优化从机器人部署中收集的现实世界数据的 AI 模型。如果没有这样的计算资源,即使是最有价值的数据集也无法充分利用。可见通过 DePIN 去中心化计算基础设施的访问,机器人技术网络可以让全球的研究人员在不被资本密集的 GPU 所有权所限制的情况下训练和评估模型。如果 DePIN 能成功众包数据和硬件进步,机器人技术的未来可能会比预期更早到来。

此外,像 Sam 这样的 AI 代理(一个带有 meme 币的旅行 KOL 机器人)展示了去中心化机器人技术网络的新盈利模式。Sam 自主运行,24/7 在多个城市直播,而它的 meme币也在增值。这种模式展示了由DEPIN驱动的智能机器人如何通过去中心化所有权和代币激励来维持自身财务。未来,这些 AI 代理甚至可以用代币支付人类操作员的协助、租用额外的机器人资产,或者竞标现实世界的任务,从而形成一个既有利于 AI 开发又有利于 DePIN 参与者的经济循环。

最后总结

机器人 AI 的发展不仅仅取决于算法,还涉及硬件升级、数据积累、资金支持以及人的参与。过去,机器人行业的发展受限于高昂的成本和大型企业的主导地位,使得创新速度受阻。而DePIN 机器人网络的建立意味着,借助去中心化网络的力量,机器人数据收集、计算资源和资本投入可以在全球范围内协同进行,不仅加速 AI 训练和硬件优化,还能降低开发门槛,让更多研究人员、创业者和个人用户参与进来。我们也期待,机器人行业不再依赖少数科技巨头,而是由全球社区共同推动,迈向真正开放、可持续的技术生态。