筑基石 启未来:VLA模型开源工具箱与评测方案
返回活动列表
线下活动

筑基石 启未来:VLA模型开源工具箱与评测方案

围绕 VLA 模型开源工具箱与评测方案,介绍 Dexbotic、DOS-W1 与 RoboChallenge。

当前,人工智能正经历一场从“感知智能”迈向“行动智能”的深刻范式变革——从虚拟世界走向物理世界。这一变革的核心目标,在于赋予机器在物理世界中理解、决策与行动的完整能力,推动其从“被动观察”走向“主动交互”。

筑基石 启未来:VLA模型开源工具箱与评测方案

机器之心近日联合主办「虚实共振:模型 X 终端技术沙龙」,Dexmal 原力灵机创始团队成员汪天才作了一次题为《筑基石 启未来:VLA模型开源工具箱与评测方案》的现场分享,从软件、硬件和标准三个方面,为推动具身智能从“感知智能”迈向“行动智能”给出了有益的思考。

在简要概述视觉-语言-动作模型(VLA)是什么及其发展脉络之后,汪天才首先提出,当前的VLA研发面临两大挑战,第一个挑战是行业内缺乏统一、可高效开发的工具箱,存在着数据孤岛、框架割裂、模块异构、模型僵化、环境隔阂 5 个方面的严重问题;比如在框架割裂方面,由于深度学习框架的多样性,VLA 模型在 PyTorch 与 jax 之间的转化成本非常高。

筑基石 启未来:VLA模型开源工具箱与评测方案

为此,Dexmal 原力灵机推出一站式 VLA 工具箱——Dexbotic,面向具身智能从业者回应了上述 5 个方面的问题,它具有以下重要特征:

支持多种构型、不同数据源的数据转化

模块化 VLA 框架

更强的预训练模型

云服务及消费级显卡训练

以实验为中心的开发

统一的仿真环境评测

在统一仿真评测方面,汪天才重点介绍了 Dexbotic 的进展,其 Docker 容器可以适配 SimplerEnv、CALVIN、ManiSkill2、RoboTwin2.0、Libero 等多个主流的仿真环境;并且把数据转化为 Dexdata 格式,目前已全部进行开源。

比如在 SimplerEnv 仿真评测结果上,在 Put Spoon on Towel 等 4 项任务上,借助 Dexbotic 加持的 DB-CogACT、DB-OFT、DB-MemVLA 分别相较原模型,同时在单个任务和整体成功率上出现大幅性能提升。所以,在整体效率方面,使用 Dexbotic 与否对于 VLA 新手而言,上手时间差别显著:

筑基石 启未来:VLA模型开源工具箱与评测方案

同时,具身智能软件的发展离不开硬件的支撑,为此,Dexmal 原力灵机还推出了首款开源硬件产品 DOS- W1,它具有 a)完全开源的硬件设计、b)支持快拆,模块化、可更换组件、c)低成本、d)面向数据采集的人体工学设计等多个优势,大幅降低了机器人的使用门槛,有效提升了操作人员的舒适度与数据采集效率。

关于第二个挑战,汪天才指出,行业内同样缺乏大规模、公正、可信赖的真机评测;有鉴于此,Dexmal 原力灵机联合 Hugging Face 推出全球首个具身智能的大规模真机评测平台 RoboChallenge,其首个任务测试集 Table 30,包括 30 个精心设计的日常情景任务,涵盖 Pi0.5、Pi0、OFT 等 7 大主流 VLA 模型,并且机器轨迹的训练数据量达到 24250 个。

自发布以来,总榜测试结果方面,无论是成功率还是过程分上,Pi0.5 名列第一;同时,原力灵机欢迎更多参与者和共建者加入,一起推动 VLA 大模型不断成功地走进物理世界。

筑基石 启未来:VLA模型开源工具箱与评测方案

最后,汪天才就上述 Dexmal 原力灵机的最新产品做了总结,指出 Dexbotic、RoboChallenge、DOS-W1 三者正在形成深度的协同效应,从软件、硬件、标准三个方面打造全栈的基础运行层,推动具身智能核心技术向前发展。

汪天才分享完整视频

筑基石 启未来:VLA模型开源工具箱与评测方案

欢迎加入RoboChallenge 和 Dexbotic 用户组交流群

嘉宾简介:汪天才 | Dexmal 原力灵机创始团队成员

原旷视科技高级研究员,在 CVPR、ICCV 、TPAMI等国际顶会、顶刊累计发表论文 30 余篇,是端到端自动驾驶知名算法 PETR、通用端到端多目标追踪算法 MOTR 核心作者;截至目前,谷歌学术论文累积引用量 6000 以上,PETR 论文入选 2022 年最具影响力 100 篇 AI 论文;曾孵化多项科研成果在自动驾驶、无人零售等场景的业务落地;曾带领团队夺得 CVPR 2023 自动驾驶国际挑战赛、ECCV 2022 DanceTrack 国际挑战赛等多项全球顶赛冠军。