筑基石启未来：VLA模型开源工具箱与评测方案

当前，人工智能正经历一场从“感知智能”迈向“行动智能”的深刻范式变革——从虚拟世界走向物理世界。这一变革的核心目标，在于赋予机器在物理世界中理解、决策与行动的完整能力，推动其从“被动观察”走向“主动交互”。

机器之心近日联合主办「虚实共振：模型 X 终端技术沙龙」，Dexmal 原力灵机创始团队成员汪天才作了一次题为《筑基石启未来：VLA模型开源工具箱与评测方案》的现场分享，从软件、硬件和标准三个方面，为推动具身智能从“感知智能”迈向“行动智能”给出了有益的思考。

在简要概述视觉-语言-动作模型（VLA）是什么及其发展脉络之后，汪天才首先提出，当前的VLA研发面临两大挑战，第一个挑战是行业内缺乏统一、可高效开发的工具箱，存在着数据孤岛、框架割裂、模块异构、模型僵化、环境隔阂 5 个方面的严重问题；比如在框架割裂方面，由于深度学习框架的多样性，VLA 模型在 PyTorch 与 jax 之间的转化成本非常高。

为此，Dexmal 原力灵机推出一站式 VLA 工具箱——Dexbotic，面向具身智能从业者回应了上述 5 个方面的问题，它具有以下重要特征：

支持多种构型、不同数据源的数据转化

模块化 VLA 框架

更强的预训练模型

云服务及消费级显卡训练

以实验为中心的开发

统一的仿真环境评测

在统一仿真评测方面，汪天才重点介绍了 Dexbotic 的进展，其 Docker 容器可以适配 SimplerEnv、CALVIN、ManiSkill2、RoboTwin2.0、Libero 等多个主流的仿真环境；并且把数据转化为 Dexdata 格式，目前已全部进行开源。

比如在 SimplerEnv 仿真评测结果上，在 Put Spoon on Towel 等 4 项任务上，借助 Dexbotic 加持的 DB-CogACT、DB-OFT、DB-MemVLA 分别相较原模型，同时在单个任务和整体成功率上出现大幅性能提升。所以，在整体效率方面，使用 Dexbotic 与否对于 VLA 新手而言，上手时间差别显著：

同时，具身智能软件的发展离不开硬件的支撑，为此，Dexmal 原力灵机还推出了首款开源硬件产品 DOS- W1，它具有 a）完全开源的硬件设计、b）支持快拆，模块化、可更换组件、c）低成本、d）面向数据采集的人体工学设计等多个优势，大幅降低了机器人的使用门槛，有效提升了操作人员的舒适度与数据采集效率。

关于第二个挑战，汪天才指出，行业内同样缺乏大规模、公正、可信赖的真机评测；有鉴于此，Dexmal 原力灵机联合 Hugging Face 推出全球首个具身智能的大规模真机评测平台 RoboChallenge，其首个任务测试集 Table 30，包括 30 个精心设计的日常情景任务，涵盖 Pi0.5、Pi0、OFT 等 7 大主流 VLA 模型，并且机器轨迹的训练数据量达到 24250 个。

自发布以来，总榜测试结果方面，无论是成功率还是过程分上，Pi0.5 名列第一；同时，原力灵机欢迎更多参与者和共建者加入，一起推动 VLA 大模型不断成功地走进物理世界。

最后，汪天才就上述 Dexmal 原力灵机的最新产品做了总结，指出 Dexbotic、RoboChallenge、DOS-W1 三者正在形成深度的协同效应，从软件、硬件、标准三个方面打造全栈的基础运行层，推动具身智能核心技术向前发展。

汪天才分享完整视频

欢迎加入RoboChallenge 和 Dexbotic 用户组交流群

嘉宾简介：汪天才 | Dexmal 原力灵机创始团队成员

原旷视科技高级研究员，在 CVPR、ICCV 、TPAMI等国际顶会、顶刊累计发表论文 30 余篇，是端到端自动驾驶知名算法 PETR、通用端到端多目标追踪算法 MOTR 核心作者；截至目前，谷歌学术论文累积引用量 6000 以上，PETR 论文入选 2022 年最具影响力 100 篇 AI 论文；曾孵化多项科研成果在自动驾驶、无人零售等场景的业务落地；曾带领团队夺得 CVPR 2023 自动驾驶国际挑战赛、ECCV 2022 DanceTrack 国际挑战赛等多项全球顶赛冠军。

筑基石 启未来：VLA模型开源工具箱与评测方案

筑基石启未来：VLA模型开源工具箱与评测方案