DDexbotic Docs
Docs/简介
Dexbotic Logo

一站式具身智能 VLA 开发工具箱

PaperHugging FaceDocumentationLicenseEnglish

预训练 · 微调 · 推理 · 评测
支持 π0、CogACT、OFT、MemVLA 等主流策略

简介

Dexbotic 是一套基于 PyTorch 框架开发的 VLA(视觉-语言-动作)开发工具箱,旨在为具身智能研究提供一个统一、高效的解决方案。它内置了多种主流 VLA 模型的环境配置,用户只需简单的设置即可复现、微调和推理各种前沿算法。

  • 开箱即用的 VLA 框架:以 VLA 模型为核心,集成了具身操作和导航功能,支持多种业内领先的算法。
  • 高性能预训练基础模型:针对 π0 和 CogACT 等主流 VLA 算法,提供了多个基于 Dexbotic 优化后的预训练模型。
  • 模块化开发架构:采用「分层配置 + 工厂注册 + 入口分发」架构,用户仅需修改实验脚本,即可轻松实现配置修改、模型更换或任务添加等需求。
  • 云端与本地一体化训练:全面支持云端与本地训练需求,支持阿里云、火山引擎等云训练平台,同时适配消费级 GPU 进行本地训练。
  • 广泛的机器人适配:针对 UR5、Franka 和 ALOHA 等主流机器人,提供了统一的训练数据格式和部署脚本。

快速开始

我们强烈推荐使用 Docker 进行开发或部署,以获得最佳的使用体验。

1. 安装与环境配置

# 1. 克隆代码仓库
git clone https://github.com/dexmal/dexbotic.git

# 2. 启动 Docker 容器
docker run -it --rm --gpus all --network host \
  -v $(pwd)/dexbotic:/dexbotic \
  dexmal/dexbotic \
  bash

# 3. 激活环境并安装依赖
cd /dexbotic
conda activate dexbotic
pip install -e .

系统要求:Ubuntu 20.04/22.04,推荐使用 RTX 4090、A100 或 H100(训练建议 8 GPU,部署需 1 GPU)。

在 Blackwell GPU 上使用

对于使用 Blackwell 架构 GPU(例如 B100、RTX 5090)的用户,请使用专用的 Docker 镜像 dexmal/dexbotic:c130t28

# 1. 使用 Blackwell 镜像启动 Docker
docker run -it --rm --gpus all --network host \
  -v /path/to/dexbotic:/dexbotic \
  dexmal/dexbotic:c130t28 \
  bash

# 2. 激活环境**
cd /dexbotic
pip install -e .

2. 使用指南

基准测试

以下展示了基于 Dexbotic 训练的模型与原始模型在主流仿真环境下的评测结果对比。查看更多详细评测结果Benchmark Results

Libero

ModelAverageLibero-SpatialLibero-ObjectLibero-GoalLibero-10
CogACT93.697.298.090.288.8
DB-CogACT94.993.897.896.291.8
π094.296.898.895.885.2
DB-π093.99798.29486.4
MemVLA96.798.498.496.493.4
DB-MemVLA97.097.299.298.493.2
DB-GR00TN194.893.099.695.291.4

CALVIN

ModelAverage Length12345
CogACT3.24683.872.964.055.948.0
DB-CogACT4.06393.586.780.376.069.8
OFT3.47289.179.467.459.851.5
DB-OFT3.54092.880.769.260.251.1

SimplerEnv

ModelAverageSpoonCarrotStack BlocksEggplant
CogACT51.2571.750.81567.5
DB-CogACT69.4587.565.2829.1795.83
OFT30.2312.54.24.2100
DB-OFT76.3991.6776.3943.0694.44
MemVLA71.975.075.037.5100.0
DB-MemVLA84.4100.066.770.8100.0

ManiSkill2

ModelAveragePickCubeStackCubePickSingleYCBPickSingleEGADPickClutterYCB
CogACT405570302520
DB-CogACT589065654030
OFT214045550
DB-OFT639075556530
π0669585558510
DB-π0659585655030

RoboTwin2.0

ModelAverageAdjust BottleGrab RollerPlace Empty CupPlace Phone Stand
CogACT43.88772115
DB-CogACT58.599892818

常见问题

Q: Flash-Attention 安装失败

A: 详细的安装说明和故障排查,请参阅官方文档:https://github.com/Dao-AILab/flash-attention

Q: RLDS/LeRobot 数据格式如何转换为 Dexdata?

A: 我们在 数据转换指南 中提供了一般的数据转换方法。LeRobot 数据转换的示例见 convert_lerobot_to_dexdata,RLDS 数据转换示例见 convert_rlds_to_dexdata

Q: 5090 显卡支持吗?

A: 支持,请参考 Blackwell 架构显卡使用

支持我们

我们正在不断改进,更多功能即将推出。如果你喜欢这个项目,请在 GitHub 上给我们点一颗星 GitHub,你的支持是我们前进的动力!

如果 Dexbotic 对你的研究工作有所帮助,请考虑引用我们的技术报告:

@article{dexbotic,
  title={Dexbotic: Open-Source Vision-Language-Action Toolbox},
  author={Dexbotic Contributors},
  journal={arXiv preprint arXiv:2510.23511},
  year={2025}
}

许可

本项目采用 MIT 许可证