小米开源机器人VLA模型:Xiaomi-Robotics-0


Xiaomi-Robotics-0 是小米于 2026年2月12日 正式发布并全量开源首代机器人视觉-语言-动作(VLA)大模型,核心定位是解决传统VLA模型推理延迟高、真机动作卡顿/断层的行业痛点,实现消费级硬件上的实时、流畅、精准机器人执行

Xiaomi-Robotics-0 首先预训练了大量跨身体机器人轨迹和视觉语言数据,使其能够获得广泛且可推广的动作生成知识,同时保持强大的VLM能力。改模型采用预训练的VLM(Qwen3-VL-4B-Instruct)和扩散变换器(DiT)组成的架构。VLM处理观测图像和语言指令以生成KV缓存。DiT随后通过流量匹配生成动作块,条件基于KV缓存和机器人本体感受状态。模型总共包含47亿参数。

在三项模拟基准测试中实现了最先进的性能。具体来说,它在LIBERO上的平均成功率为98.7%。在SimplerEnv上,它在视觉匹配(85.5%)、视觉聚合(74.7%)和WidowX(79.2%)下均表现出色。在CALVIN上,平均长度分别为ABC-D和ABCD-D分段为4.75和4.80。在VLM基准测试中,预训练模型性能与底层预训练VLM匹配。在实机评估中,在两项具有挑战性的双手作任务——乐高拆解和折叠毛巾——上取得了高成功率和强劲的通行能力。

一、核心基础信息

  • 模型名称:Xiaomi-Robotics-0
  • 参数规模47亿参数(4.7B)
  • 发布时间:2026年2月12日
  • 开源状态完全开源(代码、权重、技术文档)
  • 核心定位:面向具身智能(Embodied AI)的VLA模型,打通感知-决策-执行闭环

二、核心架构:双脑协同(MoT混合架构)

采用 Mixture-of-Transformers (MoT) 混合架构,将智能分为视觉语言大脑动作执行小脑,兼顾通用理解与精细控制。

1. 视觉语言大脑(VLM)

  • 角色:模型的决策核心,负责理解指令与环境
  • 功能
    • 解析人类模糊自然语言指令(如“把毛巾叠好”)
    • 从高清视觉输入中识别物体、理解空间关系
    • 输出语义与空间规划,指导动作生成
  • 底座:基于成熟多模态VLM(如Qwen3)构建

2. 动作执行小脑(Action Expert)

  • 核心组件:多层 Diffusion Transformer (DiT)
  • 创新机制
    • 不输出单一离散动作,而是生成连续动作块(Action Chunk)
    • 采用流匹配(Flow-matching)技术,确保动作精准、平滑、物理合理
    • 高频输出,解决传统模型动作卡顿、不连贯问题

三、三大核心技术突破

1. 异步推理(解决动作断层)

  • 采用异步推理模式,让模型推理与机器人运动异步执行
  • 机器人在执行当前动作时,模型已提前规划后续动作,消除等待延迟
  • 实测推理延迟低至约80ms,实现实时控制

2. 两阶段训练(兼顾泛化与能力)

  • 预训练:在大规模跨机器人轨迹+视觉语言数据上训练,获得通用动作生成能力,同时保留VLM的视觉语义理解
  • 后训练:引入Λ-shape attention(Lambda掩码),优化长时序动作规划真机适配,解决“动作跑偏”

3. 消费级硬件部署

  • 可在普通消费级显卡上实现实时推理
  • 打破“具身大模型必须依赖超算”的壁垒,大幅降低落地门槛

四、性能表现(SOTA)

  • 仿真测试:在 LIBERO、CALVIN、Bridge 三大主流机器人仿真基准中,全面刷新SOTA
  • 真机实测
    • 处理柔性物体(如毛巾):可完成铺平、对折、整理、归位等连续精细操作
    • 操作刚性物体(如积木):稳定拆解、堆叠,手眼协调无卡顿
    • 支持长时序复杂任务,动作流畅自然

五、开源资源(全量开放)

六、行业价值与意义

  1. 技术突破:首次在47亿参数规模下,实现低延迟+高智能+消费级部署的统一
  2. 开源赋能:为全球机器人开发者、研究机构提供免费、完整的VLA技术底座,加速具身智能普及
  3. 应用场景:可直接用于家庭服务机器人、工业协作机器人、智能硬件等,推动“一句话控制机器人”落地
相关资讯