Spirit VLA(Vision-Language-Action,视觉-语言-动作)是由中国公司千寻智能(Spirit AI)自主研发的具身智能基础模型系列,其最新版本Spirit v1.5在2026年1月登顶全球权威评测榜RoboChallenge,是目前世界顶尖的端到端具身智能模型之一。

它被形象地称为机器人的“通用大脑”,旨在让机器人能够像人一样,通过眼睛(视觉)理解世界,听懂指令(语言),并直接做出动作(行动),无需复杂的编程。

🧠 核心特点

  • 端到端架构:Spirit VLA采用创新的端到端架构,将视觉感知、语言理解与动作决策整合在同一个神经网络中。这避免了传统模块化系统中因信息在不同模块间传递而产生的误差累积,使机器人的反应更连贯、稳定。

  • 强大的泛化能力:模型的核心优势在于其卓越的泛化能力。它不仅能完成训练中见过的任务,更能举一反三,处理全新的、未曾训练过的复杂任务和环境。

  • 真实世界的数据驱动:与许多依赖“干净”、脚本化数据的模型不同,Spirit VLA的训练采用了大量开放式、多样化的“真实世界”数据。这种方式模拟了现实环境的不可预测性,让模型学会了如何处理遮挡、失败恢复以及任务间的自然过渡,从而更适应真实场景。

🏆 关键成就

  • 登顶全球榜首:2026年1月,在全球具身智能模型评测平台RoboChallenge上,Spirit v1.5以66.09分的综合得分和超过50%的任务成功率,超越了此前长期霸榜的美国模型Pi0.5,一举夺得综合排名第一。

  • 关键任务表现优异:在评测的30项贴近生活的任务中,Spirit v1.5展现了远超同类模型的稳定性。例如,在“贴胶带”、“从堆叠物品中寻找特定颜色物体”、“插花”等复杂任务中,它都能流畅、准确地完成,而竞争对手模型则出现了多次失败。

  • 全面开源:在取得榜首成绩后,千寻智能随即宣布全量开源Spirit v1.5,包括模型权重、核心代码和评测流程。这一举措旨在降低行业门槛,推动全球具身智能技术的共同进步。

🤖 应用与影响

Spirit VLA模型已成功应用于千寻智能的人形机器人“小墨(Moz1)”上。例如,在2025年底,搭载该模型的机器人已在宁德时代的动力电池生产线上,精准完成了电池接插件插接等复杂作业。

它的出现标志着中国具身智能技术正式迈入世界领先行列,其开源策略有望使其成为行业标准的基石,加速具身智能从技术探索走向规模化落地的进程。

免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯