Spirit VLA

千寻智能视觉-语言-动作模型

训练模型

1 个月前

672

167

Spirit VLA（Vision-Language-Action，视觉-语言-动作）是由中国公司千寻智能（Spirit AI）自主研发的具身智能基础模型系列，其最新版本Spirit v1.5在2026年1月登顶全球权威评测榜RoboChallenge，是目前世界顶尖的端到端具身智能模型之一。

它被形象地称为机器人的“通用大脑”，旨在让机器人能够像人一样，通过眼睛（视觉）理解世界，听懂指令（语言），并直接做出动作（行动），无需复杂的编程。

端到端架构：Spirit VLA采用创新的端到端架构，将视觉感知、语言理解与动作决策整合在同一个神经网络中。这避免了传统模块化系统中因信息在不同模块间传递而产生的误差累积，使机器人的反应更连贯、稳定。
强大的泛化能力：模型的核心优势在于其卓越的泛化能力。它不仅能完成训练中见过的任务，更能举一反三，处理全新的、未曾训练过的复杂任务和环境。
真实世界的数据驱动：与许多依赖“干净”、脚本化数据的模型不同，Spirit VLA的训练采用了大量开放式、多样化的“真实世界”数据。这种方式模拟了现实环境的不可预测性，让模型学会了如何处理遮挡、失败恢复以及任务间的自然过渡，从而更适应真实场景。

登顶全球榜首：2026年1月，在全球具身智能模型评测平台RoboChallenge上，Spirit v1.5以66.09分的综合得分和超过50%的任务成功率，超越了此前长期霸榜的美国模型Pi0.5，一举夺得综合排名第一。
关键任务表现优异：在评测的30项贴近生活的任务中，Spirit v1.5展现了远超同类模型的稳定性。例如，在“贴胶带”、“从堆叠物品中寻找特定颜色物体”、“插花”等复杂任务中，它都能流畅、准确地完成，而竞争对手模型则出现了多次失败。
全面开源：在取得榜首成绩后，千寻智能随即宣布全量开源Spirit v1.5，包括模型权重、核心代码和评测流程。这一举措旨在降低行业门槛，推动全球具身智能技术的共同进步。