Covariant训练机器人学习模拟人类理解力

11 个月前机器人 633

2021 年夏天，OpenAI 悄然关闭了其机器人团队，宣布由于缺乏训练机器人如何使用人工智能移动和推理所需的数据，进展受到阻碍。

现在，OpenAI 的三位早期研究科学家表示，他们在 2017 年分拆成立的初创公司 Covariant 已经解决了这个问题，并推出了一种将大型语言模型的推理能力与先进机器人的物理灵活性相结合的系统。

新模型名为 RFM-1，它基于 Covariant 多年来收集的数据以及互联网上的文字和视频进行训练，这些机器人是 Crate & Barrel 和 Bonprix 等客户在世界各地的仓库中使用的小型物品挑选机器人。未来几个月，该模型将向 Covariant 客户发布。该公司希望该系统在现实世界中部署后会变得更加强大和高效。

那么它能做什么呢？Covariant 联合创始人 Peter Chen 和 Pieter Abbeel 展示了用户如何使用五种不同类型的输入来提示模型：文本、图像、视频、机器人指令和测量值。

例如，向机器人展示一张装满运动器材的箱子的图片，并告诉它拿起一包网球。然后，机器人可以抓取物品，生成网球丢掉后箱子会是什么样子的图片，或者制作一段视频，从鸟瞰角度展示机器人执行任务时的模样。

如果模型预测它无法正确抓握物品，它甚至可能会回复：“我抓不住。你有什么建议吗？”回复可能会建议它在手臂上使用特定数量的吸盘，以便更好地抓握物品 - 例如八个对六个。

这代表着机器人的一次飞跃，它们可以使用训练数据来适应环境，而不是像上一代工业机器人那样使用复杂的、针对特定任务的代码。这也是朝着工作场所迈出的一步，管理人员可以用人类语言发出指令，而不必担心人类劳动力的局限性。（“使用以下食谱包装 600 份红辣椒意面备餐包。不要休息！”）

莱雷尔·平托 (Lerrel Pinto) 是纽约大学通用机器人和人工智能实验室的负责人，与 Covariant 没有任何关系。他表示，尽管机器人专家之前已经建造了基本的多模式机器人并在实验室环境中使用它们，但大规模部署一个能够以如此多模式进行通信的机器人，对公司来说是一项令人印象深刻的壮举。

为了超越竞争对手，Covariant 必须掌握足够的数据，让机器人在野外发挥作用。仓库地板和装卸码头是测试机器人的地方，机器人会不断与新指令、人员、物体和环境互动。

那些要训练出良好模型的团队要么能够访问大量的机器人数据，要么有能力生成这些数据。

Covariant 表示，该模型具有“类似人类”的推理能力，但也有其局限性。在演示过程中，作者可以看到 Covariant 机器人的实时画面以及一个可以与其交流的聊天窗口，Peter Chen邀请采访作者向模型提示任何我想要的内容。当作者要求机器人“将香蕉放回 Tote Two”时，它费力地回溯了自己的步骤，导致它拿起海绵、苹果，然后是许多其他物品，最后才完成香蕉任务。

Chen解释说：“它不理解新概念，但这是一个很好的例子——在没有良好训练数据的地方，它可能还不能很好地发挥作用。”

该公司的新模型体现了机器人领域的范式转变。研究人员不再通过物理方程和代码等指令手动教机器人世界如何运作，而是采用与人类学习相同的方式：通过数百万次观察。

结果“确实可以充当非常有效的灵活大脑来解决任意的机器人任务”。

今年，使用人工智能来驱动更灵活的机器人系统的公司竞争环境可能会变得更加拥挤。本月早些时候，人形机器人初创公司 Figure AI 宣布将与 OpenAI 合作，并从 Nvidia 和微软等科技巨头那里筹集了 6.75 亿美元。波士顿动力公司创始人马克·雷伯特 (Marc Raibert) 最近发起了一项计划，旨在更好地将人工智能融入机器人技术。

这意味着机器学习的进步很可能会转化为机器人技术的进步。然而，一些问题仍未解决。如果大型语言模型继续在数百万个单词上进行训练而不向这些单词的作者支付报酬，那么也许可以预期机器人模型也将在视频上进行训练而不向其创作者支付报酬。如果语言模型产生幻觉并延续偏见，机器人技术中会出现什么等价物？

与此同时，Covariant 将继续推进，热衷于让 RFM-1 不断学习和改进。最终，研究人员的目标是让机器人在模型本身创建的视频上进行训练——这种元学习不仅让我头晕目眩，还引发了人们对模型错误累积会发生什么的担忧。但由于对更多训练数据的渴望，研究人员认为这几乎是不可避免的。

“对此进行训练将成为现实，”阿比尔说。“如果我们半年后再谈，我们就会讨论这个话题。”

信息来源：MIT Technology Review