2021 年夏天,OpenAI 悄然关闭了其机器人团队,宣布由于缺乏训练机器人如何使用人工智能移动和推理所需的数据,进展受到阻碍。
现在,OpenAI 的三位早期研究科学家表示,他们在 2017 年分拆成立的初创公司 Covariant 已经解决了这个问题,并推出了一种将大型语言模型的推理能力与先进机器人的物理灵活性相结合的系统。
新模型名为 RFM-1,它基于 Covariant 多年来收集的数据以及互联网上的文字和视频进行训练,这些机器人是 Crate & Barrel 和 Bonprix 等客户在世界各地的仓库中使用的小型物品挑选机器人。未来几个月,该模型将向 Covariant 客户发布。该公司希望该系统在现实世界中部署后会变得更加强大和高效。
那么它能做什么呢?Covariant 联合创始人 Peter Chen 和 Pieter Abbeel 展示了用户如何使用五种不同类型的输入来提示模型:文本、图像、视频、机器人指令和测量值。
例如,向机器人展示一张装满运动器材的箱子的图片,并告诉它拿起一包网球。然后,机器人可以抓取物品,生成网球丢掉后箱子会是什么样子的图片,或者制作一段视频,从鸟瞰角度展示机器人执行任务时的模样。
如果模型预测它无法正确抓握物品,它甚至可能会回复:“我抓不住。你有什么建议吗?”回复可能会建议它在手臂上使用特定数量的吸盘,以便更好地抓握物品 - 例如八个对六个。
这代表着机器人的一次飞跃,它们可以使用训练数据来适应环境,而不是像上一代工业机器人那样使用复杂的、针对特定任务的代码。这也是朝着工作场所迈出的一步,管理人员可以用人类语言发出指令,而不必担心人类劳动力的局限性。(“使用以下食谱包装 600 份红辣椒意面备餐包。不要休息!”)
莱雷尔·平托 (Lerrel Pinto) 是纽约大学通用机器人和人工智能实验室的负责人,与 Covariant 没有任何关系。他表示,尽管机器人专家之前已经建造了基本的多模式机器人并在实验室环境中使用它们,但大规模部署一个能够以如此多模式进行通信的机器人,对公司来说是一项令人印象深刻的壮举。
为了超越竞争对手,Covariant 必须掌握足够的数据,让机器人在野外发挥作用。仓库地板和装卸码头是测试机器人的地方,机器人会不断与新指令、人员、物体和环境互动。
那些要训练出良好模型的团队要么能够访问大量的机器人数据,要么有能力生成这些数据。
Covariant 表示,该模型具有“类似人类”的推理能力,但也有其局限性。在演示过程中,作者可以看到 Covariant 机器人的实时画面以及一个可以与其交流的聊天窗口,Peter Chen邀请采访作者向模型提示任何我想要的内容。当作者要求机器人“将香蕉放回 Tote Two”时,它费力地回溯了自己的步骤,导致它拿起海绵、苹果,然后是许多其他物品,最后才完成香蕉任务。
Chen解释说:“它不理解新概念,但这是一个很好的例子——在没有良好训练数据的地方,它可能还不能很好地发挥作用。”
该公司的新模型体现了机器人领域的范式转变。研究人员不再通过物理方程和代码等指令手动教机器人世界如何运作,而是采用与人类学习相同的方式:通过数百万次观察。
结果“确实可以充当非常有效的灵活大脑来解决任意的机器人任务”。
今年,使用人工智能来驱动更灵活的机器人系统的公司竞争环境可能会变得更加拥挤。本月早些时候,人形机器人初创公司 Figure AI 宣布将与 OpenAI 合作,并从 Nvidia 和微软等科技巨头那里筹集了 6.75 亿美元。波士顿动力公司创始人马克·雷伯特 (Marc Raibert) 最近发起了一项计划,旨在更好地将人工智能融入机器人技术。
这意味着机器学习的进步很可能会转化为机器人技术的进步。然而,一些问题仍未解决。如果大型语言模型继续在数百万个单词上进行训练而不向这些单词的作者支付报酬,那么也许可以预期机器人模型也将在视频上进行训练而不向其创作者支付报酬。如果语言模型产生幻觉并延续偏见,机器人技术中会出现什么等价物?
与此同时,Covariant 将继续推进,热衷于让 RFM-1 不断学习和改进。最终,研究人员的目标是让机器人在模型本身创建的视频上进行训练——这种元学习不仅让我头晕目眩,还引发了人们对模型错误累积会发生什么的担忧。但由于对更多训练数据的渴望,研究人员认为这几乎是不可避免的。
“对此进行训练将成为现实,”阿比尔说。“如果我们半年后再谈,我们就会讨论这个话题。”
信息来源:MIT Technology Review
2 天前
OpenAI在2025年4月29日为ChatGPT添加了购物功能。以下是具体信息: 运作方式 这一购物功能深度整合了第三方供应商的产品数据以及合作伙伴的实时内容。用户能够通过自然语言对话完成产品价格比较、个性化推荐以及直接购买。例如,输入“我需要一个用于露营的轻便帐篷,预算为500美元”,ChatGPT就会列出符合条件的产品,并附上价格比较链接、用户评价以及购买入口,还会自动调用合作电商平台的库存信息。 产品类别 目前,该功能仅适用于有限的一些产品类别,包括电子产品、时尚产品、美妆产品和家居用品。OpenAI计划在未来扩展到更多类别。 用户群体 该功能最初向ChatGPT Plus和团队订阅用户开放,未来将逐步扩展到免费用户。 特色之处 个性化体验:它不像传统搜索那样基于关键词匹配,而是侧重于理解用户的评价和讨论,分析产品的优缺点,并提供个性化推荐。例如,如果用户表明偏好从特定零售商处购买黑色衣服,ChatGPT会记住这一点,并相应地推荐相关产品。 无付费广告:OpenAI强调产品结果是独立挑选的,并非广告或赞助内容。该公司不会从交易中获利。 此外,OpenAI还为ChatGPT搜索添加了诸如改进引用、热门话题、自动补全以及WhatsApp搜索等新功能,进一步提升了用户体验。
20 天前
📢 OpenAI即将发布GPT-4.1,多模态能力再升级! 据多家科技媒体报道,OpenAI计划于下周(2025年4月中旬)推出GPT-4.1,作为GPT-4o的升级版本,进一步强化多模态推理能力,并推出轻量级mini和nano版本。 🔍 关键升级点 更强的多模态处理 GPT-4.1将优化对文本、音频、图像的实时处理能力,提升跨模态交互的流畅度。 相比GPT-4o,新模型在复杂推理任务(如视频理解、语音合成等)上表现更优。 轻量化版本(mini & nano) GPT-4.1 mini 和 nano 将面向不同应用场景,降低计算资源需求,适合移动端或嵌入式设备。 配套新模型(o3 & o4 mini) OpenAI还将推出o3推理模型(满血版)和o4 mini,优化特定任务性能。 部分代码已在ChatGPT网页端被发现,表明发布临近。 ⏳ 发布时间与不确定性 原定下周发布,但OpenAI CEO Sam Altman 曾预警可能因算力限制调整计划。 同期,ChatGPT已升级长期记忆功能,可回顾用户历史对话,提供个性化服务(Plus/Pro用户已开放)。 🌍 行业影响 谷歌(Gemini AI)和微软(Copilot)近期也强化了AI记忆功能,竞争加剧。 GPT-4.1可能进一步巩固OpenAI在多模态AI领域的领先地位,推动商业应用(如智能客服、内容创作等)。 📌 总结:GPT-4.1的发布标志着OpenAI在多模态AI上的又一次突破,但具体性能提升和落地效果仍需观察。我们将持续关注官方更新! (综合自腾讯新闻、The Verge、搜狐等)
1 个月前
Ali Kashani 是 Serve Robotics 的联合创始人兼首席执行官,自 2021 年 1 月公司成立以来一直担任这一职务。在创立 Serve Robotics 之前,Kashani 曾担任 Postmates 的副总裁,并联合创立了智能家居技术公司 Neurio Technology(后被 Generac Power Systems 收购)。他拥有计算机工程学士学位和机器人学博士学位,并拥有 15 项已授权或正在申请的专利。 业务增长与财务表现 在 Kashani 的领导下,Serve Robotics 实现了显著增长,2024 年收入达到 180 万美元,同比增长 700%。然而,公司仍处于扩张阶段,2024 年 GAAP 净亏损为 3920 万美元。该公司专注于开发低排放自动驾驶送货机器人,主要服务于美国公共空间的食品配送。 战略合作与市场扩展 Kashani 强调了与行业巨头的关键合作: Magna International:独家合同制造协议,支持机器人规模化生产。 Uber Technologies:配送服务合作,Uber 还持有价值约 7150 万美元的 Serve Robotics 股份。 NVIDIA:技术合作,增强机器人人工智能能力。 公司计划 2025 年将机器人车队扩展至 2000 台,并进军达拉斯和亚特兰大等新市场。 技术与创新 Serve Robotics 已推出第三代送货机器人,重点提升: 配送效率与安全性 降低制造成本 人工智能驱动的自主性增强 挑战与未来展望 Kashani 讨论了公司在扩展至迈阿密等新市场时面临的挑战,包括: 本地法规适应 餐厅合作伙伴的工作流程整合 最后一英里配送的优化 他认为,机器人技术在各个领域具有无限潜力,而 Serve Robotics 正处于这一变革的前沿。 (图片来源:Serve Robotics 官网)
1 个月前
Reflex Robotics 是一家专注于开发低成本、高可靠性通用人形机器人的美国初创公司,总部位于纽约布鲁克林。该公司致力于通过自动化技术解决重复性劳动问题,其机器人主要应用于仓储物流、物料搬运等领域。 以下将从其公司基本信息、技术产品特点、商业模式、发展规划等维度展开介绍: 基本信息 成立时间与地点:由美国MIT毕业生于2014年创立,他们曾在 Telsa、Boston Dynamics 和 Amazon 拥有硬件经验,在纽约和旧金山设有办事处。 团队规模:较小,仅约5人。 融资情况:已完成由Khosla Ventures领投的700万美元种子轮融资。 技术与产品特点 硬件设计:采用轮式底盘与动态躯干的组合结构,底座配备四轮驱动系统,最高时速30公里,转向半径接近零;躯干通过液压升降机构可上下调节50厘米,配合三自由度机械臂,作业空间从地面到2米。 感知系统:头部搭载多模态传感器阵列,包括双目立体视觉摄像头、激光雷达和触觉传感器,动态避障算法可在50毫秒内重新规划路线,货物分拣效率达到人工的1.8倍,错误率降低至0.03%以下。 控制模式:采用“人在回路中”的混合控制模式,操作员通过VR设备远程监控多台机器人,还可通过“众包学习”机制记录操作者示范动作数据并上传至云端知识库,供其他机器人学习,三个月内自主作业率从38%提升至67%。 应用领域 仓储物流:能在仓库中进行货物挑拣、运输、码垛等工作,在GXO物流中心,每天可完成2000箱货物的码垛作业,每层堆叠误差小于2毫米。 工业生产:可执行精密装配任务,如将直径0.5毫米的轴承准确嵌入电机转子,重复定位精度达到±5微米,也可在木工车间完成木板切割、砂光、喷涂等全流程作业。 商业模式 机器人即服务(RaaS):企业无需购买设备,只需支付每月1500美元的服务费,即可获得包括维护、升级、保险在内的全套解决方案。 供应链布局:依托麻省理工学院的制造创新中心,将原型到量产周期压缩至90天,自主设计的柔性生产线日产能达50台,并在15个国家设立快速响应中心。 发展规划 提升自主性:计划在未来逐步实现更高的自主性,2026年人机监管比例从1:1优化至1:4。 技术升级:硬件层面引入液态金属关节提升机械臂柔顺性;软件层面训练多模态大模型,实现自然语言指令到动作的端到端转换。 (图片来源:therobotreport.com)
1 个月前
OpenAI近期发布了GPT-4o模型,新增的原生图像生成功能在网络上引发了广泛关注。用户可以通过上传图片并输入提示词,将其转换为吉卜力 ( Ghibli ) 风格的艺术作品。这种简单易用的创作方式迅速降低了艺术创作的门槛,使任何人都能轻松生成具有宫崎骏标志性手绘风格、柔和色调和梦幻自然元素的图片。 由于该功能的火爆,OpenAI首席执行官萨姆·奥特曼(Sam Altman)在社交媒体上表示:“看到大家如此喜爱ChatGPT的图像功能非常有趣,但我们的GPU快扛不住了。”他提到,虽然目前对生成次数进行了限制,但这只是暂时的,公司正在努力提升处理效率,免费用户将“很快”每天最多可生成三张图像。 然而,这一热潮也引发了关于版权的讨论。有网友指出,OpenAI可能未经授权使用了吉卜力工作室的作品进行训练,涉嫌侵犯版权。此前,有开发者因推出将照片转换为吉卜力风格的应用程序,收到了吉卜力工作室的律师函,要求下架相关应用。 此外,吉卜力工作室的创始人宫崎骏曾在2016年公开表达对AI生成动画的反感,认为其“令人作呕”,并称这是对生命的侮辱。 尽管存在争议,GPT-4o的这一功能无疑展示了AI在艺术创作领域的强大潜力,但也提醒我们在享受技术便利的同时,需要关注并尊重原创作品的版权和艺术家的权益。
1 个月前
具身智能(Embodied AI)的发展,究竟是科技革命的前奏,还是资本驱动的泡沫,取决于多个因素,包括技术进步的速度、市场应用的成熟度、以及资本市场的耐心和理性。我们可以从以下几个方面来分析这一问题: 1. 技术进步的现实性:具身智能是否具备突破性的能力? 具身智能的核心在于将人工智能与物理世界交互能力结合起来,使AI不仅能“思考”,还能“行动”。近年来,随着计算机视觉、强化学习、机器人技术、传感器等领域的突破,具身智能的基础技术正在逐步成熟。例如: 波士顿动力的机器人已经展现出稳定的运动能力; OpenAI 和 DeepMind 的AI代理在虚拟环境中学习复杂的操作技能; 具身智能在制造、物流、医疗、服务等领域的应用场景不断拓展。 但与此同时,现实中的具身智能仍然面临许多挑战,例如: 数据与学习效率问题:现有的强化学习和自监督学习方法仍然需要大量数据和计算资源,而具身智能的学习环境比纯软件环境更复杂。 硬件限制:机器人硬件的成本高昂,电池续航、灵活性、感知能力仍是瓶颈。 泛化能力不足:当前的具身智能系统难以从一个任务或环境泛化到另一个任务或环境,仍需大量的微调和训练。 2. 市场应用的成熟度:是否真的解决了实际问题? 从市场角度来看,具身智能的潜在应用场景广泛,包括: 自动化制造(如智能机器人协作装配线); 智能物流(如亚马逊仓库机器人、无人配送); 医疗护理(如康复机器人、护理助手); 服务行业(如智能客服、餐饮服务机器人)。 然而,目前真正实现大规模商业化的案例仍然有限,许多应用仍停留在试验阶段。这说明具身智能尚未完全进入成熟期,而是处于早期探索阶段。 3. 资本市场的推动:是否存在泡沫? 近年来,随着AI行业的爆发,资本对具身智能的关注度大幅提升。例如: 特斯拉Optimus(擎天柱)人形机器人,马斯克宣称其将在工厂和家庭场景落地; Agility Robotics、Figure AI、Sanctuary AI 等创业公司获得巨额投资,致力于人形机器人研发; 苹果、谷歌、亚马逊等科技巨头也在加强在具身智能上的布局。 但资本市场的热情有时会过度夸大技术的短期进展。例如,许多机器人公司在资本涌入后,最终因商业模式不清晰而失败。市场泡沫的风险在于,如果技术落地速度跟不上预期,资本会快速撤离,导致行业短期震荡。 结论:是科技革命的前奏,还是泡沫? 关于具身智能浪潮是否为科技革命的前奏或是资本驱动的泡沫,业内存在多种观点,目前尚无定论。 科技革命的前奏 技术进步加速:近年来,机器人技术、计算机视觉、传感器以及人工智能算法的飞速发展,为实现真正具身智能奠定了坚实的基础。 跨学科融合:认知科学、神经科学与机器学习的交叉研究不断推进,使得具身智能不仅在理论上,更在实践上显示出革命性的潜力。 应用场景拓展:从自动驾驶、服务机器人到工业自动化,具身智能的实际应用前景广阔,可能引发生产方式和生活方式的深刻变革。 资本驱动的泡沫风险 市场炒作:部分资本可能会过度高估技术的短期成熟度和市场前景,导致投资热潮和估值泡沫。 技术壁垒与实现难度:尽管技术进步迅速,但真正具备自主决策、实时感知和复杂环境适应能力的具身智能系统仍面临众多挑战,短期内或难以完全兑现预期。 政策与伦理问题:在技术推广过程中,监管、伦理以及安全等方面的挑战也可能限制技术的广泛落地和产业化速度。 长期来看,具身智能是科技革命的前奏: 技术的进步是不可逆的,随着深度学习、强化学习、机器人技术、计算能力的提升,具身智能的能力会逐步增强,并最终改变产业格局。 短期来看,具身智能市场可能存在资本泡沫: 一些过度炒作的概念和未成熟的商业模式可能导致泡沫破裂,但这不会影响技术的长期发展趋势。 换句话说,具身智能的“科技革命”是确定的,但短期内的泡沫和市场震荡也难以避免。真正的突破可能需要 5-10 年甚至更长的时间,但当技术、市场和资本形成合力时,它将真正迎来大规模应用。
1 个月前
谷歌大模型与人脑语言处理机制研究由谷歌研究院与普林斯顿大学、纽约大学等合作开展。3 月上旬,谷歌的研究成果表明大模型竟意外对应人脑语言处理机制。他们将真实对话中的人脑活动与语音到文本 LLM 的内部嵌入进行比较,发现两者在线性相关关系上表现显著,如语言理解顺序(语音到词义)、生成顺序(计划、发音、听到自己声音)以及上下文预测单词等方面都有惊人的一致性 研究方法:将真实对话中的人脑活动与语音到文本LLM的内部嵌入进行比较。使用皮层电图记录参与者在开放式真实对话时语音生成和理解过程中的神经信号,同时从Whisper中提取低级声学、中级语音和上下文单词嵌入,开发编码模型将这些嵌入词线性映射到大脑活动上。 具体发现 语言理解与生成顺序:在语言理解过程中,首先是语音嵌入预测沿颞上回(STG)的语音区域的皮层活动,几百毫秒后,语言嵌入预测布罗卡区(位于额下回;IFG)的皮层活动。在语言生成过程中,顺序则相反,先由语言嵌入预测布罗卡区的皮层活动,几百毫秒后,语音嵌入预测运动皮层(MC)的神经活动,最后,在说话者发音后,语音嵌入预测STG听觉区域的神经活动。这反映了神经处理的顺序,即先在语言区计划说什么,然后在运动区决定如何发音,最后在感知语音区监测说了什么。 神经活动与嵌入的关系:对于听到或说出的每个单词,从语音到文本模型中提取语音嵌入和基于单词的语言嵌入,通过估计线性变换,可以根据这些嵌入预测每次对话中每个单词的大脑神经信号。全脑分析的定量结果显示,在语音生成和语音理解过程中,不同脑区的神经活动与语音嵌入和语言嵌入的峰值存在特定的先后顺序和对应关系。 “软层次”概念:尽管大模型在并行层中处理单词,人类大脑以串行方式处理它们,但反映了类似的统计规律。大脑中较低级别的声学处理和较高级别的语义处理部分重叠,即存在“软层次”概念。例如,像IFG这样的语言区域不仅处理单词级别的语义和句法信息,也捕捉较低级别的听觉特征;而像STG这样的低阶语音区域在优先处理声学和音素的同时,也能捕捉单词级别的信息。 以往相关研究成果 2022年发表在《自然神经科学》上的论文显示,听者大脑的语言区域会尝试在下一个单词说出之前对其进行预测,且在单词发音前对预测的信心会改变在单词发音后的惊讶程度(预测误差),证明了自回归语言模型与人脑共有的起始前预测、起始后惊讶和基于嵌入的上下文表征等基本计算原理。 发表在《自然通讯》的论文发现,大模型的嵌入空间几何图形所捕捉到的自然语言中单词之间的关系,与大脑在语言区诱导的表征(即大脑嵌入)的几何图形一致。 后续研究还发现,虽然跨层非线性变换在LLMs和人脑语言区中相似,但实现方式不同。Transformer架构可同时处理成百上千个单词,而人脑语言区似乎是按顺序、逐字、循环和时间来分析语言。 总之,该研究表明,语音到文本模型嵌入为理解自然对话过程中语言处理的神经基础提供了一个连贯的框架,尽管大模型与人脑在底层神经回路架构上存在明显不同,但在处理自然语言时有着一些相似的计算原则。
1 个月前
2025 年 3 月 12 日,清华大学 NLP 实验室联手中南大学等提出 APB 序列并行推理框架,可解决长上下文远距离语义依赖问题,在 128K 文本上比 Flash Attention 快约 10 倍。
1 个月前
2025 年 3 月 12 日消息,OpenAI 发布 Agent 工具包,推出一组新的 API 和工具以简化 Agent 应用程序开发,包括新的 Responses API、网络搜索、文件搜索、计算机使用工具和 Agents SDK 等,还计划在接下来的几周和几个月内发布其他工具和功能。
1 个月前
在自然语言处理和人工智能领域,token通常是指文本中的基本单元,比如一个单词、一个标点符号或者一个子词等。100万token的输入输出量是一个较大的数据规模,以下从不同角度来理解这一概念: 从文本长度角度 一般来说,英文中一个单词可以看作一个token,中文可能一个字或一个词作为一个token。如果平均每个token对应5个字符(这只是一个粗略的估计,实际会因语言、文本类型等因素而不同),那么100万token大约对应500万个字符。以一本普通的中文书籍每页约1000字来算,500万个字符相当于5000页的书籍内容,这是非常庞大的文本量。 从处理难度角度 对于语言模型等人工智能系统来说,处理100万token的输入输出意味着要处理大量的信息。模型需要在这么多的token中理解语义、语法关系,捕捉上下文信息等,这对模型的容量、计算能力和算法设计都提出了很高的要求。模型需要有足够多的参数和足够深的网络结构,才能有效地处理如此大规模的文本数据,以生成准确、合理的输出。 处理如此大量的token还需要消耗大量的计算资源和时间。在训练过程中,可能需要使用高性能的GPU或TPU集群,花费数天甚至数周的时间才能完成训练。在推理阶段,也需要较多的计算资源来快速处理输入并生成输出,以满足实时性或高效性的要求。 从应用场景角度 机器翻译:如果用于机器翻译任务,100万token可能包含了各种领域的大量句子和段落。这意味着模型可以学习到丰富的语言表达方式和翻译模式,能够处理更复杂、更专业的翻译任务,提高翻译的准确性和质量。 文本生成:在文本生成任务中,如创作小说、新闻报道等,100万token的输入可以让模型学习到大量的文本风格、主题和结构信息,从而生成更丰富多样、更具创意和逻辑性的文本内容。 智能客服:对于智能客服系统,100万token的输入输出量可以使系统处理大量的用户咨询和问题,学习到各种常见问题的回答模式和解决方案,从而更准确、更快速地为用户提供服务,提高用户满意度。