Reinforcement Learning, 强化学习, 就是通过智能体与环境的交互,让智能体学习到最优的行动策略,以获得最大的累积奖励。
在机器人领域应用强化学习通常可以遵循以下步骤:
1. 定义问题和目标:
2. 建立环境模型:
3. 设计动作空间:
4. 定义奖励机制:
5. 选择强化学习算法:
6. 数据收集和训练:
7. 模型评估和优化:
8. 部署到实际机器人:
例如,在训练一个机器人抓取物体的任务中:
通过不断地重复上述过程,逐步优化强化学习模型,使机器人能够更好地完成指定任务。
强化学习在智能机器人研发领域广泛使用哦个的技术,以下是一些强化学习在机器人领域的应用实例:
双足机器人:
四足机器人:
六足机器人:
机器狗:
1 个月前
Ali Kashani 是 Serve Robotics 的联合创始人兼首席执行官,自 2021 年 1 月公司成立以来一直担任这一职务。在创立 Serve Robotics 之前,Kashani 曾担任 Postmates 的副总裁,并联合创立了智能家居技术公司 Neurio Technology(后被 Generac Power Systems 收购)。他拥有计算机工程学士学位和机器人学博士学位,并拥有 15 项已授权或正在申请的专利。 业务增长与财务表现 在 Kashani 的领导下,Serve Robotics 实现了显著增长,2024 年收入达到 180 万美元,同比增长 700%。然而,公司仍处于扩张阶段,2024 年 GAAP 净亏损为 3920 万美元。该公司专注于开发低排放自动驾驶送货机器人,主要服务于美国公共空间的食品配送。 战略合作与市场扩展 Kashani 强调了与行业巨头的关键合作: Magna International:独家合同制造协议,支持机器人规模化生产。 Uber Technologies:配送服务合作,Uber 还持有价值约 7150 万美元的 Serve Robotics 股份。 NVIDIA:技术合作,增强机器人人工智能能力。 公司计划 2025 年将机器人车队扩展至 2000 台,并进军达拉斯和亚特兰大等新市场。 技术与创新 Serve Robotics 已推出第三代送货机器人,重点提升: 配送效率与安全性 降低制造成本 人工智能驱动的自主性增强 挑战与未来展望 Kashani 讨论了公司在扩展至迈阿密等新市场时面临的挑战,包括: 本地法规适应 餐厅合作伙伴的工作流程整合 最后一英里配送的优化 他认为,机器人技术在各个领域具有无限潜力,而 Serve Robotics 正处于这一变革的前沿。 (图片来源:Serve Robotics 官网)
1 个月前
Reflex Robotics 是一家专注于开发低成本、高可靠性通用人形机器人的美国初创公司,总部位于纽约布鲁克林。该公司致力于通过自动化技术解决重复性劳动问题,其机器人主要应用于仓储物流、物料搬运等领域。 以下将从其公司基本信息、技术产品特点、商业模式、发展规划等维度展开介绍: 基本信息 成立时间与地点:由美国MIT毕业生于2014年创立,他们曾在 Telsa、Boston Dynamics 和 Amazon 拥有硬件经验,在纽约和旧金山设有办事处。 团队规模:较小,仅约5人。 融资情况:已完成由Khosla Ventures领投的700万美元种子轮融资。 技术与产品特点 硬件设计:采用轮式底盘与动态躯干的组合结构,底座配备四轮驱动系统,最高时速30公里,转向半径接近零;躯干通过液压升降机构可上下调节50厘米,配合三自由度机械臂,作业空间从地面到2米。 感知系统:头部搭载多模态传感器阵列,包括双目立体视觉摄像头、激光雷达和触觉传感器,动态避障算法可在50毫秒内重新规划路线,货物分拣效率达到人工的1.8倍,错误率降低至0.03%以下。 控制模式:采用“人在回路中”的混合控制模式,操作员通过VR设备远程监控多台机器人,还可通过“众包学习”机制记录操作者示范动作数据并上传至云端知识库,供其他机器人学习,三个月内自主作业率从38%提升至67%。 应用领域 仓储物流:能在仓库中进行货物挑拣、运输、码垛等工作,在GXO物流中心,每天可完成2000箱货物的码垛作业,每层堆叠误差小于2毫米。 工业生产:可执行精密装配任务,如将直径0.5毫米的轴承准确嵌入电机转子,重复定位精度达到±5微米,也可在木工车间完成木板切割、砂光、喷涂等全流程作业。 商业模式 机器人即服务(RaaS):企业无需购买设备,只需支付每月1500美元的服务费,即可获得包括维护、升级、保险在内的全套解决方案。 供应链布局:依托麻省理工学院的制造创新中心,将原型到量产周期压缩至90天,自主设计的柔性生产线日产能达50台,并在15个国家设立快速响应中心。 发展规划 提升自主性:计划在未来逐步实现更高的自主性,2026年人机监管比例从1:1优化至1:4。 技术升级:硬件层面引入液态金属关节提升机械臂柔顺性;软件层面训练多模态大模型,实现自然语言指令到动作的端到端转换。 (图片来源:therobotreport.com)
1 个月前
具身智能(Embodied AI)的发展,究竟是科技革命的前奏,还是资本驱动的泡沫,取决于多个因素,包括技术进步的速度、市场应用的成熟度、以及资本市场的耐心和理性。我们可以从以下几个方面来分析这一问题: 1. 技术进步的现实性:具身智能是否具备突破性的能力? 具身智能的核心在于将人工智能与物理世界交互能力结合起来,使AI不仅能“思考”,还能“行动”。近年来,随着计算机视觉、强化学习、机器人技术、传感器等领域的突破,具身智能的基础技术正在逐步成熟。例如: 波士顿动力的机器人已经展现出稳定的运动能力; OpenAI 和 DeepMind 的AI代理在虚拟环境中学习复杂的操作技能; 具身智能在制造、物流、医疗、服务等领域的应用场景不断拓展。 但与此同时,现实中的具身智能仍然面临许多挑战,例如: 数据与学习效率问题:现有的强化学习和自监督学习方法仍然需要大量数据和计算资源,而具身智能的学习环境比纯软件环境更复杂。 硬件限制:机器人硬件的成本高昂,电池续航、灵活性、感知能力仍是瓶颈。 泛化能力不足:当前的具身智能系统难以从一个任务或环境泛化到另一个任务或环境,仍需大量的微调和训练。 2. 市场应用的成熟度:是否真的解决了实际问题? 从市场角度来看,具身智能的潜在应用场景广泛,包括: 自动化制造(如智能机器人协作装配线); 智能物流(如亚马逊仓库机器人、无人配送); 医疗护理(如康复机器人、护理助手); 服务行业(如智能客服、餐饮服务机器人)。 然而,目前真正实现大规模商业化的案例仍然有限,许多应用仍停留在试验阶段。这说明具身智能尚未完全进入成熟期,而是处于早期探索阶段。 3. 资本市场的推动:是否存在泡沫? 近年来,随着AI行业的爆发,资本对具身智能的关注度大幅提升。例如: 特斯拉Optimus(擎天柱)人形机器人,马斯克宣称其将在工厂和家庭场景落地; Agility Robotics、Figure AI、Sanctuary AI 等创业公司获得巨额投资,致力于人形机器人研发; 苹果、谷歌、亚马逊等科技巨头也在加强在具身智能上的布局。 但资本市场的热情有时会过度夸大技术的短期进展。例如,许多机器人公司在资本涌入后,最终因商业模式不清晰而失败。市场泡沫的风险在于,如果技术落地速度跟不上预期,资本会快速撤离,导致行业短期震荡。 结论:是科技革命的前奏,还是泡沫? 关于具身智能浪潮是否为科技革命的前奏或是资本驱动的泡沫,业内存在多种观点,目前尚无定论。 科技革命的前奏 技术进步加速:近年来,机器人技术、计算机视觉、传感器以及人工智能算法的飞速发展,为实现真正具身智能奠定了坚实的基础。 跨学科融合:认知科学、神经科学与机器学习的交叉研究不断推进,使得具身智能不仅在理论上,更在实践上显示出革命性的潜力。 应用场景拓展:从自动驾驶、服务机器人到工业自动化,具身智能的实际应用前景广阔,可能引发生产方式和生活方式的深刻变革。 资本驱动的泡沫风险 市场炒作:部分资本可能会过度高估技术的短期成熟度和市场前景,导致投资热潮和估值泡沫。 技术壁垒与实现难度:尽管技术进步迅速,但真正具备自主决策、实时感知和复杂环境适应能力的具身智能系统仍面临众多挑战,短期内或难以完全兑现预期。 政策与伦理问题:在技术推广过程中,监管、伦理以及安全等方面的挑战也可能限制技术的广泛落地和产业化速度。 长期来看,具身智能是科技革命的前奏: 技术的进步是不可逆的,随着深度学习、强化学习、机器人技术、计算能力的提升,具身智能的能力会逐步增强,并最终改变产业格局。 短期来看,具身智能市场可能存在资本泡沫: 一些过度炒作的概念和未成熟的商业模式可能导致泡沫破裂,但这不会影响技术的长期发展趋势。 换句话说,具身智能的“科技革命”是确定的,但短期内的泡沫和市场震荡也难以避免。真正的突破可能需要 5-10 年甚至更长的时间,但当技术、市场和资本形成合力时,它将真正迎来大规模应用。
1 个月前
根据《Nature》最新发表的研究,非营利研究机构METR发现了一项被称为“智能体摩尔定律”的规律,即AI智能体(Agent)在完成长期任务方面的能力每7个月翻一番。这一发现揭示了AI在任务完成时间跨度上的指数级增长趋势,并提出了“50%-任务完成时间跨度”这一新指标来衡量AI的能力变化。 核心发现 能力翻倍周期:自2019年以来,AI智能体完成任务的时间跨度每7个月翻一番。这意味着,如果2019年AI完成某项任务所需时间对应人类需要10分钟,那么7个月后,这一时间将缩短至20分钟。 加速趋势:2024年,AI能力的增长速度进一步加快,部分最新模型的能力每3个月翻一番。 未来预测:按照这一趋势,预计5年后(即2030年左右),AI将能够完成许多当前需要人类花费一个月时间才能完成的任务。 研究方法 METR团队通过以下步骤验证了这一规律: 任务设计:设计了170个多样化任务,涵盖软件工程、机器学习、网络安全等领域,并测量人类专家完成这些任务所需的时间,建立“人类基准线”。 指标引入:提出了“50%-任务完成时间跨度”指标,即AI在50%成功率下完成任务的时间长度。这一指标对数据分布的微小变化具有鲁棒性。 模型评估:评估了2019年至2025年间发布的13个前沿AI模型(如GPT系列、Sonnet 3.7等),通过逻辑回归分析计算每个模型的时间跨度。 验证与外部实验 为了验证结果的可靠性,研究团队进行了多项外部实验,包括: 回溯预测:使用2023-2025年数据验证趋势一致性。 任务混乱度分析:评估任务复杂性对AI性能的影响,发现AI在复杂任务上的提升速度与简单任务相似。 基准测试:在SWE-bench等数据集上验证了类似的指数增长趋势。 意义与影响 技术进步:这一发现标志着AI在执行长期任务能力上的显著进步,可能推动AI在软件开发、研究等领域的广泛应用。 劳动力市场影响:AI能力的快速提升可能对劳动力市场产生深远影响,未来或替代部分人类工作,尤其是重复性和耗时任务。 社会挑战:研究提醒社会各界需关注AI技术进步带来的就业和经济挑战,并提前制定应对策略。 未来展望 METR团队预测,按照当前趋势,AI可能在2028年11月达到一个月的任务时间跨度,保守估计则在2031年2月实现。尽管研究存在任务局限性和未来不确定性,但团队确信AI能力每年有1~4倍的增长趋势。 这项研究为AI技术的发展提供了新的量化标准,同时也引发了对AI未来应用和影响的深入思考。
1 个月前
阿里推出新夸克,集成AI对话、深度搜索、深度执行等功能,标志着其从搜索引擎向AI Agent的转型。 新夸克接入通义系列模型,用户规模超2亿,DAU达3430万,位居AI应用榜首。
2 个月前
它的名字叫“凤凰”,它有潜力彻底改变农业——霍恩海姆大学研发的这款高科技农业机器人,能够利用人工智能自主耕作田间。 乍一看,它似乎并不起眼,但“凤凰”农业机器人可以自主耕种田地、照料果园,甚至还能完成更多任务,因为它内部搭载了先进的电子技术与人工智能。霍恩海姆大学植物生产过程工程系主任 Hans W. Griepentrog 和他的研究团队,将 Phoenix 研发成一种数字化农业工具,旨在为行业树立新标准。其潜力显然也得到了柏林方面的认可。 2022年,这款机器人在联邦政府数字峰会上亮相,并受到德国总理奥拉夫·朔尔茨的亲自关注。会上,Griepentrog 表达了他的核心观点:“我们希望展现,农业科学在数字化领域正取得特别创新的进展。” 其目标是促进未来农业与环境保护、物种保护之间的协调。 机器人能够区分杂草与农作物 在霍恩海姆大学的试验田里,这款机器人已被训练以大幅减少化肥和农药的使用。Griepentrog 解释道:“得益于智能传感器技术,它可以精准区分栽培作物和杂草。” 机器人配备摄像头和激光传感器来记录植物,并借助人工智能算法实时分析数据。 其核心技术之一是机械除草。用于除草的工具安装在机器后部。此外,霍恩海姆大学的研究团队还开发了一款应用程序,使 Phoenix 具备白菜种植和养护能力。Griepentrog 说道:“这样的技术在过去是前所未有的。” 与传统方式不同,这款机器人不是用刀片大面积翻耕土壤,而是每隔 60 厘米精准打开刀片,让一颗幼苗通过有机玻璃管准确落入开口处的土壤中。这意味着只有在必要时才会进行土壤干预,从而降低设备的牵引力需求,减少能源消耗。 无土壤压实、无气候相关污染 Phoenix 还能自主播种单粒作物,这也是一项突破性创新。Griepentrog 和团队自主研发了传感器、工具及精准的导航系统,至少在基础版本中如此。 这款小型农业机器人重 420 公斤,相较于传统的大型拖拉机,其行驶速度较慢,但作业精度更高。Griepentrog 解释道:“这减少了劳动力成本,提高了自动化水平,同时避免了大型机械对土壤造成的压实问题。” 另一个优势是环保性:“我们不会产生任何气候相关的污染物。” Phoenix 采用电动橡胶履带驱动,农民可以通过光伏发电或利用沼气转换电能,为机器人提供能源。 这款全能机器人还能自动修剪果树 如果配备合适的工具,Phoenix 还能修剪果树。它能够利用人工智能分析果园状况,判断哪些树木需要修剪,并自动操作锯子完成作业。然而,研究团队的目标远不止于此。 除了进一步优化杂草识别技术外,Phoenix 未来还将学习“根下施肥”技术,特别适用于长期干旱后干燥的土壤。该技术旨在将养分直接输送至土壤深处,而非仅撒在土壤表层,从而提高肥料利用率。Griepentrog 表示:“这是一项完全革命性的技术。” 通过使用不含合成化学物质的矿物肥料,这款机器人或将推动农业迈向有机与传统农业结合的“中间道路”。 目前,多个研究项目正在探索 Phoenix 的不同应用场景。联邦研究部为“无化学合成植物保护的农业 4.0” 研究项目提供了 4.5 年的资金支持,总额达 530 万欧元,其中 450 万欧元拨给霍恩海姆大学。该校负责协调此项目,并参与 20 个专业领域的 16 个子项目。此外,白菜的可持续种植研究属于“可持续小规模农业的数字价值链”联合项目的一部分,霍恩海姆大学已从联邦食品和农业部获得 200 万欧元的资助。 (图片来源:德国 Hochenheim 大学)
3 个月前
腾讯两大智能体平台:腾讯元器和 AppAgent。
3 个月前
Anthropic 于2024年12月发布的文章《Building effective agents》详细探讨了如何构建高效的大语言模型(LLM)代理系统。Anthropic 与数十个团队合作构建了跨行业的大语言模型(LLM) agent。最成功的实现往往不是使用复杂框架或专门库,而是采用简单、可组合的模式。本文分享Anthropic 的经验和实用建议: 1. 代理(Agents)的定义与分类 代理的定义: 代理可以被定义为完全自主的系统,能够在较长时间内独立运行,使用各种工具完成复杂任务。 也可以指遵循预定义工作流程的系统,这些系统通过预定义的代码路径协调LLM和工具。 工作流(Workflows)与代理(Agents)的区别: 工作流:通过预定义的代码路径编排LLM和工具,适合任务明确、步骤固定的场景。 代理:LLM动态指导自身的流程和工具使用,保持对任务完成方式的控制,适合需要灵活性和模型驱动决策的场景。 2. 何时使用代理 适用场景: 当任务复杂且需要灵活性和模型驱动的决策时,代理是更好的选择。 代理适合处理开放性问题,尤其是难以预测步骤或无法硬编码固定路径的任务。 不适用场景: 对于任务明确、步骤固定的场景,工作流提供更高的可预测性和一致性。 对于许多应用,优化单个LLM调用(配合检索和上下文示例)通常已足够。 3. 框架的使用建议 常用框架: LangGraph(LangChain)、Amazon Bedrock的AI Agent框架、Rivet(拖放式GUI工具)、Vellum(复杂工作流构建工具)。 使用建议: 开发者应优先直接使用LLM API,许多模式只需几行代码即可实现。 如果使用框架,需理解底层代码,避免因框架的抽象层增加调试难度和复杂性。 4. 构建模块与工作流模式 基础构建模块:增强型LLM 增强型LLM通过检索、工具使用和记忆等功能扩展能力,能够生成搜索查询、选择工具并保留重要信息。 核心工作流模式: 提示链(Prompt chaining):将任务分解为一系列步骤,每个LLM调用处理前一步的输出。适用于可分解为固定子任务的场景,如生成营销文案并翻译。 路由(Routing):对输入分类并引导至专门的后续任务。适用于复杂任务,如客户服务查询的分类处理。 并行化(Parallelization):将任务拆分为并行子任务或多次运行以获得多样化输出。适用于需要多视角或高置信度结果的场景。 编排者-执行者(Orchestrator-workers):中央LLM动态分解任务并分配给执行者LLM。适用于无法预测子任务的复杂场景,如编程任务。 评估者-优化者(Evaluator-optimizer):一个LLM生成响应,另一个提供评估和反馈。适用于需要迭代优化的任务,如文学翻译或复杂搜索。 5. 代理的实现与应用 代理的工作流程: 代理通过用户指令或交互明确任务,独立规划并执行,必要时向用户寻求反馈。 代理在每个步骤中从环境中获取“基准事实”(如工具调用结果)以评估进展。 适用场景: 编码代理:解决SWE-bench任务,根据任务描述编辑多个文件。 计算机使用代理:Claude通过计算机完成任务,如数据处理或信息检索。 6. 核心原则与总结 核心原则: 简单性:从简单设计开始,逐步增加复杂性。 透明性:明确展示代理的规划步骤。 工具设计:通过完善的文档和测试设计代理-计算机接口(ACI)。 总结: 成功的关键在于构建适合需求的系统,而非最复杂的系统。 框架可帮助快速启动,但在生产环境中应减少抽象层,使用基础组件构建。 7. 附录:代理的实际应用 客户支持:结合聊天机器人界面与工具集成,适用于开放式代理场景。 编码代理:在软件开发中,代理通过自动化测试验证代码解决方案,并迭代优化。 这篇文章为开发者提供了构建高效代理系统的实用指南,强调了简单性、透明性和工具设计的重要性,并通过丰富的案例展示了代理系统的实际应用价值。
4 个月前
DeepSeek(深度求索)是一家专注于大语言模型(LLM)和相关技术研发的创新型科技公司,成立于2023年7月,由知名量化私募巨头幻方量化创立。DeepSeek的AI产品主要包括以下几类: 语言模型 DeepSeek-LLM:如包含67亿参数的DeepSeek-67b-base模型,基于海量的中英文token数据集训练,可用于多种自然语言处理任务. DeepSeek-Coder:是代码语言模型,如DeepSeek-Coder-v2-instruct在代码特定任务中性能可比肩GPT-4 Turbo,可辅助编程及代码相关的自然语言处理任务. DeepSeek-Math:旨在提升数学推理能力,例如DeepSeek-Math-7b-instruct等模型,可解决数学问题、进行数学相关的文本生成和问答等. DeepSeek-Prover: 主要用于定理证明,通过优化训练和推理过程,为相关领域的研究和应用提供支持. 多模态模型 DeepSeek-VL:是开源的视觉-语言模型,可用于真实世界的视觉和语言理解应用,如视觉问答、图像字幕生成等. 应用平台 乾坤圈(AI Agent智能体平台):基于深擎自研的流程引擎研发,能够基于海量的大模型组件进行极速灵活编排,满足大模型场景快速搭建能力需求,内置了20多个工作流最佳实践、50多项金融领域的特色处理组件以及30多款应用场景,主要应用于金融行业. Janus:是统一的多模态理解和生成模型,可应用于多种需要多模态交互的场景. 内容产品与服务 个性化推荐引擎:如穿云箭,依托智能算法模型,基于用户的浏览行为,实现精准的内容推荐,帮助金融机构了解客户需求. 内容服务平台:如风火轮,整合各大财经资讯和自媒体内容,通过SaaS模式分发给客户,让信息获取及时可靠;白羽扇智能内容处理中心则进一步提高了内容分发的个性化和实时性,对投资标的、财经事件进行动态打标,优化客户体验.
4 个月前
通过与企业系统、API 和数据来源无缝连接,使生成式人工智能应用程序能够自动执行多步任务。