近年来,大型语言模型 (LLM) 的功能改变了自然语言的处理和理解,取得了显著的里程碑。尽管取得了这些进步,但 LLM 在交互式环境中仍面临重大挑战,尤其是在需要多步推理的任务(如网络导航)中。目前依赖于静态语言数据集的训练方法在使这些模型能够进行动态现实世界的交互方面存在不足。
进入 Agent Q,这是 Agent 的一个重要里程碑,它结合了搜索、自我批评和强化学习,以创建可以计划和自我修复的最先进的自主 Web 代理。我们的突破性方法通过引入一种新的学习和推理框架来解决以前LLM训练技术的局限性,以实现自主网络导航。
当前方法的问题
目前的方法,例如对精心策划的专家演示进行监督微调,由于复合错误和有限的勘探数据,往往无法完成代理多步骤任务。这些方法产生的策略次优,特别是在需要复杂决策和适应性学习的动态环境中。
Agent Q Research:解释
Agent Q 通过将引导蒙特卡洛树搜索 (MCTS) 和 AI 自我批评与迭代微调相结合进行创新,利用强化学习进行人类反馈 (RLFH) 方法,如直接偏好优化 (DPO) 算法。这种方法使LLM智能体能够从成功和不成功的轨迹中学习,从而增强了他们在多步推理任务中的泛化能力。
Agent Q 的关键组件:
使用 MCTS 进行引导搜索:这种技术通过探索不同的操作和网页来自主生成数据,平衡探索和利用。MCTS利用高采样温度和多样化的提示扩大了动作空间,确保了多样化和最优的轨迹收集。
人工智能自我批评:在每一步,基于人工智能的自我批评都会提供有价值的反馈,从而完善代理人的决策过程。这种阶梯级反馈对于长期任务至关重要,因为在长期任务中,稀疏的信号往往会导致学习困难。
直接偏好优化:DPO 算法通过从 MCTS 生成的数据构建偏好对来微调模型。这种偏离策略的训练方法使模型能够有效地从聚合数据集中学习,包括在搜索过程中探索的次优分支,从而提高复杂环境中的成功率。
真实世界验证
在 Open Table 上的真实预订实验中,MultiOn 的代理将 LLaMa-3 模型的零样本性能从 18.6% 的成功率大幅提高到 81.7%,仅在一天的自主数据收集后就提高了 340%,在线搜索后进一步提高到 95.4%。这些结果凸显了我们的方法在自主网络代理改进方面的效率和能力。
MultiOn 的 Agent Q 为自主 Web 代理设定了一个新的重要里程碑,它结合了先进的搜索技术、AI 自我批评和强化学习来克服当前的限制,代表了自主代理能力的重大飞跃。随着我们不断完善这些方法并解决相关挑战,越来越接近我们产品的全面发布,现实世界中智能自主 Web 代理的未来看起来很有希望。

16 小时前
命令优先,而非图形界面。

3 天前
原名 Clawdbot 的灵感来自 Claude 模型加载时出现的那个“Clawd”小龙虾/爪子吉祥物。

3 天前
奥地利最知名的独立开发者 Steinberger 是全球最热的“一人公司”/“vibe-coding”代表人物之一。

10 个月前
根据《Nature》最新发表的研究,非营利研究机构METR发现了一项被称为“智能体摩尔定律”的规律,即AI智能体(Agent)在完成长期任务方面的能力每7个月翻一番。这一发现揭示了AI在任务完成时间跨度上的指数级增长趋势,并提出了“50%-任务完成时间跨度”这一新指标来衡量AI的能力变化。 核心发现 能力翻倍周期:自2019年以来,AI智能体完成任务的时间跨度每7个月翻一番。这意味着,如果2019年AI完成某项任务所需时间对应人类需要10分钟,那么7个月后,这一时间将缩短至20分钟。 加速趋势:2024年,AI能力的增长速度进一步加快,部分最新模型的能力每3个月翻一番。 未来预测:按照这一趋势,预计5年后(即2030年左右),AI将能够完成许多当前需要人类花费一个月时间才能完成的任务。 研究方法 METR团队通过以下步骤验证了这一规律: 任务设计:设计了170个多样化任务,涵盖软件工程、机器学习、网络安全等领域,并测量人类专家完成这些任务所需的时间,建立“人类基准线”。 指标引入:提出了“50%-任务完成时间跨度”指标,即AI在50%成功率下完成任务的时间长度。这一指标对数据分布的微小变化具有鲁棒性。 模型评估:评估了2019年至2025年间发布的13个前沿AI模型(如GPT系列、Sonnet 3.7等),通过逻辑回归分析计算每个模型的时间跨度。 验证与外部实验 为了验证结果的可靠性,研究团队进行了多项外部实验,包括: 回溯预测:使用2023-2025年数据验证趋势一致性。 任务混乱度分析:评估任务复杂性对AI性能的影响,发现AI在复杂任务上的提升速度与简单任务相似。 基准测试:在SWE-bench等数据集上验证了类似的指数增长趋势。 意义与影响 技术进步:这一发现标志着AI在执行长期任务能力上的显著进步,可能推动AI在软件开发、研究等领域的广泛应用。 劳动力市场影响:AI能力的快速提升可能对劳动力市场产生深远影响,未来或替代部分人类工作,尤其是重复性和耗时任务。 社会挑战:研究提醒社会各界需关注AI技术进步带来的就业和经济挑战,并提前制定应对策略。 未来展望 METR团队预测,按照当前趋势,AI可能在2028年11月达到一个月的任务时间跨度,保守估计则在2031年2月实现。尽管研究存在任务局限性和未来不确定性,但团队确信AI能力每年有1~4倍的增长趋势。 这项研究为AI技术的发展提供了新的量化标准,同时也引发了对AI未来应用和影响的深入思考。

10 个月前
阿里推出新夸克,集成AI对话、深度搜索、深度执行等功能,标志着其从搜索引擎向AI Agent的转型。 新夸克接入通义系列模型,用户规模超2亿,DAU达3430万,位居AI应用榜首。

10 个月前
2025 年 3 月 12 日消息,OpenAI 发布 Agent 工具包,推出一组新的 API 和工具以简化 Agent 应用程序开发,包括新的 Responses API、网络搜索、文件搜索、计算机使用工具和 Agents SDK 等,还计划在接下来的几周和几个月内发布其他工具和功能。

11 个月前
Replit Agent 是由 Replit 2024年9月推出的一款基于人工智能的编程工具,旨在通过自然语言提示帮助用户自动构建应用程序。它覆盖了从代码编写、开发环境配置到调试和部署的整个软件开发流程,极大地简化了开发过程,尤其适合从零开始构建 Web 应用程序原型。以下是关于 Replit Agent 的详细介绍: 1. 核心功能 Replit Agent 的主要功能包括: 自然语言生成代码:用户可以通过输入详细的自然语言提示(如“创建一个待办事项应用”),Replit Agent 会自动选择适当的编程语言、框架和技术栈,并生成代码原型。这一功能大大降低了编程门槛,即使是没有编程经验的用户也能快速上手。 开发环境配置:Replit Agent 能够自动设置开发环境,安装所需的依赖项,避免了繁琐的手动配置过程。 项目协作助手:在项目构建过程中,用户可以与 Replit Agent 互动,提供 API 密钥、反馈或方向指导,Agent 会根据这些信息调整和优化项目。 快速原型开发:Replit Agent 特别擅长从零到一构建 Web 应用程序原型,能够在几分钟内生成可交互的应用原型,例如创建一个类似 Wordle 的小游戏或一个优惠券生成器。 迭代与测试:用户可以对生成的开发计划进行修改、删除或重新生成,并实时跟踪开发进度,进行应用的测试和调试。 跨平台支持:除了 Web 端,Replit Agent 还支持通过 Replit 移动应用使用,方便用户随时随地进行开发。 部署支持:项目完成后,用户可以直接通过 Replit 的部署功能将应用程序上线,实现开发与部署的无缝对接。 2. 适用场景 Replit Agent 适用于多种开发场景: 快速原型制作:初创企业或个人开发者可以利用 Replit Agent 快速生成产品原型,验证创意可行性。 个性化应用开发:从简单的优惠券生成器到复杂的 3D 游戏,Replit Agent 都能在短时间内完成开发并部署上线。 教育领域:Replit Agent 为编程教育提供了直观的工具,学生可以通过自然语言输入快速看到代码生成效果,降低学习门槛。 自动化工作流:用户可以用 Replit Agent 替代昂贵的自动化工具(如 Zapier),构建自定义的工作流解决方案。 3. 技术特点 自然语言接口:Replit Agent 支持自然语言输入,用户无需掌握复杂的编程语法即可启动项目。 多语言支持:支持多种主流编程语言,如 JavaScript、Python、Node.js 等,能够满足不同类型的开发需求。 自动化程度高:从环境配置到代码生成再到部署,Replit Agent 能够自动化处理整个开发流程,显著提升开发效率。 沙盒环境:提供安全的代码评估环境,支持新功能的测试和验证。 4. 使用方式 Replit Agent 目前仅对 Replit Core 和 Teams 订阅用户开放早期访问。使用步骤如下: 登录 Replit 账号:确保已订阅 Replit Core 或 Teams 计划。 创建项目:在 Replit 主页或移动应用中输入自然语言提示,描述想要构建的应用。 生成原型:Replit Agent 会根据提示自动生成代码和开发计划。 迭代与测试:用户可以修改开发计划,跟踪进度,并进行测试。 部署应用:完成开发后,通过 Replit 的部署功能将应用上线。 5. 优势与不足 优势: 降低开发门槛:即使是初学者也能通过自然语言提示快速构建应用。 快速开发:从想法到部署只需几分钟,适合快速验证创意。 全流程自动化:覆盖从环境配置到部署的整个开发流程,节省时间和精力。 不足: 访问受限:目前仅对 Replit Core 和 Teams 用户开放,普通用户无法使用。 功能局限性:对于复杂项目或高度定制化的需求,Replit Agent 可能表现不足。

1 年前
腾讯两大智能体平台:腾讯元器和 AppAgent。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI