Agent Q:具有规划和自我修复能力的下一代AI代理

8 个月前 AI技术 168

近年来,大型语言模型 (LLM) 的功能改变了自然语言的处理和理解,取得了显著的里程碑。尽管取得了这些进步,但 LLM 在交互式环境中仍面临重大挑战,尤其是在需要多步推理的任务(如网络导航)中。目前依赖于静态语言数据集的训练方法在使这些模型能够进行动态现实世界的交互方面存在不足。

进入 Agent Q,这是 Agent 的一个重要里程碑,它结合了搜索、自我批评和强化学习,以创建可以计划和自我修复的最先进的自主 Web 代理。我们的突破性方法通过引入一种新的学习和推理框架来解决以前LLM训练技术的局限性,以实现自主网络导航。

当前方法的问题

目前的方法,例如对精心策划的专家演示进行监督微调,由于复合错误和有限的勘探数据,往往无法完成代理多步骤任务。这些方法产生的策略次优,特别是在需要复杂决策和适应性学习的动态环境中。

Agent Q Research:解释

Agent Q 通过将引导蒙特卡洛树搜索 (MCTS) 和 AI 自我批评与迭代微调相结合进行创新,利用强化学习进行人类反馈 (RLFH) 方法,如直接偏好优化 (DPO) 算法。这种方法使LLM智能体能够从成功和不成功的轨迹中学习,从而增强了他们在多步推理任务中的泛化能力。

Agent Q 的关键组件:

  • 使用 MCTS 进行引导搜索:这种技术通过探索不同的操作和网页来自主生成数据,平衡探索和利用。MCTS利用高采样温度和多样化的提示扩大了动作空间,确保了多样化和最优的轨迹收集。

  • 人工智能自我批评:在每一步,基于人工智能的自我批评都会提供有价值的反馈,从而完善代理人的决策过程。这种阶梯级反馈对于长期任务至关重要,因为在长期任务中,稀疏的信号往往会导致学习困难。

  • 直接偏好优化:DPO 算法通过从 MCTS 生成的数据构建偏好对来微调模型。这种偏离策略的训练方法使模型能够有效地从聚合数据集中学习,包括在搜索过程中探索的次优分支,从而提高复杂环境中的成功率。

真实世界验证

在 Open Table 上的真实预订实验中,MultiOn 的代理将 LLaMa-3 模型的零样本性能从 18.6% 的成功率大幅提高到 81.7%,仅在一天的自主数据收集后就提高了 340%,在线搜索后进一步提高到 95.4%。这些结果凸显了我们的方法在自主网络代理改进方面的效率和能力。

MultiOn 的 Agent Q 为自主 Web 代理设定了一个新的重要里程碑,它结合了先进的搜索技术、AI 自我批评和强化学习来克服当前的限制,代表了自主代理能力的重大飞跃。随着我们不断完善这些方法并解决相关挑战,越来越接近我们产品的全面发布,现实世界中智能自主 Web 代理的未来看起来很有希望。

相关资讯