商汤科技毛航宇研究员：Agent间的协作与对齐

11 个月前专家 170

Agent 逐步开启了从执行单一任务到复杂决策的转变，从传统自然语言智能体进化成大语言模型智能体。底层模型能力正以日新月异的速度不断增强。近期绿洲与商汤科技大模型事业部，担任资深研究员的毛航宇老师共同讨论 Agent 的未来。作为拥有近 10 年多智能体及强化学习研究经历的毛航宇老师，他所参与的 TPTU（任务规划与工具使用）框架，以及对 One-Step Agent 与 Sequential Agent 的创新设计，为绿洲近期对于 AI Alignment 研究以及 Agent 应用思考带来了新的启发。

绿洲：能否简单帮我们介绍一下您过去的背景以及研究经历？

毛老师：我 2015-2020 年在北大博士期间主要做多智能体强化学习，到博四第一次接触用强化学习去训练 GPT 模型，那时候还不叫大语言模型，我们当时做了基于模型的任务型对话设置，比如打车、医院类的任务，后来关注到了自然语言处理，开始做 NLP Agent。同年 Transformer 爆火，后来 OpenAI 也基于强化学习推出了 ChatGPT，所以从博四到现在，我的部分研究核心转到了 NLP Agent 之上。

绿洲：大模型从传统自然语言智能体（NLP Agent）到大语言模型智能体（LLM-based Agent）经历了什么样的变化？

毛老师：我们从深度学习到 Transformer 阶段的 NLP Agent 看到了非常震惊的变化，当时有很多网络 NPC 游戏都基于深度学习智能体之上，到现在来看是非常浅的网络，用基层的网络就能控制一个虚拟的智能体，完成游戏中各种小游戏，包括 AlphaGo 等能够击败世界冠军也是同样的原理。但我们发现深度学习时代的 Agent 很难做通用，一个 Agent 只能解决一类问题，且实际上有很多细节问题很难执行。

到了大模型时期的 Agent，底层 GPT 提供的强大的泛化能力，能够具备所谓的场景中的世界模型（World Model）理解能力，普通的 Agent 能够完成非常多的任务，这个时候我感觉它类似于 2015 年的深度Q网络（DQN，Deep Q-Network）的盛况。后来基于世界模型，只要用户提供一些简单的提示词就能解决各种各样的问题，当时我就立即转到了 NLP 领域的 Agent 进行研究，我认为这代表着未来和更有潜力的 Agent 发展。

绿洲：在多智能体强化学习研究中，您觉得 MARL 本质上在解决什么样的问题？

毛老师：MARL 本质解决了什么问题是非常难定义的，MARL 是一个非常大的框架，主要解决智能体之间的交互问题，涉及到合作、竞争、既合作又竞争的场景。我目前研究的强化学习可分为传统马尔可夫决策过程（MDP）和分布式马尔可夫决策过程（Dec-MDP，Decentralized MDP），后者是多个智能体，既分散又能够实现部分观测的建模方式。Agent System 的求解非常复杂，所以我在解决多智能体交互场景下会选择合作场景，合作场景 Agent 的任务目标更一致。

绿洲：能否帮我们解释一下，当时做 TPTU 架构专注于规划与工具使用的原因？

毛老师：这个过程很有意思，OpenAI 当时做了非常多前期铺垫工作，其中有代表性的是 2023 年 3 月份的时候，官方发布了一个叫 Plugins 的插件，核心在于工具调用，他们当时保留了自己的 Plugins 插件，包括代码解读器（Code Interpreter）、外部搜索等，我们当时还加了三个功能比较通用的工具，包括Python、语言执行等。那时候我们就有概念了，我们知道大概率未来 Agent 的工具使用会以 API 形式进行调用，后来针对这个也发了论文。另外我们内部也有很多真实的工作系统，很多关键的 API 可以被作为细颗粒度工具进行调用。

做任务规划的核心原因是从强化学习的角度，解决真实的问题需要多步决策，很难一步把问题解决。我们当时也对标了 OpenAI 官方做法，通过自然语言描述去拆分子问题，最后我们形成了我们任务规划的流程。

绿洲：能否帮我们再具体介绍 One-Step Agent 与 Sequential Agent 的框架设立思路？

毛老师：当时起的 One-Step Agent 其实叫法不准确，One-Step Agent 能够快速生成子问题一、二、三，所以叫 One-Shot Agent 会更好。另外做了子任务拆分之后，第一步只做生成，第二个子问题会将第一个子问题的答案同样输入，这样既参考用户原始的问题和答案，又能在第二个问题中选择更好的子工具来进行解决，这样能够将之前的经验全部学习到新的任务步骤解决中，更好地进行下一步的子问题工具调用，其中的实现方式利用提示词的 In-Context Learning 进行学习。

绿洲：当前 Agent 规划与工具使用的不同能力缺点，未来将有什么办法改进？

毛老师：目前我们在 TPTU v2 中已经有一部分的改进，首先我们认为 TPTU 架构在 Agent 框架已经有基础的规划和工具调用能力之后，能够更好地提升它的能力。第一我们解决了如何在多个工具中进行召回的问题，叫作 API Retriever 的工具；第二我们在筛选好的 API 的过程中，更好地提升 Agent 语义描述能力，能够在某个任务发生之后更准确地调用某个 API；第三我们为 Agent 提供了案例学习，让 Agent 能够更好地解决某些未知任务。

在 API Retriever 工具中，其实我们面临了非常多的实际挑战，例如训练数据集如何生成，训练如何加速，训练小规模如何降本增效等，在工具初筛环节，API Retriever 非常高效。

绿洲：TPTU 最终能在哪几个应用空间更好地应用？

毛老师：应用空间不一定非得到具体某个场景，例如安防、政务等，反正商家内部使用可能特别多，比如一个 B 端系统内本身就有非常多 API，如果你想调用其中常用的 10%，这种就特别适合大语言模型来做，To C 端例如个人助手也是可以大规模应用的。

绿洲：底层模型能力不断地增强，对于 Agent 有什么样的能力提升？

毛老师：我认为核心要加强 Agent 的底层能力，我的经验是需要在垂域上做微调，通用大语言模型很难理解业务逻辑。目前国外普遍相信通用的 AGI，国内普遍相信垂域的 AGI，我更想做一个垂域的 AGI，背后的原因是大语言模型的通用能力还不强，考虑 PMF 的因素下，我想把应用能力约束到语言模型能力边界之内。

绿洲：您研究强化学习这么多年，如何看到 PPO 和 DPO 目前的发展态势？

毛老师：强化学习本身已经非常老了，PPO 以及孪生兄弟 TRPO 都是 2015 年和 2017 年的工作，强化学习本身技术发展其实是非常慢的。在大模型的强化学习领域，我们也在探索是否 PPO-based 的在线或者 On Policy 微调大语言模型效果最好。DPO 是给定了数据集之后进行优化，奖励模型以及策略在同时优化，实际上不像强化学习优化，而更像 SFT 监督微调的方式，目前闭源的微调方式是 PPO，开源的微调方式是 DPO。

然而目前大家觉得 DPO 要达到 PPO 的优化效果，必须模仿 PPO 的 On Policy，也就是必须达到 PPO 的在线学习（Online Learning）或者交互式策略（Interactive PPO）来进行性能提升。这个和人学习的过程是一样的，人一直是根据当前的情况进行微调，而不是根据一定时间之前的情况进行学习。

绿洲：能不能帮我们解释一下大模型本身缺陷也能作为功能实用的原理？

毛老师：理科生的严肃场景，Hallucination 是非常大的痛点。但对于文科生，比如我们需要进行想象，生成一些多模态的内容、小说、图像，Hallucination 其实是一个非常不错的优势，能够产生更丰富的想象力。

绿洲：能否帮我们简单介绍大规模智能体应用（Large Scale Agent）的工作？

毛老师：Agent 能解决的最重要的任务其实就是决策推理类任务，或者说具备反思性的任务。未来真实的世界由多智能体构成，做大规模多智能体研究，在不考虑任何成本的情况下是非常有潜力的研究方向。另外多智能体的推理速度现在也是问题，比如强化学习里的探索和利用，在生成过程中是完全不一样的，很多 Agent 的探索和利用代价非常大，我们怎么降低代价，其实底层是做了一些框架设计的工作的，我们做了一个集中标准（Centralized Critics），在 Critics 数量变少之后，一个负责探索一个负责利用，能够更好地解决单个问题。最后如何平衡探索和利用也是非常关键的点，我们做了第三个 Agent，也就是把探索和利用最终总结为 3 个 Agent 的交互，这提供了一个思考的维度，表达了我们怎么样思考 Large Scale Agent 以及 MARL 的实现方式。

文章来源：绿洲资本Vitalbridge