您所在的位置: 首页- 新闻公告- 学院新闻-

学院新闻

人大高瓴"人工智能+"成果系列 | DeepAgent:能自己找工具的通用推理智能体
日期:2025-11-03访问量:

引言:能自己找工具的通用推理智能体

头图2.png

大型推理模型(LRMs)虽然在复杂问题求解中展现出强大能力,但现实任务往往需要借助外部工具并进行长期交互。现有智能体框架大多遵循预定义的工作流程,如同按照剧本演出的演员,缺乏自主性和临场应变能力。

为此,来自中国人民大学高瓴人工智能学院文继荣、窦志成团队与小红书等机构的研究者提出了 DeepAgent —— 一个端到端的深度推理智能体,能够在单一连贯的推理过程中自主思考、发现工具并执行动作。

它颠覆了传统智能体的预定义工作流,将思考、工具发现与执行全部融合在一个统自主的推理进程中。通过引入自主记忆折叠机制和端到端强化学习训练方法ToolPO,DeepAgent在8个基准测试中持续超越基线方法,在标注工具和开放集工具检索场景下均表现出色。这项工作为构建更通用、更强大的真实世界智能体迈出了重要一步。

Paper:

https://arxiv.org/abs/2510.21618

Github:

https://github.com/RUC-NLPIR/DeepAgent

Demo演示:你的超强研究助手!

通用智能体任务:16,000+ RapidAPI工具库

DeepAgent是一个具备可扩展工具集的推理智能体,能够从超过16,000个RapidAPI中搜索并使用合适的工具,以端到端的智能体推理过程解决通用任务。(注:由于ToolBench中的部分API已不可用,此演示中的API响应由LLM模拟,以展示系统的正常功能。)

具身AI智能体:ALFWorld环境导航任务


DeepAgent 同样擅长基于导航的任务(如网页浏览、操作系统交互和具身AI),通过使用一套可插拔的多样化动作集(如移动、观察、拾取等)来完成复杂的环境交互任务。

深度研究任务:专业工具集加持


DeepAgent还可以作为强大的研究助手,配备了专门的工具来支持网络搜索、网页浏览、代码执行、视觉问答和文件处理等功能,帮助用户完成深度研究任务。

该研究首次实现了基于大语言模型的“先思考、后反应”生成范式,有效缓解了无提示条件下反应生成的模糊性与误差累积问题,为在线、无约束的多人生成场景提供了具备语义可解释性与动态适应能力的新一代解决方案,标志着人体交互运动生成进入“语义引导、分步推理”的新阶段。

研究动机:突破传统智能体的局限

大型推理模型(LRMs)如OpenAI-o1、DeepSeek-R1等通过"慢思考"过程在数学、编程和科学推理等复杂领域展现了卓越的问题求解能力。然而,现实世界的任务往往需要外部工具的支持和长期的环境交互才能完成。

然而,现有的智能体框架存在明显局限:(1)传统智能体遵循固定的"规划-执行-观察"循环,需要预先指定工具,每步只关注局部目标,缺乏全局视角和自主决策能力。(2)深度研究智能体虽然能在推理中调用工具,但通常局限于少量预定义工具(如网络搜索、代码执行),难以适应多样化的真实场景。

智能体框架对比

创新点:性能何以卓越?

为应对上述挑战,我们提出了 DeepAgent,一个能够在单一连贯的推理过程中,动态检索和调用工具来完成整个任务的端到端深度推理智能体。

核心特性

自主工具发现与调用:打破传统预定义工具的限制,在推理过程中动态从大规模工具集中检索和调用工具,完全释放推理模型的自主潜力。在ToolBench、Spotify等基准上。

自主记忆折叠机制:在思考过程中将先前的思考和交互历史压缩为结构化记忆,不仅提高效率,还为智能体提供"喘息"机会,防止陷入错误路径。

脑启发式记忆架构:采用三层记忆系统——情节记忆记录关键事件,工作记忆维护当前目标,工具记忆整合工具使用经验,确保记忆的稳定性和实用性。

ToolPO端到端强化学习:利用LLM模拟真实API,通过细粒度的信用分配,结合全局任务成功和局部工具调用奖励,实现高效稳定的训练。

DeepAgent框架总览

与传统智能体框架对比

DeepAgent与传统智能体框架有着本质区别:

传统工作流方法(ReAct、Plan-and-Solve):遵循固定的执行模式,每个生成步骤只关注即时目标,缺乏全局视角。

深度研究智能体(Search-o1、DeepResearcher):可以自主调用工具,但局限于少量研究导向的工具。

DeepAgent:完全由推理模型驱动,在连续推理中实现端到端任务执行。模型保持对整个任务的全局视角,不受特定孤立操作的约束,工具根据需要动态发现。

实验效果

我们在涵盖通用工具使用和下游应用的8个基准上全面评估DeepAgent,工具规模从数十个到超过16,000个真实世界API,任务类型包括多跳推理、具身AI、在线购物、复杂信息检索等。

核心发现:

端到端推理范式大幅超越传统工作流方法——在所有基准测试中持续领先,特别是在复杂的开放集场景中优势显著。

动态工具发现展现强大能力——能够从超大规模工具集中自主发现并调用合适工具,适应多样化真实场景。

达到同等规模模型的SOTA性能——在32B参数量级别上超越所有现有智能体方法。

ToolPO训练带来持续增益——端到端强化学习进一步提升任务成功率,验证了训练方法的有效性。

在八大基准测试中,DeepAgent在绝大多数任务上全面领先所有基线模型。

开放环境优势:在最具挑战的“开放工具检索”场景下(如ToolBench),其成功率达到64%,远超传统方法(如ReAct的47%),优势扩大了近一倍,证明了其动态工具发现的强大泛化能力。

长程任务优势:在ALFWorld、GAIA等长周期任务中,成功率超过91.8%,显著优于基线,证实了自主记忆机制的有效性。

通用工具使用任务的实验结果

下游应用的实验结果

结语

DeepAgent将思考、工具发现和执行统一到单一推理过程中,开创了端到端推理智能体的新范式。通过自主记忆折叠机制和ToolPO训练方法,DeepAgent在通用工具使用和下游应用任务中显著超越现有基线,特别是在需要动态工具发现的开放集场景中表现优异。这项工作为开发更通用、更强大的真实世界智能体开辟了新的途径。

参与该成果的研发人员:

人大高瓴人工智能学院:李晓熙,董冠霆,金佳杰,朱余韬,文继荣,窦志成

小红书:焦文祥,晋嘉睿,王以诺,王浩,陆远

更多“人工智能+”成果系列,敬请期待!

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox