清华开源!这个 GitHub 项目重新定义端侧 Agent 智能体 。

清华大学中国人民大学面壁智能 OpenBMB 开源社区联合开源了一个智能体,叫做 AgentCPM,它重新定义了端侧智能体天花板。

AgentCPM 最亮眼的是以小博大。

图片[1]-清华开源!这个 GitHub 项目重新定义端侧 Agent 智能体 。-AI Express News

 4B 参数的模型,在复杂的长程深度探索任务上,实现了超越同尺寸 SOTA、甚至比肩 30B 级和部分闭源大模型的性能。

开源后获得广泛的关注,目前已经登上 HuggingFace 的热榜了。
图片[2]-清华开源!这个 GitHub 项目重新定义端侧 Agent 智能体 。-AI Express News

01

开源项目简介

AgentCPM-Explore 是这个开源项目的核心模型,专注于解决长周期、多步交互的复杂任务。

它是基于 Qwen3-4B-thinking-2507 进行深度后训练。是首个具备 GAIA、Xbench、Browsercomp 等 8 个高难度智能体任务处理能力的 4B 端侧模型。

在多个榜单上超越了 8B 级 SOTA 模型,甚至在 Xbench-DeepResearch 上表现优于 OpenAI-o3 和 Claude-3.5-Sonnet。

图片

牛的是,它支持最高超过 100 轮的不重复且稳定的环境交互,能够持续深度探索直至任务完成。

在允许重复尝试的情况下,能够解决 GAIA 文本任务中 95% 以上的题目。

而且,它不像其它的小模型死记硬背。

而是具备质疑工具、追求原始数据、灵活调整策略及执着寻找信源等特征的类人思考逻辑。

能够像经验丰富的人类研究员一样,通过主动核查、多源验证和战术变通高效解决复杂难题。

AgentCPM 不仅开源了模型权重,还开源了从 Base 模型进化到 SOTA 模型的全套基础设施,支持开发者复现、二开和私有化部署。

比如 AgentDock 工具沙盒统一管理调度平台,AgentRL 是极简高效的异步强化学习框架,还有 AgentToLeaP 智能体能力一键式评测平台。

02

如何使用

部署安装 AgentCPM-Explore 主要分为两个核心部分,先部署工具沙盒环境  AgentDock) ,然后是配置并运行智能体模型 AgentCPM-Explore。

① 克隆项目代码

git clone https://github.com/OpenBMB/AgentCPM.gitcd AgentCPM/AgentCPM-Explore

② 部署工具沙盒环境  AgentDock

这是关键一步,它为智能体提供了统一的工具调用服务。

1. 进入 AgentDock 目录:

cd AgentDock

2. 一键启动所有服务:

使用 docker-compose 命令启动管理面板、数据库和工具节点。

docker compose up -d

此命令会在后台启动所有必要的服务。您可以使用 docker ps 命令检查服务是否正常运行。

3. 验证部署:

工具沙盒默认运行在 http://localhost:8000。

您可以通过访问 http://localhost:8000/health 来检查服务是否健康。如果返回 JSON 格式的健康状态信息,则说明部署成功。

③ 配置并运行智能体模型 AgentCPM-Explore

文档推荐在预置的 Docker 评测环境中进行操作,以避免环境依赖问题。

1. 拉取并进入预置环境:

# 确保当前在 AgentCPM-Explore 项目根目录# 拉取预置的 Docker 镜像docker pull yuyangfu/agenttoleap-eval:v1.0# 启动一个容器,并将当前目录映射到容器内docker run -dit --name agenttoleap --gpus all --network host -v $(pwd):/workspace yuyangfu/agenttoleap-eval:v1.0# 进入容器docker exec -it agenttoleap /bin/bash# 在容器内进入项目工作目录cd /workspace

2. 配置运行参数:

编辑项目根目录下的 quickstart.py 文件,找到 [USER CONFIGURATION] 部分,根据你的需求配置一下。

图片[4]-清华开源!这个 GitHub 项目重新定义端侧 Agent 智能体 。-AI Express News

3. 运行智能体任务:

完成配置后,运行 QuickStart 脚本。

python quickstart.py

脚本会自动执行您定义的任务,展示智能体的完整交互过程,比如思考、工具调用、结果生成。

④ 查看运行结果

任务执行完成后,结果会保存在 outputs/quickstart_results/ 目录下。

您可以查看其中的 dialog.json 文件,它记录了完整的任务执行轨迹,包括智能体的思考链、每次工具调用的请求与响应以及最终答案。

03

点击下方卡片,关注逛逛 GitHub

这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了:

图片

<原文链接:https://mp.weixin.qq.com/s/RpktoWmI400NloJVpv0pnw

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容