告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗

图片[1]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 

Talk is cheap, show me the code.

在 MBPP+HumanEval+ 这类静态代码评测集上,大模型们早已杀红了眼,分数卷到了 90+,个个都是满分做题家。

 

但我们都清楚,在封闭环境里做对一道选择题,和在开放世界里解决一个复杂问题,完全是两个维度的能力。

 

如果把这些模型从试卷里拽出来,扔进一个没有标准答案、规则会变、对手也会变的动态环境,它们不仅要能“说”,还得会“做”,甚至得写出代码来相互博弈,它们还能活过第一集吗?

 

为了打破静态刷榜的天花板,AGI-Eval 社区联合上海交通大学美团,共同推出了 CATArena (Code Agent Tournament Arena)

 

这不再是一场考试,而是一个专为 AI 智能体设计的、残酷的迭代式竞技场。在这里,模型用代码当武器,在对局里赢,靠复盘对手代码继续进化。

 

 

图片[2]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News

 

 

 
图片[3]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News

代码即武器,拒绝背题库

 

CATArena 与传统评测最大的不同,在于它构建了一个“对战+学习”的动态闭环。

 

首先是残酷的对战机制。在这里,模型不能只靠“嘴炮”输出文本,它们必须编写可执行的 Python 代码来驱动 Agent 参与比赛(即 Strategy Coding)。

 

这一步非常关键,它把评测维度从语言表现拉回了更残酷的现实——逻辑能不能跑通、策略能不能落地、实现有没有 bug

 

目前的竞技场涵盖了四大经典博弈场景:需要计算赔率与心理博弈的德州扑克、考验空间布局的五子棋,以及国际象棋桥牌

 

为了彻底杜绝模型通过背棋谱作弊,CATArena 在标准规则之外,引入了大量的变体(Variants)机制

 

就像最近爆火的“技能五子棋”一样,平台引入了禁手规则和双三限制,德州扑克采用了换牌规则,国际象棋则引入了 Chess960。

 

面对这些训练数据中极为罕见的规则,AI 无法依赖记忆,必须现场推理,写出鲁棒的逻辑代码。

 

 

图片[14]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News

 图1. CATArena 游戏类型及变体规则一览

这种实战评测的规模远超常规 demo。在首届锦标赛中,仅德州扑克一个项目,平台就组织了超过 300 场激烈对局,每场包含 60 手牌,总计上演了近 18,000 次下注、跟注、加注乃至诈唬的巅峰博弈。

 

图片[24]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图2. 德州扑克对战界面,展示了 AI 智能体在进行加注、跟注等决策时的实时状态

在 CATArena 的回放系统中,我们可以通过筹码变化折线图(Chip Timeline)直观地看到 AI 的博弈风格。

 

不同于枯燥的胜率数字,资金曲线的波动直接暴露了模型的决策倾向:有的极其激进,曲线大起大落。有的则稳健保守,步步为营。

 

 

图片[25]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图3. 筹码变化折线图:直观记录了各模型在对局中的资金起伏与激进程度

 

图片[26]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News

逆袭与进化的秘密

经过数千场的高强度淘汰赛,最终的榜单结果打破了我们对大模型能力的固有印象

 

 

图片[37]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图4. CATArena 综合能力排行榜

首先是国产模型的强势表现。在策略编码(Strategy Coding)这一实战维度上,Qwen 3 Coder 凭借稳健的代码逻辑,与海外霸主 GPT-5 在五子棋与德州扑克项目中共同登顶。

 

在代码生成与逻辑执行层面,国产第一梯队模型已具备世界级竞争力。

 

相比之下,备受推崇的 Claude 系列(如 Claude-4-Sonnet)在初赛阶段的表现却并不理想,排名一度处于中游。

 

Claude 的滑铁卢与随后的逆袭,恰恰揭示了 CATArena 另一大核心机制——迭代式伙伴学习(Iterative Peer-Learning)

 

传统的评测往往是一次性的静态快照,但 CATArena 是一个动态进化的过程:

  • Round 1:所有 AI 闭卷考试,独立编写初始策略代码;

  • Round n:平台公开上一轮所有对手的策略代码和对局战报。AI 被允许阅读对手的代码,复盘失败的案例,从而针对性地修补 bug、优化算法。

图片[38]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图5. 核心评估框架:智能体通过阅读对手的公开代码和战报,实现策略的迭代进化

正是在这个机制下,Claude 上演了教科书般的逆袭。虽然初始策略平平,但在后续轮次中,Claude 展现出了恐怖的学习能力(Learning Ability)

通过分析战报和对手代码,它的胜率曲线在 Round 2 和 Round 3 出现了陡峭爬升,完成逆风翻盘

图片[39]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图6. Claude-code 的胜率随轮次显著上升,证明了其具备从过往对局中快速学习并优化策略的能力

后台的工具调用记录清晰地还原了这一过程。数据记录显示,Claude 在开发过程中频繁调用了 Read 工具去读取 opponent_code (对手代码),并使用 Grep 命令去定位胜率字段与关键策略分支。

 

这种从环境反馈和对手行为中快速迭代的能力,或许比单纯的推理能力更接近 AGI 的本质。

 

 

图片[40]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图7. Claude 工具使用记录表:记录了其主动读取对手代码的关键操作

然而,进化是有代价的,但不能是无效内卷。

首轮开发成本表五子棋榜单结合来看,Claude-4-Sonnet 陷入了尴尬的高耗低能。它在起步阶段就消耗了全场最高的 82 万 token,后续迭代成本依然居高不下,最终却仅排在第 9 名

反观 GPT-5,不仅在首轮开发中仅消耗了 39 万 Token(不到 Claude 的一半),在后续迭代中也保持了极低的算力占用,最终稳居榜单冠军

这组数据无情揭示了算力堆不出智能,代码效率才是硬道理对于关注落地成本的企业而言,GPT-5 这种“少吃草、多跑路”的模型,展现了极致的效能比。

 

 

图片[41]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 8. Token 成本统计表
图片[42]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News

“想得好”不等于“做得对”

为了科学量化这些复杂的博弈表现,CATArena 不用单一分数,而是建立了一套涵盖三大维度的评估体系:

 

1. 策略编码 (Strategy Coding, S.C.):考察将战术转化为鲁棒代码的基础能力;

 

2. 全局学习 (Global Learning, G.L.):考察从历史数据和对手策略中汲取经验的进化能力;

 

3. 泛化能力 (Generalization Ability, G.A.):考察面对变种规则(如异形棋盘)时的举一反三能力。

 

 

图片[53]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图9. 评估维度拆解:从三个维度对智能体进行综合评分

基于这套体系,研究团队揭示了一个反直觉的现象。大模型想到的策略,和写出来的代码,往往是两码事。

 

在国际象棋残局测试中,当让 GPT-5 直接作为玩家(LLM-Player)进行下一步预测时,它倾向于直觉性的走法(如下图蓝色箭头)。

 

但当它作为程序员编写代码(Code Agent)来决策时,代码经过全局计算后,往往会选择更优的解法(绿色箭头,Rg4# 一步杀)。

 

图片[54]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图10. 国际象棋残局分析,代码模式算出了比直觉模式更优的解法

这一发现证实,目前的大模型虽然推理直觉很强,但将其转化为工具/代码执行时存在明显差异。而 Code Agent 模式,恰恰能通过严谨的代码逻辑弥补大模型直觉的局限性。

 

图片[55]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图11. 热力图显示同一模型的代码决策与直接推理一致性较低

 

图片[56]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News

数据透明化与可视化复盘

CATArena 提供了一套完整的可视化回放系统,直观展示了不同智能体设计的代码究竟是如何博弈的。

 

在对局回放界面,右侧的 Thought Time(思考时间)面板非常值得关注。

 

在五子棋对局中,我们观察到某些 AI 的代码效率极高,仅需 0.003 秒即可完成落子,而另一些 AI 则陷入了长时间思考。这种执行层面的差异,在静态文本评测中是无法感知的。

 

 

图片[67]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 图12. 五子棋回放界面:右侧实时显示 Thought Time,直观反映代码执行效率

而对于研究者而言,CATArena 最核心的价值在于其彻底的数据透明性

 

平台开放了深度的数据获取权限。点击界面上的"Game Data",用户可以直接下载当前对局的 JSON 结构化日志,其中详细记录了每一个 Action 的时间戳、决策细节和状态变化。

 

这是一个现成的、高质量的、包含顶尖模型博弈数据的科研级数据集。开发者可以利用这些数据训练针对特定策略的对抗模型,或者深入分析不同模型在极端情况下的行为边界。

 

 

图片[68]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News
 
结语

 

CATArena 的出现,标志着 AI 评测从“做题时代”迈向了“实战时代”。

 

未来,该平台计划开放更为复杂的机器学习 Track(让 AI 自主生成数据并训练小模型)和多语言 Track

 

在这个没有标准答案的竞技场里,没有永远的王者,只有更快的进化速度。

 

目前,所有的榜单、技术报告及对局回放数据,均已完全公开。

 

 

 

传送门在此

👇

项目网址:

https://catarena.ai/replays

代码仓库:

https://github.com/AGI-Eval-Official/CATArena

论文链接:

https://arxiv.org/abs/2510.26852

 

 

🔍

 

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

 

·
图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News

 

图片[78]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News图片[4]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News

原文链接:https://mp.weixin.qq.com/s/3puN6fPg0nitR2MZYOStlg

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容