![图片[1]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251208235640308-1765209400-bd9bc6838679ed2ca2d7558267214b8d.gif)
Talk is cheap, show me the code.
在 MBPP+、HumanEval+ 这类静态代码评测集上,大模型们早已杀红了眼,分数卷到了 90+,个个都是满分做题家。
但我们都清楚,在封闭环境里做对一道选择题,和在开放世界里解决一个复杂问题,完全是两个维度的能力。
如果把这些模型从试卷里拽出来,扔进一个没有标准答案、规则会变、对手也会变的动态环境,它们不仅要能“说”,还得会“做”,甚至得写出代码来相互博弈,它们还能活过第一集吗?
为了打破静态刷榜的天花板,AGI-Eval 社区联合上海交通大学、美团,共同推出了 CATArena (Code Agent Tournament Arena)。
这不再是一场考试,而是一个专为 AI 智能体设计的、残酷的迭代式竞技场。在这里,模型用代码当武器,在对局里赢,靠复盘对手代码继续进化。
![图片[2]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000739529-1766592459-dc2e14bf4dd3916ec6e9f123a9c02e67.png)
![图片[3]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251216182813636-1765880893-64eee74568d1b0ec06754200fb3eab1a-scaled.png)
代码即武器,拒绝背题库
CATArena 与传统评测最大的不同,在于它构建了一个“对战+学习”的动态闭环。
首先是残酷的对战机制。在这里,模型不能只靠“嘴炮”输出文本,它们必须编写可执行的 Python 代码来驱动 Agent 参与比赛(即 Strategy Coding)。
这一步非常关键,它把评测维度从语言表现拉回了更残酷的现实——逻辑能不能跑通、策略能不能落地、实现有没有 bug。
目前的竞技场涵盖了四大经典博弈场景:需要计算赔率与心理博弈的德州扑克、考验空间布局的五子棋,以及国际象棋和桥牌。
为了彻底杜绝模型通过背棋谱作弊,CATArena 在标准规则之外,引入了大量的变体(Variants)机制。
就像最近爆火的“技能五子棋”一样,平台引入了禁手规则和双三限制,德州扑克采用了换牌规则,国际象棋则引入了 Chess960。
面对这些训练数据中极为罕见的规则,AI 无法依赖记忆,必须现场推理,写出鲁棒的逻辑代码。
![图片[14]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000740496-1766592460-f6e0cc3fb73e21a0cf8da758d31cb3d2.jpeg)
这种实战评测的规模远超常规 demo。在首届锦标赛中,仅德州扑克一个项目,平台就组织了超过 300 场激烈对局,每场包含 60 手牌,总计上演了近 18,000 次下注、跟注、加注乃至诈唬的巅峰博弈。
![图片[24]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000740220-1766592460-83970fd79afc590eb0760b25f7054355.png)
在 CATArena 的回放系统中,我们可以通过筹码变化折线图(Chip Timeline)直观地看到 AI 的博弈风格。
不同于枯燥的胜率数字,资金曲线的波动直接暴露了模型的决策倾向:有的极其激进,曲线大起大落。有的则稳健保守,步步为营。
![图片[25]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000741852-1766592461-09efff650007bf76b6db3bdf1bae38b2.png)
![图片[26]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251216182816328-1765880896-04606631342c154e01b1096c4f4bc4f5-scaled.png)
逆袭与进化的秘密
经过数千场的高强度淘汰赛,最终的榜单结果打破了我们对大模型能力的固有印象。
![图片[37]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000742794-1766592462-7b9b2c816ff6f180549013ac31a37304.png)
首先是国产模型的强势表现。在策略编码(Strategy Coding)这一实战维度上,Qwen 3 Coder 凭借稳健的代码逻辑,与海外霸主 GPT-5 在五子棋与德州扑克项目中共同登顶。
在代码生成与逻辑执行层面,国产第一梯队模型已具备世界级竞争力。
相比之下,备受推崇的 Claude 系列(如 Claude-4-Sonnet)在初赛阶段的表现却并不理想,排名一度处于中游。
Claude 的滑铁卢与随后的逆袭,恰恰揭示了 CATArena 另一大核心机制——迭代式伙伴学习(Iterative Peer-Learning)。
传统的评测往往是一次性的静态快照,但 CATArena 是一个动态进化的过程:
-
Round 1:所有 AI 闭卷考试,独立编写初始策略代码;
-
Round n:平台公开上一轮所有对手的策略代码和对局战报。AI 被允许阅读对手的代码,复盘失败的案例,从而针对性地修补 bug、优化算法。
![图片[38]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000742645-1766592462-2f9a09886fdabb838b439469c298086e.png)
正是在这个机制下,Claude 上演了教科书般的逆袭。虽然初始策略平平,但在后续轮次中,Claude 展现出了恐怖的学习能力(Learning Ability)。
通过分析战报和对手代码,它的胜率曲线在 Round 2 和 Round 3 出现了陡峭爬升,完成逆风翻盘。
![图片[39]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000744746-1766592464-418429613e6b4625513bd285b00ef235.png)
后台的工具调用记录清晰地还原了这一过程。数据记录显示,Claude 在开发过程中频繁调用了 Read 工具去读取 opponent_code (对手代码),并使用 Grep 命令去定位胜率字段与关键策略分支。
这种从环境反馈和对手行为中快速迭代的能力,或许比单纯的推理能力更接近 AGI 的本质。
![图片[40]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000746561-1766592466-99748d6ce7612184bf560cfd0564e288.png)
然而,进化是有代价的,但不能是无效内卷。
将首轮开发成本表与五子棋榜单结合来看,Claude-4-Sonnet 陷入了尴尬的高耗低能。它在起步阶段就消耗了全场最高的 82 万 token,后续迭代成本依然居高不下,最终却仅排在第 9 名。
反观 GPT-5,不仅在首轮开发中仅消耗了 39 万 Token(不到 Claude 的一半),在后续迭代中也保持了极低的算力占用,最终稳居榜单冠军。
这组数据无情揭示了算力堆不出智能,代码效率才是硬道理。对于关注落地成本的企业而言,GPT-5 这种“少吃草、多跑路”的模型,展现了极致的效能比。
![图片[41]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000747604-1766592467-26261f4f159a0a76b1af0a6f7dba6224.jpeg)
![图片[42]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251216182818831-1765880898-cd984cb2fb1b75cbc94aa1ddca5beed9-scaled.png)
“想得好”不等于“做得对”
为了科学量化这些复杂的博弈表现,CATArena 不用单一分数,而是建立了一套涵盖三大维度的评估体系:
1. 策略编码 (Strategy Coding, S.C.):考察将战术转化为鲁棒代码的基础能力;
2. 全局学习 (Global Learning, G.L.):考察从历史数据和对手策略中汲取经验的进化能力;
3. 泛化能力 (Generalization Ability, G.A.):考察面对变种规则(如异形棋盘)时的举一反三能力。
![图片[53]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000748132-1766592468-fe6644c2e3f4809802c9b757867e068b.png)
基于这套体系,研究团队揭示了一个反直觉的现象。大模型想到的策略,和写出来的代码,往往是两码事。
在国际象棋残局测试中,当让 GPT-5 直接作为玩家(LLM-Player)进行下一步预测时,它倾向于直觉性的走法(如下图蓝色箭头)。
但当它作为程序员编写代码(Code Agent)来决策时,代码经过全局计算后,往往会选择更优的解法(绿色箭头,Rg4# 一步杀)。
![图片[54]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000749573-1766592469-856a13c44f1872df43907399734762df.png)
这一发现证实,目前的大模型虽然推理直觉很强,但将其转化为工具/代码执行时存在明显差异。而 Code Agent 模式,恰恰能通过严谨的代码逻辑弥补大模型直觉的局限性。
![图片[55]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000750865-1766592470-937fa4c8157bde43ab224179fc120af9.png)
![图片[56]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251216182822780-1765880902-ca7934f880ff96ea9c8c3087479f6af4-scaled.png)
数据透明化与可视化复盘
CATArena 提供了一套完整的可视化回放系统,直观展示了不同智能体设计的代码究竟是如何博弈的。
在对局回放界面,右侧的 Thought Time(思考时间)面板非常值得关注。
在五子棋对局中,我们观察到某些 AI 的代码效率极高,仅需 0.003 秒即可完成落子,而另一些 AI 则陷入了长时间思考。这种执行层面的差异,在静态文本评测中是无法感知的。
![图片[67]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251225000752193-1766592472-adc8fe9924d3646cfa9f8bb1235f2df2-scaled.png)
而对于研究者而言,CATArena 最核心的价值在于其彻底的数据透明性。
平台开放了深度的数据获取权限。点击界面上的"Game Data",用户可以直接下载当前对局的 JSON 结构化日志,其中详细记录了每一个 Action 的时间戳、决策细节和状态变化。
这是一个现成的、高质量的、包含顶尖模型博弈数据的科研级数据集。开发者可以利用这些数据训练针对特定策略的对抗模型,或者深入分析不同模型在极端情况下的行为边界。
![图片[68]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251208235647139-1765209407-58c3ae5eeb97d88394fd9a7b8e4efc32-scaled.png)
CATArena 的出现,标志着 AI 评测从“做题时代”迈向了“实战时代”。
未来,该平台计划开放更为复杂的机器学习 Track(让 AI 自主生成数据并训练小模型)和多语言 Track。
在这个没有标准答案的竞技场里,没有永远的王者,只有更快的进化速度。
目前,所有的榜单、技术报告及对局回放数据,均已完全公开。
传送门在此
项目网址:
https://catarena.ai/replays
代码仓库:
https://github.com/AGI-Eval-Official/CATArena
论文链接:
https://arxiv.org/abs/2510.26852
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
![图片[78]-告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251208235652493-1765209412-f3d8c69b26570e8d27cd9240587c73a8.jpeg)


















暂无评论内容