告别静态刷榜！CATArena开启“技能五子棋”模式：顶流模型互写代码大乱斗-AI Express News

Talk is cheap, show me the code.

在 MBPP+、HumanEval+ 这类静态代码评测集上，大模型们早已杀红了眼，分数卷到了 90+，个个都是满分做题家。

但我们都清楚，在封闭环境里做对一道选择题，和在开放世界里解决一个复杂问题，完全是两个维度的能力。

如果把这些模型从试卷里拽出来，扔进一个没有标准答案、规则会变、对手也会变的动态环境，它们不仅要能“说”，还得会“做”，甚至得写出代码来相互博弈，它们还能活过第一集吗？

为了打破静态刷榜的天花板，AGI-Eval 社区联合上海交通大学、美团，共同推出了 CATArena (Code Agent Tournament Arena)。

这不再是一场考试，而是一个专为 AI 智能体设计的、残酷的迭代式竞技场。在这里，模型用代码当武器，在对局里赢，靠复盘对手代码继续进化。

图片[4]-告别静态刷榜！CATArena开启“技能五子棋”模式：顶流模型互写代码大乱斗-AI Express News

代码即武器，拒绝背题库

CATArena 与传统评测最大的不同，在于它构建了一个“对战+学习”的动态闭环。

首先是残酷的对战机制。在这里，模型不能只靠“嘴炮”输出文本，它们必须编写可执行的 Python 代码来驱动 Agent 参与比赛（即 Strategy Coding）。

这一步非常关键，它把评测维度从语言表现拉回了更残酷的现实——逻辑能不能跑通、策略能不能落地、实现有没有 bug。

目前的竞技场涵盖了四大经典博弈场景：需要计算赔率与心理博弈的德州扑克、考验空间布局的五子棋，以及国际象棋和桥牌。

为了彻底杜绝模型通过背棋谱作弊，CATArena 在标准规则之外，引入了大量的变体（Variants）机制。

就像最近爆火的“技能五子棋”一样，平台引入了禁手规则和双三限制，德州扑克采用了换牌规则，国际象棋则引入了 Chess960。

面对这些训练数据中极为罕见的规则，AI 无法依赖记忆，必须现场推理，写出鲁棒的逻辑代码。

图片[4]-告别静态刷榜！CATArena开启“技能五子棋”模式：顶流模型互写代码大乱斗-AI Express News

〓图1. CATArena 游戏类型及变体规则一览

这种实战评测的规模远超常规 demo。在首届锦标赛中，仅德州扑克一个项目，平台就组织了超过 300 场激烈对局，每场包含 60 手牌，总计上演了近 18,000 次下注、跟注、加注乃至诈唬的巅峰博弈。

〓图2. 德州扑克对战界面，展示了 AI 智能体在进行加注、跟注等决策时的实时状态

在 CATArena 的回放系统中，我们可以通过筹码变化折线图（Chip Timeline）直观地看到 AI 的博弈风格。

不同于枯燥的胜率数字，资金曲线的波动直接暴露了模型的决策倾向：有的极其激进，曲线大起大落。有的则稳健保守，步步为营。

〓图3. 筹码变化折线图：直观记录了各模型在对局中的资金起伏与激进程度

逆袭与进化的秘密

经过数千场的高强度淘汰赛，最终的榜单结果打破了我们对大模型能力的固有印象。

〓图4. CATArena 综合能力排行榜

首先是国产模型的强势表现。在策略编码（Strategy Coding）这一实战维度上，Qwen 3 Coder 凭借稳健的代码逻辑，与海外霸主 GPT-5 在五子棋与德州扑克项目中共同登顶。

在代码生成与逻辑执行层面，国产第一梯队模型已具备世界级竞争力。

相比之下，备受推崇的 Claude 系列（如 Claude-4-Sonnet）在初赛阶段的表现却并不理想，排名一度处于中游。

Claude 的滑铁卢与随后的逆袭，恰恰揭示了 CATArena 另一大核心机制——迭代式伙伴学习（Iterative Peer-Learning）。

传统的评测往往是一次性的静态快照，但 CATArena 是一个动态进化的过程：

Round 1：所有 AI 闭卷考试，独立编写初始策略代码；
Round n：平台公开上一轮所有对手的策略代码和对局战报。AI 被允许阅读对手的代码，复盘失败的案例，从而针对性地修补 bug、优化算法。

〓图5. 核心评估框架：智能体通过阅读对手的公开代码和战报，实现策略的迭代进化

正是在这个机制下，Claude 上演了教科书般的逆袭。虽然初始策略平平，但在后续轮次中，Claude 展现出了恐怖的学习能力（Learning Ability）。

通过分析战报和对手代码，它的胜率曲线在 Round 2 和 Round 3 出现了陡峭爬升，完成逆风翻盘。

〓图6. Claude-code 的胜率随轮次显著上升，证明了其具备从过往对局中快速学习并优化策略的能力

后台的工具调用记录清晰地还原了这一过程。数据记录显示，Claude 在开发过程中频繁调用了 Read 工具去读取 opponent_code （对手代码），并使用 Grep 命令去定位胜率字段与关键策略分支。

这种从环境反馈和对手行为中快速迭代的能力，或许比单纯的推理能力更接近 AGI 的本质。

〓图7. Claude 工具使用记录表：记录了其主动读取对手代码的关键操作

然而，进化是有代价的，但不能是无效内卷。

将首轮开发成本表与五子棋榜单结合来看，Claude-4-Sonnet 陷入了尴尬的高耗低能。它在起步阶段就消耗了全场最高的 82 万 token，后续迭代成本依然居高不下，最终却仅排在第 9 名。

反观 GPT-5，不仅在首轮开发中仅消耗了 39 万 Token（不到 Claude 的一半），在后续迭代中也保持了极低的算力占用，最终稳居榜单冠军。

这组数据无情揭示了算力堆不出智能，代码效率才是硬道理。对于关注落地成本的企业而言，GPT-5 这种“少吃草、多跑路”的模型，展现了极致的效能比。

〓图8. Token 成本统计表

“想得好”不等于“做得对”

为了科学量化这些复杂的博弈表现，CATArena 不用单一分数，而是建立了一套涵盖三大维度的评估体系：

1. 策略编码 (Strategy Coding, S.C.)：考察将战术转化为鲁棒代码的基础能力；

2. 全局学习 (Global Learning, G.L.)：考察从历史数据和对手策略中汲取经验的进化能力；

3. 泛化能力 (Generalization Ability, G.A.)：考察面对变种规则（如异形棋盘）时的举一反三能力。

〓图9. 评估维度拆解：从三个维度对智能体进行综合评分

基于这套体系，研究团队揭示了一个反直觉的现象。大模型想到的策略，和写出来的代码，往往是两码事。

在国际象棋残局测试中，当让 GPT-5 直接作为玩家（LLM-Player）进行下一步预测时，它倾向于直觉性的走法（如下图蓝色箭头）。

但当它作为程序员编写代码（Code Agent）来决策时，代码经过全局计算后，往往会选择更优的解法（绿色箭头，Rg4# 一步杀）。

〓图10. 国际象棋残局分析，代码模式算出了比直觉模式更优的解法

这一发现证实，目前的大模型虽然推理直觉很强，但将其转化为工具/代码执行时存在明显差异。而 Code Agent 模式，恰恰能通过严谨的代码逻辑弥补大模型直觉的局限性。

〓图11. 热力图显示同一模型的代码决策与直接推理一致性较低

数据透明化与可视化复盘

CATArena 提供了一套完整的可视化回放系统，直观展示了不同智能体设计的代码究竟是如何博弈的。

在对局回放界面，右侧的 Thought Time（思考时间）面板非常值得关注。

在五子棋对局中，我们观察到某些 AI 的代码效率极高，仅需 0.003 秒即可完成落子，而另一些 AI 则陷入了长时间思考。这种执行层面的差异，在静态文本评测中是无法感知的。

〓图12. 五子棋回放界面：右侧实时显示 Thought Time，直观反映代码执行效率

而对于研究者而言，CATArena 最核心的价值在于其彻底的数据透明性。

平台开放了深度的数据获取权限。点击界面上的"Game Data"，用户可以直接下载当前对局的 JSON 结构化日志，其中详细记录了每一个 Action 的时间戳、决策细节和状态变化。

这是一个现成的、高质量的、包含顶尖模型博弈数据的科研级数据集。开发者可以利用这些数据训练针对特定策略的对抗模型，或者深入分析不同模型在极端情况下的行为边界。

结语

CATArena 的出现，标志着 AI 评测从“做题时代”迈向了“实战时代”。

未来，该平台计划开放更为复杂的机器学习 Track（让 AI 自主生成数据并训练小模型）和多语言 Track。

在这个没有标准答案的竞技场里，没有永远的王者，只有更快的进化速度。

目前，所有的榜单、技术报告及对局回放数据，均已完全公开。

传送门在此

👇

项目网址：

https://catarena.ai/replays

代码仓库：

https://github.com/AGI-Eval-Official/CATArena

论文链接：

https://arxiv.org/abs/2510.26852

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

图片[4]-告别静态刷榜！CATArena开启“技能五子棋”模式：顶流模型互写代码大乱斗-AI Express News

原文链接：https://mp.weixin.qq.com/s/3puN6fPg0nitR2MZYOStlg

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

告别静态刷榜！CATArena开启“技能五子棋”模式：顶流模型互写代码大乱斗

请登录后发表评论