共计 5315 个字符,预计需要花费 14 分钟才能阅读完成。

文 | 博阳
编辑 | 郑可君
最近 一段时间,AI 界掀起了一场关于 LLM 能否通向 AGI 的激烈争论。
一边是以 OpenAI、Google 等为代表的企业界,他们坚信当前的模式和 Scaling Law(扩展定律)能够实现人工通用智能(AGI);另一边是以强化学习之父 Richard Sutton、纽约大学的 Gary Marcus、图灵奖得主 Yann LeCun 等为代表的学术界重量级人物,他们对此提出了尖锐批评。
Sutton 认为 , 当前的 LLM 过度依赖人类标注数据,缺乏真正的学习机制;Marcus 则反复指出大模型的推理能力存在根本缺陷,只是随机鹦鹉;LeCun 更是直言,纯语言模型永远无法达到人类水平的智能。双方争论不休,各自都有充分的论据支撑。
然而,这场争论持续至今难有定论,根本原因在于一个关键问题:AGI 的定义究竟是什么?
虽然大家都大致认同达到人类水平的智能即 AGI 这一表述,但 AGI 具体应该包含哪些维度?如何客观评估?这些关键问题却一直模糊不清。
正是这种定义上的模糊性,让不同阵营都能为自己的观点找到支撑。
为 了解决 这一问题 ,10 月16日 ,AI 三巨头 之一 , 图灵奖 得主 约书亚·本吉奥 领衔的 豪华 国际研究团队发表了一篇 重要 论文 《A Definition of AGI》(AGI 的定义 ),试图 为这个 模糊的 概念 做迄今为止 最清晰的 定义。

而且 , 发布 这篇 论文的 团队 , 绝对 有资格 对这一 问题 做定义 。 文章的 27 名作者 涵盖了 人工智能领域,特别是 AI 安全、伦理方向的全球顶级学者、研究员和行业领袖。
具体 看,除去 本吉 奥,一线核心研究者 如AI 安全中心的主任 Dan Hendrycks, 加州大学伯克利分校计算机安全、隐私保护领域的顶尖专家 Dawn Song, DDN 之父 Christian Szegedy 等。 还有 跨领域专家 如经济学家 斯坦福HAI 的主任Erik Brynjolfsson。
除此之外 , 还有 非专业 AI 领域 , 但在 业内 影响力 极大 的思想家和批评者 : 如未来生命研究所(FLI)的创始人 Max Tegmark, 前面提到 的LLM反对者 之一 纽约大学 名誉教授Gary Marcus。
除了思想家 和研究人员 外,行业巨头与资助者 也参与其中 。 如谷歌的前 CEOEric Schmidt, Skype 的联合创始人 Jaan Tallinn 都在 作者 名单 之中。
这 一份 作者 列表 就足够 说明 这份研究 的重要性了。
他们 得出的 结论 , 基本 和当下 LLM 是否 能通向 AGI 的争论 一致 。 在新的 AGI 定义下 ,GPT- 5 这样的顶尖 AI,在 AGI 应该具备的 一半 左右 核心维度上表现极 佳,但 在另一半 上表现 极差,少数 维度 得分 基本 为0。而这些偏科的维度,正好与 LLM 批评者提及的能力缺失 完全 相符。
那就 让我们 来看看 具体 他们 是如何 重新定义 AGI 的 吧。
01
源自人类心智蓝图的 AGI 评估框架
论文开宗明义,为 AGI 给出了一个清晰而直观的定义:AGI 是一个在认知通用性(versatility)和熟练度(proficiency)上,能够达到或超过一个受过良好教育的成年人水平的人工智能。
这个 定义中 AGI 的两个核心特质 分别是:
1. 通用性(广度):它强调 AGI 不能是偏科生。真正的通用智能需要在广泛的认知领域都具备能力,而不仅仅是在单一或少数几个任务上表现出超人水平。
2. 熟练度(深度):在每一个认知领域,AGI 的能力都需要达到一定的深度,即受过良好教育的成年人的水平。这排除了那些只能完成表面任务、缺乏深层理解的系统。
通过锚定受过良好教育的成年人这一现实世界中唯一的通用智能范例,该定义成功地将一个抽象的概念转化为了一个可供参考和测试的实体。
有了这个 定义 , 接下来的 逻辑 就很清晰了 。 既然 AGI 的定义是达到人类水平,那么衡量 AGI 的最佳方式 就是 用衡量人类智能的最科学、最全面的蓝图。
还好 , 这个 蓝图 有现成 的。它 叫Cattell-Horn-Carroll (CHC) 理论。

CHC理论 是由 雷蒙德·卡特尔 首先 提出 的,在 1993 年经过 约翰·卡罗尔 系统地回顾和重新分析了自 20 世纪 30 年代以来的 460 多项认知能力 , 研究 修正 整合 形成 的一个 智力 理论。
因此 , 它在 近一个世纪以来,科学家 通过对成千上万人的大量认知能力测试数据进行 统计学上的 因素分析(factor analysis),最终综合而成的、目前在心理测量学界最受认可、证据最充分的人类智力结构模型。
CHC 理论将人类的认知能力描绘成一个三层级的金字塔结构(Three-Stratum Structure):
-
顶层 (Stratum III): 一般智力因素 (g 因子)这是金字塔的塔尖,代表了一种普遍的、贯穿所有认知活动的智力能力。这可以理解为大脑处理器的核心算力。
-
中层 (Stratum II): 十大广义能力 这是 CHC 理论的核心。它将一般智力分解为约 10 个相对独立的广义能力。这些能力是构成我们智能的主要模块。
-
底层 (Stratum I): 约 80 多种狭义能力 这是金字塔的基座,也是最具体的能力层。每一个广义能力都由多种更具体的狭义能力构成。例如,晶体智力 (Gc)可以进一步分解为词汇知识、通用信息等;流体智力 (Gf)可以分解为归纳推理、演绎推理等。
这篇 重新定义 AGI 论文 基本上 是对这 一金字塔 结构 的改编和操作化 。 按照 CHC 的十大 广义 能力 ,AGI 的能力 也被 分为 十大 方向 , 每个 方向 平均 的占有 AGI 满分 评分 中的 10 分:

-
通用知识 (K): 对世界常识、科学、历史、文化等事实的理解。
-
读写能力 (RW): 理解和生成书面语言的熟练度。
-
数学能力 (M): 涵盖算术、代数、微积分等领域的知识与技能。
-
即时推理 (R): 在不依赖先验知识的情况下,解决新颖问题的能力,如演绎与归纳。
-
工作记忆 (WM): 在注意力中主动保持、处理和更新信息的能力(即短期记忆)。
-
记忆存储 (MS): 从经验中持续学习、巩固和存储新信息的能力。
-
长期记忆检索 (MR): 精准、流畅地从记忆中提取知识,并避免产生幻觉的能力。
-
视觉处理 (V): 感知、分析、推理和生成图像、视频等视觉信息的能力。
-
听觉处理 (A): 识别、区分和处理声音、语音、音乐等听觉刺激的能力。
-
速度 (S):快速、自动化地执行简单认知任务的能力。
他们有的 是融合 了部分 CHC 的十大 广义 能力 , 有的 直接 就是 一一对应的 , 最终 这十个 方向 完整覆盖了 CHC 理论的 所有 领域。

和 由CHC理论 转化 出的 智商 量表 一样 , 它不仅全面,而且具备极高的可操作性。论文为每一个大项下的诸多分项都提供了具体的定义、测试样例乃至现有的公开数据集作为参考,使得任何研究者都可以依据这个蓝图对 AI 系统进行评估。

但是 CHC 量表本身是个复杂量表,取什么值作为 AGI100 分的标准呢?
文章给出的结论是,这个标准非常高。它定义了一个理想化的、认知能力 全面发展且高度熟练 的个体。100% 的 AGI 分数所代表的,是一个 高度熟练的(highly proficient)、在所有被测试的维度上都达到了精通(mastery)水平的个体。
但这个精通 的意思 并不是 将所有受过良好教育的人的顶尖技能聚合在一起。它不要求 AGI 同时拥有爱因斯坦的物理学能力、莫扎特的音乐天赋和莎士比亚的文学才华。
它衡量的是一个个体可能达到的、在认知上全面且强大的能力水平。
02
犬牙交错的当代 AI 的能力剖面图
那 用这个 新AGI标准 去于衡量当今最先进的 AI 模型,它们 的表现 如何?
论文的评估结果显示,当代 AI 的能力发展呈现出一种极不均衡的 犬牙交错的认知剖面图。

根据论文的评估,GPT- 4 的 AGI 总分为 27%,而于 2025 年问世的 GPT- 5 的总分可达 58%。总分 虽然 翻倍 , 但进步 却非常 不平均。

AI 的强项在于那些可以从海量数据中直接学习的领域 。例如, 在通用知识(K)、读写能力(RW)和(对于 GPT- 5 而言)数学能力(M)上 ,模型表现出了极高的熟练度。这与 大家 的普遍认知相符:大语言模型是强大的知识库和文本处理工具。
然而,在 长期记忆存储(MS)这类 能力 上,无论是 GPT- 4 还是 GPT-5,在这一项上的得分均为刺眼的 0%。这意味着,目前的 AI 系统患有严重的失忆症,它们无法从与用户的持续互动中积累经验、形成个性化的记忆或修正错误。每一次对话都是一次冷启动,这从根本上限制了它们成为真正的智能伙伴或助手。 而在 速度 提升 上也 基本是 裹足 不前。
此外,在 即时推理(R)、视觉推理(V)、听觉处理(A)等需要灵活、抽象思考和深度理解物理世界能力的领域,现有模型也存在严重短板,尽管 GPT- 5 在这些方面显示出了显著的进步 , 但相较于 100% 达标 , 仍然 很远。
还记得 CHC 还有 一个 底层 金字塔 嘛?研究团队 也对 这十大 方向的 能力 进行 了更细致的 拆分。

团队 用这些 细微项 , 考察 了GPT4和 GPT5 的的 得分 。 从中 我们 可以更清晰的 理解到 即使 是当下 最强大 的模型 GPT-5, 依然 存在的 短板。

除去 GPT4 和5都 有的 长期 记忆 为0的 问题 外,我们 还能发现 当前 模型最大的 短板 有三点 : 不可靠 , 无主动 学习 能力 , 对世界 认知 浅薄。
-
不可靠性 : 在长期记忆检索 (MR) 模块下,有一个名为幻 觉的关键分项。GPT- 4 和 GPT- 5 在这一项上的得分同样是 0%。虽然 GPT5 号称 大幅 减少 了幻觉 率,但 相较于 人类 , 它的 幻觉 水平 依然 过高。
这使得 AI 在不借助外部工具(如搜索引擎)的情况下,是一个完全不可靠的信息来源。论文指出,目前业界广泛使用的检索增强生成(RAG)技术,正是一种掩盖这一核心缺陷的能力扭曲。
-
认知僵化 ,无法适应规则变化 : 在即时推理 (R) 模块中,即使是大幅进步的 GPT-5,在名为适应 的分项上也得到了 0% 的分数。
这项能力通过 人类 智力测试 常用的 威斯康星卡片分类测验来评估,要求智能体在规则被悄悄改变后,能够放弃旧规则、适应新规则。AI 的失败表明,它擅长在固定规则下执行任务,但当环境发生未明确告知的变化时,它会表现出极端的认知僵化,无法灵活调整策略。
因此 , 当前的 AI 缺乏一种元认知能力,即意识到自己当前的方法不再有效。这种僵化在动态、开放的真实世界中将是致命的,限制了其自主解决复杂问题的能力。这正对应了 Sutton 的批评。
-
多模态的浅薄 : 在视觉处理 (V) 上,GPT- 5 虽然能在感知和生成上得分,但在更高级的 视觉推理和空间扫描 上得分为 0%。这意味着它能识别图片里有什么,但无法理解复杂的空间关系或进行心理旋转等抽象视觉推理。在 听觉处理 (A) 上,GPT5也 能很好地进行语音识别和语音合成,但在理解语言声音底层结构的音素编码和节奏能力上得分为 0%。
这说明 即使 GPT- 5 的多模态能力有较强进展,但它还停留在输入 / 输出的表层,并没有理解物理规律、空间逻辑的世界模型。它打开了连接物理世界的窗户,但还远未理解窗外的风景。而这正是 Sutton 和 Yann LeCun 批判的第二点。
从这些更细分的评价来看,反 LLM 联盟的批评确实是一针见血。不愧是写出了《The Bitter Lesson》的 Sutton 老师。
03
能力扭曲戳破通用的幻象
通过 刚才 的AGI建模 , 我们 可以 看到 当下 模型的 诸多 短板 , 但在日常使用中 , 我们 经常 有一种 GPT 很懂我 ,AI 真的 无所不知 的感觉。
这篇 论文 也对此 做了 解释 。 它提出了 能力扭曲(Capability Contortions)这一概念。当代 AI 系统常常利用其压倒性的优势能力(如巨大的工作记忆和计算速度)来掩盖或绕过其基础能力的根本性缺陷,从而制造出一种看似通用的脆弱假象。
文章 主要 提及了 两种 能力 扭曲 的问题 , 它们 都是 试图 用取巧的 办法 , 尽可能 的掩盖 得分 只有 0 分的 长期 记忆 短板:
其一 是用工作记忆(长上下文)伪装长期记忆 。 模型通过支持越来越长的上下文窗口(可达数百万 token)来处理海量信息,但这本质上是工作记忆的暴力延伸,而非真正的长期记忆存储 。 用户需要将历史信息反复喂给模型,这种方式不仅计算成本极高、效率低下,而且当任务时间跨度超过上下文窗口限制时 , 便会彻底失效。
其二 是用外部搜索(RAG)伪装内部记忆检索 。 为了解决幻觉问题,模型普遍采用检索增强生成(RAG)技术,即在回答前先从外部数据库(如互联网)搜索相关信息 。 论文一针见血地指出,这是一种拐杖,它掩盖了模型在两个层面的记忆缺陷:一是无法精准、可靠地从自身庞大的参数知识中进行检索;二是更关键的,它完全没有一个动态的、可更新的、用于记录个体经验的私有记忆库。
因此 , 不能仅仅因为一个模型能在某些任务上表现出色,就误认为它具备了底层的通用智能。识别并解决这些被掩盖的根本性缺陷,才是通往 AGI 的正途。
04
定义的意义 , 让方向 从模糊到清晰
这个 AGI 定义框架最重要的价值在于,它将一个长期模糊的概念转化为了具体可测的指标。无论是支持还是反对当前 AI 发展路径的人,都有了一个共同的讨论基础。
当然,这个框架也有局限性。研究者承认,当前的测试主要基于英语和西方文化,权重设置也可能需要进一步讨论。但作为首个系统性的 AGI 评估标准,它已经为 AI 发展提供了重要的指导方向。
从 GPT- 4 的 27% 到 GPT- 5 的 58%,我们看到了 AI 能力的快速提升。但同时,这些数字也清晰地告诉我们:真正的 AGI 之路依然任重道远。重要的是,现在我们有了一张清晰的地图,知道该往哪个方向努力,以及还有多远的路要走。



AI Agent 的下一个战场是“中训练”
揭秘大语言模型心智理论的基础
<