“AI教父”本吉奥携业界全明星发布重磅文章，重新定义AGI-AI Express News

文｜博阳

编辑｜郑可君

最近一段时间，AI界掀起了一场关于LLM能否通向AGI的激烈争论。

一边是以OpenAI、Google等为代表的企业界，他们坚信当前的模式和Scaling Law（扩展定律）能够实现人工通用智能（AGI）；另一边是以强化学习之父Richard Sutton、纽约大学的Gary Marcus、图灵奖得主Yann LeCun等为代表的学术界重量级人物，他们对此提出了尖锐批评。

Sutton认为，当前的LLM过度依赖人类标注数据，缺乏真正的学习机制；Marcus则反复指出大模型的推理能力存在根本缺陷，只是随机鹦鹉；LeCun更是直言，纯语言模型永远无法达到人类水平的智能。双方争论不休，各自都有充分的论据支撑。

然而，这场争论持续至今难有定论，根本原因在于一个关键问题：AGI的定义究竟是什么？

虽然大家都大致认同达到人类水平的智能即AGI这一表述，但AGI具体应该包含哪些维度？如何客观评估？这些关键问题却一直模糊不清。

正是这种定义上的模糊性，让不同阵营都能为自己的观点找到支撑。

为了解决这一问题，10月16日，AI三巨头之一，图灵奖得主约书亚·本吉奥领衔的豪华国际研究团队发表了一篇重要论文《A Definition of AGI》（AGI的定义），试图为这个模糊的概念做迄今为止最清晰的定义。

而且，发布这篇论文的团队，绝对有资格对这一问题做定义。文章的27名作者涵盖了人工智能领域，特别是AI安全、伦理方向的全球顶级学者、研究员和行业领袖。

具体看，除去本吉奥，一线核心研究者如AI安全中心的主任Dan Hendrycks, 加州大学伯克利分校计算机安全、隐私保护领域的顶尖专家Dawn Song, DDN之父Christian Szegedy等。还有跨领域专家如经济学家斯坦福HAI的主任Erik Brynjolfsson。

除此之外，还有非专业AI领域，但在业内影响力极大的思想家和批评者：如未来生命研究所（FLI）的创始人Max Tegmark, 前面提到的LLM反对者之一纽约大学名誉教授Gary Marcus。

除了思想家和研究人员外，行业巨头与资助者也参与其中。如谷歌的前CEOEric Schmidt, Skype的联合创始人Jaan Tallinn都在作者名单之中。

这一份作者列表就足够说明这份研究的重要性了。

他们得出的结论，基本和当下LLM是否能通向AGI的争论一致。在新的AGI定义下，GPT-5这样的顶尖AI，在AGI应该具备的一半左右核心维度上表现极佳，但在另一半上表现极差，少数维度得分基本为0。而这些偏科的维度，正好与LLM批评者提及的能力缺失完全相符。

那就让我们来看看具体他们是如何重新定义AGI的吧。

源自人类心智蓝图的AGI评估框架

论文开宗明义，为AGI给出了一个清晰而直观的定义：AGI是一个在认知通用性（versatility）和熟练度（proficiency）上，能够达到或超过一个受过良好教育的成年人水平的人工智能。

这个定义中AGI的两个核心特质分别是：

1. 通用性（广度）：它强调AGI不能是偏科生。真正的通用智能需要在广泛的认知领域都具备能力，而不仅仅是在单一或少数几个任务上表现出超人水平。

2. 熟练度（深度）：在每一个认知领域，AGI的能力都需要达到一定的深度，即受过良好教育的成年人的水平。这排除了那些只能完成表面任务、缺乏深层理解的系统。

通过锚定受过良好教育的成年人这一现实世界中唯一的通用智能范例，该定义成功地将一个抽象的概念转化为了一个可供参考和测试的实体。

有了这个定义，接下来的逻辑就很清晰了。既然AGI的定义是达到人类水平，那么衡量AGI的最佳方式就是用衡量人类智能的最科学、最全面的蓝图。

还好，这个蓝图有现成的。它叫Cattell-Horn-Carroll (CHC) 理论。

CHC理论是由雷蒙德·卡特尔首先提出的，在1993年经过约翰·卡罗尔系统地回顾和重新分析了自20世纪30年代以来的460多项认知能力，研究修正整合形成的一个智力理论。

因此，它在近一个世纪以来，科学家通过对成千上万人的大量认知能力测试数据进行统计学上的因素分析（factor analysis），最终综合而成的、目前在心理测量学界最受认可、证据最充分的人类智力结构模型。

CHC理论将人类的认知能力描绘成一个三层级的金字塔结构（Three-Stratum Structure）：

顶层 (Stratum III): 一般智力因素 (g因子)这是金字塔的塔尖，代表了一种普遍的、贯穿所有认知活动的智力能力。这可以理解为大脑处理器的核心算力。
中层 (Stratum II): 十大广义能力这是CHC理论的核心。它将一般智力分解为约10个相对独立的广义能力。这些能力是构成我们智能的主要模块。
底层 (Stratum I): 约80多种狭义能力这是金字塔的基座，也是最具体的能力层。每一个广义能力都由多种更具体的狭义能力构成。例如，晶体智力 (Gc)可以进一步分解为词汇知识、通用信息等；流体智力 (Gf)可以分解为归纳推理、演绎推理等。

这篇重新定义AGI论文基本上是对这一金字塔结构的改编和操作化。按照CHC的十大广义能力，AGI的能力也被分为十大方向，每个方向平均的占有AGI满分评分中的10分：

通用知识 (K): 对世界常识、科学、历史、文化等事实的理解。
读写能力 (RW): 理解和生成书面语言的熟练度。
数学能力 (M): 涵盖算术、代数、微积分等领域的知识与技能。
即时推理 (R): 在不依赖先验知识的情况下，解决新颖问题的能力，如演绎与归纳。
工作记忆 (WM): 在注意力中主动保持、处理和更新信息的能力（即短期记忆）。
记忆存储 (MS): 从经验中持续学习、巩固和存储新信息的能力。
长期记忆检索 (MR): 精准、流畅地从记忆中提取知识，并避免产生幻觉的能力。
视觉处理 (V): 感知、分析、推理和生成图像、视频等视觉信息的能力。
听觉处理 (A): 识别、区分和处理声音、语音、音乐等听觉刺激的能力。
速度 (S)：快速、自动化地执行简单认知任务的能力。

他们有的是融合了部分CHC的十大广义能力，有的直接就是一一对应的，最终这十个方向完整覆盖了CHC理论的所有领域。

和由CHC理论转化出的智商量表一样，它不仅全面，而且具备极高的可操作性。论文为每一个大项下的诸多分项都提供了具体的定义、测试样例乃至现有的公开数据集作为参考，使得任何研究者都可以依据这个蓝图对AI系统进行评估。

但是CHC量表本身是个复杂量表，取什么值作为AGI100分的标准呢？

文章给出的结论是，这个标准非常高。它定义了一个理想化的、认知能力全面发展且高度熟练的个体。100%的AGI分数所代表的，是一个高度熟练的（highly proficient）、在所有被测试的维度上都达到了精通（mastery）水平的个体。

但这个精通的意思并不是将所有受过良好教育的人的顶尖技能聚合在一起。它不要求AGI同时拥有爱因斯坦的物理学能力、莫扎特的音乐天赋和莎士比亚的文学才华。

它衡量的是一个个体可能达到的、在认知上全面且强大的能力水平。

02 犬牙交错的当代AI的能力剖面图

那用这个新AGI标准去于衡量当今最先进的AI模型，它们的表现如何？

论文的评估结果显示，当代AI的能力发展呈现出一种极不均衡的犬牙交错的认知剖面图。

根据论文的评估，GPT-4的AGI总分为27%，而于2025年问世的GPT-5的总分可达58%。总分虽然翻倍，但进步却非常不平均。

AI的强项在于那些可以从海量数据中直接学习的领域。例如，在通用知识（K）、读写能力（RW）和（对于GPT-5而言）数学能力（M）上，模型表现出了极高的熟练度。这与大家的普遍认知相符：大语言模型是强大的知识库和文本处理工具。

然而，在长期记忆存储（MS）这类能力上，无论是GPT-4还是GPT-5，在这一项上的得分均为刺眼的0%。这意味着，目前的AI系统患有严重的失忆症，它们无法从与用户的持续互动中积累经验、形成个性化的记忆或修正错误。每一次对话都是一次冷启动，这从根本上限制了它们成为真正的智能伙伴或助手。而在速度提升上也基本是裹足不前。

此外，在即时推理（R）、视觉推理（V）、听觉处理（A）等需要灵活、抽象思考和深度理解物理世界能力的领域，现有模型也存在严重短板，尽管GPT-5在这些方面显示出了显著的进步，但相较于100%达标，仍然很远。

还记得CHC还有一个底层金字塔嘛？研究团队也对这十大方向的能力进行了更细致的拆分。

团队用这些细微项，考察了GPT4和GPT5的的得分。从中我们可以更清晰的理解到即使是当下最强大的模型GPT-5，依然存在的短板。

除去GPT4和5都有的长期记忆为0的问题外，我们还能发现当前模型最大的短板有三点：不可靠，无主动学习能力，对世界认知浅薄。

不可靠性：在长期记忆检索 (MR) 模块下，有一个名为幻觉的关键分项。GPT-4和GPT-5在这一项上的得分同样是 0%。虽然GPT5号称大幅减少了幻觉率，但相较于人类，它的幻觉水平依然过高。

这使得AI在不借助外部工具（如搜索引擎）的情况下，是一个完全不可靠的信息来源。论文指出，目前业界广泛使用的检索增强生成（RAG）技术，正是一种掩盖这一核心缺陷的能力扭曲。

认知僵化，无法适应规则变化：在即时推理 (R) 模块中，即使是大幅进步的GPT-5，在名为适应的分项上也得到了 0% 的分数。

这项能力通过人类智力测试常用的威斯康星卡片分类测验来评估，要求智能体在规则被悄悄改变后，能够放弃旧规则、适应新规则。AI的失败表明，它擅长在固定规则下执行任务，但当环境发生未明确告知的变化时，它会表现出极端的认知僵化，无法灵活调整策略。

因此，当前的AI缺乏一种元认知能力，即意识到自己当前的方法不再有效。这种僵化在动态、开放的真实世界中将是致命的，限制了其自主解决复杂问题的能力。这正对应了Sutton的批评。

多模态的浅薄：在视觉处理 (V) 上，GPT-5虽然能在感知和生成上得分，但在更高级的视觉推理和空间扫描上得分为 0%。这意味着它能识别图片里有什么，但无法理解复杂的空间关系或进行心理旋转等抽象视觉推理。在听觉处理 (A) 上，GPT5也能很好地进行语音识别和语音合成，但在理解语言声音底层结构的音素编码和节奏能力上得分为 0%。

这说明即使GPT-5的多模态能力有较强进展，但它还停留在输入/输出的表层，并没有理解物理规律、空间逻辑的世界模型。它打开了连接物理世界的窗户，但还远未理解窗外的风景。而这正是Sutton和Yann LeCun批判的第二点。

从这些更细分的评价来看，反LLM联盟的批评确实是一针见血。不愧是写出了《The Bitter Lesson》的Sutton老师。

能力扭曲戳破通用的幻象

通过刚才的AGI建模，我们可以看到当下模型的诸多短板，但在日常使用中，我们经常有一种GPT很懂我，AI真的无所不知的感觉。

这篇论文也对此做了解释。它提出了能力扭曲（Capability Contortions）这一概念。当代AI系统常常利用其压倒性的优势能力（如巨大的工作记忆和计算速度）来掩盖或绕过其基础能力的根本性缺陷，从而制造出一种看似通用的脆弱假象。

文章主要提及了两种能力扭曲的问题，它们都是试图用取巧的办法，尽可能的掩盖得分只有0分的长期记忆短板：

其一是用工作记忆（长上下文）伪装长期记忆。模型通过支持越来越长的上下文窗口（可达数百万token）来处理海量信息，但这本质上是工作记忆的暴力延伸，而非真正的长期记忆存储。用户需要将历史信息反复喂给模型，这种方式不仅计算成本极高、效率低下，而且当任务时间跨度超过上下文窗口限制时，便会彻底失效。

其二是用外部搜索（RAG）伪装内部记忆检索。为了解决幻觉问题，模型普遍采用检索增强生成（RAG）技术，即在回答前先从外部数据库（如互联网）搜索相关信息。论文一针见血地指出，这是一种拐杖，它掩盖了模型在两个层面的记忆缺陷：一是无法精准、可靠地从自身庞大的参数知识中进行检索；二是更关键的，它完全没有一个动态的、可更新的、用于记录个体经验的私有记忆库。

因此，不能仅仅因为一个模型能在某些任务上表现出色，就误认为它具备了底层的通用智能。识别并解决这些被掩盖的根本性缺陷，才是通往AGI的正途。