谷歌AI连发6篇数学论文！Gemini攻入博士级科研，91.9%刷爆SOTA-AI Express News

新智元报道

编辑：桃子好困

【新智元导读】今天，谷歌DeepMind「AI数学家」Aletheia彻底杀疯了，攻克数学猜想，独立写论文。更令人震惊的是，拿下金牌的Gemini一举横扫18大核心科研难题。

下一个诺奖得主，Gemini提前预定了！

谷歌DeepMind再次向全球科研圈扔出炸弹，一口气放出两篇重磅论文——

Gemini Deep Think成为「科研合伙人」，连破数学、物理和计算机科学领域研究级难题。

以前，AI可以拿下IMO、ICPC国际大赛金牌，已经很牛了....

这一次，Gemini彻底开挂，真正搞起了科研！

谷歌打造了一款基于Gemini「AI数学家」，代号Aletheia。它在博士级难题上，取得了多项科研里程碑。

其中包括，独立撰写发表学术几何论文，还对「Erdős猜想」数据库中700个开放问题，完成系统性评估。

在IMO-ProofBench基准测试中，Aletheia一骑绝尘，拿下91.9%的成绩刷爆SOTA。

更具颠覆性的，它具备了人类最核心的技能：自我纠错，还会主动承认自身无法解决的问题。

所谓的千禧年大奖难题，或许离逐一破解的那天也不远了。

不仅如此，在物理学和计算机科学，Gemini Deep Think联手专家，攻克了18个长期停滞的研究难题。

涵盖了终结十年子模优化猜想、突破离散算法瓶颈、机器学习与组合优化、信息论与经济学等，斐然的成绩足以载入史册。

此时此刻，人类的科研工作流正在酝酿着一场颠覆性的变革。

Gemini加速进化正以一种近乎「降维打击」的方式，在多个科研领域暴力破局。

谷歌「AI数学家」Aletheia重磅出世

干翻博士级难题

2025年夏天，Gemini Deep Think（高级版）首次拿下了IMO金牌，紧接着，在ICPC大赛中一举夺冠。

如今，Gemini彻底跨越了竞赛门槛，正式攻入人类智慧的「深水区」。

与IMO级的竞赛难度不同，研究级数学问题需要，从浩如烟海的文献中调用「高级技术」。

虽然「基础模型」（FM）知识渊博，但缺少专业数据，难免在处理高级学科时往往会理解不到位，甚至产生「幻觉」。

为此，谷歌DeepMind内部构建了一个数学研究AI智能体——Aletheia，背靠强大的Gemini Deep Think。

论文地址：https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

在古希腊语中，Aletheia代表着「真理」。

它做到了在自然语言中「端到端」迭代生成、验证和修改解决方案。

具体来说，Aletheia自带一个「自然语言验证器」，能挑出候选方案中的毛病，并实现「生成-修改」的迭代过程。

最关键的是，它能承认自己解不出来，这一特性大大提高了研究人员的效率。

Aletheia概览：这是一个由Deep Think驱动的数学研究AI智能体，能够针对研究级数学问题进行迭代式的生成、验证和修正

总言之，驱动Aletheia的三大核心技术支柱是：

Gemini Deep Think高级版：专门用来死磕那些极难的推理题；

新颖的推理时Scaling Law：它的能力跨度极大，上能搞定奥数级难题，下能应付博士级的专业练习；

强大的工具调用能力：深度集成Google搜索和网页浏览，以此攻克数学研究中老大难问题，瞎编参考文献、计算不准的情况几乎不存在。

自2025年7月达到IMO金牌水准以来，Gemini Deep Think进步谓之神速。

随着推理时计算量（inference-time compute）的增加，它在IMO-ProofBench高级测试中的得分高达90%。

谷歌DeepMind证明了，即便从奥赛级别跨越到博士级练习题（根据内部FutureMath Basic基准），Scaling Law依然有效。

值得注意的是，Aletheia即便用更少推理算力，也能实现更高的推理质量。

截至2026年1月，Deep Think的最新进阶版在奥赛级题目上的表现已大幅超越IMO金牌版本（2025年7月）。推理时的Scaling Law同样适用于博士级练习题。Aletheia在推理质量上实现了进一步的飞跃，且推理时的计算量更低。所有结果均由人类专家评分

首批6篇论文，AI手搓一篇，3篇已发表

在研究级数学的实战中，Aletheia的实力可不是闹着玩的，已取得了许多令人瞩目的「自主突破」。

在Aletheia完成的首批六篇论文中，一共包括以下几类——

独立完成，0人类

论文「Eigenweights for arithmetic Hirzebruch Proportionality」完全由Aletheia生成，没有任何人工干预。

它计算了算术几何中被称为「特征权重」（eigenweights）的某些结构常数。

论文地址：https://arxiv.org/abs/2601.23245

人类与AI协作

论文「Lower bounds for multivariate independence polynomials and their generalisations」是由人类与Aletheia协作完成，共同证明了相互作用粒子系统（称为独立集）的界限。

论文地址：https://arxiv.org/abs/2602.02450

大规模半自主评估，攻克Erdős猜想难题

论文「Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems」针对 Bloom的「Erdős猜想」数据库中的700个开放问题进行了评估，并自主解决了其中列出的四个未解之谜。

在Erdős-1051问题上，模型给出了自主解答，并推动了另一篇研究「Irrationality of rapidly converging series: a problem of Erdős and Graham」中报告的推广性成果。

论文地址：https://arxiv.org/abs/2601.22401

论文地址：https://arxiv.org/abs/2601.21442

此外，Aletheia还在如下另外两篇论文中，贡献了中间命题。

论文地址：https://arxiv.org/abs/2601.18557

论文地址：https://arxiv.org/abs/2601.23229

值得一提的是，之前也有Gemini进行研究级数学探索的工作，但在合作规模和解决问题的数量上都相对较小。

此外，谷歌DeepMind还建立了一个分类法，根据重要性和AI贡献程度对「AI辅助数学研究」进行分级——

下表中，已被列为第2级（可发表质量）的成果已提交给知名期刊。

目前，谷歌尚未通过Gemini获得任何第3级（重大进展）或第4级（里程碑式突破）的成果。

本研究涵盖的所有AI辅助数学成果的分类表。表中列为第2级的成果已投稿发表

终结十年猜想，攻克18大研究难题

除了在数学方面大展身手，Gemini Deep Think在计算机科学和物理学领域，也表现出了巨大的潜力。

论文「Accelerating Scientific Research with Gemini: Case Studies and Common Techniques」建立在类似的智能体推理思路之上，并总结出了高效合作的「秘籍」，特别是「顾问」（Advisor）模式：

即人类通过迭代的「直觉验证」（Vibe-Proving）循环来引导 AI，以验证直觉并完善证明。

论文地址：https://arxiv.org/abs/2602.03837

此外，谷歌还详细介绍了一些战术技巧，比如「平衡提示词」（balanced prompting）。

——要求AI同时尝试证明或反驳以防止确认偏误，以及代码辅助验证。

这些方法，结合模型通过深层结构连接跨越不同科学领域的能力，正在改变理论研究的开展方式。

这项工作，是建立在成功部署Gemini Deep Think进阶版协助审查STOC’26会议CS理论论文的基础之上的。

AI推理流程示意图：展示了网络层如何对解题空间进行广泛探索，然后收敛为结构化的推理，并最终通过自动化验证与人工审核进行确认

通过与专家合作攻克18个研究难题，Gemini Deep Think进阶版帮助打破了算法、机器学习、组合优化、信息论以及经济学领域长期存在的瓶颈。

ICLR 2026已录用

论文「Accelerating Scientific Research with Gemini: Case Studies and Common Techniques」中的亮点包括：

跨越数学边界解决网络谜题

像「最大割（Max-Cut）」（高效分割网络）和「施泰纳树（Steiner Tree）」（连接高维点）这类经典计算机科学问题的进展一度停滞。

Gemini通过打破「思维定势」破解了这两个僵局。

它从完全不相关的连续数学分支中搬来了高深工具——比如Kirszbraun定理、测度论和Stone-Weierstrass定理——成功解决了这些离散算法谜题。

终结在线子模优化领域十年的猜想

2015年的一篇理论论文为数据流提出了一个看似显而易见的规则：复制一个新到达的项目永远比简单地移动原始项目价值低。专家们花了十年时间试图证明这一点。

Gemini设计了一个极其刁钻的「三项目组合反例」，严格证明了这一长期以来的人类直觉是错的。

机器学习优化

训练AI过滤噪声通常需要工程师手动调整一个数学上的「惩罚项」。

研究人员发明了一种能自动调整的新技术，但无法从数学上解释为什么有效。

Gemini分析了方程并证明了该方法的成功机理：它在运行过程中秘密生成了自己的「自适应惩罚」。

升级AI时代的经济理论

最近一个关于拍卖AI生成Token的「显示原理（Revelation Principle）」在数学上仅在投标被限制为有理数时才成立。

一旦将范围扩展到连续的实数，原始证明就失效了。Gemini利用先进的拓扑学和序理论扩展了该定理，使其能适应现实世界中连续的拍卖动态。

宇宙弦物理学

计算来自宇宙弦的引力辐射需要找到包含「奇点」的棘手积分的解析解。

Gemini利用「盖根鲍尔多项式」（Gegenbauer polynomials）找到了一个新颖的解法。这自然地吸收了奇点，将无限级数坍缩成了一个封闭形式的有限和。

这些成果横跨了从信息与复杂性理论到密码学和机制设计的各个领域，展示了AI正如何从根本上改变研究工作。

考虑到计算机科学领域那种流动性强、以会议为导向的发表机制，我们按学术轨迹而非僵化的分类法来描述这些成果。

以上大约一半的成果瞄准了顶级会议，其中一篇被ICLR ’26录用，剩下的大部分将在未来在期刊投稿。

无论是通过识别错误，还是反驳猜想来纠正领域方向，这些成果都凸显了AI作为高水平科学协作者的价值。

Gemini重塑科研，人类「倍增器」来了

基于谷歌此前的突破，这项工作表明，通用的基础模型，联动智能体推理工作流，可以成为强大的科学伙伴。

在数学家、物理学家和计算机科学家等专家的指导下，Gemini Deep Think模式正在那些以复杂数学、逻辑和推理为核心的领域证明其实用性。

我们正在见证科学工作流的根本性转变。

随着Gemini的进化，它正在成为人类智慧的「倍增器」，负责处理知识检索和严格验证等工作，让科学家能够专注于概念的深度和创新的方向。

无论是完善证明、寻找反例，还是连接看似不相关的领域，AI正在成为科学进步新篇章中不可或缺的协作者。

参考资料：

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

https://mathstodon.xyz/@tao/116053101218408010

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

<原文链接：https://mp.weixin.qq.com/s/OtTl3IvtvU4EF-p1jAdZkw

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

谷歌AI连发6篇数学论文！Gemini攻入博士级科研，91.9%刷爆SOTA

【新智元导读】今天，谷歌DeepMind「AI数学家」Aletheia彻底杀疯了，攻克数学猜想，独立写论文。更令人震惊的是，拿下金牌的Gemini一举横扫18大核心科研难题。

请登录后发表评论