AlphaGo“第37手”十周年！DeepMind创始人深夜撰文：远不止围棋世界冠军-AI Express News

今日，在 AlphaGo 击败前人类冠军李世石 10 周年之际，DeepMind 创始人、AlphaGo之父、诺贝尔奖得主 Demis Hassabis 发布了一篇文章，回顾了 10 年来从棋局到生物学及更广阔领域的影响。

Demis 在 X 上写道：十年前，AlphaGo 在首尔的传奇对决宣告了人工智能现代时代的开启。其著名的“第 37 手”昭示着人工智能技术已准备好应对科学等领域的现实世界难题，而这些方法所启发的理念对构建通用人工智能至关重要。

全文如下：

十年前，我们的人工智能（AI）系统 AlphaGo 成为首个在复杂棋类游戏围棋中击败世界冠军的程序，这标志着该领域一个里程碑的达成，比许多专家预想的时间提前了整整十年。

这一成就预示着如今被公认为人工智能现代纪元的开端。凭借其极具创造力的“第37手”，AlphaGo 展示了人工智能的巨大潜力，并向世人表明，我们现在已经掌握了开始着手解决现实世界中科学问题的方法。

时至今日，这项突破仍在指引着我们构建通往通用人工智能（AGI）之路的诸多系统。我们相信，AGI 将有潜力成为人类有史以来最深远的技术发明，并可能成为推动科学、医学和生产力的终极工具。

创造力的火花

2016 年，超过 2 亿观众观看了 AlphaGo 在首尔与世界顶尖围棋选手李世石的巅峰对决。这场系列赛的高光时刻出现在第二局的“第37手”，这是一步极其违反直觉的下法，以至于专业解说员起初都认为这是个失误。但事实证明，这正是决定胜负的关键一招。大约一百多手之后，这枚棋子恰好落在了能够帮助 AlphaGo 赢得比赛的关键位置。这展现了 AlphaGo 惊人的前瞻性，以及人工智能系统超越单纯模仿人类专家、自主发现全新策略的能力。

围棋因其超乎寻常的复杂性，长期以来一直是人工智能研究的试金石。棋盘上的可能局面高达 10^170 种，远超可观测宇宙中的原子总数。

为了攻克这一难题，AlphaGo 运用了深度神经网络，并结合了先进的搜索算法和强化学习，这是 DeepMind 开创的一种人工智能方法。

AlphaGo 首先通过学习人类专家的棋谱来构建一个合理的落子模型，随后通过与自己对弈数百万盘棋来持续学习，并在这一过程中不断强化最有效的获胜策略，从而完成自我进化。最终，系统仅需考虑最具潜力的少数几个走法，并从这组经过精炼的候选落子中，找到最可能导致胜利的那一步棋。

在 AlphaGo 之后，我们开发了 AlphaGo Zero，它从完全随机的对弈开始学习，最终可以说成为了围棋史上最强大的棋手。随后，我们通过 AlphaZero 进一步将这套方法通用化，使其能够从零开始自学，掌握任何双人完美信息游戏，包括围棋、国际象棋和日本将棋。除了游戏规则，AlphaZero 没有借助任何先验知识，就能在数小时内精通国际象棋，不仅击败了顶尖的人类棋手，也战胜了当时最强的专用国际象棋程序（如 Stockfish）。尽管国际象棋在借助这些程序的帮助下已被深入分析多年，但正如在围棋上一样，AlphaZero 依然能够构想出新颖有趣的战略。

这进一步印证了我在首尔获胜那一刻就坚信的想法：这项技术已经可以应用于我们真正的目标，即加速科学发现。

“我相信，AlphaGo 带来的最重要启示是它对人工智能时代的明确预示，它证明了这并非一个遥远而模糊的未来，而是一个正在叩响我们现实世界大门的新事物。它就像一份'来自未来的路线图'，向人类清晰地发出了关于世界即将如何变革的信号。”

——围棋大师李世石，韩国蔚山科学技术院（UNIST）兼职教授

催化科学突破

通过证明人工智能可以在围棋棋盘巨大的可能性空间中进行有效探索，AlphaGo 展示了其帮助人类更好地理解物理世界复杂性的巨大潜力。我们首先着手解决的，便是试图攻克蛋白质折叠难题：一个预测蛋白质三维结构的、历时 50 年的重大挑战。而这些结构信息对于理解疾病和开发新药至关重要。

2020 年，我们终于凭借 AlphaFold 2 系统攻克了这一长期存在的科学难题。在此基础上，我们预测了科学界已知的所有约 2 亿种蛋白质的结构，并将其在开源数据库中免费提供给全球科学家使用。如今，世界各地已有超过 300 万研究人员在使用 AlphaFold 数据库，来加速他们从疟疾疫苗到塑料降解酶等重要课题的研究工作。而到了 2024 年，能够代表整个 AlphaFold 团队，与 John Jumper 一同因领导这个项目而荣获诺贝尔化学奖，是我莫大的荣幸。

自 AlphaGo 取得胜利以来，我们已将其开创性的方法应用于众多其他科学和数学领域，其中包括：

数学推理：AlphaProof 是 AlphaGo 架构最直接的传承者之一，它通过结合语言模型和 AlphaZero 的强化学习与搜索算法，学会了证明形式化的数学命题。它与 AlphaGeometry 2 一道，成为首个在国际数学奥林匹克竞赛（IMO）中达到（银牌）奖牌水准的系统，证明了 AlphaGo 的方法能够解锁高级数学推理能力，并为我们打造最强大的通用模型奠定了基础。

算法发现：正如 AlphaGo 在游戏中搜索最佳落子，我们的编码智能体 AlphaEvolve 则在计算机代码的广阔空间中探索，以期发现更高效的算法。它也曾拥有属于自己的“第37手”时刻：发现了一种全新的矩阵乘法运算方法。而矩阵乘法是支撑几乎所有现代神经网络的基础数学运算。目前，AlphaEvolve 正在从数据中心优化到量子计算等诸多问题上接受测试。

科学协作：我们正将 AlphaGo 开创的搜索和推理原则整合到一个“人工智能协同科学家”系统中。通过让多个 Agent “辩论”科学思想和假说，该系统能够充当一个协作者，进行识别数据模式和解决复杂问题所需的严谨思考。在伦敦帝国理工学院进行的验证研究中，它分析了数十年来的文献，并独立得出了关于抗菌素耐药性的相同假设，而这一假设是研究人员耗费多年时间才提出并通过实验验证的。

我们还利用人工智能来更好地理解基因组、推进聚变能源研究、改善天气预报等等。

尽管我们的科学模型已经非常出色，但它们目前仍然高度专业化。为了实现诸如创造无限清洁能源或攻克当今无法理解的疾病这样的根本性突破，我们需要更通用的人工智能系统，它们能够发现不同学科领域间的内在结构和联系，并像最顶尖的科学家那样，帮助我们提出新的假说。