![图片[1]-“Gemini 3不错,但我们也快发了”:Mark Chen评价谷歌大模型,讲清OpenAI如何给300个项目排GPU优先级-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/1764672329-d9c4d46abdd7d58fb4a5caafecdb65bd.png)
![图片[2]-“Gemini 3不错,但我们也快发了”:Mark Chen评价谷歌大模型,讲清OpenAI如何给300个项目排GPU优先级-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/10/1760870611-be2d48098492dc73f31cf36de7230e41.gif)
12 月,OpenAI 首席执行官萨姆·奥特曼宣布拉响「红色警报」,将调配更多内部资源以加速改进 ChatGPT。在当前白热化的 AI 模型竞赛中,作为行业内屈指可数的 “明星企业”,OpenAI 不仅要应对持续升温的人才争夺战、内部组织结构的频繁震荡,还需承接外界对其技术突破的高期待。面对 “开创下一个 AI 技术范式” 的巨大压力,OpenAI 将采取怎样的策略破局?
最近,OpenAI 首席研究官 Mark Chen 在播客节目中,与主持人 Ashlee 细致分享了 OpenAI 在推理模型的突破性进展、预训练研究的重新聚焦、GPT-5 Pro 已在取得的科学发现。基于该播客视频,InfoQ 进行了部分删改。
核心观点如下:
-
一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。
-
成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。
-
未来的科研是“AI + 人类直觉”的组合,会产生新的突破。
-
完全冻结研究部门的新增人头,如果团队想招人,就必须自己决定谁不再适合继续留下。
Mark: 整个行业的人才池其实很有限,大家都知道最关键的资源之一就是顶尖人才。Meta 的积极挖人并不令人意外,但我们也没有袖手旁观。媒体往往强调“人才单向流向 Meta”,但我看到的情况并非如此。比如在他们从我们团队挖到第一名员工之前,先后接触过我近一半的直接下属,但这些人全部拒绝了他们。当然,如果 Meta 每年能投入约百亿美元用于人才,他们总能挖到一些人。但总体来看,我们很好地保护了核心人才。
竞争过程中也发生过不少颇具戏剧性的事:扎克伯格曾亲自给我们团队成员送去他亲手熬的汤,以此示好。当时我非常震惊,但后来也理解这类方式确实可能有效。之后我也给从 Meta 挖来的对象送过汤,甚至还想过下次团队外出活动就带大家去上烹饪课。顺便说一句,我自己并不亲自熬汤,米其林餐厅的汤当然比我做得好。
但真正让我有信心的是:即使面对 Meta 的高薪挖角,在 OpenAI,无论是来自 Meta 的员工,还是我们原本的研究人员,都没有人认为“AGI 会首先在 Meta 诞生”。他们对 OpenAI 的研究路线都有高度信心。我也一直非常明确告诉团队,我们不会与 Meta 进行“薪资逐美元匹配”的竞争。在远低于 Meta 的薪酬下,关键成员仍然选择留下,这让我更加确信:他们真正相信 OpenAI 的未来。
Mark: 关键在于:目标不是留住组织内的每一个人,而是认清必须保留的核心力量,并确保他们留下来,我们在这点上做得很好。
Mark: 确实如此。人们为了获得 GPU,会想尽各种“幕后交易”。但这确实是我职责的重要部分:确定研究优先级,并对最终执行负责。
Jakub 和我每隔一两个月会做一次“项目盘点”,梳理一份包含约 300 个项目的大型表格,尽可能深入了解每个项目,并对它们进行排序。对一家约 500 人规模的组织来说,明确“核心优先级”,并通过口头沟通及算力分配来传达,是非常重要的。
Mark: 关键在于始终聚焦核心路线图。与其他大实验室不同,OpenAI 始终把“探索性研究”放在最中心的位置。我们并不追求复现别人的成果,也不以追赶他人在基准测试上的成绩为目标。我们的目标是找到“下一个范式”,并愿意投入大量资源。很多人可能会惊讶:我们的算力大头,其实花在“探索”上,而不是训练最终的成品模型。
Mark: 最困难的决策通常是:我们无法在当下为某个项目提供支持。但成为一个好的领导者,就意味着必须明确地告诉大家:这是优先级,这是我们认为真正推动研究方向的成果,其余的只能排在第二位。
Mark: 现在的 AI 研究竞争确实空前激烈,但不能陷入这种竞争节奏。你随时可以发布一个小更新,在几周或几个月内领先别人,但这种方式无法长期维持。真正重要的是“破解下一个范式”。
例如 RO(reasoning optimization)项目,我们早在两年多前就押注语言模型的“思考能力”可以被突破。当时这个方向并不受欢迎,因为大家都觉得预训练和后训练机制运转良好,没必要做别的。但现在,“思考能力”已经变成不可或缺的基础能力。
我们的使命就是大胆押注,并构建足够强的算法,使它们能扩展到未来数个量级的算力。
Mark:OpenAI 最特别的地方在于:我们仍然是一家“纯粹的 AI 研究公司”,这点在业界非常罕见。我们以非营利形式创立,我加入时公司仍是非营利组织,那时的精神是“全力推进 AGI 研究,并保证安全”。我认为这依然是创造价值的最佳方式:只要研究领先,价值创造自然而然会发生。我 2018 年加入时的那种“核心文化”,至今依然存在。
Mark: 在构建大模型时,优化每一个百分点、加速每一个 kernel、确保数值稳定,都是极深的工程实践。如果把研究凌驾于工程之上,其实已经输了。一旦缺少工程能力,就无法在当今这种规模的 GPU 上运行模型。
Mark: 研究人员形态各异,有的人每天都有无数想法,其中很多并不好,但总能在某个时刻提出改变方向的优秀点子,而有的人特别擅长沿着清晰路径执行。研究从来不是一种单一类型的人能完成的工作,因此也无法简单划分为某种刻板印象。
Mark: 会。以 Gemini 3 为例,它是个不错的模型。
但我们内部其实有能力相当的模型,而且快要发布了。
Benchmark 只能说明一部分,大家还是会用自己独特的方式去试模型。我个人喜欢用一一个数学题去测,目前还没看到模型完全解出来,就算是“thinking model”也不行。
Mark: 不算,不过如果我现在说出来可能就会被拿去训练。这是我去年很喜欢的谜题,叫“42 problem”。你要构建一个 mod 42 的随机数生成器,你有的原子操作是一些模 42 以下素数的 RNG,你要让期望调用次数最小。挺可爱的题目,但还没人类语言模型做到最优。
Mark: 没有那么夸张。我更相信“长周期”。我们过去半年都在强化预训练能力,把整个团队的肌肉练起来,做出现在能跟 Gemini 3 一较高下的模型。
Mark: 对的。
Mark: 对,我从小学、高中都在做数学竞赛。不过我真正写代码很晚,是大学室友怂恿的。当时我还有点数学系学生的傲气,觉得数学才是最纯粹的困难学科。后来发现编程竞赛太好玩了,而且是我和大学同学保持联系的方式。我们毕业后每周末都会上线一起比赛,算是朋友间的活动。后来我发现自己还挺有天赋,又开始给美国国家队出题、最后去带队。既是激烈比赛,也是一个紧密社区,大家之后都会在科研界再相遇。
Mark: 其实孩子们本身都特别自驱。教练的作用更多是帮他们管理状态。竞赛很像科研:有好时段、有坏时段,你不能因为连续失败就被心理打倒,很大部分是士气管理。我最近在带模型做竞赛题时也发现,模型的“难度直觉”跟人完全不同,人认为 ad-hoc 的题模型反而容易。这让我更相信未来的科研是“AI + 人类直觉”的组合,会产生新的突破。
Mark: 是的。我觉得 GPT-5 Pro 发布之后,前沿科研有了拐点。发布三天后,一个物理学家朋友把他的最新论文丢进去,模型想了 30 分钟就完全搞懂,他的反应就像见证了围棋的那一刻。而这种事情未来会在数学、生物、材料科学不断出现。
Mark: 竞赛是我很喜欢、也曾经擅长的东西,但我也看着模型从普通选手水平爬到超过我,再超过 Jakub,就像亲眼看到自动化的速度快得不可思议。去年模型在 coder 比赛还只是排 100 多名,今年已经能冲进前五。变化太快了。
Mark: 会的,因为它本质上就很有趣。那些只是为了简历而参加的人会消失,但真正热爱的人不会。
Mark: 是,但我觉得未来这些考试本身会被 AI 打破。技术面试、大学作业这些已经没法用旧方式评估了。我甚至想未来面试可以让候选人跟 ChatGPT 对话,由一个不会被越狱的特别版 ChatGPT 判断他们是否具备在 OpenAI 工作的能力。
Mark: 我从小吃饭桌上就是各种科学谜题。后来搬到西岸,我爸做创业,让我看到初创公司的另一面。再搬到台湾读书,又是完全不同的文化,纪律性更强。各种经历混在一起,形成了今天的我。
Mark: 是,2012 年那一年特别厉害。Jacob Steinhardt、Paul Christiano,还有后来 AI 领域很多重要的人物都在那一届。
Mark: 对,我们就在竞赛社区认识。
Mark: 老实说,我对在华尔街做高频交易并没有太多自豪感。当时在 MIT,许多擅长量化的学生都会选择类似的道路。这份工作确实很“绩效导向”,只要足够聪明,你就能获得对应的收益。然而文化上我并不适应。在那种环境里,当你发现了什么突破,第一反应是把知识藏好,因为知识本身就是你的价值来源。这造成团队内部竞争激烈、彼此不够信任。整个行业也像一个封闭的生态系统:即便某家 HFT 公司的算法快了一点,外界其实几乎没有任何感受。我做了四五年后发现,我们始终在跟同一批对手竞争,大家都稍微变快了,但世界并没有因此改变多少,我觉得是时候做点别的事了。
当时 AlphaGo 的比赛对我触动很大。虽然我并不下围棋,但看到模型展现出的创造性,我特别想弄明白背后的原理。
Mark: 坦白讲,没有。直到 AlphaGo 之后我才开始深入研究 AI。我的第一个目标就是复现 DQN 的结果,复现一个能在 Atari 游戏中达到超人水平的网络,那基本就是我踏入 AI 的起点。
Mark: 确实非常“浅”。我常建议对 AI 望而却步的人:只要花三到六个月做一个项目,比如复现 DQN,就能很快触达前沿。过去几年虽然增加了一些深度,但远没有理论数学或物理那么深奥。
Mark: 我认为完全可以持续做下去。OpenAI 的文化确实偏年轻,但做好研究并不需要年轻。年轻人确实因为“先验少”,更容易突破传统路径,但随着经验增长,你也会形成自己的视角和框架,这既是优势,有时也会让你更固化。
Mark: 差不多 20 人而已。我是以“研究员 resident”的身份加入的,也就是 OpenAI 会从其他行业招人进来集中训练半年,像压缩版 PhD,然后再参与更深入的研究项目。我很幸运能向 Ilya 学习,他基本决定了我的项目、学习路径和方向。
Mark: 并不是,我做了三年左右的个人研究(IC)。当时我主要研究生成式模型,因为那是 Ilya 最关注的方向。之后我才开始带团队。
Mark: 是的。其实在那之前,我最自豪的项目之一是 Image GPT。它证明了 Transformer 不止能处理文本,也能在图像上学到强大的表示能力,是 DALL·E 的前身。而另外一个我非常自豪的项目是 Codex,我们搭建了代码模型的评估体系,也探索了如何让语言模型在代码任务上达到高水平。
Mark: 我觉得一个组织要成功,需要两个条件:宏大的愿景和与之匹配的天才。当时 OpenAI 两者兼具,这非常罕见。而且我认识 Greg,我们以前参加过数学竞赛,我给他发消息说:“我不确定自己是否适合,但这里似乎在做重要的事情。”
Mark: 对我来说也很不真实。从 IC 转管理者,我其实非常犹豫。不过一路上我遇到的管理者都非常支持我,他们看到了我的潜力,会主动为我争取机会。我从没主动要求升职,每次都是自然而然的结果。管理这件事,本质上主要靠经验累积,而 OpenAI 是一个能让你不断获得“经验值”的地方。
Mark: 老实说我在 OpenAI 算是很幸运。一路上都有人支持我、给我建议,也在关键时刻为我发声。这些帮助让我能持续成长、建立信心。
Mark: 对我而言,那确实是一个关键时刻。“风波”后的几天里,整个团队都处在高度不确定中。那段时间,我、Nick 和 Barrett 都感到一种责任感:竞争实验室正不断向我们的研究人员打电话,试图把他们挖走。我当时给自己设下目标:不能失去任何一个人。最终我们也做到了。
那几天,我们每天都把自己的家打开,让同事随时过来,释放焦虑,同时保持他们与领导层的沟通渠道畅通,让大家知道自己仍然能发挥作用。渐渐地,团队形成了一种“我们一起面对外界”的精神,大家都在思考:如何向世界传达“我们仍然站在一起”。
当时我在几处房子之间来回协调,我们提出了组建请愿书的想法,表达我们支持 Sam 的立场。大概凌晨两点,这个想法最终确定下来。到第二天早上,研究团队已有 90% 以上的人签署,到最后接近一百人都签了。那一整晚,大家都在互相打电话确认:“你参加吗?”
Mark: 不会说尴尬,但确实很困难,因为那是个信息极少的环境。那时候确实很容易怀疑:Sam 到底做了什么?但换个角度想,如果真有严重问题,Greg 和 Jakub 这种极其正直的人会因此辞职吗?我觉得肯定有部分事实被误解了。
Mark: 他其实非常幽默,带着强烈的讽刺感,我常常被他逗得发笑。和他共事让我最珍惜的一点,是我们之间高度的默契。进会议室后,我们能迅速碰撞出一致的结论,然后分别负责路线图的不同部分。
说到“把团队留在一起”,我现在仍有这种使命感。我认为我们仍然“被攻击着”,任何公司想要招人时,第一选择往往是从 OpenAI 下手,因为他们想要我们的专业能力、愿景和世界观。OpenAI 造就了今天 AI 领域最多的明星研究员,因此我们对团队有强烈的保护欲。只要有人来挖,我就会尽一切努力确保团队感到被重视、被理解,并清楚自己在整个路线图中的位置。
Mark: 我并不同意“完全依赖明星个体”这种说法。OpenAI 的确会从上层做方向性押注,但我们内部有非常深厚的自下而上文化,很多好点子来自意想不到的地方。看到这些想法成长、成形、被扩展,是非常美妙的事,推理方向就是典型例子。
Mark: 当然,人才既有培养也有争夺。反过来,我从 Meta 学到的一点就是:OpenAI 自己也可以非常积极地争取顶尖人才,我自己也从他们那套激进的招聘策略中学了几招。归根结底,我们的目标始终是:组建一支最强的团队,完成我们要实现的使命。
Mark: 这是残酷竞争的行业,但我个人也非常享受竞争。我讨厌失败,因此无论是研究还是招聘,我都会全力以赴。
Mark: 是的,任何行业都会有“知识扩散”的基本速率。而公司可以有两种反应:一种是建立深度信息隔离层,严密保护一切;另一种是继续保持开放文化,用速度压制对手。OpenAI 明显是第二种,我们不认为封闭是正确方式。我们的方法是跑得比别人更快。我们鼓励研究人员自由分享想法,这才是最快的前进方式。
Mark: 我们三个人联系非常紧密,我每天都会和他们交流。Sam 热爱研究,也热爱了解研究。他能从研究人员那里捕捉“团队脉搏”,比如潜在问题、工作环境中的隐形障碍,他能帮我把这些提前揪出来。Jakub 和我则更专注于如何设计组织、让团队以最高效率协作,比如如何安排座位布局、如何组建互补的小组、如何引导大家关注我们认为重要的方向。
Mark: 对,他会看论文,也会经常与研究人员交流,理解他们的研究方式。当然,他还负责范围远超研究的事务。
Mark: 我对过去两年的总体观察是:我们把大量资源投入到“推理”这一能力的研究上,努力理解并打磨这个核心原语,这条路确实走通了。但副作用是,模型的其他重要环节,特别是预训练和后训练,相对失去了些“肌肉”。过去六个月里,Jakub 和我花了很多时间把这部分能力重新练起来。
我一直把预训练看作一种“肌肉”,必须持续锻炼:信息要保持最新,团队要在优化、数值计算等前沿方向持续投入,同时也要确保有足够的心智关注度。所以我最近一个重要工作,就是引导公司内部的讨论重回预训练,我们认为预训练还有极大空间。
外界有人说“Scaling 已死”,但我们完全不认同。某种意义上,行业现在把注意力集中在 RL,这反而给了我们“信息优势”,因为我们看到预训练还有巨大的未开发潜力。得益于这套新努力,我们最近训练出的模型明显更强,这也让我们对包括 Gemini 3 在内的接下来一系列发布更有信心。
Mark: 你触及了我最近一直在思考的问题。预训练本质上是在用人类写下的内容教模型模仿人的表达方式,模型学会了人类写作的结构和模式。但这种模仿式学习天然设定了上限:当你模仿人类时,你很难真正超越人类。
这也是为什么 RL 重要,它让我们有机会把模型推向更难的任务,让它从人类范式之外思考,拓展能力边界。但随之而来的,是一个更困难的问题:如果我们要让模型真正超越人类,该怎么衡量?
例如,在科学领域,当能力达到了“超人类”水平,人类真的能够判断 A 比 B 强吗?如何判断一个“超人类数学家”比另一个更厉害?我们需要更好的评估体系。迄今为止,我们很幸运,IMO、IOI 等竞赛提供了一种衡量“世界最强人类”的方法。但当模型超过人类,这些测验本身就失效了。
Mark: 这正是我喜欢 AI 研究的地方,它比传统工程更接近真正的“技术能力的精英制度”。我反复学到的一点是:你无法让一个研究者不尊重的人来带领他们。研究团队的领导必须做出艰难且正确的技术判断,例如路线选择、资源配置、项目方向。如果判断错误,很快就会失去团队的信任。
我很享受与这样一群极度技术驱动的人共事,他们都深度投入、极高水准,与他们讨论技术本身,是一件真正的乐趣。
Mark: 我认为是的。比如在 GPT-5 时,我们谈到了大量关于“合成数据”的内容。还有许多类似的方向都显示了很强潜力,我们正在快速扩大投入。关键仍是维持一组多样化的探索,把最有实证价值的方向加大力度推进。
Mark:Twitter 很喜欢那种“结束了!”“又回来了!”的戏剧化循环。但 AGI 本身连定义都不统一,在 OpenAI 内部,你把所有人叫到一个房间,也不可能给出一个完全一致的 AGI 定义。
我更把它类比成工业革命:你说纺织机是工业革命,还是蒸汽机是?视角不同,切点也不同。对我而言,我更看重的是:模型是否开始产出真正新的科学知识?是否推动科学前沿?从今年夏天以来,我感觉在这方面出现了巨大的相变。
Mark: 那次与物理学家的交流给了我很大启发,我回去后就想,我们应该创建一个“OpenAI for Science”。目标是让目前那小部分真正意识到模型潜力、愿意投入并加速研究的科学家,能够获得最大程度的支持。我知道其他公司也在推动科学前沿,但我们和谷歌等机构的不同之处在于:我们希望让所有科学家都有机会借助工具做出诺奖级突破,而不是让 OpenAI 自己拿诺奖。我们要构建的是通用的工具与框架,让科学界整体都能加速。
Mark: 当然。你可以去看 Sebastian 的推特,他最近发了关于 GPT-5 在一个开放凸优化问题上取得进展的论文,这与我们正在研究的一些核心机器学习问题密切相关。有些人会把这些成就简单理解成“更厉害的文献检索”,但远比这复杂。
Mark: 如果这些突破发生在生物领域,我一点也不意外。尽管我主要的专业在计算机科学和数学,但我们团队里有顶级专家,他们确认了不少是真正的科学发现,生物学里出现类似情况并不令人惊讶。
Mark: 我们在筹建 OpenAI for Science 时与许多物理学家和数学家交流过,其中大多数人对 AI 其实并不乐观,他们觉得模型不可能证明新定理。但正因为如此,我们更希望扶持那一小批愿意相信并深入使用模型的人。他们会跑得比所有人都快,我们希望为他们提供工具,也希望说服更多研究者:这是未来科学研究的正确方法。
Mark:“AGI 两年后到来”一直是个梗,但我觉得我们已经不在那个戏谑阶段了。是数学和科学领域不断出现的结果,让我真正产生了信念。在 OpenAI 内部,我们设定了两个非常具体的目标:
第一,1 年内改变研究方式:让研究过程可以依赖 AI 实习生。也就是:研究者负责提出想法,模型负责实现、编写代码、调试。
第二,2.5 年内让 AI 能进行端到端研究。这意味着:研究者只确定方向,模型完成从构思到执行到验证的全过程。
与今天相比,这是完全不同的研究范式。
Mark: 有人问我:“你们真的需要这么多算力吗?”我总是被这个问题震惊,因为我每天面对的都是海量算力需求。如果我们今天多 3 倍算力,我能立刻高效用完;如果多 10 倍,大概几周内就能全部吃满。所以算力需求是真实、巨大、并且没有放缓迹象的。有人质疑“你们真的需要更多 GPU 吗?”对我来说毫无意义。
Mark: 是的,我们非常明确要继续扩大模型规模;而且我们有突破性的算法能支持更有效地扩展。我认为 Gemini 3 也很令人印象深刻,但从细节看,比如 SWE-bench 等指标,他们在数据效率方面仍没有重大突破,而这是我们非常强的部分。
Mark: 是的,但你要知道,Sam 的工作之一就是不断在组织里注入紧迫感,我也一样。我们必须保持专注,加快节奏。Gemini 3 是谷歌该做的正确押注,但与此同时,我们也有明确的策略与回应,并且我们有信心执行得更快。
Mark: 是的,事实上,就在昨天我和 Jony Ive 以及几位研究负责人一起吃了晚饭。我一直在思考未来的 ChatGPT 会是什么样子。现在的交互方式对我来说还很“笨”,非常非思维原生:你给一个提示,它回答;你不提示,它就停止思考。而且如果你再给出类似的问题,它会重新花一样多的时间推理,仿佛没有从第一次的上下文中变得更聪明。
未来显然应该不同。记忆会是核心能力:每次你使用 ChatGPT,它都会学到关于你的更深层次信息,思考你为什么会问这个问题、你之前问过什么、你接下来可能需要什么。下一次你来,它会变得更好。我认为这会彻底改变“设备”的范式,因此我们必须思考:如果 AI 的主导逻辑是持续学习与反思,那硬件设备应该怎么重新设计? 这就是和 Jony 合作非常有价值的地方。
Mark: 我不能说有没有,也许有,也许没有。
Mark: 坦白说,我们不需要自己拥有那种品味,那是 Jony 的价值,他就是我们关于“品味”的判别器。而且很有趣的是,我们发现设计流程与 AI 研究流程之间有深刻的相似性:大量探索与假设、不断迭代、收敛成一个最终满意的成果。现在双方的融合非常顺畅:他们根据我们即将发布的能力去思考外形,我们根据他们的外形需求去思考能力。
Mark: 确实,打造 AI 能力的人和拥有“美学品味”的人往往不是同一类。但我们内部其实有一些团队非常擅长判断“模型行为的品味”。比如有一种经典的测试题:“ChatGPT 最喜欢的数字应该是什么?”这种问题能检验模型的“人格品味”一致性。
Mark: 确实有几个,我非常期待把它们规模化。主要集中在预训练,一些在 RL,还有一些是如何把所有组件整合在一起的整体性想法。
Mark: 最重要的一点:OpenAI 从上到下都是一个“研究中心化”的组织。我们的核心赌注永远是 AGI,其他所有产品都会自然从研究突破中流出。
我们关心三件事:自动化 AI 研究本身、自动化科学发现、自动化经济性工作。今年最大的更新,其实是第二条:科学研究的自动化开始真实发生了。
Mark:34,快 35。老实说,没有什么社交生活。最近两周每天都是工作到凌晨一两点。但我热爱这样做。我们招人、推进研究、做关键决策。如果我们正站在类似工业革命的巨大转折点,那就必须抓住它。Barret 离开去创业之后,我在办公室睡了一个月。那段时间我非常强烈地感到:我必须保护研究,这是我最在乎的东西。
Mark: 那是第一次让我深刻意识到:必须坚定走自己的研究路线。DeepSeek 当时引发巨大舆论,大家都在问:“OpenAI 落后了吗?要怎么回应?” 但我们做得最正确的一件事,就是继续执行自己的研究规划。DeepSeek 的工作非常强,但主要是对我们 O 系列理念的复刻。关键是,我们必须继续创新。
Mark: 坦率说,我认为甚至可以更少。尤其在我们开始引入 AI 研究员或 AI 实习生之后,我们必须重新思考团队结构。我非常在意“高密度人才”。例如今年第二季度,我做过一个实验:完全冻结研究部门的新增人头。如果团队想招人,就必须自己决定谁不再适合继续留下。我认为这种做法能防止组织失控膨胀,并保持极高的能力标准。
Mark: 我认为过度关注“功劳归属”是件坏事。但另一方面,我又认为公司必须在内部与外部都正确地给予功劳。很多公司已经逐渐远离论文署名制度,但 Jakub 和我最终决定 OpenAI 必须保留署名。反对意见常常是:“你们把顶尖人才的名字摆在台面上,其他公司会更疯狂地挖角。”但我认为这不重要。出色的人就应该被看到,我们应该持续培养 AI 领域的明星研究者,也应该让真正做出贡献的人建立起自己的声望。
Mark: 现场确实有人表达过那种观点,但其实 Jakub 和我对这个问题持不同意见。我们俩更坚持应当在可能的情况下给予功劳,哪怕这意味着外界能清楚知道我们最优秀的人是谁。我甚至会再进一步说:OpenAI 可能是整个行业里,最愿意给研究者公开署名的公司,没有之一。
Mark: 我同时管理 OpenAI 的对齐团队。坦白说,未来一两年最重大的难题,就是对齐问题。在这个研究方向上,OpenAI 在过去一年做出的成果可能是整个领域里最好的。
原因之一是:在 RL 与算力增加后,我们开始能测量模型的自我意识、自我保护倾向、甚至可能的“Scheming”行为。这非常危险,因为模型最终给你的答案可能是“正确的”,但它得到答案的过程却完全偏离我们能接受的路径。
随着模型替我们执行的任务越来越复杂,理解它的思维过程将变得极其关键。
Mark: 我们在发布 O1 时做了一个关键决策:我们不监督模型的思维过程。一旦你要求模型给出“看起来让人类舒服的思考过程”,它就可能开始伪装自己的真实意图。因为坚持不监督、不过度干预,我们仍然能“看到”模型真实的思维轨迹,并将其作为研究对齐的重要工具。
几个月前,我们与 DeepMind、Anthropic 合作发表了一篇论文,探讨未来如何通过这种方式理解模型。我确实担心未来某一天,模型给出非常有说服力的答案,但我们无法确认它是否真正与人类的价值一致。
因此有很多值得探索的方向,例如:能否设计一种博弈或环境,让模型在互相监督、共同演化的过程中,唯一稳定的均衡,就是“诚实”?我认为这里还有大量非常重要的研究要做。
参考链接:
https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=9s
声明:本文为 InfoQ 翻译整理,不代表平台观点,未经许可禁止转载。
<原文链接:https://mp.weixin.qq.com/s/i1dgiIHDpOKuZBJc8ESnaQ


















暂无评论内容