谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

58次阅读
没有评论

共计 4549 个字符,预计需要花费 12 分钟才能阅读完成。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

  新智元报道  

编辑:桃子 好困
【新智元导读】凌晨,谷歌终极杀器 Gemini 3 重磅来袭,一出手就是 Pro 顶配版,号称「史上最强推理 + 多模态 + 氛围编程」三合一 AI 战神!基准测试横扫全场,就连 GPT-5.1 也被斩于马下,AI 的下一个时代开启。
 

它来了,它来了!

就在刚刚,万众期待的年度压轴之王,谷歌新一代旗舰 Gemini 3 炸裂登场。

而且,一上来就是顶配的 Gemini 3 Pro——

迄今推理最强,多模态理解最强,以及「智能体」+「氛围编程」最强的模型!

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

强到什么程度?

发布一小时后,就连 OpenAI CEO 奥特曼,都亲自发推表示祝贺!

而且,还是区分大小写的版本。(不知道是不是亲自试了一下)

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

从实测来看,也的确如此。

在众多基准测试中,Gemini 3 Pro 一举封神——

不仅相较于 2.5 Pro 实现了性能的全方位跃升,甚至直接把 OpenAI 刚上新的 GPT-5.1 甩出了好几条街。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

用谷歌的话来总结,Gemini 3 Pro 顶尖的核心在于这三点——

  • 霸榜 LMArena(1501 分)和 WebDev(1487 分)

  • 人类最后考试(HLE)刷出 45.8% 最高分,人类博士级推理

  • 长程任务规划 Vending-Bench 2 上的王者

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

不仅如此,增强推理模式下的 Gemini 3 Deep Think,更是在 HLE 拿下 41%、GPQA 93.8%,以及 ARC-AGI- 2 上 45.1% 的成绩。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

这一天,注定是被载入史册的一天。Gemini 3 一露面,全网彻底沸腾。

Gemini 3 正开启 AI 下一个时代,准备好上车了吗?

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

即日起,Gemini 3 Pro 预览版将全面上线。

而 Deep Think 模式还需要一段时日,才会向 Google AI Ultra 订阅用户开放。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
三大重点(浓缩版)

 

Gemini 3 的诞生,标志着谷歌在通往 AGI 的道路上,迈出了又一大步!

首先,它思考能力特别强,能深入理解问题,回答更有见地。

尤其是,特别擅长回答各种复杂的科学问题。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

用代码构建、解构和重组详细的 3D 体素艺术

其次,它有着世界领先的多模态理解力,不论是文字、视频,还是代码都不在话下。

比如解读长视频,或是把论文变成互动指南,Gemini3 都可以接得住。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

在氛围编程上,Gemini 3 直接刷爆了天花板。

简单一句话,它就能做出一个美观且灵动的应用。而且,还能精准 get 意图,知道如何去实现。

同时,它的智能体编码本领更强了,无缝衔接现有工具,与全新平台 Google Antigravity 搭配,堪称天作之合。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
Gemini 3 Pro
博士级推理碾压一切

 

凭借顶尖推理与多模态能力,Gemini 3 Pro 可以将任何想法变为现实!

它全面碾压前代 2.5 Pro,所有核心基准测试成绩,断层领先。

· LMArena 排行榜上名列榜首,狂揽 1501 Elo 突破性高分;

· 人类最后考试(HLE)上,在不使用任何工具的情况下拿下 37.5% 成绩;

· GPQA Diamond 上斩获 91.9% 的高分,展现出博士级的推理能力;

· MathArena Apex 上以 23.4% 刷新 SOTA,在数学领域树立新标杆。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

在一系列关键 AI 基准测试中,Gemini 3 遥遥领先

除了在文本测试中的优异表现,Gemini 3 Pro 还是多模态王者——

MMMU-Pro 强势斩获 81% 高分,以及 Video-MMMU 更以 87.6% 成绩,重新定义了多模态推理。

它还在 SimpleQA Verified 上获 72.1% 业界领先分数,在事实准确性方面进步巨大。

这意味着 Gemini 3 Pro 具备超高可靠性攻克科学、数学等众多领域的复杂问题的能力。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

每一次交互,Gemini 3 Pro 都带着前所未有的「深度和细腻度」。

它的回答聪明、简洁、直接,摒弃了陈词滥调和奉承,提供真正的见解——告诉你需要听到的,而不仅仅是你想听到的

它就像一位真正的思想伙伴,提供理解信息和表达自我的新方式。

不管是生成高保真可视化代码,阐释晦涩的科学概念,还是展开一场激发创造性的头脑风暴,Gemini 3 Pro 都能做到。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

Gemini 3 可以编写托卡马克装置中等离子体流动的可视化代码,并写一首捕捉聚变物理学精髓的诗

在 Google AI Studio 上,Gemini 3 Pro 的 API 定价如下——

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
Gemini 3 Deep Think
智能新高峰

 

这一次,Gemini 3 Deep Think 正式开启「深度思考」新纪元,让智能的边界再次拓展。

它在 Gemini 3 推理和多模态理解能力的基础上,实现了质的飞跃,更能攻克复杂问题。

多项基准测试中,Gemini 3 Deep Think 表现超越 Gemini 3 Pro:

在 HLE 和 GPQA Diamond 上,分别拿下了 41%(不使用工具)和 93.8% 的优异成绩。

而且,更在 ARC-AGI-2(带代码执行,ARC Prize Verified)中创下 45.1% 历史新高,一展应对未知与新颖问题的强大能力。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

Gemini 3 Deep Think 在一些最具挑战性的 AI 基准测试中表现出色

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
重塑世界,新时代开启

 

可以说,Gemini 3 正式开启了新一轮的全模态革命!

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

百万 token,全模态爆发

 

从诞生之初,Gemini 就为「跨多模态」而生,包括文本、图像、视频、音频、代码,能在各种信息形态中,自由穿梭。

Gemini 3 更是实现了破级进阶,整合最先进的推理、视觉和空间理解、领先的多语言性能,以及 100 万 token 上下文。

它能够帮助人们,以最适合自己的方式进行学习。

假设你想学习家族传统的烹饪方法,Gemini 3 可以破译并将不同语言的手写食谱,翻译成一本可共享的家庭食谱。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

或是想要学习一个新主题,直接扔给它学术论文、长视频讲座或教程,Gemini 3 自动生成交互式抽认卡、可视化效果或其他格式的代码。

它甚至可以分析匹克球比赛视频,找出可以改进的地方,并生成针对性的训练计划以全面提升表现。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

不仅如此,在搜索中的 AI 模式(AI Mode),现可用 Gemini 3 实现新的生成式 UI 体验。

包括沉浸式视觉布局,以及交互式工具和模拟,所有这些都是根据查询完全即时生成。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

在搜索中的 AI 模式下,可通过生成式 UI 学习像 RNA 聚合酶如何工作这样的复杂主题

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

氛围编程,纯靠嘴

 

在 2.5 Pro 成功的基础上,Gemini 3 兑现了——为开发者将任何想法变为现实的承诺。

它在零样本学习(zero-shot)生成方面表现出色,并能处理复杂的提示词和指令,以渲染更丰富、更具交互性的 Web UI。

如前所述,Gemini 3 是谷歌迄今为止打造的最优秀的「氛围编程」和智能体编码模型。

在 WebDev Arena 排行榜上,Gemini 3 以 1487 Elo 高分强势登顶。

它在 Terminal-Bench 2.0 上也获得了 54.2% 高分,该测试衡量模型通过终端操作计算机的工具使用能力;

并且在衡量编码智能体 SWE-bench Verified 测试上,以 76.2% 成绩远超 2.5 Pro。

接下来一波演示中,便可见识 Gemini 3 真正实力。

编写一个复古 3D 太空飞船游戏,要有丰富的视觉效果,以及更强的交互性——没问题。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

借助着色器,构建一个可玩的科幻世界——so easy。

打造一个更丰富、更具交互性的 Web UI 和应用程序——还是轻松搞定!

前端不再需要人类,是真的...

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

目前,全球开发者可在 Google AI StudioVertex AIGemini CLI,以及全新 智能体开发平台 Google Antigravity中使用 Gemini 3 进行构建。

它也接入了多个第三方平台,包括 Cursor、GitHub、JetBrains、Manus、Replit 等。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

长程规划,人类手替

 

自谷歌通过 Gemini 2 开启智能体时代以来,一直在不断进化。

他们不仅提升了 Gemini 的编码智能体能力,还提高了其在更长时间范围内可靠规划未来的能力。

而这一切,刚刚在 Vending-Bench 2 排行榜上得到实力认证——

Gemini 3 以绝对优势登顶。

而这个测试,通过模拟运营一个自动售货机业务,深度考验 AI 在复杂场景下的长程规划能力。

令人欣喜的是,在整个模拟运营年度中,Gemini 3 Pro 通过保持一致的工具使用和决策,在不偏离任务的情况下,实现了更高的回报。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

与其他前沿模型相比,Gemini 3 Pro 展示了更好的长程规划能力,从而产生显著更高的回报

这意味着,Gemini 3 能在日常生活中更好地帮人类完成任务。

它把更深度的推理与改进、更一致的工具使用相结合,通过从头到尾处理更复杂、多步骤的工作流来代表人采取行动。

就比如,帮你预定本地服务,或是整理收件箱。而人类,全程只需把控方向,下达指令。

今天起,Google AI Ultra 订阅用户可在 Gemini 应用中,通过 Gemini Agent 抢先体验智能体能力。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
「谷歌反重力」
革命性智能体开发平台

 

Gemini 3 的问世,谷歌在智能体能力上已开始迈入一个新的阶段:

模型能够在多个平台上长时间运行,且无需人工干预。

 

虽尚未达到「完全无人干预 + 连续运行数天」的程度,但谷歌正日益接近这样一个世界——

不再通过单个提示词或工具调用,而是在更高的抽象层面上与智能体进行交互。

因此,谷歌智能体开发平台 Google Antigravity 正式上线,一个让开发者以「任务」为维度与智能体协同的全新平台。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

借助 Gemini 3 高级推理、工具使用和智能体编码能力,Google Antigravity 将 AI 辅助从开发者工具包中的一种工具,升级为全程参与的主动协作者。

在熟悉的 AI IDE 体验基础上,Google Antigravity 为智能体开辟一个专用界面,可直接访问编辑器、终端和浏览器。

现在,智能体可以代表你自主规划并同时执行复杂的端到端软件任务,同时验证其生成的代码。

如下案例中,在 Google Antigravity 上,用 Gemini 3 驱动飞行跟踪应用程序的「端到端智能体工作流」。

该智能体独立规划、编写应用程序代码,并通过基于浏览器的计算机操作验证其执行。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

除了 Gemini 3 Pro,Google Antigravity 还与 Gemini 2.5 计算机使用模型, 以及图像编辑模型Nano Banana(Gemini 2.5 Image)紧密集成。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
网友玩疯了

 

现在,Gemini 3 承包了全网热点,一系列惊艳实测 demo 全部放出了。

Google AI Studio 负责人 Logan 进行了弹跳球测试,并且难度提升了 10 倍。

结果,Gemini 3 Pro 一次就完美搞定!(并非 N 选一,真的是第一个提示词就生成了)

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

曾在 Anthropic 担任 AI 工程师的 MagicPath 创始人 Pietro Schirano,首先让 Gemini 3 Pro 创建了一个 3D 乐高编辑器。

没想到,它仅凭 一次生成就完美实现了用户界面、复杂的空间逻辑以及所有功能。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

同时,Gemini 3 Pro 在游戏开发方面的表现也令人惊叹。

仅仅通过一个文本提示词,它就重现了经典的 iOS 游戏《荒谬钓鱼》(Ridiculous Fishing),甚至包括了音效和背景音乐。

此外,它还完成了一项之前大模型几乎都做不到的任务——构建一个功能完备的 Game Boy 模拟器。

而且没错,它甚至直接用 SVG 绘制出了 Game Boy 的外观。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺

最值得一提的是,Gemini 3 竟完全在谷歌 TPU 上完成训练。这就是谷歌的护城河。

谷歌 Gemini 3 夜袭全球,暴击 GPT-5.1!奥特曼罕见祝贺
参考资料:
https://blog.google/products/gemini/gemini-3/
正文完
 0
评论(没有评论)