谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

45次阅读
没有评论

共计 2549 个字符,预计需要花费 7 分钟才能阅读完成。

【本文要点】
Gemini 2.5 Pro 被认定为当前最佳的大模型,智商达到 130,在数学方面表现优异,超越许多研究生。它在各类基准测试中表现突出,包括门萨 IQ 测试和 MathArena 测试,且在哈佛 - 麻省理工大学数学竞赛中领先对手 15%。现在,谷歌已向所有 Gemini 用户免费推出该模型的实验版。尽管有速率限制,高级用户享有更好的访问权限。社区普遍认为,谷歌的 Gemini 在大模型竞争中已明显超越 OpenAI 与 Anthropic。此外,Gemini 2.5 Pro 的编程能力强大,可以模拟复杂情况,其代码质量被广泛认可。


【正文】


【新智元导读】如今,有越来越多的网友发现,Gemini 2.5 Pro 已经成为全球大模型中名副其实的冠军,刷爆各类基准测试和智商测试!它的智商达到 130,其中数学方面已经强于大多数研究生,甚至几句提示,就能模拟宇宙规律。虽然又被 GPT-4o 吉卜力生图的光芒掩盖了,但毫无疑问,上周的另一技术核弹 Gemini 2.5 Pro,也是无可争议的强!在试用过程中,网友们逐渐发现,这个模型真的强到发指。在门萨 Norway 的 IQ 测试中,它已经突破了 130。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

随后,更硬核的证据来了——在 MathArena 测试中,它直接获得了第一名!

注意,这里用的基本都是 LLM 从未见过的题。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

在哈佛 - 麻省理工大学数学竞赛(HMMT)中,领先第二名 15%

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

AIME 2025 I 和 AIME 2025 II 是今年美国全国数学奥林匹克竞赛的选拔赛

它在数学方面已经比大多数研究生要强,这已经是一个可以公开验证的事实。

在这位网友统计的 AI 模型能力表上,Gemini 的领先趋势已经非常明显。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

Gemini 2.5 Pro (exp),免费用户也能用

好消息是,现在所有用户都能用上 Gemini 2.5 Pro 了。

就在今天,谷歌官宣:向所有 Gemini 用户,推出 Gemini 2.5 Pro 实验版!

而且,还是全免费。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

唯一美中不足的是,Gemini 2.5 Pro 目前还会有速率限制。

但 Gemini Advanced 用户,就可以享有更高级的访问权限,和更大的上下文窗口。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

在上周三刚刚发布时,Gemini 2.5 Pro,还仅仅面向 Gemini Advanced 订阅者开放,订阅价格为每月 19.99 美元。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

而随后,模型还会被推广到安卓和 iOS 应用上。

目前尚不清楚,谷歌是否会将 2.5 Pro 的稳定版本免费提供给所有 Gemini 用户,还是说今天的举措仅针对测试阶段。

在此之前,似乎 2.0 Flash Thinking 和 2.0 Flash 都将是免费提供的版本。

社区网友公认:大模型赛,谷歌已经领先了

AI 社区 Reddit 上的网友们公认:在客观上,谷歌的模型已经领先了。

或许是有史以来第一次,OpenAI 明确处于落后地位,Anthropic 也是如此。

虽然凭吉卜力表情包抢了风头,但这种廉价的伎俩只会在短期内有用。在大模型赛中,局面已经从根本上改变了。

细数 LiveBench、LMSYS、人类最后的考试、智商测试,几乎一切投票都表明,Gemini 是无可争议的领军者。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

有媒体表示谷歌 Gemini 2.5 Pro 是最聪明的模型

根据 Artificial Analysis 的评估,Gemini 2.5 在大部分测试中都遥遥领先,成绩排名第一。

同时,输出速度仅次于 Gemini 2.0 Flash,位列第二。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

当然,如果从原理上看,LLM 的确没有在做数学,因为它们的本质仍然是概率性的,是做从训练数据中预测最可能的答案。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

最强编程模型:模拟宇宙都可以

谷歌的技术主管 Addy Osmani,表示 Gemini 2.5 Pro 是谷歌最好的编程模型,而且免费!

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

他给出了一段 Gemini 制作的 3D 飞行小游戏。

只需提示一次,Gemini 2.5 Pro 可以在 Three.js 中的物理模拟!

多次提示,还可以改进编程效果。

开源链接:https://github.com/gemsjohn/physics-sims

网友 Gadgetify 直接复刻了自己「宇宙模拟器」,只需几次提示。

建立 AI 智能体 DAIR.AI 的 elvis,则认为 Gemini 2.5 Pro 是 Claude 3.7 Sonnet 的最强对手。

Gemini 2.5 Pro 是一款优质代码模型:

· 代码质量真的很好

· 1M 个 token 的上下文

· 原生多模态

· 长代码生成

· 理解大型代码库

利用 Gemini 和 Windsurf,他生成了 AI 搜索代理应用。

不少网友体验 Gemini 2.5 Pro 编程之后,表示 Claude 的确危险了!

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

初步的编码测试中的结果显示,Gemini 2.5 Pro 把行业水平提升了一个档次。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

对此,「AI 智能体先驱」的创始人 Silas Alberti,表示编程助手 Devin 正在引入 Gemini  2.5 Pro。

而从事 SEO 行业的 Julian Goldies 放出 Gemini 2.5 Pro MCP Servers 教程,让智能体自动化一切。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

甚至,有人用 Gemini 2.5 Pro 测试了一个项目,使用 A * 算法为高速列车寻找最优解,这个过程中涉及了优化坡度、转弯半径、多目标优化等难题。

令人惊喜的是,虽然它经常搞乱语法,比如试图把所有代码压缩到一行,但它完成了不少高质量的工作。

谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生谷歌最强 Gemini 2.5 Pro 免费了!数学碾压人类研究生

参考资料:https://artificialanalysis.ai/models/gemini-2-5-prohttps://x.com/petergyang/status/1906007718961492391https://x.com/QiaochuYuan/status/1905967688310268168https://x.com/omarsar0/status/1906404825509560408

https://x.com/renderfiction/status/1905998185962643767https://x.com/GeminiApp/status/1906131622736679332https://x.com/silasalberti/status/1905826070370144450https://www.reddit.com/r/singularity/comments/1jnbtu2/testing_gemini_25_pro_with_a_project_a_algorithm/


【新闻来源】

正文完
 0
评论(没有评论)