AI 的分水岭已至:100 万亿 Token 揭开未来十年的真相

2025 年的 AI 世界正在被彻底改写。

OpenRouter 与 a16z 刚刚发布的《State of AI: 100 Trillion Token Study》给出了一个震撼性的事实:全球真实用户的 100 万亿 Token 交互数据正在重塑 AI 的技术路线、产业格局与使用逻辑。

这份由 Malika Aubakirova、Alex Atallah 等研究者联合完成的报告,第一次让我们清晰看到:

AI 已从“回答问题的工具”跨越到“执行任务的推理代理”。
单步生成正在被多步推理取代;开源模型从边缘跃升为三成市场主力;编程与角色扮演吞噬了大部分算力;用户留存也呈现出前所未有的“灰姑娘玻璃鞋效应”。

也就是说,AI 在 2025 年真正走到了一个分水岭:从会说话的模型,变成开始“思考、分析、决策和操作”的智能体。

下面我们来逐步拆解这篇报告:

图片[1]-AI 的分水岭已至:100 万亿 Token 揭开未来十年的真相-AI Express News

序言:分水岭时刻

如果说2023-2024 年是人们惊叹于AI“能说话的时期,那么2025 年则是AI 开始会思考并真正干活的年份。OpenRouter 联合a16z 发布的这份报告,基于100 万亿Token 的庞大样本量,覆盖了全球数百万开发者和终端用户,精准地捕捉到了这一历史性的转折点 。

报告开篇即定调:202412 日,随着OpenAI 发布首个被广泛采用的推理模型o1(代号Strawberry),AI 领域发生了一场不可逆转的范式转移 。在此之前,大语言模型(LLM)主要是基于单次前向传递的模式生成器,预测下一个Token 是其核心逻辑 。而在此之后,模型转向了多步深思熟虑的推理,这不仅改变了模型的架构,更彻底重塑了下游应用的开发模式、基础设施的需求以及用户的交互行为 。

一、代理推理的全面崛起

报告中最具震撼力的数据趋势,莫过于代理推理的爆发。这不仅仅是一个技术术语的流行,而是AI 真正产生商业价值的基石。

1.1推理模型占据半壁江山

数据展示了一个惊人的增长曲线:在2025 年初,经过推理优化的模型在总Token 使用量中的占比几乎为零。然而,到了2025 11 月,这一比例已经突破了 50%

这意味着什么?意味着全球一半的AI 算力不再是用于简单的问答闲聊,而是被用于处理需要逻辑闭环、多步验证和复杂规划的任务。用户不再满足于AI 给出一个模棱两可的建议,而是要求AI 对结果负责。

  • 领军者易位:在这一领域,市场竞争极其激烈。xAI 的 Grok Code Fast 12025 年末超越了Google 的 Gemini 2.5 Pro,占据了推理流量的头把交椅 。这反映了开发者对于针对代码优化的高速推理模型的极度渴求。
  • OpenAI 的策略:尽管o1 开启了这一时代,但OpenAI 的开源尝试和闭源模型在推理领域的份额正面临Google xAI 的强力挑战。

1.2交互复杂度的指数级膨胀

代理推理的崛起直接导致了交互形态的物理变化。报告指出,平均每个请求的Prompt长度在过去一年中增长了近 ,从2024 年初的约1,500 Tokens 激增至2025 年末的6,000 Tokens 以上 。

这种增长并非用户变得啰嗦,而是因为上下文即代码

  • 用户开始将整个代码仓库、长篇文档、完整的对话历史作为背景知识注入模型 。
  • 模型不再是仅仅生成文本,而是被当作分析引擎来使用 。
  • 输出也在变长:完成Token的数量也增长了近倍 ,这主要是因为推理模型在输出最终答案前,需要生成大量的思维链数据 。

1.3工具调用:从通过到必需

代理的核心定义在于使用工具。报告显示,工具调用的使用率在2025 年呈现稳步上升趋势 。更重要的是,支持工具调用的模型从最初仅限于OpenAI Anthropic 的少数几个高端模型,扩展到了包括GrokGemini 以及各类开源模型在内的广泛生态 。 这标志着AI 与人对话转向了与系统对话。基础设施提供商不仅要处理无状态的文本请求,现在必须管理长运行的对话状态、执行轨迹和权限敏感的工具集成 。

二、开源与闭源的生态博弈与地缘变迁

2025年的AI 模型市场,不再是闭源模型的一言堂,而是演变成了一个复杂的双重结构:闭源守住塔尖,开源重塑塔基,且中国力量异军突起。

2.1 30%的临界点与中国模型的爆发

报告揭示了一个关键的市场格局数据:开源模型的使用量占比已稳定在30%左右 。这其中,最大的变量来自中国。

  • 1% 30%2024 年底,中国开发的开源模型在全球流量中的占比仅为1.2%。而到了2025 年下半年,这一数字在某些周次飙升至近 30%
  • DeepSeek 的统治与衰退:2024 年底至2025 年初,DeepSeek V3 R1 几乎垄断了开源市场,占据了开源总流量的半壁江山 。然而,随着夏季拐点的到来,市场开始碎片化 。
  • 百花齐放:到了2025 年底,没有单一开源模型能占据超过25% 的份额。QwenMeta LlamaMistralMiniMaxMoonshot AI等模型百家争鸣 。这种碎片化表明,开发者不再迷信单一神模型,而是根据任务需求灵活切换,寻求最佳的性价比。

2.2 “中型模型的胜利:Medium is the New Small

报告提出了一个极具洞察力的观点:模型尺寸的哑铃型结构正在瓦解,中型模型成为新宠。

  • 小型模型的消亡:小于15B 参数的小模型虽然数量众多,但使用份额正在持续萎缩 。因为用户发现,它们虽然快,但在处理复杂逻辑时往往力不从心。
  • 中型模型的崛起:15B 70B 参数的模型(被定义为中型)找到了完美的模型-市场契合点” Qwen2.5 Coder 32B 的发布被视为这一类别的立圈之作 。这类模型在保持推理成本低廉的同时,提供了足够胜任编程和角色扮演的智能水平。
  • 大型模型的多元化:70B 以上的大模型并未被抛弃,而是变得更加多元。用户在处理最困难任务时,会在Llama 3.3 70BDeepSeek V3 Qwen 235B 之间进行比价比质” 。 

三、使用场景解码——人类到底在用AI 做什么?

当我们将目光从模型转向用户行为时,报告揭示了一个极度两极分化的世界。AI的使用场景被两大巨头主导:编程角色扮演

3.1编程:AI 的第一生产力

编程类请求的增长曲线最为陡峭。从2025 年初仅占总Token 量的11%,一路狂飙至年底的超过 50%

  • 从辅助到核心:这表明AI 已经深度嵌入到开发者的IDE CI/CD 流程中。它不再是偶尔查一下语法,而是参与代码生成、调试、重构的全过程。
  • Prompt 长度的推手:正是编程任务驱动了前文提到的Prompt 长度激增。因为开发者往往需要将整个文件的上下文甚至跨文件的依赖关系发送给模型 。
  • Anthropic 的护城河与挑战:在编程领域,Anthropic Claude 系列长期保持着统治地位,一度占据超过60% 的消费份额 。然而,这一护城河正在被侵蚀。OpenAI(通过GPT-OSS)份额回升至8%,而MiniMax 等新秀也在快速崛起 。 

3.2角色扮演:开源世界的隐形王者

如果说编程是闭源模型的强项,那么角色扮演则是开源模型的绝对主场。在开源模型的使用中,超过50% Token 被用于角色扮演

  • 结构化的幻想:报告通过细分标签发现,这不仅仅是闲聊。其中近60% 的流量属于游戏/角色扮演游戏” 。这意味着用户正在利用AI 构建复杂的世界观、剧情分支和角色互动。
  • 为什么是开源?开源模型之所以在此领域独领风骚,主要归功于其无审查低审查的特性,以及易于进行特定风格微调(Fine-tuning)的能力 。用户需要的是一个能沉浸在特定设定中、不会因为触碰安全边界而跳出戏的AI
  • 中国模型的转变:有趣的是,虽然中国模型起初也大量用于角色扮演,但到了2025 年底,其在编程和技术类任务中的占比已升至39%,显示出中国模型正从娱乐向生产力向转型 。 

3.3长尾场景的启示

除了这两大巨头,其他场景如科学、健康、翻译虽然占比不高,但各有特点。

  • 科学:80% 的科学类请求实际上是关于机器学习与AI”本身的元问题 。
  • 健康:这是一个高度碎片化的领域,没有主导的子标签,反映了医疗咨询的复杂性和长尾效应 。
  • 技术:这是一个极其昂贵的类别,拥有最高的单次Token 成本,通常涉及复杂的系统架构设计 。 

四、留存分析——“灰姑娘的水晶鞋效应

报告引入了一个极具理论深度的概念——灰姑娘的水晶鞋效应The Cinderella "Glass Slipper" Effect,以此来解释AI 用户的留存机制 。

4.1只有第一才有留存

理论指出,在快速迭代的AI 市场中,用户留存并不取决于模型是否好用,而取决于模型是否是第一个完美解决用户特定痛点的产品。

  • 基石群组:当一个新模型发布并恰好解决了一类此前无法解决的问题时,这一批早期用户就会形成极高的粘性。他们会围绕这个模型构建工作流、数据管道和使用习惯,形成强大的锁定效应 。
  • GPT-4o Mini 的案例:数据显示,GPT-4o Mini 2024 月发布时的首批用户留存率极高,因为它是当时市场上首个兼具高性能与极低成本的模型。而后续加入的用户群组,由于市场上已有类似选择,留存率则大幅下降 。
  • 反面教材:Llama 4 Maverick Gemini 2.0 Flash 的留存曲线则显示出所有群组一致的低迷。这说明它们发布时,市场上已存在足够好的替代品,未能捕捉到任何未被满足的痛点,从而无法建立基石群组 。 

4.2 DeepSeek回旋镖效应

DeepSeek的数据展示了一种罕见且反直觉的现象——复活

  • 现象:通常用户的留存率是单调下降的,但DeepSeek 的某些群组在流失几个月后,留存率反而出现了回升 。
  • 解释:报告称之为回旋镖效应。这表明用户在尝试了其他竞争对手的模型后,发现DeepSeek 在特定任务(可能是性价比、特定中文语境理解或无审查特性)上仍具有不可替代的优势,因此最终选择回归 。这是极强的产品-市场契合度(PMF)的信号。 

五、经济学视角——成本、效用与杰文斯悖论

5.1价格弹性的宏观失效

在宏观层面,AI市场的需求表现出价格缺乏弹性。数据显示,价格每下降10%,使用量仅增加0.5-0.7% 。这说明用户对于AI 的需求主要由任务的价值驱动,而非成本驱动。

  • 高端锁定:对于高价值任务(如复杂编程、企业级应用),用户愿意支付高昂溢价。Anthropic Claude 3.7 Sonnet 即使定价高达每百万Token 2 美元,依然拥有巨大的使用量 。
  • 低端锁定:对于低价值或高频任务,用户则涌向极低成本的模型。 

5.2微观层面的杰文斯悖论

然而,在高效巨头这一细分市场(如Gemini Flash, DeepSeek V3),报告观察到了杰文斯悖论(Jevons Paradox)的迹象 。

  • 随着这些模型变得极度便宜且快速,用户并没有通过减少支出来省钱,反而通过大幅增加上下文长度、进行更多轮次的迭代、通过代理自动化更多流程,从而消耗了更多的Token 总量 。
  • 这意味着,低成本模型正在解锁全新的、以前因成本过高而不可行的用例。 

5.3价值四象限

报告根据成本和使用量将AI 任务划分为四个象限 :

  • 大众流量驱动:低价、高频。编程角色扮演是这一区域的绝对主宰。这是AI 的基本盘。
  • 高端工作流:高价、高频。技术(Technology)类任务是典型代表,用户愿意为复杂的架构建议支付高价。
  • 专业专家:高价、低频。包括金融、学术、健康。这些任务对准确性要求极高,但频次相对较低。
  • 利基工具:低价、低频。如翻译、法律、冷知识。这些任务往往已有成熟的非AI 替代方案,或已被高度商品化。 

六、地缘政治——亚洲的崛起

AI的地理版图正在发生剧变。OpenRouter 的数据打破了“AI 是硅谷游戏的刻板印象。

  • 亚洲崛起:亚洲地区的支出份额从数据集初期的13% 飙升至 31%,翻了一倍多 。这不仅归功于中国作为模型生产者的崛起,也反映了亚洲作为AI 消费市场的巨大潜力。
  • 欧洲稳定,北美收缩:北美虽然仍是最大市场,但份额已降至50% 以下。欧洲则保持稳定,维持在15%-20% 左右 。
  • 语言分布:尽管英语占据了82.87% 的绝对主导地位,但简体中文(4.95%)和俄语(2.47%)构成了有意义的长尾,这与DeepSeek Qwen 等多语言能力强的模型崛起密切相关 。  

七、总结与深度思考——迈向2026

基于这份详尽的报告,我们可以清晰地看到AI 行业在2025 年完成的蜕变,并对未来做出预判。

7.1玩具同事

如果说ChatGPT 的初期爆发带有强烈的猎奇色彩,那么2025 年的数据证明AI 已经彻底工具化、职业化。编程类请求超过50% 的份额,以及推理模型的主导地位,说明AI 已经从一个陪你聊天的机器人变成了一个帮你写代码、查Bug、设计架构的同事代理推理不再是实验性的功能,而是新一代AI 应用的默认交互方式 。

7.2开源的韧性与差异化

开源模型没有被闭源模型卷死,反而通过差异化找到了生存空间。

  • 生产力端,中型开源模型(如Qwen Coder)提供了极致的性价比,成为开发者的本地助手。
  • 情感端,开源模型通过无审查的角色扮演(DeepSeek, Llama 微调版),满足了人类深层的心理需求。 这种左右互搏的能力,使得开源生态在2025 年稳住了30% 的市场份额,并不仅是闭源的拙劣模仿者。 

7.3留存的残酷真理

水晶鞋效应揭示了AI 创业的残酷性:平庸没有出路。单纯的好模型无法留住用户,只有第一名或者极具差异化的模型才能建立基石群组。对于模型厂商而言,这意味着必须不断寻找未被满足的Edge Case(边缘场景),或者在推理能力上取得代际领先(如o1 之于推理,DeepSeek 之于性价比)。

7.4未来的竞争高地

报告最后指出了下一个竞争前沿:操作卓越性。 随着代理推理成为主流,评估模型的标准将从单一的回答准确率转向任务完成率。谁能让Agent 在执行10 步复杂操作时不掉链子,谁能让长上下文的推理既快又便宜,谁就是2026 年的王者。

2025 年的日历即将翻过,这份报告留给我们的最大启示在于:

AI 已经度过了它的孩童期。它不再是一个需要被哄着说话的聊天机器人,而是一个正在迅速融入全球数字基础设施的庞大工业机器。

无论是对于那些试图用AI 重构业务的企业,还是试图在代码与幻想中寻找慰藉的个人,理解这种从对话代理,从尝鲜依赖的转变,都将是适应未来十年的关键。


<

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容