阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步

“Step 3.5 Flash 的目标,从一开始就是三件事:智能密度、推理与生成速度、Agent 能力。目标清晰后,算法、数据与基础设施会自然对齐。”

近日,阶跃星辰核心研发团队带着这款 Agent 基座模型做客 Reddit r/LocalLLaMA社区极客开发者们面对面交流

面对社区开发者最关心的技术内幕与开源规划,我们的研发团队逐一给出了回应,一起回顾下这场纯粹、透明的深度对话吧!

01 直击现场:阶跃星辰研发团队走进海外开源社区

面对汇聚了全球硬核开发者的 Reddit r/LocalLLaMA 社区,阶跃星辰拿出了十足的诚意。

此次 AMA 由 CEO、CTO、首席科学家以及预训练、后训练、Agent 等各核心算法团队组团上阵,毫无保留地回应开发者的每一个关切。

我们在正文中为大家摘录了这场火热交流的冰山一角。而这场精彩的思维碰撞,都始于团队最初向屏幕另一端的全球极客们发出的真诚邀请:

图片[1]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

StepFun_ai: 

嗨,r/LocalLLaMA 社区的朋友们!

我们是 StepFun Team,Step 系列模型(包括 Step 3.5 Flash 和 Step-3-VL-10B)背后的研发团队。

我们非常激动,在这个社区举办我们的首场 AMA 活动。届时参与互动的团队成员将包括我们的 CEO、CTO、首席科学家以及大语言模型(LLM)研究员。

02 深度对话:为什么 11B 激活参数是理想的 Agent 基座模型?

“既要聪明,又不能太吃显存”是当前所有 Agent 开发者的共同痛点。在探讨模型尺寸和硬件适配时,将激活参数规模最终定格在 11B,其实藏着主创团队自己作为“本地模型极客玩家”的小巧思。

图片[2]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

开发者 award_reply 提问:

在规划 Step 3.5 Flash 时,你们是否心中已经瞄准了这个特定的“最佳平衡点”:89 tokens/参数,并且正好卡在消费级硬件规模的上限(128GB 用于 Q4 量化,11B 激活参数以保证实用的运行速度)?

CTO bobzhuyb 回复:

我们的确有一个目标,就是让它能够跑在一个 128GB 内存系统的内存中。我自己就有一台配备 128GB 内存和 M3 Max 芯片的 Macbook Pro(是我自己掏钱买的,不是公司配的!),并且我非常喜欢玩本地模型。我们的首席科学家 Xiangyu (张祥雨)几个月前也买了一台个人的、拥有 128GB 内存的 AMD Max+AI 395。

我发现现有的约 230B 规模的模型(以 Qwen 为代表)刚好超出了我这台 Mac 的 4 位量化承受范围,所以我让团队把规模稍微缩小了一点。我相信有很多像我和 Xiangyu 一样有此爱好的人。

03 硬核解密:MTP-3 预测头与 350 TPS 背后的架构美学

天下武功,唯快不破。要想在复杂的 Agent 任务中实现最高 350 TPS 的生成速度,又要做到保持极高的执行准确率,依靠简单的化远远不够。

在问答环节中,预训练与后训练团队研究员从底层视角出发,硬核拆解让模型“既快又聪明”的架构细节:即 MTP-3 预测头与强化学习(RL)框架的相辅相成。

图片[3]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

预训练研究员Elegant-Sale-1328 发言:

预训练架构差异化:从一开始,我们就与系统团队紧密合作,带着一个特定的目标共同设计架构,即弥合前沿级别的智能体能力与计算效率之间的差距。我们沿着三个相互关联的轴心对 Step 3.5 Flash 进行了低实际响应延迟( wall-clock latency )的协同设计:注意力机制(我们使用 GQA8 和 SWA 来加速长上下文处理,并且与 MTP 有很好的亲和力)、采用稀疏 MoE 而非稠密架构以提高推理速度(我们使用 EP-group loss 来防止出现降低吞吐量的“掉队者”),以及 MTP-3(多 Token 预测;旨在通过投机解码促进快速生成)。

图片[4]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

后训练研究员 SavingsConclusion298 发言:

我们的与众不同之处(后训练方面):

我们在迈向前沿级智能的可扩展 RL(强化学习)框架上投入了大量资源。关键是将可验证的信号(例如,数学/代码的正确性)与偏好反馈整合在一起,同时保持大规模异策略训练的稳定性。这让我们能够在数学、代码和工具使用方面推动持续的自我提升,而不会破坏基础模型的稳定性。

04 坦诚对话:直面无限推理循环 Bug 反馈与 3.6 版本开源路线

在这场高密度的技术对谈中,团队没有绕开任何“尖锐”的声音。无论是直面早期版本中工具调用的 Bug 反馈,还是解答开发者最关心的 Base 模型何时释出,研发人员都在第一时间给出了透明的进度表与明确承诺。

图片[5]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

开发者 Expensive-Paint-9490 提问:

感谢你们出色的工作,Step 3.5 flash 是我最喜欢的模型之一。

你们有没有考虑过将基础模型(base model)与指令/思考模型(instruct/thinking one)一起发布?这样社区就可以对它进行微调了。还是说,这涉及一些监管风险?

首席科学家 Lost-Nectarine1016 :

我们将在未来一两周内发布 Step 3.5 Flash base model ,以及一个一体化的训练代码库。在下一个版本 3.6 中,将支持思考强度切换(低强度推理在体验上非常接近纯对话模型,但要精确得多)。

对于工具调用 Bug:

图片[6]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

开发者 __JockY__ 提问:

感谢你们开放模型的权重。我的问题是:

你们是否会考虑向 vllm、sglang 和 llama.cpp 团队提交功能完整的 PR(拉取请求),以确保在发布首日(Day 0)你们的模型就能支持工具调用(tool calling)?

在发布的当天,对于上述任何主流推理栈,工具调用的解析器在 Step3.5-Flash 上根本无法工作。老实说,我不知道现在工具调用是否能用了……很遗憾地说,我放弃了尝试并换回了 MiniMax-M2.x。

我听到了很多关于这个模型的好评。可惜它不能(或者现在仍然不能?)调用工具。

你们会考虑协助确保未来的模型在发布首日就能支持工具调用吗?你们会帮助 Step 3.5 实现全面支持吗?谢谢!

CTO bobzhuyb 回复:

你好,对于发布首日 vllm/sglang/llama.cpp 对工具调用的支持不完整,我感到非常抱歉。我们在发布前与 vllm 和 sglang 社区进行了合作,以确保他们能在首日运行该模型。遗憾的是,我们的测试用例没有覆盖到工具调用——我们只确保了推理基准测试(例如,数学和竞技编程)与我们的内部基准测试结果相匹配。

我相信我们已经修复了相当多工具调用的问题。如果还有更多问题,我们承诺一旦发现,就会全部予以修复。

这确实表明我们在发布支持工具调用的模型方面经验不足。然而,随着时间的推移,这肯定会得到改善。在我们的下一次发布中,你可能会看到它将与那些发布较早(并且更早修复了工程 bug)的其他模型一样成熟。

05 极客证言:来自 Reddit 社区的开发者真实原声

对于验证技术是否真的过硬,跑在最前线的开发者们拥有最终话语权。Step 3.5 Flash 高度契合消费级内存架构的特性,在发布后迅速击中了众多海外极客的爽点,评论区里不乏前 1% 资深玩家的硬核证言:

图片[7]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

开发者 ilintar 表达:

我觉得 197B MoE 是一个完美的参数规模——它允许高质量的 4 位量化加上合理的上下文长度刚好能放入 128GB 内存中,而且我觉得由于内存/GPU 价格的飙升,统一内存系统在接下来的几个月里会变得越来越流行。

图片[8]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

开发者 Adventurous-Okra-407 表达:

Step 3.5 真的是个非常棒的模型。它的体量恰到好处,单颗 Strix Halo 刚好就能跑得动,而且在同等规模的模型里,它表现得非常强大且聪明。期待你们能推出更多这样的好模型!

图片[9]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

开发者 tarruda 表达:

感谢你们出色的工作,期待后续的发布!

06 寻找你的 Agent 搭子:即刻上手 Step 3.5 Flash

说了这么多,Step 3.5 Flash 真正用起来到底有多强?作为帮你处理复杂任务的 Agent 搭子,它在智商、速度和成本上,都已经达到了极佳的平衡:

图片[10]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News
  • 顶尖智商:AIME 2025 逻辑推理测试得分 97.3,具备极强的 Agent 工具调用与多步规划能力

  • 极致速率:推理速度最高达每秒 350 个 Token,相当于一秒钟写完一页纸

  • 精巧高效:11B 激活参数,算力成本低至 12.1%,显存门槛仅 24GB(单张 RTX 4090 即可运行)

一个彩蛋:

图片[11]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News

开发者 uglylookingguy 提问:

你认为目前大多数开源模型实验室做错的地方是什么?

CEO Ok_Reach_5122 回复:

也许是不该在春节期间发布模型?:-) 你知道的,这是中国最隆重的节日,是全家团圆的日子。

但我也能理解,大家(包括我们在内)都迫不及待地想把好东西分享给整个社区。

我们欢迎更多开发者体验 Step 3.5 Flash,一起探索 Agent 的无限可能。

Step 3.5 Flash 模型体验

  • OpenRouter 限免中,0 成本升级你的 Agent:https://openrouter.ai/stepfun/step-3.5-flash:free

  • GitHub 下载快速部署,打造专属 Agent:https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

  • HuggingFace:https://huggingface.co/stepfun-ai/Step-3.5-Flash;

  • ModelScope:https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash

  • 下载「阶跃 AI」APP 或前往阶跃 AI 网页端(https://www.stepfun.com/)体验

  • Tech Report: https://arxiv.org/pdf/2602.10604

  • 更多技术细节:https://static.stepfun.com/blog/step-3.5-flash/

阅读 AMA 完整版,点击“阅读原文”直达 Reddit 原帖。

<原文链接:https://mp.weixin.qq.com/s/4eivRMPEW53h5Jypk2H8Ew

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容