“Step 3.5 Flash 的目标,从一开始就是三件事:智能密度、推理与生成速度、Agent 能力。目标清晰后,算法、数据与基础设施会自然对齐。”
近日,阶跃星辰核心研发团队带着这款 Agent 基座模型,做客 Reddit r/LocalLLaMA社区,与极客开发者们面对面交流。
面对社区开发者最关心的技术内幕与开源规划,我们的研发团队逐一给出了回应,一起回顾下这场纯粹、透明的深度对话吧!
01 直击现场:阶跃星辰研发团队走进海外开源社区
面对汇聚了全球硬核开发者的 Reddit r/LocalLLaMA 社区,阶跃星辰拿出了十足的诚意。
此次 AMA 由 CEO、CTO、首席科学家以及预训练、后训练、Agent 等各核心算法团队组团上阵,毫无保留地回应开发者的每一个关切。
我们在正文中为大家摘录了这场火热交流的冰山一角。而这场精彩的思维碰撞,都始于团队最初向屏幕另一端的全球极客们发出的真诚邀请:
![图片[1]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021753807-1772216273-ddb8badca550daf5ae6c9ddfa825959c.png)
StepFun_ai:
嗨,r/LocalLLaMA 社区的朋友们!
我们是 StepFun Team,Step 系列模型(包括 Step 3.5 Flash 和 Step-3-VL-10B)背后的研发团队。
我们非常激动,在这个社区举办我们的首场 AMA 活动。届时参与互动的团队成员将包括我们的 CEO、CTO、首席科学家以及大语言模型(LLM)研究员。
02 深度对话:为什么 11B 激活参数是理想的 Agent 基座模型?
“既要聪明,又不能太吃显存”是当前所有 Agent 开发者的共同痛点。在探讨模型尺寸和硬件适配时,将激活参数规模最终定格在 11B,其实藏着主创团队自己作为“本地模型极客玩家”的小巧思。
![图片[2]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021755771-1772216275-2a189559135c3e047944c42e50a7d490.png)
开发者 award_reply 提问:
在规划 Step 3.5 Flash 时,你们是否心中已经瞄准了这个特定的“最佳平衡点”:89 tokens/参数,并且正好卡在消费级硬件规模的上限(128GB 用于 Q4 量化,11B 激活参数以保证实用的运行速度)?
CTO bobzhuyb 回复:
我们的确有一个目标,就是让它能够跑在一个 128GB 内存系统的内存中。我自己就有一台配备 128GB 内存和 M3 Max 芯片的 Macbook Pro(是我自己掏钱买的,不是公司配的!),并且我非常喜欢玩本地模型。我们的首席科学家 Xiangyu (张祥雨)几个月前也买了一台个人的、拥有 128GB 内存的 AMD Max+AI 395。
我发现现有的约 230B 规模的模型(以 Qwen 为代表)刚好超出了我这台 Mac 的 4 位量化承受范围,所以我让团队把规模稍微缩小了一点。我相信有很多像我和 Xiangyu 一样有此爱好的人。
03 硬核解密:MTP-3 预测头与 350 TPS 背后的架构美学
天下武功,唯快不破。要想在复杂的 Agent 任务中实现最高 350 TPS 的生成速度,又要做到保持极高的执行准确率,依靠简单的化远远不够。
在问答环节中,预训练与后训练团队研究员从底层视角出发,硬核拆解让模型“既快又聪明”的架构细节:即 MTP-3 预测头与强化学习(RL)框架的相辅相成。
![图片[3]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021757863-1772216277-a912d7da9240a9f09d64fc84cb81e82d.png)
预训练研究员Elegant-Sale-1328 发言:
预训练架构差异化:从一开始,我们就与系统团队紧密合作,带着一个特定的目标共同设计架构,即弥合前沿级别的智能体能力与计算效率之间的差距。我们沿着三个相互关联的轴心对 Step 3.5 Flash 进行了低实际响应延迟( wall-clock latency )的协同设计:注意力机制(我们使用 GQA8 和 SWA 来加速长上下文处理,并且与 MTP 有很好的亲和力)、采用稀疏 MoE 而非稠密架构以提高推理速度(我们使用 EP-group loss 来防止出现降低吞吐量的“掉队者”),以及 MTP-3(多 Token 预测;旨在通过投机解码促进快速生成)。
![图片[4]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021758169-1772216278-c4a04623a3da3b036212f935cb9204f5.png)
后训练研究员 SavingsConclusion298 发言:
我们的与众不同之处(后训练方面):
我们在迈向前沿级智能的可扩展 RL(强化学习)框架上投入了大量资源。关键是将可验证的信号(例如,数学/代码的正确性)与偏好反馈整合在一起,同时保持大规模异策略训练的稳定性。这让我们能够在数学、代码和工具使用方面推动持续的自我提升,而不会破坏基础模型的稳定性。
04 坦诚对话:直面无限推理循环 Bug 反馈与 3.6 版本开源路线
在这场高密度的技术对谈中,团队没有绕开任何“尖锐”的声音。无论是直面早期版本中工具调用的 Bug 反馈,还是解答开发者最关心的 Base 模型何时释出,研发人员都在第一时间给出了透明的进度表与明确承诺。
![图片[5]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021759524-1772216279-9cc95b2bd97b4844f53ce1c75cc95182.png)
开发者 Expensive-Paint-9490 提问:
感谢你们出色的工作,Step 3.5 flash 是我最喜欢的模型之一。
你们有没有考虑过将基础模型(base model)与指令/思考模型(instruct/thinking one)一起发布?这样社区就可以对它进行微调了。还是说,这涉及一些监管风险?
首席科学家 Lost-Nectarine1016 :
我们将在未来一两周内发布 Step 3.5 Flash base model ,以及一个一体化的训练代码库。在下一个版本 3.6 中,将支持思考强度切换(低强度推理在体验上非常接近纯对话模型,但要精确得多)。
对于工具调用 Bug:
![图片[6]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021801501-1772216281-5bd02eb7b2c924525aa10c1c9c433876.png)
开发者 __JockY__ 提问:
感谢你们开放模型的权重。我的问题是:
你们是否会考虑向 vllm、sglang 和 llama.cpp 团队提交功能完整的 PR(拉取请求),以确保在发布首日(Day 0)你们的模型就能支持工具调用(tool calling)?
在发布的当天,对于上述任何主流推理栈,工具调用的解析器在 Step3.5-Flash 上根本无法工作。老实说,我不知道现在工具调用是否能用了……很遗憾地说,我放弃了尝试并换回了 MiniMax-M2.x。
我听到了很多关于这个模型的好评。可惜它不能(或者现在仍然不能?)调用工具。
你们会考虑协助确保未来的模型在发布首日就能支持工具调用吗?你们会帮助 Step 3.5 实现全面支持吗?谢谢!
CTO bobzhuyb 回复:
你好,对于发布首日 vllm/sglang/llama.cpp 对工具调用的支持不完整,我感到非常抱歉。我们在发布前与 vllm 和 sglang 社区进行了合作,以确保他们能在首日运行该模型。遗憾的是,我们的测试用例没有覆盖到工具调用——我们只确保了推理基准测试(例如,数学和竞技编程)与我们的内部基准测试结果相匹配。
我相信我们已经修复了相当多工具调用的问题。如果还有更多问题,我们承诺一旦发现,就会全部予以修复。
这确实表明我们在发布支持工具调用的模型方面经验不足。然而,随着时间的推移,这肯定会得到改善。在我们的下一次发布中,你可能会看到它将与那些发布较早(并且更早修复了工程 bug)的其他模型一样成熟。
05 极客证言:来自 Reddit 社区的开发者真实原声
对于验证技术是否真的过硬,跑在最前线的开发者们拥有最终话语权。Step 3.5 Flash 高度契合消费级内存架构的特性,在发布后迅速击中了众多海外极客的爽点,评论区里不乏前 1% 资深玩家的硬核证言:
![图片[7]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021802769-1772216282-eddc925a3b5a03df4c326fd708ab99e1.png)
开发者 ilintar 表达:
我觉得 197B MoE 是一个完美的参数规模——它允许高质量的 4 位量化加上合理的上下文长度刚好能放入 128GB 内存中,而且我觉得由于内存/GPU 价格的飙升,统一内存系统在接下来的几个月里会变得越来越流行。
![图片[8]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021803270-1772216283-b06ddee61befac32f89a4399f4bdf0d8.png)
开发者 Adventurous-Okra-407 表达:
Step 3.5 真的是个非常棒的模型。它的体量恰到好处,单颗 Strix Halo 刚好就能跑得动,而且在同等规模的模型里,它表现得非常强大且聪明。期待你们能推出更多这样的好模型!
![图片[9]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021804443-1772216284-8060c6f8f4b18d1530ab92c6e9d10c27.png)
开发者 tarruda 表达:
感谢你们出色的工作,期待后续的发布!
06 寻找你的 Agent 搭子:即刻上手 Step 3.5 Flash
说了这么多,Step 3.5 Flash 真正用起来到底有多强?作为帮你处理复杂任务的 Agent 搭子,它在智商、速度和成本上,都已经达到了极佳的平衡:
![图片[10]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021805901-1772216285-ba88d562154f8d27443c456fff579ee9-scaled.png)
顶尖智商:AIME 2025 逻辑推理测试得分 97.3,具备极强的 Agent 工具调用与多步规划能力
极致速率:推理速度最高达每秒 350 个 Token,相当于一秒钟写完一页纸
精巧高效:11B 激活参数,算力成本低至 12.1%,显存门槛仅 24GB(单张 RTX 4090 即可运行)
一个彩蛋:
![图片[11]-阶跃星辰核心团队做客Reddit r/LocalLLaMA:Step 3.5 Flash 的工程取舍与下一步-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260228021807150-1772216287-9df45d530f8b8201002597f81daa3b79.png)
开发者 uglylookingguy 提问:
你认为目前大多数开源模型实验室做错的地方是什么?
CEO Ok_Reach_5122 回复:
也许是不该在春节期间发布模型?:-) 你知道的,这是中国最隆重的节日,是全家团圆的日子。
但我也能理解,大家(包括我们在内)都迫不及待地想把好东西分享给整个社区。
我们欢迎更多开发者体验 Step 3.5 Flash,一起探索 Agent 的无限可能。
Step 3.5 Flash 模型体验:
OpenRouter 限免中,0 成本升级你的 Agent:https://openrouter.ai/stepfun/step-3.5-flash:free
GitHub 下载快速部署,打造专属 Agent:https://github.com/stepfun-ai/Step-3.5-Flash/tree/main
HuggingFace:https://huggingface.co/stepfun-ai/Step-3.5-Flash;
ModelScope:https://modelscope.cn/models/stepfun-ai/Step-3.5-Flash
下载「阶跃 AI」APP 或前往阶跃 AI 网页端(https://www.stepfun.com/)体验
Tech Report: https://arxiv.org/pdf/2602.10604
更多技术细节:https://static.stepfun.com/blog/step-3.5-flash/
阅读 AMA 完整版,点击“阅读原文”直达 Reddit 原帖。
<原文链接:https://mp.weixin.qq.com/s/4eivRMPEW53h5Jypk2H8Ew

















暂无评论内容