阶跃星辰核心团队做客Reddit r/LocalLLaMA：Step 3.5 Flash 的工程取舍与下一步-AI Express News

“Step 3.5 Flash 的目标，从一开始就是三件事：智能密度、推理与生成速度、Agent 能力。目标清晰后，算法、数据与基础设施会自然对齐。”

近日，阶跃星辰核心研发团队带着这款 Agent 基座模型，做客 Reddit r/LocalLLaMA社区，与极客开发者们面对面交流。

面对社区开发者最关心的技术内幕与开源规划，我们的研发团队逐一给出了回应，一起回顾下这场纯粹、透明的深度对话吧！

01 直击现场：阶跃星辰研发团队走进海外开源社区

面对汇聚了全球硬核开发者的 Reddit r/LocalLLaMA 社区，阶跃星辰拿出了十足的诚意。

此次 AMA 由 CEO、CTO、首席科学家以及预训练、后训练、Agent 等各核心算法团队组团上阵，毫无保留地回应开发者的每一个关切。

我们在正文中为大家摘录了这场火热交流的冰山一角。而这场精彩的思维碰撞，都始于团队最初向屏幕另一端的全球极客们发出的真诚邀请：

StepFun_ai:

嗨，r/LocalLLaMA 社区的朋友们！

我们是 StepFun Team，Step 系列模型（包括 Step 3.5 Flash 和 Step-3-VL-10B）背后的研发团队。

我们非常激动，在这个社区举办我们的首场 AMA 活动。届时参与互动的团队成员将包括我们的 CEO、CTO、首席科学家以及大语言模型（LLM）研究员。

02 深度对话：为什么 11B 激活参数是理想的 Agent 基座模型？

“既要聪明，又不能太吃显存”是当前所有 Agent 开发者的共同痛点。在探讨模型尺寸和硬件适配时，将激活参数规模最终定格在 11B，其实藏着主创团队自己作为“本地模型极客玩家”的小巧思。

开发者 award_reply 提问：

在规划 Step 3.5 Flash 时，你们是否心中已经瞄准了这个特定的“最佳平衡点”：89 tokens/参数，并且正好卡在消费级硬件规模的上限（128GB 用于 Q4 量化，11B 激活参数以保证实用的运行速度）？

CTO bobzhuyb 回复：

我们的确有一个目标，就是让它能够跑在一个 128GB 内存系统的内存中。我自己就有一台配备 128GB 内存和 M3 Max 芯片的 Macbook Pro（是我自己掏钱买的，不是公司配的！），并且我非常喜欢玩本地模型。我们的首席科学家 Xiangyu （张祥雨）几个月前也买了一台个人的、拥有 128GB 内存的 AMD Max+AI 395。

我发现现有的约 230B 规模的模型（以 Qwen 为代表）刚好超出了我这台 Mac 的 4 位量化承受范围，所以我让团队把规模稍微缩小了一点。我相信有很多像我和 Xiangyu 一样有此爱好的人。

03 硬核解密：MTP-3 预测头与 350 TPS 背后的架构美学

天下武功，唯快不破。要想在复杂的 Agent 任务中实现最高 350 TPS 的生成速度，又要做到保持极高的执行准确率，依靠简单的化远远不够。

在问答环节中，预训练与后训练团队研究员从底层视角出发，硬核拆解让模型“既快又聪明”的架构细节：即 MTP-3 预测头与强化学习（RL）框架的相辅相成。

预训练研究员Elegant-Sale-1328 发言：

预训练架构差异化：从一开始，我们就与系统团队紧密合作，带着一个特定的目标共同设计架构，即弥合前沿级别的智能体能力与计算效率之间的差距。我们沿着三个相互关联的轴心对 Step 3.5 Flash 进行了低实际响应延迟（ wall-clock latency ）的协同设计：注意力机制（我们使用 GQA8 和 SWA 来加速长上下文处理，并且与 MTP 有很好的亲和力）、采用稀疏 MoE 而非稠密架构以提高推理速度（我们使用 EP-group loss 来防止出现降低吞吐量的“掉队者”），以及 MTP-3（多 Token 预测；旨在通过投机解码促进快速生成）。

后训练研究员 SavingsConclusion298 发言：

我们的与众不同之处（后训练方面）：

我们在迈向前沿级智能的可扩展 RL（强化学习）框架上投入了大量资源。关键是将可验证的信号（例如，数学/代码的正确性）与偏好反馈整合在一起，同时保持大规模异策略训练的稳定性。这让我们能够在数学、代码和工具使用方面推动持续的自我提升，而不会破坏基础模型的稳定性。

04 坦诚对话：直面无限推理循环 Bug 反馈与 3.6 版本开源路线

在这场高密度的技术对谈中，团队没有绕开任何“尖锐”的声音。无论是直面早期版本中工具调用的 Bug 反馈，还是解答开发者最关心的 Base 模型何时释出，研发人员都在第一时间给出了透明的进度表与明确承诺。

开发者 Expensive-Paint-9490 提问：

感谢你们出色的工作，Step 3.5 flash 是我最喜欢的模型之一。

你们有没有考虑过将基础模型（base model）与指令/思考模型（instruct/thinking one）一起发布？这样社区就可以对它进行微调了。还是说，这涉及一些监管风险？

首席科学家 Lost-Nectarine1016 ：

我们将在未来一两周内发布 Step 3.5 Flash base model ，以及一个一体化的训练代码库。在下一个版本 3.6 中，将支持思考强度切换（低强度推理在体验上非常接近纯对话模型，但要精确得多）。

对于工具调用 Bug：

开发者 __JockY__ 提问：

感谢你们开放模型的权重。我的问题是：

你们是否会考虑向 vllm、sglang 和 llama.cpp 团队提交功能完整的 PR（拉取请求），以确保在发布首日（Day 0）你们的模型就能支持工具调用（tool calling）？

在发布的当天，对于上述任何主流推理栈，工具调用的解析器在 Step3.5-Flash 上根本无法工作。老实说，我不知道现在工具调用是否能用了……很遗憾地说，我放弃了尝试并换回了 MiniMax-M2.x。

我听到了很多关于这个模型的好评。可惜它不能（或者现在仍然不能？）调用工具。

你们会考虑协助确保未来的模型在发布首日就能支持工具调用吗？你们会帮助 Step 3.5 实现全面支持吗？谢谢！

CTO bobzhuyb 回复：

你好，对于发布首日 vllm/sglang/llama.cpp 对工具调用的支持不完整，我感到非常抱歉。我们在发布前与 vllm 和 sglang 社区进行了合作，以确保他们能在首日运行该模型。遗憾的是，我们的测试用例没有覆盖到工具调用——我们只确保了推理基准测试（例如，数学和竞技编程）与我们的内部基准测试结果相匹配。

我相信我们已经修复了相当多工具调用的问题。如果还有更多问题，我们承诺一旦发现，就会全部予以修复。

这确实表明我们在发布支持工具调用的模型方面经验不足。然而，随着时间的推移，这肯定会得到改善。在我们的下一次发布中，你可能会看到它将与那些发布较早（并且更早修复了工程 bug）的其他模型一样成熟。