Qwen3.5：迈向原生多模态智能体-AI Express News

我们很高兴正式发布 Qwen3.5，并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的开放权重版本。作为原生视觉-语言模型，Qwen3.5-397B-A17B 在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异，助力开发者与企业显著提升生产力。该模型采用创新的混合架构，将线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）相结合，实现出色的推理效率：总参数量达 3970 亿，每次前向传播仅激活 170 亿参数，在保持能力的同时优化速度与成本。我们还将语言与方言支持从 119 种扩展至 201 种，为全球用户提供更广泛的可用性与更完善的支持。

（Qwen3.5-Plus性能表现）

欢迎体验

Qwen Chat：

https://chat.qwen.ai/

模型表现

自然语言

下面我们在多种评估任务与模态下，对 Qwen3.5 与前沿模型进行全面对比评估。

视觉语言

相对于 Qwen3 系列模型，Qwen3.5 的 Post-training 性能提升主要来自于我们对各类 RL 任务和环境的全面扩展。我们更加强调 RL 环境的难度与可泛化性，而非针对特定指标或狭隘类别的 query 进行优化。下图展示了在通用 Agent 能力上，模型效果随 RL Environment scaling 带来的增益。整体性能由各模型在以下基准上的平均排名计算得出：BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark。更多任务的 scaling 效果将在我们即将发布的技术报告中详述。

（Agent能力上，模型效果随着RL Environment scaling带来的增益）

预训练

Qwen3.5 在能力、效率与通用性三个维度上推进预训练：

能力（Power）：在更大规模的视觉-文本语料上训练，并加强中英文、多语言、STEM 与推理数据，采用更严格的过滤，实现跨代持平：Qwen3.5-397B-A17B 与参数量超过 1T 的 Qwen3-Max-Base 表现相当。
效率（Efficiency）：基于 Qwen3-Next 架构——更高稀疏度的 MoE、Gated DeltaNet + Gated Attention 混合注意力、稳定性优化与多 token 预测。在 32k/256k 上下文长度下，Qwen3.5-397B-A17B 的解码吞吐量分别是 Qwen3-Max 的 8.6 倍/19.0 倍，且性能相当。Qwen3.5-397B-A17B 的解码吞吐量分别是 Qwen3-235B-A22B 的 3.5 倍/7.2 倍。
通用性（Versatility）：通过早期文本-视觉融合与扩展的视觉/STEM/视频数据实现原生多模态，在相近规模下优于 Qwen3-VL。多语言覆盖从 119 增至 201 种语言/方言；25 万词表（vs. 15 万）在多数语言上带来约 10–60% 的编码/解码效率提升。

（千问3.5推理效率大幅提升）

以下是基座模型的性能表现：

基础设施

Qwen3.5 通过异构基础设施实现高效的原生多模态训练：在视觉与语言组件上解耦并行策略，避免统一方案带来的低效。利用稀疏激活实现跨模块计算重叠，在混合文本-图像-视频数据上相比纯文本基线达到近 100% 的训练吞吐。在此基础上，原生 FP8 流水线对激活、MoE 路由与 GEMM 运算采用低精度，并通过运行时监控在敏感层保持 BF16，实现约 50% 的激活显存降低与超过 10% 的加速，并稳定扩展至数万亿 token。

为了持续释放强化学习的潜力，我们构建了可扩展的异步强化学习框架，支持 Qwen3.5 全尺寸模型，并全面覆盖文本、多模态及多轮交互场景。通过训推分离架构的解耦式设计，该框架显著提升了硬件利用率，实现了动态负载均衡和细粒度的故障恢复。配合 FP8 训推、Rollout 路由回放、投机采样以及多轮 Rollout 锁定等技术，我们进一步优化了系统吞吐，提高了训推一致性。通过系统与算法协同设计，该框架在严格控制样本陈旧性的基础上有效缓解了数据长尾问题，提高了训练曲线的稳定性和性能上限。此外，框架面向原生智能体工作流设计，能够实现稳定、无缝的多轮环境交互，消除了框架层的调度中断。这种解耦设计使得系统能够扩展百万级规模的 Agent 脚手架与环境，从而显著增强模型的泛化能力。上述优化最终取得了 3×–5× 的端到端加速，展现了卓越的稳定性、高效率与可扩展性。

开始使用Qwen3.5

与 Qwen3.5 交互

欢迎在 chat.qwen.ai 上使用 Qwen3.5。我们提供自动（auto）、思考（thinking）与快速（fast）三种模式供用户选择。「自动」模式下用户可使用自适应思考，并调用搜索、代码解释器等工具；「思考」模式下模型会对难题进行深度思考；「快速」模式下模型将直接回答问题，不消耗思考 token。

阿里云百炼

用户可通过阿里云百炼调用我们的旗舰模型 Qwen3.5-Plus 进行体验。若要开启推理、联网搜索与 Code Interpreter 等高级能力，只需传入以下参数：

enable_thinking：开启推理模式（链式思考）
enable_search：开启联网搜索与 Code Interpreter

示例代码如下：

"""Environment variables (per official docs):  DASHSCOPE_API_KEY: Your API Key from https://bailian.console.aliyun.com  DASHSCOPE_BASE_URL: (optional) Base URL for compatible-mode API.  DASHSCOPE_MODEL: (optional) Model name; override for different models.  DASHSCOPE_BASE_URL:    - Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1    - Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1    - US (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1"""from openai import OpenAIimport os
api_key = os.environ.get("DASHSCOPE_API_KEY")if not api_key:    raise ValueError(        "DASHSCOPE_API_KEY is required. "        "Set it via: export DASHSCOPE_API_KEY='your-api-key'"    )
client = OpenAI(    api_key=api_key,    base_url=os.environ.get(        "DASHSCOPE_BASE_URL",        "https://dashscope.aliyuncs.com/compatible-mode/v1",    ),)
messages = [{"role": "user", "content": "Introduce Qwen3.5."}]
model = os.environ.get(    "DASHSCOPE_MODEL",    "qwen3.5-plus",)completion = client.chat.completions.create(    model=model,    messages=messages,    extra_body={        "enable_thinking": True,        "enable_search": False    },    stream=True)
reasoning_content = ""  # Full reasoning traceanswer_content = ""  # Full responseis_answering = False  # Whether we have entered the answer phaseprint("n" + "=" * 20 + "Reasoning" + "=" * 20 + "n")
for chunk in completion:    ifnot chunk.choices:        print("nUsage:")        print(chunk.usage)        continue
    delta = chunk.choices[0].delta
    # Collect reasoning content only    if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:        ifnot is_answering:            print(delta.reasoning_content, end="", flush=True)        reasoning_content += delta.reasoning_content
    # Received content, start answer phase    if hasattr(delta, "content") and delta.content:        ifnot is_answering:            print("n" + "=" * 20 + "Answer" + "=" * 20 + "n")            is_answering = True        print(delta.content, end="", flush=True)        answer_content += delta.content

你可以将百炼 API 与 Qwen Code、Claude Code、Cline、OpenClaw、OpenCode 等第三方编程工具无缝集成，获得流畅的「vibe coding」体验。

总结及未来工作

Qwen3.5 凭借高效的混合架构与原生多模态推理，为通用数字智能体奠定了坚实基础。下一阶段的重点将从模型规模转向系统整合：构建具备跨会话持久记忆的智能体、面向真实世界交互的具身接口、自我改进机制，目标是能够长期自主运行、逻辑一致的系统，将当前以任务为边界的助手升级为可持续、可信任的伙伴。

Demo

如今，具备 agent 能力的 Qwen3.5 能够结合多模态做到边思考、边搜索、边调用工具。

代码智能体

1.网页开发

Qwen3.5 可以协助进行网页开发，尤其在构建网页和设计用户界面等前端任务方面表现出色。它能够将简单的指令转化为可运行的代码，让网站创建变得更加轻松高效。

2.OpenClaw

Qwen3.5 可与 OpenClaw 集成，驱动编程任务。通过将 OpenClaw 作为第三方智能体环境集成，Qwen3.5 能够进行网页搜索、信息收集和结构化报告生成——它结合自身的推理与工具调用能力，以及 OpenClaw 的接口，为用户带来流畅的编码和研究体验。

3.Qwen Code

以 Qwen3.5 为底层模型，Qwen Code 支持“vibe coding”体验，可将自然语言指令转化为代码、实时迭代开发项目，并支持如生成视频等富有创意的任务。Qwen Code 与 Qwen3.5 协同，为日常编程和探索性编程带来流畅高效的体验。

视觉智能体

1.GUI智能体

Qwen3.5 可作为视觉智能体，自主操作手机与电脑完成日常任务。在移动端，它已适配更多主流应用，支持自然语言指令驱动操作；在 PC 端，能处理跨应用的数据整理、多步骤流程自动化等复杂任务，有效减少重复性人工干预，提升工作效率。

2.视觉编程

Qwen3.5 支持图像与视频输入，上下文窗口扩展至 1M tokens，可直接处理长达 2 小时的视频内容。基于此，它能将手绘界面草图转化为结构清晰的前端代码，对简单游戏视频进行逻辑还原，或将长视频内容自动提炼为结构化网页或可视化图表，降低创意到实现的门槛。

Prompt：

Create a homepage of OpenQwen, a virtual assistant personal agent that can help with coding, office works, shopping and so on. Generate high-quality images as the website’s resources, including an avatar and demos of its use cases.

3.带图推理

突破传统抠图工具的局限，Qwen3.5原生支持代码级图像处理：可自动裁剪局部区域放大细节，或通过标注、增强等操作强化关键特征，实现更精细的视觉推理与分析。

4.空间智能

借助对图像像素级位置信息的建模，Qwen3.5 在物体计数、相对位置判断、空间关系描述等任务中表现更准确。它能有效缓解因视角变化或遮挡导致的误判，在自动驾驶场景理解、机器人导航等具身智能应用中展现出良好的空间感知潜力。

5.视觉推理

相比 Qwen3-VL，Qwen3.5 在学科解题及其他视觉推理任务上表现更稳健。通过将图像内容与上下文理解相结合，它能进行多步逻辑推理，为教育、科研等领域的多模态 Agent 应用提供更可靠的基础。

关注我，掌握千问大模型最新动态

<原文链接：https://mp.weixin.qq.com/s/AAanKh5uiCuvFVMAP4nIvw

文章版权归作者所有，未经允许请勿转载。

THE END