Qwen3.5:迈向原生多模态智能体

图片[1]-Qwen3.5:迈向原生多模态智能体-AI Express News

我们很高兴正式发布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的开放权重版本。作为原生视觉-语言模型,Qwen3.5-397B-A17B 在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异,助力开发者与企业显著提升生产力。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,实现出色的推理效率:总参数量达 3970 亿,每次前向传播仅激活 170 亿参数,在保持能力的同时优化速度与成本。我们还将语言与方言支持从 119 种扩展至 201 种,为全球用户提供更广泛的可用性与更完善的支持。

图片[2]-Qwen3.5:迈向原生多模态智能体-AI Express News

(Qwen3.5-Plus性能表现)

欢迎体验

Qwen Chat:

https://chat.qwen.ai/

模型表现

自然语言

下面我们在多种评估任务与模态下,对 Qwen3.5 与前沿模型进行全面对比评估。

图片[3]-Qwen3.5:迈向原生多模态智能体-AI Express News

视觉语言

图片[4]-Qwen3.5:迈向原生多模态智能体-AI Express News

相对于 Qwen3 系列模型,Qwen3.5 的 Post-training 性能提升主要来自于我们对各类 RL 任务和环境的全面扩展。我们更加强调 RL 环境的难度与可泛化性,而非针对特定指标或狭隘类别的 query 进行优化。下图展示了在通用 Agent 能力上,模型效果随 RL Environment scaling 带来的增益。整体性能由各模型在以下基准上的平均排名计算得出:BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark。更多任务的 scaling 效果将在我们即将发布的技术报告中详述。

图片[5]-Qwen3.5:迈向原生多模态智能体-AI Express News

(Agent能力上,模型效果随着RL Environment scaling带来的增益)

预训练

Qwen3.5 在能力、效率与通用性三个维度上推进预训练:

  • 能力(Power):在更大规模的视觉-文本语料上训练,并加强中英文、多语言、STEM 与推理数据,采用更严格的过滤,实现跨代持平:Qwen3.5-397B-A17B 与参数量超过 1T 的 Qwen3-Max-Base 表现相当。

  • 效率(Efficiency):基于 Qwen3-Next 架构——更高稀疏度的 MoE、Gated DeltaNet + Gated Attention 混合注意力、稳定性优化与多 token 预测。在 32k/256k 上下文长度下,Qwen3.5-397B-A17B 的解码吞吐量分别是 Qwen3-Max 的 8.6 倍/19.0 倍,且性能相当。Qwen3.5-397B-A17B 的解码吞吐量分别是 Qwen3-235B-A22B 的 3.5 倍/7.2 倍。

  • 通用性(Versatility):通过早期文本-视觉融合与扩展的视觉/STEM/视频数据实现原生多模态,在相近规模下优于 Qwen3-VL。多语言覆盖从 119 增至 201 种语言/方言;25 万词表(vs. 15 万)在多数语言上带来约 10–60% 的编码/解码效率提升。

图片[6]-Qwen3.5:迈向原生多模态智能体-AI Express News

(千问3.5推理效率大幅提升)

以下是基座模型的性能表现:

图片[7]-Qwen3.5:迈向原生多模态智能体-AI Express News

 

基础设施

Qwen3.5 通过异构基础设施实现高效的原生多模态训练:在视觉与语言组件上解耦并行策略,避免统一方案带来的低效。利用稀疏激活实现跨模块计算重叠,在混合文本-图像-视频数据上相比纯文本基线达到近 100% 的训练吞吐。在此基础上,原生 FP8 流水线对激活、MoE 路由与 GEMM 运算采用低精度,并通过运行时监控在敏感层保持 BF16,实现约 50% 的激活显存降低与超过 10% 的加速,并稳定扩展至数万亿 token。

为了持续释放强化学习的潜力,我们构建了可扩展的异步强化学习框架,支持 Qwen3.5 全尺寸模型,并全面覆盖文本、多模态及多轮交互场景。通过训推分离架构的解耦式设计,该框架显著提升了硬件利用率,实现了动态负载均衡和细粒度的故障恢复。配合 FP8 训推、Rollout 路由回放、投机采样以及多轮 Rollout 锁定等技术,我们进一步优化了系统吞吐,提高了训推一致性。通过系统与算法协同设计,该框架在严格控制样本陈旧性的基础上有效缓解了数据长尾问题,提高了训练曲线的稳定性和性能上限。此外,框架面向原生智能体工作流设计,能够实现稳定、无缝的多轮环境交互,消除了框架层的调度中断。这种解耦设计使得系统能够扩展百万级规模的 Agent 脚手架与环境,从而显著增强模型的泛化能力。上述优化最终取得了 3×–5× 的端到端加速,展现了卓越的稳定性、高效率与可扩展性。

图片[8]-Qwen3.5:迈向原生多模态智能体-AI Express News

开始使用Qwen3.5

与 Qwen3.5 交互

欢迎在 chat.qwen.ai 上使用 Qwen3.5。我们提供自动(auto)、思考(thinking)与快速(fast)三种模式供用户选择。「自动」模式下用户可使用自适应思考,并调用搜索、代码解释器等工具;「思考」模式下模型会对难题进行深度思考;「快速」模式下模型将直接回答问题,不消耗思考 token。

阿里云百炼

用户可通过阿里云百炼调用我们的旗舰模型 Qwen3.5-Plus 进行体验。若要开启推理、联网搜索与 Code Interpreter 等高级能力,只需传入以下参数:

  • enable_thinking:开启推理模式(链式思考)

  • enable_search:开启联网搜索与 Code Interpreter

示例代码如下:

"""Environment variables (per official docs):  DASHSCOPE_API_KEY: Your API Key from https://bailian.console.aliyun.com  DASHSCOPE_BASE_URL: (optional) Base URL for compatible-mode API.  DASHSCOPE_MODEL: (optional) Model name; override for different models.  DASHSCOPE_BASE_URL:    - Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1    - Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1    - US (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1"""from openai import OpenAIimport os
api_key = os.environ.get("DASHSCOPE_API_KEY")if not api_key:    raise ValueError(        "DASHSCOPE_API_KEY is required. "        "Set it via: export DASHSCOPE_API_KEY='your-api-key'"    )
client = OpenAI(    api_key=api_key,    base_url=os.environ.get(        "DASHSCOPE_BASE_URL",        "https://dashscope.aliyuncs.com/compatible-mode/v1",    ),)
messages = [{"role""user""content""Introduce Qwen3.5."}]
model = os.environ.get(    "DASHSCOPE_MODEL",    "qwen3.5-plus",)completion = client.chat.completions.create(    model=model,    messages=messages,    extra_body={        "enable_thinking"True,        "enable_search"False    },    stream=True)
reasoning_content = ""  # Full reasoning traceanswer_content = ""  # Full responseis_answering = False  # Whether we have entered the answer phaseprint("n" + "=" * 20 + "Reasoning" + "=" * 20 + "n")
for chunk in completion:    ifnot chunk.choices:        print("nUsage:")        print(chunk.usage)        continue
    delta = chunk.choices[0].delta
    # Collect reasoning content only    if hasattr(delta, "reasoning_content"and delta.reasoning_content is not None:        ifnot is_answering:            print(delta.reasoning_content, end="", flush=True)        reasoning_content += delta.reasoning_content
    # Received content, start answer phase    if hasattr(delta, "content"and delta.content:        ifnot is_answering:            print("n" + "=" * 20 + "Answer" + "=" * 20 + "n")            is_answering = True        print(delta.content, end="", flush=True)        answer_content += delta.content

你可以将百炼 API 与 Qwen Code、Claude Code、Cline、OpenClaw、OpenCode 等第三方编程工具无缝集成,获得流畅的「vibe coding」体验。

总结及未来工作

Qwen3.5 凭借高效的混合架构与原生多模态推理,为通用数字智能体奠定了坚实基础。下一阶段的重点将从模型规模转向系统整合:构建具备跨会话持久记忆的智能体、面向真实世界交互的具身接口、自我改进机制,目标是能够长期自主运行、逻辑一致的系统,将当前以任务为边界的助手升级为可持续、可信任的伙伴。

Demo

如今,具备 agent 能力的 Qwen3.5 能够结合多模态做到边思考、边搜索、边调用工具。

代码智能体

1.网页开发

Qwen3.5 可以协助进行网页开发,尤其在构建网页和设计用户界面等前端任务方面表现出色。它能够将简单的指令转化为可运行的代码,让网站创建变得更加轻松高效。

2.OpenClaw

Qwen3.5 可与 OpenClaw 集成,驱动编程任务。通过将 OpenClaw 作为第三方智能体环境集成,Qwen3.5 能够进行网页搜索、信息收集和结构化报告生成——它结合自身的推理与工具调用能力,以及 OpenClaw 的接口,为用户带来流畅的编码和研究体验。

3.Qwen Code

以 Qwen3.5 为底层模型,Qwen Code 支持“vibe coding”体验,可将自然语言指令转化为代码、实时迭代开发项目,并支持如生成视频等富有创意的任务。Qwen Code 与 Qwen3.5 协同,为日常编程和探索性编程带来流畅高效的体验。

视觉智能体

1.GUI智能体

Qwen3.5 可作为视觉智能体,自主操作手机与电脑完成日常任务。在移动端,它已适配更多主流应用,支持自然语言指令驱动操作;在 PC 端,能处理跨应用的数据整理、多步骤流程自动化等复杂任务,有效减少重复性人工干预,提升工作效率。

2.视觉编程

Qwen3.5 支持图像与视频输入,上下文窗口扩展至 1M tokens,可直接处理长达 2 小时的视频内容。基于此,它能将手绘界面草图转化为结构清晰的前端代码,对简单游戏视频进行逻辑还原,或将长视频内容自动提炼为结构化网页或可视化图表,降低创意到实现的门槛。

Prompt:

Create a homepage of OpenQwen, a virtual assistant personal agent that can help with coding, office works, shopping and so on. Generate high-quality images as the website’s resources, including an avatar and demos of its use cases.

图片[9]-Qwen3.5:迈向原生多模态智能体-AI Express News

3.带图推理

突破传统抠图工具的局限,Qwen3.5原生支持代码级图像处理:可自动裁剪局部区域放大细节,或通过标注、增强等操作强化关键特征,实现更精细的视觉推理与分析。

4.空间智能

借助对图像像素级位置信息的建模,Qwen3.5 在物体计数、相对位置判断、空间关系描述等任务中表现更准确。它能有效缓解因视角变化或遮挡导致的误判,在自动驾驶场景理解、机器人导航等具身智能应用中展现出良好的空间感知潜力。

5.视觉推理

相比 Qwen3-VL,Qwen3.5 在学科解题及其他视觉推理任务上表现更稳健。通过将图像内容与上下文理解相结合,它能进行多步逻辑推理,为教育、科研等领域的多模态 Agent 应用提供更可靠的基础。

图片[10]-Qwen3.5:迈向原生多模态智能体-AI Express News

关注我,掌握千问大模型最新动态

<原文链接:https://mp.weixin.qq.com/s/AAanKh5uiCuvFVMAP4nIvw

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容