刚刚，「欧洲的DeepSeek」发布Mistral 3系列模型，全线回归Apache 2.0-AI Express News

机器之心报道

编辑：Panda

刚刚，「欧洲的 DeepSeek」Mistral AI 刚刚发布了新一代的开放模型 Mistral 3 系列模型。

该系列有多个模型，具体包括：

「世界上最好的小型模型」：Ministral 3（14B、8B、3B），每个模型都发布了基础版、指令微调版和推理版。
一款前沿级开源 MoE：Mistral Large 3，总参数量 675B，激活参数 41B。

Mistral 表示：「所有模型均采用 Apache 2.0 许可证发布。以多种压缩格式开源我们的模型，能够赋能开发者社区，并通过分布式智能将 AI 交到人们手中。」

该公司也声称：「Ministral 模型代表了同类产品中最佳的性价比。与此同时，Mistral Large 3 也跻身于前沿指令微调开源模型的行列。」

该系列模型一发布就吸引了无数眼球，有人表示这标志着欧洲重返了由中美主导的 AI 竞赛。

不过 Mistral 在基准展示上的操作也让一些开发者表示了质疑：

Mistral Large 3：一款 SOTA 开放模型

Mistral 表示，Mistral Large 3 是在 3000 台 NVIDIA H200 GPU 上从头开始训练的。

Mistral Large 3 是 Mistral 自开创性的 Mixtral 系列以来的首个混合专家模型，代表了 Mistral 在预训练方面迈出的重要一步。经过后训练，该模型在通用提示词上达到了与市场上最好的指令微调开放权重模型同等的水平，同时展现了图像理解能力，并在多语言对话（即非英语 / 中文环境）中表现出一流的性能。

值得注意的是，Mistral 在这里并没有对比刚发布几天的 DeepSeek-V3.2 正式版，可能是因为 DeepSeek 没有发布在普通语言任务上的基准测试结果，仅给出了推理和智能体任务的基准结果。

Mistral Large 3 在 LMArena 排行榜的 OSS（开源软件）非推理模型类别中首次亮相即排名第 2（在所有开放模型中排名第 6），是性能最好的开放模型之一。

Mistral 表示，Mistral Large 3 还有推理（Reasoning）版本，也即将推出。

Mistral、NVIDIA、vLLM 和 Red Hat 联手，提供更快、更易用的 Mistral 3

Mistral 还宣布与 vLLM 和 Red Hat 达成了合作，让开源社区可以非常便捷地获取 Mistral Large 3：「我们发布了一个采用 NVFP4 格式的检查点（checkpoint），该检查点使用 llm-compressor 构建。这个经过优化的检查点让您能够使用 vLLM 在 Blackwell NVL72 系统以及单个 8×A100 或 8×H100 节点上高效运行 Mistral Large 3。」

另外，他们还强调与英伟达的合作：「交付先进的开源 AI 模型需要广泛的优化，这通过与 NVIDIA 的合作得以实现。我们所有的新 Mistral 3 模型，从 Large 3 到 Ministral 3，都在 NVIDIA Hopper GPU 上进行了训练，以利用高带宽 HBM3e 内存来处理前沿规模的工作负载。NVIDIA 的极致协同设计（co-design）方法将硬件、软件和模型融为一体。NVIDIA 工程师为整个 Mistral 3 系列实现了对 TensorRT-LLM 和 SGLang 的高效推理支持，从而实现高效的低精度执行。

针对 Large 3 的稀疏 MoE 架构，英伟达集成了最先进的 Blackwell 注意力和 MoE 内核，增加了对预填充 / 解码分离服务的支持，并与 Mistral 在推测性解码（方面进行合作，使开发者能够在 GB200 NVL72 及更高版本的硬件上高效地服务长上下文、高吞吐量的工作负载。在边缘端，NVIDIA 为 DGX Spark、RTX PC 和笔记本电脑以及 Jetson 设备提供了 Ministral 模型的优化部署方案，为开发者提供了一条从数据中心到机器人运行这些开放模型的一致且高性能的路径。」

Ministral 3：边缘端的顶尖智能

Mistral 针对边缘和本地用例，还发布了 Ministral 3 系列，提供三种模型尺寸：3B、8B 和 14B 参数。

此外，对于每种尺寸，他们都向社区发布了基础版（base）、指令版（instruct）和推理版（reasoning）变体，每种都具备图像理解能力，且全部采用 Apache 2.0 许可证。

Mistral 重点强调：「Ministral 3 实现了所有开源模型中最佳的性价比。在实际用例中，生成的 token 数量和模型大小同等重要。Ministral 指令模型与其同类模型的性能相当或更好，同时生成的 token 数量通常要少一个数量级。」

另外，Ministral 推理变体可以进行更长时间的思考，以在其权重级别中产生最先进的准确性 —— 例如，其 14B 变体在 AIME ‘25 上达到了 85% 的准确率。

（预训练基准，左右滑动查看更多）

（指令基准，左右滑动查看更多）

（推理基准，左右滑动查看更多）

即日可用

Mistral 3 即日起可在 Mistral AI Studio、Amazon Bedrock、Azure Foundry、Hugging Face (Large 3 & Ministral)、Modal、IBM WatsonX、OpenRouter、Fireworks、Unsloth AI 和 Together AI 上使用。此外，这些模型也即将在 NVIDIA NIM 和 AWS SageMaker 上线。

Mistral AI 定制服务

对于寻求量身定制 AI 解决方案的组织，Mistral AI 也提供了定制模型训练服务，以微调或完全适配模型来满足自己的特定需求。

该公司表示：「无论是针对特定领域任务进行优化、提高在专有数据集上的性能，还是在独特环境中部署模型，我们的团队都会与您合作构建符合您目标的 AI 系统。对于企业级部署，定制训练可确保您的 AI 解决方案安全、高效且大规模地交付最大影响力。」

结语

Mistral 早期的模型采用 Apache 2.0 开源许可，属于真正开放权重；但随着公司推出更大型、更高性能的旗舰模型（如 Mistral Large），逐步转向闭源与商业授权。可以说， Mistral 此次全线回归 Apache 2.0 协议，某种程度上是被 DeepSeek「逼」出来的战略调整。

在过去的一段时间里，DeepSeek 以极致的推理成本和激进的开源策略迅速抢占了全球开发者社区的心智，一度让坚持「开放权重但限制商用」的中间派厂商陷入被动。

Mistral 3 的发布，可以看作是这家法国独角兽对 DeepSeek 发起的正面追赶：不仅在 MoE（混合专家）架构上继续深耕，更试图通过端侧模型（Ministral）的差异化优势，在被中美巨头挤压的缝隙中杀出一条血路。

参考链接

https://mistral.ai/news/mistral-3

https://x.com/MistralAI/status/1995872766177018340

文章版权归作者所有，未经允许请勿转载。

THE END