一周AI大事件-AI Express News

人工智能技术的飞速进步，正在重塑全球商业格局，其影响辐射到各个行业领域。鉴于此，阿里云云栖号特别推出《一周AI大事件》，汇聚全球人工智能的最新动态。

DeepSeek-V3.2系列模型正式推出，强化推理与工具调用能力

12月1日，DeepSeek正式推出DeepSeek-V3.2及V3.2-Speciale两个版本。前者面向日常问答与通用智能体任务，在公开推理评测中接近GPT-5水平，并首次支持思考模式下的工具调用；后者为研究用途的长思考增强版，融合数学证明能力，在多项国际竞赛中表现优异。两个模型均已上线官网、App及API，其中Speciale版API限时开放至12月15日，仅支持思考模式对话。

DeepSeek-V3.2与其他模型在各类数学、代码与通用领域评测集上的得分 | 图源深度求索

谷歌DeepMind发布Gemini 3 Deep Think，强化复杂推理能力

12月5日，谷歌DeepMind正式推出Gemini 3 Deep Think模型，专攻高难度数学、科学与逻辑问题。该模型采用“并行思考”机制，在Humanity’s Last Exam（无工具）和ARC-AGI-2等基准测试中分别取得41%和45.1%的领先成绩，并在3D场景生成、物理模拟等任务中展现高还原度与创造力。新模型已在Gemini App向Ultra用户开放。

Mistral 3系列模型发布，全线采用Apache 2.0开源协议

12月3日，法国AI公司Mistral AI发布Mistral 3系列新模型，包括面向边缘设备的Ministral 3（3B、8B、14B参数）和前沿级混合专家模型Mistral Large 3（总参数675B，激活参数41B）。所有模型均提供基础版、指令微调版和推理版，并支持图像理解与多语言对话。该系列全线采用Apache 2.0许可证开源，已在Hugging Face、Amazon Bedrock、Azure等平台上线，并与NVIDIA、vLLM、Red Hat合作优化部署效率。

英伟达推出Alpamayo-R1自动驾驶模型，引入因果推理提升决策能力

近日，英伟达推出具备因果推理能力的视觉-语言-行动模型Alpamayo-R1（AR1），用于提升自动驾驶系统在复杂、罕见场景下的决策表现。该模型通过“因果链”数据集训练，能解释驾驶行为原因，并结合扩散式轨迹解码器生成安全可行的行驶路径。实验显示，AR1在规划精度、越界率、近碰率及推理-行动一致性等指标上均有显著改善，端到端延迟为99毫秒。

Runway发布Gen-4.5视频生成模型，提升物理真实感与指令控制能力

12月2日，AI视频生成公司Runway推出新模型Gen-4.5，在Artificial Analysis基准测试中以1247 Elo评分位居第一。该模型能更准确还原物体的重量感、光影变化和运动动量，用户可通过单一提示词精确控制镜头运镜、场景构图和时间节点，并支持图片转视频、关键帧生成等多种输入方式。官方同时指出其在因果推理和物体恒存性方面仍有局限，相关优化正在进行中。模型将在未来向所有用户开放，价格维持现有订阅水平。

Gen-4.5生成人照镜子效果图 | 图源Runaway

千问App一周内三上新

12月2日，阿里发布Qwen-Image图片生成及编辑模型重大升级，并在千问App首发免费开放。同日，千问App接入万相2.5视频模型，支持音画同步、多模态输入输出，可一键生成10秒1080P高清唱跳视频。在权威大模型评测集LMArena上，万相的图生视频能力位居全球第三，稳居国内第一。3日，千问App接入基于Qwen3训练的最强学习大模型，解题与批改能力实现大幅提升。4日，推出面向办公与写作的一站式新能力，包括文档生成、智能排版、在线编辑、多格式转换及全新PPT生成，支持图片、文档、语音输入。

国内首款AI助盲眼镜发布，基于通义千问打造

12月3日，杭州瞳行科技公司正式发布国内首款AI助盲眼镜，该眼镜基于通义千问Qwen-VL、OCR等系列模型打造，配合121度超广角双摄像头等硬件，具备出行避障、找物读物、语音助手和一键求助亲友等功能。在出行场景，该眼镜可实现300ms的超低延迟，相当于每迈出一步都能给出道路提示。在找店点餐等场景，大模型则会对文本、环境进行总结和详细播报，帮助用户找到目的地以及阅读特定段落。

Hugging Face发布Transformers v5.0.0rc0，全面转向PyTorch并强化核心能力

12月2日，Hugging Face发布Transformers库v5首个候选版本。新版本确立PyTorch为唯一核心后端，逐步停止对TensorFlow和Flax的官方支持，并聚焦四大方向：提升代码简洁性、增强大规模预训练能力、优化与主流推理引擎（如vLLM、llama.cpp）的互操作性，以及将量化作为核心功能。同时，通过模块化设计和自动化工具，加快新模型集成速度，持续巩固其作为主流AI模型基础设施的地位。

阿里云通义智能硬件展，1月8日见！

阿里云通义智能硬件展将于2026年1月8日-11日，在深圳海上世界文化艺术中心举办。展会面向全年龄段用户，覆盖生活工作全场景，多达76+品类、200+展商、1000+智能硬件展品，深度连接技术与生活，打造2026年中国智能硬件行业的开年风向标。

AWS re:Invent 2025：多项重磅发布，涵盖芯片、模型与智能体工具

12月1日-5日，AWS re:lnvent 2025召开，聚焦Agentic AI、云基础设施创新、生成式AI落地实践等议题进行深入探讨和分享。亚马逊云科技在会上集中发布多项AI相关更新：包括第四代自研AI芯片Trainium4、基于3nm工艺的Trainium3 UltraServers服务器、第二代自研大模型Nova 2系列（含Lite、Pro、Sonic、Omni四款），以及面向企业定制模型的Nova Forge服务；同时，Amazon Bedrock平台新增18款开源模型，涵盖阿里Qwen3、Kimi K2等中国模型，并推出多款智能体开发工具与安全、运维类Agent；此外，还发布了多项计算实例、存储和数据库升级，旨在提升AI基础设施能力与智能体应用效率。

OpenAI推出“忏悔训练”，提升AI诚实度

OpenAI近日公开一项名为“忏悔训练”（Confessions）的新方法，用于提升大模型如GPT-5-Thinking的诚实性。该方法在模型完成主任务后，要求其生成一份独立的“忏悔报告”，如实说明是否违反指令、偷工减料或存在其他不当行为。研究显示，在12个测试场景中的11个里，模型至少有50%概率在忏悔中承认错误，且该训练不影响其原有任务表现。研究团队强调，此方法主要用于监控和诊断，无法阻止模型犯错，尤其对模型“自认为正确”的错误效果有限。

这就是小七为大家整理的AI领域热门事件，每周发布，欢迎大家持续追更~

——以上内容综合自：量子位、新智元、机器之心、智东西、通义千问、阿里巴巴、阿里云等公众号