将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯
![动态黑色音符 图片[1]-告别「手动画框」!Medical SAM3:首个真正「纯文本提示」驱动的医学全能分割模型-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251218074253324-1766014973-00be493474a13d5da8d80458eb06dc9a.gif)
![图片[2]-告别「手动画框」!Medical SAM3:首个真正「纯文本提示」驱动的医学全能分割模型-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260122030314481-1769022194-c6717256a5a46be38f5279f4f8cc5833.jpeg)
作者丨论文团队
编辑丨ScienceAI
现有的通用医学分割模型往往只是「伪全能」,因为它们在没有人工提示框辅助时几乎寸步难行。
来自中佛罗里达大学(UCF), 宾夕法尼亚大学(UPenn), 伦敦大学学院(UCL)等机构的研究团队近日发布了Medical SAM3,通过全参数微调与创新的分层训练策略,在 33 个医学数据集上实现了革命性突破:它不再需要医生手动画框,仅凭一句分割「肿瘤」的文本指令,即可在 CT、MRI、内镜等 10 种模态中实现专家级分割,将零样本场景下的平均准确率从 11.9% 暴涨至 73.9%。
![图片[3]-告别「手动画框」!Medical SAM3:首个真正「纯文本提示」驱动的医学全能分割模型-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260122030315812-1769022195-40716d17b42ad5c7bfd2ec1f1cb1a1ef.png)
论文链接: https://arxiv.org/abs/2601.10880
代码仓库: https://github.com/AIM-Research-Lab/Medical-SAM3
![图片[4]-告别「手动画框」!Medical SAM3:首个真正「纯文本提示」驱动的医学全能分割模型-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260122030317778-1769022197-862ec66d69226de46b29199d29f076b4.png)
核心痛点:以前的「通用模型」真的通用吗?
在 Medical SAM3 之前,许多「医学通用分割模型」在实际使用上存在一个关键前提:它们往往高度依赖空间提示(Spatial Prompts)—— 需要人工先提供 Bounding Box(边界框)或点击关键点,模型再在提示区域内完成分割。表面上看这只是交互方式的选择,但它也反映出能力边界:当模型必须先由人把目标「圈出来」,其主要贡献更接近于区域内的像素细化与边界优化,而非从整幅图像中完成稳定的语义定位与目标发现。
这种设定在演示场景中可以获得不错的效果,但在真实工作流里会带来明显的推广门槛:
-
医生并不总能提前精确圈定病灶,尤其是边界模糊、形态复杂或早期难判的病例;
-
在筛查、急诊分诊或跨模态阅片等高通量场景下,逐张图像画框 / 点选会显著增加交互成本,难以规模化;
-
更重要的是,模型性能会对提示质量产生强依赖,系统的核心难题 ——「自动语义定位」—— 并未被真正解决。
论文中的诊断性实验进一步量化了这一现象:当移除人工空间提示、仅通过文本询问(更接近「通用」的使用方式)时,原生 SAM3 在医学图像上的表现出现断崖式下降,平均 Dice 降至 11.9%,并在内镜息肉分割等任务中出现 0.0% 的失效案例。这说明模型在很大程度上把空间提示当作了近似「目标索引」;一旦失去该索引,它在复杂背景、低对比度、强噪声或形态多变的医学影像中就难以稳定定位目标。
因此,Medical SAM3 的核心贡献并非把分数再提高一点,而是试图跨过这条关键门槛:将医学分割从「提示驱动的区域细化」,推进到「仅凭文本即可触发的语义驱动分割」,让模型不再依赖人工先验的空间圈定。
![图片[5]-告别「手动画框」!Medical SAM3:首个真正「纯文本提示」驱动的医学全能分割模型-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260122030318131-1769022198-44919dabff000c6179e886d3b0394ab9.png)
真正的「语义驱动」:不仅是微调,更是重塑
为了解决医学影像「语义难对齐、结构极复杂、模态差异巨大」这一核心难题,Medical SAM3 没有走业界常见的轻量级适配器(Adapter/LoRA)捷径,而是选择了一条更艰难但也更彻底的路线 —— 全参数微调(Full Fine-Tuning)。团队的判断很明确:医学影像与自然图像之间不仅是外观风格的变化,更是成像物理、噪声统计、目标形态与语义体系的整体迁移;仅微调少量参数往往只能「学到一点风格」,却难以让模型真正理解医学场景中那些决定分割成败的细粒度概念(例如模糊边界、低对比病灶、细长结构的连通性、器官之间的解剖约束)。因此,Medical SAM3 通过全参数更新,让模型从底层特征到高层语义都能发生充分适配,从而实现更可靠的「语义驱动分割」。
但全参数微调带来的挑战同样显著:一旦训练策略不当,模型可能会遗忘原有的通用视觉能力,或在训练早期出现不稳定震荡。为此,Medical SAM3 引入了分层学习率衰减(Layer-wise Learning Rate Decay, LLRD)策略,以一种「既保守又激进」的方式精细控制迁移过程:浅层网络使用更小的学习率,尽可能保留通用的边缘、纹理与局部对比特征(这些对所有影像都有效);而深层网络则使用更大的学习率,获得更强的可塑性,专门去学习医学影像中特有的语义与结构规律,例如「毛玻璃影」的弥散分布、内镜息肉与背景黏膜的微妙边界、视网膜血管的树状拓扑与连续走向。最终,这种「浅层稳住通用视觉、深层重塑医学语义」的迁移范式,推动模型完成了根本性跃迁:从过去高度依赖点 / 框等几何提示的交互式分割,转变为仅凭文本语义即可稳定分割的通用能力。
Medical SAM3 的强大并非只来自训练策略,更来自其构建的大规模、多模态训练底座。研究团队整合了覆盖 10 种成像模态的 33 个数据集,并通过统一的数据标准化与接口设计,使模型能够在 76,956 张高分辨率医学图像与 263,705 个精细掩膜上进行系统学习。尤其关键的是,Medical SAM3 采用了统一的 2D 高分辨率视角(Unified 2D Formulation):无论输入来自 3D CT/MRI 的切片,还是 2D 的眼底、内镜或显微图像,均被统一处理为 1008×1008 的高分辨率表示。这一设计带来两点直接收益:其一,它在工程上打通不同设备与模态的输入壁垒,降低跨域部署的不确定性;其二,它让模型获得更强的尺度一致性与细节表达能力 —— 从胸片中占据大面积的肺部轮廓,到电子显微镜下仅数十像素的细胞核边界,模型都能在同一框架下捕捉关键结构,形成真正「跨模态、跨尺度、跨任务」的统一分割能力。
![图片[6]-告别「手动画框」!Medical SAM3:首个真正「纯文本提示」驱动的医学全能分割模型-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260122030319320-1769022199-66407dae0d2681e92bbdb90f213b9102.png)
从内部精通到外部泛化
为了系统验证模型的可靠性与可迁移性,团队构建了覆盖内部验证(in-domain)与外部测试(out-of-domain)的全面评估体系:前者检验模型在已覆盖医学分布上的稳定性与细节还原能力,后者则以「从未见过的数据集与模态」为压力测试,衡量其真实世界部署最关键的零样本泛化表现。
在内部验证环节,Medical SAM3 展现出对医学结构与边界细节的扎实掌握,平均 Dice 从 54.0% 提升至 77.0%。这一提升不仅意味着「更像」,更代表模型在像素级边界对齐、细小目标召回、低对比度组织分离等方面达到了更可靠的水平。尤其在视网膜血管分割这类典型「高难任务」中,原生模型常见问题是对细长结构缺乏连续性建模,容易出现断裂、漏检与噪点粘连;Medical SAM3 则显著改善了这一失败模式,将 Dice 从 24.8% 提升至 55.8%。更重要的是,提升并非只体现在分数上:模型不仅能「找到血管」,还能够更好地复原血管的连续走向、分叉拓扑与树状结构,这类结构完整性对后续临床分析(如血管密度、分支形态、病变区域关系)尤为关键。
在更为严苛的外部验证环节(测试从未见过的数据集),模型进一步体现出强大的零样本泛化能力。面对 7 个全新的外部数据集,Medical SAM3 将平均 Dice 从 11.9% 提升至 73.9%,IoU 从 8.0% 提升至 64.4%。这组结果的意义在于:外部测试通常伴随显著的分布偏移 —— 例如不同医院设备、采集协议、分辨率、噪声形态、病灶外观与标注风格差异 —— 许多模型在此类场景下会出现「性能断崖」。而 Medical SAM3 的提升幅度显示,它并非依赖某一类固定模态或固定提示形式,而是学习到了更通用的医学语义与结构先验。
更具说服力的是,在部分极端案例中表现出现了从「无法工作」到「可用级别」的质变:
-
内镜息肉分割(CVC-Clinic):原生模型由于难以从复杂背景中理解「息肉」这一语义目标,Dice 仅 0.0%;Medical SAM3 则达到 87.9%,说明模型能够在反光、粘液、纹理干扰等情况下仍保持对目标语义的稳定聚焦。
-
超声胎头测量(HC18):超声天然存在斑点噪声、边界模糊与组织对比度弱的问题,原生模型 Dice 为 23.9%;Medical SAM3 提升至 92.6%,体现其对低信噪比模态下轮廓结构的鲁棒提取能力。
-
ETIS-Larib:同样从 0.0% 跃升至 86.1%,进一步表明模型在外部域中不只是「略有改善」,而是显著降低了原生模型的完全失效概率。
综合内部与外部结果可以得出一个关键结论:Medical SAM3 能够在不依赖人工提示框辅助的情况下,仅通过文本提示驱动分割,在多模态、多数据分布下保持稳定表现。这意味着模型不仅「能分割」,更具备面向真实临床场景的核心能力:当标注成本高、交互提示受限或需要快速批量处理时,它仍能依靠医学语义理解与结构先验,提供一致、可复用、可迁移的分割输出。
![图片[7]-告别「手动画框」!Medical SAM3:首个真正「纯文本提示」驱动的医学全能分割模型-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260122030321189-1769022201-592fd2e958c47bf80b511995558e4a2b.png)
未来展望:规模化与智能化
尽管目前的性能已经取得了显著进展,Medical SAM3 团队并未止步。为了进一步提升模型的实用性与智能水平,后续工作将主要集中在以下两个方向:
1. 数据规模与覆盖扩展: 团队计划持续扩充训练语料库,引入更丰富的分割数据,以增强跨域鲁棒性。同时重点补齐临床中的「长尾空白」,例如罕见病灶、小样本亚型、低资源模态以及更复杂的标注形态(多器官、多病灶、细长结构等)。通过更大规模、更多样化的数据「喂养」,进一步降低模型在真实世界场景中遇到分布偏移时的失效概率,让「给一个术语就能稳定分割」更接近可部署的可靠标准。
2. 迈向 Medical SAM3 Agent: 团队的目标不止于做一个分割模型,而是构建面向临床工作流的 Medical SAM3 Agent。通过集成大语言模型(LLMs),系统将具备更强的任务理解、步骤化推理与交互协作能力:例如把医生的自然语言需求拆解为可执行的分割子任务(目标、范围、优先级),在结果不确定时主动发起澄清提问,并把分割结果进一步组织为可读的结构化输出(位置、大小、数量、随访对比等),从而成为医生在阅片、测量与报告生成中的真正智能伙伴。
总结
Medical SAM3 的出现标志着医学 AI 助手从「交互式工具」向「语义智能体」的进化。它不再要求医生充当「画框工」,而是模拟了临床专家的认知过程 —— 先理解诊断术语,再主动在图像中搜索病灶。通过建立临床概念与像素级特征之间的直接映射,Medical SAM3 为未来「即插即用」的自动化医疗辅助系统奠定了坚实的基础。
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。
<原文链接:https://mp.weixin.qq.com/s/1bivhcBYWy4oKn3z3dA_SQ













暂无评论内容