![图片[1]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073834646-1766446714-b2cf7e39e4619b07bdb3c7709eb6e7bf.jpeg)
我们很高兴推出全新图像生成模型Qwen-lmage-Layered,新模型采用自研创新架构,可将图片“拆解”成多个图层。这种分层表示赋予了图像内在的可编辑性:每个图层都可以独立操作,而不会影响其他内容。同时,这种分层结构天然支持高保真的基本编辑操作,例如缩放、移动和重新着色。通过将不同元素物理地隔离到不同的图层中,我们的方法实现了高保真的编辑效果。
Qwen-lmage-Layered
技术报告:
https://arxiv.org/abs/2512.15603
Github:
https://github.com/QwenLM/Qwen-Image-Layered
ModelScope:
https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered
Hugging Face:
https://huggingface.co/Qwen/Qwen-Image-Layered
Demo:
https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered
新思路:从像素预测到图片解耦
目前随着AI生成图片技术发展,AI图片编辑大致可分为两大方法:全局编辑和基于掩码的局部编辑。
全局编辑方法:通过对整张图像进行重新生成来实现整体性修改,然而,由于生成模型本身固有的随机性,这些方法无法确保未编辑区域的一致性。
掩码的局部编辑:通过将修改限制在指定的掩码范围内,从而有效保持全局一致性。尽管这种方法直观易懂,但它在处理遮挡和模糊边界时存在困难,难以精确界定实际的编辑区域。
我们提出了一种全新的思路:将图像分解为语义上解耦的RGBA图层,通过将图片自动“剥洋葱”,每一层都拥有独立的颜色(RGB)和透明度(Alpha)。每个图层均可独立修改而不会影响其他图层,从而从根本上确保各次编辑之间的一致性。
模型亮点
![图片[2]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073836725-1766446716-691264f5f83fda7559553f8c269aa183.png)
-
RGBA-VAE:传统的 VAE 只懂红绿蓝,我们研发了全新的 RGBA-VAE,让 RGB 图像和带透明度的 RGBA 图层在同一个潜空间内“对话” ,解决了图层之间分布不均、边界模糊的顽疾。
-
VLD-MMDiT:现实世界的图层数是不确定的。VLD-MMDiT 架构能够一次性处理 3 层、10 层甚至更多图层,且层与层之间通过注意力机制协同,不再需要低效的递归拆解 。
-
多阶段进化:模型并非生而知之。它经历了从“生成单图”到“生成多层”,最后进化到“拆解任意 RGB 图像”的循序渐进过程,将强大的生成基因转化成了精准的理解力 。
分层分解的应⽤
给定⼀张图像,Qwen-Image-Layered 可将其分解为若⼲个 RGBA 图层:
![图片[3]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073837650-1766446717-08f65a274de0652a65be06c4cc050d08.jpeg)
分解完成后,编辑操作仅作⽤于⽬标图层,将其与其他内容物理隔离,从根本上确保了编辑的⼀致性。
例如,我们可以对第⼀个图层重新着⾊,⽽保持其余内容不变:
![图片[4]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073838858-1766446718-28f27076440e0722374c2942318f31e7.jpeg)
我们也可以将第⼆个图层中的⼥孩替换为男孩:
![图片[5]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073839158-1766446719-7e7bd59b4ac8300483f98ccc096353d3.jpeg)
在下⾯的例⼦中,我们将⽂字内容修改为 “Qwen-Image”
![图片[6]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073841736-1766446721-41daeac3493f0a521356f6233835ac97.jpeg)
此外,分层结构天然⽀持各种基本操作。例如,我们可以⼲净地删除不需要的物体:
![图片[7]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073842375-1766446722-7d4ee9dcc03672a33578f1cb54b69868.jpeg)
我们也可以轻松的对物体进⾏缩放⽽不引⼊形变和失真:
![图片[8]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073843995-1766446723-f0da130d9fb866b1d0a1687706441e3a.jpeg)
在完成图层分解后,我们还能在画布内⾃由移动物体:
![图片[9]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073844388-1766446724-bea0b9ac5705e9c2c3dbf41835780303.jpeg)
灵活且可迭代的分解
Qwen-Image-Layered 并不限于固定的图层数量,模型⽀持可变数量的图层分解。例如,我们可以根据需要将同⼀张图像分解为 3 层或 8 层:
![图片[10]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073845350-1766446725-459e3b1378789bed86cffd73d38cff63.jpeg)
此外,分解过程还可以递归进⾏:任意⼀个图层本⾝都可以被进⼀步分解,从⽽实现⽆限层级的细化分解。
![图片[11]-Qwen-lmage-Layered:图片分层 指哪改哪-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251223073846472-1766446726-c05e081bf5b31cb61a693d6dc2116be8.jpeg)
结语
Qwen-Image-Layered 将静态图⽚转化为结构化的、可灵活编辑的多层结构。通过将图像重新构想为可组合的图层,我们希望提供直观、精准且最棒的编辑能⼒。
原文链接https://mp.weixin.qq.com/s/3yXOWhUuzVajlyySg7J9Hw














暂无评论内容