身份保真比肩Nano Banana！ContextGen统一上下文，实现布局与身份协同控制-AI Express News

©PaperWeekly 原创· 作者 | 许瑞航

单位 | 浙江大学本科生

研究方向 | 计算机视觉与生成模型

近年来，扩散模型（Diffusion Models）在图像生成领域取得了飞速发展，尤其在个性化定制方面展现出巨大潜力。

然而，要实现多实例图像生成（Multi-instance Image Generation, MIG）这一复杂任务，让模型精确控制多个物体的位置，并同时保持它们各自的身份细节，仍然面临核心挑战。

目前的主要瓶颈在于：在复杂的多主体生成场景中，模型难以同时兼顾对空间结构（Layout）的精确控制与对主体身份（Identity）的高度保真。

空间控制的精度问题：现有的布局引导（Layout-to-Image）方法不仅很少支持显式的主体参考图像输入，而且在处理复杂布局时，往往难以确保生成对象准确地位于指定位置，且经常会出现属性错误、实例遗漏等问题。
主体身份的鲁棒性问题：现有的主体参考驱动（Subject-Driven）的方法已经非常流行，但当需要生成的主体数量增加时，模型难以维持精细的身份细节，时常出现身份混淆、特征丢失等现象。
高质量数据的匮乏：现有数据集缺乏大规模、精确对齐的参考图像与布局标注对，限制了模型的训练效果。

浙江大学 ReLER 团队提出了一种基于 Diffusion Transformer（DiT）架构的生成框架 ContextGen，它创新性地将布局信息和参考图像信息两种模态统一融入生成上下文，利用双重注意力机制，协同解决了多实例图像生成中的位置精确控制与身份细节保真问题。

ContextGen 在多项基准测试中实现了显著突破，在身份保持方面比肩 Nano Banana 在内的闭源模型，为高度可控的多实例生成打开了新的可能性。

论文链接：

https://arxiv.org/abs/2510.11000

代码链接：

https://github.com/nenhang/ContextGen

技术核心：双重上下文控制机制

ContextGen 框架的核心洞察在于，要实现高保真度与精确控制，必须设计专门的机制来统一管理这两种关键信息。ContextGen 包含两大核心组件，以解决“位置精确”和“细节稳定”的问题：

1. Contextual Layout Anchoring（CLA，上下文布局锚定机制）：

解决问题：实现对象位置的精确控制。
机制描述：CLA 将合成布局图像（composite layout image）作为一种鲁棒的结构先验，融入到生成上下文中。通过层级注意力架构，它在模型的前后层发挥作用，让注意力在文本、布局和待生成图像之间进行充分交互，使得模型能够将对象牢固地锚定在其目标位置，实现对空间结构的精确控制。

2. Identity Consistency Attention（ICA，身份一致性注意力机制）：

解决问题：保证多主体身份细节的高度一致性。
机制描述：ICA 将高保真参考图像加入上下文，来避免重叠、压缩等各种原因导致的身份信息丢失。该机制在模型的中间层运行，通过隔离式的注意力掩码，强制待生成图像中某个实例的区域与其对应的参考图像之间建立连接，从而可靠地将高保真度的身份细节注入给每个生成的实例。

数据支持：大规模高质量数据集 IMIG-100K

为了弥补高质量训练数据的缺失，团队还同步推出了 IMIG-100K 数据集。这是首个为图像引导的多实例生成任务提供详细布局和身份标注的大规模、高质量、分层结构合成数据集。

优化策略：DPO 强化学习提升生成多样性

为了避免模型在微调过程中陷入对训练数据的过度拟合，ContextGen 引入了基于偏好优化（DPO, Direct Preference Optimization）的强化学习阶段。

该阶段在监督微调之后，引入布局图像作为非偏好样本，鼓励模型不僵硬复制布局，而是学会在保持布局一致性的同时，生成更多样化且高质量的图像。

基准测试：多实例生成能力显著突破，比肩闭源模型

ContextGen 在三个关键基准测试上实现了当前 SOTA 性能，展现了其强大的位置鲁棒性和身份保真度。

身份保真比肩闭源巨头：在评估身份保留和特征一致性的 LAMICBench++ 任务上，ContextGen 不仅在开源模型的基础上提升显著，在实例数量较多时，ContextGen 在任务身份保持度（IDS）和物体特征一致性（IPS）指标上比肩甚至超过了 Nano Banana 等闭源模型，达到了 SOTA 水平。

空间控制准确度大幅提升：在 COCO-MIG 基准测试中，ContextGen 的实例级成功率提高了 3.3%，空间准确性（mIoU）提高了 5.9%，验证了 CLA 机制在精确位置控制上的有效性。

属性正确性领先：在 LayoutSAM-Eval 基准上，ContextGen 在纹理和颜色正确性上保持领先，展示了其卓越的细节保留能力。