![图片[1]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251215190816763-1765796896-888b45711a1c482dccb564fa74d848be.gif)
多模态生成技术突飞猛进,成为目前人工智能领域的热点。
Midjourney 和 Sora 等产品获得惊艳的效果,并给我们获取信息的主要途径之一——推荐系统——带来深远的影响,甚至一场底层范式的根本性变革:
从传统的“在既有内容库中选择与用户兴趣匹配的候选项”进化为“为每一位用户主动创作生成独一无二的个性化内容”。
长期以来,推荐系统主要进行“兴趣匹配”的工作:在海量的物品或内容库中搜寻选择出可能与用户兴趣匹配的候选项。
如今,在新闻、电影、电商、短视频、创作等多种场景中被推荐的对象是多模态内容,新一代推荐系统可能不再通过在既有内容库中“选”,而是根据用户的兴趣现“造”一个符合个性化偏好的内容。
华中科技大学张瑞教授团队最近发表于“计算机科学与探索”期刊的综述论文《面向推荐系统的多模态生成研究综述》揭示了多模态推荐系统的这一正在发生的范式革新,并率先形式化地阐明了这个新范式,为该领域的工作提供理论框架。
![图片[3]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183559668-1770287759-145c713247369963aaf6356704647179.png)
论文标题:
An Overview of Multimodal Generation for Recommender Systems
论文地址:
http://fcst.ceaj.org/CN/Y2025/V19/I12/3224
引用本文:
张瑞, 卞志鹏. 面向推荐系统的多模态生成研究综述[J]. 计算机科学与探索, 2025, 19(12): 3224-3242.
ZHANG Rui, BIAN Zhipeng. Overview of Multimodal Generation for Recommender Systems[J]. Journal of Frontiers of Computer Science and Technology, 2025, 19(12): 3224-3242.
![图片[4]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251215190817428-1765796897-76184bb1e33120824cd1fb34712641af-scaled.png)
多模态生成不再是“千人一面”,而是“为你定制”
在通用的多模态 AIGC 场景中,模型只需根据提示词生成一份“高质量的符合提示词的内容”。
但在推荐系统中,生成任务面临更多的挑战:它生成内容不只是高质量,而且要符合用户的个性化偏好。
为此,本综述总结并提出了“偏好捕捉—目标内容—个性化生成”的三元建模范式,将推荐系统从“在内容库中选择”推进到“按用户偏好创作生成”。在这一范式下,生成过程可以被形式化表述为:
![图片[6]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183600870-1770287760-680a57d676155b858fc886d9499c8280.png)
其中,u 表示由用户历史行为(例如点击、对话、收藏)、隐式反馈等构成的偏好信息,z 表示当前的生成意图或目标约束(例如将被推荐给用户的电影的海报或商品的图片),y 表示模型输出的个性化内容。
进一步地,该范式从概率建模角度统一刻画了生成目标。个性化多模态生成的核心在于,在尽量满足用户偏好与目标内容的双重条件下生成最优输出,其优化目标可表示为:
![图片[8]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183601574-1770287761-895c5c6ffc54254c571cb37b1511e606.png)
该目标明确要求生成内容 c 同时满足“贴合用户偏好 u” 与“符合目标内容约束 z” 两方面条件,从而在概率意义上统一建模偏好、目标与生成结果三者的关系。
基于这一理论框架,论文进一步总结了一套打通用户侧与模型侧的统一技术工作流(如图 1 所示):
用户历史行为首先被建模为偏好表示 u,再与目标内容 z 共同注入生成模型,通过提示工程、跨注意力或特征调制等机制深度参与生成过程,使大模型在创作时“戴上个性化的滤镜”。
这一范式清晰刻画了从用户偏好 → 生成意图 → 个性化多模态输出的完整路径。
![图片[10]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183602655-1770287762-8ef17c0155a1df51de98f28e5f3605aa.png)
〓 图1. 个性化多模态生成工作流
![图片[12]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210234661-1766322154-a3638dc89981e54bfa22268c04c73f6d-scaled.png)
当推荐系统学会“画图”、“写字”和“说话”
在个性化多模态生成的落地应用方面,本综述重点展示了图像、文本与音频等典型场景。
a. 图像生成
![图片[14]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183603167-1770287763-d40e34ec6e52df97b0ae8cd6a33ffd3b.png)
〓 图2. 个性化多模态生成框架图
在图像领域,个性化生成的难点在于如何将用户模糊的偏好转化为对图像内容的控制。
本综述重点剖析了 PMG(Personalized Multimodal Generation)技术,它巧妙地引入了大语言模型(LLM)作为“翻译官”。
如图 2 所示,PMG 不仅能通过大语言模型从用户交互历史中零样本提取出显式的偏好关键词(如“极简风”、“赛博朋克”),还能通过 P-Tuning v2 技术以软嵌入(Soft Embeddings)的形式捕捉用户的隐式偏好。
这种“显式关键词+隐式嵌入”的组合,被转化为条件向量注入到 Stable Diffusion 等生成模型中,从而生成出既满足用户个性化偏好又符合目标内容要求的多模态输出。
这就好比系统不仅理解了用户对泰坦尼克号电影的兴趣,也理解用户对这类灾难片深沉色调的潜在偏好。大量实验和实际业务场景落地的证明,这种机制大幅提高了用户对所展现内容的兴趣和点击率。
b. 文本生成
在新闻资讯与电商文案场景下,本综述重点剖析了 PNG(Personalized News headline Generator)技术。
不同于传统的自动摘要,PNG 设计了一种独特的“用户干预的逐字生成网络”。
如图 3 所示,它通过一个知识感知的用户编码器,同时捕捉用户长期的阅读兴趣和瞬时的突发偏好。
在生成标题的每一步解码过程中,用户偏好向量都会像“幕后推手”一样,隐式地干预模型对下一个词的选择。
最终,系统实现了真正的“千人千标题”,针对同一篇科技新闻,技术宅用户看到的标题可能是对硬核参数的强调,而投资客用户看到的标题则是市场前景的分析。
![图片[16]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183604957-1770287764-2b337aa29fa1da4d7d17095380767dd8.png)
〓 图3. 个性化新闻标题生成框架图
c. 其他模态
除了图像和文本,本综述还探讨了其他模态的广阔前景。例如在音频领域,利用交互式进化算法让用户通过反馈直接参与音乐生成;在视频领域,生成个性化的预览片段或虚拟主播互动。
![图片[18]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251215190821782-1765796901-6e53d0e2487a08c269915621d3add898-scaled.png)
数据基石与未来展望
多模态推荐这一新兴领域的性能评估面临着“无米之炊”的困境——既有的多模态推荐数据集往往缺乏高质量的生成目标,而纯粹的生成数据集又缺少用户交互历史。
为了填补这一空白,作者团队构建并开源了用来评估个性化多模态生成的基准数据集 PMG-Bench。
Github 主页:
https://github.com/INTREBID/PMG-Bench
该基准数据集覆盖了多个领域:包括电影海报、电商商品、网络表情包三大高频应用场景,约 23 万张图像和近 100 万条用户-物品交互序列。
并进行了语义增强:为了支持高质量的提示词生成,采用 Qwen2.5VL-7B 模型对所有图像进行了精细的重描述处理(Re-captioning)。
每张图像被拆解为“用户历史偏好描述”与“目标物品描述”两类文本,从而大幅提升了数据的语义密度,使其能精准支持“偏好捕捉-目标内容”的训练需求 。
此外,本综述还系统梳理了该领域的两大类核心数据资源,为研究者提供了完整的“武器库”。一类是多模态推荐数据集,包括了电商领域、社交与短视频、新闻资讯等。另一类是多模态生成数据集,包括图像/视频描述和大规模图文对。
总之,多模态推荐系统正在经历激动人心的变革,本综述不仅厘清了新的范式和理论框架,也为工业界提供了可落地的技术路线图。随着大模型推理效率的提升和评估体系的完善,我们相信一个真正懂用户、能创作的智能推荐时代即将到来。
更多阅读
![图片[20]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183605299-1770287765-d80a7bf88db8ceb7dfa75e24d97ee716.png)
![图片[21]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183606518-1770287766-bc53a54db3335d8572c86e8a7d2dba01.png)
![图片[22]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183607101-1770287767-8cd908d08a42bbe919480b486ef4cd57.png)
![图片[23]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183607990-1770287767-2b8f95127f91599d70ee66f0b008faad.gif)
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
![图片[25]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183609602-1770287769-975198fa4d82f3ddafc8b1bf82f667f0.png)
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
![图片[28]-从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183414635-1770287654-d178736af92cc0d54c26d3519ef28e17.jpeg)
<原文链接:https://mp.weixin.qq.com/s/h0yqxVL5eRI89d-NeEiWcg


















暂无评论内容