论文配图一键封神！北大谷歌开源PaperBanana，5个Agent全包了-AI Express News

新智元报道

编辑：倾倾

【新智元导读】科研人的深夜噩梦，终于有人来终结了！刚刚，北大联合Google CloudAI发布PaperBanana，直接把论文配图变成了全自动流水线。5个智能体组团干活，生成的架构图对标NeurIPS顶会标准。以后写论文，你只管敲字，画图这事儿，AI包了。

你有没有过这样的经历：论文写好了，但架构图却让你焦头烂额。

不是配色太土，就是线歪了，要么就是模块大小不协调，简直比写论文还要难。

别担心，有这样焦虑的人不止你一个！数据显示，科研人员有45%的时间被浪费在了这种低级的绘图调整上。

但就在今天，科研狗的绘图之神——PaperBanana出现了。

5个智能体

治好了AI的「视觉精神病」

无论是Midjourney还是DALL-E3，在画科研图表时都像个人工智障。

让GPT-Image-1.5直接读取论文画图，它的综合得分只有11.5分（满分100）。

在「忠实度」这一项，甚至只有4.5分。

它画出来的图，看起来像那么回事，但该连的线连不上，该有的模块给你瞎编。

PaperBanana敏锐地发现，既然单个模型会产生幻觉，那我一次性调用5个Agent协同工作，总不能5个一起产生幻觉吧。

1. Retriever（检索）：RAG的抄作业美学

拿到任务后，Retriever直接发动RAG技能，去顶会数据库里打捞10张最相关的参考图。

2. Planner（策划师）：把人话翻译成「蓝图」

这是系统的「认知核心」。

它负责死磕论文里最晦涩的Methodology，把那些文字逻辑硬拆解成视觉蓝图。

搞清楚谁连谁，谁包含谁，绝不让逻辑拓扑乱成一锅粥。

3. Stylist（风格智能体）：拿捏NeurIPS的「高级感」

为了解决「图Low」的问题，Stylist会生成一份名为Aesthetic Guideline的最高优先级指令。

该指令会强制把Planner的指令修正为符合顶会标准，想用Excel默认蓝？门都没有！

4. Visualizer&Critic（闭环核心）：3轮循环，甲方炼狱

PaperBanana能够拿到60.2分的关键，秘密，全在这俩货的互撕上：

Visualizer：调用Nano Banana Pro，渲染图片。
Critic：这是整个架构的灵魂——专业找茬。

Critic会拿着原论文跟图比对，一旦发现连线错了、模块少了，直接生成修正指令，打回去重画。这个过程会暴力循环3次。

PaperBanana官方论文中的失败案例

数据显示，正是这3轮迭代，将图表的忠实度从不可用的4.5提升到了45.8，在这一指标上直接逼近人类水平（50.0）。

审美降维打击

AI总结的《NeurIPS 2025审美黑话》

在PaperBanana眼里，美感是一堆冷冰冰的参数。

Stylist Agent遍历了NeurIPS 2025所有论文，搞了一次逆向工程，把审稿人潜意识里的视觉偏好扒了个底掉：

人类手绘原图与StyleEnhanced（AI风格化后）的对比

AI发现，2025年的顶流审美是科技莫兰迪色。

高饱和度的红蓝撞色（如Excel默认色），直接被定义为「业余」。

所以，正确方法是：背景要用Cream(#F5F5DC)或PaleBlue(#E6F3FF)；功能模块采用中等饱和度配色；高亮色仅限于报错或最终结果。

审美增强案例。上边是原始的粗糙框图，下边是AI根据Guidelines优化后的成品。

还有90%的人都会忽视的细节：混排（Font Mixing）。

系统标签必须用无衬线体，显得现代、干净；凡是涉及数学公式的变量，必须强制切换为LaTeX风格衬线斜体。

这种字体的混排，是区分「草图」和「出版级插图」的关键信号。

PaperBanana甚至懂「圈层文化」

如果你写的是Agent论文，Stylist会主动调用可爱风格的2D机器人图标或对话气泡，强调「交互感」；

如果是CV/3D论文，它会拒绝卡通元素，强调视锥、点云和热力图，配色偏向RGB通道逻辑；

要是纯理论论文，则追求极致极简。黑白灰为主，只保留一个高亮色给拓扑结构。

统计图的「精准谋杀」

告别Matplotlib难度

为什么之前的AI总是画不好统计图？

因为，扩散模型是右脑思维的艺术家。它懂构图，但它真的不识数。

如下图所示，当让模型直接「画」一个雷达图时，它生成了极具设计感的阴影和线条。但仔细一看——数据点0.4被画到了0.8的刻度线上；甚至还凭空捏造了几个重复的图例标签。

为了解决这个问题，PaperBanana做了一个天才般的架构切换。

当系统识别出你要画的是BarChart或Heatmap时，它会瞬间收起画笔，掏出键盘，从「美术生」切换为「程序员」。

Visualizer不再生成像素，而是直接生成Python Matplotlib代码

Critic也不再看构图，而是运行代码，检查报错，比对数据。

这个逻辑绕过了图像生成的随机性，直接利用LLM强大的Coding能力。

以前为了调整一个坐标轴的倾斜角度，得去查半小时；现在，PaperBanana在后台几秒钟内自己写代码、自己Debug、自己运行出图。

对比数据非常直观：

纯图像生成模式：好看，但瞎编。
代码生成模式：精准，且完全可复现。

PaperBanana官方基准对比：Code模式（绿色）在忠实度和简洁度碾压纯图像生成（IMG，红色），逼近人类水平

逻辑图走艺术路线，数据图走工程路线。这才是AI科学家该有的严谨。

全自动发表的最后一片拼图

在此之前，Auto Figure等竞品更多是将内容符号化，或者仅仅是简单的图表堆砌。

PaperBanana是第一个真正引入「设计思维」的智能体系统。

当AI开始理解「如何用布局引导读者的视线」，从一个工具，变成一个拥有表达欲的共创者。

在PaperBanana Bench的测试中，AI在简洁性上比现有基线模型提升了37.2%。

虽然论文的委婉地说是为了「民主化」高质量绘图工具，但我们都懂：当技术的门槛降到0，原来的溢价就消失了。

北大与Google的野心很大。

他们不仅发了工具，还开源了PaperBanana Bench：292个涵盖各领域的「地狱级」测试用例，摆明了是想做行业裁判。

虽然目前的版本生成的还是位图，但作者也说了，下一步就是开发能操作Adobe Illustrator的GUI Agent。

等那个版本出来，设计师可能真的要关掉Photoshop去送外卖了。

工具进化的终极意义，从来不是为了让我们变懒，而是为了让大脑回归纯粹。

未来能活得滋润的科研人，只有两种：一种是极其硬核、能写出AI无论如何也理解不了的顶级算法的大神；

另一种，是懂得指挥千军万马的AI Agent，把自己的思想用最完美的视觉语言铺陈在审稿人面前的「超级个体」。

别让你的思想，死在画不出的图里。

参考资料：

https://PaperBanana.org/

https://arxiv.org/abs/2601.23265

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

<原文链接：https://mp.weixin.qq.com/s/PI3jcWBaOB5HBdJzO8NpMQ

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

论文配图一键封神！北大谷歌开源PaperBanana，5个Agent全包了

请登录后发表评论