别再拿真机炼丹！南大终结「肉身排雷」，机器人0成本脑内练满级-AI Express News

新智元报道

编辑：桃子

【新智元导读】具身智能正站在一条分界线前：VLA的下一步，靠模仿学习已经越来越难撑起来了。一篇南大重磅论文再次瞄准「世界模型」，让机器人先在脑中练会再上手，少在真机上「交学费」。

刚刚出炉的一篇论文《Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models》，把目光重新投向了「世界模型」这条老问题、新战场。

作者给出的判断很直接：机器人并不缺一个更会模仿的模型，缺的是一个能让它安全、高效「先想一遍再动手」的训练机制。

这项工作不只是提出了一个新方法，更切中了当前具身智能里一条越来越清晰的分界线：

VLA下一步的能力增长，还能继续主要靠模仿学习撑起来吗？还是说，机器人终究要拥有自己的「想象空间」？

机器人训练，正卡在「现实世界太贵」上

过去两年，VLA的进展让人很容易产生一种乐观印象：

只要把视觉、语言和动作放进同一个大模型里，再给它足够多的数据，机器人似乎就能越来越像一个「通用体」。

这条路线确实跑出了不少结果。

从OpenVLA到π0系列，VLA模型已经表现出相当强的跨任务泛化能力。

它们能看懂场景，理解人类语言指令，输出连续动作，在一些任务上已经不像传统机器人那样依赖重工程规则。

支撑这波进展的核心训练范式，仍然是模仿学习。

简单说，就是让机器人看大量人类示范，学习「这个画面下该怎么做」。

这件事很符合直觉，也很符合工程现实：

训练过程稳定；
不需要机器人自己乱试；
只要示范足够多，模型能力就能持续堆高。

问题也越来越具体。模仿学习擅长的是「照着做」，不擅长的是「自己摸索更优解」。

现实任务一旦变长、变复杂，或者加入视角变化、环境扰动、失败恢复，单靠示范会慢慢碰到天花板。

示范数据本身也越来越贵：一个人类操作员、一个真实机器人平台、一段高质量轨迹，背后都是成本。

这也是为什么强化学习又重新回到VLA的讨论中心。

强化学习真正吸引人的地方，从来都不是「会试错」这么简单，而是它让系统有机会学到示范之外的策略改进。

很多任务里，专家数据只告诉模型「怎么完成」，强化学习能进一步回答「怎样完成得更稳、更快、更泛化」。

难点出在物理世界。

让机器人做强化学习，意味着它要一遍遍在真实环境里尝试。

插线缆、叠毛巾、擦白板、抓杯子，听上去只是几个动作，训练起来却是巨大的现实开销：

采样速度慢；
机器磨损高；
错误动作存在安全风险；
长程任务常常要靠大量试错才能学到有效信号。

这也是眼下VLA强化学习最尴尬的地方：

大家都知道强化学习能带来增益，也都知道真机试错很难规模化。

世界模型，为什么又成了关键变量

这个背景下，世界模型的意义重新凸显出来。

「世界模型」这个词并不新。

在强化学习领域，它一直对应着一个非常朴素、也非常强大的想法：让智能体先学会预测环境如何变化，再在这个预测出来的环境里练策略。

放到机器人里，世界模型可以理解成一个「脑内模拟器」：

当前看到什么；
执行动作之后会发生什么；
未来画面会怎么变；
任务会不会成功；
奖励会不会出现。

这套能力一旦可靠，机器人就不必把每一次试错都放在真实世界里完成。

它可以先在「想象出来的环境」里训练，再把学到的能力迁移回真实机器人。

这个方向之所以重要，是因为它同时指向了具身智能的三件大事：

成本：真实数据永远昂贵。能在模型内部生成训练数据，意味着同样的硬件预算可以换来更多策略更新。

安全：机器人在现实里做高风险探索并不理想。尤其涉及接触、精密操作和移动平台时，代价不是一两次失败那么简单。

泛化：模仿学习偏向「复现已有行为」，世界模型强化学习有机会让机器人学会「如果这样做会怎样」，这类因果式的能力，往往更接近真正的泛化基础。

也正因为此，世界模型长期被视为通向更强具身智能的一条主线。

VLA与世界模型

这场争论本质上在争什么

现在的机器人研究里，有一条潜在分歧越来越明显。

一条路继续押注纯VLA/模仿学习。

这条路线的核心信念是，随着模型规模、数据规模、预训练能力继续上涨，机器人对「视觉-语言-动作」的统一建模会越来越强。很多难题最终可以交给更大的模型和更多的真实数据去解决。

另一条路则在强调世界模型。

它不否认大模型的价值，反而把它当成前提。只是在此基础上，它认为机器人最终不能只会「看到输入就输出动作」，还要具备某种内部模拟能力。换句话说，机器人不能只学会答案，还要学会预判后果。

这场分歧很容易被理解成「谁对谁错」，其实更接近一个发展阶段问题。

纯VLA的成功已经证明：大模型能够显著提升机器人理解世界、响应指令和跨任务迁移的能力。

世界模型路线反复遇到的问题也是真实存在的：一旦模型预测不准，后面的强化学习就会被错误信息带偏，长程推演里误差越滚越大，最后在论文图里看着热闹，在真实机器人上并不稳定。

这篇论文真正重要的地方，恰恰就在这里。

它没有试图否认VLA的价值，也没有把世界模型神化成万能钥匙。

作者做的是另一件更务实的事：把世界模型真正嵌进VLA的后训练流程里，并把最容易失控的几个环节逐个处理掉。

世界模型放到VLA上，难点比想象中大得多

很多人第一次听到「世界模型」，直觉会把它理解成视频生成：给定当前画面，预测下一段画面。

对机器人来说，这远远不够。

像素预测不是重点，关键是「能不能拿来控制」

VLA直接吃图像输入，意味着世界模型必须在像素层面生成未来观测。

这看上去像生成问题，本质上却是控制问题。

插头有没有对准插孔，机械臂末端偏了几毫米，毛巾是不是被正确翻折，腕部相机里看到的接触状态是不是和头部相机一致，这些都不是「画得像」就能过关的事。

它要画得对，而且是对控制有用的那种对。

多视角一致性是机器人特有的硬约束

机器人常常同时依赖多个摄像头。

头部相机看全局布局，腕部相机看近距离细节。

精细操作里，后者几乎不可或缺。问题也因此变得棘手：如果未来的不同视角是分别生成的，它们很容易各自合理、彼此矛盾。

头部视角说机械臂已经靠近物体，腕部视角还停留在远处；头部视角里毛巾被抓起，腕部视角里接触关系却对不上。

这类不一致，对机器人策略来说比模糊还危险。

模糊意味着信息少，矛盾意味着信息错。

长程推演的误差，会在稀疏奖励下被放大

世界模型最经典的问题是误差累积。

第一步偏一点，第二步在「偏了一点的世界」里继续预测，第三步偏差再放大。长程任务做下来，生成轨迹和真实环境之间很快就会分道扬镳。

VLA场景下这件事更难，因为很多机器人任务都是稀疏奖励。

毛巾叠好了没有，插头插进去了没有，白板擦干净了没有，常常只有成败两种判断。

这意味着很小的视觉偏差，就可能把一个状态从「成功」翻成「失败」，或者反过来。强化学习如果用的是这种被翻转的奖励，后果可想而知。

这也是为什么过去一些世界模型方法虽然思路很漂亮，真正落到机器人上时，效果常常局限在短任务或比较受控的环境里。

不把参数做更大

而把世界模型做得更能用

论文提出的方法叫VLA-MBPO。从名字就能看出作者的目标很明确：不是做一个概念性的世界模型，而是做一个能实用的、适合VLA强化学习后训练的世界模型框架。

整套方法可以放在论文图1中理解。

图1. VLA-MBPO架构

它有三个关键设计，分别对应前面提到的三类现实难点。

统一多模态世界模型：预测未来观测和奖励

过去一些方法会把「未来画面预测」和「奖励判断」分成两套系统：一个模型负责动力学，另一个模型负责根据图像判断任务是否完成。

这种设计并非不能用，只是系统复杂、部署开销大，速度也未必理想。

VLA-MBPO采用的是一条更干净的路线：直接用统一多模态模型（Unified Multimodal Model, UMM）作为世界模型骨干，把视觉、文本和动作统一到一个模型里，让它一起完成未来观测预测和奖励预测。

作者在实现中使用了Bagel作为基础模型，并把连续动作离散成token序列输入模型。这样一来，世界模型接收的信息就不再只有图像和文本，还能直接读入机器人动作切块。

这件事很实际。

一方面，UMM能直接利用预训练多模态模型已有的视觉语义能力。机器人场景的数据规模远远比不上互联网图文数据，能借到的先验越多，越容易在少量离线数据下泛化。另一方面，统一建模省掉了「两套大模型并排跑」的工程负担。模型不需要先用视频世界模型滚出一段未来，再单独把图像丢进另一个视觉语言模型里判定奖励。

论文还特别强调了一个效率优势。

传统视频世界模型往往要生成所有中间帧，作者的UMM-World可以跳过中间帧，直接预测动作切块之后的未来状态。图2给出的就是这一路线和视频模型思路的直观对比。

图2. UMM可跳过中间帧，直接预测动作切块之后的未来状态

实验结果也支撑了这点。

在LIBERO Object套件上，UMM-World相比视频世界模型Ctrl-World，在头视角和腕视角预测质量上都更好，推理时间从21降到10；用于奖励判断时，准确率达到98.4%，F1为0.861，已经和专门做视觉理解的Qwen3-VL-8B同一个量级，甚至更高。

表1.模型性能对比

这个结果很关键。

世界模型真正要进入实用阶段，不能只擅长「生成图像」，也不能只擅长「识别成功」，它需要在同一个系统里把这两件事都做稳。

交错式解码：多视角要看到同一个世界

论文里一个很有辨识度的设计，是Interleaved View Decoding，也就是交错式试图解码。

这背后的观察很朴素。

多视角不是多个摄像头的简单拼接，它们之间天然存在依赖关系。机器人头部相机给出全局布局，腕部相机补充局部细节。如果两个视角彼此独立生成，局部上再清晰，也可能拼不出同一个物理世界。

作者采用的做法，是让多视角预测按照一种有依赖的顺序进行。

论文中给出的分解方式里，先根据当前多视角观测和动作预测未来的头部视角，再结合这个未来的头部视角去预测未来的腕部视角。这样一来，局部视角就不再是「平地起高楼」，而是建立在全局状态已经确定的基础上。

这件事的重要性，在机器人任务里比在普通视频任务里更高。

精细操作最怕的不是图像有点模糊，而是世界状态自相矛盾。

一个策略如果同时看到两种不一致的未来，很容易被误导到错误动作上。

论文的消融实验给出了明确证据。

去掉交错式视角解码之后，腕部视角预测质量明显下降，多视角一致性变差，最终也影响了世界模型的整体表现。图12中的案例就很直观：即便模型生成的头视角和真实轨迹略有偏差，腕部视角仍然和它自己生成的头视角保持一致，说明模型内部维持的是一个统一的空间状态，而不是机械地去「背答案」。

这类设计看起来是技术细节，放到机器人控制里，几乎就是成败分界线。

最关键的一刀

砍向了最大死穴：误差累积

VLA-MBPO真正抓住问题核心的部分，在于推演设计。

过去不少world model + RL方法，喜欢直接在学出来的环境里做长轨迹推演。

从任务开头一路往后想象，想象得越完整，似乎越接近真实训练。可在机器人任务上，这往往恰好是最危险的做法。

原因很简单：图像预测误差会累积，奖励又往往稀疏。长程推演一旦偏掉，后续策略优化就会建立在错误世界上。模型学得越认真，可能偏得越远。

作者的做法非常务实：短分支推演。

他们采用的是chunk-level branched rollout。机器人并不从任务起点一路「脑补」到终点，而是从离线数据中的任意中间状态出发，每次只向前推演很短一段。动作本身又是以切块为单位预测，相当于进一步缩短了有效预测链条。

这有点像是让机器人在真实经验里截取许多「关键局部」，在这些局部附近做短距离推演，而不是要求它闭着眼把整场任务从头到尾想完。这样的想象没那么浪漫，却更接近可靠训练所需要的东西。

论文还给出了一段理论分析。

在典型设置下，传统全程方法的价值误差上界里，模型误差项前的系数大约是18916；VLA-MBPO把推演限制为2个切块之后，这个系数降到400左右。

不看公式也能明白，这意味着什么。

世界模型不必做到绝对完美，系统就有机会稳定工作。

这对机器人强化学习来说，比「再多涨几点benchmark」更重要。

世界模型不只更强，还真把策略学得更好了

跑赢了视频世界模型和专用奖励模型

在论文的世界模型评估部分，作者选用了LIBERO的Object套件，用50条轨迹/任务训练，在10条保留测试轨迹上做评估，并滚动预测40步。

结果见上面的表1。UMM-World在头视角和腕视角上都拿到了更好的图像预测指标：

Head View：LPIPS 0.094，PSNR 23.29，SSIM 0.906
Wrist View：LPIPS 0.254，PSNR 18.76，SSIM 0.751

对比基线 Ctrl-World：

Head View：LPIPS 0.150，PSNR 21.95，SSIM 0.882
Wrist View：LPIPS 0.435，PSNR 13.87，SSIM 0.680

奖励判断方面，UMM-World的准确率和F1分别是98.4/0.861，高于Qwen3-VL-8B的97.0/0.841。推理时间则几乎减半，从21降到10。

这个结果说明，作者的统一多模态建模不是「把多个功能硬塞进一个模型」，而是真的把动力学预测和奖励理解统一了起来。

图4和图11给出了不少定性结果。

从中能看到，UMM-World生成的轨迹已经能够在仿真和真实任务上维持较好的空间一致性，尤其在多视角场景中更为明显。

图4. UMM推演样例

图11. UMM在仿真和真机上的更多推演样例

在LIBERO上，全面超过多种基线

策略评估部分，作者在LIBERO四个常用套件上进行了实验：Spatial、Object、Goal和Long。

对比对象包括：

初始的SFT VLA策略
仅使用世界模型成功轨迹做行为克隆的BC(WM)
在线RL基线
离线无模型强化学习IDQL

主结果见表2：

表2.仿真环境对比结果

相比初始SFT策略，平均提升9.1个百分点。

最显眼的是LIBERO-Long，从54.6提升到66.8，涨了12.2个点。

这个提升出现在哪里，很值得细看。

如果一个方法只在短任务上占优，很可能只是局部优化。

VLA-MBPO最大的优势恰恰体现在长程任务上，这说明它真正缓解的是世界模型最容易失控的部分：长推演下的策略优化。

论文里的图3也很有意思。

作者可视化了值模型在未见过的完整轨迹上的学习动态。蓝线是真实回报，橙线是值模型的估计值。随着训练推进，尽管模型只在短分支推演上训练，值估计仍能逐渐对齐长程轨迹的真实回报。作者把这种能力概括为一种「trajectory stitching」——靠局部想象推演学出跨动作切块的时间一致性。

这很可能正是策略在长任务中还能继续变强的内在原因。

图3. 值模型的学习过程

真机实验更值得看：跨平台、跨任务都有提升

仿真之外，论文还做了真实机器人实验，而且不只是在单一平台上试了几个任务。作者选择了两类机器人：

Arx-X5双臂平台
Galaxy-R1全身机器人

对应五个任务：

Plug Cable：插电缆
Fold Towel：叠毛巾
Insert Pen：插笔
Pick Cup：拿杯子放到目标盘
Wipe Board：擦白板

这五个任务几乎把当下机器人操作里的几类典型难点都覆盖到了：

毫米级精细接触；
柔性物体操作；
视角扰动；
高自由度全身控制；
局部可观测下的移动操作。

数据采集也比较克制。

Arx-X5每个任务大约50条示范，Galaxy-R1每个任务大约100条示范；SFT完成后，再额外收集50条on-policy rollout用于VLA-MBPO训练。评估时，每个任务做50次测试，其中30次seen、20次unseen，后者包含新物体、新背景和新空间配置。

图5. 真机实验对比结果

真机对比结果在图5。从图中可以看到，VLA-MBPO在五个任务上都稳定优于仅做SFT的VLA策略和离线RL基线IDQL。

这几类提升有着不同含义。

Fold Towel上的提升，说明模型对柔性物体动力学确实学到了一些可迁移的信息。

Plug Cable上的提升，说明像素级未来预测和奖励判断已经足以支撑更精细的接触操作。

Wipe Board上的提升尤其有分量，因为它同时涉及移动、全身控制、局部可观测和长程误差累积，向来是最容易让世界模型「漂掉」的类型。

更重要的是，在「见过」和「未见过」条件下都能保持增益。

这意味着它学到的不是训练场景的机械复现，而是某种更稳健的后训练能力。

想象不是越长越好，越稳越重要

论文的消融部分很短，结论却非常干脆。

推演长度，2个动作切块最合适

在LIBERO-Long上，作者比较了不同推演长度方案的得分：

branched rollout = 1：63.9
branched rollout = 2：66.8
branched rollout = 4：62.9
full horizon：52.8

这组数字很好地说明了VLA-MBPO的设计逻辑。

推演太短，探索空间不够，价值拼接更难；推演太长，世界模型误差又会重新开始累积。全程推演看似完整，实际上最不可靠，在长任务中直接掉到了52.8。

世界模型强化学习里，真正有用的「想象数据」，并不是「越长越像完整任务」越好，而是落在一个误差和收益都能接受的区间内。论文的结果表明，这个区间至少在当前设定下，恰好就在2-chunk branched rollout附近。

「想象数据」越多，成功率持续上涨

另一个消融见图6。

图6.成功率与用于训练的「想象数据」量（横轴）的关系

随着每轮imagined sample数量从128提升到2560，VLA-MBPO的成功率持续上升，没有出现明显平台期。

这说明，当前的限制因素已经不完全是「是否能生成想象数据」，而更多是「能生成多少足够可靠的想象数据」。

从更长远的角度看，这个结果很有启发性。

如果世界模型继续变好，VLA-MBPO这套范式大概率还能继续吃到规模化的红利。

这篇工作的分量，更多体现在方向判断上

把整篇论文看完，会发现作者真正做成的，并不只是一个局部技巧。

从「概念正确」往「系统可用」推进一大步

过去大家都知道世界模型有潜力，问题在于它常常止步于「原理没错，细节一塌糊涂」。

这篇工作没有试图绕开那些细节，而是把几个最关键的环节全部摆上台面：

像素级世界建模
多视角一致性
稀疏奖励下的误差累积
VLA后训练与RL的耦合方式

它的价值，正在于把这些环节连成了一个闭环。

给VLA后训练提供了一个新范式

这项工作不是要否定纯VLA，也不是让世界模型替代基础模型。更准确的理解是：

大规模VLA负责提供通用感知、语言理解和动作先验；

世界模型负责提供一个安全、高效、可反复试错的想象环境；

强化学习则在这个环境里把策略往上再推一层。

这种范式很可能比「示范数据无限堆叠」更接近机器人长期发展的现实路径。

在工程上已经有了「能落地」的味道

论文最后给出的计算资源信息也值得一提。

全部实验在8张NVIDIA H100上完成，UMM-World训练大约7-8小时，策略优化大约4-6小时。

这当然称不上轻量，但放在机器人研究里看，这已经不是一个只停留在「理论上可以」的方案了，而是一套可以反复复现、跨任务迁移、超参数相对统一的工程系统。

论文也提到，他们在不同任务上基本沿用了同一组超参数。对于机器人世界模型强化学习来说，这一点意义很大。很多方法实验室里能跑出来，是靠大量特定任务针对性调参堆出来的；一旦超参数趋于统一，才更像走向了真正可用。

还没到终点，但方向已经清楚了

作者没有回避这项工作的局限。

一方面，UMM-World虽然比视频模型高效，生成「想象数据」仍然需要不小的算力。

另一方面，当前的统一多模态模型还没有在大规模机器人动作数据上做过原生预训练，所以下游任务仍然需要少量数据去微调世界模型。

论文附录里的失败案例也很真实。

图13展示了局部可观测导致的失败：机械臂移出主视角后，模型难以仅凭腕部相机恢复完整姿态；大视角变化时，原本不在视野里的区域也难以被正确「脑补」出来。

图14则展示了大动作幅度和柔性物体剧烈变形下的困难：模型容易出现动作预测缺陷或不合理幻觉。

图13. 由于不完全观测造成的推演失败案例

图14. 由于大幅动作和柔性形变造成的推演失败案例

这恰恰说明，世界模型仍然是具身智能里最难啃的骨头之一。

只不过和以往不同的是，这篇论文让人看到：它已经不是一个遥远的理想目标，而是开始形成一条可以持续打磨的技术路线。

写在最后

机器人领域这几年最明显的变化，是「看懂」和「听懂」已经不再是唯一重点。

更深一层的问题开始浮出水面：机器人能不能拥有某种内部模拟能力，能不能在真的伸手之前，先在自己学到的世界里试一遍、算一遍、想一遍。

这篇论文给出的答案，不激进，也不夸张。

它没有宣称世界模型已经被彻底解决，也没有把强化学习包装成万能钥匙。它做的事情更扎实：在VLA这个今天最重要的机器人范式里，把世界模型真正推进到一个「值得认真对待」的阶段。

从更大的图景看，纯VLA路线证明了，大模型能够把机器人带到一个新的起点；世界模型路线正在尝试回答，机器人如何从这个起点继续往前走。

也许未来的通用机器人，不会只是一个看图出动作的超级模仿器。

它更像是一个能够理解指令、感知场景、预测后果、在想象中试错，再把经验带回现实的系统。

这一次，离那个方向又近了一步。

论文信息

论文标题：Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

作者：Zhilong Zhang, Haoxiang Ren, Yihao Sun, Yifei Sheng, Haonan Wang, Haoxin Lin, Zhichao Wu, Pierre-Luc Bacon, Yang Yu

机构：南京大学LAMDA实验室、蒙特利尔大学Mila

实验室时间：2026年3月arXiv：2603.20607

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

<原文链接：https://mp.weixin.qq.com/s/axFZfnbLGHQnp4im3kNf1w

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

别再拿真机炼丹！南大终结「肉身排雷」，机器人0成本脑内练满级

【新智元导读】具身智能正站在一条分界线前：VLA的下一步，靠模仿学习已经越来越难撑起来了。一篇南大重磅论文再次瞄准「世界模型」，让机器人先在脑中练会再上手，少在真机上「交学费」。

请登录后发表评论