从语言到世界：AI如何学会“看见”看不见的一切？-AI Express News

当我沉默着的时候，我觉得充实；我将开口，同时感到空虚。——鲁迅
知者不言，言者不知。——老子

在写正文之前，突然冒出这两句话和一个问题：既然言说就会失真，为何还要“言”？

答案或许是：“言”，恰是通往“不言”的必经之路。只要不带说教，以同行者之心纯然分享，那么每一次言说，都是我们整理思绪、与他人碰撞、让真理越辩越明的必经之路。

而且最好的学习就是讲给别人听或者写出来，以巩固和深化理解。阅读，只是在训练识别模型。组织语言和输出表达的过程，就是在训练生成模型。生成模型的梯度反传，也能让识别模型越来越厉害。

还有一点很重要，写写文字也是一种很好的解压方式～

这么一想，不也挺好？

🦥 言归正传

读完李飞飞关于空间智能的文章，思绪万千。分享一些启发：

🦖 当前AI的局限
当前大模型对深度、距离、3D空间的感知远远不够。它们精通处理语言、代码等符号世界的信息，但缺乏对三维物理世界的基本理解，也无法与世界交互。

机器人不是大语言模型，是物理系统，更接近自动驾驶汽车。但是，自动驾驶汽车要简单得多，因为它是在二维表面上运行的金属盒子，目标是不触碰其他物体；而机器人是在三维世界中运行的三维物体，目标是接触其他物体。

🦋 什么是空间智能？
赋予AI物理世界的“常识”：
1. 三维几何理解：从识别“猫”到构建它的三维形态与运动轨迹。
2. 物理推理：理解球会滚落、积木会倒塌的因果关系。
3. 动作与交互：从“看”世界到“操作”世界。

这被概括为 From Words to Worlds 的跃迁。

🦚 什么是世界模型？
必要不充分条件：
1. 世界状态的表征

——比如：动态静态occ图像点云高斯等的显示建模3D表征，3d隐空间重建/生成+时间的隐式表达token。
2. 世界状态的转移

——比如：action后的状态变化，St-1 -> St，预测下一时刻的结构化物体/粒子的物理状态，预测下一帧画面的隐特征。

🐳 我眼中的世界
李飞飞文章的结尾令人感动：“构建与物理世界高度契合的机器，成为应对重大挑战的伙伴。”

这让我想起我的哲学启蒙书杜兰特的《哲学的故事》中的一句：“没有哲学指导的科学无法将我们从大劫难中拯救出来。”

这些词语都有种神奇的力量，仿佛是人生剧本的必要拐点，通过重大挑战指引我们打开新世界大门。

🐠 哲学语境下的世界模型
“世”是时间流变，“界”是空间定位。我们眼中的世界映射，从来都不是“物自体”本身。这引出关键问题：当机器从“语言模型”迈向“世界模型”时，它在跨越什么？

🐬 维特根斯坦的语言与世界
“语言的界限，即是世界的界限。”我们教机器理解世界的方式，是灌输我们的“语言”——海量数据标签（激光雷达点云标签、动静态标签、可通行区域、行为轨迹）。这正应了柏拉图的“洞穴寓言”：系统将影子当作真实。

而“对于不可言说之物，必须保持沉默。”物理世界的常识与因果，恰是难以言说的。于是我们陷入“局部最优陷阱”。

🦄 构建智能，build anything
维特根斯坦后期转向“语言游戏”，而任何语言游戏（比如下棋、祈祷、下达指令）都植根于一种更底层的 “生活形式” ——那是人类共享的、关于世界如何运作的背景共识与行为模式。比如，我们理解“红灯停”，不仅是一个视觉感知标签，更包含了“安全”、“规则”、“危险”以及整套社会契约。

1950年，图灵问“机器能思考吗？”他的远见在于预见智能可被“构建”，而非仅“诞生”。

要实现空间智能，就需要构建理解通用法则的系统：推理他车意图、洞悉因果链条，从而突破数据局限，真正“举一反三”。

🦊 数据驱动是必要阶梯
数据虽有局限，但也是必要阶梯。就像吃包子，第九个之前需要前八个的过程才能吃饱。人生没有白走的路，每一步都算数，要么是收获要么是学习。

“构建”是经验主义与理性主义的结合：
1. 数据驱动是基础，让我们走出柏拉图的洞穴看见影子。
2. 空间智能与世界模型是火把，让我们理解，是何种光明与物体，投射出了这些影子。知其然，也知其所以然。

☄️ 学习“世界语法”
From Words to Worlds 不再是学习描述世界的“语言”，而是学习世界本身的“语法”。

这种语法不是通过“言传和身教”来学习的，而是通过“在世界中存在”与“互动”来体悟的。

VLA将视觉、文本、动作统一成更丰富的Token，扩展了机器的词汇，但仍在语言疆域内。

空间智能的目标是让机器学会世界语法——3D几何、物理定律、时间因果的隐式表达。它要求机器理解，“一个球从桌上滚落”是一个必然的因果事件，而不是一个需要被标注数百万次的离散图像。

这正如康德所洞察：认知依赖于“先验”的时空形式和范畴。——构建“世界模型”的AI基石。

世界模型有两种含义，一种是具体的场景表征函数和状态转移函数的算法和模型（比如3DGS系列），另一种是从数据收集、场景重建/生成、智能体可在其中闭环仿训自博弈的大数据闭环系统。

🐤🐰 如果维特根斯坦是AI工程师
1. 旧范式——语言化世界：试图用无限数据描述世界 -> 局部最优。
2. 新范式——世界化语言：让AI先学会世界法则 -> 生成应对新场景的能力。

🦕 走向“世界化”的语言
“如果狮子会说话，我们也无法理解它。”因为生活形式不同。