![图片[1]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206004803200-1764953283-1866d0fb20b8a7585807129d43c16dda.jpeg)
当我沉默着的时候,我觉得充实;我将开口,同时感到空虚。——鲁迅 知者不言,言者不知。——老子
在写正文之前,突然冒出这两句话和一个问题:既然言说就会失真,为何还要“言”?
答案或许是:“言”,恰是通往“不言”的必经之路。只要不带说教,以同行者之心纯然分享,那么每一次言说,都是我们整理思绪、与他人碰撞、让真理越辩越明的必经之路。
而且最好的学习就是讲给别人听或者写出来,以巩固和深化理解。阅读,只是在训练识别模型。组织语言和输出表达的过程,就是在训练生成模型。生成模型的梯度反传,也能让识别模型越来越厉害。
还有一点很重要,写写文字也是一种很好的解压方式~
这么一想,不也挺好?
🦥 言归正传
读完李飞飞关于空间智能的文章,思绪万千。分享一些启发:
🦖 当前AI的局限
当前大模型对深度、距离、3D空间的感知远远不够。它们精通处理语言、代码等符号世界的信息,但缺乏对三维物理世界的基本理解,也无法与世界交互。
机器人不是大语言模型,是物理系统,更接近自动驾驶汽车。但是,自动驾驶汽车要简单得多,因为它是在二维表面上运行的金属盒子,目标是不触碰其他物体;而机器人是在三维世界中运行的三维物体,目标是接触其他物体。
![图片[2]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206004805797-1764953285-39ba7d14e3700260d8baf8fc0ebb5487.jpeg)
🦋 什么是空间智能?
赋予AI物理世界的“常识”:
1. 三维几何理解:从识别“猫”到构建它的三维形态与运动轨迹。
2. 物理推理:理解球会滚落、积木会倒塌的因果关系。
3. 动作与交互:从“看”世界到“操作”世界。
这被概括为 From Words to Worlds 的跃迁。
🦚 什么是世界模型?
必要不充分条件:
1. 世界状态的表征
——比如:动态静态occ图像点云高斯等的显示建模3D表征,3d隐空间重建/生成+时间的隐式表达token。
2. 世界状态的转移
——比如:action后的状态变化,St-1 -> St,预测下一时刻的结构化物体/粒子的物理状态,预测下一帧画面的隐特征。
![图片[3]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206004807213-1764953287-7da390d4f67db158f855166933f40256.jpeg)
🐳 我眼中的世界
李飞飞文章的结尾令人感动:“构建与物理世界高度契合的机器,成为应对重大挑战的伙伴。”
这让我想起我的哲学启蒙书 杜兰特的《哲学的故事》中的一句:“没有哲学指导的科学无法将我们从大劫难中拯救出来。”
这些词语都有种神奇的力量,仿佛是人生剧本的必要拐点,通过重大挑战指引我们打开新世界大门。
🐠 哲学语境下的世界模型
“世”是时间流变,“界”是空间定位。我们眼中的世界映射,从来都不是“物自体”本身。这引出关键问题:当机器从“语言模型”迈向“世界模型”时,它在跨越什么?
![图片[4]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206004808539-1764953288-0722833a1595df1188ca7a778f4ec726.jpeg)
🐬 维特根斯坦的语言与世界
“语言的界限,即是世界的界限。”我们教机器理解世界的方式,是灌输我们的“语言”——海量数据标签(激光雷达点云标签、动静态标签、可通行区域、行为轨迹)。这正应了柏拉图的“洞穴寓言”:系统将影子当作真实。
而“对于不可言说之物,必须保持沉默。”物理世界的常识与因果,恰是难以言说的。于是我们陷入“局部最优陷阱”。
🦄 构建智能,build anything
维特根斯坦后期转向“语言游戏”,而任何语言游戏(比如下棋、祈祷、下达指令)都植根于一种更底层的 “生活形式” ——那是人类共享的、关于世界如何运作的背景共识与行为模式。比如,我们理解“红灯停”,不仅是一个视觉感知标签,更包含了“安全”、“规则”、“危险”以及整套社会契约。
1950年,图灵问“机器能思考吗?”他的远见在于预见智能可被“构建”,而非仅“诞生”。
要实现空间智能,就需要构建理解通用法则的系统:推理他车意图、洞悉因果链条,从而突破数据局限,真正“举一反三”。
🦊 数据驱动是必要阶梯
数据虽有局限,但也是必要阶梯。就像吃包子,第九个之前需要前八个的过程才能吃饱。人生没有白走的路,每一步都算数,要么是收获要么是学习。
“构建”是经验主义与理性主义的结合:
1. 数据驱动是基础,让我们走出柏拉图的洞穴看见影子。
2. 空间智能与世界模型是火把,让我们理解,是何种光明与物体,投射出了这些影子。知其然,也知其所以然。
![图片[5]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206004810966-1764953290-a615e535002d0f9a8f8ad6e2751b9e92.jpeg)
☄️ 学习“世界语法”
From Words to Worlds 不再是学习描述世界的“语言”,而是学习世界本身的“语法”。
这种语法不是通过“言传和身教”来学习的,而是通过“在世界中存在”与“互动”来体悟的。
VLA将视觉、文本、动作统一成更丰富的Token,扩展了机器的词汇,但仍在语言疆域内。
空间智能的目标是让机器学会世界语法——3D几何、物理定律、时间因果的隐式表达。它要求机器理解,“一个球从桌上滚落”是一个必然的因果事件,而不是一个需要被标注数百万次的离散图像。
这正如康德所洞察:认知依赖于“先验”的时空形式和范畴。——构建“世界模型”的AI基石。
世界模型有两种含义,一种是具体的场景表征函数和状态转移函数的算法和模型(比如3DGS系列),另一种是从数据收集、场景重建/生成、智能体可在其中闭环仿训自博弈的大数据闭环系统。
🐤🐰 如果维特根斯坦是AI工程师
1. 旧范式——语言化世界:试图用无限数据描述世界 -> 局部最优。
2. 新范式——世界化语言:让AI先学会世界法则 -> 生成应对新场景的能力。
![图片[6]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206004811605-1764953291-77bcfa54b4228c7d5e75ff2d42366fc2.jpeg)
🦕 走向“世界化”的语言
“如果狮子会说话,我们也无法理解它。”因为生活形式不同。
我们需要为机器创造新语言:词汇是三维几何与材质,语法是物理定律与社会惯例。
从语言到世界的征途,也是人类认知的自我突破。保持构建的勇气,也对世界的复杂保持敬畏。
知识是个圆,知道得越多,未知的边界就越大。正因如此,探索的热情才持续高涨。
如果把自己当作AI,理解世界是个永无止境的过程:
1. 觉察:认识自身局限
2. 成长:构建世界模型
3. 成熟:拥抱不确定性
![图片[7]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251206004812271-1764953292-565757b5d4df0fc799170af245d95386.jpeg)
认识世界,认识自己,认识你。
✨ 感谢你的时间,欢迎你的关注~
<












暂无评论内容