从语言到世界:AI如何学会“看见”看不见的一切?

图片[1]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News


当我沉默着的时候,我觉得充实;我将开口,同时感到空虚。——鲁迅

知者不言,言者不知。——老子

在写正文之前,突然冒出这两句话和一个问题:既然言说就会失真,为何还要“言”?

答案或许是:“言”,恰是通往“不言”的必经之路。只要不带说教,以同行者之心纯然分享,那么每一次言说,都是我们整理思绪、与他人碰撞、让真理越辩越明的必经之路。


而且最好的学习就是讲给别人听或者写出来,以巩固和深化理解。阅读,只是在训练识别模型。组织语言和输出表达的过程,就是在训练生成模型。生成模型的梯度反传,也能让识别模型越来越厉害。


还有一点很重要,写写文字也是一种很好的解压方式~


这么一想,不也挺好?

🦥 言归正传

读完李飞飞关于空间智能的文章,思绪万千。分享一些启发:

🦖 当前AI的局限
当前大模型对深度、距离、3D空间的感知远远不够。它们精通处理语言、代码等符号世界的信息,但缺乏对三维物理世界的基本理解,也无法与世界交互。


机器人不是大语言模型,是物理系统,更接近自动驾驶汽车。但是,自动驾驶汽车要简单得多,因为它是在二维表面上运行的金属盒子,目标是不触碰其他物体;而机器人是在三维世界中运行的三维物体,目标是接触其他物体。


图片[2]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News

🦋 什么是空间智能?
赋予AI物理世界的“常识”:
1. 三维几何理解:从识别“猫”到构建它的三维形态与运动轨迹。
2. 物理推理:理解球会滚落、积木会倒塌的因果关系。
3. 动作与交互:从“看”世界到“操作”世界。

这被概括为 From Words to Worlds 的跃迁。

🦚 什么是世界模型?
必要不充分条件:
1. 世界状态的表征

——比如:动态静态occ图像点云高斯等的显示建模3D表征,3d隐空间重建/生成+时间的隐式表达token。
2. 世界状态的转移

——比如:action后的状态变化,St-1 -> St,预测下一时刻的结构化物体/粒子的物理状态,预测下一帧画面的隐特征。

图片[3]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News


🐳 我眼中的世界
李飞飞文章的结尾令人感动:“构建与物理世界高度契合的机器,成为应对重大挑战的伙伴。”

这让我想起我的哲学启蒙书 杜兰特的《哲学的故事》中的一句:“没有哲学指导的科学无法将我们从大劫难中拯救出来。”

这些词语都有种神奇的力量,仿佛是人生剧本的必要拐点,通过重大挑战指引我们打开新世界大门。

🐠 哲学语境下的世界模型
“世”是时间流变,“界”是空间定位。我们眼中的世界映射,从来都不是“物自体”本身。这引出关键问题:当机器从“语言模型”迈向“世界模型”时,它在跨越什么?

图片[4]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News


🐬 维特根斯坦的语言与世界
“语言的界限,即是世界的界限。”我们教机器理解世界的方式,是灌输我们的“语言”——海量数据标签(激光雷达点云标签、动静态标签、可通行区域、行为轨迹)。这正应了柏拉图的“洞穴寓言”:系统将影子当作真实。

而“对于不可言说之物,必须保持沉默。”物理世界的常识与因果,恰是难以言说的。于是我们陷入“局部最优陷阱”。

🦄 构建智能,build anything
维特根斯坦后期转向“语言游戏”,而任何语言游戏(比如下棋、祈祷、下达指令)都植根于一种更底层的 “生活形式” ——那是人类共享的、关于世界如何运作的背景共识与行为模式。比如,我们理解“红灯停”,不仅是一个视觉感知标签,更包含了“安全”、“规则”、“危险”以及整套社会契约。


1950年,图灵问“机器能思考吗?”他的远见在于预见智能可被“构建”,而非仅“诞生”。


要实现空间智能,就需要构建理解通用法则的系统:推理他车意图、洞悉因果链条,从而突破数据局限,真正“举一反三”。


🦊 数据驱动是必要阶梯
数据虽有局限,但也是必要阶梯。就像吃包子,第九个之前需要前八个的过程才能吃饱。人生没有白走的路,每一步都算数,要么是收获要么是学习。

“构建”是经验主义与理性主义的结合:
1. 数据驱动是基础,让我们走出柏拉图的洞穴看见影子。
2. 空间智能与世界模型是火把,让我们理解,是何种光明与物体,投射出了这些影子。知其然,也知其所以然。

图片[5]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News


☄️ 学习“世界语法”
From Words to Worlds 不再是学习描述世界的“语言”,而是学习世界本身的“语法”。


这种语法不是通过“言传和身教”来学习的,而是通过“在世界中存在”与“互动”来体悟的。


VLA将视觉、文本、动作统一成更丰富的Token,扩展了机器的词汇,但仍在语言疆域内。


空间智能的目标是让机器学会世界语法——3D几何、物理定律、时间因果的隐式表达。它要求机器理解,“一个球从桌上滚落”是一个必然的因果事件,而不是一个需要被标注数百万次的离散图像。


这正如康德所洞察:认知依赖于“先验”的时空形式和范畴。——构建“世界模型”的AI基石。


世界模型有两种含义,一种是具体的场景表征函数和状态转移函数的算法和模型(比如3DGS系列),另一种是从数据收集、场景重建/生成、智能体可在其中闭环仿训自博弈的大数据闭环系统。


🐤🐰 如果维特根斯坦是AI工程师
1. 旧范式——语言化世界:试图用无限数据描述世界 -> 局部最优。
2. 新范式——世界化语言:让AI先学会世界法则 -> 生成应对新场景的能力。

图片[6]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News


🦕 走向“世界化”的语言
“如果狮子会说话,我们也无法理解它。”因为生活形式不同。

我们需要为机器创造新语言:词汇是三维几何与材质,语法是物理定律与社会惯例。


从语言到世界的征途,也是人类认知的自我突破。保持构建的勇气,也对世界的复杂保持敬畏。

知识是个圆,知道得越多,未知的边界就越大。正因如此,探索的热情才持续高涨。

如果把自己当作AI,理解世界是个永无止境的过程:
1. 觉察:认识自身局限

🐌【认识你自己】觉察就是很好的开始

2. 成长:构建世界模型

🐢【时间哲学】五一假期的贝叶斯困境

🐙【猛虎和蔷薇】聊聊达克效应和高考学子

🐡【孤独的美食家】浪漫主义和独食哲学

3. 成熟:拥抱不确定性

🐣(【生命的诗意】进化不是为了自我复制?

🐒【生命与宽容】浅谈良善与正义


图片[7]-从语言到世界:AI如何学会“看见”看不见的一切?-AI Express News


认识世界,认识自己,认识你。


✨  感谢你的时间,欢迎你的关注~


<

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
zxxjg的头像-AI Express News
评论 抢沙发

请登录后发表评论

    暂无评论内容