2秒终结AI 3D不可能三角，我们和VAST首席科学家曹炎培聊了聊-AI Express News

机器之心编辑部

速度、质量、管线可用性，是 AI 3D 生成领域公认的不可能三角。三件事，从来没有同时成立过。直到现在。VAST 最新发布的 Tripo P1.0，首次在原生三维空间中实现概率生成，2 秒内即可输出专业建模师级别的 3D 资产，效率较现有方案提升百倍以上。

过去，一个经验丰富的 3D 建模师，完成一个游戏级别的角色资产，往往需要数天时间。

现在，只要 2 秒。

用户只需输入一张图片，或给出简单的提示语，系统便能在 2 秒内生成一个拓扑规整、布线合理、约 5000 面（最高可达 20000 面）的游戏级模型。

这一突破来自国内专注于 3D 生成的明星初创公司 VAST。其最新发布的 Tripo P1.0 模型，通过 Smart Mesh 功能，在 Tripo Studio 平台上实测只需约 2 秒即可生成结构化 3D 网格。

使用地址：https://studio.tripo3d.ai/workspace/generate

不少网友看到这一消息后只剩下一句评价：从提示词到可用网格资产，如今几乎瞬间完成。随着生成速度的大幅提升，创作的试错成本被进一步压低：

但速度只是这次突破的一部分。更重要的是，生成结果本身已经具备管线级的结构质量。

P1.0 生成的 Mesh 拥有更加干净、智能的拓扑结构，整体布线规整，几何形体与输入图像高度一致。同时，面数可以在 500 到 20000 面之间灵活控制，以适配不同使用场景。

更关键的是，生成后的资产可以直接进入实时图形流程，适用于游戏开发、仿真模拟、实时渲染、Web 工具以及大规模内容生产等场景。换句话说，从提示词到一个可用的 3D 资产，中间几乎不再需要复杂的建模流程。

在 3D 生成领域，速度、质量和管线可用性长期以来被视为难以同时满足的不可能三角。过去的模型要么生成速度慢，要么结构质量不足，要么无法进入真实生产管线。

而随着 Tripo P1.0 的发布，这三件事，第一次开始同时成立。

效果怎么样，我们先来看 Smart Mesh 功能的测试案例。

在这个案例中，Smart Mesh 完美复刻了角色头盔的圆润弧度与护甲的硬朗切面，尾巴等细长结构无粘连，几何形变控制极其稳健：

对这种带有露台、阶梯和多层结构的建筑，在传统 AI 生成中极易出现「结构穿插」或「透视扭曲」。而 Smart Mesh 完美还原了阳台护栏、外部楼梯与主体的空间连接关系，几何逻辑非常清晰：

下面是 Tripo P1.0 自动生成匹配的纹理贴图的效果展示。

可以看出，Tripo P1.0 体现了极高的纹理采样与几何捕捉能力，在材质精度、光影渲染以及细节刻画上都达到了专业级水准：

在这个案例中，Tripo P1.0 模型的纹理贴图非常真实，精细地捕捉了木雕或彩塑表面的斑驳感、油漆脱落的痕迹以及木材本身的纹理：

这种惊艳的资产交付能力并非偶然，而是源于 VAST 对 3D 生成底层范式的推倒重来。

为什么 3D 是 AI 最难啃的骨头

过去几年，AI 在图像、视频与语音领域席卷一切，但 3D 始终是那块最难啃的骨头。

原因在于，几乎所有主流 AI 模型都脱胎于语言或图像的逻辑，它们本质上是在处理一维序列（文字）或二维矩阵（像素）。当这套逻辑被沿用到三维空间时，研究者面临一个根本性的困境：三维空间没有天然的顺序。

我们不妨用一个直觉类比来理解这个困境：你试图用电话向一个从未见过椅子的人描述一把椅子。你必须把它拆成一句一句话，按顺序描述，先说四条腿，再说椅面，再说靠背。但椅子本身并不是按这个顺序存在的，它同时存在，整体存在。你描述第一条腿的时候，另外三条腿也在那里。

把一个整体存在的结构强行序列化，意味着人为引入了本不存在的因果顺序。这带来两个直接后果。

其一，对称性的丧失。三维空间本质上具有各向同性，没有绝对的前后左右。强行加入顺序，就等于强行破坏了这种原生的对称性，让模型从一开始就带着一个结构性错误去学习。
其二，误差的级联。在逐步生成的过程中，前端的微小偏差会被持续放大。模型生成桌子四条腿时，如果它处于处理第一条腿的阶段，它并不知道另外三条腿的存在，于是每一步预测都缺乏全局视野，最终导致结构混乱。

这正是为何传统 AI 3D 网格生成长期徘徊在速度慢、拓扑乱、后处理重的困境之中。

Tripo P1.0：从第一性原理出发的重构

VAST 的选择是，回到更基础的问题重新问一遍。

既然三维形状本质上是一个整体结构，模型就应该从整体角度，在原生三维空间中对整个形状的生成过程建模，而不是把它拆碎了、排成序列、再逐步还原。

这正是 P1.0 的核心范式转变：从强行序列化到原生空间演化。

在 P1.0 的框架中，顶点的位置、边的连接关系以及面的结构，被统一表示在同一个特征空间中，通过统一的特征度量来描述点、线、面之间的关系。整个三维网格的几何结构与拓扑关系，在一个概率空间中同时建模，共同演化。

用 VAST 首席科学家曹炎培的话来说：我们把整个三维的网格信号概率化，然后在这个概率空间里做全局的三维几何演化。

这种从局部拼接到全局涌现的架构转变，带来了三个层面的直接改变。

几何层面：整体涌现，而非局部拼接。由于模型在生成任何一个局部结构时都能感知整体，结构对称性、比例关系、几何一致性不再依赖后期修正，而是作为全局生成的自然结果涌现出来。例如人类角色左右手臂布线的对称性、复杂机械零件的几何规律性，在 P1.0 的框架下都能自然形成，而不需要任何人工干预。

质量层面：训练数据即工业标准。P1.0 直接在符合工业规范的高质量三维网格数据上进行训练，这背后是 VAST 多年积累的约 5000 万条高质量 3D 数据，规模为全行业之最。生成结果本身就具备规范的拓扑结构和合理的布线逻辑，传统流程中耗时的重拓扑、手工布线修复等后处理步骤，在 P1.0 的工作流中已基本不再必要。

效率层面：传统序列化方法的计算开销居高不下，核心原因在于它本质上是在离散的组合空间中做暴力搜索，引发了巨大的组合复杂度。P1.0 将复杂的拓扑关系映射为高维特征场之间的连续度量关系，只需简单的向量内积等线性代数运算即可完成大量结构推理，这类运算天然契合 GPU 的大规模并行特性。这也是为何过去需要数百秒才能完成的生成任务，P1.0 只需约 2 秒。

这三个层面的改变，本质上指向同一件事：AI 3D 网格生成的底层范式，正在经历一次彻底改变。

算法 1.0 阶段，以基于序列化的自回归生成方法为代表。这一阶段的核心贡献是验证了 AI 生成三维内容的技术可行性，但受制于序列化方法论的结构性局限，始终在速度、质量、管线可用性三者之间被迫取舍：要速度就牺牲质量，要质量就承受漫长等待，要工程可用就需要大量后处理，三件事从未同时成立过。

随着 Tripo P1.0 的发布，以原生三维空间中的概率生成为核心特征。三维结构不再被强行分解为序列，而是在统一的高维特征空间中整体建模、全局演化。速度、质量与管线可用性，第一次开始同时成立。

深度对话 VAST 首席科学家曹炎培：从「视觉近似」跨越到「工业资产」

另外，机器之心也有幸采访到了 VAST 首席科学家曹炎培，他的讲述或许能让我们更清晰地看到，这家公司究竟在下一盘什么样的棋。

「双旗舰」布局

其实在 P1.0 之外，VAST 另一条路线 Tripo H3.1 也在 3D 生成赛道领跑。但团队并没有停在已有成果上，而是选择了再出发。VAST 认为：现有范式存在结构性天花板，需要从底层算法架构上重新来过。

机器之心：这次发布的 H3.1 和 P1.0 分别承担什么角色？各自的优势是什么？

曹炎培：H3.1 延续了 Tripo 从 1.0 到 3.0 再到 3.1 的进化路线，追求极致的视觉和几何保真度，不断突破 3D 生成的分辨率上限。

P1.0 解决的是时效性问题，在满足生产管线和工业标准兼容性的前提下实现极快的生成。以前 H3.0 也可以通过一套模型串联来实现良好拓扑、可做动画的程度，但时间和流程都比较长。P1.0 直接在工业可用的标准数据上训练和生成，端到端地解决了满足艺术家要求的、带逻辑布线的网格生成，跨越了以往图形学中繁琐的重拓扑步骤。

具体应用上，H3.1 适用于追求视觉天花板或需要精细表面细节的产品，比如工业级 3D 打印、3A 游戏主角的参考建模、汽车油泥模型等工业设计场景。P1.0 生成的是各种引擎和 3D 编辑器中能直接使用的实时资产，可以直接进入可交互的动画或游戏，以及机器人仿真、XR/AR 等场景。两者结合能覆盖更广的应用场景。

H3.1 生成的城堡效果

从专业工具到普通用户：3D 建模门槛的消失

机器之心：对 3A 游戏制作、具身智能等行业来说意义很大？

曹炎培：是的，比如具身智能领域，大家不只需要静态资产，还需要资产具有可动性和交互性 —— 盒子能打开，抽屉能抽出来，桌子能倾倒，机械臂能操作。这涉及实时动画，要在计算预算有限的仿真器里实时模拟和运行，这些都是更适合 P1.0 的场景。

机器之心：Smart Mesh 对不会 3D 建模的普通用户意味着什么？

曹炎培：未来很快，大家会模糊 3D 建模这个概念。用户会回归到创造 3D 模型的原始意图，而不是纠结于该怎么用工具得到三维模型。

我们最看好的是 UGC 场景。3D 打印本身也是一种 UGC，而 P1.0 带来的是 UGC 交互内容的普及和大众化。现在各种 AI agent 和 World Model 的发展已经为构建可交互环境和背后逻辑打好了基础，缺的就是各种各样的元素。以后大家不需要考虑这些元素怎么获得，它会像生成一张图片或一个 icon 一样简单。在 3D 交互环境里，需要一座山、一栋楼、一个角色，只需要跟大模型需要怎样的资产包、维护怎样的行为逻辑，我们的模型就都能提供。大多数人使用 P1.0 这样的模型时，甚至不会意识到自己完成了建模步骤，只是获得了最终有价值的资产。这可能为未来空间计算等方向提供了最重要的基础。

机器之心：你们提到 AI 3D 已经打破了速度、质量和工程可用性的不可能三角，这对行业意味着什么样的质变？

曹炎培：以前所有受限于资产丰富性、建模成本以及 3D 生成模型可用性的场景，创作者都会发现这些限制不复存在。当生成一个标准的 3D 交互资产只需要几秒，想象力就被无限放大，用户不会觉得利用三维资产做想做的事情还有任何障碍。

机器之心：P1.0 生成出来的物体是否可以直接进入游戏或渲染 pipeline ，或进行编辑？

曹炎培：完全没有问题。Tripo P1.0 就是在图形管线可用的数据上训练的，生成出来的模型已经模糊了专业建模师和普通创作者之间的边界 —— 甚至不只是模糊。我们相当于把拥有五年经验的美术或技术美术才能做出的拓扑布线逻辑，变成了算法上的直觉。普通人通过一张图或一个想法就能瞬间获得外观正确、结构符合工业标准的资产。不管是创意者还是生产力用户，都能回归到意图本身。

关于编辑，目前我们已经有内测功能，近期在 GDC 上也会展示模型原生的编辑能力。以后连 Blender 等复杂编辑工具也不再成为门槛，大家只需要与模型交互或对话，就可以编辑或演化出最终想要的模型。

3D 模态正在成为 AI 基础设施

机器之心：如果用一段话总结 P1.0 的意义，你会怎么说？

曹炎培：从行业和技术演进的角度讲，P1.0 让 3D 生成从以前的视觉近似跨越到了产业级、工业级的结构资产可用阶段。在算法和理论层面，它证明了 AI 完全可以在原生三维空间中直接生成符合艺术家生产管线标准的高质量网格，打破了很多人对 AI 3D 的偏见。AI 3D 能够进一步大规模进入次世代游戏、空间计算、物理 AI 等实时工作流，打通了 AI 对 3D 理解和生成的一大瓶颈。3D 这个模态依然很有希望，正在以很快的速度发展，并且正在成为整个 AI 基础设施中非常重要的一环，而不是说所有的 AI 都必须建立在语言、图像、视频的基础上。

人才护城河：V・STAR 计划与持续创新

机器之心：关于团队和人才方面，还有什么想补充的？

曹炎培：我们之所以能做出这些重要突破，很大程度上是因为拥有行业内最优秀的一群 researcher。这既包括从公司成立以来就一起做研究、一起共事的伙伴们，也很大程度上归功于去年推出的 V・STAR 人才计划 —— 一项面向顶尖研究者的专项招募与培养机制。V・STAR 计划帮助我们团结了很多对多模态生成领域有浓厚兴趣且能力很强的小伙伴，才能不断持续有突破，包括 H3.1、P1.0，以及后续在世界模型方面的进展，都和人才积累密切相关。

我们也在持续发布新的招聘计划，希望吸纳更多优秀的人加入。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

<原文链接：https://mp.weixin.qq.com/s/ja2RHpHwCRosGecTXdraMA

文章版权归作者所有，未经允许请勿转载。

THE END