为什么李飞飞说：AI 真正的进步取决于世界模型

前言

最近，“人工智能之母”李飞飞发布了新产品 Marble——一个可以用一句话生成完整 3D 场景、可探索、可编辑的世界模型原型。

我花了整个周末把访谈、演示与背景研究都看完，
再回头想想我过去几年在做的几何 AI、空间计算、Agent 系统……
意识到一个很深的事：

世界模型不是一个功能升级，而是下一代智能的底层逻辑。

但与其说我们离 AGI 又近了一步，不如说，我们可能再一次看到“世界模型时代”的新起点。

为什么世界模型突然被重提？

因为所有人都发现了一个共同的瓶颈：
语言大模型无法突破“世界理解”。

它们能说、能编、能解释、能写论文……

但一旦进入真实世界场景——空间、物体、动态、因果就频繁翻车：

看不懂遮挡
分不清前后关系
无法从二维视频推断三维结构
对物理规律毫无概念
机器人操作路线像在瞎撞
视频生成 3 秒开始“世界解体”

LLM 的本质是 按语言统计模式预测文本。

而物理世界不是语言，它是空间、物体、动力学、连续性、约束和因果的组合系统。

语言模型建不出这个系统。

于是“世界模型”再次成为前沿的焦点，不是替代 LLM，而是补齐它的最重要短板 理解和模拟真实世界。

别急，路……长得很

但我们不要幻觉：世界模型不是几年内就能商业化的奇迹。

李飞飞在访谈里讲了一个极其关键、但外界经常忽略的事实：

自动驾驶从 2005 年 DARPA Grand Challenge 到现在，20 年了。

到 2025 年都还没完全落地。

而机器人，比自驾车难得多。

为什么？

原因一：自驾车 = 2D 问题，机器人 = 3D + 操作问题

自驾车在二维地面移动，世界就是一个平面导航问题，它的主要目标是 不碰东西。

而机器人在三维世界操作物体，这是一个高度维度的连续控制问题，它的目标是 准确地“碰东西”。

当你要抓一个杯子，需要知道：杯子的位置、你的手的位置、碰撞边界、重力与摩擦、运动预测、遮挡中的可见性…
这不是“统计语言能处理的任务”。

原因二：难度指数级上升

即便自驾的硬件+软件+数据+供应链都成熟到极致了，但还是没完全落地。

你要机器人落地，难度指数级上升：机械臂成本、伺服精度、力反馈传感器、三维视觉、安全规范、工业供应链、电池与运算成本、云端协作的可靠性 …

世界模型只是其中的一个关键环节，而非全部。

所以我认为，世界模型是正确方向，但绝不会在一两年内重塑社会。 这是一个十年级别的技术大周期。

那么世界模型到底是什么？

我看完 Marble 和这次访谈后，最深刻的变化就是：

世界模型既不是“视频模型升级版”，也不是“3D 重建工具”。

它是一个生成性、可交互、可预测的空间模拟器。

下面我从工程角度拆三个关键误区。

误解 1：世界模型 = 更强的视频生成

不对。

视频生成解决的是帧一致性、光影与纹理和动态连续性，但它依然是像素层面的预测。

世界模型不是预测像素，而是预测：

物体布局
空间结构
深度关系
物理状态
动作后果
多主体交互
能走、能转身、能碰撞的世界状态

视频模型生成的是“视觉表面”，世界模型生成的是“场景语义与物理状态”。

这完全不同。

误解 2：世界模型 = 3D 重建

如果世界模型只是重建现实，那就没意义了。

真正的世界模型是基于语言输入生成一个可探索的“虚拟物理世界”。

我理解它至少需要满足以下几点：

一个 prompt → 生成完整世界
世界包含路径、遮挡、可导航性
你可以走进去
你可以探索意料之外的角落
你可以修改它

这比 3D 建模工具强太多。

误解 3：世界模型只是视觉系统

不，它是 “行动智能” 的前置层。

如果 AGI 最终要在世界中执行动作（agent / robot / embodied intelligence），那么它必须知道：

如果我推一下这个盒子会怎样
如果我走两步会撞到谁
如果我换一个视角能看到墙后什么

语言模型做不到这些。

世界模型 = AI 的世界状态表示层（world state representation）

它不是为了生成漂亮的画面，而是为了让模型知道自己在哪里、在做什么、接下来可能发生什么。

Marble 为什么是一个重要的标志？

不是因为它能“做 3D”，

而是它证明了世界模型的三个核心能力：

能力一：世界结构可生成

不是 mesh 拼贴，而是真正的结构化世界：可行走、有空间层级、有碰撞逻辑、多视角一致。

这在模型层面意味着需要在 latent space 内表示“世界状态”。

能力二：世界可重建 + 可编辑

这意味着：

世界表示是显性的（explicit）
状态之间是连续的（stateful）
可以“世界状态 → 修改 → 再渲染”

这非常接近游戏引擎内部的数据结构。

能力三：世界可探索

这是最关键的突破。

如果你能自由移动摄像机、走进去、转视角，意味着模型内部必须有“空间一致性”（spatial coherence）和“三维世界的持久性”（persistence）。

这是第一次有模型具备这种能力。

真正的革命在哪里？

我认为世界模型会沿着“由易到难”的路径影响技术。

阶段一：

创意行业（已开始），这些都已经能玩。

虚拟影棚
游戏关卡自动生成
场景草图 → 3D 世界
教育模拟世界
AR/VR 内容生产

阶段二：

模拟与科学计算（中期），这部分需要更数学化、更结构化的世界模型。

物理规则推演
世界状态预测
动态优化任务
机器人策略模拟
多主体交互的虚拟环境

阶段三：

机器人与具身智能（长期），这是最难的领域。

空间理解
动作规划
能力校准
实时感知
多模态世界状态对齐
连续控制策略

世界模型只是其中一环。
硬件、算力、传感器、数据都必须一起进化。

写在最后

如果世界模型真能在未来十年成熟，它可能会成为人类第一次接近 重写生物智能基线 的尝试。

但站在今天回头看，我们依然不得不承认：

一个婴儿跌跌撞撞学走路时，他体内的世界模型，对重力的直觉、对遮挡的理解、对物体持久性的把握、对路径的预测，其学习效率、鲁棒性、泛化能力，都远在任何人工模型之上。

我们用数十亿帧视频训练“空间一致性”，自然界却用几个月的探索让孩子具备稳定的三维世界感知。

我们为状态持久性、渲染一致性、物理约束痛苦堆砌 priors，生物神经系统却将它们作为默认配置。

世界模型之难，也正因此而迷人。

它不是明年就会落地的革命，

不是可以替代所有智能的银弹，

而是一条明确但漫长的技术长坡。

好消息是：我们终于知道坡在哪；

更好的消息是：我们正站在坡的起点。

而在每一个技术突破的间隙，我们也会不断重新意识到：生物智能本身，就是我们正在努力复现的那套终极世界模型。