前言

最近,“人工智能之母”李飞飞发布了新产品 Marble——一个可以用一句话生成完整 3D 场景、可探索、可编辑的世界模型原型。

我花了整个周末把访谈、演示与背景研究都看完,
再回头想想我过去几年在做的几何 AI、空间计算、Agent 系统……
意识到一个很深的事:

世界模型不是一个功能升级,而是下一代智能的底层逻辑。

但与其说我们离 AGI 又近了一步,不如说,我们可能再一次看到“世界模型时代”的新起点。



为什么世界模型突然被重提?

因为所有人都发现了一个共同的瓶颈:
语言大模型无法突破“世界理解”。

它们能说、能编、能解释、能写论文……

但一旦进入真实世界场景——空间、物体、动态、因果就频繁翻车:

  • 看不懂遮挡
  • 分不清前后关系
  • 无法从二维视频推断三维结构
  • 对物理规律毫无概念
  • 机器人操作路线像在瞎撞
  • 视频生成 3 秒开始“世界解体”

LLM 的本质是 按语言统计模式预测文本

而物理世界不是语言,它是空间、物体、动力学、连续性、约束和因果的组合系统。

语言模型建不出这个系统。

于是“世界模型”再次成为前沿的焦点,不是替代 LLM,而是补齐它的最重要短板 理解和模拟真实世界。



别急,路……长得很

但我们不要幻觉:世界模型不是几年内就能商业化的奇迹。

李飞飞在访谈里讲了一个极其关键、但外界经常忽略的事实:

自动驾驶从 2005 年 DARPA Grand Challenge 到现在,20 年了。

到 2025 年都还没完全落地。

而机器人,比自驾车难得多。


为什么?


原因一:自驾车 = 2D 问题,机器人 = 3D + 操作问题

自驾车在二维地面移动,世界就是一个平面导航问题,它的主要目标是 不碰东西

而机器人在三维世界操作物体,这是一个高度维度的连续控制问题,它的目标是 准确地“碰东西”

当你要抓一个杯子,需要知道:杯子的位置、你的手的位置、碰撞边界、重力与摩擦、运动预测、遮挡中的可见性…
这不是“统计语言能处理的任务”。


原因二:难度指数级上升

即便自驾的硬件+软件+数据+供应链都成熟到极致了,但还是没完全落地。

你要机器人落地,难度指数级上升:机械臂成本、伺服精度、力反馈传感器、三维视觉、安全规范、工业供应链、电池与运算成本、云端协作的可靠性 …

世界模型只是其中的一个关键环节,而非全部。


所以我认为,世界模型是正确方向,但绝不会在一两年内重塑社会。 这是一个十年级别的技术大周期。



那么世界模型到底是什么?

我看完 Marble 和这次访谈后,最深刻的变化就是:

世界模型既不是“视频模型升级版”,也不是“3D 重建工具”。

它是一个生成性、可交互、可预测的空间模拟器

下面我从工程角度拆三个关键误区。


误解 1:世界模型 = 更强的视频生成

不对。

视频生成解决的是帧一致性、光影与纹理和动态连续性,但它依然是像素层面的预测

世界模型不是预测像素,而是预测:

  • 物体布局
  • 空间结构
  • 深度关系
  • 物理状态
  • 动作后果
  • 多主体交互
  • 能走、能转身、能碰撞的世界状态

视频模型生成的是“视觉表面”,世界模型生成的是“场景语义与物理状态”。

这完全不同。


误解 2:世界模型 = 3D 重建

如果世界模型只是重建现实,那就没意义了。

真正的世界模型是基于语言输入生成一个可探索的“虚拟物理世界”。

我理解它至少需要满足以下几点:

  • 一个 prompt → 生成完整世界
  • 世界包含路径、遮挡、可导航性
  • 你可以走进去
  • 你可以探索意料之外的角落
  • 你可以修改它

这比 3D 建模工具强太多。


误解 3:世界模型只是视觉系统

不,它是 “行动智能” 的前置层

如果 AGI 最终要在世界中执行动作(agent / robot / embodied intelligence),那么它必须知道:

  • 如果我推一下这个盒子会怎样
  • 如果我走两步会撞到谁
  • 如果我换一个视角能看到墙后什么

语言模型做不到这些。


世界模型 = AI 的世界状态表示层(world state representation)

它不是为了生成漂亮的画面,而是为了让模型知道自己在哪里、在做什么、接下来可能发生什么。



Marble 为什么是一个重要的标志?

不是因为它能“做 3D”,

而是它证明了世界模型的三个核心能力:


能力一:世界结构可生成

不是 mesh 拼贴,而是真正的结构化世界:可行走、有空间层级、有碰撞逻辑、多视角一致。

这在模型层面意味着需要在 latent space 内表示“世界状态”。


能力二:世界可重建 + 可编辑

这意味着:

  • 世界表示是显性的(explicit)
  • 状态之间是连续的(stateful)
  • 可以“世界状态 → 修改 → 再渲染”

这非常接近游戏引擎内部的数据结构。


能力三:世界可探索

这是最关键的突破。

如果你能自由移动摄像机、走进去、转视角,意味着模型内部必须有“空间一致性”(spatial coherence)和“三维世界的持久性”(persistence)。

这是第一次有模型具备这种能力。



真正的革命在哪里?

我认为世界模型会沿着“由易到难”的路径影响技术。


阶段一

创意行业(已开始),这些都已经能玩。

  • 虚拟影棚
  • 游戏关卡自动生成
  • 场景草图 → 3D 世界
  • 教育模拟世界
  • AR/VR 内容生产

阶段二

模拟与科学计算(中期),这部分需要更数学化、更结构化的世界模型。

  • 物理规则推演
  • 世界状态预测
  • 动态优化任务
  • 机器人策略模拟
  • 多主体交互的虚拟环境

阶段三

机器人与具身智能(长期),这是最难的领域。

  • 空间理解
  • 动作规划
  • 能力校准
  • 实时感知
  • 多模态世界状态对齐
  • 连续控制策略

世界模型只是其中一环。
硬件、算力、传感器、数据都必须一起进化。



写在最后

如果世界模型真能在未来十年成熟,它可能会成为人类第一次接近 重写生物智能基线 的尝试。

但站在今天回头看,我们依然不得不承认:

一个婴儿跌跌撞撞学走路时,他体内的世界模型,对重力的直觉、对遮挡的理解、对物体持久性的把握、对路径的预测,其学习效率、鲁棒性、泛化能力,都远在任何人工模型之上。

我们用数十亿帧视频训练“空间一致性”,自然界却用几个月的探索让孩子具备稳定的三维世界感知。

我们为状态持久性、渲染一致性、物理约束痛苦堆砌 priors,生物神经系统却将它们作为默认配置。

世界模型之难,也正因此而迷人。

它不是明年就会落地的革命,

不是可以替代所有智能的银弹,

而是一条明确但漫长的技术长坡。

好消息是:我们终于知道坡在哪;

更好的消息是:我们正站在坡的起点。

而在每一个技术突破的间隙,我们也会不断重新意识到:生物智能本身,就是我们正在努力复现的那套终极世界模型。







延伸阅读