为什么李飞飞说:AI 真正的进步取决于世界模型
前言
最近,“人工智能之母”李飞飞发布了新产品 Marble——一个可以用一句话生成完整 3D 场景、可探索、可编辑的世界模型原型。
我花了整个周末把访谈、演示与背景研究都看完,
再回头想想我过去几年在做的几何 AI、空间计算、Agent 系统……
意识到一个很深的事:
世界模型不是一个功能升级,而是下一代智能的底层逻辑。
但与其说我们离 AGI 又近了一步,不如说,我们可能再一次看到“世界模型时代”的新起点。
为什么世界模型突然被重提?
因为所有人都发现了一个共同的瓶颈:
语言大模型无法突破“世界理解”。
它们能说、能编、能解释、能写论文……
但一旦进入真实世界场景——空间、物体、动态、因果就频繁翻车:
- 看不懂遮挡
- 分不清前后关系
- 无法从二维视频推断三维结构
- 对物理规律毫无概念
- 机器人操作路线像在瞎撞
- 视频生成 3 秒开始“世界解体”
LLM 的本质是 按语言统计模式预测文本。
而物理世界不是语言,它是空间、物体、动力学、连续性、约束和因果的组合系统。
语言模型建不出这个系统。
于是“世界模型”再次成为前沿的焦点,不是替代 LLM,而是补齐它的最重要短板 理解和模拟真实世界。
别急,路……长得很
但我们不要幻觉:世界模型不是几年内就能商业化的奇迹。
李飞飞在访谈里讲了一个极其关键、但外界经常忽略的事实:
自动驾驶从 2005 年 DARPA Grand Challenge 到现在,20 年了。
到 2025 年都还没完全落地。
而机器人,比自驾车难得多。
为什么?
原因一:自驾车 = 2D 问题,机器人 = 3D + 操作问题
自驾车在二维地面移动,世界就是一个平面导航问题,它的主要目标是 不碰东西。
而机器人在三维世界操作物体,这是一个高度维度的连续控制问题,它的目标是 准确地“碰东西”。
当你要抓一个杯子,需要知道:杯子的位置、你的手的位置、碰撞边界、重力与摩擦、运动预测、遮挡中的可见性…
这不是“统计语言能处理的任务”。
原因二:难度指数级上升
即便自驾的硬件+软件+数据+供应链都成熟到极致了,但还是没完全落地。
你要机器人落地,难度指数级上升:机械臂成本、伺服精度、力反馈传感器、三维视觉、安全规范、工业供应链、电池与运算成本、云端协作的可靠性 …
世界模型只是其中的一个关键环节,而非全部。
所以我认为,世界模型是正确方向,但绝不会在一两年内重塑社会。 这是一个十年级别的技术大周期。
那么世界模型到底是什么?
我看完 Marble 和这次访谈后,最深刻的变化就是:
世界模型既不是“视频模型升级版”,也不是“3D 重建工具”。
它是一个生成性、可交互、可预测的空间模拟器。
下面我从工程角度拆三个关键误区。
误解 1:世界模型 = 更强的视频生成
不对。
视频生成解决的是帧一致性、光影与纹理和动态连续性,但它依然是像素层面的预测。
世界模型不是预测像素,而是预测:
- 物体布局
- 空间结构
- 深度关系
- 物理状态
- 动作后果
- 多主体交互
- 能走、能转身、能碰撞的世界状态
视频模型生成的是“视觉表面”,世界模型生成的是“场景语义与物理状态”。
这完全不同。
误解 2:世界模型 = 3D 重建
如果世界模型只是重建现实,那就没意义了。
真正的世界模型是基于语言输入生成一个可探索的“虚拟物理世界”。
我理解它至少需要满足以下几点:
- 一个 prompt → 生成完整世界
- 世界包含路径、遮挡、可导航性
- 你可以走进去
- 你可以探索意料之外的角落
- 你可以修改它
这比 3D 建模工具强太多。
误解 3:世界模型只是视觉系统
不,它是 “行动智能” 的前置层。
如果 AGI 最终要在世界中执行动作(agent / robot / embodied intelligence),那么它必须知道:
- 如果我推一下这个盒子会怎样
- 如果我走两步会撞到谁
- 如果我换一个视角能看到墙后什么
语言模型做不到这些。
世界模型 = AI 的世界状态表示层(world state representation)
它不是为了生成漂亮的画面,而是为了让模型知道自己在哪里、在做什么、接下来可能发生什么。
Marble 为什么是一个重要的标志?
不是因为它能“做 3D”,
而是它证明了世界模型的三个核心能力:
能力一:世界结构可生成
不是 mesh 拼贴,而是真正的结构化世界:可行走、有空间层级、有碰撞逻辑、多视角一致。
这在模型层面意味着需要在 latent space 内表示“世界状态”。
能力二:世界可重建 + 可编辑
这意味着:
- 世界表示是显性的(explicit)
- 状态之间是连续的(stateful)
- 可以“世界状态 → 修改 → 再渲染”
这非常接近游戏引擎内部的数据结构。
能力三:世界可探索
这是最关键的突破。
如果你能自由移动摄像机、走进去、转视角,意味着模型内部必须有“空间一致性”(spatial coherence)和“三维世界的持久性”(persistence)。
这是第一次有模型具备这种能力。
真正的革命在哪里?
我认为世界模型会沿着“由易到难”的路径影响技术。
阶段一:
创意行业(已开始),这些都已经能玩。
- 虚拟影棚
- 游戏关卡自动生成
- 场景草图 → 3D 世界
- 教育模拟世界
- AR/VR 内容生产
阶段二:
模拟与科学计算(中期),这部分需要更数学化、更结构化的世界模型。
- 物理规则推演
- 世界状态预测
- 动态优化任务
- 机器人策略模拟
- 多主体交互的虚拟环境
阶段三:
机器人与具身智能(长期),这是最难的领域。
- 空间理解
- 动作规划
- 能力校准
- 实时感知
- 多模态世界状态对齐
- 连续控制策略
世界模型只是其中一环。
硬件、算力、传感器、数据都必须一起进化。
写在最后
如果世界模型真能在未来十年成熟,它可能会成为人类第一次接近 重写生物智能基线 的尝试。
但站在今天回头看,我们依然不得不承认:
一个婴儿跌跌撞撞学走路时,他体内的世界模型,对重力的直觉、对遮挡的理解、对物体持久性的把握、对路径的预测,其学习效率、鲁棒性、泛化能力,都远在任何人工模型之上。
我们用数十亿帧视频训练“空间一致性”,自然界却用几个月的探索让孩子具备稳定的三维世界感知。
我们为状态持久性、渲染一致性、物理约束痛苦堆砌 priors,生物神经系统却将它们作为默认配置。
世界模型之难,也正因此而迷人。
它不是明年就会落地的革命,
不是可以替代所有智能的银弹,
而是一条明确但漫长的技术长坡。
好消息是:我们终于知道坡在哪;
更好的消息是:我们正站在坡的起点。
而在每一个技术突破的间隙,我们也会不断重新意识到:生物智能本身,就是我们正在努力复现的那套终极世界模型。
延伸阅读
从文字到世界:空间智能是 AI 的下一个前沿
drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence李飞飞在 X 上关于 AI 的言论
x.com/drfeifei/status/963564896225918976The Godmother of AI on jobs, robots & why world models are next | Dr. Fei-Fei Li
youtu.be/Ctjiatnd6Xk?si=J1Gdz3lnFiaKbF9yWhen Do Neural Networks Learn World Models?
arxiv.org/abs/2502.09297
