从寒武纪大爆发到AI空间智能：李飞飞看到的下一个奇迹

2024年4月，李飞飞在 TED 大会上发表了一场演讲，标题是《With Spatial Intelligence, AI Will Understand the Real World》。在演讲的开头，她没有直接谈技术，而是展示了一张全黑的图片。

"我要给你们看一个什么都没有的世界，"她说。

这是5.4亿年前的地球。彼时生命形式极其简单，大部分生物漂浮在海洋中，没有眼睛，不知道光的存在，也没有方向感。然后——寒武纪来了。

大约5.4亿年前，第一批拥有视觉的生物出现了。眼睛的诞生彻底改变了进化的游戏规则：生物开始主动寻找食物、躲避捕食者、建立空间关系。捕食者和猎物之间的"军备竞赛"推动了寒武纪生命大爆发，今天几乎所有主要动物门类都在这一时期出现。

"宇宙开端，一片黑暗，"李飞飞在演讲中说，"直到第一批生物发展出了视觉，引爆了生命、学习和进步的大爆发。"

她认为，AI 和机器人正在经历一个类似的时刻。

李飞飞是谁？

如果不熟悉这个名字，简单介绍一下：

李飞飞是斯坦福大学计算机科学教授、斯坦福人类中心 AI 研究所（Stanford HAI）的创始主任。她在 AI 领域最著名的贡献是创建了 ImageNet——一个包含超过1400万张标注图像的大规模数据集，直接推动了深度学习在计算机视觉领域的突破。

她被称为"AI 教母"（Godmother of AI），不仅因为 ImageNet，更因为她长期倡导 AI 应该是增强人类能力、造福人类的工具，而非替代人类的威胁。

2023年，她出版了自传《The Worlds I See》。2024年，她创立了 AI 公司 World Labs，专注于空间智能的研发。2025年，她在 Y Combinator AI Startup School 发表了关于空间智能的系统性阐述。

空间智能是什么？

空间智能（Spatial Intelligence） 是李飞飞提出的一个概念框架，指 AI 系统从观察和理解二维图像/视频，进化到能够感知、推理、生成和交互三维物理世界的能力。

这不仅仅是"看得更清楚"，而是：

感知（Perceive）：理解场景中物体的空间位置、深度、关系
生成（Generate）：从文本、图像、视频创建可信的三维世界
推理（Reason）：理解物理世界的规律——重力、碰撞、因果
交互（Interact）：在三维空间中行动、导航、改变

用她自己的话说：

"空间智能将视觉转化为行动，将理解转化为推理，将想象转化为创造。"

这不是一个纯学术的概念。World Labs 已经把它变成了可用的产品。

World Labs：空间智能的商业化

2024年，李飞飞创立了 World Labs，定位是"spatial intelligence company"。

官方网站的描述非常清晰：

World Labs is building the next frontier of generative AI — one where models can understand and interact with the world to empower use cases from storytelling to simulation.

他们的第一款产品叫 Marble（大理石），功能是：从文本、图像、视频或360°全景图，生成空间一致、高保真、可持续的三维世界。

具体能力包括：

多模态输入：用文字、图片、视频或全景图创建详细的三维世界
3D布局控制：精确控制生成世界的三维布局
交互式编辑：调整特定元素或重塑整个三维世界
扩展与合并：将生成的世界扩展、编辑、合并，构建更大更沉浸的环境
多格式导出：下载并以各种2D和3D格式导出，融入现有工作流

这些能力指向的应用场景包括：

艺术/电影/VFX/虚拟制作：概念设计到电影级视觉效果的完整创意流程
游戏/AR/VR/沉浸式媒体：创建可进入、可探索、可交互的虚拟世界
机器人/建筑与设计/健康系统：模拟运动、物理规律和智能环境

在2026年3月的一篇博客文章《3D as Code》中，World Labs 写道：

文本成为了软件的通用界面；3D正在成为空间的通用界面。它是一种让人类和 AI 系统能够共同生成、编辑、模拟和分享世界的媒介。

这揭示了更宏大的愿景：让 3D 创作变得像写代码一样可组合、可版本控制、可分享。

为什么是现在？

理解空间智能为什么在这个时候爆发，需要一点技术背景。

过去十年，AI 在语言和图像理解上取得了巨大进步。大语言模型（LLM）让机器能够理解和生成文本，Diffusion 模型（如 DALL-E、Stable Diffusion）让 AI 能够生成逼真的图像和视频。

但这些模型有一个根本的局限：它们处理的是像素的统计分布，而不是物理的三维现实。

一个 DALL-E 生成的人像照片，看起来很真实，但从任何角度去看都还是同一张2D图像。视频生成模型可以创作流畅的运动画面，但画面中的物体不会遵守物理定律——一个从高处落下的物体可能会"飘走"而不是坠落。

二维表示 vs 三维理解，这是本质的区别。

我们的物理世界是三维的。人类大脑在处理视觉信息时，会自动构建三维的心理模型——我们不仅"看到"了一张图片，还"知道"物体在哪里、有多大、相互之间什么关系、下一秒可能会发生什么。

这种能力对于 AI 在真实物理世界中运作至关重要。无论是自动驾驶、机器人操作，还是 AR/VR 应用，都需要 AI 能够理解和推理三维空间。

与大语言模型的关系

这里需要厘清一个常见的误解：空间智能不是在"对抗"或"取代"大语言模型。

李飞飞在多个场合都明确表示：AI 不仅仅是 LLM。

大语言模型擅长处理序列化的符号信息——文本、代码、对话。但它们缺乏对物理世界的直觉理解。

举个例子：你可以用 LLM 写一篇关于"把水倒进杯子"的详细步骤说明，但 LLM 并不知道水是什么质感、杯子拿起是什么手感、倾斜角度多少水会洒出来。

空间智能补全了 AI 理解物理世界的这一块拼图。

两者不是竞争关系，而是互补关系。World Labs 的模型可以接收文本指令（"创建一个日式庭院"），生成三维世界——这正是语言理解和空间生成的结合。

技术挑战

为什么空间智能比语言智能更难？

李飞飞在 Y Combinator 的采访中提到过几个关键挑战：

1. 数据的三维性
训练语言模型可以用互联网上的大量文本，但三维世界的标注数据远远更少。World Labs 需要自己创建或采集高质量的三维数据。

2. 算力和效率
三维场景的计算量远大于二维图像。实时渲染、可编辑的三维世界需要巨大的算力支持。

3. 物理规律的建模
让 AI 理解重力、摩擦、碰撞、弹性、光照变化等物理规律，是一个尚未完全解决的问题。

4. 时序一致性
视频生成中常见的问题是时间不一致——物体可能突然消失或变形。三维世界的时序一致性更加复杂。

空间智能的意义

如果说语言模型让 AI 学会了"思考"（处理抽象符号），空间智能则让 AI 学会了"行动"（在物理世界中运作）。

一个能生成三维世界的 AI，意味着什么？

对于创意产业：设计师和艺术家可以用自然语言创建和迭代三维场景，大幅缩短从概念到成品的时间。电影制作人可以用它构建虚拟场景，游戏开发者可以用它快速生成游戏世界。

对于机器人产业：当前的机器人需要针对每个具体任务进行大量编程和调试。如果 AI 能够理解三维空间和物理规律，机器人就可以接受更高层次的指令——"去厨房给我拿一杯水"——而不是"向左移动23厘米，旋转15度，抓取……"

对于科学研究：模拟真实的物理环境对于药物发现、材料科学、气候建模等领域都有巨大价值。

对于人类自身：理解空间智能的概念，也让我们重新审视自己的智能。我们的视觉系统经过数亿年进化才达到今天的水平；而 AI 在短短几十年里就走过了类似的路——这个过程本身就值得深思。

寒武纪的隐喻

回到 TED 演讲的核心隐喻。

5.4亿年前，视觉的出现不仅让生物"看得见"，更让它们能够主动与周围环境互动——捕食、逃避、构建领地、建立社会关系。这是智能的一次根本性跃迁。

AI 正在经历类似的时刻。

过去的 AI 模型——无论是图像分类还是语言生成——本质上都是被动的：它们处理输入，产生输出，但并不真正"存在于"这个物理世界中。

空间智能让 AI 主动参与三维物理世界。这不仅仅是能力边界的扩展，更是 AI 存在形态的一次质变。

当然，这里面也有值得警惕的地方。AI 进入物理世界意味着更大的影响力和更大的风险——机器人、自动化武器、深度伪造的三维环境……这些应用都需要认真思考伦理和安全问题。

李飞飞在演讲的最后说了一句话：

我们正在赋予 AI 一双新的"眼睛"，而这双眼睛看到的世界，将比任何人曾经想象的都要宽广。

这或许有些诗意。但考虑到她过去二十年在 AI 领域的轨迹——从 ImageNet 到斯坦福 HAI 再到 World Labs——她说的"宽广"，可能真的在不远处等着我们。

参考来源：

TED2024: "With spatial intelligence, AI will understand the real world" — Fei-Fei Li
Y Combinator AI Startup School (June 2025): "Spatial Intelligence is the Next Frontier in AI" — Fei-Fei Li
World Labs 官网: www.worldlabs.ai
Stanford HAI: "Spatial Intelligence Is AI's Next Frontier" (TIME, December 2025)
《The Worlds I See: Curiosity, Exploration, and Discovery at the Dawn of AI》— Fei-Fei Li (2023)