机器之心原创

2024/09/23 14:49

李飞飞创业之后首个专访：视觉空间智能与语言一样根本

不久之前，李飞飞教授的空间智能创业公司 World Labs 以及全明星的创业阵容正式亮相。

随后，李飞飞与另一位联合创始人 Justin Johnson 接受了 a16z 的专访。

在这次访谈播客中，李飞飞重点分享了 AI 领域新的研究前沿：空间智能。她说：「视觉空间智能非常根本，与语言一样根本」。

节目中，她首先介绍了自己的早期贡献 ImageNet 对计算机视觉发展的影响。之后介绍了计算和数据在 AI 发展中的作用。

然后，她定义了 AI 的终极目标以及空间智能在这其中所扮演的重要角色。最后，她介绍了自己的 World Labs 团队以及度量空间智能发展进展的方式。

在本文中，机器之心对此次专访的核心内容进行了整理。感兴趣的读者也可以查看下面的完整视频。

主持人：过去两年出现了很多消费级 AI 公司。但您其实已经在这个领域深耕了几十年，您是一路看着 AI 发展到如今的并且做出过非常关键的贡献。现在正是激动人心的时刻，对吗？

李飞飞：回望过去，AI 确实正处在一个激动人心的时刻。我个人已经在这个领域 20 多年了，而现在我们已经走出了最后一个 AI 寒冬。我们已经见证了现代 AI 的诞生，看到了深度学习的爆发，向我们展示了下棋等可能性，但随后我们开始看到技术的深化以及产业界开始采用 AI（如语言模型）。我认为我们实际上现在正处于寒武纪大爆发过程中，因为现在不只是文本，像素、视频、音频方面都在出现可能的 AI 应用和模型。所以这是一个非常激动人心的时刻。

主持人：请介绍一下你们自己。

Johnson：我最早是在研究生阶段开始研究 AI。我在加州理工大学读了数学和计算机科学。但在快毕业时，有一篇当时非常著名的论文问世，是当时谷歌大脑的 Quoc V. Le 和吴恩达等人的论文。那是我首次接触到深度学习这个概念，然后它就决定了我未来十几年的生活：使用强大的算法，辅以大量算力和海量数据，就能得到一些神奇的结果。那是在 2011 或 2012 年，当时我就决定这是我以后要做的事情。而当时在斯坦福的李飞飞是少数正在研究 AI 的人。那是深度学习和计算机视觉发展的一个特殊时期 —— 那时候，新兴的技术才刚刚开始有效果并获得应用，比如判别式计算机视觉开始可以分辨图像中的内容，早期的生成式 AI 也开始出现了。

实际上，在我博士阶段那段时间，学术界搞清楚了很多现在常用的核心算法。每天早上起床看新论文就好像在圣诞节打开礼物一样。每天都会有一些惊人的新发现、惊人的新应用或算法。而过去一两年世界上的所有人都有了这种感觉，但对于我们这些有很长经验的人来说，这种感觉已经持续了很长时间了。

李飞飞：很明显，我比 Justin 大很多。我是从另一个角度进入 AI 的，即物理学，因为我的本科背景是物理学。物理学是一门教你大胆思考问题，探求世界上剩余未知的学科。当然，物理学关注的是原子世界、宇宙之类的，但这却以某种方式让我进入了一个真正抓住了我的想象力的领域：智能。我在加州理工大学完成了人工智能和计算神经科学的博士学位。所以 Justin 和我实际上并没有重叠，但我们的母校都是加州理工大学并且有同一位导师。是的，同一位导师，你的本科导师和我的博士导师都是 Pietro Perona。

我在读博士时，是 AI 在公众眼中还处于冬天的时候，但在我的眼中不是冬天，是春季前的冬眠。实际上生机勃勃。机器学习和统计建模的能力切实地越来越强大。我认为我们是机器学习和 AI 世代，而现在是深度学习世代。机器学习是深度学习的先驱。

在我博士结束开始助理教授生涯的那段时间，有一个之前常被人忽视的因素开始生效了，那就是数据。我实验室的学生可能比大多数人更早意识到了这个基本点：如果让数据驱动模型，就可以释放出前所未见的力量。这就是基于 ImageNet 的研究疯狂发展的原因。

那时候，计算机视觉和 NLP 社区都有各自的数据集，都很小。但只要能获得互联网规模的数据集，就必定大有作为。幸运的是，那时候，互联网时代也正在到来。在那股浪潮中，我来到了斯坦福。

主持人：这就是时代的转变！图像处理是一个时代。Transformer 和 Stable Diffusion 都是不同的时代。这些技术解锁了我们的发展潜力，可以这样说吗？还是说有其它东西解锁了我们的发展潜力？

Johnson：我认为真正解锁发展潜力的最大因素是计算。尽管人们也常提及这一点，但我认为人们还是低估了它。过去十年中，计算能力的增长令人震惊。第一篇真正被认为是深度学习计算机视觉突破时刻的论文是 AlexNet，这是 2012 年的一篇论文。

其中一个深度神经网络在 ImageNet 挑战中表现非常出色，并且超越了飞飞研究的所有其他算法。AlexNet 神经网络有 6000 万参数，在 2 台 GTX580 上训练了 6 天，那是当时的顶级消费级显卡，于 2010 年推出。而现在最强大的应该是英伟达 GB200。猜猜看 GTX580 和 GB200 的计算能力差多少倍？数千倍。也就是说，如果在单台 GB200 上训练 AlexNet，所需时间不超过 5 分钟。

李飞飞：2012 年 AlexNet 在 ImageNet 上取得的突破彰显了一个非常经典的模式。要知道，卷积神经网络发表于 1980 年代。我记得我在读研究生时还学习过它，大概有 6、7 层。AlexNet 和早期卷积神经网络的唯一区别就是有更强大的 GPU 和更多数据。

主持人：是的，我相信大家都知道那个著名的「苦涩的教训」。也就是对于一个算法，不要吝惜计算，要尽可能地使用所有可用的计算。另一个方面是数据，你们怎么看

Johnson：是的，数据很重要。在我看来，数据方面也分为两个时代。第一个时代是 ImageNet 为代表的监督学习世代。这时候，我们空有大量数据，却不知道如何使用它们 —— 我们能获得大量图像数据，但需要人们去标注它们。而在新的时代，我们不再需要人类标注就能进行训练。

主持人：我没有 AI 背景，但听起来你似乎还是要使用人类标注的数据进行训练，只是这些标注是隐式的。

李飞飞：从哲学角度看，这是一个非常重要的问题。但实际上这个说法更适用于语言，而不是像素。

主持人：是的，所以说视频片段还是有人类标注的。注意力就是人类已经搞清楚了事物之间的关系，然后让 AI 学习它们。只是这些标注是隐式的。

Johnson：可以这么说。但区别在于，在监督学习时代，学习任务会受到更多限制。因为当时对数据的标注必须非常准确，飞飞当时就要和她的学生们花很多时间去想该把哪些分类放入 ImageNet 挑战之中。

主持人：过去都是预测建模，大概四年前，我们开始进入生成式 AI 时代。在我看来，它们非常不一样。但你们认为这些是连续发展的过程吗？

李飞飞：这个问题很有趣。实际上在我读研究生时，生成式模型就已经存在了。我们当时尝试过做生成式模型，生成字母和数字之类的，但没人记得了。但我们确实尝试过，Geoffrey Hinton 写过这方面的论文。实际上，如果你从概率分布的角度来思考，那么就可以从数学上进行生成。只是这样的生成结果不会给人留下深刻印象。所以生成的概念在数学和理论上早已存在，但没有任何作用。这里就要说到 Justin 的博士生涯了。他的博士生涯就反映了这个领域的故事。他的第一个项目是一个数据项目，我强迫他做的，他不喜欢。

Johnson：回想起来，我学到了很多非常有用的东西。

李飞飞：我很高兴你现在这么说。所以我让 Justin 转向了深度学习，他研究的是基于图像生成文本。

Johnson：实际上这个故事分为三个阶段。第一个阶段是图像 - 文本匹配。实际上我博士阶段的第一篇论文和第一份学术出版物就是关于使用 Scene Graph 进行图像检索。

李飞飞：之后我们开始研究基于像素生成文本，但这仍然是一种非常有损的方式，无法将像素世界的信息有效地转移到文本世界。而 Justin 在此做了一项非常著名的研究，成功地让这个过程做到了实时实现。

Johnson：2015 年时有一篇论文，是 Leon Gatys 等人提出的一种实现艺术风格的神经算法。该算法可以将真实照片转换成梵高风格。现在我们已经习惯了这样的应用，但在 2015 年，这很有开创性。那天这篇论文出现在 arXiv 里面，让我脑洞大开。我当时想，我一定要理解这个算法。我想玩这个算法，我想把我自己的形象制作成梵高风格。然后我仔细研读了这篇论文，并在一个周末里重新实现了它，理解了它的工作方式。

这实际上是一个非常简单的算法，大概就 300 行 Lua 代码。虽然简单，但速度很慢。这就是一个优化过程。如果想要生成一张图像，就需要运行这个优化循环。生成的图像很漂亮，但我想让这个过程更快一点。当时我和其他一些人想出了多种不同的方法来加速这一过程。但我想出的那个吸引了很多关注。

李飞飞：我为 Justin 感到自豪。我也为他在博士阶段做的最后一个工作感到自豪。那就是生成式 AI 领域方面的研究：基于输入的语言生成画面。这是最早期的生成式 AI 研究之一。那时候用的模型是生成对抗网络（GAN）。这很难用，并且使用的语言也不是自然语言，而是必须输入一个 scene graph 语言结构。所以可以看到，从匹配到风格迁移再到生成，这是一个连续演进的过程；但在外部世界看来，这些就像是突然发生的一样。

主持人：现在你们创立的 World Labs 研究的是空间智能。你们为什么决定这么做？

李飞飞：我在我的书也写到了，我的整个学术之旅实际上就是寻找北极星的激情，我也相信这些北极星对我们领域的发展至关重要。在我研究生毕业后，我的北极星是讲述图像故事，这是非常重要的视觉智能。而视觉智能是 AI 和 AGI 的重要组成部分。所以当 Andrej 和 Justin 做到这一点时，我想的是：天啦，那是我的人生梦想！我接下来做什么？它来得比我预想的快，我以为还要再过 100 年呢。

视觉智能是我的热情所在。因为我相信对于每个智能体，比如人、机器人或其他形式）而言，知道如何看世界、推理世界、在其中互动是非常重要的 —— 无论是导航、操纵还是制造东西，甚至建立文明。视觉空间智能非常根本，与语言一样根本。所以很自然，我们 World Labs 要做的就是解锁空间智能，这就是我们的北极星。现在就是做这件事的时候。就像 Justin 说的，我们现在已经有了计算，对数据有了更深度的理解，在算法方面也有一些进步。我们还有 Christoph Lassner 和 Ben Mildenhall 这两位站在研究前沿的联合创始人。因此，我们正处于正确的时刻。

主持人：可以更清晰地描述一下什么是空间智能吗？

Johnson：空间智能是机器在三维空间和时间中以三维方式感知、推理和行动的能力，这能帮助它理解事物在三维空间和时间（4D）中的位置，事物的交互方式。这是将 AI 从大型数据中心带出来，放入 3D/4D 世界中，使其理解这个世界的丰富性。

主持人：你们四位现在出来创立公司，为什么说现在是正确的时刻？

Johnson：过去十年的重点是理解已经存在的数据，但接下来的十年将是关于理解新的数据。我们已经有足够的硬件设备和传感器来帮助我们理解这个世界。

在 2014 年，我和 Andrej Karpathy 做过一些早期的语言建模工作，比如 LSTM（长短期记忆网络）、RNN（循环神经网络）和 GRU（门控循环单元），那是在 Transformer 之前的时代。但大约在 GPT-2 出现时，这类模型已经无法在学术界继续进行研究了，因为它们需要的算力太多了。

不过，Ben 提出的 Nerf 方法非常有趣，因为你可以在一两个小时内在单个 GPU 上训练这些模型。那时许多研究者开始关注这些问题，因为核心的算法问题还没有解决，并且你实际上可以在不需要大量计算资源的情况下取得成果。因为只需要一个 GPU 就能达到 SOTA，所以很多学术界的研究者开始转向思考如何在 Nerf 推动核心算法的进步。

实际上，我在博士期间与飞飞交流时，发现我们不约而同地达成了相似的结论。

主持人：她非常有说服力。

Johnson：是的（笑）。当时我们都在思考如何从导师那里找到自己的独立研究方向，结果我们最后找到的是相似的研究路径。

李飞飞：对我来说，能与最聪明的人讨论问题，我首先想到的就是 Justin。这毫无疑问（笑）。

主持人：语言模型的方法现在很流行。这两者是互补的吗？还是完全独立的？比如大家都知道 OpenAI、GPT 以及多模态模型，那么它们是不是已经达到了我们想要的空间推理能力呢？

Johnson：要回答这个问题，我们得稍微解开一下这些系统背后的「黑箱」。对于语言模型和如今的多模态语言模型，它们的底层表示形式是以一维的方式存在的。

我们谈论上下文长度、谈论 Transformer 和序列以及注意力机制。它们的基础是对世界的一维表示。这在处理语言时是非常自然的，因为书写的文本本质上是一维的、由离散字符组成的序列。这种底层表示形式是促成大型语言模型发展的原因。现在的多模态语言模型则把其他模态的数据硬塞进这个一维的序列表示中。

而当我们谈到空间智能时，方向就完全不同了。我们认为本质上，三维应该成为表示的核心。从算法的角度来看，这为我们提供了以不同方式处理数据的机会，并从中获得不同类型的输出，解决不同的问题。从一个粗略的层面上看，多模态的大型语言模型（LLMs）也能处理图像。没错，它们确实能做到。但我认为，这些方法并没有将三维表示作为其核心方法的基础。

李飞飞：我完全认同 Justin 的观点。1D 和 3D 表征是最核心的区别之一。另一件事有点哲学意味，但至少对我来说，语言从根本上来说是一种纯粹生成的信号。世界上本没有语言 —— 天上没有文字。对于语言，无论你输入什么数据，都是在同样的数据上进行泛化，输出同样的数据。这就是语言到语言。

但在 3D 世界不一样，3D 世界遵循着物理定律。由于材料和许多其他原因，它自己的结构。并且从根本上支持这些信息并能够表示和生成它，这从根本上来说是一个完全不同的问题。

主持人：所以语言是一维的，可能不是物理世界的最佳表示形式，它可能损失了很多信息含量。

另一类生成式 AI 模型是基于像素的，它们处理的是 2D 图像和 2D 视频。你可以说，当你看一个视频时，它看起来像是三维的，因为你可以平移相机或进行其他操作。那么，空间智能与 2D 视频有什么不同呢？

Johnson：思考这个问题时，需要拆解两件事。第一是底层的表示形式，第二是面向用户的可操作性。这里比较容易让人感到困惑，因为从根本上讲，我们看到的世界是二维的，对吧？

就像我们有两只眼睛，我们的视网膜是二维结构。因此，我们的视觉系统实际上是在感知二维图像。但问题在于，根据你使用的表示形式，不同的模型会提供更自然或不那么自然的操作方式。即便最终你看到的可能是一个二维图像或视频，背后的表示方式决定了它的可操作性。

你的大脑将其感知为三维世界的投影。比如你想移动物体，移动相机，理论上，你可以使用纯 2D 表示和模型来实现，但它并不适合你要求模型解决的问题。可以对动态三维世界进行二维投影的建模，但如果将三维表示放在模型的核心位置，问题与表示方式之间会更加匹配。所以我们把赌注押在在底层结构中引入更多的三维表示，这将能够为用户提供更好的可操作性。

李飞飞：完全同意。这也回到了我所追寻的北极星 —— 为什么选择「空间智能」，而不是「平面像素智能」？我认为智能的进化路径必然像 Justin 所说的那样，转向「可操作性」。

回顾生物进化的历程，动物和人类，这些获得了智慧的智能生物拥有了在世界中互动、创造文明、甚至随心所欲地完成各种任务的能力。将这些能力转化为原生的三维技术，是释放潜在 AI 应用洪流的关键。即便有些应用场景看似是二维的，其核心依然是三维的。

主持人：这确实是一个极其关键的观点。可以通过一些实际用例，具体谈谈你们正在创建这个具备空间智能的模型有什么应用场景吗？

Johnson：这要分几类讲。随着时间推移，模型将逐步具备更多的功能。其中最让我兴奋的一项是「世界生成」。我们已经习惯了使用文生图工具，最近也看到了不少文生视频的应用。但是，试想一下，如果将其提升到生成完整的三维世界，你得到的不再仅仅是一张图片或一个短片，而是一个充满活力且可交互的三维世界。无论是用于游戏，还是 VR 等应用场景。

李飞飞：也可以用于教育。

Johnson：是啊，这项技术一旦实现，其应用前景将无穷无尽。这将开启一种全新的媒体形式。我们现在已经能够创建虚拟的互动世界，但这需要数亿美元和大量开发时间。这种技术在经济上唯一可行的模式就是以每件 70 美元的价格卖给数百万玩家，以收回投资。

如果我们能降低创建这些成本，更多的应用场景将会不断涌现。试想，你可以拥有一个个性化的 3D 体验，其丰富性和细节程度丝毫不逊色于一款顶级的 3A 大作，但却是为一个非常小众的需求量身定制的。虽然这可能不是我们当前产品路线图上的内容，但这正是空间智能所能带来的一种全新媒体形式的愿景。

主持人：在生成一个世界时，不仅包括场景生成，还需要生成运动和物理现象。那么在技术发展到极致时，这些功能是否也包括在内？

其次，如果我与之互动，会包含语义吗？比如，我打开一本书，里面的文字是否有意义？这将是一个完整的、可以深度体验的世界，还是一个静态场景？

Johnson：这项技术将逐步发展，想要实现你所描述的这些功能非常困难。因此，我们会先从静态问题入手，因为它相对更容易解决。但最终，我们的目标是实现完全动态、完全可交互的体验，涵盖你提到的所有内容。

李飞飞：这就是空间智能的定义。虽然我们会从更静态的东西开始，但你提到的所有功能，都是我们空间智能发展路线图中的内容。

Johnson：这也是我们的公司名「World Labs」的来源。我们的目标是构建并理解世界。这有点像内部人才懂的梗，我发现给别人说这个名字时，他们总是没 get 到。

因为在计算机视觉和生成领域，我们通常会对事物进行划分。第一级通常是物体，对吧？比如一个麦克风、一杯水或者一把椅子。这些是世界中的离散物体。很多 ImageNet 项目都是识别这些物体。

接下来是场景，场景是多个物体的组合。比如，现在这个录音室里有桌子、麦克风、几个人、椅子，这些都是物体的组合。

但是我们的目标是超越场景的世界。场景可能是单个的，但我们想打破边界，走出房间，穿过门，走上街头，看到汽车驶过，树叶随风摇摆，能够与万事万物互动。

李飞飞：另一个令人兴奋的点是 Justin 提到的「新媒体」。这项技术将使得现实世界、虚拟世界、想象中的世界和增强现实之间的界限变得模糊。

由于现实世界是三维的，因此在数字世界中，必须使用三维表示才能与现实世界无缝融合。你无法通过二维或一维的方式有效地与三维现实世界互动，解锁这种能力将带来无限的应用场景。

主持人：刚才 Justin 提到的第一个例子可能更像 AR，对吧？

李飞飞：是的。就在 World Labs 成立的同时，苹果发布了 Vision Pro，并提出了「空间计算」的概念，好像是偷走了我们的想法（笑）。

但我们做的是「空间智能」。空间计算必然需要空间智能。我们还不确定最终的硬件形态会是什么，可能是护目镜、眼镜甚至隐形眼镜。但在真实世界和增强现实之间的那个界面，比如你不是专业技工，但它可以指引如何修车，或者它只是为了玩 Pokémon Go，这最终将成为 AR 和 VR 领域的操作系统。

Johnson：在技术发展到极致时，AR 设备将有什么用途？它需要一直运行，陪伴在你身边，观察你所看到的世界。因此，它需要理解你所看到的事物，可能还要帮助你完成日常任务。

但我也对虚拟和物理世界的融合感到非常兴奋。如果你能够实时、完美地理解周围的三维环境，那么这实际上也会淘汰我们现在很多对物理世界的依赖。比如说，现在我们有手机、iPad、电脑显示器、电视，甚至还有手表。这些屏幕是为了在不同的环境和位置下向你展示信息。

但如果你能无缝地将虚拟内容与物理世界融合，那么实际上这些不同尺寸的屏幕可能就不再必要了。理想情况下，「空间智能」技术将以最适合当下情境的方式，将你所需要的信息呈现给你。

李飞飞：还有一个巨大的应用场景，就是帮助 AI 智能体在现实世界中执行任务。比如你不是专业技工，但能通 AR 设备完成修理汽车这样的任务，那么 AI 智能体同样也能够做到。比如机器人，它们的交互界面天然就是三维世界。它们的大脑是数字化的，要将它们学习到的数据转化到现实世界中的执行，必将依赖于空间智能。

主持人：对于任何公司来说，这些都是非常广泛的业务领域，尤其是要同时涉足每一个领域。那么，你如何看待前沿、深度点技术和这些具体应用领域之间的关系呢？

李飞飞：我们把自己定位为一家深度技术公司，专注于提供可以服务不同应用场景的模型平台。

主持人：在你们提到的这三类应用中，有没有哪一类是更适合早期发展的，你们的公司会优先倾向哪个领域？

李飞飞：现在硬件设备还没完全成熟。

Johnson：我在读研的时候就买了我的第一台 VR 头显，那是一次改变生活的技术体验。戴上它的那一刻，我的反应是「天啊，这太棒了」。我想。很多人在第一次使用 VR 时都会有类似的感受。

所以，我对这个领域已经期待了很久，我也非常喜欢 Vision Pro。Vision Pro 发布时，我熬夜订购了第一批。但是现实情况是，作为一个面向大众市场的平台，它还没有准备好。

李飞飞：因此，作为一家公司，我们很可能会先进入一个更为成熟的市场。

Johnson：不过有时候，简单也能体现出广泛的适用性。我们相信，有些根本性的问题如果能够很好地解决，便可以应用于许多不同的领域。我们将公司的长期愿景定位为构建并实现「空间智能」的梦想。

主持人：听起来你们有很多技术要开发。

Johnson：是的，我认为这是一个非常难的问题。对于那些不直接从事 AI 领域的人来说，他们可能会觉得 AI 是一项不分领域的大型技术。然而，对于那些在这个领域耕耘已久的人来说，我们深知要构建任何 AI 项目，需要多种不同类型的专业人才。

而针对空间智能方面的研究，我们需要高质量、大规模的工程能力，还需要对三维世界有深刻的理解，另外还要与计算机图形学领域紧密联系。因此，在组建团队时，我们将考虑如何找到每个领域中世界顶尖的专家，汇聚他们的力量，来共同攻克这一艰难的课题。

李飞飞：当我思考如何为 World Labs 组建最好的创始团队时，我意识到必须从一群非凡的多学科创始人开始。

当然，这对我来说是很自然的。Justin Johnson 是我最优秀的学生、最聪明的技术专家之一。其他人一直名声很大，其中一人是曾与 Justin 一通合作过的人，Ben Mildenhall，我们谈论了他在 Nerf 方面的开创性工作。另一个人是 Christopher Lassner，他在计算机图形学领域很有名。

此人很有先见之明，在 Gaussian splat 出现前五年就开始研究这种方法并用于 3D 建模了。当我们听说有与 Christopher Lassner 合作的潜在可能性时，Justin 直接跳了起来。

主持人：Ben 与 Christopher 是我们的传奇。当然这只是我们团队的一小部分。必须再次强调一下，这里有很多要构建和工作的地方，不仅仅是在 AI 或图形方面，还有系统等等。

李飞飞：到目前为止，我个人最自豪的是这支强大的团队。在我的整个职业生涯中，我有幸与最聪明的年轻人一起工作。从斯坦福大学当教授开始。不过我们在 World Labs 聚集的人才更真是惊人，我从未见过这种专注度。

我认为这里最重要的区别在于 —— 我们相信空间智能。所有的多学科人才，无论是系统工程、机器学习、基础设施、生成式模型、数据、图形，我们所有人，无论是在探求研究之旅、技术之旅，甚至个人爱好，我们相信空间智能即将发生，并共同努力。这就是我们构建创始团队的方式。这种专注、动力与才华让我感到谦卑。我太喜欢这种感觉了。

主持人：你说过你就像在被北极星指引着。这可能就像，你实际上无法触及它们，但它指引了方向。那么，你如何知道什么时候目标完成了？还是说这是一件终身的事，会无限地持续下去？

李飞飞：这个世界上存在真正的北极星和概念上的北极星。有些目标是可以达到的。

主持人：比如世界模型里的北极星？

李飞飞：是的。你知道在我看来，解决了这个问题我们就可以找到方向。但我认为对我来说，当很多人、企业使用我们的模型来释放他们对空间智能的需求时，那一刻，我们就算达到了一个重要的里程碑。

Johnson：这就是你们工作的影响所在。我认为这是一件非常具有奠基意义的事情，就像宇宙是一个巨大的四维结构，空间智能的主要作用就是理解它的所有深度，并找出其中的所有应用。虽然我们今天心中已有一组特定的想法，但我认为这次旅程会将我们带到现在无法想象的地方。

李飞飞：技术的魔力在于不断打开更多的可能性。所以我们会持续推进，这些可能性将会不断扩大。

^{参考链接：}^{https://x.com/a16z/status/1837234492630569198}

产业李飞飞

相关技术

机器人操作系统

所属机构

百度研究院

来源：个人网站 Ng, A. Y.Twitter

李飞飞人物

李飞飞，斯坦福大学计算机科学系教授，斯坦福视觉实验室负责人，斯坦福大学人工智能实验室（SAIL）前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌，担任谷歌云AI/ML首席科学家。2018年9月，返回斯坦福任教，现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启，李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人，Christopher Manning接任该职位。

来源：个人主页维基百科

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

增强现实技术

增强现实，是指透过摄影机影像的位置及角度精算并加上图像分析技术，让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升，增强现实的用途也越来越广。

来源：维基百科

计算机图形技术

图像数据处理、计算机图像（英语：Computer Graphics）是指用计算机所创造的图形。更具体的说，就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

来源：维基百科

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法，以便可以对注释词执行检索。手动图像注释耗时，费力且昂贵; 为了解决这个问题，人们已经对自动图像标注进行了大量研究。

来源：Image retrieval

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

概率分布技术

概率分布（probability distribution）或简称分布，是概率论的一个概念。广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量具有同样的分布（或同分布）时，我们是无法用概率来区别它们的。

来源：维基百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

门控循环单元技术

门控循环单元（GRU）是循环神经网络（RNN）中的一种门控机制，与其他门控机制相似，其旨在解决标准RNN中的梯度消失／爆炸问题并同时保留序列的长期信息。GRU在许多诸如语音识别的序列任务上与LSTM同样出色，不过它的参数比LSTM少，仅包含一个重置门（reset gate）和一个更新门（update gate）。

来源：Understanding GRU networks, Medium

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

操作系统技术

操作系统（英语：operating system，缩写作 OS）是管理计算机硬件与软件资源的计算机程序，同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

来源：百度百科

图像处理技术

图像处理是指对图像进行分析、加工和处理，使其满足视觉、心理或其他要求的技术。图像处理是信号处理在图像领域上的一个应用。目前大多数的图像均是以数字形式存储，因而图像处理很多情况下指数字图像处理。

来源：维基百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题（vanishing gradient problem over backpropagation-through-time)，重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳，是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能，LSTM经常被用在具有时间序列特性的数据和场景中。

来源：Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型，包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍，该模型是对 GPT 模型的直接扩展，在超出 10 倍的数据量上进行训练，参数量也多出了 10 倍。在性能方面，该模型能够生产连贯的文本段落，在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下，能够做到初步的阅读理解、机器翻译、问答和自动摘要。

来源：OpenAI博客

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/