Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?


人工智能领域,很少有像 Yann LeCun 这样的学者,在 65 岁的年龄还能高度活跃于社交媒体。

一直以来,Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源,并带领 Meta 的团队推出了占据如今开源大模型领域半壁江山的 Llama 2;他对很多人深感恐慌的人工智能末日论不以为然,坚信 AGI 的到来一定是件好事……

近日,LeCun 又一次来到 Lex Fridman 的播客,展开了一场接近三个小时的对谈,内容涉及开源的重要性、LLM 的局限性、为什么人工智能末日论者是错误的,以及通向 AGI 的道路等话题。

图片

观看页面:https://youtu.be/5t1vTLU7s40?feature=shared

我们从这场播客内容中精选了一些有参考价值的观点,以下是相关内容:

LLM 的局限性

Lex Fridman:你说过,自回归 LLM 并不是我们在超人类智能方面取得进展的方式。为什么它们不能带我们一路走下去?

Yann LeCun:出于多种原因。首先,智能行为有许多特征。例如,理解世界的能力、理解物理世界的能力、记忆和检索事物的能力、持久性记忆、推理能力和计划能力。这是智能系统或实体、人类、动物的四个基本特征。LLM 无法做到这些,或者只能以非常原始的方式做到这些,而且并不真正了解物理世界。LLM 并没有真正的持久记忆,无法真正推理,当然也无法计划。因此,如果你期望系统变得智能,但却无法做这些事情,那么你就犯了一个错误。这并不是说自回归 LLM 没有用。它们当然有用,但它们并不有趣,我们无法围绕它们构建整个应用程序生态系统。但作为迈向人类水平智能的通行证,它们缺少必要的组成部分。

通过感官输入,我们看到的信息比通过语言看到的信息多得多,尽管我们有直觉,但我们学到的大部分内容和知识都是通过我们的观察和与现实世界的互动,而不是通过通过语言。我们在生命最初几年学到的一切,当然还有动物学到的一切,都与语言无关。

Lex Fridman:也就是你所说的,LLM 缺乏对物理世界的理解?所以,直觉物理学、关于物理空间、关于物理现实的常识推理对你来说没有什么特别之处。这是 LLM 无法做到的巨大飞跃?

Yann LeCun:我们今天使用的 LLM 无法做到这一点,原因有很多,但最主要的原因是 LLM 的训练方式是:你获取一段文本,删除文本中的一些单词,屏蔽它们,用空白 token 代替它们,然后训练一个遗传神经网络来预测缺失的单词。如果你以一种特殊的方式构建这个神经网络,让它只能查看左侧的单词或它试图预测的单词,那么你所拥有的系统基本上就是试图预测文本中的下一个单词。因此,你可以给它输入一段文字、一个提示,然后让它预测下一个单词。它永远无法准确预测下一个单词。

因此,它要做的就是生成字典中所有可能单词的概率分布。事实上,它并不预测单词。它预测的是作为子单词单位的词块,因此很容易处理预测中的不确定性,因为字典中可能出现的单词数量有限,你只需计算它们的分布即可。然后,系统就会从该分布中选出一个词。当然,在该分布中,选取概率较高的词的几率会更高。因此,你从该分布中采样,实际产生一个单词,然后将该单词移入输入中,这样系统就不会预测第二个单词了。

这就是所谓的自回归预测,这也是为什么这些 LLM 应该被称为「自回归 LLMs」,但我们只是称其为 LLM。这种过程与在产生一个单词之前的过程是有区别的。

当你我交谈时,你我都是双语者,我们会思考我们要说什么,而这与我们要说的语言相对独立。当我们谈论一个数学概念时,我们所做的思考和我们打算给出的答案与我们是用法语、俄语还是英语来表达无关。

Lex Fridman:乔姆斯基翻了个白眼,但我明白,所以你是说有一个更大的抽象存在于语言之前并映射到语言?

Yann LeCun:对于我们所做的很多思考来说,是的。

Lex Fridman:你的幽默是抽象的吗?当你发推文时,你的推文有时有点辛辣,在推文映射到英语之前,你的大脑中是否有一个抽象的表示?

Yann LeCun:确实有一个抽象的表示来想象读者对该文本的反应。但是,想一个数学概念,或者想象一下你想用木头做一个什么东西,或者诸如此类的东西,这种思考与语言完全无关。你并不是在用某种特定的语言进行内心独白。你是在想象事物的心理模型。我的意思是,如果我让你想象一下,如果我把这个水瓶旋转 90 度,它会是什么样子,这与语言毫无关系。很显然,我们的大部分思考都是在更抽象的表征层面上进行的,如果输出的是语言,我们会计划好要说的话,而不是输出肌肉动作,我们会在做出答案之前就计划好答案。

LLM 不会这样做,只是本能地说出一个又一个单词。这有点像下意识的动作,有人来问你一个问题,你就会回答这个问题。没有时间思考答案,但答案很简单。所以你不需要注意,会自动做出反应。这就是 LLM 的工作。它真的不会思考答案。因为它已经积累了很多知识,所以能检索到一些东西,但也只会吐出一个又一个 token,而不会计划答案。

Lex Fridman:一个 token 一个 token 地生成必然是简单化的,但如果世界模型足够复杂,它最有可能生成的是一连串的 token,这将是一件深奥的事情。

Yann LeCun:但这基于一个假设:这些系统实际上拥有一个永恒的世界模型。

视频预测

Lex Fridman:所以真正的问题是…… 能否建立一个对世界有深刻理解的模型?

Yann LeCun:能否通过预测来构建它,答案很可能是肯定的。但能通过预测单词来构建它吗?答案很可能是否定的,因为语言在弱带宽或低带宽方面非常贫乏,没有足够的信息。因此,建立世界模型意味着要观察世界,了解世界为什么会以这样的方式演变,然后世界模型的额外组成部分就是能够预测你可能采取的行动会导致世界如何演变。

因此,一个真正的模型是:这是我对 T 时世界状态的想法,这是我可能采取的行动。在 T+1 时间,预测的世界状态是什么?现在,世界的状态并不需要代表世界的一切,它只需要代表与这次行动规划相关的足够多的信息,但不一定是所有的细节。

现在,问题来了。生成模型无法做到这一点。因此,生成模型需要在视频上进行训练,我们已经尝试了 10 年,你拍摄一段视频,向系统展示一段视频,然后要求你预测视频的提醒,基本上就是预测将要发生什么。

如果你愿意,可以制作大型视频模型。这样做的想法由来已久,在 FAIR,我和我们的一些同事尝试这样做已有 10 年之久,但你无法真正做到与 LLM 相同的技巧,因为 LLM,正如我所说,你无法准确预测哪一个单词会跟随一连串单词,但你可以预测单词的分布。现在,如果你去看视频,你要做的就是预测视频中所有可能帧的分布,而我们并不知道如何正确地做到这一点。

我们不知道如何以有用的方式来表示高维连续空间上的分布。这就是主要问题所在,我们之所以能做到这一点,是因为这个世界比文字复杂得多,信息丰富得多。文本是离散的,而视频是高维的、连续的。这里面有很多细节。因此,如果我拍摄了这个房间的视频,视频中的摄像机在四处转动,我根本无法预测在我四处转动时房间里会出现的所有东西。系统也无法预测摄像机转动时房间里会出现什么。也许它能预测到这是一个房间,里面有一盏灯,有一面墙,诸如此类的东西。它无法预测墙壁上的画是什么样子,也无法预测沙发的纹理是什么样子。当然也无法预测地毯的质地。所以我无法预测所有这些细节。

因此,一种可能的处理方法,也是我们一直在研究的方法,就是建立一个拥有所谓潜在变量的模型。潜在变量被输入到神经网络中,它应该代表所有你还没有感知到的关于这个世界的信息,你需要增强系统的预测能力,才能很好地预测像素,包括地毯、沙发和墙上画作的细微纹理。

我们试过直接的神经网络,试过 GAN,试过 VAE,试过各种正则化自动编码器。我们还尝试用这些方法来学习图像或视频的良好表征,然后将其作为图像分类系统等的输入。基本上都失败了。

所有试图从损坏版本的图像或视频中预测缺失部分的系统,基本上都是这样的:获取图像或视频,将其损坏或以某种方式进行转换,然后尝试从损坏版本中重建完整的视频或图像,然后希望系统内部能够开发出良好的图像表征,以便用于物体识别、分割等任何用途。这种方法基本上是完全失败的,而它在文本方面却非常有效。这就是用于 LLM 的原理。

Lex Fridman:失败究竟出在哪里?是很难很好地呈现图像,比如将所有重要信息很好地嵌入图像?是图像与图像、图像与图像之间的一致性形成了视频?如果我们把你所有失败的方式做一个集锦,那会是什么样子?

Yann LeCun:首先,我必须告诉你什么是行不通的,因为还有其他东西是行得通的。所以,行不通的地方就是训练系统学习图像的表征,训练它从损坏的图像中重建出好的图像。

对此,我们有一整套技术,它们都是去噪自编码器的变体,我在 FAIR 的一些同事开发了一种叫做 MAE 的东西,即掩蔽自编码器。因此,它基本上就像 LLM 或类似的东西,你通过破坏文本来训练系统,但你破坏图像,从中删除补丁,然后训练一个巨大的神经网络重建。你得到的特征并不好,而且你也知道它们不好,因为如果你现在训练同样的架构,但你用标签数据、图像的文字描述等对它进行监督训练,你确实能得到很好的表征,在识别任务上的表现比你做这种自监督的再训练要好得多。

结构是好的,编码器的结构也是好的,但事实上,你训练系统重建图像,并不能使它产生长而良好的图像通用特征。那还有什么选择呢?另一种方法是联合嵌入。

JEPA(联合嵌入预测架构)

Lex Fridman::联合嵌入架构与 LLM 之间的根本区别是什么?JEPA 能带我们进入 AGI 吗?

Yann LeCun:首先,它与 LLM 等生成式架构有什么区别?LLM 或通过重构训练的视觉系统会生成输入。它们生成的原始输入是未损坏、未转换的,因此你必须预测所有像素,而系统需要花费大量资源来实际预测所有像素和所有细节。而在 JEPA 中,你不需要预测所有像素,你只需要预测输入的抽象表示。这在很多方面都要容易得多。因此,JEPA 系统在训练时,要做的就是从输入中提取尽可能多的信息,但只提取相对容易预测的信息。因此,世界上有很多事情是我们无法预测的。例如,如果你有一辆自动驾驶汽车在街上或马路上行驶,道路周围可能有树,而且今天可能是大风天。因此,树上的叶子会以一种你无法预测的半混乱、随机的方式移动,而你并不关心,也不想预测。因此,你希望编码器基本上能消除所有这些细节。它会告诉你树叶在动,但不会告诉你具体发生了什么。因此,当你在表示空间中进行预测时,你不必预测每片树叶的每个像素。这样不仅简单得多,而且还能让系统从本质上学习到世界的抽象表征,其中可以建模和预测的内容被保留下来,其余的则被编码器视为噪音并消除掉。

因此,它提升了表征的抽象程度。仔细想想,这绝对是我们一直在做的事情。每当我们描述一种现象时,我们都会在特定的抽象层次上进行描述。我们并不总是用量子场论来描述每一种自然现象。那是不可能的。因此,我们有多个抽象层次来描述世界上发生的事情,从量子场论到原子理论、分子、化学、材料,一直到现实世界中的具体物体等等。因此,我们不能只在最底层模拟一切。而这正是 JEPA 的理念所在,以自我监督的方式学习抽象表征,而且还可以分层学习。因此,我认为这是智能系统的重要组成部分。而在语言方面,我们可以不用这样做,因为语言在某种程度上已经是抽象的,已经消除了很多不可预测的信息。因此,我们可以不做联合嵌入,不提升抽象程度,直接预测单词。

Lex Fridman:你是说语言,我们懒得用语言,因为我们已经免费得到了抽象的表述,而现在我们必须放大,真正思考一般的智能系统。我们必须处理一塌糊涂的物理现实和现实。而你确实必须这样做,从完整、丰富、详尽的现实跳转到基于你所能推理的现实的抽象表征,以及所有诸如此类的东西。

Yann LeCun:没错。那些通过预测来学习的自监督算法,即使是在表征空间中,如果输入数据的冗余度越高,它们学习到的概念也就越多。数据的冗余度越高,它们就越能捕捉到数据的内部结构。因此,在知觉输入、视觉等感官输入中,冗余结构要比文本中的冗余结构多得多。语言可能真的代表了更多的信息,因为它已经被压缩了。你说得没错,但这也意味着它的冗余度更低,因此自监督的效果就不会那么好。

Lex Fridman:有没有可能将视觉数据的自监督训练与语言数据的自监督训练结合起来?尽管你说的是 10 到 13 个 token,但其中蕴含着大量的知识。这 10 到 13 个 token 代表了我们人类已经弄明白的全部内容,包括 Reddit 上的废话、所有书籍和文章的内容以及人类智力创造的全部内容。

Yann LeCun:嗯,最终是的。但我认为,如果我们太早这样做,就有可能被诱导作弊。而事实上,这正是目前人们在视觉语言模型上所做的。我们基本上是在作弊,在用语言作为拐杖,帮助我们视觉系统的缺陷从图像和视频中学习良好的表征。

这样做的问题是,我们可以通过向语言模型提供图像来改进它们,但我们甚至无法达到猫或狗的智力水平或对世界的理解水平,因为它们没有语言。它们没有语言,但对世界的理解却比任何 LLM 都要好得多。它们可以计划非常复杂的行动,并想象一系列行动的结果。在将其与语言结合之前,我们如何让机器学会这些?显然,如果我们将其与语言相结合,会取得成果,但在此之前,我们必须专注于如何让系统学习世界是如何运作的。

事实上,我们使用的技术是非对比性的。因此,不仅架构是非生成的,我们使用的学习程序也是非对比的。我们有两套技术。一套是基于蒸馏法,有很多方法都采用了这一原理,DeepMind 有一种叫 BYOL,FAIR 有几种,一种叫 vcREG,还有一种叫 I-JEPA。应该说,vcREG 并不是一种蒸馏方法,但 I-JEPA 和 BYOL 肯定是。还有一种也叫 DINO 或 DINO,也是从 FAIR 生产出来的。这些方法的原理是,你将完整的输入,比如说一张图片,通过编码器运行,产生一个表示,然后你对输入进行破坏或转换,通过本质上等同于相同的编码器运行,但有一些细微差别,然后训练一个预测器。

有时预测器非常简单,有时预测器并不存在,但要训练一个预测器来预测第一个未损坏输入与已损坏输入之间的关系。但你只训练第二个分支。你只训练网络中输入损坏输入的部分。另一个网络则不需要训练。但由于它们共享相同的权重,当你修改第一个网络时,它也会修改第二个网络。通过各种技巧,你可以防止系统崩溃,就像我之前解释的那种崩溃,系统基本上会忽略输入。因此,这种方法非常有效。我们在 FAIR 开发的两种技术,DINO 和 I-JEPA 在这方面都非常有效。

我们的最新版本称为 V-JEPA。它与 I-JEPA 的理念基本相同,只是将其应用于视频。因此,你可以获取整个视频,然后屏蔽其中的一大块内容。我们所屏蔽的实际上是一个时间管,所以是整个视频中每一帧的整个片段。

这是我们所拥有的第一个能学习到良好视频表征的系统,因此当你将这些表征输入到一个有监督的分类器头部时,它能以相当高的准确率告诉你视频中发生了什么动作。因此,这是我们第一次获得这种质量的东西。

结果似乎表明,我们的系统可以通过表征来判断视频在物理上是可能的,还是完全不可能的,因为某些物体消失了,或者某个物体突然从一个位置跳到另一个位置,或者改变了形状什么的。

Lex Fridman:这能让我们建立一种足够了解世界并能够驾驶汽车的世界模型吗?

Yann LeCun:可能还需要一段时间才能达到这个目标。现在已经有一些机器人系统,就是基于这个想法。你需要的是一个稍加改动的版本,想象你有一段完整的视频,而你对这段视频所做的,就是把它在时间上转换到未来。因此,你只能看到视频的开头,而看不到原始视频中的后半部分,或者只屏蔽视频的后半部分。然后你就可以训练一个 JEPA 系统或我描述的那种系统,来预测被遮挡视频的完整表现形式。不过,你也要给预测器提供一个动作。例如,车轮向右转动 10 度或其他动作,对吗?

因此,如果这是一个汽车摄像头,而你又知道方向盘的角度,那么在某种程度上,你应该能够预测你所看到的画面会发生什么变化。显然,你无法预测视图中出现的物体的所有细节,但在抽象表示层面,你或许可以预测将要发生的事情。所以,现在你有了一个内部模型,它说:"这是我对 T 时刻世界状态的想法,这是我正在采取的行动。这里是对 T 加 1、T 加 delta T、T 加 2 秒时世界状态的预测," 不管它是什么。如果你有这样一个模型,你就可以用它来进行规划。因此,现在你可以做 LMS 做不到的事情,即规划你要做的事情。因此,当你到达一个特定的结果或满足一个特定的目标时。

因此,你可以有很多目标。我可以预测,如果我有一个这样的物体,我张开手,它就会掉下来。如果我用一种特定的力量把它推到桌子上,它就会移动。如果我用同样的力推桌子,它可能不会移动。因此,我们脑海中就有了这个世界的内部模型,它能让我们计划一系列的行动,以达到特定的目标。现在,如果你有了这个世界模型,我们就可以想象一连串的动作,预测这一连串动作的结果,衡量最终状态在多大程度上满足了某个特定目标,比如把瓶子移到桌子左边,然后在运行时规划一连串动作,使这个目标最小化。

我们说的不是学习,而是推理时间,所以这就是规划,真的。在最优控制中,这是一个非常经典的东西。它被称为模型预测控制。你有一个想要控制的系统模型,它能预测与一系列指令相对应的状态序列。而你正在规划一连串的指令,以便根据你的角色模型,系统的最终状态将满足你设定的目标。自从有了计算机,也就是 60 年代初开始,火箭轨迹的规划就一直采用这种方式。

强化学习

Lex Fridman:建议放弃生成模型而转而采用联合嵌入架构?你已经有一段时间是强化学习的批评者了。这感觉就像法庭证词,放弃概率模型,转而支持我们谈到的基于能量的模型,放弃对比方法,转而支持正则化方法。

Yann LeCun:我认为它不应该被完全放弃,但我认为它的使用应该最小化,因为它在采样方面效率非常低。因此,训练系统的正确方法是首先让它从主要观察(也许还有一点交互)中学习世界和世界模型的良好表示。

Lex Fridman:RLHF 为什么效果这么好?

Yann LeCun:具有转化效果的是人类反馈,有很多方法可以使用它,其中一些只是纯粹的监督,实际上,它并不是真正的强化学习

开源

Yann LeCun:拥有人工智能行业、拥有不存在独特偏见的人工智能系统的唯一方法就是拥有开源平台,任何团体都可以在该平台上构建专门的系统。历史的必然方向就是,绝大多数的 AI 系统都会建立在开源平台之上。

Meta 围绕的商业模式是,你提供一种服务,而这种服务的资金来源要么是广告,要么是商业客户。

举例来说,如果你有一个 LLM,它可以通过 WhatsApp 与顾客对话,帮助一家披萨店,顾客只需点一份披萨,系统就会问他们:「你想要什么配料或什么尺寸,等等」。商家会为此付费,这就是一种模式。

否则,如果是比较经典的服务系统,它可以由广告支持,或者有几种模式。但问题是,如果你有足够大的潜在客户群,而且无论如何你都需要为他们构建该系统,那么将其发布到开放源代码中也无伤大雅。

Lex Fridman:Meta 所打的赌是:我们会做得更好吗?

Yann LeCun:不。赌注更大,我们已经拥有庞大的用户群和客户群。

我们提供开源的系统或基本模型、基础模型,供他人在此基础上构建应用程序,这也无伤大雅。如果这些应用对我们的客户有用,我们可以直接向他们购买。他们可能会改进平台。事实上,我们已经看到了这一点。LLaMA 2 的下载量已达数百万次,成千上万的人提出了如何改进平台的想法。因此,这显然加快了向广大用户提供该系统的进程,而且数以千计的企业正在使用该系统构建应用程序。因此,Meta 从这项技术中获取收入的能力并没有因为基础模型的开源分布而受到影响。

Llama 3

Lex Fridman:关于 LLaMA 3 ,你最兴奋的是什么?

Yann LeCun:会有各种版本的 LLaMA,它们是对以前的 LLaMA 的改进,更大、更好、多模态,诸如此类。然后,在未来的几代中,有能够真正了解世界如何运作的规划系统,可能是通过视频进行训练的,因此它们会有一些世界模型,可能能够进行我之前谈到的推理和规划类型。

这需要多长时间?朝这个方向进行的研究什么时候会进入产品线?我不知道,也不能告诉你。在我们实现这一目标之前,我们基本上必须经历一些突破,但大家能够监控我们的进展,因为我们公开发布了自己的研究。因此,上周我们发布了 V-JEPA 工作,这是迈向视频训练系统的第一步。

下一步将是基于这种视频创意训练的世界模型。DeepMind 也有类似的工作,加州大学伯克利分校也有关于世界模型和视频的工作。很多人都在做这方面的工作。我认为很多好的想法正在出现。我敢打赌,这些系统将是 JEPA 轻型系统,它们不会是生成模型,我们将看看未来会发生什么。

30 多年前,我们正在研究组合网络和早期的神经网络,我看到了一条通往人类水平智能的道路,系统可以理解世界、记忆、计划、推理。有一些想法可以取得进展,可能有机会发挥作用,我对此感到非常兴奋。

我喜欢的是,我们在某种程度上朝着一个好的方向前进,也许在我的大脑变成白沙司或在需要退休之前取得成功。

Lex Fridman:你的大部分兴奋点还是在理论方面,也就是软件方面?

Yann LeCun:很多年前我曾经是一名硬件人员。规模是必要的,但还不够。有可能我未来还能活十年,但我还是要跑一小段距离。当然,对于能源的效率,我们取得的进步越远,我们在努力工作方面取得的进步就越多。我们必须降低功耗。如今,一个 GPU 的功耗在半千瓦到一千瓦之间。人脑的功率约为 25 瓦,而 GPU 的功率远远低于人脑。你需要 10 万或 100 万的功率才能与之媲美,所以我们的差距非常大。

AGI

Lex Fridman:你经常说 GI 不会很快到来,背后的基本直觉是什么?

Yann LeCun:那种被科幻小说和好莱坞广为流传的想法,即某个人会发现 AGI 或人类级 AI 或 AMI(不管你怎么称呼它)的秘密,然后打开机器,我们就拥有了 AGI,是不可能发生的。

这将是一个循序渐进的过程。我们是否会有系统能从视频中了解世界是如何运作的,并学习良好的表征?达到我们在人类身上观察到的规模和性能之前,还需要相当长的一段时间,不是一天两天的事。

我们会让系统拥有大量关联记忆,从而记住东西吗?是的,但这也不是明天就能实现的。我们需要开发一些基本技术。我们有很多这样的技术,但要让它们与完整的系统协同工作,那就是另一回事了。

我们是否将拥有能够推理和规划的系统,或许就像我之前描述的目标驱动型人工智能架构那样?是的,但要让它正常工作,还需要一段时间。在我们让所有这些东西协同工作之前,在让系统基于此实现学习分层规划、分层表示,能够像人脑那样针对手头的各种不同情况进行配置之前,至少需要十年时间甚至更长,因为有很多问题我们现在还没有看到,我们还没有遇到,所以我们不知道在这个框架内是否有简单的解决方案。

在过去的十几年,我一直听到有人声称 AGI 指日可待,但他们都错了。

智商可以衡量人类的一些东西,但因为人类的形式相对统一。但是,它只能衡量一种能力,而这种能力可能与某些任务相关,但与其他任务无关。但如果你说的是其他智能实体,对它们来说很容易做到的基本事情却截然不同,那么它就没有任何意义了。因此,智能是一种技能的集合,也是一种高效获取新技能的能力。一个特定的智能实体所拥有或能够快速学习的技能集合与另一个智能实体的技能集合是不同的。因为这是一个多维度的东西,技能集合是一个高维空间,你无法测量,也无法比较两个东西是否一个比另一个更聪明。它是多维的。

Lex Fridman:你经常反对所谓的人工智能末日论者,解释一下他们的观点以及你认为他们错误的原因。

Yann LeCun人工智能末日论者想象了各种灾难场景,人工智能如何逃脱或控制并基本上杀死我们所有人,这依赖于一大堆假设,而这些假设大多是错误的。

第一个假设是,超级智能的出现将是一个事件,在某个时刻,我们会发现其中的秘密,我们会打开一台超级智能的机器,因为我们以前从未这样做过,所以它会占领世界,杀死我们所有人。这是错误的。这不会是一个事件。

我们将拥有像猫一样聪明的系统,它们具有人类智能的所有特征,但它们的智能水平可能像猫或鹦鹉之类。然后,我们再逐步提高它们的智能水平。在让它们变得更聪明的同时,我们也要在它们身上设置一些防护栏,并学习如何设置防护栏,让它们表现得更加正常。

在自然界中,似乎更聪明的物种最终会统治另一个物种,甚至有时是有意为之,有时只是因为错误而区分其他物种。

所以你会想:「好吧,如果人工智能系统比我们更聪明,肯定会消灭我们,如果不是故意的,只是因为他们不关心我们,」这是荒谬的 —— 第一个原因是它们不会成为与我们竞争的物种,不会有主宰的欲望,因为主宰的欲望必须是智能系统中固有的东西。它在人类身上是根深蒂固的,狒狒、黑猩猩、狼都有这种欲望,但在猩猩身上却没有。这种支配、服从或以其他方式获得地位的欲望是社会性物种所特有的。像猩猩这样的非社会性物种就没有这种欲望,而且它们和我们一样聪明。

人形机器人

Lex Fridman:你认为很快就会有数以百万计的人形机器人四处走动吗?

Yann LeCun:不会很快,但一定会发生。

未来十年,我认为机器人行业将非常有趣,机器人行业的兴起已经等待了 10 年、20 年,除了预编程行为和诸如此类的东西外,并没有真正出现。主要问题还是莫拉维克悖论,我们如何让这些系统理解世界是如何运作的,并计划行动?这样,我们才能完成真正专业的任务。波士顿动力的做法基本上是通过大量手工制作的动态模型和事先的精心策划,这是非常经典的机器人技术,其中包含大量创新和一点点感知,但这仍然不够,他们无法制造出家用机器人。

此外,我们离完全自主的 L5 驾驶还有一定距离,比如一个可以像 17 岁孩子一样通过 20 小时的驾驶来训练自己的系统。

因此,在拥有世界模型、能够自训练以了解世界如何运作的系统之前,我们不会在机器人技术方面取得重大进展。
产业Lex FridmanYann LeCun
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

最优控制技术

最优控制是指在给定的约束条件下,寻求一个控制,使给定的系统性能指标达到极大值(或极小值)。它反映了系统有序结构向更高水平发展的必然要求。它属于最优化的范畴,与最优化有着共同的性质和理论基础。对于给定初始状态的系统,如果控制因素是时间的函数,没有系统状态反馈,称为开环最优控制,如果控制信号为系统状态及系统参数或其环境的函数,称为自适应控制。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

视频预测技术

视频预测任务是指在基于给定的视频帧序列,生成一个可信的未来帧序列。

暂无评论
暂无评论~