Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Yann LeCun作者

思考总结10年,图灵奖得主Yann LeCun指明下一代AI方向:自主机器智能

在这篇长达 62 页的论文中,LeCun 表示,这篇论文提炼了他对过去 5 年 - 10 年关于 AI 发展大方向的思考,这基本上是他计划在接下来的 10 年中开展的工作,也是他希望激励其他人从事的工作。

随着机器学习的不断发展,领域内的研究者开始思考一个问题:我们离通用人工智能(AGI)还有多远?

要实现 AGI,最关键的一点是让机器了解世界是如何运转的,掌握广泛的现实知识。

这也是图灵奖得主 LeCun 近期在探索的问题。他曾表示:让机器像人或动物一样行动一直是他一生的追求。

LeCun 认为动物大脑的运行可以看作是对现实世界的模拟,他称之为世界模型。LeCun 表示,婴儿在出生后的头几个月通过观察世界来学习基础知识。观察一个小球掉几百次,普通婴儿就算不了解物理,也会对重力的存在与运作有基础认知。

不久之前,LeCun 表示他已经建立了世界模型的早期版本,可以进行基本的物体识别,他现在正致力于训练它做出预测。在昨天公布的一篇论文中,LeCun 详细地描述了这一愿景。
论文地址:https://openreview.net/pdf?id=BZ5a1r-kVsf

LeCun 表示,这篇论文提炼了他对过去 5 年 - 10 年关于 AI 发展大方向的思考,这基本上是他计划在接下来的 10 年中开展的工作,也是他希望激励其他人从事的工作。

LeCun 对下一代 AI 有了新想法


动物和人类表现出的学习能力和对世界的理解,远远超出了 AI 和机器学习系统。

一个青少年可以在大约 20 小时的练习中学会开车,小朋友可以在只需要很少的交流后就学会语言沟通,人类可以在他们从未遇到过的情况下采取行动。相比之下,为了可靠,当前的 ML 系统需要通过大量试验进行训练,以便在训练期间可以覆盖最意外的情况。尽管如此,我们最好的 ML 系统在现实世界任务(例如驾驶)中仍远未达到人类可靠性,即使在从人类专家那里获得大量监督数据之后、在虚拟环境中经历了数百万次强化学习试验之后等等,可靠性还没有好转。

目前,AI 研究必须解决三个挑战:

  1. 机器如何学习表征世界,学习进行预测以及通过观察后采取行动?现实世界中的交互既昂贵又危险,智能体应该在没有互动的情况下 (通过观察) 尽可能多地了解这个世界,从而尽可能减少学习一项特定任务所需昂贵而危险的试验次数。
  2. 机器如何以基于梯度学习的方式进行推理和规划?目前最好的学习方法是依赖估计和梯度的,而这些方法只能用可微架构来执行,并且很难与基于逻辑的符号推理相协调。
  3. 机器如何学习以一种分层的方式,在多个抽象级别和多个时间尺度上表示感知和行动规划?人类和动物都能够构思出多层次的抽象概念,通过将复杂的行动分解成一系列较低层次的行动,可以实现长期的预测和规划

Yann LeCun 在论文中提出了一种智能的智能体架构,该架构可以解决三个挑战。本文的贡献如下:

  • 一个整体的认知架构,其中所有模块都是可微的,并且还是可训练的;
  • JEPA 和分层 JEPA:用于预测世界模型的非生成架构,可以学习表征的层次结构;
  • 一种非对比的自监督学习范式,它产生的表征同时具有信息性和可预测性。

自主智能架构


LeCun 提出一种名为自主智能(autonomous intelligence)的新型架构,如下图所示:
自主智能架构中包含多个模块。一些模块可以即时配置,它们的具体功能由配置器(configurator)模块确定。配置器的作用是执行控制:给定要执行的任务,它预先配置针对当前任务的感知(perception)、世界模型(world model)、成本(cost)和参与者(actor)。

配置器模块从其他模块获取输入,并根据给定任务调整其他模块的参数和注意力电路。特别地,配置器可以启动感知、世界模型和成本模块以实现特定的目标。

感知模块接收来自传感器的信号并估计世界的当前状态。给定一个任务,感知到的世界状态中只有一小部分是和任务相关有用的。感知模块可以以分层的方式表征世界的状态,具有多个抽象级别。配置器启动感知系统以从感知中提取相关信息用于当前任务。

世界模型模块是整个架构中最复杂的部分,它有双重作用:(1)估计感知未提供的关于世界状态的缺失信息;(2)预测世界的合理未来状态。世界模型可以预测世界的自然演化,以及由参与者模块做出一系列动作产生的未来世界状态。

世界模型可以预测多个似是而非的世界状态,由表征世界状态不确定性的潜在变量进行参数化。世界模型是一种对世界相关方面的「模拟器」,而哪些方面是相关的,取决于当前任务。配置器负责配置世界模型,世界模型的预测是在包含任务相关信息的抽象表征空间内执行的。理想情况下,世界模型将在多个抽象层次上操纵世界状态的表征,使其能够在多个时间尺度上进行预测。

这里有一个关键的问题:世界模型必须能够表征世界状态的多种可能预测。然而,自然世界不是完全可以预测的,特别是包含具有对抗性的智能体时尤其如此。但即使世界只包含无生命的物体,它们的行为仍然是混乱的,其状态不能完全观察到。因此,在构建新架构时,有两个基本问题需要回答:(1)如何让世界模型做出多个合理的预测并表征预测中的不确定性;(2)如何训练世界模型。

成本模块以称为能量(energy)的标量形式测量智能体的「不适(discomfort)」程度。能量是由两个子模块计算的两个能量项的总和:内部成本(Intrinsic Cost)模块和可训练评价者(Trainable Critic)模块。智能体的总体目标是采取行动以保持在最小平均能量的状态。内部成本模块的设计决定了智能体行为的性质,其输入是由感知模块产生的世界当前状态,或者是世界模型预测的潜在未来状态。内部成本模块可以由配置器控制,以在不同时间驱动不同的行为。

可训练评价者模块负责预测未来的内部能量。与内部成本模块一样,可训练评价者模块的输入要么是世界的当前状态,要么是世界模型预测的可能状态。对于训练,该模块检索存储在关联记忆模块中的过去状态和随后的内部成本,并训练自己从前者预测后者。同样,可训练评价者模块也由配置器根据给定任务动态配置。由于成本模块的两个子模块都是可微的,所以能量梯度可以通过其他模块反向传播。

短期记忆模块类似于脊椎动物中的海马体,负责存储有关世界过去、现在和未来状态的相关信息,以及内部成本的相应值。世界模型可以向短期记忆模块发送查询请求、接收检索到的值、更新存储状态值。整体架构通过从记忆模块检索过去的状态和相关的内部成本来训练评价者模块。

参与者模块计算动作序列并将动作输出到效应器。世界模型根据动作序列预测未来的世界状态序列,并将其反馈给成本模块。配置器首先会给定成本模块一个目标,然后成本模块会根据所提动作序列估计未来能量。

参与者模块可以访问估计成本的梯度,因此它可以使用基于梯度的方法计算出最小化估计成本的最优动作序列。如果动作空间是离散的,则可以使用动态规划来找到最佳动作序列。优化完成后,actor 将第一个动作(或一小段动作)输出到效应器。这个过程类似于最优控制中的模型预测控制(Bryson 和 Ho,1969)。

参与者模块包括两个组件:(1)策略模块,它直接从感知模块产生、从记忆模块检索的世界状态估计中产生一个动作;(2)动作优化器,用于模型 - 预测控制。

下面我们重点看一下架构中最复杂的部分 —— 世界模型的设计和训练过程。

设计和训练世界模型


毫不夸张的说,未来几十年阻碍人工智能发展的真正障碍是为世界模型设计架构以及训练范式。本文的主要贡献之一正是分层架构和世界模型的训练,可以在预测中表示多个结果。

训练世界模型是自监督学习(SSL)中的一个典型例子,其基本思想是模式补全。对未来输入(或暂时未观察到的输入)的预测是模式补全的一个特例。在这项工作中,世界模型旨在预测世界状态未来表征。

自监督学习

自监督学习 (SSL) 作为一种范式,可用来训练学习系统以捕获输入之间的相互依赖关系。具体来说,这通常归结为训练一个系统来告诉其输入的各个部分是否彼此一致。

本文还介绍了一种基于能量的模型(EBM)架构,如图 8 所示,数据点是黑点,能量函数在数据点周围产生低能量值,并在远离高数据密度区域的区域产生较高能量,如能量等高线所示。

自监督学习 (SSL) 和基于能量的模型 (EBM)


联合嵌入预测架构(JEPA)

本文的核心是联合嵌入预测架构 (JEPA)。JEPA 不是生成式的,因为它不能轻易地用于从 x 预测 y。它仅捕获 x 和 y 之间的依赖关系,而不显式生成 y 的预测。图 12 显示了一个通用 JEPA。
与 EBM 一样,可以使用对比方法训练 JEPA。但是,对比方法在高维空间中效率很低。本文设计出了非对比方法来训练它们,在 JEPA 的情况下,可以通过四个标准来完成,如图 13 所示:1. 最大化 s_x 关于 x 的信息量;2. 最大化 s_y 关于 y 的信息量;3. 使 s_y 容易从 s_x 中预测;4. 最小化用于预测潜在变量 z 的信息含量。
分层 JEPA (H-JEPA)

图 15 显示了多级、多尺度下世界状态预测的可能架构,变量 x_0, x_1, x_2 表示一系列观察值。第一级网络表示为 JEPA-1,使用低级表征执行短期预测。第二级网络 JEPA-2 使用高级表征进行长期预测。研究者可以设想这种类型的架构有许多层,可能会使用卷积和其他模块,并使用级之间的时间池来粗粒度的表示和执行长期的预测。使用 JEPA 的任何非对比方法,可以进行 level-wise 或全局的训练。
分层规划

分层规划比较困难,几乎没有解决方案,大多数都需要预先定义动作的中间词汇。图 16 显示了分层模式 2 规划的可能架构,该架构可以利用多尺度世界模型的分层特性。
图 17 表示了不确定情况下的分层规划阶段。

文章最后,LeCun 表示文中许多观点是多年来与不同研究者互动的结晶。了解更多内容,请查看原论文。
理论Yann LeCun通用人工智能
相关数据
动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

最优控制技术

最优控制是指在给定的约束条件下,寻求一个控制,使给定的系统性能指标达到极大值(或极小值)。它反映了系统有序结构向更高水平发展的必然要求。它属于最优化的范畴,与最优化有着共同的性质和理论基础。对于给定初始状态的系统,如果控制因素是时间的函数,没有系统状态反馈,称为开环最优控制,如果控制信号为系统状态及系统参数或其环境的函数,称为自适应控制。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~