2016/09/22 15:59

感知与行为相对论：用生成论搭建认知科学和强化学习之间的桥梁

AlphaGo 和其他类似的智能助手可能并没有字面意义上的物理实体，但是，它们拥有的是一种存在于虚拟增强学习环境中的虚拟身体。这种虚拟的具身化替身使得人工智能能够学习和生物一样的技能。

在认知科学领域，有很多互相竞争的理论框架，它们都试图来解释智能的行为。我个人特别喜欢的一方面是具身化（embodiment）/生成进路（enactive approach），这也是从法国的现象学家到现在的神经系统科学家也都认可的个体多样性研究方法。

身体和环境在认知、行为、有机体而非大脑的生成意义中占有中心支配地位，这也是使他们取得一致的关键。虽然这些想法涉及到许多认知科学和神经科学，但我们很少听到有人在关于人工智能的文章里讨论它们。我想要改变这一现状。

1-7BF8FhHA5fzGHulWYjAEHg(1).png

我最近读完了 Alva Noë 的 Action in Perception，他是生成论方法的提倡者之一。根据 Noë 所言，行为是认知的基础。作为智能生物，如果不能熟练地使用我们的感觉运动能力，我们将不能真正地拥有一套完整的感知经验。也是通过在特定环境里行为的方式，我们创造了这个感知的世界。这些技能都非常依赖于我们的身体，并且也存在着具身化影响力的理论。最近我一边研究增强学习算法一边看这本书，我不禁认为，这两个学科的方法是相互贯通的。

在人工智能的大环境中，身体和环境都不是触手可及的实体。对于每一个机器人或是自动驾驶汽车而言，我们日常遇到的基本都是一个无实体的 Siri 或其他聊天机器人。更有意思的是，我们创造了能够在围棋上打败世界冠军但并不拥有物理实体的 AlphaGo。（除非你认为服务器是它的物理实体，我不这样认为的原因会在另一篇文章里说明。）

在这篇文章中，我想要解释的是，虽然 AlphaGo 和其他类似的智能助手可能并没有字面意义上的物理实体，但是，他们拥有的是一种存在于虚拟增强学习环境中的虚拟身体。这种虚拟的具身化替身使得人工智能能够学习和生物一样的技能。

这是感知...... 然后，行为？

我们传统上都倾向于认为，人类大脑的不同分区是分别完成不同任务的。视觉系统对应视觉感知，另一些比较高级的部分则负责行为和计划，非常地教条主义。这被称为模块化的论点，并且我们可以经常在一些知名的媒体里碰到它。一旦有研究发现「大脑的某个区域负责某种行为」的时候，总会有一种假设认为，这块区域是独立于大脑其他区域的存在，而其他区域则相应地负责着其他的功能和行为。如果我们把它放在神经网络架构的框架下考虑，这有点类似于为视觉建立和训练一个网络，并且随后将其输出连接到另一个决策网络中。

这种研究认知和行为的方法非常的天真。

感知是为了行为

上面介绍的关于神经网络的两步大纲从未在现实世界中使用过，因为它们的效果并不是很好。作为替代的是，我们已经深度地使用了卷积神经网络，在这个网络种，决定和感知可以作为同一网络的一部分被训练。当得到足够的训练后，这些网络便能够非常精准地在对一个场景的物体进行识别。在这个层面上，卷积神经网络有一个特定的目的，并且它的目的是结果导向性的。

这些网络会在不断地学习中变得对可视化场景非常地敏感，尤其是当这些场景和待处理的任务相关的时候。它们不断增强对轮廓和较低亮度层的敏感度的学习，以及对人脸和高层形状的识别。轮廓和人脸不再只是这个网络场景中的中性特征，但它们对一个给定对象的潜在表示非常有意义。

1-GPQ9a3GVI7_nlv-rv5EH4w(1).png

激活模式存在于卷积神经网络的不同层中，比较高的曾经对物体更为复杂的属性有着更好的感知。

只有生物体需要识别物体、关心物体的轮廓或是可能区分一个物体不同于另一个物体的有意义标记。在神经网络中，这种情况发生的过程叫作 backpropogation。对于那些不熟悉的物体，backpropogation 会使用损失函数来定义在最高一层网络中一个给定样本的「错误」的决断是怎样做出的；随后，它会通过神经网络更新连接来向后发送信号，以便在下一次做决断时能够更加「正确」。通过 backpropogation 的训练过程，物体会在神经网络的最终曾被定义并影响之前的所有层。backpropogation 是一个伟大的想法，至少有那么一位在深度学习领域的前沿专家相信，它也可以促进大脑中的学习！

1-N1OTFiT2Iso3d1dTVTT8Jw(1).png

感知和行为以不同的方式存在于很多相同的信息中，他们不能被明确地划定。

当转向强化学习智能助手研究的时候，我们发现了同样的逻辑，甚至与 Noë 的论点更加惊人的相似。对于现在而言，我们的智能助理们总是存在与一个嵌入式环境中；并且，这些智能助理们也非常明确地在这个环境中使用着它们的行为感知。例如，AlphaGo 能够学会看懂围棋板，在某种程度上，它的目的是以直接有利于在比赛中的表现为结果，而不是以其他的方式。

在这个层面，智能助手学着通过特定的接触来理解世界。但它所学的不是一些对世界中立的表示并随之衍生的行为，而是学习一个从一开始便充满了意义的世界。这种关于人类经验的思考方法在哲学的现象级传统中有过一段历史。这些现象学家中的领导者，Maurice Merleau-Ponty 曾在近一个世纪前写道：

对于球员而言，足球场并不是一个「对象」，换句话说，理想的术语可以引起不确定的多重透视视角，并且，在其明显的转换下，它还能保持着相同的效果。它遍布着磁力线（就像足球场上的十二码线一样）并且通过扇形区来表达，这就要求一些特定的行为模式和一些行动指导，仿佛球员们意识不到它一样。场地本身不会告诉球员，但彼时他内心的实际意图会引导他的行为。这时球员会变成球场的一部分，例如，一旦他们在场上随机做出各种垂直或水平的动作时，他们立即会意识到进球的指引。这还不足以说明意识栖息于环境，而在此刻，意识只不过是辩证的环境和行为。球场上每个球员的行为都改变着场地的特征，同时，它们会建立新的磁力线，并且这些行为会转过来进行展现并完成，随后改变这个现象级的场地。—Maurice Merleau-Ponty (Structure of Behavior 1963)

Merleau-Ponty 指出，足球不是并不是存在一个所谓的「客观世界」。对于一个有经验的足球运动员而言，每个感知都是一开始的喜恶而来的。同时，这个领域基本上是面向行动的。而强化学习允许这种可能的存在，并且它也是这样做的，因为智能助手就是这样呈现。

现在对于智能助手而言可谓岌岌可危，因为每一个行为都被通过一个回报赋予了意义。下面是一张来自 Wang et al. 的论文里图像，它表明着智能助手们在一款名叫 Enduro 的游戏中「看见」了什么。右侧图像的红色区域表示这个网络看见了汽车前方区域有意义的行动。智能助手必须依靠躲避车辆来拿到高分，同样地，车辆也成为了智能助手的一个厌恶点。

1-bfzOo6JVUQDwUN12o8UwYA(1).png

Enduro 这个游戏被一个 RL 助手所操作。左侧的图像表明，这个智能助手对当前环境的感知为没有可行动的区域，而右侧的图像则表明当前汽车所要避开的东西。

行为是为了感知

Alva Noë 在他的书里面解释了很多深层次的东西，而不仅仅是「感知是为了行为」。在书中，他更多地阐述道，「行为是未来感知」。他的意思是，没有了行为，我们将不会对世界有任何真实有意义的经验。这本书也提出了探索行为如何使感知成为可能。

Noë 还提到，我们的视网膜图像在特定的时刻其实对我们提供的帮助非常小，它们实际所提供的功能实际上与我们对世界的经验并不相对应。我们看一眼碗这个物体会在我们的视网膜上创建一个椭圆的形象，但是这个椭圆的形象如何变成一个圆碗的认知呢？

为了回答这个问题，Noë 提出了感知运动技能的概念，它能使我们理解这个现象级的世界对我们以及我们生存环境改变的方式。因为我们能够沿着碗移动，并且能够看着它在周遭环境里移动，所以我们能够理解它是圆形的。通过建立这种感知运动技能，我们获得了定义世界的能力，否则，一切都会毫无意义。

1-eN8UA-2K_3hrYUmKijXn_w(1).png

当从任何给定角度观察时，一个碗会形成一个椭圆的形状，但由于我们具备感知运动技能，我们能将它感知为圆形。

当思考世界上更为复杂的行为时，这又会被带入到一个更加抽象的的层面。我们之所以有行为是为了有更好的感知，这会提高我们对世界的理解，因此，我们会增强我们的行为能力。

假象你想要找到一只走失的狗，你可能会怀疑它正藏在远处一辆车的后面。我们的认知是，通过在车的周围移动我们能够获得对车周边环境的新认知（即车的另一边和它所挡住的部分。）这种关于怎样在环境中发现新知识的技能是人类智能的关键方面。当我们研究现代人工智能的时候，我们发现这正是现在所缺的。

1-17xQ8jUJEP78XXUHC5kFlA(1).png

这种感知和行为的观点由生成论的思想家提出，这两方面相互构成并形成交叉。

现在的强化学习方法经常会被短视的智能助理所限制。如果它们不能看的怎样获得回馈或者得到一个特定的信息，它们便几乎失去了在一个更好的环境中理解自己所需的能力。它们有能力从根本上看的基于感知的行动，但它们缺乏有效地利用这些行为来发现新感知的能力。现在的强化学习研究群体还没有意识到这个不足，但事实上，它是一个非常活跃的研究领域，即使研究者没没有将它正式地称作「行为感知」。

这些方向上目前的研究

得到能考虑不能直接带来益处的但具有能带来更大奖励的可能性的经历的强化学习代理的基本问题已经以多种方式得到了解决。其中首要的一个问题是发现奖励探索其环境的代理的方式。这些方向的思想是通过鼓励探索，代理会遇到允许带来更大奖励的新型环境。这方面的有一些研究试图为探索开发不同类型的奖励。这种奖励的尺度通常被认为需要达到足以让探索新环境的代理惊讶的水平。

对于这样的一般定义，存在一些计算惊喜因子（surprise factor）的方法。一个研究团队使用的方法是确定代理对自己行动的预期奖励与真实奖励之间的差异。通过探索他们所称的 Prioritized Replay（点击「阅读原文」下载相关论文），代理可以更频繁地在可能产出预期之外的奖励的经历上进行训练。

另一种方法是分层规划（Hierarchical Planning）。其中的基本思想是开发能够学习将任务分解成更小的子任务的代理。这种方法是在代理完成一项必需的子任务后就给予奖励，而非固有地奖励它们自身，这让该代理可以以一种能够发现能带来新类型的行动的感知的方式采取行动。研究者已经使用这种技术构建了一个代理，其可以在 Atari 游戏《蒙特祖玛的复仇》上得到良好的表现。这个游戏对传统的强化学习很困难，因为该代理必须找到每个房间的锁的钥匙以得到奖励。这对我们来说可能听起来挺简单，但其涉及到在得到奖励前执行一系列有目的的行为。

1-jySIBP9aR1oDzLmwbUXsVg(1).png

《蒙特祖玛的复仇》对许多强化学习代理而言尤其困难，因为奖励仅在许多之前的有目的的行为之后出现。在每一个房间，该代理都有需要取得一把钥匙打开一扇门，之后才能得到奖励。

尽管所有这些领域都是很有前途的方法，但对于社区来说还没有什么让人「豁然开朗」的方法。我们目前还不清楚可以如何让行为以一种自然的和通用的方法影响感知——就像神经结构中的「感知→行为」关系那样直观。但所有这些方向的研究目前都还处于起步阶段，而且我们也有一点怀疑我们能否在某一天发现这种方法。这种能力本质上对世界上的生物的生存是至关重要的，而且也是未来人工智能的关键。

原文地址：Bridging Cognitive Science and Reinforcement Learning Part 1: Enactivism

入门强化学习产业认知科学观点