2019/05/29 15:48

结合符号主义和深度学习，DeepMind提出新型端到端神经网络架构 PrediNet

符号主义和连接主义是人工智能领域中的两大流派。符号主义（Symbolism）是一种基于逻辑推理的智能模拟方法，又称为逻辑主义 (Logicism)、心理学派 (Psychlogism) 或计算机学派 (Computerism)，其原理主要为物理符号系统（即符号操作系统）假设和有限合理性原理。符号主义认为人工智能起源于数理逻辑，人类认知（智能）的基本元素是符号（symbol)，认知过程是符号表示上的一种运算。连接主义 (connectionism)，又称为仿生学派 (bionicsism) 或生理学派 (physiologism)，其主要原理为神经网络及神经网络间的连接机制与学习算法。

人工智能发展早期，符号主义占据主要地位。而 20 世纪 90 年代后连接主义发展迅猛，其代表方法是神经网络，利用多层神经网络的深度学习当然属于连接主义。

符号主义和连接主义的关系很微妙，关于二者的争论也很多。然而 DeepMind 最近的一项研究将符号人工智能和深度学习结合起来，取二者之长，提出了一种新型端到端神经网络架构 PrediNet。

PrediNet 可以通过学习形成命题表征（propositional representation），该表征具备来自原始像素数据的显式关系结构。为了评估和分析该架构，DeepMind 研究者使用了一组简单的视觉关系推理任务，这些任务复杂度各不相同。实验结果表明，新架构在此类任务上进行预训练时，能够学习生成可重用的表征，从而在新任务上取得了比基线模型更好的后续学习效果。

通用、可重用表征的重要性

人类在面对新问题时，能够有效地利用之前的经验来做参考，而那些经验虽然与现在的问题看似大相径庭，但在更抽象、结构化的层级上是有相似之处的。人类的这一能力对于终生持续学习是必要的，并且它使人类具备数据有效性（data efficiency）、迁移学习能力和目前机器学习无法匹敌的泛化能力。而设计能够学习构建通用、可重用表征的系统这一挑战集聚了以上所有问题。这类表征是通用且可重用的，因此其所包含信息的应用领域超出其来源语境。

此类表征能够提升数据有效性，因为已经了解如何构建新任务相关表征的系统无需再从头学习新任务。理想情况下，高效利用此类通用、可重用表征的系统应该与构建此类表征的系统相同。此外，在使用此类表征学习解决新任务的过程中，我们应该期望该系统能够进一步学习本身即通用且可重用的表征。因此，除了系统学习的第一批表征以外，系统的其他所有学习实际上都是迁移学习，学习的过程是累积、持续的，而且是终身学习的过程。

如何创建能够学习构建此类表征的系统？

构建此类系统的一个方法是从经典的符号人工智能 [9] 吸取灵感。经典符号人工智能系统基于一阶谓词演算（first-order predicate calculus）的数学基础而构建，它将逻辑推论规则应用到语言命题表征中，后者的元素是对象和关系。由于命题表征是陈述式的，且结构是组合式的，因此它们自然而然地具备泛化性和可重用性。但是，与目前的深度学习系统不同，用于经典符号人工智能的表征通常不是从数据中学习得到的，而是手动获取的。

DeepMind 的这项研究旨在将经典符号人工智能和深度学习结合起来，它使用的是一个端到端可微神经网络架构 PrediNet，该架构基于命题关系先验而构建，这与卷积网络基于空间和位置先验而构建类似。

PrediNet 架构借鉴了近期的多项研究，如学习发现和利用关系信息的 non-local 网络架构 [25]、关系网络 [22, 18]，以及基于多头注意力的架构 [24, 26]。但是，这些架构生成的表征不具备显式结构。通常，从表征的部分到符号方法（如谓词演算）的常见元素（如命题、关系和对象）之间是没有直接映射的。这些元素散落在嵌入向量中，很难解释，从而使得下游处理很难利用语义合成性（compositionality）。而 DeepMind 提出的新架构 PrediNet 学习到的表征部分可以直接映射到命题、关系和对象。

模型架构

PrediNet（图 1）可以看做一个三阶段的流程：注意力、绑定（binding）和评估。注意力阶段选择感兴趣的对象对；绑定阶段利用所选的对象对，实例化一组三位谓词（关系）的前两个参数；评估阶段计算每个谓词的剩余（标量）参数的值，以使得出的命题为真。

图 1：PrediNet 架构。注意力头共享权重 W_K 和 W_S，而 W_Q1 和 W_Q2 对每个注意力头是局部的。

实验

实验设置

该研究的实验目标包括：1）验证 PrediNet 架构可以学习通用、可重用表征的假设；2）如果假设成立，探索假设成立的原因。为了达成这些目标，研究者设计了一系列可配置的简单分类任务，统称为 Relations Game。

图 2：Relations Game 对象集和任务。（a）来自训练集和留出测试集的示例对象。（b）共有五种可能的行/列模式。在多任务设置中，识别每一种列模式是一个单独的任务。（c）用于单任务设置的三个示例任务。（d）用于多任务设置的示例目标任务（左）和课程（curriculum，右）。

为了评估 PrediNet 生成表征的通用性和可重用性，研究者将实验分为四个阶段，其中，1）该网络在一个或多个任务的课程上进行预训练；2）输入 CNN 和 PrediNet 中的权重都是固定的，但输出 MLP 中的权重根据随机值进行重新初始化；3）该网络在一个新的目标任务或一组任务中进行重新训练（如图 3 所示）。

图 3：用于多任务课程训练的四个实验步骤。

实验结果

在研究通用性和可重用性之前，研究者先探索了 PrediNet 架构在单任务 Relation Game 设置中的数据有效性。结果取自 5 项任务：「same」、「between」、「occurs」、「xoccurs」和「colour / shape」，如表 1 所示。

表 1：在单任务 Relation Game 设置中的数据有效性。

接下来，遵循图 3 所示的实验步骤，研究人员将 PrediNet 学习可重用表征的能力与每个基线进行了对比。他们研究了一系列目标任务和预训练课程任务的组合。图 4 展示了在这些组合中的发现。

图 4：多任务课程训练。目标任务是一个三列模式（AAB、ABA 和 ABB），唯一的课程任务是「between」。

图 5 展示了更大范围的目标任务/课程任务组合，主要关注步骤 3 中的学习曲线。

图 5：通过一系列目标和预训练任务学得表征的可重用性。

为了更好地理解 PrediNet 的操作，研究者还给出了一些可视化图（图 6a）。为了研究 PrediNet 如何编码关系，研究者再次在单任务设置中，对多个已训练网络中心模块输出向量的每个头进行主成分分析（PCA）（图 6b）。

图 6：（a）PrediNet 前四个头的注意力热图。（b）主成分分析（PCA）。

论文链接：https://arxiv.org/pdf/1905.10307.pdf

理论符号主义深度学习DeepMindPrediNet

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

物理符号系统技术

物理符号系统又叫做符号的实体集合构成，它是一台随时间运行处理符号集合结构体的机器。物理包括了两个重要的特征：这个系统严苛遵从物理规律-系统是由工程系统和工程元件构成，所以这个系统是稳定的；尽管使用符号这个词来表明我们原来的意图，当系统并不局限于人类符号系统。所谓符号就是模式。任一模式，只要他能与其他模式相区别，就是一个符号。对符号进行操作就是对符号进行比较，从中找出相同的和不同的符号。物理符号系统的基本任务和功能就是辨认相同的符号和区别不同的符号。为此，这种系统就必须能够辨别出不同符号之前的实质差别。符号既可以是物理符号，也可以是头脑中的抽象符号，或者是电子计算机中的电子运动模式，还可以是头脑中神经元的某些运动方式。一个物理符号系统包含了很多主体，这些主体被称作符号，符号是物理发生在当主体的另外一种类型的组件发生的模式，也叫做表达或者符号结构体。因此一个符号结构体就是关于某一个物理物理方式相关的符号的集合。在任意一个时刻，系统都包含了由许多系统结构组成的集合。除了这些结构意外，系统还包括了用来产生其他表达的操作过程，这些操作包括创造，修改，再生产和销毁。

来源：Newell, A., & Simon, H. A. (2007). Computer science as empirical inquiry: Symbols and search (p. 1975). ACM.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

学习曲线技术

在机器学习领域，学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

来源：Wikipedia

逻辑推理技术

逻辑推理中有三种方式：演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

来源：Wikipedia

表征学习技术

在机器学习领域，表征学习（或特征学习）是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前，机器学习研究人员需要利用手动特征工程（manual feature learning）等技术从原始数据的领域知识（domain knowledge）建立特征，然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效，但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点，它使得机器不仅能学习到数据的特征，并能利用这些特征来完成一个具体的任务。

来源：Wikipedia

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

主成分分析技术

在多元统计分析中，主成分分析（Principal components analysis，PCA）是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。由于主成分分析依赖所给数据，所以数据的准确性对分析结果影响很大。

来源：机器之心维基百科