大数据文摘翻译

2018/11/27 18:03

王缘缘、ZoeY、杨威、张弛、钱天培编译

NLP年度盛宴EMNLP/CoNLL 2018最精彩论文精选（摘要+评论）

EMNLP和CoNLL大会堪称自然语言处理（NLP）领域的年度盛宴。

每年，全球最顶尖的NLP研究者们会在这两个大会上展示最前沿的NLP科研成果。然而，动辄上千篇的论文却令很多关注NLP领域最新动态的小伙伴望而却步。

幸运的是，来自亚利桑那大学的NLP研究者Mithun Paul 精心挑选出了20余篇精彩论文，并逐一作出评价。

EMNLP和CoNLL 2018究竟出现了哪些重量级作品？让我们跟着Mithun的名单一起来读。

CoNLL

利用对抗正则化后的神经网络自然语言推断模型（NLI）来整合逻辑背景知识

https://aclanthology.coli.uni-saarland.de/papers/K18-1007/k18-1007

摘要：对抗样本作为机器学习模型的输入，旨在使模型出错。对抗样本有助于我们理解机器学习模型的缺点，并帮助我们找到对模型的合理性解释以及对模型正则化的方法。但是在NLP中，大多数样本的生成策略是通过使用已知的、预先指定的语义转换来生成输入文本，这就需要大量的人工操作，并且深入理解研究的问题和数据集。

在本文中，我们研究了在自然语言推断（NLI）中如何自动生成对抗样本，并保证这些样本违反给定的一阶逻辑约束。我们通过最大化度量违反约束条件的程度以及使用语言模型，来生成语句合理的样本，将识别这种对抗样本的问题转化为到组合优化问题。在此基础上，我们提出了对神经自然语言推断模型进行对抗正则化来整合背景知识的方法。结果表明，虽然所提出的方法并不总能改善SNLI和MultiNLI数据集的结果，但它显著并持续地提高了对抗数据集的预测准确性 - 相对改善高达79.6％ - 同时大幅减少违反背景知识的数量。此外，我们展示了对抗样本在模型体系结构之间转移，并且所提出的对抗性训练过程提高了NLI模型对对抗样本的鲁棒性。

评论：将FOL规则纳入到基于神经网络的NLI模型训练过程是个巧妙的想法。他们在损失函数的正则化中添加了“不一致性损失”项，用于衡量违背规则的程度。

BlackboxNLP专题讨论会

非常棒的专题讨论会。这个专题讨论会的会议记录如下：

http：//aclweb.org/anthology/W18-5400

通过稀疏注意机制得到可解释的结构归纳法

http://aclweb.org/anthology/W18-5450

评论：通过强化神经网络产生稀疏概率使得神经网络更具可解释性，这可以追溯到输入中最相关部分。

理解基于卷积神经网络的文本分类

https://arxiv.org/pdf/1809.08037.pdf

摘要：本文分析了卷积神经网络（CNNs）处理文本的内部工作原理。用于计算机视觉的CNN可以通过将滤波器(filter)投影到图像空间来解释，但对于离散序列输入，CNN仍然无法很好的解释。我们的目标是理解网络处理和文本分类的方法。本文研究了以下问题的常见假设：将滤波器(filter)和全局最大池化层(max-pooling)一起用作ngram检测器。本文发现filter可以通过使用不同的激活模式捕获ngrams的一些不同语义类，并且max-pooling会将关键的ngrams与其余ngrams分开。最后，本文以模型可解释性和预测可解释性（解释预测）的形式展示了研究结果中的实际用例情况（通过给每个过滤器推导出具体标识来解释已训练的模型，增加中可视化工具和NLP之间的联系）。

评论：确定CNN背后相关的n-grams。直观上来说，涵盖信息的n-grams是根据它和相应的卷积滤波器的相关性来选择的。

利用规则归纳法对训练模型进行全局解释

https://arxiv.org/abs/1808.09744

摘要：了解已训练网络的行为并为其输出的找到合理性解释，这对于提高网络的性能和泛化能力，以及确保在自动化系统中正常运行非常重要。了目前有一些方法，是通过分析已训练的网络来识别和可视化最重要的特征。但是在大多数情况下，不同特征和类别之间的关系都会丢失。本文提出了一种技术用来归纳if-then-else规则集，这个规则集能捕获特征类别之间的关系，进一步地在全局范围内解释网络的预测。我们首先计算已训练网络中特征的重要性。然后，我们利用这些特征重要性得到的分数来衡量原始输入，并且简化变换后的输入空间，最后拟合规则归纳模型来解释模型预测。我们发现输出规则集可以成功解释包含4个类别的文本分类的神经网络预测结果，这4个类别的文本分类样本包括从20个新闻组数据集到0.80的宏观平均F分数。

评论：与我们的“Snap to Grid”论文类似的想法。但他们最后还有额外的一步——从重要的特征中归纳出规则模型。

你应该问多少？关于问答系统中的问题结构

https://arxiv.org/pdf/1809.03734.pdf

摘要：数据集能够提升问答（QA）系统中的回答质量，这证明我们可以用自然语言方式提问。但是，目前用户仍然习惯用类似查询的系统，这样的系统支持用户输入关键字来搜索答案。在本次研究中，我们验证问题中哪些部分对于获得有效答案至关重要。为了说明这一点，我们利用了LIME——一种通过局部近似来解释预测的框架。我们发现QA不支持语法和自然语言。即使只有几个单词，最新模型就可以利用高效计算的LIME做出正确的回答。据我们所知，这是LIME首次解释QA模型。

评论：将SQUAD问题中的文本减少到1或只是几个单词，DrQA仍然有效......

它关心你问什么吗？理解动词在深度学习QA系统中的重要性

https://arxiv.org/abs/1809.03740

摘要：本文提出了在SQUAD数据集上训练的深度学习QA系统中，动词重要性调查的结果。我们证明问题中的主要动词对系统做出的决定几乎没有影响 - 超过90％的研究案例表明用动词的反义词做替代并没有改变系统决策。我们追踪这种现象到网络的内部，分析self-attention的机制和RNN隐藏层中包含的值。最后，我们认识到SQuAD数据集的特征是问题的根源。我们的研究参考了最近流行的NLP中的对抗样本，同时还结合了深层网络结构的研究。

评论：在SQUAD问题中打乱动词并没有改变答案......

枪械和老虎是危险的，菜刀和斑马不是：测试词嵌入向量（Word Embedding）是否可以分辨这些词语

https://arxiv.org/abs/1809.01375

摘要：本文提出了一种通过word embedding方法来捕获语义信息的性质的研究方法。我们提出了一种方法，使用群体判断得到的大量负样本，扩展了现有人为引用的语义属性数据集。我们的实验方法测试了监督分类器识别词嵌入向量中的语义特征的能力，并将其与基于全矢量余弦相似度的特征识别方法进行比较。这种方法背后的想法是通过embedding获得的属性是由分类器识别的，而不是通过全矢量比较识别的。如果一个属性无法被任何方法所识别，那么它就不是一个真正的属性。我们的研究结果初步表明，与实体交互方式（例如危险）相关的语义属性会被捕获，而表示感知信息（例如，颜色）则不会。我们初步得出结论我们的方法适用于识别哪些属性是可以被embedding捕获的。

评论：研究哪些属性是可通过简单的word-embedding捕获的。术语："diagnostic classifier"(诊断分类器”)

EMNLP Day 1

添加常识性知识推理行为与状态变化

http://aclweb.org/anthology/D18-1006

摘要：理解程序文本，例如描述光合作用的段落，需要建模及其产生的状态变化，以便回答不同时间点的实体的问题。虽然最近几个系统在这项任务中取得了令人瞩目的进展，但它们的预测可能是全局不一致或极不可能的。

在本文中，我们展示了如何通过两种方式改进段落上下文中的行为的预测效果：（1）通过结合全局，常识约束（例如，不存在的实体不能被销毁），以及（2）通过偏好阅读大型语料库（例如，树不移动）。与早期方法不同，我们将问题视为神经结构预测任务，允许硬约束和软约束来引导模型远离不太可能的预测。结果表明，在文本理解上，新模型在基准数据集上明显优于基础系统（+ 8％相对增益），并且它还避免了早期系统所做的一些无意义预测。

评论：过程问题的问答，也就是说，答案是一系列的动作。可以将其视为结构化预测，用常识性知识精简搜索空间，反过来可以从大型语料库中提取常识性知识。这种方法类似于一个完整过程中的内存网络

收集多样化的自然语言推断问题进行句子评价

http://aclweb.org/anthology/D18-1007

论文摘要：我们呈现了一个体量很大的自然语言推断数据集，这些数据集可以帮助我们了解一个句子的表达是如何得到不同类型的推断。这个集合是通过将7种语义现象中的13个现有数据集重铸成一个通用的NLI（自然语言推断）结构而得到的，总共产生了超过50万个标记好的文本与假设对。我们将这个集合称为“DNC”（多样化的自然语言推断集合），你可以在http://www.decomp.net网站上查看，我们会不断完善和拓建这个集合。

评论：一个多样化的自然语言推理数据集。如果你在自然语言推理领域工作，值得好好读这篇论文，并应用到工作中。

短语索引的问答任务：可拓展文档阅读理解的新挑战

http://aclweb.org/anthology/D18-1052

论文摘要：我们将文档编码器从问题编码器中分离，组建了一个新的问答任务模块。这对于机器阅读理解是一个关键性的挑战，它要求文档对话内容独立表示出来。我们发现这样设置可以使问答任务具有明显的可伸缩性优势，因为待选答案的编码结果可以被提前计算出来，并离线建立索引，提高检索效率。我们用基线模型对新任务进行了检验，结果表明，虽然该模型的正确率在可接受范围内，但却明显低于无约束的问答模型，所以我们在问答研究项目论坛发布了任务，邀请大家一起参与短语索引问答项目（PIQA，pika），希望可以提高这个新模型的正确率。请查看：nlp.cs.washington.edu/piqa

评论：只检索短语（NPs和NEs）而不是整篇文档。为每个短语生成编码，并使用与问题向量最近的作为答案。这篇论文不错，但这个模型目前表现还不是很好。

通过段落排序提高开放域问答中的答案提取效能

http://aclweb.org/anthology/D18-1053

论文摘要：最近，开放域问答通过与机器理解模型结合的形式，从大规模知识集中寻找答案。开放域问答需要从文本语料库中检索相关文档来回答问题，其性能在很大程度上取决于文档检索器的性能。然而，由于传统的信息检索系统不能有效地获取可能包含答案的文件，这降低了问答系统的性能。，单纯提取更多数量的文档也会增加不相关文档的数量，也会降低问答系统的性能。本文引入了段落排序器，它对检索到的文档的段落进行排序并获得了更高的召回率。我们在四个开放域问答数据集中对段落进行排序并使用段落排序器聚合答案，结果平均提高了7.8%。

评论：在问答系统中训练段落排序器。局限性：段落排序器受到监督；只关注简单的问题（它在复杂的问答问题上表现得怎么样？）；专注于在段落排序过程中提高答案提取效率（我们是否应该关注F1）？

深度问答自适应文档检索

http://aclweb.org/anthology/D18-1055

论文摘要：目前最流行的深度问答流程如下：（1）初始文档检索相关文档；（2）用神经网络进行处理，提取最终答案。然而，人们对这两个组件之间的相互作用知之甚少，特别是关于候选检索文档的数量。我们发现，选择数据固定的文档（正如我们先前研究中使用的那样）会导致信息淹没在噪声中，产生不理想的结果。因此，我们提出了一种自适应文档检索模型，它将根据语料库和查询量的大小确定最佳候选检索文档数量。我们进行了多次实验，结果显示我们的自适应方法在多个基准数据集上的表现优于目前最流行的方法，以及在不同量级的语料库中也是如此。

评论：这个主意不错，根据我们对IR系统的信心确定QA问题的候选检索文档数量（信心越大，候选检索文档越少）。很棒，但是它把IR系统当成了一个黑盒了。

一种基于上下文的深度神经网络句子层次分类方法

http://aclweb.org/anthology/D18-1107

论文摘要：在句子分类任务中，被分类的句子与相邻的句子所构成的上下文可以为分类提供重要的信息。然而，这个语境却经常被忽略。有的方法虽然使用语境，但范围受到局限，很难评价效果好坏。我们提出了一种新的句子分类方法，Context-LSTM-CNN，它尝试大范围使用上下文。该方法也利用了被分类的句子中的远程依赖关系，使用LSTM，短时特性，以及堆叠式CNN。我们的实验表明，在两个不同的数据集上，这种方法比以前的更胜一筹。

评论：一种很有效的编译大范围上下文的方法（例如，进行句子分类时，对句子所在的整个文档进行编码）。用FOFE编码（固定长度依次遗忘编码）会很高效。如果你需要使用大量文本来进行句子分类，请阅读本文。

RESIDE：利用辅助信息改进远程监督的神经关系提取

http://aclweb.org/anthology/D18-1157

论文摘要：远程监督的关系提取（RE）方法通过将知识库（KB）中的关系实例与非结构化文本自动关联来训练提取器。除了关系实例之外，知识库通常包含其他相关的辅助信息，例如别名之间的关联关系（例如，创立和联合创立，实际上都是公司创始人）。

关系提取模型经常忽略这些现成的次要信息。在本文中，我们提出了一种远程监督神经关系的提取方法，叫做RESIDE，它利用知识库中的次要信息改进关系提取的结果。它同时使用实体类型和别名关联信息进行软约束，在预测关系时双重保险。RESIDE方法使用图形卷积网络（GCN）从文本中对语法信息进行编码，这样即使次要信息数量有限，也可以保证效率。通过对基准数据集的大量实验，我们证明了RESIDE方法的有效性。我们已经公开了RESIDE方法的源代码，希望可以鼓励后续研究。

评论：远程监督关系提取的新方法，使用知识库中的相关关系别名，将PCNN与图形卷积网络（GCN）连接起来。

EMNLP会议第2天

QuAC：语境中的问答

http://aclweb.org/anthology/D18-1241

论文摘要：在这篇论文中我们研究了QuAC，一个用于语境问答的数据集，它包含1.4万个信息搜索问答对话（总共10万个问题）。这些对话涉及两个群体：（1）一个学生提出一系列自由式问题，以便尽可能多地学习隐藏在维基百科文本的词法；（2）一个教师用文本中的简短片段来回答问题。QuAC发现了一个现有机器阅读理解还没有遇到的挑战：它的问题往往是更开放的、无法回答的，或者只有在对话文本语境中才有意义，我们会在本文中展示一个详细的定性评估。我们也研究了一些参考模型的结果，包括最近的最流行的被用于建立对话语境模型的阅读理解架构。我们最好模型的F1仍然比人类的表现差了20 个点，这表明在这些数据上还有很大的研究空间。数据集、基线和排行榜可在以下网址查看：http://quac.ai

评论：对话式问答的新数据集。

从释义中学习标量形容词强度

http://aclweb.org/anthology/D18-1202

论文摘要：诸如“温的”、“热的”和“滚烫的”等形容词都在描述温度，但强度不同。理解形容词之间的这些差异是自然语言推理的必要部分。我们提出了一种新的基于释义的方法，来学习一对标量形容词之间的相对强度关系。我们分析了超过3.6万个释义数据集中的形容词对，其中有一些假设逻辑，例如，将“真的热”和“滚烫的”配对，可以判断出“热的”的强度要弱于“滚烫的”。实验证明，将这种释义结果与现有的、互补的基于模式和词汇的方法相结合，可以提高自动排序标量形容词集的系统质量，并推断出是/否问题的间接回答的极性。

评论：从释义中学习形容词的排序。

MemoReader：神经记忆控制器实现大规模阅读理解

http://aclweb.org/anthology/D18-1237

摘要：机器阅读理解帮助机器学习以文本形式为载体的大部分人类知识。虽然目前存在的方法与人类水平表现相比取得了重大的进步，但这些方法仍受限于理解力，往往不能正确理解连续几段的冗长文章。在本文中，我们提出了一种新的深度神经网络架构来处理RC任务中的远程依赖(LRD, long-range dependency)问题。具体来说，我们提出的方法有两个方面的创新：（1）先进的存储器增强架构（2）密集连接的扩展门循环单元——用于降低内存中发生的潜在信息失真的情况。此架构同样适用于其他模型。我们利用知名的基准数据集（如TriviaQA，QUASAR-T和SQuAD）进行了大量实验。实验结果表明，该方法的性能表现优于现有方法，特别是在处理冗长文档方面效果更为明显。

评论：扩展记忆网络更擅长阅读理解。

交叉对文本表示用于问答系统答案句的选取

http://aclweb.org/anthology/D18-1240

摘要：高级语义任务涉及文本对的建模，例如释义、文本含义或问答。在神经网络出现之前，主要是使用内部文本对的特征来实现的，其中包含在同一文本对之间相似性得分或重写计算规则。在本文中，我们计算表示不同文本对间向量表达相似性之间的标量积，而不是简单地为每个文本对使用单个向量。这让我们可以获得特定的任何一对文本的表示，能提供最好的句子回答。最重要的是，我们的方法比基于神经网络的更复杂的算法还要好。

评论：kernels对QA依然非常有效。.

使用图状态LSTM的N元关系提取方法

http://aclweb.org/anthology/D18-1246

摘要：跨句关系提取用于检测多个句子中n个实体之间的关系。常规的方法是将输入表示为文档图，文档图包含了各种句内和句子间依赖关系。当前最先进的方法是将输入图分成两个DAG，每个DAG采用DAG结构的LSTM。虽然能够通过利用图形边缘来模拟丰富的语言知识，但是在分割过程中可能会丢失重要信息。我们提出了一个图形状态LSTM模型，它使用并行状态来模拟每个单词，通过消息传递方式反复丰富状态值。与DAG LSTM相比，我们的图形LSTM保留了原始图形结构，并通过允许更多并行操作来提升计算速度。在基准测试中，我们的模型相比文献中的各种方法取得了最佳结果。

评论：随时间监视句子中的每个词是处理图LSTMs的一个很好的想法。应用于nary关系的提取。

神经关系分类体系架构的大规模探索

http://aclweb.org/anthology/D18-1250

摘要：使用深度神经网络体系架构，关系分类任务的实验性能得到了普遍提升。研究报告的一个主要缺点是，由于个别模型在非常有限的数据集范围内进行的评估，难以和参考方法进行性能比较，引发了对架构适应性的质疑。在这项工作中，我们基于六个基准数据集的不同特征展示了对神经关系分类架构的大规模系统分析，提出了一种多通道LSTM模型与CNN相结合的新方法，它充分利用了当前所有流行语言和架构特征。我们的“Man for All Seasons”方法在两个数据集上取得了最优的性能。更重要的是，在我们看来，该模型使我们能够直接了解神经语言模型在此任务中面临的持续挑战。示例数据和源代码可从以下网址获得：https：//github.com/aidantee/ MASS。

评论：该文章做的工作是：结合了特征，WordNet信息，POS标签和Fastext的新颖word embedding方法。常规的方法有：position embeddings，biLSTMs，CNNs。

盔甲可以导电吗？一个开卷问答的新数据集

http://aclweb.org/anthology/D18-1260

摘要：我们提出了一种新的问答数据集，OpenBookQA，以开放式书籍评测为模型，用于评估人类对主题的理解。我们的问题附带的开放式书籍是一套1326个基础科学事实。大约6000个问题探讨了对这些事实及其在新场景中应用的理解。这需要将开放式书籍事实（例如，金属能导电）与从其他来源获得的普遍常识（例如，一套盔甲由金属制成）结合起来。

虽然建立在文档或知识库上现有的QA数据集通常是独立的，专注于语言理解，但OpenBookQA对常识内容的主题和所需表达的语言进行了更深入的理解。OpenBookQA的人类表现接近92％，但是许多最先进的预训练QA方法的表现出奇差，比我们开发的几个简单的神经基线还差。我们的实验目的是避免知识检索瓶颈，同时展示了开放式书籍和其他事实的价值。目前，我们将其作为一个挑战，来解决这个多跳设置中的检索问题并尝试缩小与人类表现的巨大差距。

评论：一个很好的自由文本语言推理数据集。

深度概率性逻辑：间接监督的统一框架

http://aclweb.org/anthology/D18-1215

摘要：由于深度学习表现出的出色的学习能力，已成为各种NLP任务的通用工具。但是它的适用性受到了注释样本的依赖限制，因为这些样本难以大规模产生。间接监督已经成为解决这一瓶颈的最有希望的方法，要么通过引入标签函数来自动生成未标记文本的噪音样本，要么通过对相互依赖的标签决策施加约束。虽然目前已经提出了许多解决这一问题的方法，但是每种方法都有各自的优点和局限性。

概率逻辑提供了一种统一的语言来表示间接监督，但由于其难以推理和学习，因此使用概率逻辑的端到端建模通常是不可行的。在本文中，我们通过结合深度学习和概率逻辑，提出以深度概率逻辑（DPL）作为间接监督的通用框架。DPL模型将决策标记为隐变量，使用加权的一阶逻辑公式表示其关系的先验知识，并在深度神经网络和细化间接监督中不确定公式权重之间交替使用EM算法。该框架将此前的间接监督方法作为特殊情况包含在内，并通过输入丰富的领域和语言知识实现新的组合。生物医学机器阅读的实验证明了这种方法的前瞻性。

评论：将逻辑推理与深度学习相结合！

生成自然语言对抗样本

http://aclweb.org/anthology/D18-1316

摘要：深度神经网络（DNN）对对抗样本的表现极为敏感，如果对正确分类的样本的加入细微扰动就可能导致模型错误分类。在图像领域，这些扰动通常人类感知无法分辨，导致人类和最先进的模型都束手无策。然而，在自然语言领域中，细微扰动是明显可感知的，而且单词的替换可以极大地改变文档的语义。

鉴于目前存在的挑战，我们使用基于黑盒子群体的优化算法来生成语义和语法相似的对抗样本，这些样本“欺骗”经过良好训练的情绪分析和文本内容模型，成功率分别达到了97％和70％。我们还证明了92.3％的成功的情绪分析对抗样本被20个人类注释者归类为原始标签，并且这些样本明显非常相似。最后，我们讨论了使用对抗训练作为“防御者”的尝试，但未能产生性能改善，表明了我们的对抗样本的“抵抗力”和多样性。我们希望研究结果能够鼓励研究人员在自然语言领域提升DNNS的鲁棒性。

评论: 生成有意义的对抗样本好方法。

最后，你可以在下面的链接找到EMNLP和CoNLL2018的全部论文。

EMNLP：https：//aclanthology.coli.uni-saarland.de/events/emnlp-2018

CoNLL：https：//aclanthology.coli.uni-saarland.de/events/conll-2018

大数据文摘

秉承“普及数据思维，传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术，形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论NLPEMNLP 2018论文

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

关系提取技术

关系抽取任务需要检测和分类一组工件中的语义关系提及，通常来自文本或XML文档。该任务与信息提取（IE）的任务非常相似，但是IE另外需要去除重复关系（消歧），并且通常指的是提取许多不同的关系。

来源：A Review of Relation Extraction Wikipedia

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

最大池化技术

最大池化（max-pooling）即取局部接受域中值最大的点。

来源：百度百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

先验知识技术

先验（apriori ；也译作先天）在拉丁文中指“来自先前的东西”，或稍稍引申指“在经验之前”。近代西方传统中，认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验，比如，数学式子2+2=4；恒真命题“所有的单身汉一定没有结婚”；以及来自纯粹理性的推断“本体论证明”

来源：维基百科

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

答案提取技术

答案提取是问答系统（QAS）实现的最后一步。它首先接收上一个模块中得到的段落信息，对其进行短语提取，生成备选答案集，然后根据一定的算法从备选答案集中提取出最佳答案。

来源：UTOMO, F. S., SURYANA, N., & AZMI, M. S. (2017). QUESTION ANSWERING SYSTEM: A REVIEW ON QUESTION ANALYSIS, DOCUMENT PROCESSING, AND ANSWER EXTRACTION TECHNIQUES. *Journal of Theoretical & Applied Information Technology*, *95*(14)

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本，它们看上去与真实样本的几乎相同（无法用肉眼分辨），但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

来源：Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

隐变量技术

在统计学中，隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

来源：维基百科

WordNet技术

WordNet是由普林斯顿大学心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列，而是按照单词的意义组成一个“单词的网络”。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题（vanishing gradient problem over backpropagation-through-time)，重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳，是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能，LSTM经常被用在具有时间序列特性的数据和场景中。

来源：Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例，使用者不需要思考该使用什么样的问法才能够得到理想的答案，只需要用口语化的方式直接提问如“请问谁是美国总统？”即可。而系统在了解使用者问句后，会非常清楚地回答“奥巴马是美国总统”。面对这种系统，使用者不需要费心去一一检视搜索引擎回传的网页，对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看，问答系统使用了大量有别于传统资讯检索系统自然语言处理技术，如自然语言剖析（Natural Language Parsing）、问题分类（Question Classification）、专名辨识（Named Entity Recognition）等等。少数系统甚至会使用复杂的逻辑推理机制，来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上，除了传统资讯检索会使用到的资料外（如字典），问答系统还会使用本体论等语义资料，或者利用网页来增加资料的丰富性。

来源：维基百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科