2019/08/23 11:10

学术君作者

不容错过！ACL 2019论文解读合集！

第57届国际计算语言学协会年会（ACL 2019）已于本月初在意大利佛罗伦萨闭幕。作为自然语言处理（NLP）领域的国际顶级学术会议，自1962年成立之初，ACL就一直致力于推动计算语言学及自然语言处理相关研究的发展和国际学术交流。

本次会议创下了国际NLP顶会的新纪录，论文提交数量飙升到2906篇，最终收录论文660篇，录取率仅为22.7%。今年会议投稿最多的3个领域分别是，信息提取和文本挖掘占所有有效提交的 9.2%；机器学习占比 8.2%；机器翻译占比 7.7%。可见，自然语言处理研究是迎来了黄金时代。

学术君整理了ACL 2019收录的部分论文，除了对8篇最佳论文的介绍，我们还对本公号近期发布的ACL 2019论文解读文章进行了汇总整理，供大家学习参考。

最佳长论文奖

Bridging the Gap between Training and Inference for Neural Machine Translation

弥补神经机器翻译在训练和推理过程之间的缺口

论文作者：Wen Zhang， Yang Feng， Fandong Meng， Di You ，Qun Liu

论文地址：https://arxiv.org/pdf/1906.02448.pdf

论文摘要：

神经机器翻译（NMT）是以上下文为条件来预测下一个词，从而顺序地生成目标词。在训练时，它以ground truth词汇作为上下文进行预测；而在推理时，它必须从头开始生成整个序列。反馈上下文信息的这种差异会导致误差累积。此外，词级训练要求所生成的序列与ground truth序列之间严格匹配，这导致对不同的但合理的翻译的过度校正。在本文中，我们在模型训练中不仅从ground truth序列还从预测序列中来采样上下文，其中预测序列是用句子级最优来选择的。我们在Chinese->English 和 WMT‘14 English->German的翻译任务的实验结果表明，我们的方法可以在多个数据集上实现显著的改进。

最佳短论文奖

Do you know that Florence is packed with visitors？Evaluating state-of-the-art models of speaker commitment

“你知不知道佛罗伦萨全都是游客？”，评价最先进的说话人承诺模型

论文作者：Nanjiang Jiang， Marie-Catherine de Marneffe

论文地址：https://www.aclweb.org/anthology/P19-1412

论文摘要：

当一个人，比如 Mary问你“你知不知道佛罗伦萨全都是游客？”，我们会认为她相信佛罗伦萨全都是游客；但如果她问“你觉得佛罗伦萨游客多吗？”，我们就不会这样认为。推断说话人承诺（或者说事件真实度）是问答和信息提取任务中的关键部分。

在这篇论文中，作者们探索了这样一个假说：语言学信息的缺乏会影响说话人承诺模型中的错误模式。他们的验证方式是在一个有挑战性的自然语言数据集上分析模型错误的语言学关联性。作者们在 CommitmentBank 这个由自然英语对话组成的数据集上评价了两个目前最好的说话人承诺模型。CommitmentBank 数据集已经经过了说话人承诺标注，方式是在 4 种取消蕴含的环境中向着时态嵌入动词（比如知道、认为）的补充内容进行标注。作者们发现，一个带有语言学知识的模型能展现比基于 LSTM 的模型更好的表现，这表明如果想要在这样的有挑战性的自然语言数据中捕捉这些信息的话，语言学知识是必不可少的。对语言学特征的逐项分析展现出了不对称的错误模式：虽然模型能在某些状况下得到好的表现（比如否定式），但它很难泛化到更丰富的自然语言的语言学结构中（比如条件句式），这表明还有很大提升的空间。

杰出论文奖

Emotion-Cause Pair Extraction：A New Task to Emotion Analysis in Texts

情绪-原因对的提取：文本情感分析中的一个新任务

论文作者：Rui Xia， Zixiang Ding

论文地址：https://arxiv.org/pdf/1906.01267.pdf

论文摘要：

情绪原因提取（Emotion cause extraction ，ECE）是一项旨在提取文本中某些情绪背后潜在原因的任务，近年来由于其广泛的应用而受到了很多关注。然而，它有两个缺点：1）情绪必须在ECE原因提取之前进行标注，这极大地限制了它在现实场景中的应用；2）先标注情绪然后提取原因的方式忽略了它们是相互指示的事实。在这项工作中，我们提出了一项新任务：情绪 - 原因对提取（emotion-cause pair extraction ，ECPE）。这个任务旨在提取文本中潜在的情绪-原因对。我们提出了两步法来解决这个新的ECPE任务。首先通过多任务学习单独地进行的情绪提取和原因提取，然后进行情绪-原因配对和过滤。基准情绪-原因语料库的实验结果证明了ECPE任务的可行性以及我们方法的有效性。

A Simple Theoretical Model of Importance for Summarization

文本摘要重要性的一个简单的理论模型

论文作者：Maxime Peyrard

论文地址：https://www.aclweb.org/anthology/P19-1101

论文摘要：

摘要研究主要由经验方法驱动，手工精心调制的系统在标准数据集上表现良好，但其中的信息重要性却处于隐含状态。我们认为建立重要性（Importance）的理论模型会促进我们对任务的理解，并有助于进一步改进摘要系统。为此，我们提出了几个简单但严格定义的概念：冗余（Redundancy），相关性（Relevance）和信息性（Informativeness）。这些概念之前只是直观地用于摘要，而重要性是这些概念统一的定量描述。此外，我们提供了建议变量的直观解释，并用实验证明了框架的潜力以指导后续工作。

Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems

用于面向任务的对话系统的可传输的多领域状态生成器

论文作者：Chien-Sheng Wu， Andrea Madotto， Ehsan Hosseini-Asl， Caiming Xiong， Richard Socher and Pascale Fung

论文地址：https://arxiv.org/pdf/1905.08743.pdf

论文摘要：

过度依赖领域本体和缺乏跨领域知识共享是对话状态跟踪的两个实际存在但研究较少的问题。现有方法通常在在推理过程中无法跟踪未知slot 值，且通常很难适应新领域。在本文中，我们提出了一个可转换对话状态生成器（Transferable Dialogue State Generator，TRADE）它使用复制机制从话语中生成对话状态，当预测在训练期间没有遇到的（domain，slot，value）三元组时可以促使知识转移。我们的模型由一个话语编码器、slot gate、状态生成器组成，它们跨域共享。实验结果表明，TRADE在人类对话数据集MultiWOZ的五个领域中实现了最先进的联合目标准确率48.62%。此外，我们通过模拟针对未见过的领域的zero-shot和few-shot对话状态跟踪，证明了其传输性能。在其中一个zero-shot域中TRADE实现了60.58%的联合目标准确率，并且能够适应少数几个案例而不会忘记已经训练过的域。

We need to talk about standard splits

我们需要谈谈标准的数据集分割做法

论文作者：Kyle Gorman and Steven Bedrick

论文地址：https://wellformedness.com/papers/gorman-bedrick-2019.pdf

论文摘要：

语音和语言技术的标准做法是根据在一个测试集上的性能来对系统进行排名。然而很少有研究人员用统计的方法来测试性能之间的差异是否是由偶然原因造成的，且很少有人检查同一个数据集中分割出不同的训练-测试集时的系统排名的稳定性。我们使用了2000年至2018年间发布的九个词性标注器进行复现实验，这些标注器每个都声称在广泛使用的标准的分割方式上获得了最佳性能。然而当我们使用随机生成的训练-测试集分割时，根本无法可靠地重现某些排名。我们在此建议使用随机生成的分割来进行系统比较。

Zero-Shot Entity Linking by Reading Entity Descriptions

通过阅读实体描述进行零样本实体链接

论文作者：Lajanugen Logeswaran， Ming-Wei Chang， Kenton Lee， Kristina Toutanova， Jacob Devlin and Honglak Lee

论文地址：https://arxiv.org/pdf/1906.07348.pdf

论文摘要：

我们提出了zero-shot实体链接任务，其中mentions必须链接到没有域内标记数据的未曾见过的实体。这样做的目的是实现向高度专业化的领域的鲁棒迁移，因此我们不会假设有元数据或别名表。在这种设置中，实体仅通过文本描述进行标记，并且模型必须严格依赖语言理解来解析新实体。首先，我们表明对大型未标记数据进行预训练的阅读理解模型可用于推广到未曾见过的实体。其次，我们提出了一种简单有效的自适应预训练策略，将其称为域自适应预训练（domain-adaptive pre-training ，DAP），DAP可以解决与在新域中链接未见实体的域迁移问题。我们在为此任务构建的新数据集上进行的实验，显示了DAP在强预训练基线（包括BERT）上有所改进。

最佳 Demo 论文奖

OpenKiwi：An Open Source Framework for Quality Estimation

论文作者：Fabio Kepler， Jonay Trenous， Marcos Treviso， Miguel Vera and André F. T. Martins

论文地址：https://arxiv.org/pdf/1902.08646.pdf

论文摘要：

基于PyTorch的开源框架OpenKiwi，该框架可用于翻译质量评估。OpenKiwi支持单词级和句子级质量评估系统的训练和测试，实现了WMT 2015-18 质量评估比赛中的最佳系统。我们在WMT 2018（英-德 SMT 和NMT）的两个数据集上对OpenKiwi进行了基准测试，在单词级任务达到最先进的水平，句子级任务中也能够接近最先进的水平。

以下十篇文章是本公众号近来发布的对ACL 2019相关论文的解读。

Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs

论文作者：Deepak Nathani，Jatin Chauhan，Charu Sharma， Manohar Kaul

论文地址：https://arxiv.org/pdf/1906.01195.pdf

论文解读：为知识图谱添加注意力机制

ConvE和ConvKB等基于卷积神经网络（CNN）的表示学习方法可以为知识图谱生成更丰富和表现力更强的向量表示，也取得了很好的实验效果。但是这些模型仅仅独立地表示每一个三元组，而忽略了三元组周围的邻居中蕴含的复杂语义信息，这在一定程度上限制了这类模型的性能。本论文将注意力机制引入到了每个三元组的邻居中，每个实体的表示都与其邻居息息相关。值得注意的是，传统的表示学习模型在进行实体链接预测时，是没有解释性的，仅仅可以给出结果。但是加入了注意力机制后，我们便可以使用每个邻居的注意力权重为模型的预测结果做出一定的解释。

Cognitive Graph for Multi-Hop Reading Comprehension at Scale

论文作者：Ming Ding， Chang Zhou， Qibin Chen， Hongxia Yang， Jie Tang

论文地址： https://arxiv.org/pdf/1905.05460.pdf

论文解读：揭秘认知图谱！从多跳阅读理解问答开始

本篇论文介绍了基于认知中“双过程理论（dual process theory）”的CogQA模型，文章提出一种新颖的迭代框架：算法模拟认知学中人类的两个认知系统，并维护一张认知图谱（Cognitive Graph），系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量，系统二利用图神经网络在认知图谱上进行推理计算。文章在HotpotQA全维基百科数据集上持续占据第一近三个月之久，直到文章在被ACL高分接收后公开。

在图灵奖得主Judea Pearl的新作《The Book of Why》中，他强调了图结构在认知和智能中的重要地位--智能不能拘泥于统计，更应该注重因果与逻辑链条，而后者则与图结构密不可分。认知图谱（Cognitive Graph）则是图结构在问答问题上的一次有意义的尝试，BERT、XLNet这样的预训练模型是否是认知理论中“系统一”的最终答案？图结构到底应该怎样服务于“系统二”的推理呢，比如如果能够对超长的文本进行注意力（attention）机制，那么象征着因果和逻辑的结构信息究竟是否必要？自然语言处理正处在一个蓬勃发展的时期，希望这篇文章可以给大家更多的思考。

Few-Shot Representation Learning for Out-Of-Vocabulary Words

论文作者：Ziniu Hu， Ting Chen， Kai-Wei Chang， Yizhou Sun

论文地址：https://arxiv.org/pdf/1907.00505.pdf

论文解读：Few-shot Learning学习词表外的词表示

现有的词嵌入方法通常假设在语料中每个词都出现足够多次，这样我们就可以通过词的上下文获得该词的词表示。但在现实世界的场景中，经常有些词不会频繁出现在训练集中，这就为学习他们的词表示带来了挑战。

该论文将学习词表外词表示看做few-shot回归问题，提出了一种新的基于层次关注的架构作为神经回归函数，利用该神经回归函数，从K个观察值对单词的上下文信息进行编码和聚合。此外，还可以利用模型不可知元学习（MAML）来快速有效地使学习模型适应新的语料库。

Dynamically Fused Graph Network for Multi-hop Reasoning

论文作者：Yunxuan Xiao，Yanru Qu，Lin Qiu，Hao Zhou，Lei Li，Weinan Zhang， Yong Yu

论文地址：https://arxiv.org/pdf/1905.06933.pdf

论文解读：用于多跳推理的动态融合图网络

多文档问答是自然语言处理领域近期比较火热的一个研究问题，不同于传统的问答系统，多文档问答需要模型从数个文档中协同地寻找问题的答案，这对模型的多跳推理能力提出了很高的要求。

基于文本的问答（Text-based QA）是自然语言处理领域的一个经典问题，大多数现有的方法都是侧重于在一段话中找到问题的答案。然而在实际的生活中，许多困难的问题往往需要在两个甚至多个文档中的文本中寻找答案的证据。为了推动这类困难问题的进一步研究，在去年的EMNLP 2018上，杨植麟等人提出了HotpotQA数据集。

上图便是HotpotQA的一个问答示例，为了回答问出的问题，一个模型往往需要处理给出的全部的参考段落，在其中找到答案存在的证据。

为了解决这类问题，这篇论文便提出了一个称为动态融合图网络（DFGN）的模型。这个模型受人类一步步推理行为的启发，首先为文档中出现的实体构建图网络，之后从给定问题中提到的实体出发，沿着文档构造的实体图出发进行搜索，逐步给出文档中找出的相关实体作为最终答案。

GraphRel：Modeling Text as Relational Graphs for Joint Entity and Relation Extraction

论文作者：Tsu-Jui Fu， Peng-Hsuan Li， Wei-Yun Ma

论文地址：https://tsujuifu.github.io/pubs/acl19_graph-rel.pdf

论文解读：将文本建模为关系图用于关系提取

提取实体和语义关系是从非结构化文本构建知识结构的核心任务，传统的流水线方法通常是先进行命名实体识别然后对实体关系进行预测，联合学习实体识别和关系抽取能获得更好的效果，但这些联合模型需要进行大量的特征工程。已有的神经网络方法都不是端到端的联合模型，他们假设已知命名实体并预期现实世界的命名实体识别会导致模型表现显著降低。

本文提出了一个端到端的关系提取模型GraphRel，使用GCN和Bi-LSTM编码器学习抽取命名实体及关系，考虑了线性和依赖结构，以及文本的所有单词对之间的隐式特征；通过端到端的实体、关系联合建模，同时对所有实体对进行预测；也考虑到了实体和关系之间的相互作用。

Matching the Blanks：Distributional Similarity for Relation Learning

论文作者：Livio Baldini Soares ，Nicholas FitzGerald ，Jeffrey Ling， Tom Kwiatkowsk

论文地址：https://arxiv.org/pdf/1906.03158.pdf

论文解读：Matching the Blanks 预训练关系表示模型

通用目的（General Purpose）的关系抽取器，即能够对任意关系建模的关系抽取器，是信息抽取研究中的愿景。之前提出的构建通用关系抽取器的方法，如用表面形式（Surface Form）来表示关系，或者联合嵌入关系的表面形式和知识库中的关系的方法，都不能够很好地泛化。

论文使用Bert来对文本关系进行表示，并且提出了Matching the blanks的方法来预训练任务不可知（task agnostic）的关系抽取模型。论文的模型在Few-shot关系抽取的数据集FewRel上达到了SOTA的结果，并超过了数据集给定的人类水平，并且在有监督的关系抽取数据集SemEval 2010 Task8、KBP37、TACRED上也达到了SOTA的效果。

论文的贡献主要有两个：

- 测试了Bert的不同的输入方式和输出方式对关系抽取结果的影响；

- 提出了关系抽取预训练任务Matching the blanks，在少样本关系抽取任务上效果提升明显。

Scoring Sentence Singletons and Pairs for Abstractive Summarization

论文作者：Logan Lebanoff，Kaiqiang Song，Franck Dernoncourt，Doo Soon Kim，Seokhwan Kim，Walter Chang，Fei Liu

论文地址：https://arxiv.org/pdf/1906.00077.pdf

论文解读：基于单句和双句打分的生成式摘要

生成式摘要（Abstractive Summarization）的目标是对输入的一篇文档生成一段较短的摘要，以概括原文档的内容。为了提高生成质量，已有的一些方法会先从原文中抽取一些代表性的句子，然后再基于该句子集合使用 seq2seq 模型进行改写，从而得到生成的结果。本文作者认为，在生成摘要的过程中，除了需要对单个代表性句子进行压缩或改写，还需要考虑多个句子的信息融合，尤其是两个句子（即 Sentence Pair）的信息融合。作者给出了三个摘要数据集（XSum，DUC04，CNN/Daily Mail）中的统计信息以验证其猜想，如下图所示，可以看到有相当数量的摘要是通过融合两句话得到的。

基于这个观察，本文提出了一种对单个句子和句子进行联合打分的方法，用来筛选代表性的句子或句子对。本文探索了多种句子表示方式，并报告了详细的实验结果。

Generating Summaries with Topic Templates and Structured Convolutional Decoders

论文作者：Laura Perez-Beltrachini，Yang Liu，Mirella Lapata

论文地址：https://arxiv.org/pdf/1906.04687.pdf

论文解读：利用主题模板进行维基百科摘要生成

生成式多文档摘要的目标是从一系列理论上相关的文档中生成一个合乎逻辑的摘要。最近，谷歌将生成维基百科文档的导读部分看作了一个多文档摘要任务的变种，并发布了一个大规模的摘要数据集WikiSum。然而，之前的摘要工作大多将摘要结果看作单个长文本序列，忽视了文档常常分为多个主题，并且一类文档可以看作由多个主题按顺序排列得到：如动物类文档通常会按顺序讲述其生活区域与栖息地类别。这些信息可以帮助生成更流畅的摘要。

本文提出了一个由主题结构作指导的神经网络模型，没有使用常见的循环神经网络，而是在卷积解码器的基础上显性地加入了内容的主题结构，从而生成完整而流畅的摘要。此外，本文还提供了数据集WIKICATSUM，其中包含公司、电影与动物三个领域的维基百科文档与对应的候选片段。

Modeling Semantic Compositionality with Sememe Knowledge

论文作者：Fanchao Qi， Junjie Huang， Chenghao Yang ， Zhiyuan Liu ， Xiao Chen ， Qun Liu， Maosong Sun

论文地址：https://arxiv.org/pdf/1907.04744.pdf

论文解读：用义原知识建模语义合成

https://www.aminer.cn/research_report/5d54f241d5e908133c946b7a？download=false

语义合成指复杂语义单元的语义可以由其成分的语义组成的现象。这篇文章验证了义原知识对于建模语义合成的作用。并将义原知识整合到语义合成的模型中，来进行多词表达式的学习。作者使用著名的义原知识库Hownet进行了训练和测试，验证了义原知识对建模语义合成的有效性。

义原是人类语言的最小语义单位。单词的语义可以用一个有限的义原集合来描述。Hownet是一个著名的义原知识库，其中定义了2000多个义原，并且使用义原描写了100000多个中文单词。

作者首先进行了一个小实验，测量语义组合度（Semantic Compositionality Degree）。作者发现基于义原公式计算出来的语义组合度和人类计算出来的语义组合度十分吻合，因此猜测义原知识可以提升MWE的表示。

小实验介绍：不同的MWE展现了不同程度的语义组合，如表1，作者定义了四种语义组合度，SCD的number（3，2，1，0）越大，代表语义组合度越高。第一种计算语义符合度的方式是根据义原集合来计算。第二种计算方式由人类去进行组合度打分。实验发现两种计算方式的吻合度很高。

Improving Multi-turn Dialogue Modelling with Utterance ReWriter

论文作者：Hui Su， Xiaoyu Shen， Rongzhi Zhang， Fei Sun， Pengwei Hu， Cheng Niu and Jie Zhou

论文地址：https://arxiv.org/pdf/1906.07004.pdf

论文解读：使用表达改写提升多轮对话系统效果

https://www.aminer.cn/research_report/5d527dd4d5e908133c946b07？download=false

这篇论文构建了一个高质量的中文对话改写数据集用于指代消解和信息不全，同时提出了一种表达改写模型。

论文提出了一种重写人类表达的预处理方法用于改善多轮对话模型的效果。首先重写每个表达以恢复所有指代以及省略的信息。然后基于重写的表达执行下一个处理步骤。为了正确训练表达重写器，本文收集带有人工标注的新数据集，并使用指针网络引入基于transformer的表达重写架构。本文的方法在表达重写任务中实现了非常好的性能。经过培训的表达重写器可以很容易地集成到在线聊天机器人中，并在不同的领域带来全面的改进。

最后，学术君再次贴心地为大家奉上ACL 2019全部论文集地址，有需要的自行查找啦！

ps，如果你还想看其他相关论文的解读，欢迎给我们留言，学术君会尽快安排上的！

传送门：http://www.acl2019.org/EN/program.xhtml

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

理论ACL 2019论文

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

神经机器翻译技术

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译（NMT）的诞生；神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型，而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外，RNN 应该还能得到无限长句子背后的信息，从而解决所谓的「长距离重新排序（long distance reordering）」问题。

来源：机器之心

关系提取技术

关系抽取任务需要检测和分类一组工件中的语义关系提及，通常来自文本或XML文档。该任务与信息提取（IE）的任务非常相似，但是IE另外需要去除重复关系（消歧），并且通常指的是提取许多不同的关系。

来源：A Review of Relation Extraction Wikipedia

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

词嵌入技术

词嵌入是自然语言处理（NLP）中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

来源：维基百科

元学习技术

元学习是机器学习的一个子领域，是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是，我们如果想使智能体掌握多种技能、适应多种环境，则不应该从头开始在每一个环境中训练每一项技能，而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务，因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法，又叫元学习（meta-learning），是通往可持续学习多项新任务的多面智能体的必经之路。

来源：机器之心

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。

来源：Wikipedia

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征，使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用，实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事，应用机器学习其实基本上是在做特征工程。”

来源：Wikipedia

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

命名实体识别技术

命名实体识别（NER）是信息提取（Information Extraction）的一个子任务，主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别，如在招聘信息中提取具体招聘公司、岗位和工作地点的信息，并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注，根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此，命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督（supervised）、半监督（semi-supervised）和无监督（unsupervised）三类。有监督学习包括隐形马科夫模型（HMM）、决策树、最大熵模型（ME）、支持向量机（SVM）和条件随机场（CRF）。这些方法主要是读取注释语料库，记忆实例并进行学习，根据这些例子的特征生成针对某一种实例的识别规则。

来源：David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

对话系统技术

对话系统大致被分成两类：任务为导向的对话系统，帮助用户去完成特定任务，比如找商品，订住宿，订餐厅等。实现任务为导向的对话系统，主要有两类方式，流水线方法和端到端方法。非任务导向的对话系统，与用户进行互动并提供回答，简单的说，就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类，生成方法和基于检索的方法。

来源：CSDN

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

多任务学习技术

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程，产生结构化数据，并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性，新颖性和趣味性。

来源：维基百科

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心

图网技术

ImageNet 是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。

来源：ImageNet 官网

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例，使用者不需要思考该使用什么样的问法才能够得到理想的答案，只需要用口语化的方式直接提问如“请问谁是美国总统？”即可。而系统在了解使用者问句后，会非常清楚地回答“奥巴马是美国总统”。面对这种系统，使用者不需要费心去一一检视搜索引擎回传的网页，对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看，问答系统使用了大量有别于传统资讯检索系统自然语言处理技术，如自然语言剖析（Natural Language Parsing）、问题分类（Question Classification）、专名辨识（Named Entity Recognition）等等。少数系统甚至会使用复杂的逻辑推理机制，来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上，除了传统资讯检索会使用到的资料外（如字典），问答系统还会使用本体论等语义资料，或者利用网页来增加资料的丰富性。

来源：维基百科

语言学技术

每种人类语言都是知识和能力的复合体，语言的使用者能够相互交流，表达想法，假设，情感，欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究：如何构建这样的知识体系，如何获取，如何在消息的制作和理解中使用它，它是如何随时间变化的？语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性？语言如何不同，系统的差异程度如何，我们能否在差异中找到模式？孩子如何在短时间内获得如此完整的语言知识？语言随时间变化的方式有哪些，语言变化的局限性是什么？当我们产生和理解语言时，认知过程的本质是什么？语言学研究的就是这些最本质的问题。

来源：Linguistics

本体技术

在计算机科学和信息科学中，本体包括表示、正式命名和定义概念，数据，实体之间的类别，属性和关系，并在一个，多个或所有域实例中。

来源：wiki

图网络技术

2018年6月，由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》，该研究提出了一个基于关系归纳偏置的 AI 概念：图网络（Graph Networks）。研究人员称，该方法推广并扩展了各种神经网络方法，并为操作结构化知识和生成结构化行为提供了新的思路。

来源：机器之心