2019/04/28 17:23

论文太多读不完？AI化身阅读小助手，可一键生成文章摘要！

每位科学作者都需要阅读充斥着专业术语集的期刊论文，还需要想办法用科普性的语言，让没有科学背景的读者也能够理解文章的内容。现在这种苦恼有望得到缓解。

由麻省理工学院和其他机构人员组成的科学家团队已经开发出一种神经网络，这种人工智能（AI）的形式可以在有限范围内做到：阅读科学论文，并用一两句话呈现简单的英语摘要。尽管形式有限，但这样的神经网络可以帮助编辑、作者和科学家扫描大量论文，以便对其内容有一个初步了解。除了语言处理，这个团队开发的方法还可以应用于其他领域，包括机器翻译和语音识别等。该研究发表在《Transactions of the Association for Computational Linguistics》杂志上。

图片来源：123RF从物理到自然语言的人工智能

有趣的是，这项工作源于一个不相关的项目——涉及开发基于神经网络的新的人工智能方法，以解决物理学中的某些棘手问题。然而，研究人员很快意识到，同样的方法可以用于解决其他困难的计算问题，包括自然语言处理，其性能可能超过现有的神经网络系统。

“我们在人工智能领域做各种各样的工作已经持续几年了,” 麻省理工学院物理学教授Marin Soljačić说：“我们使用人工智能来协助研究，基本上是为了更好地研究物理学。随着我们对人工智能越来越熟悉，我们注意到，每隔一段时间，在该领域，来自物理学的知识就会带来某个机遇，包括某种数学结构或某种物理定律。我们发现如果我们使用它，实际上可以改进某个特定的人工智能算法。"

他表示，这种方法可以用于各种特定类型的任务，但不是所有的。“我们不能说这对所有的人工智能都有用，但在一些例子中，我们可以利用物理学的洞察力来改进给定的人工智能算法。”

神经网络通常是一种模仿人类学习某些新事物的方式的尝试：计算机检查许多不同的例子并“学习”潜在的关键模式是什么。这些系统被广泛用于模式识别，例如学习识别照片中描述的物体。但是神经网络通常很难从一长串的数据中获得相关的信息，比如在解释一篇研究论文时。研究人员表示，人们已经使用了各种技巧来提高这种能力，包括被称为长期短期记忆（LSTM）和门控循环单元（GRU）的技术，但是这些技术仍然远远不能满足真正的自然语言处理的需要。

研究小组提出了一种替代系统，它不像大多数传统的神经网络那样基于矩阵的乘法，而是基于在多维空间中旋转的向量。关键的概念是他们所说的旋转存储单元（RUM）。从本质上讲，系统用多维空间中的一个向量来表示文本中的每个单词——一条指向特定方向、特定长度的线。接下来的每个单词都朝着某个方向摆动这个向量，在一个理论空间中表示，这个空间最终可以有数千个维度。在过程结束时，最终的向量或向量集被转换回相应的字符串。

“RUM帮助神经网络很好地完成两件事,” HBKU卡塔尔计算研究所高级科学家 Preslav Nakov说：“那就是帮助他们更好地记忆，并使他们能够更准确地回忆信息。”

开发了RUM系统来帮助解决某些棘手的物理问题，例如复杂工程材料中光线的行为之后，“我们意识到这种方法可能应用的地方之一是自然语言处理,”Soljačić说。他回忆起与Tatalović的一次谈话，Tatalović指出这样的工具对他的工作很有用，作为一个编辑，他需要决定写哪些论文，他当时正在科学杂志探索人工智能技术，这也是他的研究员项目。

“所以我们尝试了一些自然语言处理任务,”Soljačić说：“我们尝试的一种方法是对文章进行总结，看起来效果不错。”

证据就在阅读之中

他们通过一个传统的基于LSTM的神经网络和基于RUM的系统提供相同的研究论文。结果得出的总结大相径庭。LSTM系统产生了这个高度重复和相当技术性的总结。而且在同一篇论文的基础上，RUM系统提出了一个更具可读性的摘要，其中不包括不必要的重复短语。而基于虚拟现实的系统得到了扩展，它可以"阅读"整个研究论文，而不仅仅是摘要，以产生对其内容的总结。研究人员甚至尝试在他们自己的研究论文中使用该系统来描述这些发现。

没有参与这项研究的英国人工智能公司Google DeepMind的研究科学家Çağlar Gülçehre表示，这项研究解决了神经网络中的一个重要问题，涉及到在时间或空间上相隔很远的信息片段。“这个问题一直是人工智能中一个非常基本的问题，因为序列预测任务需要对长时间延迟进行推理，”他说：“虽然我不认为这篇论文完全解决了这个问题，但是它在问题回答、文本摘要和联想回忆等长期依赖性任务上显示了可喜的结果。”

Gülçehre补充说：“由于本文中提出的实验和模型在Github上以开放源码的形式发布，因此许多研究人员将有兴趣在他们自己的任务上进行尝试。更具体地说，本文中提出的方法可能会对自然语言处理和强化学习领域产生非常大的影响，因为长期的依赖关系在这些领域非常关键。”

参考资料：

[1] Can science writing be automated? A neural network can read scientific papers and render a plain-English summary. Retrived April 18, 2019 from https://www.sciencedaily.com/releases/2019/04/190418105730.htm

药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康，带你看全AI时代的智慧之光。

产业文本自动摘要麻省理工神经网络机器翻译语音识别自然语言处理

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

虚拟现实技术

虚拟现实，简称虚拟技术，也称虚拟环境，是利用电脑模拟产生一个三维空间的虚拟世界，提供用户关于视觉等感官的模拟，让用户感觉仿佛身历其境，可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时，电脑可以立即进行复杂的运算，将精确的三维世界视频传回产生临场感。

来源：维基百科

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

门控循环单元技术

门控循环单元（GRU）是循环神经网络（RNN）中的一种门控机制，与其他门控机制相似，其旨在解决标准RNN中的梯度消失／爆炸问题并同时保留序列的长期信息。GRU在许多诸如语音识别的序列任务上与LSTM同样出色，不过它的参数比LSTM少，仅包含一个重置门（reset gate）和一个更新门（update gate）。

来源：Understanding GRU networks, Medium

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

联想集团机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币，由11名科技人员创办，是中国的一家在信息产业内多元化发展的大型企业集团，和富有创新性的国际化的科技公司。从1996年开始，联想电脑销量一直位居中国国内市场首位；2005年，联想集团收购IBM PC（Personal computer，个人电脑）事业部；2013年，联想电脑销售量升居世界第一，成为全球最大的PC生产厂商。2014年10月，联想集团宣布了该公司已经完成对摩托罗拉移动的收购。作为全球电脑市场的领导企业，联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务，帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。自2014年4月1日起，联想集团成立了四个新的、相对独立的业务集团，分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月，全国工商联发布“2016中国民营企业500强”榜单，联想名列第四。 2018年12月，世界品牌实验室编制的《2018世界品牌500强》揭晓，排名第102。