2016/08/31 17:01

机器人为什么能写稿，以及它们能拿普利策奖吗？

里约奥运会期间，写稿机器人「Xiaomingbot」通过对接奥组委的数据库信息，可以进行实时撰写新闻稿件，在 16 天内发布了 456 篇资讯报道，平均新闻生成到发布时间为 2 秒钟，几乎达到电视直播的传播速度。Xiaomingbot 是今日头条实验室研发的AI机器人，可以通过两种文本生成技术产出新闻：一是针对数据库中表格数据和知识库生成自然语言的比赛结果报道，即简讯；二是利用体育比赛文字直播精炼合成比赛过程的总结报道，即资讯。

随着自然语言处理、知识库等人工智能技术的发展，许多媒体已经开始了机器人报道的探索。《纽约时报》数字部门开发了机器人编辑 Blossomblot ，每天推送 300 篇文章，每篇文章的平均阅读量是普通文章的38倍。此外，《纽约时报》还会在财报季、运动比赛报道的时候使用机器人来写稿；美联社在过去一年多时间里使用 Wordsmith 系统编发企业财报；在华尔街引起巨大反响的 Kensho 可以通过接入美国劳工部等数据源来自行创造投资分析报告；电讯社也计划使用雅虎在报导梦幻橄榄球联赛时用到的技术，用来发布一些美式橄榄球回顾；Automated Insights 的写作软件去年写了 150 亿篇文章，宣称自己是世界上最大的内容生产者；路透社也在发表机器撰写的文章，该系统的负责人认为「在一次盲测中，机器的作品表现得比人类作品更具可读性。」；此外，还有专门提供「标题党」服务的 Click-o-Tron 公司。

媒体领域出现这种趋势的原因在于相关技术已经达到了一定的成熟度，而且这种成熟度是和新闻媒体的要求很好的匹配在了一起。在卡斯韦尔的「结构化故事」系统中，所谓的「故事」完全不是个故事，而是一个信息网，我们可以像对待文案、信息图表或者其它表达形式一样去组装它，阅读它，就像我们摆弄音乐音符一样。任何一类信息——从法院报道到天气预报——都能够最终能放入到这个数据库中。这样的系统的潜力是巨大的。

「大多数自然语言系统都是在简单地描述一个事件。但是大多数新闻都是描绘性的，甚至是事件驱动的」来自密苏里大学 Donald W Reynolds 新闻机构的大卫·卡斯韦尔说。「事件们在不同的地点发生，这些事件之间的因果关系是这些事件的核心叙述结构。」需要把它们放到古老的新闻术语中：谁，发生了什么，在哪里，什么时候。

根据 Donald W Reynolds 的说法，人工智能系统在进行新闻创作时需要解决非常多的技术难题，包括自然语言处理中的自动摘要、文本分类等，还有知识库和知识发现（KDD）等相关技术，比如实体定义、关系抽取、问答系统等。简单来说，就是机器首先需要理解自然语言，然后通过知识管理弄明白新闻中各个要素（各类知识）之间的关系。

自然处理技术所有信息密集型处理过程的核心，也是今年以来谷歌、Facebook 和微软等科技巨头都最为重视的研究方向，在刚刚结束的语言学顶级会议 ACL 上，他们也都发表了众多重磅论文。谷歌开源了SyntaxNet，将神经网络和搜索技术结合起来，在解决歧义问题上取得显著进展——能像训练有素的语言学家一样分析简单句法；Facebook 推出了文本理解引擎 DeepText ，每秒能理解几千篇博文内容，语言种类多达 20 多种，准确度近似人类水平。

其中，阅读和理解人类语言对机器来说是一项极具挑战性的任务，这需要对自然语言的理解以及根据多种线索推理的能力。阅读理解是现实世界中的一个普通问题，其目的是阅读和理解给定的文章或语境，并基于此回答问题。在多种类型的阅读理解问题中，完形填空式的查询是基础的一类，并且也已经变成了解决机器理解问题的起点。与普通的阅读理解问题类似，完形填空式的查询（Taylor, 1953）是基于文档的本质提出的，尽管其答案是文档内部的单个词。

为了教会机器完成完形填空式的阅读理解，需要学习给定文档和查询之间的关系，因此必须要大规模的训练数据集。通过采用基于注意（attention）的神经网络方法（Bahdanau et al.,2014），机器可以学习大规模训练数据中的这些模式。为了创造大规模训练数据，Hermann et al. (2015) 发布了用于完形填空式的阅读理解的 CNN/Daily Mail 新闻语料库，其中的内容由新闻文章及其摘要构成。之后 Hill et al.（2015）发布了 Children’s Book Test （CBT：儿童图书测试）数据集，其中的训练样本是通过自动化的方式生成的。此外，Cui et al.（2016）也发布了用于未来研究的汉语阅读理解数据集。正如我们所见，自动生成用于神经网络的大规模训练数据对阅读理解来说是至关重要的。此外，语境的推理和总结等更复杂的问题需要远远更多的数据才能学会更高水平的交互。

今年六月份，人工智能创业公司 Maluuba 公司发表了一篇关于机器理解的论文，提出了目前最先进的机器阅读理解系统 EpiReader ，该模型在 CNN 和童书测试（CBT）两个数据集上的成绩都超过了谷歌 DeepMind 、Facebook 和 IBM 。EpiReader 采取两个步骤来确定问题答案。第一步(Extractor), 我们使用了一个双向 GPU 逐字阅读故事和问题，接着采用一种类似 Pointer Network 中的 Attention 机制在故事中挑选出可能作为答案备选的单词。第二步( Reasoner )，这些备选答案被插入「完型填空」式的问题中，构成一些「假设」，接着卷积神经网络会将每个假设与故事中的每个句子加以比较，寻找文本蕴涵( Textual Entailment )关系。简单来说, 蕴涵是指，两个陈述具有很强的相关性。因此，最近似故事假设的蕴涵得分最高。最后，将蕴涵得分与第一步得到的分数相结合，给出每一个备选答案正确的概率。

国内的哈工大讯飞实验室也提出了一种用于完形填空式阅读理解任务的全新模型，这被称为 attention-over-attention（注意之上的注意）阅读器。我们模型的目标是在文档级的注意之上放置另一种注意机制（attention mechanism），并诱导出「attended attention（集中注意）」以用于最后的预测。和之前的成果不同的是：我们的神经网络模型只需要更少预定义的超参数，并且可以使用一种简洁的架构进行建模。实验结果表明我们提出的 attention-over-attention 模型在大量公共数据集中都显著优于当前许多最佳的系统，例如 CNN 和「（Children’s Book Test）儿童图书测试」数据集。

CMU 的 Mrinmaya Sachan 和邢波在 ACL 2016 上发表论文《用丰富的语义表征来实现机器理解》，通过用如指代和修辞结构这种跨句现象来合并组成句子的 AMR，从而为给出的文本和每个问答对建构意义表征图（meaning representation graph）。然后将机器理解降格成为了一个图包含问题（graph containment problem）。假定问答含义表征图（question-answer meaning representation graph ）和文本含义表征图（text meaning representation graph ）之间存在一个隐含的映射，该映射能够解释该答案。他们提出了一个统一的最大边缘框架，它能学习发现这个映射（给定一个文本语料库和问答对），并使用它学到的来回答关于新文本的问题。他们发现这个方法是目前完成这类任务的最好方法。

在知识库方面，谷歌自然语言处理技术专家 Enrique Alfonseca 认为，挑战包括知识库的实体解析和一致性问题。两年前，谷歌的一些员工发布了一个实体解析注释的超大文集，这个大的网络文集包括对 Freebase 主题的110亿次引用，它是由世界上研究信息提取的研究人员开发的。知识集指的是真实世界（或者虚拟世界）的结构化信息，在许多其他应用中，人们能够对文字进行语言分析。这些一般包括主题（概念和实体）、属性、关系、类型层次、推理规则、知识表征和人工、自动知识获取的研究进行了许多年，但是这些都是远未解决的难题。

CMU 的 Sujay Kumar Jauhar 认为，问答需要一个知识库来检查事实和推理信息。自然语言文本形式的知识学习起来比较简单，但是自动推理很难。高度结构化的知识库能让推理变得容易一些，但是学习起来又难了。他们在近期 ACL 上发表论文，探讨了半结构形式主义（semi-structured formalism ）的表来平衡这两种情况。

而上文提到的Xiaomingbot的主人今日头条实验室近期也在这方面取得进展——通过深度学习和知识库的结合来解决知识类问答问题。今日头条实验室科学家李磊博士表示，知识在知识库里表达成三元组形式的结构化信息，系统要做的事情是问了这个自然语言问题后，从知识库里找出这样的答案。这个问题的难度在于：

知识库非常大，从海量数据中找出答案是非常困难的；
自然语言问题本身比较复杂，因为有多种问法和表达方式；
训练数据非常有限。

而今日头条实验室提出的深度学习加上知识库的CFO方法是，首先观察到需要把自然语言问题表达成结构化 query ，把这个结构化 query 里的条件信息从问题里找出来。和传统方法不同，CFO 通过神经网络用了一个 Stacked Bidirectional GRU ，它是一个上下叠加起来的多层双向循环神经网络，通过这个模型去计算出问题中的实体以及实体之间的关系，之后就是构建结构化的查询语句以及从知识库里寻找答案。在测试结果上，准确率超过了微软和 Facebook。

这些在自然语言处理、知识库方面最新的研究进展将会传导到人工智能在新闻领域的应用，就像今日头条此前所做的智能推荐一样，通过每天观察数千万用户的刷新、点击、搜索、收藏、评论的行为，不断加强对用户兴趣偏好的理解，从而能够不断提高推荐的准确性，成为在资讯推荐领域的人工智能。希望靠算法连接内容创作者和消费者。而现在，技术的进步将使这个边界获得再次延伸。就像今日头条创始人兼 CEO 张一鸣预言的那样，未来人工智能演化的第一阶段首先是在各个垂直领域诞生若干超级智能，比如资讯推荐领域的今日头条，健康和知识问答领域的沃森，围棋领域的 AlphaGo 。这些垂直超级智能可以在特定领域内展现出远超人类的能力，但是在擅长领域之外没有任何作为。不过，他们将为诞生在所有领域内都具备超人能力的终极智能打下基础。

而越来越多的机器人创作将成为媒体领域超级智能的开始，目前 Xiaomingbot 的资讯生成部分即实时文本生成研究是今日头条同北大计算机所万小军教授团队合作，用于问答系统的 CFO 也将应用在今日头条的其他媒体产品中。李磊表示，今日头条有个产品叫「头条问答」，我们希望对于一些简单的问题和事实类的问题可以通过自动回答的方式去解决，这样就可以节省专家人力。

Xiaomingbot、CFO 只是头条实验室众多研究布局中的阶段性成果，后者旨在推动人工智能技术研究，让算法更好地理解文字、图片、视频、环境场景和用户兴趣，从而促进人类信息与知识交流的效率和深度。今日头条不仅仅是新闻客户端，是一款基于机器学习的个性化资讯推荐引擎，是所有信息、内容分享创作的平台。人工智能和机器学习的算法起到了重要作用，能够帮助高效精准地把用户感兴趣的内容推荐出去。今日头条的内容平台对应着双边用户：一边是内容的创作者，另一边是内容的消费者。所以为了把最好的内容推荐给最需要的读者，就需要机器学习的技术。

今日头条等媒体巨头对人工智能技术在研发和应用上的加码，让我们看到了人工智能在未来对媒体业造成的巨大影响。《浅薄》中提到，互联网作为一种智力工具，在给我们带来便利的同时也在重塑着我们的思维方式。随之而来的问题是，互联网这种媒介传递的信息越多，我们想找到优质或者自己所需信息的难度也就越大。而这正是人工智能的优势所在，它可以让大数据从负担变成便利，会重塑媒体的内容生产和分发。

在采用 Wordsmith 之前，美联社需撰写约 300 家公司的财报文章，可想而知这并不是个轻松的工作量。在使用机器人 Wordsmith 之后，美联社每季度可以出 3000 家公司财报，虽然其中仍有 120 篇需要人力更新或添加独立的后续报道，但显然它替人类编辑承担了绝大部分的工作量。

在哥伦比亚大学庆祝普利策奖诞生一百年之际，智能机器人也将在财经报道、体育实况报道、骗点击的标题党新闻（clickbait）以及其它原本只有受过训练的记者才能报导的领域开始一展身手。「总有一天，机器人会赢得普利策奖」，来自 Narrative Science 的 Kris Hammond 如此预测。这家公司专注于「自然语言生成」。「我们能讲述隐藏在数据中的故事。」最近的进步味着，人工智能现在能够撰写出具有可读性的流畅文字，并且还能比亢奋的写手更快地大量炮制模板型文章。「有了自动化，我们现在能为 4,000 家公司追踪、撰写季度收益报告，」来自世界第一个也是迄今为止唯一个使用自动化编辑的通讯社——美通社的贾斯汀· 迈尔斯说，「以前我们只能做到 400 家。」

而对于机器人能否拿普利策新闻奖这个问题，迈尔斯也「绝对相信」——因为机器人已经做到了。Bill Dedman 因一篇抵押贷款中存在种族主义问题的调查报道，而获得了普利策奖。这篇报道虽然发表于 1988 年，却是由电脑协助写作成的。

自动化新闻不仅仅具有数量优势，还有助于定位客户需求——通过用户画像、情感分析等技术为用户提供个性化内容，或者对于智能对话系统与用户进行交互。

随着人工智能技术在新闻领域的参与程度越来越高，对于人工智能技术是否造成失业问题的争论也愈演愈烈。牛津大学此前发布了一篇报告称，目前 47% 的工作岗位将最终被自动化。但对此的批评意见认为，工作被取代，并不意味着劳动者将失去工作，正如曾经汽车的出现取代了许许多多的马车夫和马童，但同时创造了更多修建高速公路和服务加油站的工作。

对于媒体领域来说同样如此，机器人负责这项单调而又乏味的工作就能把记者们解放出来，让他们追求一些需深度思考的报道，同时机器人也可以将消费者从海量信息中解放出来，提高他们获取信息和知识的效果和效率，而这就是人工智能对媒体的最重要影响。不久的未来，我们将看到人工智能作为工具在新闻产业产出发挥重要的作用。

入门机器人人工智能产业观点NLP