2019/02/22 13:54

参与贾伟王淑婷张倩路雪

媒体炒作掩盖研究价值？OpenAI的GPT-2不只是代码开放问题

自上周 OpenAI 发布大型通用语言模型 GPT-2 后，机器学习社区争论不断。OpenAI 称，由于担心该模型可能遭恶意应用，他们选择不发布数据集、训练代码和 GPT-2 模型权重，因此被社区嘲讽为 ClosedAI。本文将介绍这件事的始末以及各方评论。

2 月 14 日，OpenAI 发布大型无监督语言模型 GPT-2，它能够产生连贯的文本段落，在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下，能够做到初步的阅读理解、机器翻译、问答和自动摘要。

文章一经发布，在媒体界激发了巨大的响应和想象，也同样引起诸多研究人员的关注和期待。但 OpenAI 表示，考虑到可能存在的对该技术的恶意使用，将不发布训练模型，而只发布一个较小模型供研究、实验使用，相关的数据集、训练代码、模型权重则均未开源。

想象、期待与结果的落差激起千层浪，无论是媒体还是研究者社群都加入了声讨的行列，认为 OpenAI 夸大了这项研究的危险性，且无形中刺激了人们对 AI 的「狂热」。

这场争论涉及范围广大，甚至变成了一个梗。AI 研究者纷纷开玩笑称自己的实验室发现了一项重大突破，但是由于结果太危险而无法分享……当然这些都是玩笑，玩笑的背后则是促成了社区的讨论，研究人员该如何平衡开放性和负责任？如何向媒体传达新技术？

反对

这件事的导火索 GPT-2 是最新的文本生成算法，可能对未来产生巨大影响。向该模型输入标题或故事的前几行，它会输出与输入相匹配的文本。输出结果多种多样，但文本都非常连贯。比如，假新闻的文风和结构都与真正的新闻文章相似，还能基于伪造的数据源创建统计数据和引用。

这是一个有趣的工具，给人们带来很大的惊喜。但它实际上并不像人类那样具备理解输出文本的能力。它能生成文本，却无法理解文本。事实上，OpenAI 以及外界的专家们都认为它本质上并非突破，而只是前沿文本生成技术的一项杰出案例。

OpenAI 不全面开源该模型的原因是：这种模型可以用来生成假新闻造成恶劣影响，或者用来自动生成大量垃圾邮件造成泛滥。所以，OpenAI 仅在其 Github 项目中发布了技术论文和一个较小的模型，而没有公开训练数据和完整模型。

但是一直以来，AI 研究社区对于研究成果（代码、数据和模型）默认是应当公开的，只有这样才能够得以充分地讨论、优化和改进。因此 OpenAI 拒绝开源的举动及理由立即吸引了诸多关注。

外界的批评主要围绕几点。1）不开放模型，其他研究者就无法复现其成果；2）模型本身并不像 OpenAI 所描述的那样具有那么大的威胁性；3）OpenAI 没有采取足够的措施阻止媒体的炒作和歪曲。

复现

机器学习相对来说，还算是一个民主的领域，即使单独一个人也可以取得重大突破。但不得不承认，近年来人们开始更加关注资源密集型研究。GPT-2 这样的算法使用了大量算力以及大型数据集，这二者都是要花大钱的。（引用）如果大型研究机构不公开自己的研究，学术界根本无法与之匹敌。

反对者表示，如果像 OpenAI 这种资金充裕的研究机构不分享自己的研究成果，社区就会越来越贫乏。加州理工学院教授兼英伟达机器学习研究主任 Anima Anandkumar 表示：「这种做法对学术界非常不利，……OpenAI 正有效地借助其影响力使 ML 研究变得更加封闭和不可及。」

对于可能造成不利影响的研究，或许公开研究成果甚至更加重要，其他研究者可以找到该研究的弱点并寻求应对方法。可以想象，对于没有太多资金支持的多数研究者来讲，没有源代码根本不可能复现出模型；而另一方面，对于那些想利用这些技术的组织或个人来讲，利益驱动，他们会投入足够多的资金去做这个事情，最终的结果不言而喻。Anandkumar 表示，「但我不认为封闭这个模型就能解决问题。」

研究 AI 社会影响的 OpenAI 科学家 Miles Brundage 表示，OpenAI「清楚地考虑」了这种权衡。他说，OpenAI 将通过邮件邀请更多人参与模型测试等方法来「缓和」不开源带来的问题。

威胁性

OpenAI 认为这项技术如果让别有用心的人利用了，将会给社会带来恶劣影响。GPT-2 是否真的具有这么大的威胁性呢？

Delip Rao 是研究 AI 检测假新闻和错误信息项目的文本生成专家。他认为，OpenAI 所描述的威胁太夸张了。以假新闻为例，文本的质量很少是一个障碍，因为这类错误信息大多是通过复制和粘贴其他新闻片段而产生的。不需要复杂的机器学习就能做出假新闻。在对抗垃圾邮件过滤器方面，多数系统依赖的是一系列信号，包括用户的 IP 地址和最近的活动，而不只是检查邮件写得好不好。

Rao 说道：「我知道 GPT-2 这样的模型可能被恶意使用，但目前开源的类似模型都有这种可能性。抛出「过于危险」这几个字太随意了，没有经过大量思考或实验。我认为 OpenAI 没有花费足够时间证明 GPT-2 的危险性。」

Yann LeCun 曾揶揄道：「每个人类都有潜在制造假新闻、传播阴谋论、影响他人的可能性，所以我们应该停止造人吗？」

作为 OpenAI 的代表，Brundage 称 OpenAI 咨询了外部专家来评估该模型的风险性，他们不仅仅针对 GPT-2，而是对复杂的文本生产系统的风险性进行了广泛分析。发布完整模型的举动是「不可逆的」，因此 OpenAI 非常谨慎。

OpenAI 政策主管在接受 The Verge 采访时对比了 GPT-2 与换脸算法。换脸算法是开源项目，开源后很快席卷全世界，不同的人用它做不同的事，包括制作一些色情内容。

OpenAI 的各种解释，并没有让 LeCun 改变态度，这一次他以严肃的口吻发表了自己的观点：

一个严肃的问题：卷积神经网络正被用于很多应用。许多此类应用正对世界产生着积极影响，例如医疗影像、汽车安全系统、内容过滤、环境监督等……
但也有一些应用可能会产生负面影响，或者可能侵犯人们的隐私，例如在公共场所广泛部署人脸识别系统、攻击型武器、有偏见的「分析」系统等……
现在，假设这些负面影响在 1980 年代末是可以预测的，我们需要对卷积神经网络进行保密吗？
更有趣的地方在于：
1. 不可避免的是，卷积神经网络（或其他类似的东西）最终会有人重新发明出来（事实也是如此，很多人都做到了）。福岛邦彦（Kunihiko Fukushima）曾告诉我他在 20 世纪 80 年代末研究过一种反向传播训练的新认知机（Neocognitron），但当他看过我们 1989 年的论文之后感到非常「震惊」，随后停止了自己的研究。
2. 在 2002 年以前，市面上并没有开源的卷积神经网络/深度学习软件平台（卷积神经网络曾是 20 世纪 90 年代初商用工具包 SN 的一个功能，后来进入了 2002 年推出的开源工具包 Lush。在 20 世纪 90 年代中期以前，OSS 并不常见）。所以在某种程度上，卷积神经网络直到 2002 年才被完全发布，而在此之前很少有人会注意到，或者用 Lush 来训练一个卷积神经网络。

媒体炒作

研究人员表示，虽然有关文本生成模型和学术访问危险的讨论还没有明显的结论，但与公众交流新技术的问题更为棘手。

关于 OpenAI 做法，很多媒体报道的焦点都在于「太危险而不能公开」，这种报道掩盖了该技术带来的实际威胁。于是像《Elon Musk's OpenAI builds artificial intelligence so powerful it must be kept locked up for the good of humanity》这样的标题变得很常见。（Musk 与 OpenAI 的联系是实验室长期存在的问题。他是该组织的联合创始人，但据报道，他几乎没有直接参与过实验室事务，并于去年辞去了董事会的职务。）

一直以来，科学家们对其领域的糟糕报道感到沮丧并不是什么新鲜事，但对于 AI 研究来说，这种报道尤其危险。部分是因为公众对 AI 的看法与 AI 实际能力不符，而另一部分是因为 AI 领域正努力解决资金和监管等问题。如果公众对 AI 过度担忧，是否会导致以后的 AI 研究不再那么有意义？

鉴于此，有些研究人员认为 OpenAI 针对 GPT-2 的决策导致了各种夸大其实的报道，当然媒体自身也没有对事件做出恰当地报道，因为他们并没有真正地理解这项研究究竟有什么意义和影响。

Anandkumar 表示：「对那些关注 OpenAI 这项工作的人我深表钦佩，这项研究很有趣，但不值得媒体这样关注。这样不利于研究社区的健康发展，也不利于公众认知的健康发展。」

OpenAI 表示已经尽了最大努力来降低这种炒作，他们对记者强调了该系统的局限性，并希望在试验该项目时会发现其缺陷。「我们知道模型有时候会犯错，我们也向记者告知了这一点，我们也希望他们在进行尝试时能够发现犯错的地方。」Brundage 表示。

事实上，媒体对新科技的报道失实并不鲜见。虽然 OpenAI 限制 GPT-2 发布的决定有些不符合传统，但有些实验室做得更彻底。例如，专注于减轻 AI 系统威胁的机器智能研究所（MIRI），从去年 11 月开始就「不公开」其研究，除非有「明确决定」，否则不会发表研究报告。

该实验室在一篇很长的博客中列出了很多关于不公开研究的原因，但它表示想专注于「deconfusion」——即在更广泛地参与人工智能研究之前，明确关于人工智能风险的条款。它引用了一名董事会成员的话，称 MIRI「独自闭关自守，同时将政治、外联以及人工智能安全社区的影响力等问题留给他人。」

这种做法与 OpenAI 完全不同，OpenAI 虽然限制了模型的发布，但已经尽了最大努力来处理其它的问题。

Brundage 表示，虽然受到了很多批评，但 OpenAI 认为其「大体」上做了正确的决定，以后遇到类似的情况时可能还会做出同样的决定。最后他表示，实验室认为在威胁出现之前采取行动比在威胁出现之后进行讨论更好，即使批评者不同意他们这么做。

无论如何，研究上公开讨论总是有益的，它一方面促进了科学的健康传播，另一方面也促进了研究社区健康的发展。真心地期望，中国也能热烈起来。

产业OpenAI自然语言处理

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

自动摘要技术

自动摘要是指给出一段文本，我们从中提取出要点，然后再形成一个短的概括性的文本。

来源：机器之心

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型，包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍，该模型是对 GPT 模型的直接扩展，在超出 10 倍的数据量上进行训练，参数量也多出了 10 倍。在性能方面，该模型能够生产连贯的文本段落，在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下，能够做到初步的阅读理解、机器翻译、问答和自动摘要。

来源：OpenAI博客

Elon Musk人物

伊隆·马斯克（Elon Musk）是一名美籍和加籍企业家，出生于南非。作为SpaceX、特斯拉和PayPal的创始人而闻名。

所属机构

OpenAI