2 月 14 日,OpenAI 发布大型无监督语言模型 GPT-2,它能够产生连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。
文章一经发布,在媒体界激发了巨大的响应和想象,也同样引起诸多研究人员的关注和期待。但 OpenAI 表示,考虑到可能存在的对该技术的恶意使用,将不发布训练模型,而只发布一个较小模型供研究、实验使用,相关的数据集、训练代码、模型权重则均未开源。
想象、期待与结果的落差激起千层浪,无论是媒体还是研究者社群都加入了声讨的行列,认为 OpenAI 夸大了这项研究的危险性,且无形中刺激了人们对 AI 的「狂热」。
这场争论涉及范围广大,甚至变成了一个梗。AI 研究者纷纷开玩笑称自己的实验室发现了一项重大突破,但是由于结果太危险而无法分享……当然这些都是玩笑,玩笑的背后则是促成了社区的讨论,研究人员该如何平衡开放性和负责任?如何向媒体传达新技术?
反对
这件事的导火索 GPT-2 是最新的文本生成算法,可能对未来产生巨大影响。向该模型输入标题或故事的前几行,它会输出与输入相匹配的文本。输出结果多种多样,但文本都非常连贯。比如,假新闻的文风和结构都与真正的新闻文章相似,还能基于伪造的数据源创建统计数据和引用。
这是一个有趣的工具,给人们带来很大的惊喜。但它实际上并不像人类那样具备理解输出文本的能力。它能生成文本,却无法理解文本。事实上,OpenAI 以及外界的专家们都认为它本质上并非突破,而只是前沿文本生成技术的一项杰出案例。
OpenAI 不全面开源该模型的原因是:这种模型可以用来生成假新闻造成恶劣影响,或者用来自动生成大量垃圾邮件造成泛滥。所以,OpenAI 仅在其 Github 项目中发布了技术论文和一个较小的模型,而没有公开训练数据和完整模型。
但是一直以来,AI 研究社区对于研究成果(代码、数据和模型)默认是应当公开的,只有这样才能够得以充分地讨论、优化和改进。因此 OpenAI 拒绝开源的举动及理由立即吸引了诸多关注。
外界的批评主要围绕几点。1)不开放模型,其他研究者就无法复现其成果;2)模型本身并不像 OpenAI 所描述的那样具有那么大的威胁性;3)OpenAI 没有采取足够的措施阻止媒体的炒作和歪曲。
复现
机器学习相对来说,还算是一个民主的领域,即使单独一个人也可以取得重大突破。但不得不承认,近年来人们开始更加关注资源密集型研究。GPT-2 这样的算法使用了大量算力以及大型数据集,这二者都是要花大钱的。(引用)如果大型研究机构不公开自己的研究,学术界根本无法与之匹敌。
反对者表示,如果像 OpenAI 这种资金充裕的研究机构不分享自己的研究成果,社区就会越来越贫乏。加州理工学院教授兼英伟达机器学习研究主任 Anima Anandkumar 表示:「这种做法对学术界非常不利,……OpenAI 正有效地借助其影响力使 ML 研究变得更加封闭和不可及。」
对于可能造成不利影响的研究,或许公开研究成果甚至更加重要,其他研究者可以找到该研究的弱点并寻求应对方法。可以想象,对于没有太多资金支持的多数研究者来讲,没有源代码根本不可能复现出模型;而另一方面,对于那些想利用这些技术的组织或个人来讲,利益驱动,他们会投入足够多的资金去做这个事情,最终的结果不言而喻。Anandkumar 表示,「但我不认为封闭这个模型就能解决问题。」
研究 AI 社会影响的 OpenAI 科学家 Miles Brundage 表示,OpenAI「清楚地考虑」了这种权衡。他说,OpenAI 将通过邮件邀请更多人参与模型测试等方法来「缓和」不开源带来的问题。
威胁性
OpenAI 认为这项技术如果让别有用心的人利用了,将会给社会带来恶劣影响。GPT-2 是否真的具有这么大的威胁性呢?
Delip Rao 是研究 AI 检测假新闻和错误信息项目的文本生成专家。他认为,OpenAI 所描述的威胁太夸张了。以假新闻为例,文本的质量很少是一个障碍,因为这类错误信息大多是通过复制和粘贴其他新闻片段而产生的。不需要复杂的机器学习就能做出假新闻。在对抗垃圾邮件过滤器方面,多数系统依赖的是一系列信号,包括用户的 IP 地址和最近的活动,而不只是检查邮件写得好不好。
Rao 说道:「我知道 GPT-2 这样的模型可能被恶意使用,但目前开源的类似模型都有这种可能性。抛出「过于危险」这几个字太随意了,没有经过大量思考或实验。我认为 OpenAI 没有花费足够时间证明 GPT-2 的危险性。」
Yann LeCun 曾揶揄道:「每个人类都有潜在制造假新闻、传播阴谋论、影响他人的可能性,所以我们应该停止造人吗?」
作为 OpenAI 的代表,Brundage 称 OpenAI 咨询了外部专家来评估该模型的风险性,他们不仅仅针对 GPT-2,而是对复杂的文本生产系统的风险性进行了广泛分析。发布完整模型的举动是「不可逆的」,因此 OpenAI 非常谨慎。
OpenAI 政策主管在接受 The Verge 采访时对比了 GPT-2 与换脸算法。换脸算法是开源项目,开源后很快席卷全世界,不同的人用它做不同的事,包括制作一些色情内容。
OpenAI 的各种解释,并没有让 LeCun 改变态度,这一次他以严肃的口吻发表了自己的观点:
一个严肃的问题:卷积神经网络正被用于很多应用。许多此类应用正对世界产生着积极影响,例如医疗影像、汽车安全系统、内容过滤、环境监督等……
但也有一些应用可能会产生负面影响,或者可能侵犯人们的隐私,例如在公共场所广泛部署人脸识别系统、攻击型武器、有偏见的「分析」系统等……
现在,假设这些负面影响在 1980 年代末是可以预测的,我们需要对卷积神经网络进行保密吗?
更有趣的地方在于:
1. 不可避免的是,卷积神经网络(或其他类似的东西)最终会有人重新发明出来(事实也是如此,很多人都做到了)。福岛邦彦(Kunihiko Fukushima)曾告诉我他在 20 世纪 80 年代末研究过一种反向传播训练的新认知机(Neocognitron),但当他看过我们 1989 年的论文之后感到非常「震惊」,随后停止了自己的研究。
2. 在 2002 年以前,市面上并没有开源的卷积神经网络/深度学习软件平台(卷积神经网络曾是 20 世纪 90 年代初商用工具包 SN 的一个功能,后来进入了 2002 年推出的开源工具包 Lush。在 20 世纪 90 年代中期以前,OSS 并不常见)。所以在某种程度上,卷积神经网络直到 2002 年才被完全发布,而在此之前很少有人会注意到,或者用 Lush 来训练一个卷积神经网络。
媒体炒作
研究人员表示,虽然有关文本生成模型和学术访问危险的讨论还没有明显的结论,但与公众交流新技术的问题更为棘手。
关于 OpenAI 做法,很多媒体报道的焦点都在于「太危险而不能公开」,这种报道掩盖了该技术带来的实际威胁。于是像《Elon Musk's OpenAI builds artificial intelligence so powerful it must be kept locked up for the good of humanity》这样的标题变得很常见。(Musk 与 OpenAI 的联系是实验室长期存在的问题。他是该组织的联合创始人,但据报道,他几乎没有直接参与过实验室事务,并于去年辞去了董事会的职务。)
一直以来,科学家们对其领域的糟糕报道感到沮丧并不是什么新鲜事,但对于 AI 研究来说,这种报道尤其危险。部分是因为公众对 AI 的看法与 AI 实际能力不符,而另一部分是因为 AI 领域正努力解决资金和监管等问题。如果公众对 AI 过度担忧,是否会导致以后的 AI 研究不再那么有意义?
鉴于此,有些研究人员认为 OpenAI 针对 GPT-2 的决策导致了各种夸大其实的报道,当然媒体自身也没有对事件做出恰当地报道,因为他们并没有真正地理解这项研究究竟有什么意义和影响。
Anandkumar 表示:「对那些关注 OpenAI 这项工作的人我深表钦佩,这项研究很有趣,但不值得媒体这样关注。这样不利于研究社区的健康发展,也不利于公众认知的健康发展。」
OpenAI 表示已经尽了最大努力来降低这种炒作,他们对记者强调了该系统的局限性,并希望在试验该项目时会发现其缺陷。「我们知道模型有时候会犯错,我们也向记者告知了这一点,我们也希望他们在进行尝试时能够发现犯错的地方。」Brundage 表示。
事实上,媒体对新科技的报道失实并不鲜见。虽然 OpenAI 限制 GPT-2 发布的决定有些不符合传统,但有些实验室做得更彻底。例如,专注于减轻 AI 系统威胁的机器智能研究所(MIRI),从去年 11 月开始就「不公开」其研究,除非有「明确决定」,否则不会发表研究报告。
该实验室在一篇很长的博客中列出了很多关于不公开研究的原因,但它表示想专注于「deconfusion」——即在更广泛地参与人工智能研究之前,明确关于人工智能风险的条款。它引用了一名董事会成员的话,称 MIRI「独自闭关自守,同时将政治、外联以及人工智能安全社区的影响力等问题留给他人。」
这种做法与 OpenAI 完全不同,OpenAI 虽然限制了模型的发布,但已经尽了最大努力来处理其它的问题。
Brundage 表示,虽然受到了很多批评,但 OpenAI 认为其「大体」上做了正确的决定,以后遇到类似的情况时可能还会做出同样的决定。最后他表示,实验室认为在威胁出现之前采取行动比在威胁出现之后进行讨论更好,即使批评者不同意他们这么做。
无论如何,研究上公开讨论总是有益的,它一方面促进了科学的健康传播,另一方面也促进了研究社区健康的发展。真心地期望,中国也能热烈起来。