前一段时间,OpenAI 丢出了两枚炸弹,一是公布了当前最先进的语言模型,二是选择与开源「Say Goodbye」。他们担心 GPT-2 模型太好,会被不怀好意的人滥用。近来,很多研究者呼吁 OpenAI 尽快开源这个 15 亿参数量的大模型,因为它并不能真正「理解」自然语言。
其实想想也是,语言模型只能确定自然语句或语法的正确性,它并不能对自然语言的逻辑进行建模。很快机器学习社区就发起了一个暗讽 GPT-2 的帖子:为了防止滥用,我是不是不应该公布在 MNIST 训练的 23064 层残差网络?
很多人认为谷歌的 BERT是一种「暴力美学」,它美的地方在于提出了新型双向语言建模任务,辅以大数据、大模型最终能打造暴力美感,但 GPT-2 并没有给我们这种感觉。
也许现在随着模型变得越来越大,我们能更好地「迁移」到其它任务,如知识问答和情感分析等。但是从 fast.ai 的 ULMFit、OpenAI 的 GPT、AI2 的 ELMO、到谷歌的 BERT 以及刚刚公布的 GPT-2,真正具有美感的还是少数,不论是新架构还是新任务,闪亮的创新点才是重点。
热门的 Reddit 帖子
OpenAI 发布惊艳的研究成果不足为奇。真正让人意外的是他们决定不开源完整的研究成果,表示担心自己的技术被不怀好意的人用来制造垃圾邮件和假新闻。这一做法在 Reddit、Twitter 等平台上激起了热烈讨论,媒体也争相报道,讨论 AI 研究如何变得「危险到不能公布」。
OpenAI 担心技术被不当利用无可厚非,但我并不赞同他们拒绝开源 GPT-2 这种做法。首先,只有某几种类型的危险技术才应该受到控制。基于此,我认为拒绝开放完整的 GPT-2 模型既没必要,也不利于 AI 的未来发展。
欺骗性和破坏性的技术
我把有可能被滥用的现代技术大体分为欺骗性技术和破坏性技术。破坏性技术主要在物理领域运行,如化学武器、实验室工程超级病毒、致命自动化武器或原子弹。
而欺骗性技术则主要在我们的头脑中运行,可能被不怀好意的人大范围地用于操纵或控制人类。如 deepfakes、Photoshop 或互联网、印刷机。除了自动化武器之外,关于 AI 滥用的的担忧也属于这一类别。
Deepfakes 允许操作者将面部表情叠加到其他人的脸上。
对于比较危险的破坏性技术,保护社会的唯一方法就是严格限制来源(如造核武器的铀)。如果没有其它控制机制,仅仅拒绝公布一项危险技术的细节是远远不够的:技术的快速发展使任何成果都可能会在几年内被独立复制,除非被某种外力强行阻止。以这种方式抑制某项技术是极其笨拙的,也不是万无一失的。恐怖分子总有机会搜集放射性材料造出脏弹,但我们现在别无选择:如果人们能够轻易从网上获取零部件和组装方法来自己组装原子弹,那地球就会成为一片坟场。
然而,对于欺骗性技术,却有一个更高效的替代方案。与其压制一项技术,不如将其威力公之于众。尽管这听上去有些违反直觉,但如果公众广泛意识到被操纵的可能性,欺骗性技术将失去很大威力。虽然对核武器的了解无法使我们免受其威胁,但如果对语音合成技术的最新进展有所了解,我们会对「奥巴马说中文」这件事更加怀疑。子弹不会长眼睛,但根据我们对现代照片编辑技术的了解,普京不太可能真的会骑熊。
你可以在网上找到普京骑任何东西的照片。
举一个具体的例子,我们可以看看一种有可能引发混乱但(谢天谢地)并没有摧毁现代社会的技术:Photoshop。
解析 GPT-2
通过具体分析文本生成,OpenAI 展示了一些模型生成的故事案例,并表明 GPT-2 可能会带来一些危险应用。为了方便起见,我们在下面复制了独角兽故事的前提和模型生成的前两段。
前提:科学家们震惊地发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英语。
模型:这群生物有着独特的角,因此科学家将其命名为 Ovid's Unicorn。这些长着四支银白色角的生物之前并不为科学家所知。而今在将近两个世纪后,这一奇怪现象的神秘面纱终于得到了探索。
虽然从直观上而言,语言模型只能判断一句话是「人话」的概率,它并不会内在理解自然语言的逻辑,更不用说理解背后的知识了。但是从 OpenAI 给出的案例而言,GPT-2 似乎能理解自然语言的逻辑,我们只能认为这也许是大数据拟合的力量吧。值得注意的是,除了多次运行模型并手动挑选最佳样本外,故事前提也是精心挑选的。特别是前提介绍了说英语的独角兽,这很容易掩盖更深层次的问题:生成的无意义句子能拟合无意义的前提。
即便考虑上述情况,这个短样本仍然存在着严重的连贯性缺陷。第一句暗示独角兽只有一支角,而生成的第二句却表明有四支角;前提表明发现独角兽是最近的新闻,而第三句却又暗示独角兽两个世纪前就被发现了。因为模型不能建模自然语言的逻辑,因此这种不连贯或相互矛盾会大量出现在文本生成中。
这些挑刺可能看起来作用不大,但它们却揭示了深度学习模型中普遍存在的一个更深层次的问题:GPT-2 并没有真正「理解」它所生成的文本。其实生成一目了然的自然语句非常容易,例如后现代作文生成器和 Mathgen,它们都是用上下文无关的语法生成「语法正确」的句子,不过这些句子并没有任何语义含义。毕竟对于大多数不熟悉数学的读者而言,下面两个方程式都像胡言乱语。
生成语法正确的句子很容易,但确保句子连贯很难。
不过公平地说,GPT-2 超过了其它大多数语言生成模型,但是离人类水平的连贯性语言还有很长的路要走。此外重要的是,OpenAI 展示的样本都没到被恶意使用的水平。
此外,GPT-2 并没有显著超过其它开源语言模型,研究者在论文中也表示并不确定表现能超过 BERT 等语言模型。BERT 表示,它们的双向编码器提供的性能比单向语言模型要好。GPT 系列的模型都是传统的单向语言模型,但 OpenAI 并没有详细地对比 GPT-2 与其它前沿语言模型。由于 OpenAI 并没有微调它们的模型,因此我们也不能直接对比各模型在自动文本摘要或机器翻译等下游任务上的性能。
开源完整模型的重要性
有些人可能认为开源完整的模型不是很有必要,只要披露研究结果就行了。但这种想法是不对的。
AI 研究发展如此之快的部分原因就是开源,研究人员可以在眨眼之间复现已有的研究,而不必从头开始重建之前的工作。作为 AI 研究领域最具影响力的机构之一,OpenAI 强大的开源历史毫无疑问激励了其他人来做同样的事。如果 OpenAI 的新政策违背了这一趋势,其他研究人员可能也会效仿,而这会对为这个领域带来巨大利益的开源文化造成威胁。
此外,开源促使信息向大众传播。通过开源,thispersondoesnotexist.com 网站在 ProductHunt 上获得了最高的排名。通过开源,艺术家们制作了首幅 AI 生成的画作并在佳士得拍卖行出售。虽然 OpenAI 的研究博客仅被热爱机器学习的从业者所阅,但是建立在开源基础上的研究可以接触到更广泛的受众,而这些人不太可能会看到最初的研究声明。
去年,这幅 AI 生成的画作卖了近 50 万美元。
开源也确保了研究的合理性。这个领域有很多名不副实的研究,而研究人员是否可以通过检查开源代码来复现非比寻常的研究结果非常重要。以 OpenAI 的声望,没有人会质疑其研究结果,不管它有没有开源,但这一声望是建立在其先前的开源工作上的。在研究中,即使你没有作假,其他人也可能会作假。而没有开源就没有办法来验证,研究人员和公众都无法穿透迷雾寻求真相。
这也并不是说所有东西都应该不假思索地开源。那些危险的破坏性技术绝对不能让其他人轻易获得。即使是欺骗性的技术,如果非常危险,就有必要在发表论文和公布代码之间增加延迟时间,以防止带有恶意的快速反应者在公众还没消化研究成果之前趁机而入。如果 OpenAI 认为 GPT-2 就属于这种技术,那我会建议他们晚点再开源模型。
结语
AI 研究从开源文化中获益良多。虽然多数学科的最新研究获取渠道收费昂贵,但任何有网络的人都可以和斯坦福教授一样访问最前沿的 AI 研究,做实验和克隆开源代码库一样简单,而租赁云端的 GPU 仅需几美分/小时。我们致力于通过公开发布学习材料、新的研究成果以及开源我们的项目来实现人工智能的民主化,这也是 AI 领域发展如此迅速的原因。
我很赞赏 OpenAI 出色的新研究,它突破了语言建模和文本生成的限制。我也感谢他们深思熟虑,愿意参与一场关于研究伦理的讨论。尽管这个话题非常重要,但却很少有人讨论。OpenAI 提出了人工智能滥用的问题,这的确是我们要考虑的问题,但不应成为不开源其研究的理由。
我真诚地希望,2019 年机器学习不会从一个开放的系统转变为封闭的系统,这对该领域的发展既不安全也没有帮助。为了我们的未来,OpenAI,请开源你们的语言模型。
原文地址:https://thegradient.pub/openai-please-open-source-your-language-model/