Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

OpenAI被讽ClosedAI?GPT-2这种语言模型并没有想象中的强大

前一段时间,OpenAI 丢出了两枚炸弹,一是公布了当前最先进的语言模型,二是选择与开源「Say Goodbye」。他们担心 GPT-2 模型太好,会被不怀好意的人滥用。近来,很多研究者呼吁 OpenAI 尽快开源这个 15 亿参数量的大模型,因为它并不能真正「理解」自然语言。

其实想想也是,语言模型只能确定自然语句或语法的正确性,它并不能对自然语言的逻辑进行建模。很快机器学习社区就发起了一个暗讽 GPT-2 的帖子:为了防止滥用,我是不是不应该公布在 MNIST 训练的 23064 层残差网络?

很多人认为谷歌的 BERT是一种「暴力美学」,它美的地方在于提出了新型双向语言建模任务,辅以大数据、大模型最终能打造暴力美感,但 GPT-2 并没有给我们这种感觉。

也许现在随着模型变得越来越大,我们能更好地「迁移」到其它任务,如知识问答和情感分析等。但是从 fast.ai 的 ULMFit、OpenAI 的 GPT、AI2 的 ELMO、到谷歌的 BERT 以及刚刚公布的 GPT-2,真正具有美感的还是少数,不论是新架构还是新任务,闪亮的创新点才是重点。

热门的 Reddit 帖子

OpenAI 发布惊艳的研究成果不足为奇。真正让人意外的是他们决定不开源完整的研究成果,表示担心自己的技术被不怀好意的人用来制造垃圾邮件和假新闻。这一做法在 Reddit、Twitter 等平台上激起了热烈讨论,媒体也争相报道,讨论 AI 研究如何变得「危险到不能公布」。

OpenAI 担心技术被不当利用无可厚非,但我并不赞同他们拒绝开源 GPT-2 这种做法。首先,只有某几种类型的危险技术才应该受到控制。基于此,我认为拒绝开放完整的 GPT-2 模型既没必要,也不利于 AI 的未来发展。

欺骗性和破坏性的技术

我把有可能被滥用的现代技术大体分为欺骗性技术和破坏性技术。破坏性技术主要在物理领域运行,如化学武器、实验室工程超级病毒、致命自动化武器或原子弹。

而欺骗性技术则主要在我们的头脑中运行,可能被不怀好意的人大范围地用于操纵或控制人类。如 deepfakes、Photoshop 或互联网、印刷机。除了自动化武器之外,关于 AI 滥用的的担忧也属于这一类别。

Deepfakes 允许操作者将面部表情叠加到其他人的脸上。

对于比较危险的破坏性技术,保护社会的唯一方法就是严格限制来源(如造核武器的铀)。如果没有其它控制机制,仅仅拒绝公布一项危险技术的细节是远远不够的:技术的快速发展使任何成果都可能会在几年内被独立复制,除非被某种外力强行阻止。以这种方式抑制某项技术是极其笨拙的,也不是万无一失的。恐怖分子总有机会搜集放射性材料造出脏弹,但我们现在别无选择:如果人们能够轻易从网上获取零部件和组装方法来自己组装原子弹,那地球就会成为一片坟场。

然而,对于欺骗性技术,却有一个更高效的替代方案。与其压制一项技术,不如将其威力公之于众。尽管这听上去有些违反直觉,但如果公众广泛意识到被操纵的可能性,欺骗性技术将失去很大威力。虽然对核武器的了解无法使我们免受其威胁,但如果对语音合成技术的最新进展有所了解,我们会对「奥巴马说中文」这件事更加怀疑。子弹不会长眼睛,但根据我们对现代照片编辑技术的了解,普京不太可能真的会骑熊。

你可以在网上找到普京骑任何东西的照片。

举一个具体的例子,我们可以看看一种有可能引发混乱但(谢天谢地)并没有摧毁现代社会的技术:Photoshop。

解析 GPT-2

通过具体分析文本生成,OpenAI 展示了一些模型生成的故事案例,并表明 GPT-2 可能会带来一些危险应用。为了方便起见,我们在下面复制了独角兽故事的前提和模型生成的前两段。

前提:科学家们震惊地发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英语。

模型:这群生物有着独特的角,因此科学家将其命名为 Ovid's Unicorn。这些长着四支银白色角的生物之前并不为科学家所知。而今在将近两个世纪后,这一奇怪现象的神秘面纱终于得到了探索。

虽然从直观上而言,语言模型只能判断一句话是「人话」的概率,它并不会内在理解自然语言的逻辑,更不用说理解背后的知识了。但是从 OpenAI 给出的案例而言,GPT-2 似乎能理解自然语言的逻辑,我们只能认为这也许是大数据拟合的力量吧。值得注意的是,除了多次运行模型并手动挑选最佳样本外,故事前提也是精心挑选的。特别是前提介绍了说英语的独角兽,这很容易掩盖更深层次的问题:生成的无意义句子能拟合无意义的前提。

即便考虑上述情况,这个短样本仍然存在着严重的连贯性缺陷。第一句暗示独角兽只有一支角,而生成的第二句却表明有四支角;前提表明发现独角兽是最近的新闻,而第三句却又暗示独角兽两个世纪前就被发现了。因为模型不能建模自然语言的逻辑,因此这种不连贯或相互矛盾会大量出现在文本生成中。

这些挑刺可能看起来作用不大,但它们却揭示了深度学习模型中普遍存在的一个更深层次的问题:GPT-2 并没有真正「理解」它所生成的文本。其实生成一目了然的自然语句非常容易,例如后现代作文生成器和 Mathgen,它们都是用上下文无关的语法生成「语法正确」的句子,不过这些句子并没有任何语义含义。毕竟对于大多数不熟悉数学的读者而言,下面两个方程式都像胡言乱语。

生成语法正确的句子很容易,但确保句子连贯很难。

不过公平地说,GPT-2 超过了其它大多数语言生成模型,但是离人类水平的连贯性语言还有很长的路要走。此外重要的是,OpenAI 展示的样本都没到被恶意使用的水平。

此外,GPT-2 并没有显著超过其它开源语言模型,研究者在论文中也表示并不确定表现能超过 BERT语言模型BERT 表示,它们的双向编码器提供的性能比单向语言模型要好。GPT 系列的模型都是传统的单向语言模型,但 OpenAI 并没有详细地对比 GPT-2 与其它前沿语言模型。由于 OpenAI 并没有微调它们的模型,因此我们也不能直接对比各模型在自动文本摘要或机器翻译等下游任务上的性能。

开源完整模型的重要性

有些人可能认为开源完整的模型不是很有必要,只要披露研究结果就行了。但这种想法是不对的。

AI 研究发展如此之快的部分原因就是开源,研究人员可以在眨眼之间复现已有的研究,而不必从头开始重建之前的工作。作为 AI 研究领域最具影响力的机构之一,OpenAI 强大的开源历史毫无疑问激励了其他人来做同样的事。如果 OpenAI 的新政策违背了这一趋势,其他研究人员可能也会效仿,而这会对为这个领域带来巨大利益的开源文化造成威胁。

此外,开源促使信息向大众传播。通过开源,thispersondoesnotexist.com 网站在 ProductHunt 上获得了最高的排名。通过开源,艺术家们制作了首幅 AI 生成的画作并在佳士得拍卖行出售。虽然 OpenAI 的研究博客仅被热爱机器学习的从业者所阅,但是建立在开源基础上的研究可以接触到更广泛的受众,而这些人不太可能会看到最初的研究声明。

去年,这幅 AI 生成的画作卖了近 50 万美元。

开源也确保了研究的合理性。这个领域有很多名不副实的研究,而研究人员是否可以通过检查开源代码来复现非比寻常的研究结果非常重要。以 OpenAI 的声望,没有人会质疑其研究结果,不管它有没有开源,但这一声望是建立在其先前的开源工作上的。在研究中,即使你没有作假,其他人也可能会作假。而没有开源就没有办法来验证,研究人员和公众都无法穿透迷雾寻求真相。

这也并不是说所有东西都应该不假思索地开源。那些危险的破坏性技术绝对不能让其他人轻易获得。即使是欺骗性的技术,如果非常危险,就有必要在发表论文和公布代码之间增加延迟时间,以防止带有恶意的快速反应者在公众还没消化研究成果之前趁机而入。如果 OpenAI 认为 GPT-2 就属于这种技术,那我会建议他们晚点再开源模型。

结语

AI 研究从开源文化中获益良多。虽然多数学科的最新研究获取渠道收费昂贵,但任何有网络的人都可以和斯坦福教授一样访问最前沿的 AI 研究,做实验和克隆开源代码库一样简单,而租赁云端的 GPU 仅需几美分/小时。我们致力于通过公开发布学习材料、新的研究成果以及开源我们的项目来实现人工智能的民主化,这也是 AI 领域发展如此迅速的原因。

我很赞赏 OpenAI 出色的新研究,它突破了语言建模和文本生成的限制。我也感谢他们深思熟虑,愿意参与一场关于研究伦理的讨论。尽管这个话题非常重要,但却很少有人讨论。OpenAI 提出了人工智能滥用的问题,这的确是我们要考虑的问题,但不应成为不开源其研究的理由。

我真诚地希望,2019 年机器学习不会从一个开放的系统转变为封闭的系统,这对该领域的发展既不安全也没有帮助。为了我们的未来,OpenAI,请开源你们的语言模型


原文地址:https://thegradient.pub/openai-please-open-source-your-language-model/

入门OpenAI自然语言处理语言模型
11
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

推荐文章
向他人索取,也可以说的这么理直气壮?