Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

word2vec作者爆料:seq2seq是我的想法、GloVe抄袭技巧,反击来了

Tomas Mikolov 这篇爆料满满的文章,里面涉及的研究人员已经开始回击了。

随着 NeurIPS 2023 获奖论文的公布,十年前的词嵌入技术 word2vec 可谓是实至名归的获得了时间检验奖。这篇论文「Distributed Representations of Words and Phrases and their Compositionality」由当时都还在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 撰写。

图片
不过,Word2vec 首篇论文是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。对比作者栏,只是增加了 Ilya。而投稿到当年 NeurIPS 的这篇「Distributed Representations of Words and Phrases and their Compositionality」算是真正让 Word2vec 被广泛应用的改进论文。

图片

本该是件值得高兴的事,但论文一作 Tomas Mikolov 似乎对有些事情并不满意,最近他分享了论文背后的更多故事。感兴趣的读者可以参考《论文遭首届 ICLR 拒稿、代码被过度优化,word2vec 作者 Tomas Mikolov 分享背后的故事》。

图片

原文地址:https://www.facebook.com/tomas.mikolov/posts/pfbid0avhBpB2WULd3KNtAieyiDCFpP9MQggxW1xSh6RXZDjWF6sGzgpYa638KMAyF75JSl

Tomas 在 Facebook 上发表的这篇获奖感言,爆料了很多内容,文章发出之后,得到了很多人的关注。

word2vec 原始论文曾被 ICLR 拒稿

Tomas Mikolov 表示 word2vec 原始论文(即 Efficient Estimation of Word Representations in Vector Space)在 2013 年首届 ICLR 会议被拒绝接收了,尽管当时的接收率很高。在当年的评选中,审稿人给出了一次「弱拒绝」和四次「强烈拒绝」。

图片

感兴趣的读者,可以前去查看:https://openreview.net/forum?id=idpCdOWtqXd60

这个问题很多人表示有同感,LoRA 作者 Weizhu Chen 表示,自己也有相似的经历,LoRA 论文在第一次投稿时也被拒绝了,因为审稿人认为 LoRA 太简单了。 

图片

「SIFT 在 1997 年 ICCV 和 1998 年 CVPR 两次被拒稿。」

图片

除了 word2vec 原始论文被拒稿之外,Tomas Mikolov 还透漏了其他事情,我们接着往下看。

seq2seq 的最初想法到底是谁

Tomas Mikolov 表示他于 2012 年加入谷歌大脑团队,在谷歌大脑工作期间曾与 Quoc Le 和 Ilya Sutskever 讨论过一些想法,关于这个想法 Tomas Mikolov 是这么说的:「其实在加入谷歌之前,我就提出了一个非常简单的想法,通过在句子对(比如法语 - 英语)上训练神经语言模型来实现端到端的翻译,然后在看到第一句话后使用生成模式生成翻译。这对短句子效果很好,但在长句子上就不那么奏效了。」

他曾与谷歌的其他人包括 Quoc Le、Ilya Sutskever 在内多次讨论了这个项目。然而,事情开始出现转折,Tomas Mikolov 选择离开谷歌加入 Facebook AI,而这个项目也被其他人接手了。

Tomas Mikolov 指出:「谷歌最终以从序列到序列(sequence to sequence)为名发表了我的想法,不仅没有提到我是共同作者,而且在长长的致谢部分提及了谷歌大脑中几乎所有的人,唯独没有我。那时是资金大量涌入人工智能领域的时期,每一个想法都价值连城。看到深度学习社区迅速变成某种权力的游戏,我感到很悲哀。」

图片

图片

论文地址(上)以及致谢名单(下):https://arxiv.org/pdf/1409.3215.pdf

在 Tomas Mikolov 看来,正是这些想法促进了从序列到序列(sequence to sequence,seq2seq)的研究,也就是说 seq2seq 的想法最初来自于 Tomas Mikolov。

然而,作为 seq2seq 作者的 Quoc Le 并不认同 Tomas 的说法,Quoc Le 先是对 Tomas 参与的 word2vec 论文获奖表示祝贺。然后话锋一转,「关于 seq2seq,Tomas 的说法有不准确的地方。特别是,我们都记得非常清楚,他没有向我们提出这个想法,而且当我们与他分享端到端的翻译想法时,他实际上非常怀疑。事实上,尽管他持怀疑态度,我们还是非常努力地让这个想法发挥作用。」

图片

图源:https://twitter.com/quocleix/status/1736523075943125029

GloVe 论文中引用了 Tomas 的研究 7 次

除了 seq2seq,Tomas 还提到了另一个项目,即斯坦福 NLP 小组的 GloVe 项目(全局词表示向量,被很多人认为优于 word2vec)。这项研究由 Jeffrey Pennington、Richard Socher、Christopher D. Manning 共同完成。

图片

论文地址:https://aclanthology.org/D14-1162.pdf

Tomas 表示:「虽然该项目从我们的项目中复刻了很多技巧,但总感觉 GloVe 倒退了一步:速度较慢,还需要更多内存,生成的向量质量比 word2vec 低。然而,GloVe 是基于在更多数据上预训练的词向量发布的,因而很受欢迎。之后,我们在 fastText 项目中修复了相关问题,在使用相同数据进行训练时,word2vecGloVe 好得多。」

GloVe 的作者之一 Richard Socher 对此进行了反击(以下内容进行了部分概括)。

图片

图源:https://twitter.com/RichardSocher/status/1736161332259614989

「我很高兴 Tomas Mikolov 和他的合著者赢得了时间检验奖。这是当之无愧的,几天前我已经在 Facebook 上向他表示祝贺了。

Tomas 的做法有点像 Schmidhuber(Schmidhuber 多次公开挑战其他研究人员原创性研究),这是可以理解的。学术界经常会出现这种情况:(一项研究)成功了,会有很多人认领,可以将其理解为『父母』,只有失败了才是『孤儿』(言外之意是没有人会在意)。

一个有意义的主题可以激发聪明的大脑和创造性的想象,这些人往往有相似的想法,许多想法都是不确定的。的确,很多想法在某些时候被提及,但没有大规模实施或执行。」

Richard Socher 继续说道,当 Mikolov 以一种有点不满的方式说我们抄袭了其研究的许多技巧时,我们有点不明白,因为我们实际上在 GloVe 论文中引用了他的研究 7 次

确实,在这篇论文中,我们搜索关键词 Mikolov,除去参考文献出现的 3 次,论文中确实是 7 次。

图片

最后,Richard 表示「早在 2010 年,只有少数人真正关注并致力于语言网络的研究:Ronan Collobert、Jason Weston、Tomas Mikolov、Yoshua Bengio、我自己、Chris Manning 和其他一些人。现在这个领域发展得如此之快,除非你继续做出令人惊叹的工作,否则很快就会被人们忘记。AI 以及深度 NLP 领域在过去的一年里发展很快,许多刚刚加入或注意到它的人都不知它从何而来。可以理解的是,这让一些已经从事了一段时间并奠定了基础的人感到不安。但是,我们应该对我们的想法以如此巨大的速度扩展感到兴奋。」

前面我们提到 Tomas 认为 GloVeword2vec 倒退了一步,但是有人针对这一点也进行了反驳:「尽管 word2vec词嵌入的第一个介绍,但我发现 Glove 更直观且易于移植。你从任何语料库构建词嵌入的脚本都非常方便。我们在生产中仍然使用 Glove 与 SIF 一起作为轻量级第一过滤器。」

图片

尽管 Tomas Mikolov 的文章引发的一系列讨论与争议还在继续,但不管事实如何,好在 word2vec 获得了 NeurIPS 2023 时间检验奖。

最后想问一句,2014 年发表到 NeurIPS 的 Seq2Seq 会获得明年的 NeurIPS 时间检验奖吗?

图片

产业Word2VecNeurIPS 2023Tomas Mikolov
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

fastText技术

Facebook开发的文本处理工具,是一个用于高效学习单词表示和句子分类的库。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

序列到序列技术

神经语言模型技术

语言模型是估计单词序列的联合概率函数,比如给一个长度为m的单词序列,通过使用语言模型,可以获得这m个单词分布的概率P(W1,...,Wm)。对于许多的自然语言处理的应用,可以估计不同短语的概率是极具应用价值的。语言模型可以应用于语音识别,机器翻译,语音标记,解析,手写识别,信息检索等领域。

推荐文章
暂无评论
暂无评论~