Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

你的论文能否中顶会?这篇分析同行评审结果的论文可帮助你

在人工智能领域,会议论文是证明研究人员学术水平的重要一环。是否存在一些「技巧」可以提高论文被大会接收的几率?人工智能是否可以帮助我们?近日,来自卡耐基梅隆大学(CMU)研究者们收集了上万篇 AI 顶级会议的接收/被拒论文,并使用机器学习工具进行分析,获得了一些有趣的结果。最后,当然……这一研究的论文已经被即将在 6 月 1 日于美国举行的自然语言处理顶会 NAACL 2018 接收。

项目地址:https://github.com/allenai/PeerRead

简介

权威的科学会议利用同行评审来决定要将哪些论文列入其期刊或会议记录。虽然这一过程似乎对科学出版物至关重要,但其往往也饱受争议。意识到同行评审的重要影响,一些研究人员研究了这一过程中的各个方面,包括一致性、偏差、作者回应和一般评审质量 (Greaves 等,2006;Greaves 等,2011;De Silva and Vance, 2017)。例如,NIPS 2014 会议的组织者将 10% 的会议提交论文分配给两组不同的审查人员,以衡量同行评审过程的一致性,并观察到两个委员会对超过四分之一的论文接受/拒绝决定意见不一样 (Langford and Guzdial, 2015)。

尽管已经有了这些努力,但是关于同行评审的定量研究还是有限的,很大程度上是由于只有很少的人能够接触到一个学术活动的同行评审(例如期刊编辑和程序主席)。本文的目的是通过首次引入一个用于研究目的的同行评审公共数据集: PeerRead,来降低科学界研究同行评审的障碍。

在此论文中,我们使用三种策略来构建数据集: ( i ) 与会议主席、会议管理系统协作,允许作者和评审人分别选择其论文草稿和同行评审。( ii ) 抓取公开的同行评审,并用数字评分对文本评审进行标注,如「清晰度」和「影响」。(iii) 对与重要会议提交日期一致的 arXiv 提交论文进行编目,并在以后的会议记录中检查是否出现类似论文。总的来说,该数据集由 14700 篇论文草稿和相应的「接受/拒稿」决定组成,其中 3000 篇论文包含专家撰写的 10700 条文本评论。此外,我们将定期发布 PeerRead,为每年新的学术活动增加更多的内容。

PeerRead 数据集可以以多种方式使用。对同行评审的定量分析可以提供见解,帮助更好地理解 (且可能改进) 评审过程的各种细微差别。例如,在该论文的第三部分中,我们分析了总体推荐分数与单个方面分数 (例如清晰度、影响和原创性) 之间的相关性,并量化了口头演示推荐评论与海报推荐评论有何不同。其他的样本可能包括匹配评论分数与作者,以揭示性别或国籍偏差。从教学角度来看,PeerRead 数据集还为经验不足的作者和首次审稿人提供了不同的同行评审实例。

表 1: PeerRead 数据集。Asp. 代表评审是否具有特定方面的得分(例如清晰度)。注意,ICLR 包括由标注者给出的不同方面的得分(详见 2.4 部分)。Acc/Rej 一列表示接受/拒绝的论文比例。需要注意,NIPS 仅仅提供了被接受的论文的评审意见。

作为一个自然语言处理资源,同行评审是个有趣的挑战,无论是从语义情感分析领域还是文本生成领域,前者前者预测被评审论文的不同属性,例如清晰度和原创性,后者则是在给定一篇论文的情况下,自动地生成它的评审意见。在被以足够高的质量解决时,这种类型的 NLP 任务也许会在评审过程中帮助审稿人、区域主席以及程序主席,例如,通过为某些论文投稿减少所需的审稿人数量。

在第四部分中,我们基于这个数据集引入了两个新的 NLP 任务:(i) 预测一篇论文是否会被某个学术会议接受,(ii)预测论文在某些方面的数字得分。我们的结果显示:在 PeerRead 的四个不同部分中,与大多数全部拒绝(reject-all) 基线相比,我们能够以误差减小 6--21%de 的结果预测「接受/拒稿」决策结果。由于我们使用的基线模型相当简单,因此有足够的空间来开发更强的模型以做出更好的预测。

论文接受分类

论文接受分类是一个二分类任务:给定一篇论文草稿,预测在一组预定的学术会议中它将会被接受还是拒稿。

模型: 我们训练一个二值分类器来为一篇论文预测「接受/拒稿」的概率,也就是:P(accept=True | paper)。我们用不同类型的分类器做了实验:logistic 回归、使用线性核或者 RBF 核的 SVM、随机森林、最近邻、决策树、多层感知机、AdaBoost 以及朴素贝叶斯。我们使用了人工设计的特征,而不是神经网络模型,因为人工特征易于解释。

表 5: 接受分类的测试准确率。在所有的案例中,我们的最佳模型超越了大多数分类器。

我们使用了 22 个粗略的特征,例如标题长度,专门的术语(例如「深度」和「神经」)是否出现在摘要中,以及稀疏和密集的词汇特征。

实验设置:我们使用 PeerRead 数据集中的 ICLR 2017 和 arXiv 部分来做实验。我们为每一个 arXiv 类别训练了独立的模型:例如 cs.cl,cs.lg,以及 cs.ai。我们的所有模型都使用 python 的 sklearn 实现 (Pedregosa et al., 2011)。我们考虑了支持向量机和 logistic 回归的不同正则化参数(所有超参数的详细描述参见附录 A.1)。我们使用了标准的测试拆分,并且在训练集上使用了 5 重交叉验证

结果: 表 5 展示了我们在论文接受准确率上的测试准确率。在所有的例子中,我们的最佳模型都以大于 22% 的误差率优势超过大部分分类器。不过,由于我们的模型在评价给定论文所做工作的质量方面缺乏成熟性,所以这可能意味着我们定义的一些特征与某些强有力的论文,或者有偏差的审稿人的判断相关。

我们对数据集中的 ICLR 和 arXiv 部分进行了控制变量研究。为了简化分析,我们为 arXiv 中的三种类别训练了一个模型。表 6 展示了当我们移除了其中的一个特征的时候,最佳模型的测试中准确率的绝对下降。该表显示,一些特征对分类决策有着很大的贡献:例如增加一个附录,大量的定理或公式,引文前的文本的平均长度,本文提交前五年内发表的论文数量,ICLR 的论文摘要中是否包含「最先进的技术(state of the art)」,或者 arXiv 的摘要中是否包含术语「神经(neural)」,以及标题的长度。

表 6: 当我们从完整的模型中仅仅移除一个特征的时候,论文接收预测任务的绝对准确率的差别。

图中具有较大负差别的特征更加显著,研究人员仅仅显示了每个部分最显著的 6 个特征。分别是:num_X:即 X 的数量(例如定理或者公式),avg_len_ref:引用前的文本平均长度,附录:文章是否包含附录,abstractX:摘要是否包含术语 X,num_uniq_words:唯一单词的数量,num_refmentions:提及的参考文献的数量,以及 #recent_refs:近五年内发表的参考文献的数量。

图 1:PeerRead 测试集上预测任务的均方差(RMSE, 越小越好):左侧-- ACL 2017,右侧:ICLR 2017。

结论

我们的实验表明,论文的某些属性与较高的接收率正相关,例如包含附录。我们希望其他研究人员能够发现新的我们还没有在这个数据集中的同行评审中探索到的机会。一个具体的例子就是,研究接受/拒绝的决定是否反映了对作者的人口偏见 (例如国籍) 将是有意义的。

论文:一个同行评审数据集(PeerRead):集合、洞见以及自然语言处理应用

论文链接:https://arxiv.org/abs/1804.09635

同行评审是科学文献出版过程中的重要组成部分。在本研究中,我们提出了第一个可用于研究目的的科学文献同行评审公共数据集 ( PeerRead v1 ),该数据集为研究这一重要的现象提供了机会。该数据集由 1 万 4 千 700 份论文草稿,以及包括 ACL、NIPS 和 ICLR 在内的顶级学术活动对应的接受/拒稿决定组成。数据集还包括专家为论文子集撰写的 1 万零 700 份文本同行评审。我们描述了数据收集过程,并提供了在同行评审中观察到的有趣现象。我们在此基础上提出了两个新颖的 NLP 任务,并给出了简单的基线模型。在第一个任务中,我们展示了简单的模型可以预测一篇论文是否被接受,与大多数基线模型相比,误差减少了 21 %。在第二个任务中,我们预测了评审方面的数值分数,结果表明,对于诸如「原创性」和「影响」的高方差方面,简单模型可以优于平均基线。

理论数据集论文GitHubCMU
21
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

自适应增强技术

AdaBoost是最优秀的Boosting算法之一,它能够将比随机猜测略好的弱分类器(weak learner)提升为分类精度高的强分类器(strong learner)。AdaBoost对每一个训练样本都分配一个权重,每次迭代之后都会对权重进行调整,被正确分类的样本权重会被降低,被错误分类的样本权重会被提高。也就是说,如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它被选中的概率就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高,更有可能被选中进入下一个训练集中,让后面的弱分类器重点关注之前表现不好的样本上。通过这样的方式,AdaBoost方法能“聚焦于”那些较难分(更富信息)的样本上,从而将多个弱分类器组合为一个强分类器。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

推荐文章
mark