NLP中的大多数成功案例都是关于监督学习或半监督学习的。从根本上说,这意味着我们的解析器、情感分类器、QA系统和其他一切都和训练数据一样好。基于这一事实,数据和模型工程,对于 NLP 进一步的发展来说同样重要。这就是为什么顶级会议 ACL 通常还专设了一个“资源和评估”通道,并颁发最佳资源论文奖。
同行评审对资源论文的六大误区
本文主要是对语料库及其集合的描述,几乎不包含科学上的贡献。
它们是从建模中获得任何知识的先决条件; 除资源外,可能还有注释准则或新的数据收集方法; 基于注释的迭代准则开发增加了对长尾现象的了解。
我认为这篇文章不适合ACL。它非常适合LREC和特定的机器翻译会议和研讨会。
本文提出的新语料库并不比现有语料库大。
总的来说,没有好的迹象表明其他语言对能取得好的结果。
本文提出了另一种问答测试。
继续进行#NLProc同行评审辩论! 到目前为止,最棘手的问题是:ACL是否应该要求资源论文进行一些概念验证的应用? 支持方:没有 ML实验=>就投稿到 LREC 反对方:超新的方法论/高影响力的数据就足矣 你的观点是什么?
NLP任务/基准:主要观点通常是,新基准比以前的基准更具挑战性。这一说法显然必须得到实验结果的支持; 计算语言资源(词汇、词典、语法):其价值在于从某些角度提供尽可能完整的详细语言描述。类似VerbNet这样的语言资源,并不是为任何特定的DL应用程序创建的,因此不应该要求包含任何这样的实验。
非公开数据的发布:以前非公开的数据资源,如匿名医疗数据或来自私人公司的数据。作者的贡献是使发布成为可能的法律或行政工作; 具有语言注释的资源(树库,共指,照应,时态关系等):这些资源的质量传统上是由注释之间的一致性来衡量的。作者的贡献是注释工作或注释方法。
工程师:这个数据是给我的吗?如果是,我想看看相关实验,证明这是可以学习的。 语言学家:这实际上是关于语言而不是深度学习的数据。但如果你愿意,欢迎使用这些数据。
NLP是一个跨学科的项目,我们需要尽可能得到来自各个学科的所有帮助。要求每一次提交都要用机器学习方法打包,这不仅会阻碍拥有不同技能的研究者的数据和想法之间流动,还会影响语言学、社会学和心理学等领域之间的数据和思想流动。 包含这样的实验可能不会取悦任何一方。如果作者不是必须在论文中包含基线的话,会给语言学家们留下一些本可以解决的问题。工程师们会变得只关注基线部分,然而最终发现基线部分并没有那么引人关注。
使用域内单词嵌入获得的结果不足为奇。一个众所周知的事实是,域内单词嵌入相对于一般单词嵌入更具信息性。
如何给论文写出好的评论
众包NLP训练/测试数据集:基础众包方法论的知识、对潜在问题(如非自然信号)的认识(论文地址:https://arxiv.org/pdf/1803.02324.pdf)和注释者偏差(论文地址:https://arxiv.org/abs/1908.07898),以及此任务的其他可用数据集。理想情况下,你至少自己构建了一个此类资源。 带语言注释的语料库(语法、复指、共指、时态关系):有关语言理论和注释经验的知识,注释可靠性估计,以及这一特定子领域的现有资源。理想情况下,你至少自己构建了一个此类资源。 语言知识资源(语法、词典、词汇数据库):语言理论的其他知识和所有其他相关资源。理想情况下,你至少自己构建了一个此类资源。
高新颖度:重大概念创新
高影响力:解决一个普遍存在的问题,提出具有高度概括性的新方法(跨语言或任务)。
高质量、丰富性或规模:重要的公共数据发布,能在语言描述,数据质量或资源量方面提供明显的优势。