清华大学、北京语言大学获得 CCL 2018 最佳论文奖

2018 年 10 月 19 日至 21 日，第十七届中国计算语言学大会（CCL 2018）暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD 2018）在长沙召开。会上，CCL 2018 大会的最佳论文等奖项公布。

作为国内最大的自然语言处理领域的社团组织——中国中文信息学会（CIPS）的旗舰会议，中国计算语言学大会（原名全国计算语言学学术会议）从 1991 年开始每两年举办一次，从 2013 年开始每年举办一次。CCL 2018 由中国中文信息学会主办，长沙理工大学承办，组织单位为清华大学智能技术与系统国家重点实验室。

本次大会由中国中文信息学会名誉理事长、哈尔滨工业大学教授李生，清华大学教授黄昌宁，山西大学教授刘开瑛教授担任共同主席，由中国中文信息学会计算语言学专委会主任、清华大学教授孙茂松，哈尔滨工业大学教授刘挺，北京邮电大学教授王小捷担任程序委员会共同主席。国际学术研讨会由清华大学教授孙茂松、加拿大阿尔伯塔大学教授 Randy Goebel，美国伦斯勒理工学院教授 Heng Ji 担任程序委员会共同主席。开幕式由会议组织委员会主席、长沙理工大学教授王进主持，长沙理工大学党委书记付宏渊教授以及李生教授、黄昌宁教授、孙茂松教授等在开幕式上致辞。

据介绍，本次大会注册参会人次超过 1 千人。在论文方面，本届会议收到 277 篇投稿（中文 181 篇，英文 96 篇），录用 102 篇论文（中文 69 篇，英文 33 篇）。总体录用率 36.82%，中文论文录用率 38.12%，英文论文录用率 34.38%。

其中，北京大学、北京语言大学获得 CCL 2018 最佳论文奖：

论文：基于神经网络的集句诗自动生成

作者：梁健楠，孙茂松，矣晓沅，杨成，陈慧敏，刘正皓

地址：http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-057.pdf

摘要：集句诗是中国古典诗歌的一种特殊体裁，是从前人的诗篇中选取已有诗句，再将其巧妙组合形成一首新诗，是一种艺术的再创造形式。集句诗的生成要求集辑而成的诗不仅合辙押韵, 而且有完整的内容、连贯的上下文和新颖的主旨意境，对创作者的知识储备和诗词鉴赏能力有极高的要求。本文基于计算机的海量存储和快速检索能力，以及神经网络模型对文本语义较强的表示和理解能力，提出了一种新颖的集句诗自动生成模型。我们的模型以数十万首古人诗作为基础，利用循环神经网络 (RNN) 自动学习古诗句的语义表示，并设计了多种方法自动计算两句诗句的上下文关联性。根据用户输入的首句，我们的模型能够自动计算选取上下文语义最相关连贯的诗句进行集辑，从而形成一首完整的集句诗。自动评测和人工评测的实验结果都表明，我们的模型能够生成质量较好的集句诗，远远超过基线模型的效果。

论文：中文基本复合名词短语语义关系体系及知识库构建

作者：刘鹏远、刘玉洁

地址：http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-049.pdf

摘要：名词短语一直是中外语言学领域的重要研究对象，近年来在自然语言处理领域也受到了研究者的持续关注。英文方面，已建立了一定规模的名词短语语义关系知识库。但迄今为止，尚未建立相应或更大规模的描述名词短语语义关系的中文资源。本文借鉴国内外诸多学者对名词短语语义分类的研究成果，对大规模真实语料中的基本复合名词实例进行试标注与分析，建立了中文基本复合名词短语语义关系体系及相应句法语义知识库，该库能够为中文基本复合名词短语句法语义的研究提供基础数据资源。目前该库共含有 18218 条高频基本复合名词短语，每条短语均标注了语义关系、短语结构及是否指称实体等信息，每条短语包含的两个名词还分别标注了语义类信息。语义类信息基于北京大学《现代汉语语义词典》。基于该知识库，本文还做了基本复合名词短语句法语义的初步统计与分析。

来自清华大学的论文《Type Hierarchy Enhanced Heterogeneous Network Embedding for Fine-Grained Entity Typing in Knowledge Bases》获得了 NLP-NABD 最佳论文奖。

论文：Type Hierarchy Enhanced Heterogeneous Network Embedding for Fine-Grained Entity Typing in Knowledge Bases

作者：Hailong Jin、Lei Hou、Juanzi Li

地址：http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-095.pdf

摘要：类型信息在知识库中非常重要，但一些大型知识库由于不够完备而缺乏类型信息。本文提出用定义良好的分类方法来帮助完善某些知识库中的类型信息。值得一提的是，我们提出了一个基于嵌入的新分层实体类型框架，该框架使用 Learning to Rank 算法来提高 word-entity-type 网络嵌入的性能。通过这种方法，我们可以充分利用已标记和未标记的数据。在 DBpedia 的两个真实数据库中进行的大量实验表明，我们提出的方法明显优于当前最佳的四种方法，该方法在 Mi-F1 和 Ma-F1 上分别获得了 2.8% 和 4.2% 的提升。

除了最佳论文奖项，来自东北大学自然语言处理实验室的论文《面向神经机器翻译的模型存储压缩方法分析》获得最佳张贴报告展示奖。

来自清华大学的 THU 大计划系统技术平台获得最佳系统展示奖。

理论清华大学北京语言大学CCL 2018自然语言处理

相关数据

神经机器翻译技术

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译（NMT）的诞生；神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型，而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外，RNN 应该还能得到无限长句子背后的信息，从而解决所谓的「长距离重新排序（long distance reordering）」问题。

来源：机器之心

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科