作为国内最大的自然语言处理领域的社团组织——中国中文信息学会(CIPS)的旗舰会议,中国计算语言学大会(原名全国计算语言学学术会议)从 1991 年开始每两年举办一次,从 2013 年开始每年举办一次。CCL 2018 由中国中文信息学会主办,长沙理工大学承办,组织单位为清华大学智能技术与系统国家重点实验室。
本次大会由中国中文信息学会名誉理事长、哈尔滨工业大学教授李生,清华大学教授黄昌宁,山西大学教授刘开瑛教授担任共同主席,由中国中文信息学会计算语言学专委会主任、清华大学教授孙茂松,哈尔滨工业大学教授刘挺,北京邮电大学教授王小捷担任程序委员会共同主席。国际学术研讨会由清华大学教授孙茂松、加拿大阿尔伯塔大学教授 Randy Goebel,美国伦斯勒理工学院教授 Heng Ji 担任程序委员会共同主席。开幕式由会议组织委员会主席、长沙理工大学教授王进主持,长沙理工大学党委书记付宏渊教授以及李生教授、黄昌宁教授、孙茂松教授等在开幕式上致辞。
据介绍,本次大会注册参会人次超过 1 千人。在论文方面,本届会议收到 277 篇投稿(中文 181 篇,英文 96 篇),录用 102 篇论文(中文 69 篇,英文 33 篇)。总体录用率 36.82%,中文论文录用率 38.12%,英文论文录用率 34.38%。
其中,北京大学、北京语言大学获得 CCL 2018 最佳论文奖:
论文:基于神经网络的集句诗自动生成
作者:梁健楠,孙茂松,矣晓沅,杨成,陈慧敏,刘正皓
地址:http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-057.pdf
摘要:集句诗是中国古典诗歌的一种特殊体裁,是从前人的诗篇中选取已有诗句,再将其巧妙组合形成一首新诗,是一种艺术的再创造形式。集句诗的生成要求集辑而成的诗不仅合辙押韵, 而且有完整的内容、连贯的上下文和新 颖的主旨意境,对创作者的知识储备和诗词鉴赏能力有极高的要求。本文基于计算机的海量存储和快速检索能力,以及神经网络模型对文本语义较强的表示和理解能力,提出了一种新颖的集句诗自动生成模型。我们的模型以数十万首古人诗作为基础,利用循环神经网络 (RNN) 自动学习古诗句的语义表示,并设计了多种方法自动计算两句诗句 的上下文关联性。根据用户输入的首句,我们的模型能够自动计算选取上下文语义最相关连贯的诗句进行集辑,从 而形成一首完整的集句诗。自动评测和人工评测的实验结果都表明,我们的模型能够生成质量较好的集句诗,远远 超过基线模型的效果。
论文:中文基本复合名词短语语义关系体系及知识库构建
作者:刘鹏远、刘玉洁
地址:http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-049.pdf
摘要:名词短语一直是中外语言学领域的重要研究对象,近年来在自然语言处理领域也受到了研究者的持续关注。英文方面,已建立了一定规模的名词短语语义关系知识库。但迄今为止,尚未建立相应或更大规模的描述名词短语语义关系的中文资源。本文借鉴国内外诸多学者对名词短语语义分类的研究成果,对大规模真实语料中的基本复合名词实例进行试标注与分析,建立了中文基本复合名词短语语义关系体系及相应句法语义知识库,该库能够为中文基本复合名词短语句法语义的研究提供基础数据资源。目前该库共含有 18218 条高频基本复合名词短语,每条短语均标注了语义关系、短语结构及是否指称实体等信息,每条短语包含的两个名词还分别标注了语义类信息。语义类信息基于北京大学《现代汉语语义词典》。基于该知识库,本文还做了基本复合名词短语句法语义的初步统计与分析。
来自清华大学的论文《Type Hierarchy Enhanced Heterogeneous Network Embedding for Fine-Grained Entity Typing in Knowledge Bases》获得了 NLP-NABD 最佳论文奖。
论文:Type Hierarchy Enhanced Heterogeneous Network Embedding for Fine-Grained Entity Typing in Knowledge Bases
作者:Hailong Jin、Lei Hou、Juanzi Li
地址:http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-095.pdf
摘要:类型信息在知识库中非常重要,但一些大型知识库由于不够完备而缺乏类型信息。本文提出用定义良好的分类方法来帮助完善某些知识库中的类型信息。值得一提的是,我们提出了一个基于嵌入的新分层实体类型框架,该框架使用 Learning to Rank 算法来提高 word-entity-type 网络嵌入的性能。通过这种方法,我们可以充分利用已标记和未标记的数据。在 DBpedia 的两个真实数据库中进行的大量实验表明,我们提出的方法明显优于当前最佳的四种方法,该方法在 Mi-F1 和 Ma-F1 上分别获得了 2.8% 和 4.2% 的提升。
除了最佳论文奖项,来自东北大学自然语言处理实验室的论文《面向神经机器翻译的模型存储压缩方法分析》获得最佳张贴报告展示奖。
来自清华大学的 THU 大计划系统技术平台获得最佳系统展示奖。