计算语言学(computational linguistics)是一门跨学科的研究领域,它试图找出自然语言的规律,建立运算模型,最终让电脑能够像人类般分析、理解和处理自然语言。
过去,计算语言学的研究一般由专门负责利用电脑处理自然语言的计算机科学家进行。由于近年的研究显示人类语言的复杂性超乎想象,现在的计算语言学研究多由来自不同学科的专家共同进行。一般来说,研究队伍的成员有计算机科学家、语言学家、语言专家(熟悉有关研究项目所要处理的语言的人),以至研究人工智能、认知心理学、数学、逻辑学等的专家。
本文为大家介绍一篇全面概述计算语言学的论文,希望能有助于各位读者全面了解计算语言学。以下是该论文的目录,机器之心将简要介绍该论文所涉及到的五个主题,即语言建模与概率、机器翻译、序列标注与隐马尔可夫模型、解析与 PCFG、主题模型与 PLSA 和 Gibbs 采样,几乎每章都有编程任务和习题。该论文在最初是 13 年发布的,但 16 年进行了许多修正与更新。
论文地址:http://cs.brown.edu/courses/csci2951-k/papers/cl-intro.pdf
下文将分章节提供更新后的简介与地址:
第一章:语言建模与概率论
章节地址:https://cs.brown.edu/courses/csci1460/assets/files/langmod.pdf
实际上概率方法在现代计算语言学中是十分普遍的,该论文所有讨论的方法和主题都是是基于或涉及到各种各样的概率模型。本章节主要是希望能提供这些最基本的概率论知识,并为其它章节打下坚实的基础。实际上,本论文所述的各种语言模型都需要一定的概率论基础,但这些概率论基础只需要最简单的概念和公式就行。更加具体的概率论请查阅概率论相关书籍。
本章介绍了概率、一元文本建模、上下文依赖和 n 元语言模型。
第二章:机器翻译
章节地址:https://cs.brown.edu/courses/csci1460/assets/files/mt.pdf
统计机器翻译背后的概念十分简单,假定我们翻译中文和英文,那么我们首先需要一组中英平行语料库,即语料库中的中文句和英文句之间的距离非常短,然后我们使用这一些语料库对两种语言进行概率建模,最后在进行预测的时候只需要选择概率最大的语句作为译文就完成了翻译。
本章介绍了机器翻译的基本原理、IBM Model 1 和 Model 2、基于短语的机器翻译和解码。不过本章节没有介绍机器翻译的深度学习方法,比如说 RNN、LSTM、注意力机制等,但仍然非常有助于初学者系统地了解统计机器翻译。
第三章:序列标注与隐马尔可夫模型
章节地址:https://cs.brown.edu/courses/csci1460/assets/files/hmm.pdf
序列标注问题即给定一个长度为 n 的序列 x=(x_1, . . . , x_n),还有长度为 n 的输出序列 y = (y_1, . . . , y_n),其中 y_i ∈ Y 为 x_i 的标注。很多语言处理任务都是采用的这种框架,因此序列标注问题在计算语言学中占据十分重要的地位。
本章我们介绍了隐马尔可夫模型(HMM),一种适合这类任务的非常优雅的技术。HMM 首先用于语音识别,i 是对时间的度量。
隐马尔可夫模型(Hidden Markov model):显马尔可夫过程是完全确定性的——一个给定的状态经常会伴随另一个状态。交通信号灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的发生。随后,借助隐藏状态分析,隐马尔可夫模型可以估计可能的未来观察模式。在本例中,高或低气压的概率(这是隐藏状态)可用于预测晴天、雨天、多云天的概率。
- 优点:容许数据的变化性,适用于识别(recognition)和预测操作
- 场景举例:面部表情分析、气象预测
本章介绍了隐马尔可夫模型、most likely label 和维特比解码、如何使用 HMM 确定序列概率、后向概率、评估 HMM 参数、前向-后向算法中的 MT 参数、使用 HMM 的平滑(smoothing)算法、词性归纳(part-of-speech induction)。
第四章:解析与 PCFG
章节地址:https://cs.brown.edu/courses/csci1460/assets/files/parsing.pdf
在自然语言,如英语中,词与词连接起来构成词组,词组和词组连接起来构成新的词组。例如,在句子「Sam thinks Sandy likes the book」中,单词「the」和「book」结合起来构成了名词词组(NP)「the book」,「the book」又和动词「like」连接起来构成了动词词组(VP)「likes the book」,它与「Sandy」连接起来构成了嵌入句或语句(S)「Sandy likes the book」。本章的主题就是解析——从单词串中发现某种结构。
本章首先介绍了短语结构树和依赖树,然后介绍概率上下文无关语法(PCFG),以及使用 PCFG 进行解析和如何评估 PCFG,之后介绍了 scoring parser。本章还介绍了评估 treebank 中较好的语法以及如何对 A 解析器进行编程。
第五章:主题模型与 PLSA 和 Gibbs 采样
章节地址:https://cs.brown.edu/courses/csci1460/assets/files/topicmod.pdf
本章主要介绍主题模型,写出获取概念「aboutness」的程序。
本章介绍了主题模型、概率潜在语义分析(PLSA)和学习 PLSA 参数。
主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那「狗」和「骨头」等词出现的频率会高些。如果一篇文章是在讲猫的,那「猫」和「鱼」等词出现的频率会高些。而有些词例如「这个」、「和」大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章 10% 和猫有关,90% 和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的 9 倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。主题模型最初是运用于自然语言处理相关方向,但目前已经延伸至生物信息学等其它领域。(来源:Wikipedia)