条件随机场 | 机器之心

简介

条件随机场（CRF）可以理解为逻辑回归分类器对任意图形结构的扩展，或者是结构化数据的生成模型（如隐马尔可夫模型）的判别性模拟。条件随机场是机器学习领域比较复杂的一个算法模型，原因在于其涉及到的定义多（概率图模型、团等概率）、数学上近似完美。

要理解CRF，首先需要理解概率图模型的一些基本概念，我们首先介绍因子图能否“描述”一个分布的定义：

设N（a）为一组变量索引的索引，如果存在一组局部函数Ψa，使得分布p（y）可被写为：

则分布p（y）可以根据因子图G进行因式分解。

下图显示了一个关于三个随机变量的因子图的例子。在该图中，圆圈是变量节点，阴影框是因子节点。我们根据它们索引的变量或因素来标记节点。这个因子图描述了三个变量的所有分布p的集合，即对于y=(y1，y2，y3)，它们可以写为p（y1，y2，y3）=Ψ1（y1，y2）Ψ2（y2，y3）Ψ3（y1，y3）。

图形模型的分解与其域中变量之间的条件独立性之间存在紧密联系，这种联系可以通过一个不同的无向图来理解，称为马尔可夫网络，它直接代表多变量分布中的条件独立关系。马尔可夫网络是仅含随机变量的图形。若让G代表一个无向图，它覆盖整数V = {1,2，...，| Y |}，并每个感兴趣的随机变量进行索引。对于一个变量s∈V，设N（s）表示其在G中的邻域，那么，如果分布p满足局部马尔科夫性质，则称p是关于G的马尔可夫。局部马尔科夫性质为：对于任意两个变量Y_{s}，Y_{t}∈Y，给定邻域Y_{N(s)}，变量Y_{s}条件独立于Y_{t}。直观地说，这意味着Y_{N(s)}本身包含了所有对预测Y_{s}有用的信息。

接下来我们首先介绍线性链条件随机场（linear-chain conditional random field），然后给出更具一般性的条件随机场定义。

令Y，X为随机向量，θ= {θ_{k}}∈K^R为参数向量，F = {f_{k}(y，y^'，x_{t}）}_{ k = 1}^K为一组实值特征函数。那么线性链条件随机场就是一个分布p（y | x），其形式为：

其中Z（x）是依赖于输入的归一化函数：

可以得出，线性链条件随机场可以描述为x和y上的因子图，即：

其中每个局部函数Ψ_{t}都有特殊的对数线性形式：

下图给出几种线性链条件随机场：

上图模型只包含当前状态的特征。

上图模型转换因子取决于当前的观察结果。

上图模型转换因子取决于全部的观察结果。

下面我们将条件随机场的定义更一般化，给定如下定义：

设G是X和Y上的因子图。如果对任何X的值x，分布p（y | x）可以根据G因式分解，那么（X，Y）是一个条件随机场。

因此，每个条件分布p（y | x）都是一些因子图的CRF，即便这些因子图可能并不重要。如果F = {Ψ_{a}}是G中的一组因子，那么CRF的条件分布是：

这个方程与无向图模型的一般定义（上文中第一个定义）之间的区别在于现在归一化常数Z（x）是观测变量x的函数。由于我们不断简化图形模型，因此可能会出现以下情况：当Z（x）为可计算的时而Z却不是。

在实际应用中，CRF可以被应用于物体识别和图像分割，如对神经网络输出的图像分割结果进行处理（post-processing）来改善神经网络生成的mask线条一般比较粗糙的问题，生成更干净、细致的图片。

[描述来源：Sutton, C.; McCallum, A. (2011). An Introduction to Conditional Random Fields. Foundations and Trends in Machine Learning. 4(4): 267–373.]

发展历史

描述

自从Lafferty，McCallum和Pereira提出了条件随机场用于分割和标记序列数据后，关于条件随机场的研究一直很活跃。

定义CRF时最重要的考虑因素之一在于指定重复的结构和参数绑定，目前已经有许多在这方面的研究。2002年Taskar, Abbeel和Koller提出在许多监督学习任务中，要被标记的实体以复杂的方式相互关联，并且它们的标签不是独立的。例如，在超文本分类中，链接页面的标签高度相关。为适应这种特点，他们提出了一个基于（条件）马尔科夫网络的替代框架，该框架是一种通用的CRF，其中图形结构和参数绑定由类似SQL的语法确定。2004年Charles Sutton, Andrew McCallum和Khashayar Rohanimanesh提出了动态条件随机场（Dynamic Conditional Random Fields），这是一种线性链条件随机场的推广，它允许以类似于动态贝叶斯网络的方式，在每个时间步骤允许多个标签，而不是单个标签。Matthew Richardson和Pedro Domingos提出一种简单的方法来将一阶逻辑和概率图模型结合，叫做马尔科夫逻辑网络（MLN），其使用逻辑公式来指定无向模型中局部函数的范围。实质上，知识库中的每个一阶规则都有一组参数。MLN的逻辑部分可以被看作是一个编程约定，用于指定无向模型的重复结构和参数绑定。

在应用方面，它通常用于标记或解析序列数据，如自然语言处理或生物序列以及计算机视觉，如He等人将CRF用于标记图像，从而将其上下文特征也纳入考虑范围。具体而言，CRF在POS标签，浅层解析（Sha, F.; Pereira, F. , 2003），命名实体识别，基因发现和肽关键功能区域发现以及其他任务中都有广泛应用，是隐马尔可夫模型（HMM）的替代方案。在计算机视觉中，CRF通常用于物体识别和图像分割（Philipp Krahenbuhl，Vladlen Koltun，2011）。

主要事件

年份	事件	相关论文/Reference
2001	Lafferty，McCallum和Pereira提出了条件随机场用于分割和标记序列数据	Lafferty, J., McCallum, A., Pereira, F. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann. pp. 282–289.
2002	Taskar, Abbeel和Koller提出了一个基于（条件）马尔科夫网络的替代框架	Taskar, B.; Abbeel, P.; Koller, D. (2002). Discriminative probabilistic models for relational data. Conference on Uncertainty in Artificial Intelligence (UAI).
2003	Sha, F.和Pereira, F. ,展示了如何训练一个条件随机场，以达到与CoNLL任务中所报道的任何基础名词短语组块方法一样好的性能。	Sha, F.; Pereira, F. (2003). shallow parsing with conditional random fields. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. 1:134-141.
2004	Charles Sutton, Andrew McCallum和Khashayar Rohanimanesh提出了动态条件随机场（Dynamic Conditional Random Fields）	Sutton, C.; Rohanimanesh, K.; McCallum, A. (2004). Dynamic conditional random fields: Factorized probabilistic models for labeling and segmenting sequence data. International Conference on Machine Learning (ICML).8:693—723.
2004	He等人将CRF用于标记图像，从而将其上下文特征也纳入考虑范围。	He, X.; Zemel, R. S.; Carreira-Perpinan, M .A. (2004). Multiscale conditional random fields for image labeling. Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2:695-702.
2006	Matthew Richardson和Pedro Domingos提出一种简单的方法来将一阶逻辑和概率图模型结合，叫做马尔科夫逻辑网络（MLN）	Richardson, M.; Domingos, P. (2006). Markov logic networks. Machine Learning. 62(1-2): 107–136.
2011	Philipp Krahenbuhl和Vladlen Koltun利用CRF改进神经网络生成的图像分割图片	Krahenbuhl, P.; Koltun, V. (2011). Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials. NIPS.

发展分析

瓶颈

条件随机场收敛速度慢，训练的参数也更多，因而需要很长的训练时间。另外模型复杂度也较高。

未来发展方向

条件随机场模型自然的将上下文标记间的联系纳入模型的考虑中，可以灵活地设计特征，因而是自然语言处理领域最常用也是表现最好的模型之一，其在这个领域还有很大的发展空间。此外，条件随机场在计算机视觉（如改进图像分割结果）等领域也表现不俗。

Contributor: Yuanyuan Li

简介