高斯混合模型(GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。GMM是一种常用的聚类算法,一般使用期望最大算法(Expectation Maximization,EM)进行估计。
首先我们给出高斯分布的概念,即连续随机变量x如果其概率密度函数(PDF)是正态分布或高斯分布的:
则可以写作:
其中$\mu,\sigma^2$分别为均值和方差。类似地,多元高斯分布可以写为:
其中x为向量x=(x_1,x_2,...,x_D)^T。高斯分布通常用于许多工程和科学学科的模型中,比如语音识别。 其受欢迎的原因不仅在于其非常理想的计算特性,还因为它能够逼近许多自然发生的现实世界的数据——这要归功于大数定律。
现在我们移动讨论高斯混合随机变量的分布,称为高斯混合(mixture of Gaussians)。假如随机连续变量x的PDF为:
则称该分布为高斯混合分布,其中权重$c_m$的和为1。
这种对单个高斯分布加权形成的混合分布可以充分地描述不适合于单个高斯分布的数据(如我们上文提到的语音数据)。 数据中的多模态可能来自许多潜在原因,举例来说,假设我们在统计国民身高。即使男女身高的分布都服从高斯分布,但它们的均值和方差仍然是不同的,因此就造成了总体分布的多模态。 假如我们能确定这些原因,就可以将混合分布分解为一组依赖于不同原因或依赖于上下文的单个分布。
可以看到,高斯混合分布的概念是非常容易理解地。在这样的高斯混合分布中,包含一组参数。在方程的有多个变量情况下,参数集包括$\Theta={c_m,\mu_m,\Sigma_m}$,即每个分布对应的权重和均值,以及协方差矩阵。参数估计问题——也称为参数学习——是根据一组假设从高斯混合分布中得出的数据来确定这些参数的值。
通常来讲,我们将GMM和相关的参数估计视为数据有缺失的问题,因此,EM算法是一个非常好的选择。EM算法正是通常用来估计参数的隐变量的一种方法,它是一种迭代的方法,大致可以分为E步和M步:
- 期望 E 步:若参数 Θ 已知,则可根据训练数据推断出最优隐变量Z的值;
- 最大化 M 步:若Z的值已知,则可方便的对参数 Θ 做极大似然估计
在GMM中,在M步中,参数可以根据如下公式更新:
后验概率则在E步中进行更新:
也就是说,根据参数的当前(由上标j表示)估计,计算每个数据t来自子模型m的可能性, 然后再回到M步更新参数,使得新的权重对应于平均条件概率、总体的均值和协方差的分布是单个分布的均值和协方差的加权平均值。这样循环直到收敛。
[图片及描述来源:D. Yu and L. Deng, (2015). Automatic Speech Recognition, A Deep Learning Approach. Springer.]
在实际应用中,举例来说,假设我们观察N个不同房屋的价格。不同社区的不同类型的房屋价格将大不相同,但特定社区中某种特定类型房屋的价格(例如,中等高档住宅区的三居室房屋)的价格将在其单个分布的均值附近波动。因此,我们可以假定房屋价格由K个高斯分布所组成的混合模型描述,每个分布有未知均值和方差,代表了特定的房屋类型/社区。
[描述来源:维基百科 URL:https://en.wikipedia.org/wiki/Mixture_model#Examples]
发展历史
描述
高斯混合模型的研究可以追溯到上世纪,目前的研究已经比较成熟,并且有非常广泛的应用。
在语音识别方面,早于1995年,Douglas A. Reynolds和R.C. Rose就提出论文,基于GMM实现了独立于文本的语音识别。 构成高斯混合的各个高斯分量用于对说话者的频谱从不同角度建模。他们在一个有49名讲话者的电话会议的语音上进行了测试,使用五秒的清晰语音即可获得96.8%的识别准确度,在当时取得了极佳的效果。同年,Douglas A. Reynolds将GMM在更大的测试集上进行了测试。在TIMIT和NTIMIT数据库上(630位说话人)的闭集识别精度分别为99.5%和60.7%,在Switchboard数据集(113位说话人)上的识别准确率为82.8%。2000年,Douglas A. Reynolds和Thomas F.Quatieri以及Robert B.Dunn发表了论文。对已经在几个NIST语音识别评估(NIST Speaker Recognition Evaluations,SREs)中取得良好表现的语音识别模型的主要结构进行了描述,该模型由麻省理工学院林肯实验室开发,基于GMM。
在计算机视觉方面,2004年 Z. Zivkovic 提出了基于GMM的一种高效的自适应算法来进行背景提取,该模型可以不断更新参数,同时为每个像素选择适当数量的成分(component)。2005年Dar-Shyang Lee试图提高自适应高斯混合的收敛速度而不影响模型的稳定性。他将全局静态保留因子(global static retention factor)替换为在每帧处为每个高斯分布计算的自适应学习速率。结果显示该方法在合成视频数据和真实视频数据上都有更好的表现。该方法还可以与背景提取的统计框架结合,得到更好的图像分割性能。
2010年, Bing Jian和Baba C. Vemuri提出了一个统一的框架,用于存在大量噪声和异常值时的刚性和非刚性点集注册问题。该注册框架的关键思想是使用高斯混合模型来表示输入点集。他们得到的配准算法具有固有的统计鲁棒性,具有直观的解释,并且易于实现。他们还提供了与点集注册的其他稳健方法的理论和实验比较。
当然,GMM的应用范围远不止于此,其他领域如聚类问题等。
主要事件
年份 | 事件 | 相关论文/Reference |
1995 | Douglas A. Reynolds和R.C. Rose就提出论文,基于GMM实现了独立于文本的语音识别 | Reynolds D.A. and Rose, R. C. (1995). Robust text-independent speaker identification using Gaussian mixture speaker models. IEEE Transactions on Speech and Audio Processing. 3(1): 72-83. |
1995 | Douglas A. Reynolds将GMM在更大的测试集上进行了测试 | Reynolds, D. A. (1995). Speaker identification and verification using Gaussian mixture speaker models. Speech Communication. 17(1–2): 91-108. |
2000 | Douglas A. Reynolds和Thomas F.Quatieri以及Robert B.Dunn发表了论文对已经在几个NIST语音识别评估(NIST Speaker Recognition Evaluations,SREs)中取得良好表现的语音识别模型的主要结构进行了描述 | Reynolds, D. A.; Quatieri, T. F.; Dunn, R. B. (2000). Speaker Verification Using Adapted Gaussian Mixture Models. Digital Signal Processing. 10(1–3): 19-41. |
2004 | Z. Zivkovic 提出了基于GMM的一种高效的自适应算法来进行背景提取 | Zivkovic, Z. (2004). Improved adaptive Gaussian mixture model for background subtraction. Proceedings of the 17th International Conference on Pattern Recognition. 2: 28-31. |
2005 | Dar-Shyang Lee提出新方法提高自适应高斯混合的收敛速度而不影响模型的稳定性 | Lee, D-S. (2005). Effective Gaussian mixture learning for video background subtraction. IEEE Transactions on Pattern Analysis and Machine Intelligence. 27(5): 827-832. |
2010 | Bing Jian和Baba C. Vemuri提出了一个统一的框架,用于存在大量噪声和异常值时的刚性和非刚性点集注册问题 | Jian, B. and Vemuri, B. C. (2011). Robust Point Set Registration Using Gaussian Mixture Models. IEEE Transactions on Pattern Analysis and Machine Intelligence. 33(8): 1633-1645. |
发展分析
瓶颈
GMM一个比较大的缺陷是它在高维度情况下表现不好,特别是当样本量不足时协方差的估计会很困难;其次,GMM是一系列高斯分布的组合,但在大部分情况下究竟应该使用多少分布是未知的,需要用户自行定义或调试。
未来发展方向
GMM的一个优势是它是混合模型学习算法中最快的算法;另外,GMM属于生成模型(generative model),生成模型能够比判别模型更快达到渐进误差,并且能够用于模拟(即生成)模型中任意变量的分布情况,更容易扩展至无监督学习。这在目前无监督学习越来越重要的今天是一个很大的优势。
Contributor: Yuanyuan Li