Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

深度玻尔兹曼机

深度玻尔兹曼机是一种以受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)为基础的深度学习模型,其本质是一种特殊构造的神经网络。深度玻尔兹曼机由多层受限玻尔兹曼机叠加而成的,不同于深度置信网络(Deep Belief Network),深度玻尔兹曼机的中间层与相邻层是双向连接的。接下来举例说明深度玻尔兹曼机的基本结构和特征。

简介

深度玻尔兹曼机是一种以受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)为基础的深度学习模型,其本质是一种特殊构造的神经网络。深度玻尔兹曼机由多层受限玻尔兹曼机叠加而成的,不同于深度置信网络(Deep Belief Network),深度玻尔兹曼机的中间层与相邻层是双向连接的。接下来举例说明深度玻尔兹曼机的基本结构和特征。

如图1所示是一个包含两个隐藏层(hidden layer)的深度玻尔兹曼机。h1和h2代表隐藏层(hidden layer)各节点的状态,W1和W2表示神经网络层间链接的权值(weights)。v表示可见层(visible layer)各节点的状态。每个节点的状态都在0和1之间二选一,也就是说v,h ∈ {0,1}。为方便显示,这里忽略了模型中各单元的偏置(bias)。

图1一个含两隐藏层的深度玻尔兹曼机

通过图1我们可以发现,如果将其中最底层的可见层替换为受限玻尔兹曼机中的可见层,就可以层层堆叠下去,这就构成了基于多个受限玻尔兹曼机的深度玻尔兹曼机模型。

图1中所示的深度玻尔兹曼机的能量形式如下:

式中,v ∈ {0,1},为可见节点(visible units)状态;h1 ∈ {0,1},为第一层隐单元(hidden units)状态;W1为第一组单元连接权值;h2 ∈ {0,1},为第二层隐单元状态;W2为第二组单元连接权值。

[描述来源:Salakhutdinov, R., & Hinton, G. (2009, April). Deep boltzmann machines. In Artificial Intelligence and Statistics (pp. 448-455).

URL:http://proceedings.mlr.press/v5/salakhutdinov09a/salakhutdinov09a.pdf]

发展历史

2009年,Salakhutdinov和Hinton提出了深度玻尔兹曼机的思想,并提出一种用于训练深度玻尔兹曼机的学习算法,用变分近似法估计依赖数据的期望值,用马尔可夫链(markov chain)估计模型的期望值,说明用逐层预训练法可以更有效地进行学习以及如何用退火重要性抽样估计深度玻尔兹曼机的对数似然函数的下界,再MNIST手写数字数据集和视觉目标识别任务NORB数据集上进行实验说明深度玻尔兹曼机学习得到性能很好的输出模型。

2010年,Salakhutdinov提出一种叫耦合自适应模拟回火(coupled adaptive simulated tempering, CAST)的方法来训练深度玻尔兹曼机,这种方法可以得到更好的多模态能量图,并在MNIST和NORB数据集上通过实验证明了这种方法能够有效改进参数估计。

2012年,Salakhutdinov和Hinton又提出一种相当有效的预训练学习方法, 通过学习使真实后验分布和平均场变分推理假定因子分布接近, 来估计依赖数据的期望值, 通过学习和马尔可夫链之间的相互作用, 允许少量缓慢混合链从多模态能量图中快速采样, 来估计独立于数据的期望值, 并说明可通过训练堆栈受限玻尔兹曼机对深度玻尔兹曼机的权值进行初始化。

深度玻尔兹曼机将多个受限玻尔兹曼机堆叠起来,各单元层之间均为无向连接,简化了上下层的反馈系数训练,从而使其数据泛化能力大大提高,并在多个数据库上获得了优异的表现。

主要事件

年份

事件

相关论文

2009

Salakhutdinov和Hinton提出了深度玻尔兹曼机的思想,并提出一种用于训练深度玻尔兹曼机的学习算法

Salakhutdinov, R., & Hinton, G. (2009, April). Deep boltzmann machines. In Artificial Intelligence and Statistics (pp. 448-455).

2010

Salakhutdinov提出一种叫耦合自适应模拟回火(coupled adaptive simulated tempering, CAST)的方法来训练深度玻尔兹曼机

Salakhutdinov, R. (2010). Learning deep Boltzmann machines using adaptive MCMC. In Proceedings of the 27th International Conference on Machine Learning (ICML-10) (pp. 943-950).

2012

Salakhutdinov和Hinton又提出一种相当有效的预训练学习方法对深度玻尔兹曼机的权值进行初始化

Salakhutdinov, R., & Hinton, G. E. (2012) An efficient learning procedure for deep Boltzmann machines [J]. Neural Computation.24(8)

发展分析

瓶颈

深度玻尔兹曼机的推理学习过程的算法复杂性过高,无法有效地应用于大规模学习问题

未来发展方向

针对上述问题,研究人员提出对网络拓扑结构简化,改进学习算法,对非线性寻优过程合理近似,减少学习时间。此外,学者们还在尝试研究深度玻尔兹曼机的网络结构特点和规律,试图找到更好的方法用深结构建立数据的模型,充分利用其内在优势,与现有的社会网络、稀疏化建模理论结合,获得更加有效的算法。

Contributor: Keyu Qi

简介