贝叶斯网络是一种概率图模型(probabilistic graphical model),其使用有向无环图(directed acyclic graphs, or DAGs)来表示一组随机变量及其n组条件概率分布(conditional probability distributions, or CPDs)。
贝叶斯网络使用的有向无环图中的节点代表随机变量,它们可以是可观察到的变量,或潜在变量、未知参数等。连接两个节点的箭头代表此两个随机变数是具有因果关系或是非条件独立的;而两个节点间若没有箭头相互连接一起的情况就称其随机变数彼此间为条件独立。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“父节点(parents)”——可以类比于输入数据,箭头指向的另一个节点是“子节点(descendants or children)”——类比于在输入条件下的输出结果。
贝叶斯网络正式的数学定义如下:
令 G = (V,E)表示一个有向无环图,其中V 代表图中所有的节点的集合,而 E 代表有向连接线段的集合,且令 $X = (X_v) v∈V$为其有向无环图中的某一节点V所代表之随机变量。
若节点X的联合概率分布可以表示为其随机变量的条件概率的乘积:
p(x)=\prod\limits _{v∈V}p(x_v|x_{pa(v)})
则称 X 为相对于有向无环图 G 的贝叶斯网络,其中pa(v)表示节点 v的父节点。
对任意的随机变量,其联合概率分布可由各自的条件概率分布相乘得出:
P(X_1=x_1,...,X_n=x_n)=\prod\limits _{v=1}^n P(X_v=x_v|X_{v+1}=x_{v+1},...,X_n=x_n)
依照上式,我们可以将贝叶斯网络的联合概率分布该写为:
P(X_1=x_1,...,X_n=x_n)=\prod\limits _{v=1}^n P(X_v=x_v|X_j=x_j)
注意上式是对每个相对于$X_j$的子节点所代表的参数 $X_v$ 而言。
上面两个表示式之差别在于给定父节点的变量分布,则任何不属于其的子节点所代表的变量都与其条件独立(conditionally independent)。
下面通过一个例子来说明贝叶斯网络:
假设存在两个服务器($S_1$,$S_2$)向使用者(U)传送数据,但第二个服务器的传送成功率与第一个服务器传送成功与否有关,因此贝叶斯网络的结构图可以表示成如下图的形式:
就每次传送而言,只有T(成功)或 F(失败)两种可能性,因此,贝叶斯网络的联合概率分布可以表示为:
P(U,S_1,S_2)=P(U|S_1,S_2)*P(S_2|S_1)*P(S_1)
即使用者U受到数据的概率取决于两个服务器成功的概率,而第二个服务器成功的概率又取决于第一个服务器的概率分布。
假设目前我们已知使用者成功接收到数据,需要求解第一个服务器成功发送数据的概率,则计算过程如下:
P(S_1=T|U=T)=P(S_1=T,U=T)/P(U=T) =\frac{\sum\limits _{S_2∈{T,F} P(S_1=T,S_2,U=T)}{\sum\limits _{S_1,S_2∈{T,F} P(S_1,S_2,U=T)} =\frac{(0.4*0.3*1)+(0.4*0.7*1)}{(0.4*0.3*1)+(0.4*0.7*1)+(0.6*0.3*1))} =0.6896
大部分情况下,贝叶斯网络适用于离散的未知变量,依照其条件概率写出条件概率表(conditional probability table, CPT)后可以直观地表现贝叶斯网络中各节点间之因果关系。
马尔科夫模型(Markov Model)、隐形马尔科夫模型(Hidden Markov Model)和马尔科夫毯(Markov Blanket)都可以视为特殊的贝叶斯网络。
[描述来源:Pearl J.(1988). Probabilistic Reasoning in Intelligent Systems. San Francisco CA: Morgan Kaufmann. ]
[描述来源:维基百科 URL: https://en.wikipedia.org/wiki/Bayesian_network#Definitions_and_concepts]
发展历史
描述
贝叶斯网络这个概念是由Pearl在1985年针对主观的输入信息依靠贝叶斯条件作为更新信息的基础而提出来的,并在其后几年快速发展,成为了一个单独的研究领域。
目前贝叶斯网络的应用十分广泛,1997年Diez等人探讨了贝叶斯网络在决策支持系统(decision support system)中的应用。由于其贝叶斯学派的特点,因此其常常被用于生物信息学和医学,2000年Friedman等人利用贝叶斯网络描述基因之间的相互作用并使用贝叶斯网络从微阵列数据(micro-array data)中恢复基因相互作用。2008年Trucco等学者将贝叶斯网络应用在了风险分析领域。
在机器学习领域内,早于1997年Friedman等人就将贝叶斯网络应用于分类器,取得了比朴素贝叶斯(naive Bayes)方法更优的结果,同时保持了其计算简单性。2006年Tsamardinos等人将本地学习(local learning),基于约束和搜索与分数技术( constraint-based, search-and-score techniques)与贝叶斯网络结合,提出了MMHC(Max-Min Hill-Climbing)算法。
主要事件
A | B | C | |
1 | 年份 | 事件 | 相关论文/Reference |
2 | 1985 | Pearl提出贝叶斯网络的概念 | Pearl J. (1985). Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning.Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA. pp. 329–334. |
3 | 1997 | Diez等人探讨了贝叶斯网络在决策支持系统(decision support system)中的应用 | Díez F.J.; Mira J.; Iturralde E.; Zubillaga S.(1997).DIAVAL, a Bayesian expert system for echocardiography. Artificial Intelligence in Medicine. 10 (1): 59–73. |
4 | 1997 | Friedman等人将贝叶斯网络应用于分类器 | Friedman N.;Geiger D.; Goldszmidt M. (1997).Bayesian Network Classifiers. Machine Learning. 29(2-3): 191-163. |
5 | 2000 | Friedman等人利用贝叶斯网络描述基因之间的相互作用并使用贝叶斯网络从微阵列数据(microarray data)中恢复基因相互作用 | Friedman N.; Linial M.; Nachman I.; Pe'er D. (2000). Using Bayesian Networks to Analyze Expression Data.Journal of Computational Biology. 7(3–4): 601–620. |
6 | 2006 | Tsamardinos等人提出了MMHC(Max-Min Hill-Climbing)算法 | Tsamardinos, I., Brown, L.E.; Aliferis, C.F. (2006). The max-min hill-climbing Bayesian network structure learning algorithm. Machine Learning. 65(1):1–78. |
7 | 2008 | Trucco等学者将贝叶斯网络应用在了风险分析领域 | Trucco P.; Cagno E.; Ruggeri F.; Grande O. (2008). A Bayesian Belief Network modelling of organisational factors in risk analysis: A case study in maritime transportation. Reliability Engineering & System Safety. 93 (6): 845–856. |
发展分析
瓶颈
建立贝叶斯网络的计算往往十分昂贵,另外,当数据的维度增加,贝叶斯网络的表现会下降,这在目前数据体量庞大的一般条件下是个很大的缺点。其次,贝叶斯网络是有向图,因此其描述变量间的因果关系,贝叶斯网络不能用来模拟变量间的相关关系。
未来发展方向
在机器学习领域,比较常见的研究课题是将贝叶斯理论与神经网络结合在一起,从而结合两种方法的优点,比如训练后的神经网络的权重不再是单独的数值,而是一个分布,推断可以根据参数的后验分布来进行,这同时也意味着在参数空间中,我们可以推导出神经网络所学到的参数的性质和形状。
Contributor: Yuanyuan Li