贝叶斯模型的发展始于1763年贝叶斯定理的出现。贝叶斯定理Bayes’ theorem是以Thomas Bayes(1701-1761)命名的,他研究了如何计算二项分布的概率参数的分布(在现代术语中)。在他死后,贝叶斯的未出版的手稿由理查德·普莱斯Richard Price在英国皇家学会进行了大量的编辑工作。Richard Price主要工作有:贝叶斯的主要作品“一篇解决机会主义问题的文章”(1763)“An Essay towards solving a Problem in the Doctrine of Chances”,它发表在Philosophical Transactions中,并包含了贝叶斯定理。Richard Price还写了一篇文章介绍了贝叶斯统计的一些哲学基础。1774年,法国数学家皮埃尔·西蒙·拉普拉斯Pierre-Simon Laplace再现并拓展了了贝叶斯的研究成果,显然他没有意识到贝叶斯的工作。贝叶斯概率的解释主要是由拉普拉斯进行的。经过近二百年的研究和实验,贝叶斯模型在1941年后进入了应用阶段。此时正值第二次世界大战,贝叶斯定理在密码破译中得到了应用——阿兰·图灵使用贝叶斯系统解码德国的Enigma信息密码。1959年,第一本关于贝叶斯方法的教科书《商业决策的概率与统计(Probability and Statistics for Business Decisions)》问世。
贝叶斯网络这个概念是由Pearl在1985年针对主观的输入信息依靠贝叶斯条件作为更新信息的基础而提出来的,并在其后几年快速发展,成为了一个单独的研究领域。1988年E. T. Jaynes提出一个建模合情推理(plausible reasoning)的心智过程的框架。1989年Dean和Kanazawa首次在人工智能系统中使用了动态贝叶斯网络(DBN)的概念。在他们发表的文章中,DBN主要被描述为一个因果推理模型,它能解释关于因果关系的知识以及关于命题随/不随时间流逝而变化的知识。到了上世纪90年代,Paul Dagum等学者正式提出了DBNs,当时他领导的研究由美国斯坦福大学医学信息学科的两个国家科学基金会资助。Paul Dagum开发了DBN来统一和扩展传统线性状态空间模型,如卡尔曼滤波器,线性和正常预测模型(如ARMA)和简单依赖模型(如隐马尔可夫模型),并将其扩展为任意非线性和非正态的一般概率表示和推理机制时间依赖域。2006年Tsamardinos等人将本地学习(local learning),基于约束和搜索与分数技术(constraint-based,search-and-score techniques)与贝叶斯网络结合,提出了MMHC(Max-Min Hill-Climbing)算法。
现在,贝叶斯模型在各个领域中得到了广泛的应用,比如垃圾消息过滤(朴素贝叶斯)、保险损失预测和客户行为推断,此外还有一些应用贝叶斯模型进行HIV预测的研究。
主要事件
年份 | 事件 | 相关论文/Reference |
1763 | 托马斯·贝叶斯研究出了贝叶斯定理 | Bayes, T. & Price, R. (1763).An Essay towards solving a Problem in the Doctrine of Chance.Philosophical Transactions of the Royal Society of London. 53 (0): 370–418. |
1774 | 皮埃尔·西蒙·拉普拉斯再次发现和发表了贝叶斯机制 | Laplace, P. (1774). Memoir on the Probability of the Causes of Events. Statistical Science 1(3):364–378. |
1941 | 第二次世界大战期间,阿兰·图灵使用贝叶斯系统解码德国的Enigma信息密码 | Turing, A. (1941).The Applications of Probability to Cryptography"\. The National Archives (United Kingdom): HW 25/37. |
1959 | 第一本关于贝叶斯方法的教科书《商业决策的概率与统计(Probability and Statistics for Business Decisions)》问世 | Anscombe, F. J. (1959). Probability and Statistics for Business Decisions: An Introduction to Managerial Economics under Uncertainty. McGraw-Hill Book Company, Inc. |
1985 | Pearl提出贝叶斯网络的概念 | Pearl J. (1985). Bayesian Networks: A Model of Self-Activated Memory for Evidential Reasoning.Proceedings of the 7th Conference of the Cognitive Science Society, University of California, Irvine, CA. pp. 329–334. |
1988 | E.T.Jaynes 提出一个建模合情推理(plausible reasoning)的心智过程的框架 | Jaynes, E. T. (1988).How Does the Brain Do Plausible Reasoning?.Maximum-Entropy and Bayesian Methods in Science and Engineering.pp 1-24. |
1989 | Dean和Kanazawa首次在人工智能系统中使用了动态贝叶斯网络(DBN)的概念 | Dean, T. and Kanazawa, K. (1989), A model for reasoning about persistence and causation. Computational Intelligence, 5: 142-150. |
20世纪90年代 | Paul Dagum正式研究出了DBN | Dagum, P.;Galper, A.; Horvitz, E.(1992).Dynamic Network Models for Forecasting.Proceedings of the Eighth Conference on Uncertainty in Artificial Intelligence. AUAI Press: 41–48.//Dagum, P.; Galper, A.; Horvitz, E.; Seiver, A. (1995). Uncertain Reasoning and Forecasting. International Journal of Forecasting. 11 (1): 73–87. |
2006 | Tsamardinos等人提出了MMHC(Max-Min Hill-Climbing)算法 | Tsamardinos, I., Brown, L.E.; Aliferis, C.F. (2006). The max-min hill-climbing Bayesian network structure learning algorithm. Machine Learning. 65(1):1–78. |
2007 | Wang, Q., Garrity, G. M., Tiedje, J. M.使用朴素贝叶斯对RNA的排序进行分析,是朴素贝叶斯成功运用的典型案例 | Wang, Q., Garrity, G. M., Tiedje, J. M., & Cole, J. R. (2007). Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy. Applied and environmental microbiology, 73(16), 5261-5267. |
发展分析
瓶颈
- 如果假设太复杂,贝叶斯网络的效果会很差。因为当前状态取决于之前所有的状态,所以它事先可能就会包含大量变量,计算这些变量需要大量内存。
- 当使用朴素贝叶斯模型时,如果变量之间是高度相关的,那就会生成误导性的结果。
- 作为已知条件的先验假设在得到最终结果上发挥着重要的作用。但是,确定先验假设有时候是很困难和耗时的。
未来发展方向
如果能找到一种解决方案,让模型的计算可以使用更加无偏差和合理的先验条件,那么就能降低计算成本、使贝叶斯模型的估计和预测更加值得信任、应用到更多领域。
Contributor: Yuanyuan Li, Shiyuan Jiang