在机器学习领域,有一种分类方法将模型分为判别模型和生成模型(generative model)两种。
判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法,是一种基于概率理论的方法。已知输入变量x,判别模型通过构建条件概率P(y|x)分布预测结果,或试图直接从输入x的空间学习映射到标签{0,1}(如感知器算法)的函数。生成模型则是考虑x与y之间的联合分布。
在实际应用中判别模型非常常见,如:逻辑回归(logistic regression),支持向量机(support vector machine),提升方法(Boosting),条件随机场(conditional random fields),神经网络(neural network),随机森林(random forests)典型的生成模型则包括:高斯混合模型(Gaussian Mixture Model),隐马尔科夫模型(hidden markov model),简单贝叶斯(naive Bayes)等。不难看出两者的区别。
[描述来源:维基百科URL:https://en.wikipedia.org/wiki/Discriminative_model]
下面通过一个例子具体阐述:
假设训练数据集为:(x,y)={(1,0),(1,0,),(2,0),(2,1)}
若考虑x,y的联合分布,则其应为:
A | B | C | |
1 | y=0 | y=1 | |
2 | x=1 | 0.5 | 0 |
3 | x=2 | 0.25 | 0.25 |
而考虑其条件概率分布p(y|x)则为:
A | B | C | |
1 | y=0 | y=1 | |
2 | x=1 | 1 | 0 |
3 | x=2 | 0.5 | 0.5 |
因此,判别模型试图直接从数据中学习p(y | x),然后尝试对数据进行分类。另一方面,生成模型试图学习p(x,y),后者可以稍后转换为p(y | x)数据。值得注意的是,大部分判别模型本身是监督学习模型,不易扩展用于非监督学习过程。
[描述来源:维基百科URL:https://en.wikipedia.org/wiki/Generative_model]
发展历史
描述
关于判别模型和生成模型的表现一直以来都受到了广泛关注,Andrew Ng 和Michael Jordan在2001年发表了一篇被大量引用的论文,在文中对两种模型进行了比较,他们认为判别模型有比生成模型更低的渐进误差(asymptote error),但生成模型能够比判别模型更快达到渐进误差。由于两类模型各有所长,1999年Jaakkola和Haussler试图将生成模型能够处理缺失/不规则数据的优点与判别模型能够建立更灵活的决策边界并且在分类问题中表现更好的优点结合起来,从生成概率模型推导能够在判别模型中使用的核方程(kernel function)。2007年Bishop和Lasserre针对大部分判别模型不易扩展用于非监督学习过程的缺点探讨了将生成模型和判别模型结合起来的方法,并认为当标记好的训练数据有限时,这种方法的最佳表现介于纯判别模型和纯生成模型之间。
纯判别模型的应用也非常多,特别是在深度学习极度流行的今天,神经网络作为判别模型的子类得到了广泛的使用,在自然语言处理(如Mikolov et al.)、图像识别(如Krizhevsky,Sutskever,Hinton)、图像生成等领域都能看到判别模型的实际应用。
主要事件
A | B | C | |
1 | 年份 | 事件 | 相关论文/Reference |
2 | 1999 | Jaakkola和Haussler从生成概率模型推导能够在判别模型中使用的核方程(kernel function) | Jaakkola T.; HausslerD. (1999). Exploiting generative models in discriminative classifiers. Advances in neural information processing. pp 487-493. |
3 | 2002 | Andrew Ng 和Michael Jordan在论文中对判别模型和生成模型进行了比较 | Ng A. Y.; Jordan M. I. (2002).On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes. NIPS. |
4 | 2007 | Bishop和Lasserre针对大部分判别模型不易扩展用于非监督学习过程的缺点探讨了将生成模型和判别模型结合起来的方法 | Bishop, C. M.; Lasserre, J. (2007). Generative or Discriminative? getting the best of both worlds. Bayesian statistics 8:proceedings of the eighth Valencia International Meeting.Oxford University Press. pp. 3–23. |
5 | 2010 | Mikolov等人提出了RNN LM模型,用于语音识别 | Mikolov T.;Karafiát M.; Burget L.; Černocký J.; Khudanpur S. (2010).Recurrent Neural Network Based Language Model.INTERSPEECH-2010, 1045-1048. |
6 | 2012 | Krizhevsky等人提出了Alexnet用于图像识别 | Krizhevsky A.; Sutskever I.; Hinton G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25 (NIPS 2012). |
发展分析
瓶颈
大部分判别模型本身是监督学习模型,不易扩展用于非监督学习过程,但在数据量越来越大的今天,能够无监督学习的模型越来越受欢迎。
未来发展方向
通过结合生成模型的优点或别的方法使判别模型对训练数据的要求更宽松。