分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。
例如,在邮件管理中,将一封邮件归类为“垃圾邮件”或者“非垃圾邮件”就是一个典型的二元分类问题;银行对信用卡客户进行信用等级分类和上市公司股票类型的划分则属于多元分类问题。
机器学习里最常用的分类算法主要有以下几种:
- 线性分类器
- 线性判别分析(LDA)
- 逻辑回归(logistic regression)
- 朴素贝叶斯分类器(naive bayes classifier)
- 感知器(perceptron)
- 支持向量机(support vector machine)
- 最小二乘支持向量机(least squares support vector machines )
- 二次分类器(quadratic classifier)
- 核估计(kernel estimation)
- 最近邻居法(k-nearest neighbor)
- Boosting算法
- 梯度增强(Gradient Boosting)
- 自适应增强(Adaboost)
- 决策树(decision trees)
- 随机森林(random forests)
- 神经网络(neural networks)
- 学习式向量量化(learning vector quantization)
其中,线性分类器中的判别分析和逻辑回归是最基础,最具代表性的分类方法。判别分析是一种简单直观的分类方法,它基于观测值与不同类别之间距离差异进行分类。利用样本构造判别函数,根据观测点与不同类别中心点的距离,将其归属于距离“最短”的那一类;而逻辑回归分类则是先建立一个回归模型(regression model),然后采用极大似然估计(maximum likelihood estimation)方法估计模型参数,得出回归的拟合值,最后通过数学方法在不同的概率中作出决策,完成分类问题。
分类算法在医学、生物学和经济管理等诸多领域都有着广泛的应用。分类算法的好坏一般可从三个方面进行判别:①预测准确度;②计算复杂度;③模型的简洁度。
[描述来源:Wikipedia URL:https://en.wikipedia.org/wiki/Statistical_classification
描述来源:Yin Jian, Lu Chengmin, & Yang Guijun. (2014). Combinations of Discriminaroty Analysis and Logistic Regression for Classification. Application of Statistics and Management, 33(2), 256-265.
URL:http://www.cqvip.com/qk/90703x/2014002/48769714.html]
发展历史
自从统计学诞生开始,就不断地出现新的分类算法及其各种改进方法,这些方法被广泛应用在社会的各行各业,尤其是医学和经济管理领域。
在医学领域,医生和学者们对心血管功能进行定量的判别与预测;探讨肺癌细胞核的有关体视学参数在肺癌诊断分型方面的意义;对因大肠癌而住院的病历按治愈和未愈分两组进行非条件多因素分类分析;通过分类探讨进展期胃癌淋巴结的转移规律。
在医学生物学领域中,Biometrics、Biometrical Journal等学术刊物每年都刊登很多判别分析或逻辑回归分类的论文。在国内学术刊物中,这两种方法的应用也很多。医生和学者们借助于判别分析对心血管功能进行定量的判别与预测;利用判别分析探讨肺癌细胞核的有关体视学参数在肺癌诊断分型方面的意义;对因大肠癌而住院的病历按治愈和未愈分两组进行非条件多因素逻辑回归分析;通过逻辑回归探讨进展期胃癌淋巴结的转移规律。
在经济管理领域,对保险公司破产原因进行分析,量化保险公司倒闭前5年的公司金融问题信号,对金融风险概率显著性的评价;预测非寿险公司偿付能力,并检测显著影响非寿险公司偿付能力的因素;对分类预测失败的商务案例进行评价;利用多元判别分析和神经网络对上市公司财务困境进行预警分析;研究上市公司财务危机预警;基于个人消费信贷数据, 建立个人信用评分的判别模型;利用判别分析对商业银行监管和监控指标进行研究;建立分区域、分行业的逻辑回归财务预警模型等等。
主要事件
年份 | 事件 | 相关论文 |
1936 | Fisher提出著名的Fisher Discriminat Analysis | Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of human genetics, 7(2), 179-188. |
1943 | McCulloch等人首次提出了一个基于神经网络的计算模型,开启了人工神经网络的应用 | McCulloch, Warren; Walter Pitts (1943). "A Logical Calculus of Ideas Immanent in Nervous Activity". Bulletin of Mathematical Biophysics. |
1957 | Rosenblatt提出了感知器方法 | Rosenblatt, F. (1957). The perceptron, a perceiving and recognizing automaton Project Para. Cornell Aeronautical Laboratory. |
1958 | Cox提出逻辑回归算法 | Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society. Series B (Methodological), 215-242. |
1963 | Vapnik提出支持向量机算法 | Vapnik, V. (1963). Pattern recognition using generalized portrait method. Automation and remote control, 24, 774-780. |
1967 | Cover等人提出最近邻居分类算法 | Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE transactions on information theory, 13(1), 21-27. |
1988 | Kearns提出将弱分类器转变成强分类器的Boosting思想 | Kearns, M. (1988). Thoughts on hypothesis boosting. Unpublished manuscript, 45, 105. |
1995 | Ho提出随机森林算法 | Ho, T. K. (1995, August). Random decision forests. In Document Analysis and Recognition, 1995., Proceedings of the Third International Conference on (Vol. 1, pp. 278-282). IEEE. |
1995 | Russell等人第一次对贝叶斯分类方法作了正式介绍 | Russell, Stuart; Norvig, Peter (2003) [1995]. Artificial Intelligence: A Modern Approach (2nd ed.), 488 |
1999 | Suykens等人提出最小二乘支持向量机 | Suykens, J. A., & Vandewalle, J. (1999). Least squares support vector machine classifiers. Neural processing letters, 9(3), 293-300. |
发展分析
瓶颈
众多分类算法各有优缺点,在实际应用中,很难找到一种全部行之有效的分类算法,需要针对具体的应用场景,不断尝试新算法和改进旧算法来检验分类结果,效率较低。
未来发展方向
针对上述瓶颈,自动机器学习(automated machine learning)应运而生。它可以针对具体数据集进行不同分类算法的比较、检验,不需人为干预,自动学习不同的模型,克服单一算法的局限性,反馈出最适合的模型。
Contributor: Keyu Qi