决策树
本章主要讲了决策树学习算法的三个部分:特征选择、树的生成方式和树的剪枝以及三种决策树算法:ID3、C4.5、CART
Tips:决策树的东西比较多(这章啃了一个星期才啃完 (lll¬ω¬)),我们平时使用的sklearn里面的决策树用的就是CART算法,所以这章的重点就在于CART的两种树模型(回归树、分类树),ID3和C4.5可作为了解:
思维导图在线浏览地址:决策树
逻辑斯蒂回归模型
逻辑斯蒂回归模型是经典的分类学习器,在二分类的监督问题上分类效果非常好,其经典之处就在于LR的分布函数-sigmoid函数:
思维导图在线浏览地址:逻辑斯蒂回归模型
最大熵模型与最优化算法
最大熵模型目前应用在NLP上比较多,本章的最大熵模型的内容与数学推导公式比较多,大家可以选择自己想要了解的地方去了解就行:
思维导图在线浏览地址:最大熵模型与最优化算法
线性可分支持向量机
在机器学习的学习之路上,SVM是ML童鞋们在分类问题上一定会遇到的一个学习方法,SVM这一章将SVM按训练数据的线性可分性分为由简到繁分为三种模型:线性可分支持向量机(linner support vector machine in linearly separable case)、线性支持向量机(linear support vector machine)以及非线性支持向量机(non-linear support vector)。在实际工程中,面对不同规模的数据集时,在小型数据集上,SVM有时仅需小量的训练数据,就可以得到比较好的训练结果,而这正是因为SVM的特性-支持向量,下面通过思维导图先简单介绍下SVM:
线性可分支持向量机:
思维导图在线浏览地址:线性可分支持向量机
线性支持向量机
上一章讲了线性可分支持向量机,但在实际工程中,样本数据往往是数据不可分的,此时就需要另一种学习器-线性支持向量机,又称线性不可分支持向量机,因为其适用范围更广,所以一般将其称为线性支持向量机,其学习策略为-软间隔最大化(区别于线性可分支持向量机的硬间隔最大化):
思维导图在线浏览地址:线性支持向量机
非线性支持向量机
前两篇我们看的是都是适应线性样本的支持向量机,那遇到非线性的分类问题呢?利用核技巧,就可以将线性分类的学习方法应用到非线性分类问题中去,将线性支持向量机拓展到非线性支持向量机,只需将线性支持向量机对偶形式中的内积换成核函数,接下来就来看下非线性支持向量机的思维导图:
思维导图在线浏览地址:非线性支持向量机
SMO序列最小最优化算法
由Platt提出的SMO算法是支持向量机学习的一种快速算法,其特点为不断将原二次规划问题分解为只有两个变量的二次子规划问题,并对子问题进行解析求解,直到所有变量满足KKT条件为止。SVM是通过求得全局最优解来进行学习,SVM在面对大规模的训练样本时,效果往往不是很好·,SMO算法正是为了解决这个问题而提出的。至此SVM章节的相关内容就全部结束了(本节思维导图涉及较多的证明过程,各位可根据需要查阅)
思维导图在线浏览地址:SMO序列最小最优化算法
思维来自《统计学习方法》-李航
欢迎前往我的个人小站:www.wengjj.ink
才学疏浅,欢迎评论指导