定义及描述
信息增益是在信息论中的概念,为解释其概念,首先定义信息熵的概念,信息熵反应的是任何一种能量在空间中分布的均匀程度,分布越均匀,信息熵的值就越大。信息增益的另一种说法是互信息。信息增益的方程表示如下:$Ex$表示的是所有的训练数据,value(x,a)定义的是在性质a条件下的样例x,$H$用于表示熵,values(a)表示的是对于性质a的所有值。
描述来源:Wikipedia: URL:https://en.wikipedia.org/wiki/Entropy_(information_theory);
https://en.wikipedia.org/wiki/Information_gain_ratio
信息增益具有广泛的应用,例如,它可以用在决策树的特征选择中。此外,还可以应用在文本分类领域,举一个例子:假设文本集合服从某种分布,计算某个词的信息增益,即系统的信息熵与文本中特征词的条件熵之间的差值,信息增益值越大则该特征词携带的分类信息越多,在分类过程中越重要,反之则该特征词携带的信息量较小,不那么重要。
发展历史
描述
1986年,Quinlan提出了基于信息增益的ID3算法,用来构造决策树,被广泛应用。随后,作者又提出了基于信息增益率的C4.5算法。1995年,Donoho将信息增益作为选择标准,进行特征选择,并获得了很好的效果。随后,相关学者开始应用信息增益于不同的领域,并获得了很好的效果。
主要事件
年份 | 事件 | 相关论文/Reference |
1986 | 提出基于信息增益的ID3算法 | Quinlan, J. R. (1986). Induction of decision trees. Machine learning, 1(1), 81-106. |
1993 | 提出了基于信息增益率的C4.5算法 | Quinlan, R. J. (1993). C4. 5: Programs for Machine Learning. |
1995 | 信息增益在特征选择算法中,并获得很好的效果 | Donoho, D. L. (1995). De-noising by soft-thresholding. IEEE Press. |
2005 | 通过将机器人动作的代价与信息增益相结合,来对机器人的动作进行评估,位置进行探索 | Stachniss, C., Grisetti, G., & Burgard, W. (2005, June). Information gain-based exploration using rao-blackwellized particle filters. In Robotics: Science and Systems (Vol. 2, pp. 65-72). |
2006 | 将信息增益在应用于特征提取,并对模型的复杂度进行控制 | Lee, C., & Lee, G. G. (2006). Information gain and divergence-based feature selection for machine learning-based text categorization. Information processing & management, 42(1), 155-165. |
2012 | 使用信息增益作为分类点选取的依据 | Criminisi, Antonio, Shotton, Jamie, and Konukoglu, Ender. Decision forests: A unified framework for classification, regression, density estimation, manifold learning and semi-supervised learning. Foundations and Trends in Computer Graphics and Vision, 7(2-3):81–227, 2012. |
发展分析
瓶颈
基于信息增益的特征选择算法的不足之处在于:只考虑了特征与类别之间的相关性,忽略了特征项在类间、类内分布的均匀程度。此外,信息增益通常只考虑特征对整个系统的影响,不考虑到某个具体的类比上。即只能对所有类别都包含的相同特征进行特征选择,无法对某些类别独有的特征进行特征识别。
Contributor: Yilin Pan