当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。
模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。
正则化一般具有如下形式:
\[\mathop {\min }\limits_{f \in F} \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i})) + \lambda J(f)} \] (1.19)
其中,第1项是经验风险,第2项是正则化项,$\lambda \ge 0$ 为调整两者之间关系的系数。
正则化项可以取不同的形式。例如,回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:
\[L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {{{(f({x_i};w) - {y_i})}^2}} + \frac{\lambda }{2}{\left\| w \right\|^2}\]
这里,\[\left\| w \right\|\]表示参数向量W的L2范数。
正则化项也可以是参数向量的L1范数:
\[L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {{{(f({x_i};w) - {y_i})}^2}} + \lambda {\left\| w \right\|_1}\]
这里, ${\left\| w \right\|_1}$ 表示参数向量W的L1范数。
第1项的经验风险较小的模型可能较复杂(有多个非零参数),这时第2项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。
来源:
李航著 统计学习方法 清华大学出版社
例子:
过拟合的例子
直观来看,如果我们想解决这个例子中的过拟合问题,最好能将\[{x_3}\],\[{x_4}\]的影响消除,也就是让\[{\theta _{_3}} \approx 0\],\[{\theta _4} \approx 0\].假设我们对 \[{\theta _3}\],\[{\theta _4}\]进行惩罚,例如:
\[\mathop {\min }\limits_\theta \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^2} + 1000\theta _3^2 + 1000\theta _4^2} \]
并且令其很小,一个简单的办法就是给原有的Cost function加上两个略大惩罚项,这样在最小化Cost function的时候,\[{\theta _{_3}} \approx 0\],\[{\theta _4} \approx 0\]
发展历史
1943年,吉洪诺夫提出正则化的概念,最初是用于处理不适定反问题。1990年,正则化方法成为样条理论的核心观点,在2000年,此概念被广泛应用于机器学习中。很多机器学习的算法都利用正则化方法,比如支持向量机(SVM)
2003年,斯莫拉和孔多尔阐述了基于拉普拉斯图构建图正则项,随后,2005年坎德拉提出了图正则项的非参数构造。
主要事件
年份 | 事件 | 相关论文 |
1943年 | 第一次提出正则化的概念 | Tikhonov, A. N. (1943). On the stability of inverse problems. C. R.(Doklady) Acad. Sci. URSS (N.S.), 39:176–179. |
1963年 | 提出吉洪诺夫正则化方法,一种在不适定问题经常使用的正则化方法 | A. N. Tikhonov. (1963) Solution of incorrectly formulated problems and the regularization method. Soviet Math. Dokl., 4:1035-1038, 1963. |
1990年 | 正则化成为样条理论的主要方法 | Wahba, G. (1990). Spline models for observational data (Vol. 59). Siam. |
2000年 | 正则化方法在机器学习中使用 | Evgeniou, M. Pontil, and T. Poggio. (2000) Regularization Networks and Support Vector Machines. Advances in Computational Mathematics, 13(1):1–50 |
2003年 | 基于拉普拉斯图构建正则项图 | Smola and R. Kondor. (2003) Kernels and regularization on graphs. Conference on Learning Theory,COLT/KW,. |
2005年 | 提出了正则项图的非参数构造方法 | Zhu, X., Kandola, J., Ghahramani, Z., & Lafferty, J. D. (2005). Nonparametric transforms of graph kernels for semi-supervised learning. In Advances in neural information processing systems (pp. 1641-1648). |
发展分析
瓶颈
选择正则化系数过大时,主要是λ过大时,会造成欠拟合。
未来发展方向
1. 具有巨量参数模型的正则化问题;
2.未来几年人工神经网络领域将开发出更强大的正则化技术,这些技术能使神经网络能更好地泛化,即使数据集非常小
Contributor: Peng Jiang