线性整流函数(Rectified Linear Unit, ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。
比较常用的线性整流函数有斜坡函数f(x)=max(0, x),以及带泄露整流函数(Leaky ReLU),其中x为神经元(Neuron)的输入。
通常意义下,线性整流函数指代数学中的斜坡函数,即
函数图像如下:
而在神经网络中,线性整流作为神经元的激活函数,定义了该神经元在线性变换之后的非线性输出结果。
其他线性整流函数:
带泄露线性整流函数(Leaky ReLU)
在输入值为负的时候,Leaky ReLU的梯度为一个常数,而不是0。在输入值为正的时候,Leaky ReLU和普通斜坡函数保持一致。换言之,
在深度学习中,如果设定该常数为一个可通过反向传播算法(Backpropagation)学习的变量,那么带泄露线性整流又被称为参数线性整流(Parametric ReLU)。
带泄露随机线性整流(Randomized Leaky ReLU, RReLU)
RReLU在负输入值段的函数梯度是一个取自连续性均匀分布概率模型的随机变量,即
噪声线性整流(Noisy ReLU)
Noisy ReLU是修正线性单元在考虑高斯噪声的基础上进行改进的变种激活函数。对于神经元的输入值,噪声线性整流加上了一定程度的正态分布的不确定性,即
目前,噪声线性整流函数在受限玻尔兹曼机(Restricted Boltzmann Machine)在计算机图形学的应用中取得了比较好的成果
相比于传统的神经网络激活函数,诸如逻辑函数(Logistic sigmoid)和tanh等双曲函数,线性整流函数有着以下几方面的优势:
- 仿生物学原理:相关大脑方面的研究表明生物神经元的信息编码通常是比较分散及稀疏的。通常情况下,大脑中在同一时间大概只有1%-4%的神经元处于活跃状态。使用线性修正以及正则化(regularization)可以对机器神经网络中神经元的活跃度(即输出为正值)进行调试;相比之下,逻辑函数在输入为0时达到,即已经是半饱和的稳定状态,不够符合实际生物学对模拟神经网络的期望。不过需要指出的是,一般情况下,在一个使用修正线性单元(即线性整流)的神经网络中大概有50%的神经元处于激活态。
- 更加有效率的梯度下降以及反向传播:避免了梯度爆炸和梯度消失问题
- 简化计算过程:没有了其他复杂激活函数中诸如指数函数的影响;同时活跃度的分散性使得神经网络整体计算成本下降
描述来源:维基百科;URL:https://zh.wikipedia.org/wiki/%E7%BA%BF%E6%80%A7%E6%95%B4%E6%B5%81%E5%87%BD%E6%95%B0]
发展历史
描述
深度网络的直接监督式训练的最终突破,最主要的原因是采用了新型激活函数ReLU。ReLU在基于斜坡函数的基础上发展出其他同样被广泛应用于深度学习的变种,譬如带泄露线性整流(Leaky ReLU),带泄露随机线性整流(Randomized Leaky ReLU),以及噪声线性整流(Noisy ReLU)。其中带泄露随机线性整流(Randomized Leaky ReLU, RReLU)最早是在Kaggle全美数据科学大赛(NDSB)中被首先提出并使用的。
线性整流被认为有一定的生物学原理,并且由于在实践中通常有着比其他常用激活函数(譬如逻辑函数)更好的效果,而被如今的深度神经网络广泛使用于诸如图像识别等计算机视觉领域。
主要事件
年份 | 事件 | 相关论文/Reference |
2010 | 在激活函数中引入噪声,得到Noisy ReLU | Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th international conference on machine learning (ICML-10) (pp. 807-814). |
2011 | 采用ReLU之后带来神经网络性能的提升 | Glorot, X., Bordes, A., & Bengio, Y. (2011, June). Deep sparse rectifier neural networks. In Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (pp. 315-323). |
2013 | Leaky ReLu被提出 | Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. icml (Vol. 30, No. 1, p. 3). |
2015 | Randomized Leaky ReLU被提出 | Xu, B., Wang, N., Chen, T., & Li, M. (2015). Empirical evaluation of rectified activations in convolutional network. arXiv preprint arXiv:1505.00853. |
2015 | 在ReLU和LReLU基础上提出Parametric ReLU | He, K., Zhang, X., Ren, S., & Sun, J. (2015). Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision (pp. 1026-1034). |
发展分析
瓶颈
1.不以零为中心:和Sigmoid激活函数类似,ReLU函数的输出不以零为中心。
2.前向传导(forward pass)过程中,如果x < 0,则神经元保持非激活状态,且在后向传导(backward pass)中「杀死」梯度。这样权重无法得到更新,网络无法学习。当x = 0时,该点的梯度未定义,但是这个问题在实现中得到了解决,通过采用左侧或右侧的梯度的方式
未来发展方向
针对不同应用和模型设计,选用不同的激活函数进行实验。
Contributor: Yueqin Li