ELUs是对ReLU激活函数的一种演变,将激活函数更能够保持一个noise-robust状态。所以提出一个具有负值的激活函数,这可以使得平均激活接近于零,但它会以更小的参数饱和为负值的激活函数ELUs。ELUs激活函数的公式The exponential linear unit (ELU) with 0 < α 如下展示
ELU通过在正值区间取输入x本身减轻了梯度弥散问题(x>0区间导数处处为1),这一点特性这四种激活函数都具备。四者当中只有ReLU的输出值没有负值,所以输出的均值会大于0,当激活值的均值非0时,就会对下一层造成一个bias,如果激活值之间不会相互抵消(即均值非0),会导致下一层的激活单元有bias shift。如此叠加,单元越多时,bias shift就会越大。相比ReLU,ELU可以取到负值,这让单元激活均值可以更接近0,类似于Batch Normalization的效果但是只需要更低的计算复杂度。虽然LReLU和PReLU都也有负值,但是它们不保证在不激活状态下(就是在输入为负的状态下)对噪声鲁棒。反观ELU在输入取较小值时具有软饱和的特性,提升了对噪声的鲁棒性。如图所示,其中α是一个可调整的参数,它控制着ELU负值部分在何时饱和。
于ReLU的不同:
1、它在x<0处激活值为负值,而且导数不为0这是一点很好的性质,因为ReLU在输入为负时导数会变成0,这会引起神经元死亡的问题,ELU改进了这一点,并且让这部分呈现一种软饱和,这种软饱和有助于提升噪声鲁棒性(显然LReLU对噪声会敏感)。
2、可以使得输出均值为0ReLU的所有输出都为非负数,所以它的输出均值必然非负,而这一点性质会导致网络的均值偏移(bias shift也叫mean shift)。所以ReLU在训练一些超深网络的时候就会出现不收敛的问题。
【描述来源:论文”Fast and accurate deep network learning by exponential linear units (elus)”, URL: https://arxiv.org/pdf/1511.07289.pdf%5cnhttp://arxiv.org/abs/1511.07289%5cnhttp://arxiv.org/abs/1511.07289.pdf】
发展历史
描述
目前神经网络最常用的激活函数(ReLU,这是Nair & Hintonw为了首次在2010为限制玻尔兹曼机restricted Boltzmann machines提出的。并且成功地应用于神经网络(如Glorot,2011)。ReLU激活函数能识别出正参数和零,除了产生稀疏代码,主要优势是ReLU缓解了消失的梯度问题(Hochreiter, 1998; Hochreiter et al .)。ReLU是非负的,因此,它的平均激活值大于零。之后,2012年,Alex将Relu应用于神经网络名为AlexNet,之后ReLU便在神经网络中广泛的运用。
在对激活函数的演变中,其中一个努力就是为了把平均激活推到0。因此,tanh优于logistic函数(LeCun et al.,1991;1998)。最近“Leaky ReLUs”(LReLUs)用一个线性函数替换ReLU的负部分,已被证明优于ReLUs (Maas et al.,2013)。
参数修正线性单元通过学习产生改进的负部分的斜率(PReLUs)是由LReLUs衍生,通过学习负部分的斜率来改进在大型图像基准数据集上学习行为。它在大型图像基准数据集上学习行为(He等,2015)。
另一个变体是Randomized Leaky Rectified Linear Units随机的漏型整流线性单元(RReLUs),它随机抽取负值的斜率部分,提高了图像基准数据集和卷积网络的性能(Xu,et al .,2015)。
与ReLUs相反,LReLUs、PReLUs和RReLUs等激活函数不能保证一个noise-robust失活状态。ELU提出一个具有负值的激活函数,这可以使得平均激活接近于零,但它会以更小的参数饱和为负值。这个激活函数使得代码单元更容易被模型化也更容易解释,只有激活的代码单元携带大量信息。
主要事件
A | B | C | |
1 | 年份 | 事件 | 相关论文 |
2 | 2010 | Nair, V., & Hinton, G. E.为限制玻尔兹曼机提出ReLu激活函数 | Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th international conference on machine learning (ICML-10) (pp. 807-814). |
3 | 2011 | Glorot将ReLU用于神经网络 | Glorot, X., Bordes, A., & Bengio, Y. (2011, June). Deep sparse rectifier neural networks. In Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (pp. 315-323). |
4 | 2012 | Alex将Relu应用于神经网络名为AlexNet,之后Relu便在神经网络中广泛的运用 | Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105). |
5 | 2013 | Leaky ReLUs逐渐取代了ReLU | Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. icml (Vol. 30, No. 1, p. 3). |
6 | 2015 | Clevert, D. A提出了ELU激活函数用于快速准确的神经网络 | Clevert, D. A., Unterthiner, T., & Hochreiter, S. (2015). Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289. |
发展分析
瓶颈
ELU计算量稍大。类似于Leaky ReLU,理论上虽然好于ReLU,但在实际使用中目前并没有好的证据ELU总是优于ReLU。
未来发展方向
无论是ReLU,ELU还是Softmax,tanh or sigmod,每个函数都有自身的有点以及缺点。如何将使得自己的网络能够获取更高的准确性,需要根据不同的需求(如计算量,或梯度变化)等来进行选择。
By Cai Ruiying