指数线性单元 | 机器之心

简介

ELUs是对ReLU激活函数的一种演变，将激活函数更能够保持一个noise-robust状态。所以提出一个具有负值的激活函数，这可以使得平均激活接近于零，但它会以更小的参数饱和为负值的激活函数ELUs。ELUs激活函数的公式The exponential linear unit (ELU) with 0 < α 如下展示

ELU通过在正值区间取输入x本身减轻了梯度弥散问题（x>0区间导数处处为1），这一点特性这四种激活函数都具备。四者当中只有ReLU的输出值没有负值，所以输出的均值会大于0，当激活值的均值非0时，就会对下一层造成一个bias，如果激活值之间不会相互抵消（即均值非0），会导致下一层的激活单元有bias shift。如此叠加，单元越多时，bias shift就会越大。相比ReLU，ELU可以取到负值，这让单元激活均值可以更接近0，类似于Batch Normalization的效果但是只需要更低的计算复杂度。虽然LReLU和PReLU都也有负值，但是它们不保证在不激活状态下（就是在输入为负的状态下）对噪声鲁棒。反观ELU在输入取较小值时具有软饱和的特性，提升了对噪声的鲁棒性。如图所示，其中α是一个可调整的参数，它控制着ELU负值部分在何时饱和。

于ReLU的不同：

1、它在x<0处激活值为负值，而且导数不为0这是一点很好的性质，因为ReLU在输入为负时导数会变成0，这会引起神经元死亡的问题，ELU改进了这一点，并且让这部分呈现一种软饱和，这种软饱和有助于提升噪声鲁棒性（显然LReLU对噪声会敏感）。

2、可以使得输出均值为0ReLU的所有输出都为非负数，所以它的输出均值必然非负，而这一点性质会导致网络的均值偏移（bias shift也叫mean shift）。所以ReLU在训练一些超深网络的时候就会出现不收敛的问题。

【描述来源：论文”Fast and accurate deep network learning by exponential linear units (elus）”, URL: https://arxiv.org/pdf/1511.07289.pdf%5cnhttp://arxiv.org/abs/1511.07289%5cnhttp://arxiv.org/abs/1511.07289.pdf】

发展历史

描述

目前神经网络最常用的激活函数(ReLU，这是Nair & Hintonw为了首次在2010为限制玻尔兹曼机restricted Boltzmann machines提出的。并且成功地应用于神经网络(如Glorot，2011)。ReLU激活函数能识别出正参数和零，除了产生稀疏代码，主要优势是ReLU缓解了消失的梯度问题(Hochreiter, 1998; Hochreiter et al .）。ReLU是非负的，因此，它的平均激活值大于零。之后，2012年，Alex将Relu应用于神经网络名为AlexNet，之后ReLU便在神经网络中广泛的运用。

在对激活函数的演变中，其中一个努力就是为了把平均激活推到0。因此，tanh优于logistic函数(LeCun et al.，1991;1998)。最近“Leaky ReLUs”(LReLUs)用一个线性函数替换ReLU的负部分，已被证明优于ReLUs (Maas et al.，2013)。

参数修正线性单元通过学习产生改进的负部分的斜率(PReLUs)是由LReLUs衍生，通过学习负部分的斜率来改进在大型图像基准数据集上学习行为。它在大型图像基准数据集上学习行为(He等，2015)。

另一个变体是Randomized Leaky Rectified Linear Units随机的漏型整流线性单元(RReLUs)，它随机抽取负值的斜率部分,提高了图像基准数据集和卷积网络的性能(Xu，et al .,2015)。

与ReLUs相反，LReLUs、PReLUs和RReLUs等激活函数不能保证一个noise-robust失活状态。ELU提出一个具有负值的激活函数，这可以使得平均激活接近于零，但它会以更小的参数饱和为负值。这个激活函数使得代码单元更容易被模型化也更容易解释，只有激活的代码单元携带大量信息。

主要事件

	A	B	C
1	年份	事件	相关论文
2	2010	Nair, V., & Hinton, G. E.为限制玻尔兹曼机提出ReLu激活函数	Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th international conference on machine learning (ICML-10) (pp. 807-814).
3	2011	Glorot将ReLU用于神经网络	Glorot, X., Bordes, A., & Bengio, Y. (2011, June). Deep sparse rectifier neural networks. In Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (pp. 315-323).
4	2012	Alex将Relu应用于神经网络名为AlexNet，之后Relu便在神经网络中广泛的运用	Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
5	2013	Leaky ReLUs逐渐取代了ReLU	Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. icml (Vol. 30, No. 1, p. 3).
6	2015	Clevert, D. A提出了ELU激活函数用于快速准确的神经网络	Clevert, D. A., Unterthiner, T., & Hochreiter, S. (2015). Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289.

发展分析

瓶颈

ELU计算量稍大。类似于Leaky ReLU，理论上虽然好于ReLU，但在实际使用中目前并没有好的证据ELU总是优于ReLU。

未来发展方向

无论是ReLU，ELU还是Softmax，tanh or sigmod，每个函数都有自身的有点以及缺点。如何将使得自己的网络能够获取更高的准确性，需要根据不同的需求（如计算量，或梯度变化）等来进行选择。

By Cai Ruiying

简介