Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

指数线性单元

一种激活函数, ELUs是对ReLU激活函数的一种演变,将激活函数更能够保持一个noise-robust状态。所以提出一个具有负值的激活函数,这可以使得平均激活接近于零,但它会以更小的参数饱和为负值的激活函数ELUs。

简介

ELUs是对ReLU激活函数的一种演变,将激活函数更能够保持一个noise-robust状态。所以提出一个具有负值的激活函数,这可以使得平均激活接近于零,但它会以更小的参数饱和为负值的激活函数ELUsELUs激活函数的公式The exponential linear unit (ELU) with 0 < α 如下展示

ELU通过在正值区间取输入x本身减轻了梯度弥散问题(x>0区间导数处处为1),这一点特性这四种激活函数都具备。四者当中只有ReLU的输出值没有负值,所以输出的均值会大于0,当激活值的均值非0时,就会对下一层造成一个bias,如果激活值之间不会相互抵消(即均值非0),会导致下一层的激活单元有bias shift。如此叠加,单元越多时,bias shift就会越大。相比ReLUELU可以取到负值,这让单元激活均值可以更接近0,类似于Batch Normalization的效果但是只需要更低的计算复杂度。虽然LReLUPReLU都也有负值,但是它们不保证在不激活状态下(就是在输入为负的状态下)对噪声鲁棒。反观ELU在输入取较小值时具有软饱和的特性,提升了对噪声的鲁棒性。如图所示,其中α是一个可调整的参数,它控制着ELU负值部分在何时饱和。

ReLU的不同:

1、它在x<0处激活值为负值,而且导数不为0这是一点很好的性质,因为ReLU在输入为负时导数会变成0,这会引起神经元死亡的问题,ELU改进了这一点,并且让这部分呈现一种软饱和,这种软饱和有助于提升噪声鲁棒性(显然LReLU对噪声会敏感)。

2、可以使得输出均值为0ReLU的所有输出都为非负数,所以它的输出均值必然非负,而这一点性质会导致网络的均值偏移(bias shift也叫mean shift)。所以ReLU在训练一些超深网络的时候就会出现不收敛的问题。

【描述来源:论文”Fast and accurate deep network learning by exponential linear units (elus”, URL: https://arxiv.org/pdf/1511.07289.pdf%5cnhttp://arxiv.org/abs/1511.07289%5cnhttp://arxiv.org/abs/1511.07289.pdf

发展历史

描述

目前神经网络最常用的激活函数(ReLU,这是Nair & Hintonw为了首次在2010为限制玻尔兹曼机restricted Boltzmann machines提出的。并且成功地应用于神经网络(Glorot2011)ReLU激活函数能识别出正参数和零,除了产生稀疏代码,主要优势是ReLU缓解了消失的梯度问题(Hochreiter, 1998; Hochreiter et al .)。ReLU是非负的,因此,它的平均激活值大于零。之后,2012年,AlexRelu应用于神经网络名为AlexNet,之后ReLU便在神经网络中广泛的运用。

在对激活函数的演变中,其中一个努力就是为了把平均激活推到0。因此,tanh优于logistic函数(LeCun et al.1991;1998)。最近“Leaky ReLUs”(LReLUs)用一个线性函数替换ReLU的负部分,已被证明优于ReLUs (Maas et al.2013)

参数修正线性单元通过学习产生改进的负部分的斜率(PReLUs)是由LReLUs衍生,通过学习负部分的斜率来改进在大型图像基准数据集上学习行为。它在大型图像基准数据集上学习行为(He等,2015)

另一个变体是Randomized Leaky Rectified Linear Units随机的漏型整流线性单元(RReLUs),它随机抽取负值的斜率部分,提高了图像基准数据集和卷积网络的性能(Xuet al .,2015)

ReLUs相反,LReLUsPReLUsRReLUs等激活函数不能保证一个noise-robust失活状态。ELU提出一个具有负值的激活函数,这可以使得平均激活接近于零,但它会以更小的参数饱和为负值。这个激活函数使得代码单元更容易被模型化也更容易解释,只有激活的代码单元携带大量信息。

主要事件

A

B

C

1

年份

事件

相关论文

2

2010

Nair, V., & Hinton, G. E.为限制玻尔兹曼机提出ReLu激活函数

Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th international conference on machine learning (ICML-10) (pp. 807-814).

3

2011

GlorotReLU用于神经网络

Glorot, X., Bordes, A., & Bengio, Y. (2011, June). Deep sparse rectifier neural networks. In Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (pp. 315-323).

4

2012

AlexRelu应用于神经网络名为AlexNet,之后Relu便在神经网络中广泛的运用

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).

5

2013

Leaky ReLUs逐渐取代了ReLU

Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. icml (Vol. 30, No. 1, p. 3).

6

2015

Clevert, D. A提出了ELU激活函数用于快速准确的神经网络

Clevert, D. A., Unterthiner, T., & Hochreiter, S. (2015). Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289.

发展分析

瓶颈

ELU计算量稍大。类似于Leaky ReLU,理论上虽然好于ReLU,但在实际使用中目前并没有好的证据ELU总是优于ReLU

未来发展方向

无论是ReLUELU还是Softmaxtanh or sigmod,每个函数都有自身的有点以及缺点。如何将使得自己的网络能够获取更高的准确性,需要根据不同的需求(如计算量,或梯度变化)等来进行选择。

By Cai Ruiying

简介