对比不同NLP任务上的深度学习激活函数
激活函数在神经网络中扮演着重要角色,因为它们是对深度学习的成功有重大意义的非线性。当前,最流行的一种激活函数是 ReLU,但也有众多新的激活函数被提出,包括 LReLU 函数和 Swish。虽然有些工作在一些任务(通常是图像分类)上对比了 ReLU 与一些新提出的激活函数,但近日德国达姆施塔特工业大学发表论文《Is it Time to Swish? Comparing Deep Learning Activation Functions Across NLP tasks》,首次在 8 个不同的 NLP 任务上对 21 种激活函数进行了大规模对比。研究人员发现一个普遍未知的激活函数在所有任务上都很稳定,也就是 penalized tanh 函数。最终实验表明,它能够成功取代 LSTM 单元中的 sigmoid 函数和 tanh 门,在 NLP 任务上要比标准选择带来 2 个点的提升。