非正态循环神经网络:学习长期依赖性并利用瞬态动力学增强表达性
最近,回避循环神经网络中的梯度爆炸和消失问题以及允许信号长时间稳定扩展的策略是将循环连接矩阵约束为正交或单一状态。这保证了特征值与单位范数的一致性,并因此保证稳定动力和训练。但是,由于正交变换的种类有限,表达性会降低。在论文《Non-normal Recurrent Neural Network (nnRNN): learning long time dependencies while improving expressivity with transient dynamics》中,研究者提出一种新的连接结构,该结构基于Schur分解,并将Schur型分裂为正态和非正态部分。这能够参数表示具有单位范数本征谱的矩阵,同时不对eigenbase构成正交性约束。生成的架构确保访问更大空间的频谱约束矩阵,其中正交矩阵是其子集。这种重要差异使正交循环神经网络保持稳定性优势和训练速度,同时增强表达性,特别适用于那些需要计算持续输入序列的任务。