宽随机神经网络收敛于高斯过程
《Scaling Limits of Wide Neural Networks with Weight Sharing: Gaussian Process Behavior, Gradient Independence, and Neural Tangent Kernel Derivation》是微软研究院在 2018 Text Adventure AI Competition 上获得冠军的一篇论文。该论文通过引入可以表达大多数神经网络计算的直线张量程序的概念将这些结果作以统一,且作者在它的张量很大且随机化时表示它的尺度限制。从本文的框架中可以得出:(1)对于CNN、RNN、残差网络、Attention以及它们的任何组合体系结构(不管有没有批量归一化),随机神经网络都会收敛到高斯过程;(2)梯度独立性假设 (反向传播中的权重与正向传递中的权重无关)的条件将导致梯度动态的正确计算,而若没有这个条件则会进行校正;(3)神经切线核(这是最近提出的用于梯度下降情况下预测神经网络训练动态的核)的收敛性在(1)中所有的体系结构的初始化中没有批量归一化。在数学上,该论文的框架足够通用,可以重新获得经典的随机矩阵结果,如半圆和Marchenko-Pastur定律,以及神经网络Jacobian奇异值的最新结果。