众所周知,过参数化的深度神经网络(DNN)是一类表达能力极强的函数,它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题:为什么它们不会轻易地过度拟合真实数据?为了回答这个问题,我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重(或者经过有限步训练)的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言,深度 ReLU 网络函数的一个特定频率分量(k)的大小至少以 O(k^(-2))的速率衰减,网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明,被网络分类为属于某个类的所有样本(包括对抗性样本)都可以通过一条路径连接起来,这样沿着该路径上的网络预测结果就不会改变。最后,我们发现对应于高频分量的深度神经网络(DNN)参数在参数空间中所占的体积较小。
如今,人们已经做出了许多关于深度神经网络表达能力的理论研究(Hornik et al., 1989; Cybenko, 1989; Montufar et al., 2014; Poole et al., 2016)。最近的研究表明,深度神经网络(DNN)实际上能够以 100% 的训练准确率记忆随机数据,这表明它们在过参数化的机制中确实有很强的表达能力(Zhang et al., 2017)。这大大激发了人们对深度学习的另一个领域(泛化理论)进行研究的兴趣,从而理解为什么实际上的表现如此优秀,因为能够记住随机数据的过参数化的神经网络会使传统的泛化边界(例如,VC 维、Rademacher 复杂度等)变得无意义。在这些研究中,一个路线将目光投向了研究深度神经网络(DNN)泛化问题的新方法(Neyshabur et al., 2015, 2017; Dziugaite and Roy, 2017);另一个路线则研究基于随机梯度下降(SGD)的方法如何在寻找最小值的问题中作为隐式正则项提升泛化能力(Mandt et al., 2017; Chaudhari and Soatto, 2017; Jastrz˛ebski et al., 2017; Smith and Le, 2017)。
基于这些研究,研究者注意到过参数化的深度神经网络(DNN)在训练过程中优先学习简单(或光滑)的函数,从而捕获到数据中出现的全局性结构而不是过度拟合单个样本(Arpit et al., 2017; Advani and Saxe, 2017)。有趣的是,这种现象已经被证明无论是在真实数据或是随机生成的数据上都是成立的(Arpit et al., 2017)。因此,尽管这样的深度神经网络(DNN)是过参数化的并且具有很强的表达能力,它们似乎更偏向于拟合光滑函数。这也暗示着表征这些函数的参数空间的容量很大。在本文中,研究者使用傅立叶分析来展示深度神经网络(DNN)天然地就偏向于拟合光滑函数,而不是研究泛化问题或深度神经网络优化方法的行为。据作者所知,这是首次使用傅立叶分析研究深度神经网络的工作。本文的贡献如下:
本文展示了对于参数 θ 的任意有限值来说,深度神经网络(DNN)的 ReLU 函数的一个特定的频率分量(k)的量级至少以 O(1/k^2 ) 的速率衰减,并且网络的宽度和深度分别以多项式和指数的级别帮助其捕获更高的频率;因此,高频分量的大小会更小(DNN 更容易趋向于光滑)。其结果是,对深度神经网络(DNN)进行有限步训练使其更趋向于表示如上面所描述的函数。
作为这一理论的附带结果,研究者揭示了(有限权重)深度神经网络在学习类似狄拉克 delta 函数(单位脉冲函数)峰函数的理论极限。这是因为它的傅立叶变换的量级是一个常值函数(因此所有的频率都有相同的振幅)。并且如上文中所讨论的,深度神经网络(DNN)无法学习对这样的函数建模,因为它们的傅立叶系数必须至少以 1/k^2 的速率衰减(尽管增加宽度和深度可以分别以多项式级和指数级别帮助其捕获更高的频率)。
研究者指出,如果在低维流形上定义数据-目标函数的映射,深度神经网络(DNN)可以利用流形的几何结构来对函数取近似,这些函数沿着流形(其函数的频率分量相对于其输入空间较低)具有高频分量。
通过分析实验表明,对于一个在 CIFAR-10 数据集上训练的深度神经网络(DNN)来说,存在几乎线性的路径能够连接所有的对抗性样本,它们被分类成一个特定的类(比如「猫」)。对于所有真正类别为「猫」的训练样本,所有的样本也沿着这条路径被分类成同一个类别——「猫」。研究者进一步展示了对于在 CIFAR-10 数据集上训练的深度神经网络(DNN)来说,所有同一个类别中的训练样本也通过同样的方式连接起来。
实验表明,与带有高频分量的函数相对应的深度神经网络(DNN)在参数空间中所占的体积更小。
对于矩阵值权重,它们的谱范数是通过估计由 10 次幂迭代得到的特征向量的特征值计算而来。对于向量值权重,则仅使用了 L2 范数。此图说明,随着神经网络通过学习去拟合更大的频率,神经网络权值的谱范数也增大,从而松弛频谱的边界
对于这两个流形,我们沿着流形定义了一个频率为 k Hz 的正弦信号,并将它二值化,得到一个 0/1 的目标(点的颜色)。对于每种情况,研究者训练了一个 6 层深的 ReLU 网络,将数据样本从流形映射到它相应的目标上。填充的颜色表示预测出的类,等高线表示该网络经过 sigmoid 函数处理的对数 logits 的绝对值。此图说明,对应较大的 L 的流形,即使在两种流形沿着流形的目标频率相同时,也能使深度神经网络在其域空间学习到更光滑的函数。可以看到,网络会学习利用 L 值较大的流形的几何结构去学习关于其输入空间的低频函数。这个结论在另一个实验中得到了证实。
所有的图像都被一个 ResNet-20 以不少于 95% 的 softmax 概率分类为右侧所示的训练样本的类别。本实验表明,我们可以找到一条路径,分类为某一个特定类别(「飞机」)的对抗性样本(右侧,例如「猫」)与真实的训练样本类别(左侧,「飞机」)相连,这样以来沿着这条路径的左右样本都会被网络预测为同一个类别(「猫」)。
论文:On the Spectral Bias of Deep Neural Networks
论文链接:https://arxiv.org/pdf/1806.08734.pdf
摘要:众所周知,过参数化的深度神经网络(DNN)是一类表达能力极强的函数,它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题:为什么它们不会轻易地过度拟合真实数据?为了回答这个问题,我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重(或者经过有限步训练)的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言,深度 ReLU 网络函数的一个特定频率分量(k)的大小至少以 O(k^(-2))的速率衰减,网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明,被网络分类为属于某个类的所有样本(包括对抗性样本)都可以通过一条路径连接起来,这样沿着该路径上的网络预测结果就不会改变。最后,我们发现对应于高频分量的深度神经网络(DNN)参数在参数空间中所占的体积较小。