哈佛麻省新研究:关于深度学习的信息瓶颈理论
哈佛大学、麻省理工和圣塔菲研究所的研究人员近日发表了一篇新论文,研究了深度学习的信息瓶颈(IB)理论。文中提出了三个具体主张:首先,深度网络经历了两个不同的阶段,包括初始拟合阶段和随后的压缩阶段;其次,压缩阶段与深度网络的出色泛化性能有因果关系;第三,压缩阶段的发生是由于随机梯度下降的扩散样行为。在这里,他们发现这些主张在一般情况下都不成立,而仅仅是反映了在确定性网络中计算有限互信息度量的假设。当使用简单的分箱计算时,他们通过分析结果和模拟的组合证明了先前工作中观察到的信息平面轨迹主要是所使用的神经非线性的函数:双面饱和非线性(例如 tanh)随着神经激活的进入而产生压缩阶段饱和状态,但线性激活函数和单侧饱和非线性(广泛使用的 ReLU)却没有。此外,他们发现压缩和泛化之间没有明显的因果关系:不压缩的网络仍然能够泛化,反之亦然。他们还证明了,当输入域包含与任务相关和与任务无关的信息的子集时,尽管有关输入的总体信息可能随训练时间而单调增加,但是隐藏表示确实会压缩与任务无关的信息。