2022/02/22 14:13

张倩报道

信息瓶颈提出者Naftali Tishby生前指导，129页博士论文「神经网络中的信息流」公布

这篇博士论文在 Tishby 的指导下完成，汇集了师徒二人及其他合著者在深度学习 + 信息论领域的研究成果，非常值得一读。

深度学习的黑箱属性一直为人所诟病，很多研究者都在努力解决这一问题。其中，用信息论来提高深度神经网络的可解释性是一个非常有趣的方向。

在这个方向上，「信息瓶颈」提出者、希伯来大学计算机科学教授 Naftali Tishby 及其学生的论文属于必读文献。

2015 年，Tishby 和他的学生 Noga Zaslavsky 发表了一篇论文，假设深度学习是一个信息瓶颈程序，尽可能地压缩数据噪声，保留数据想表达的信息。也就是说，神经网络就像把信息挤进瓶颈一样，只留下与一般概念最为相关的特征，去掉大量无关的噪音数据。

2017 年，Tishby 和他的另一个学生 Ravid Shwartz-Ziv 联合进行了一场引入注目的实验，揭示了发生在深度学习之中的挤压过程，表明深度神经网络在压缩状态中提高泛化能力，从而更加擅长标记测试数据。这篇论文就是大名鼎鼎的《 Opening the black box of Deep Neural Networks via Information 》。深度学习先驱 Geoffrey Hinton 在听了 Tishby 的报告之后给他发了邮件：「信息瓶颈极其有趣，我要再听一万遍才能真正理解它，当今能听到如此原创的想法非常难得，或许它就是解开谜题的那把钥匙。」纽约大学心理学和数据科学助理教授 Brenden Lake 也认为，Tishby 的研究成果是「打开神经网络黑箱的重要一步」。

在这篇论文之后，Tishby 及其学生继续在深度学习 + 信息论的方向上深入研究。但不幸的是，Tishby 于去年 8 月份离世，剩下的问题只能交给后人来探索。

在 Tishby 去世的这年，Ravid Shwartz-Ziv 完成了他的博士论文 ——《 Information Flow in Deep Neural Networks 》。

这篇论文在 Tishby 的指导下完成，汇集了师徒二人及其他合著者在深度学习 + 信息论领域的研究成果，非常值得一读。

最近，Ravid Shwartz-Ziv 表示，他已经将该论文上传到了 arXiv。

论文链接：https://arxiv.org/pdf/2202.06749.pdf

以下是论文的大致内容。

Ravid Shwartz-Ziv 的博士论文

尽管深度神经网络已经取得了巨大的成功，但我们还没有一个全面的理论来解释这些网络如何工作或如何构造。深度网络通常被视为黑盒，我们无法清楚地解释它们的预测结果或可靠性。如今，了解深度神经网络的突破性性能是科学界面临的最大挑战之一。为了更有效地使用这些算法并改进它们，我们需要了解它们的动态行为（dynamic behavior）以及它们学习新表示的能力。

在这篇博士论文中，作者应用了信息论中的原理和技术来解决上述问题，以提高我们的理论理解，并运用这一理解来设计更好的算法。

论文的主要成果和贡献可以分为三个部分，具体如下：

第二章和第三章介绍了作者针对深度学习模型提出的信息论方法。

作为对深度学习系统的解释，作者提出使用信息瓶颈（IB）理论。这种分析网络的新范式揭示了它们的分层结构、泛化能力和学习动态。基于这一分析，作者发现深度网络优化了每一层关于输入和输出变量的互信息，导致每一层都要在压缩和预测之间做出权衡。作者对这些网络的分析和数值研究表明，随机梯度下降算法遵循 IB 权衡原则，分两个阶段工作：快速经验误差最小化阶段和慢速表示压缩阶段。这些阶段通过每层不同的信噪比（SNR）来区分。

此外，他们证明了 SGD 由于压缩阶段而达到了这个最优界限，并在表示压缩上导出了一个新的高斯界限，同时将其与压缩时间联系起来。他们的结果还表明，网络的层收敛到 IB 理论界限，导致编码器和解码器分布之间的自洽关系。

第四章讨论了将 IB 应用于深度神经网络时最困难的问题之一 —— 估计高维空间中的互信息。

尽管互信息在数据科学中是一个重要的量，但它在计算方面一直很有挑战性。互信息的计算只适用于离散变量或已知概率分布的有限数量的问题。为了更好地估计信息论数量（information-theoretic quantities）并研究泛化信号，作者研究了几个框架，并利用了最近的理论研究成果，如神经正切核（NTK）框架。

在研究中，他们发现，对于无限宽的神经网络的无限集合，他们可以获得许多信息论数量及其边界的易处理的计算。许多量可以通过网络的核（kernel）以封闭形式的解来描述。通过分析这些内容，我们可以了解网络的重要信息论数量，以及压缩、泛化和样本大小之间的关系。

第五章介绍了一个新的信息论框架 —— 双重信息瓶颈（dualIB）。

尽管 IB 框架有很多优点，但它也有几个缺点：IB 是完全非参数化的，并且只在概率空间上运行。此外，IB 公式不涉及预测未见模式的任务，并假定能够完全获取联合概率。因此，作者开发了 dualIB，它仅通过在失真函数中的项之间进行切换来解决 IB 的一些缺点。dualIB 可以解释数据的已知特征，并使用它们对未知的例子做出更好的预测。作者提供了 dualIB 自洽方程，该方程允许他们获得解析解。局部稳定性分析揭示了解的临界点的潜在结构，产生了最佳模式表示的完整分叉图。

他们发现了 dualIB 目标的几个有趣的性质。首先，当以参数化形式表达时，dualIB 保留其结构。它还优化了平均预测误差指数，从而提高了关于样本大小的预测精度。除了 dualIB 的解析解，他们还提供了一个变分 dualIB 框架，该框架使用深度神经网络来优化泛函。该框架实现了真实世界数据集的 dualIB 的实现。通过它，作者对其动态变化进行了实验评估，并验证了现代深度神经网络的理论预测。

总之，该论文提出了一个新的信息论视角来研究深度神经网络，它利用了深度学习和 IB 框架之间的对应关系。这一独特的视角可以提供许多好处，比如对深度神经网络有更深入的理解，解释它们的行为，并改善它们的性能。同时，他们的研究也开拓了新的理论和实践研究问题。

Ravid Shwartz-Ziv 简介

Ravid Shwartz-Ziv 是希伯来大学计算机科学与神经科学博士，读博期间专注于深度神经网络与信息论之间的联系，试图基于信息论对 DNN 进行更深入的理解，并将其应用于大规模的问题。2018 年，他拿到了谷歌博士生奖研金。

2021 年，Shwartz-Ziv 博士毕业并进入纽约大学数据科学中心担任 CDS Faculty Fellow，与 Andrew Gordon Wilson、Yann Lecun 等人一起研究贝叶斯深度网络、信息论和自监督学习。

Google Scholar 主页：https://scholar.google.co.il/citations?user=SqsLFwMAAAAJ&hl=en

理论博士论文Naftali Tishby信息瓶颈信息论深度学习

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

神经科学技术

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

概率分布技术

概率分布（probability distribution）或简称分布，是概率论的一个概念。广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量具有同样的分布（或同分布）时，我们是无法用概率来区别它们的。

来源：维基百科

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

随机梯度下降技术

梯度下降（Gradient Descent）是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知，使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。在机器学习中，我们可以利用随机梯度下降的方法来最小化训练模型中的误差，即每次迭代时完成一次评估和更新。这种优化算法的工作原理是模型每看到一个训练实例，就对其作出预测，并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

来源：机器之心

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

信息论技术

信息论是在信息可以量度的基础上，研究有效地和可靠地传递信息的科学，它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论，又因为它的创始人是香农，故又称为香农信息论。

来源：曹雪虹等信息论与编码(第2版) 清华大学出版社

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

Infor机构

Infor是一家跨国企业软件公司，总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件， Infor在2010年开始专注于工业利基市场的软件，以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com