Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「信息瓶颈」提出者Naftali Tishby逝世,Hinton曾感叹:我要再听一万遍才能真正理解

信息瓶颈极其有趣,我要再听一万遍才能真正理解它,当今能听到如此原创的想法非常难得,或许它就是解开谜题的那把钥匙。——Geoffrey Hinton

刚刚,耶路撒冷希伯来大学发布了一则讣告:该校计算机科学与工程学院教授、信息瓶颈方法提出者之一 Naftali Tishby 逝世,享年 69 岁。

Naftali Tishby 生于 1952 年,1985 年在希伯来大学获得理论物理学博士学位,之后曾在 MIT、贝尔实验室、宾夕法尼亚大学、IBM 等机构做研究工作。去世之前,Tishby 在耶路撒冷希伯来大学担任计算机科学教授、Edmond and Lily Safra 脑科学中心(ELSC) Ruth and Stan Flinkman 脑科学研究主席,是以色列机器学习和计算神经科学研究领域的领导者之一。

1999 年,Naftali Tishby 和 Fernando Pereira、William Bialek 一起提出了信息论中的重要方法——信息瓶颈。

论文链接:https://www.cs.huji.ac.il/labs/learning/Papers/allerton.pdf

该方法的目的是:对于一个随机变量,假设已知其与观察变量 Y 之间的联合概率分布 p(X,Y)。此时,当需要 summarize(如聚类)时,可以通过信息瓶颈方法来分析如何最优化地平衡准确度与复杂度(数据压缩)。该方法的应用包括分布聚类降维等。

最重要的是,这一理论有望最终打开深度学习的黑箱,以及解释人脑的工作原理。

2015 年,Tishby 及其学生 Noga Zaslavsky 发表了一篇论文,假设深度学习是一个信息瓶颈程序,尽可能地压缩数据噪声,保留数据想表达的信息。也就是说,神经网络就像把信息挤进瓶颈一样,只留下与一般概念最为相关的特征,去掉大量无关的噪音数据。

论文链接:https://arxiv.org/pdf/1503.02406.pdf

2017 年,Tishby 和他的另一个学生 Ravid Shwartz-Ziv 联合进行了一场引入注目的实验,揭示了发生在深度学习之中的挤压过程。

论文链接:https://arxiv.org/pdf/1703.00810.pdf

在一个案例中,他们训练小型网络使其将数据标记为 1 或 0(比如「狗」或「非狗」),网络一共有 282 个神经连接并随机初始化连接强度,然后他们使用 3000 个样本的输入数据集追踪网络究竟在做什么。

大多数深度学习网络训练过程中用来响应数据输入和调整神经连接强度的基本算法都是「随机梯度下降」:每当输入训练数据到网络中,一连串的激活行为将接连每一层的神经元。当信号到达最顶层时,最后的激活模式将对应确定的标签,1 或 0,「狗」或「非狗」。激活模式和正确的模式之间的不同将会「反向传播」回网络的层中,即,正如老师批改作业一样,这个算法将强化或者弱化每一个连接的强度以使网络能输出更产生的输出信号。经过训练之后,训练数据的一般模式将体现在神经连接的强度中,网络将变成识别数据的专家。

在他们的实验中,Tishby 和 Shwartz-Ziv 追踪了深度神经网络的每一层保留了多少输入数据的信息,以及每一层保留了多少输出标签的信息。他们发现,网络逐层收敛到了信息瓶颈的理论范围(Tishby 导出的理论极限)。Pereira 和 Bialek 最初的论文中展示了系统提取相关信息的最佳结果。在信息瓶颈的理论范围内,网络将尽可能地压缩输入,而无需牺牲精确预测标签的能力。

Tishby 和 Shwartz-Ziv 还发现了一个很有趣的结果,深度学习以两个状态进行:一个短期「拟合」状态,期间网络学习标记输入数据,和一个时间长得多的长期「压缩」状态,通过测试其标记新测试数据的能力可以得出期间网络的泛化能力变得很强。

  • A. 初始状态:第一层的神经元编码输入数据的所有信息,包括其中的标签信息。最高层神经元处于几乎无序的状态,和输入数据或者其标签没有任何关联。

  • B. 拟合状态:深度学习刚开始的时候,高层神经元获得输入数据的信息,并逐渐学会匹配标签。

  • C. 状态变化:网络的层的状态突然发生变化,开始「遗忘」输入数据的信息。

  • D. 压缩状态:网络的高层压缩对输入数据的表示,保留与输出标签关联最大的表示,这些表示更擅长预测标签。

  • E. 最终状态:网络的最高层在准确率和压缩率之间取得平衡,只保留可以预测标签的信息。


当深度神经网络随机梯度下降调整连接强度时,最初网络存储输入数据的比特数基本上保持常量或者增加很慢,期间连接强度被调整以编码输入模式,而网络标注数据的能力也在增长。一些专家将这个状态与记忆过程相比较。

然后,学习转向了压缩状态。网络开始对输入数据进行筛选,追踪最突出的特征(与输出标签关联最强)。这是因为在每一次迭代随机梯度下降时,训练数据中或多或少的偶然关联都驱使网络做不同的事情,使其神经连接变得或强或弱,随机游走。这种随机化现象和压缩输入数据的系统性表征有相同的效果。举一个例子,有些狗的图像背景中可能会有房子,而另一些没有。当网络被这些照片训练的时候,由于其它照片的抵消作用,在某些照片中它会「遗忘」房子和狗的关联。

Tishby 和 Shwartz-Ziv 称,正是这种对细节的遗忘行为,使系统能生成一般概念。实际上,他们的实验揭示了,深度神经网络在压缩状态中提高泛化能力,从而更加擅长标记测试数据。(比如,被训练识别照片中的狗的深度神经网络,可以用包含或者不包含狗的照片进行测试。)

Tishby 的发现在人工智能领域引发了热烈的讨论。

深度学习先驱 Geoffrey Hinton 在听了 Tishby 的报告之后给他发了邮件:「信息瓶颈极其有趣,我要再听一万遍才能真正理解它,当今能听到如此原创的想法非常难得,或许它就是解开谜题的那把钥匙。」

纽约大学心理学和数据科学助理教授 Brenden Lake 认为,Tishby 的研究成果是「打开神经网络黑箱的重要一步」。

谷歌研究员 Alex Alemi 说:「我认为信息瓶颈对未来的深度神经网络研究很重要。我甚至发明了新的近似方法,从而把信息瓶颈分析应用到大型深度神经网络中。」他又说:「信息瓶颈不仅可以作为理论工具用来理解神经网络的工作原理,同样也可以作为构建网络架构和新目标函数的工具。」

不过,这一理论也受到了一些挑战,比如 Andrew M. Saxe 等人发表在 ICLR 2018 上的一篇批判性分析文章。简单来说,该论文发现 Schwartz-Viz 和 Tishby 论文中的结果无法很好地泛化到其他网络架构:训练期间的两个阶段依赖于激活函数的选择;无法证明压缩与泛化之间存在因果关系;当压缩确实发生时,它不一定依赖于来自随机梯度下降(SGD)的随机性。

论文链接:https://openreview.net/pdf?id=ry_WPG-A-

据 Tishby 所讲,信息瓶颈是一个根本性的学习原则,不管是算法、家蝇、有意识的存在还是突发事件的物理计算。我们期待已久的答案即是「学习的关键恰恰是遗忘。」

除了信息瓶颈理论之外,Tishby 还于 2019 年 12 月与几位学者一起在顶级期刊《现代物理评论》上发表了一篇综述文章《Machine learning and the physical sciences》,阐述了机器学习在物理学不同学科中的使用。对「物理 + 机器学习」感兴趣的同学可以去读一下。

论文链接:https://arxiv.org/pdf/1903.10563.pdf
网友翻译版:https://blog.csdn.net/Wendy_WHY_123/article/details/104793247

相关阅读:

揭开深度学习黑箱:希伯来大学计算机科学教授提出「信息瓶颈」 
戳穿泡沫:对「信息瓶颈」理论的批判性分析

理论Naftali Tishby信息瓶颈信息论
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

数据压缩技术

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

Lily机构

自2013年确立“商务时装”这一定位,短短几年间,Lily已在国内开设900余家品牌店铺,入驻上海、北京、广州、深圳、武汉等270个城市,并在海外市场开设零售店铺逾70家。

http://www.lily.sh.cn
推荐文章
暂无评论
暂无评论~