Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

陈萍编辑

避免成为调包侠,从数学角度再看深度学习

知其然知其所以然。想要深耕深度学习,背后的数学原理还需要掌握。这就有一本值得推荐的新书。
今天,reddit 上的一个帖子可谓热度爆表,到目前为止,热度还在持续上升,在不到一天的时间里,引来大量网友的讨论。该帖子的主要内容为「深度学习中的现代数学」。由帖子内容我们可以粗略得出,这是一本介绍深度学习中关于现代数学的书籍。

深度学习领域,数学知识至关重要,想要深入了解深度学习背后的数学知识、做更前沿更基础的研究,这背后离不开数学知识的支撑。

书籍介绍

该书是在线免费的,书中描述了深度学习数学分析的新领域。这个领域出现在一系列研究问题中,但在经典的学习理论框架内都没有得到解决。这些问题涉及:参数神经网络突出的泛化能力;深度在深度架构中扮演的角色;维度灾难的明显缺失;尽管遇到的问题是非凸性、但取得令人惊讶的成功的优化性能;了解哪些特征是可以学习的;为什么深度架构在物理问题上表现得异常出色;架构的哪些方面以何种方式影响学习任务的行为。

书籍中给出了现代数学方法的概览,以及上述问题部分答案的概述。对于所选择的方法,书中给出了主要解决思想的更多细节。

书籍地址:https://arxiv.org/pdf/2105.04026.pdf

该书共分为 8 个章节,每个章节的主要内容如下:
  • 第一章:引言部分,主要介绍了该书定义的一些符号表示、理论基础、是否需要新的理论解决还未解决的问题;

  • 第二章:大型神经网络的泛化能力,主要包括核(Kernel)相关问题、基于范数的边界和边际理论、优化和隐式正则化、经典理论的局限性;

  • 第三章:深度在神经网络表达中的作用,主要包括径向函数逼近、深度 ReLU 网络、表达性的可替代概念;

  • 第四章:深度神经网络克服了维数的诅咒,主要包括流形假设、随机抽样、PDE 假设;

  • 第五章:深度神经网络的优化,主要包括损失分析、随机梯度下降的惰性训练和可证明的收敛

  • 第六章:特殊架构的影响,主要包括卷积神经网络、残差神经网络、 Framelets 和 U-Nets 、批归一化、稀疏神经网络剪枝、递归神经网络

  • 第七章:深度神经网络学习的特征描述,主要包括不变性与散射变换、分层的稀疏表示;

  • 第八章:自然科学的有效性,主要包括深度神经网络遇到逆问题、基于 PDF 模型。

作者介绍

个人主页:https://homepage.univie.ac.at/julius.berner/

该书作者之一 Julius Berner 曾就读于维也纳大学(BSc,MSc),攻读应用数学和科学计算专业,对机器学习神经网络特别感兴趣。目前,Julius Berner 正在 Philipp Grohs 博士的指导下在维也纳大学攻读博士学位,其研究重点是基于深度学习方法的数学分析,这些方法是在逼近理论、统计学习理论和优化方法的交叉处进行的。

除此以外,书籍作者还包括来自维也纳大学的 Philipp Grohs 及 Philipp Petersen 等人。

网友评论

这本书籍引起了广大网友的讨论。有网友表示:「这是一项非常棒的工作!我经常有『我真的了解我在做什么吗?』的感觉。感谢你们把深度学习和数学结合起来,该书出版时,我会订购。」

还有网友表示:「我在机器学习领域且具有数学背景,但不幸的是,在该领域中,许多公司的员工不知道自己在干什么。工作流程基本上是:学习一些 Python 基本框架,然后就是修改参数,直到产生可接受的结果。」

对此,有人表示「反复试验不一定是坏事。这就是自然系统(而不是人工系统)进化的方式。但是,对于架构上的飞跃和新改进,必须对该理论有深刻的理解。」

对于从事深度学习的研究者来说,或许这本书能帮到你。

参考链接:
https://www.reddit.com/r/MachineLearning/comments/najnjg/r_the_modern_mathematics_of_deep_learning/


理论
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

范数技术

范数(norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。半范数反而可以为非零的向量赋予零长度。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

批归一化技术

批归一化(Batch Normalization,BN)由谷歌于2015年提出,是一个深度神经网络训练的技巧,它不仅可以加快模型的收敛速度,还能在一定程度上缓解深层网络中的“梯度弥散”问题,从而使得训练深层网络模型更加容易和稳定。目前BN已经成为几乎所有卷积神经网络的标配技巧了。从字面意思看来Batch Normalization(简称BN)就是对每一批数据进行归一化。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

统计学习理论技术

统计学习理论是统计学和功能分析领域的机器学习框架。统计学习理论处理基于数据建立预测函数的问题,且已经在算机视觉,语音识别,生物信息学等领域得到了成功应用。

推荐文章
暂无评论
暂无评论~