2018/08/22 12:32

参与：思源、李亚洲

源自斯坦福CS229，机器学习备忘录在集结

在 Github 上，afshinea 贡献了一个备忘录对经典的斯坦福 CS229 课程进行了总结，内容包括监督学习、无监督学习，以及进修所用的概率与统计、线性代数与微积分等知识。机器之心简要介绍了该项目的主要内容，读者可在原项目中下载所有的备忘录。

本项目原作者 Afshine Amidi 和 Shervine Amidi，机器之心翻译。

项目地址：https://github.com/afshinea/stanford-cs-229-machine-learning

据项目介绍，该 repository 旨在总结斯坦福 CS 229 机器学习课程的所有重要概念，包括：

学习该课程所需的重要预备知识，例如概率与统计、代数与微积分等进修课程。
对每个机器学习领域知识的备忘录，以及在训练模型时需要的提示与技巧。
上面所有的元素最终汇编进来一个备忘录里。

VIP Cheatsheets

在这一部分中，该项目根据 CS 229 提供了监督学习、无监督学习、深度学习、机器学习技巧等重点内容。其中监督学习主要介绍了回归、分类和生成，无监督主要介绍了聚类与降维算法，深度学习概述了三种神经网络。

监督学习

如下所示监督学习介绍了非常多基础概念，包括损失函数、梯度下降和最大似然估计等。其中损失函数展示了常用的最小二乘损失函数、折页损失函数和交叉熵损失函数等，每一种损失函数的图像、定义和应用的算法都展示在其中。

监督学习部分一共有四页备忘录，除了一般的线性与 Logistic 回归，还重点介绍了 SVM、朴素贝叶斯和 K 近邻等其它一些非参模型。这些基本上都是直接给出的定义，因此不会有过多的冗余信息，这对于机器学习开发者与研究者作为参考还是非常有帮助的。

除了标准的定义外，很多重点概念还会用形象的图示表达出来，如下展示了监督学习中的支持向量机：

上述定义清楚地描述了 SVM 的定义，它希望能根据「支持向量」最大化分类边界之间的间隔，这样的分类模型将更稳定。基本上着一幅图就讲述了 SVM 的基本想法，同时也展现了分类原理，根据它再「回忆起」合页损失函数也就更容易了。

无监督学习

无监督学习主要记录了 EM 算法、聚类算法和降维算法等，其中聚类又详细介绍了 K 均值聚类、层级聚类和其他聚类距离度量方法等，而降维算法则主要展示了主成分分析法和独立成分分析法这两种。

除了标准的定义，这些算法的原理图也非常重要，如上所示在 K 均值聚类中，四幅图展示了该算法的具体过程。首先随机初始化均值，然后将离均值近的样本分配为均值所代表的那一类，随后根据误差更新均值的位置，并直到模型收敛。主成分分析同样有非常好的可视化，如下 PCA 会先归一化数据特征，然后根据奇异值分解找出主成分，最后再将所有数据映射到主成分而实现降维。

深度学习

很多读者已经比较了解深度学习了，尤其是全连接网络、卷积网络和循环网络。这一份备忘录同样也展示了这三种网络重要的概念与定义，且同时描述了强化学习的一些基本概念，如马尔可夫决策过程、贝尔曼方程价值迭代算法和 Q 学习等。

我们认为在图 CNN 中，非常重要的是计算输出特征图大小的公式，即 N = (W-F+2P)/S + 1。其中 W 表示输入特征图的长宽，F 表示卷积核大小，P 表示在每一端填补零值的数量，S 表示卷积步幅，因此计算出来的 N 就表示输出特征图的尺寸。这对于设计卷积网络非常重要，我们经常需要该公式控制网络中间的特征图大小。

机器学习技巧

这一份备忘录从分类、回归、模型选择和模型诊断出发展示了 ML 中的一些技巧。其中分类与回归主要从度量方法的角度探讨，也就是说到底什么样的方法才能确定模型的好坏，以及它们的特定属性。同样模型选择与诊断也都希望判断模型的好坏，只不过一个是从交叉验证与正则化的角度考虑，另一个是从偏差与方差的角度考虑。

VIP Refreshers

这一部分作者提供了进修课程的备忘录，包括对概率与统计、代数与微积分的介绍。

概率与统计

从排列与组合开始，这一部分介绍了概率与统计的概念定义。包括条件概率、贝叶斯法则、概率密度函数、概率分布函数与随机变量的均值和方差等。后面的统计也展示了非常多的定义与规则，包括分布的 K 阶矩、常见的离散型与连续型随机变量分布，以及样本均值、方差、协方差等数据特征。

最后，该备忘录同样记录了参数估计，这对于机器学习来说是最为关键的概念之一，因为本质上机器学习就是需要通过大量样本对模型的参数进行估计，或者称为「学习」。此外，之所以高斯分布如此重要，最后面的中心极限定理可以给我们答案。也就是说，如果采样 n 个服从独立同分布的样本，那么当 n 趋近于无穷大的时候，这个未知的分布一定是接近于高斯分布的。

线性代数与微积分

矩阵运算与微分在实际搭建模型时非常重要，因为不论是传统的机器学习还是深度学习，我们实际都是使用矩阵甚至是张量进行运算，了解它们的法则才能理解模型的实际过程。在这一份备忘录中，作者描述了向量与矩阵的定义、各种常见矩阵运算的定义，以及大量的矩阵概念，例如矩阵的迹、矩阵的逆、矩阵的秩、矩阵的正定和特征值与特征向量等。

矩阵微分的基本概念也展示在上面，因为我们在根据反向传播更新参数时，基本使用的都是矩阵微分。这也就需要我们了解 Jacobian 矩阵和 Hessian 矩阵。

入门机器学习GitHub斯坦福大学

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用，正态分布在统计学上非常重要。中心极限定理表明，由一组独立同分布，并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成，因而往往也具有正态分布。

来源：Wikipedia

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

最大似然估计技术

极大似然估计是统计学中用来估计概率模型参数的一种方法

来源：R. A. Fisher. (1922). On the Mathematical Foundations of Theoretical Statistics

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

奇异值分解技术

类似于特征分解将矩阵分解成特征向量和特征值，奇异值分解（singular value decomposition, SVD）将矩阵分解为奇异向量（singular vector）和奇异值（singular value）。通过分解矩阵，我们可以发现矩阵表示成数组元素时不明显的函数性质。而相比较特征分解，奇异值分解有着更为广泛的应用，这是因为每个实数矩阵都有一个奇异值分解，但未必都有特征分解。例如，非方阵型矩阵没有特征分解，这时只能使用奇异值分解。

来源：Trevor Hastie, Robert Tibshirani and Jerome Friedman (2nd ed., 2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction Deep Learning Book

独立成分分析技术

在统计学中，独立成分分析或独立分量分析（Independent components analysis，缩写：ICA）是一种利用统计原理进行计算的方法。它是一个线性变换。这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。独立成分分析是盲信号分离（Blind source separation）的一种特例。

来源：维基百科

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag.Wikipedia

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签，类标签取自有限集合。它不是训练这种分类器的单一算法，而是一系列基于相同原理的算法：所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子，如果一种水果其具有红，圆，直径大概3英寸等特征，该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定，然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

来源：维基百科

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

支持向量机技术

在机器学习中，支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。

来源：Wikipedia

贝尔曼方程技术

“贝尔曼方程（Bellman Equation）”也被称作“动态规划方程（Dynamic Programming Equation）”，由理查·贝尔曼（Richard Bellman）发现。贝尔曼方程是动态规划（Dynamic Programming）这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬及由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题，而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

来源：维基百科

中心极限定理技术

中心极限定理是概率论中的一组定理。中心极限定理说明，在适当的条件下，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量之和近似服从正态分布的条件。

来源：维基百科

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题，其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射（projection）。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归（principal component regression）和偏最小二乘法（partial least squares）。

来源：机器之心

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型，为动态规划与强化学习的最优化问题提供了有效的数学工具，广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时，我们一般特指其在离散时间中的随机控制过程：即对于每个时间节点，当该过程处于某状态(s)时，决策者可采取在该状态下被允许的任意决策(a)，此后下一步系统状态将随机产生，同时回馈给决策者相应的期望值，该状态转移具有马尔可夫性质。

来源：Reinforcement Learning: An Introduction, by R. Sutton and A. G. Barto； Algorithms for Reinforcement Learning, by C. Szepesvari

主成分分析技术

在多元统计分析中，主成分分析（Principal components analysis，PCA）是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。由于主成分分析依赖所给数据，所以数据的准确性对分析结果影响很大。

来源：机器之心维基百科

交叉验证技术

交叉验证，有时亦称循环估计，是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析，而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段，以便减少像过拟合的问题，得到该模型将如何衍生到一个独立的数据集的提示。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心