大数据文摘原创

2019/04/24 18:33

medium来源周家乐、狗小白、蒋宝尚编译

统计学和机器学习到底有什么区别？

统计学和机器学习之间的界定一直很模糊。

无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣。

而机器学习支撑的人工智能也被称为“统计学的外延”

例如，诺奖得主托马斯·萨金特曾经说过人工智能其实就是统计学，只不过用了一个很华丽的辞藻。

萨金特在世界科技创新论坛上表示，人工智能其实就是统计学

当然也有一些不同的声音。但是这一观点的正反双方在争吵中充斥着一堆看似高深实则含糊的论述，着实让人摸不着头脑。

一位名叫Matthew Stewart的哈佛大学博士生从统计与机器学习的不同；统计模型与机器学习的不同，这两个角度论证了机器学习和统计学并不是互为代名词。

机器学习和统计的主要区别在于它们的目的

与大部分人所想的正相反，机器学习其实已经存在几十年了。当初只是因为那时的计算能力无法满足它对大量计算的需求，而渐渐被人遗弃。然而，近年来，由于信息爆炸所带来的数据和算力优势，机器学习正快速复苏。

言归正传，如果说机器学习和统计学是互为代名词，那为什么我们没有看到每所大学的统计学系都关门大吉而转投'机器学习'系呢？因为它们是不一样的!

我经常听到一些关于这个话题的含糊论述，最常见的是这样的说法:

"机器学习和统计的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。

虽然技术上来说这是正确的，但这样的论述并没有给出特别清晰和令人满意的答案。机器学习和统计之间的一个主要区别确实是它们的目的。

然而，说机器学习是关于准确的预测，而统计模型是为推理而设计，几乎是毫无意义的说法，除非你真的精通这些概念。

首先，我们必须明白，统计和统计建模是不一样的。统计是对数据的数学研究。除非有数据，否则无法进行统计。统计模型是数据的模型，主要用于推断数据中不同内容的关系，或创建能够预测未来值的模型。通常情况下，这两者是相辅相成的。

因此，实际上我们需要从两方面来论述：第一，统计与机器学习有何不同；第二，统计模型与机器学习有何不同？

说的更直白些就是，有很多统计模型可以做出预测，但预测效果比较差强人意。

而机器学习通常会牺牲可解释性以获得强大的预测能力。例如，从线性回归到神经网络，尽管解释性变差，但是预测能力却大幅提高。

从宏观角度来看，这是一个很好的答案。至少对大多数人来说已经足够好。然而，在有些情况下，这种说法容易让我们对机器学习和统计建模之间的差异产生误解。让我们看一下线性回归的例子。

统计模型与机器学习在线性回归上的差异

或许是因为统计建模和机器学习中使用方法的相似性，使人们认为它们是同一个东西。对这我可以理解，但事实上不是这样。

最明显的例子是线性回归，这可能是造成这种误解的主要原因。线性回归是一种统计方法，通过这种方法我们既可以训练一个线性回归器，又可以通过最小二乘法拟合一个统计回归模型。

可以看到，在这个案例中，前者做的事儿叫"训练"模型，它只用到了数据的一个子集，而训练得到的模型究竟表现如何需要通过数据的另一个子集测试集测试之后才能知道。在这个例子中，机器学习的最终目的是在测试集上获得最佳性能。

对于后者，我们则事先假设数据是一个具有高斯噪声的线性回归量，然后试图找到一条线，最大限度地减少了所有数据的均方误差。不需要训练或测试集，在许多情况下，特别是在研究中(如下面的传感器示例)，建模的目的是描述数据与输出变量之间的关系, 而不是对未来数据进行预测。我们称此过程为统计推断，而不是预测。尽管我们可以使用此模型进行预测，这也可能是你所想的，但评估模型的方法不再是测试集，而是评估模型参数的显著性和健壮性。

机器学习（这里特指有监督学习）的目的是获得一个可反复预测的模型。我们通常不关心模型是否可以解释。机器学习只在乎结果。就好比对公司而言，你的价值只用你的表现来衡量。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性，恰巧迎合了预测。

下面我举一个自己的例子，来说明两者的区别。我是一名环境科学家。工作的主要内容是和传感器数据打交道。如果我试图证明传感器能够对某种刺激(如气体浓度)做出反应, 那么我将使用统计模型来确定信号响应是否具有统计显著性。我会尝试理解这种关系，并测试其可重复性，以便能够准确地描述传感器的响应，并根据这些数据做出推断。我还可能测试，响应是否是线性的？响应是否归因于气体浓度而不是传感器中的随机噪声？等等。

而同时，我也可以拿着从20个不同传感器得到的数据, 去尝试预测一个可由他们表征的传感器的响应。如果你对传感器了解不多，这可能会显得有些奇怪，但目前这确实是环境科学的一个重要研究领域。

用一个包含20个不同变量的模型来表征传感器的输出显然是一种预测，而且我也没期待模型是可解释的。要知道，由于化学动力学产生的非线性以及物理变量与气体浓度之间的关系等等因素，可能会使这个模型非常深奥，就像神经网络那样难以解释。尽管我希望这个模型能让人看懂, 但其实只要它能做出准确的预测，我就相当高兴了。

如果我试图证明数据变量之间的关系在某种程度上具有统计显著性，以便我可以在科学论文中发表，我将使用统计模型而不是机器学习。这是因为我更关心变量之间的关系，而不是做出预测。做出预测可能仍然很重要，但是大多数机器学习算法缺乏可解释性，这使得很难证明数据中存在的关系。

很明显，这两种方法在目标上是不同的，尽管使用了相似的方法来达到目标。机器学习算法的评估使用测试集来验证其准确性。然而，对于统计模型，通过置信区间、显著性检验和其他检验对回归参数进行分析，可以用来评估模型的合法性。因为这些方法产生相同的结果，所以很容易理解为什么人们会假设它们是相同的。

统计与机器学习在线性回归上的差异

有一个误解存在了10年：仅基于它们都利用相同的基本概率概念这一事实，来混淆这两个术语是不合理的。

然而，仅仅基于这两个术语都利用了概率里相同的基本概念这一事实而将他们混为一谈是不合理的。就好比，如果我们仅仅把机器学习当作皮了一层光鲜外衣的统计，我们也可以这样说：

物理只是数学的一种更好听的说法。
动物学只是邮票收藏的一种更好听的说法。
建筑学只是沙堡建筑的一种更好听的说法。

这些说法（尤其是最后一个）非常荒谬，完全混淆了两个类似想法的术语。

实际上，物理是建立在数学基础上的，理解现实中的物理现象是数学的应用。物理学还包括统计学的各个方面，而现代统计学通常是建立在Zermelo-Frankel集合论与测量理论相结合的框架中，以产生概率空间。它们有很多共同点，因为它们来自相似的起源，并运用相似的思想得出一个逻辑结论。同样，建筑学和沙堡建筑可能有很多共同点，但即使我不是一个建筑师，也不能给出一个清晰的解释，但也看得出它们显然不一样。

在我们进一步讨论之前，需要简要澄清另外两个与机器学习和统计有关的常见误解。这就是人工智能不同于机器学习，数据科学不同于统计学。这些都是没有争议的问题，所以很快就能说清楚。

数据科学本质上是应用于数据的计算和统计方法，包括小数据集或大数据集。它也包括诸如探索性数据分析之类的东西，例如对数据进行检查和可视化，以帮助科学家更好地理解数据，并从中做出推论。数据科学还包括诸如数据包装和预处理之类的东西，因此涉及到一定程度的计算机科学，因为它涉及编码和建立数据库、Web服务器之间的连接和流水线等等。

要进行统计，你并不一定得依靠电脑，但如果是数据科学缺了电脑就没法操作了。这就再次说明了虽然数据科学借助统计学，这两者不是一个概念。

同理，机器学习也并非人工智能；事实上，机器学习是人工智能的一个分支。这一点挺明显的，因为我们基于以往的数据“教”（训练）机器对特定类型的数据进行概括性的预测。

机器学习是基于统计学

在我们讨论统计学和机器学习之间的区别前，我们先来说说其相似性，其实文章的前半段已经对此有过一些探讨了。

机器学习基于统计的框架，因为机器学习涉及数据，而数据必须基于统计学框架来进行描述，所以这点十分明显。然而，扩展至针对大量粒子的热力学的统计机制，同样也建立在统计学框架之下。

压力的概念其实是数据，温度也是一种数据。你可能觉得这听起来不合理，但这是真的。这就是为什么你不能描述一个分子的温度或压力，这不合理。温度是分子相撞产生的平均能量的显示。而例如房屋或室外这种拥有大量分子的，我们能用温度来描述也就合理了。

你会认为热力学和统计学是一个东西吗？当然不会，热力学借助统计学来帮助我们理解运动的相互作用以及转移现象中产生的热。

事实上，热力学基于多种学科而非仅仅统计学。类似地，机器学习基于许多其他领域的内容，比如数学和计算机科学。举例来说：

机器学习的理论来源于数学和统计学

机器学习算法基于优化理论、矩阵代数和微积分

机器学习的实现来源于计算机科学和工程学概念，比如核映射、特征散列等。

当一个人开始用Python开始编程，突然从Sklearn程序库里找出并使用这些算法，许多上述的概念都比较抽象，因此很难看出其中的区别。这样的情况下，这种抽象定义也就致使了对机器学习真正包含的内容一定程度上的无知。

统计学习理论——机器学习的统计学基础

统计学和机器学习之间最主要的区别在于统计学完全基于概率空间。你可以从集合论中推导出全部的统计学内容，集合论讨论了我们如何将数据归类（这些类被称为“集”），然后对这个集进行某种测量保证其总和为1.我们将这种方法成为概率空间。

统计学除了对这些集合和测量有所定义之外没有其他假设。这就是为什么我们对概率空间的定义非常严谨的原因。一个概率空间，其数学符号写作(Ω,F,P)，包含三部分：

一个样本空间，Ω，也就是所有可能结果的集合。
一个事件集合，F，每个事件都包含0或者其它值。
对每个事件发生的可能性赋予概率，P，这是一个从事件到概率的函数。

机器学习基于统计学习理论，统计学习理论也依旧基于对概率空间的公理化语言。这个理论基于传统的统计学理论，并发展于19世纪60年代。

机器学习分为多个类别，这篇文章我仅着眼于监督学习理论，因为它最容易解释（虽然因其充斥数学概念依然显得晦涩难懂）。

统计学习理论中的监督学习，给了我们一个数据集，我们将其标为S= {(xᵢ,yᵢ)}，也就是说我们有一个包含N个数据点的数据集，每个数据点由被称为“特征”的其它值描述，这些特征用x描述，这些特征通过特定函数来描绘以返回我们想要的y值。

已知这个数据集，问如何找到将x值映射到y值的函数。我们将所有可能的描述映射过程的函数集合称为假设空间。

为了找到这个函数，我们需要给算法一些方法来“学习”如何最好地着手处理这个问题，而这由一个被称为“损失函数”的概念来提供。因此，对我们所有的每个假设（也即提议的函数），我们要通过比较所有数据下其预期风险的值来衡量这个函数的表现。

预期风险本质上就是损失函数之和乘以数据的概率分布。如果我们知道这个映射的联合概率分布，找到最优函数就很简单了。但是这个联合概率分布通常是未知的，因此我们最好的方式就是猜测一个最优函数，再实证验证损失函数是否得到优化。我们将这种称为实证风险。

之后，我们就可以比较不同函数，找出最小预期风险的那个假设，也就是所有函数中得出最小下确界值的那个假设。

然而，为了最小化损失函数，算法有通过过度拟合来作弊的倾向。这也是为什么要通过训练集“学习”函数，之后在训练集之外的数据集，测试集里对函数进行验证。

我们如何定义机器学习的本质引出了过度拟合的问题，也对需要区分训练集和测试集作出了解释。而我们在统计学中无需试图最小化实证风险，过度拟合不是统计学的固有特征。最小化统计学中无需视图程向于一个从函数中选取最小化实证风险的学习算法被称为实证风险最小化

例证

以线性回归做一个简单例子。在传统概念中，我们试图最小化数据中的误差找到能够描述数据的函数，这种情况下，我们通常使用均值方差。使用平方数是为了不让正值和负值互相抵消。然后我们可以使用闭合表达式来求出回归系数。

如果我们将损失函数计为均值方差，并基于统计学习理论进行最小化实证风险，碰巧就能得到传统线性回归分析同样的结果。

这个巧合是因为两个情况是相同的，对同样的数据以相同的方式求解最大概率自然会得出相同的结果。最大化概率有不同的方法来实现同样的目标，但没人会去争论说最大化概率与线性回归是一个东西。这个最简单的例子显然没能区分开这些方法。

这里要指出的第二点在于，传统的统计方法中没有训练集和测试集的概念，但我们会使用不同的指标来帮助验证模型。验证过程虽然不同，但两种方法都能够给我们统计稳健的结果。

另外要指出的一点在于，传统统计方法给了我们一个闭合形式下的最优解，它没有对其它可能的函数进行测试来收敛出一个结果。相对的，机器学习方法尝试了一批不同的模型，最后结合回归算法的结果，收敛出一个最终的假设。

如果我们用一个不同的损失函数，结果可能并不收敛。例如，如果我们用了铰链损失（使用标准梯度下降时不太好区分，因此需要使用类似近梯度下降等其它方法），那么结果就不会相同了。

最后可以对模型偏差进行区分。你可以用机器学习算法来测试线性模型以及多项式模型，指数模型等，来检验这些假设是否相对我们的先验损失函数对数据集给出更好的拟合度。在传统统计学概念中，我们选择一个模型，评估其准确性，但无法自动从100个不同的模型中摘出最优的那个。显然，由于最开始选择的算法不同，找出的模型总会存在一些偏误。选择算法是非常必要的，因为为数据集找出最优的方程是一个NP-hard问题。

那么哪个方法更优呢？

这个问题其实很蠢。没有统计学，机器学习根本没法存在，但由于当代信息爆炸人类能接触到的大量数据，机器学习是非常有用的。

对比机器学习和统计模型还要更难一些，你需要视乎你的目标而定究竟选择哪种。如果你只是想要创建一个高度准确的预测房价的算法，或者从数据中找出哪类人更容易得某种疾病，机器学习可能是更好的选择。如果你希望找出变量之间的关系或从数据中得出推论，选择统计模型会更好。

图中文字：
这是你的机器学习系统？
对的，你从这头把数据都倒进这一大堆或者线性代数里，然后从那头里拿答案就好了。
答案错了咋整？
那就搅搅，搅到看起来对了为止。

如果你统计学基础不够扎实，你依然可以学习机器学习并使用它——机器学习程序库里的抽象概念能够让你以业余者的身份来轻松使用它们，但你还是得对统计概念有所了解，从而避免模型过度拟合或得出些貌似合理的推论。

大数据文摘

秉承“普及数据思维，传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术，形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

入门统计学机器学习

14 3

相关数据

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

最小二乘法技术

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。 “最小二乘法”是对过度确定系统，即其中存在比未知数更多的方程组，以回归分析求得近似解的标准方法。在这整个解决方案中，最小二乘法演算为每一方程式的结果中，将残差平方和的总和最小化。

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

概率分布技术

概率分布（probability distribution）或简称分布，是概率论的一个概念。广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量具有同样的分布（或同分布）时，我们是无法用概率来区别它们的。

来源：维基百科

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

统计模型技术

统计模型[stochasticmodel；statisticmodel；probabilitymodel]指以概率论为基础，采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型，但可通过试验测定数据，经过数理统计法求得各变量之间的函数关系，称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性，因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

来源：百度百科

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

线性回归技术

在现实世界中，存在着大量这样的情况：两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值，但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高，用Y表示他的体重。众所周知，一般说来，当X大时，Y也倾向于大，但由X不能严格地决定Y。又如，城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时，由于室内空调、冰箱等家用电器的使用，可能用电就高，相反，在春秋季节气温不高也不低，用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多，变量之间的这种关系称为“相关关系”，回归模型就是研究相关关系的一个有力工具。

来源：王松桂等编线性统计模型线性回归与方差分析高等教育出版社 Wikipedia

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag.Wikipedia

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

置信区间技术

在统计学中，一个概率样本的置信区间（Confidence interval），是对这个样本的某个总体参数的区间估计（Interval Estimation）。置信区间展现的是，这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是，声称总体参数的真实值在测量值的区间所具有的可信程度，即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说，如果在一次大选中某人的支持率为55%，而置信水平0.95上的置信区间是(50%, 60%)，那么他的真实支持率落在50%和60%之区间的机率为95%，因此他的真实支持率不足50%的可能性小于2.5%（假设分布是对称的）。

来源：Wikipedia

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

微积分技术

微积分（Calculus）是高等数学中研究函数的微分(Differentiation)、积分(Integration)以及有关概念和应用的数学分支。它是数学的一个基础学科。内容主要包括极限、微分学、积分学及其应用。微分学包括求导数的运算，是一套关于变化率的理论。它使得函数、速度、加速度和曲线的斜率等均可用一套通用的符号进行讨论。积分学，包括求积分的运算，为定义和计算面积、体积等提供一套通用的方法。

来源：百度百科

线性代数技术

线性代数是数学的一个分支，它的研究对象是向量，向量空间（或称线性空间），线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题；因而，线性代数被广泛地应用于抽象代数和泛函分析中；通过解析几何，线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型，使得线性代数被广泛地应用于自然科学和社会科学中。

来源：百度百科

统计学习理论技术

统计学习理论是统计学和功能分析领域的机器学习框架。统计学习理论处理基于数据建立预测函数的问题，且已经在算机视觉，语音识别，生物信息学等领域得到了成功应用。

来源：Wikipedia