累积分布函数 | 机器之心

简介

累积分布函数是概率密度函数的积分，即能完整描述一个实随机变量X的概率分布。对于所有实数x ，累积分布函数定义如下：

F_{X}(x)=P(X<=x)

其代表了实数X的取值小于等于x的概率（请注意大小写，X代表随机变量而x代表X的取值）。

若要求得X处于半闭区间（a，b）的概率，其中a < b，则可以根据分布函数进行计算：

P(a<X<=b)=F_{X}(b)-F_{X}(a)

在上面的定义中，“小于或等于”符号“≤”是一种惯例，而不是普遍使用的惯例（例如匈牙利文献使用“<”），但这个写法对于离散分布很重要。正确使用二项式和泊松分布表取决于这个约定。此外，有些重要的公式也依赖于“小于或等于”的定义。

一般使用小写字母f代表概率密度函数和概率质量函数，而用大写字母F表示累积分布函数。

连续随机变量X的累积分布函数可以表示为其概率密度函数ƒ_{X}的积分，如下式：

F_{X}(x)=\int_{-\intf}^x f_{X}(t)dt

累计分布函数有几个重要的性质：

·有界性

o$$\varlimsup_{x\rightarrow - \infty}F_{X}(x)=0$$

o$$\varlimsup_{x\rightarrow + \infty}F_{X}(x)=1$$

·单调性：

oF_{x}(x_1)<=F_{x}(x_2) 若x_1<x_2

·右连续性：

·$$\varlimsup_{x\rightarrow +x_{0}^+}F_{X}(x_{0})

下图给出具有不同均值和方差的正态分布的累积分布函数，可以看到虽然其形状各异，但都具备上述三个性质：

[图片来源：https://upload.wikimedia.org/wikipedia/commons/c/ca/Normal_Distribution_CDF.svg]

累积分布函数的概念主要用于统计分析中，其有两种应用，一种是对小于参考值的现象值的出现频率的分析的累积频率分析，另一种则是对累计分布函数进行估计，随后可以求得简单的统计值，或进行各种统计假设检验。如检验样本数据是否来自给定的分布，或两个样本是否来自同一个概率分布。如著名的Kolmogorov-Smirnov检验即是基于累积分布函数，可用于检验两个经验分布是否不同，或者经验分布是否与理想分布不同。

[描述来源：维基百科URL：https://en.wikipedia.org/wiki/Cumulative_distribution_function]

发展历史

描述

如上文所述，在统计分析中可以利用累积分布的概念对数据进行检验，Kolmogorov和Smirnov提出的Kolmogorov-Smirnov检验（K-S检验）是其中最著名的应用之一，用以检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同。双样本K-S检验目前仍是比较两个样本最有用和最常用的非参数方法之一，因为它对两个样本的经验累积分布函数的位置和形状的差异很敏感。除此之外，基于累积分布的统计检验还有Shapiro-Wilk检验，Anderson-Darling检验等，Razali等人在2011年对这些检验的效力进行了比较。

1951年Massey Jr在发表的论文对Kolmogorov-Smirnov检验进行了修改，从而将其用于模型的拟合优度（goodness-of-fit）分析。该检验基于实证累积分布（empirical cumulative distribution）和假设累计分布（hypothetical cumulative distribution）之间的最大差异，文章中给出了具体的例子，并认为结果显示修改后的Kolmogorov-Smirnov检验的表现比卡方检验（chi-square test）更好。

为将高阶变量的分布也纳入分析范围，J. P. Imhof于1961年发表了论文，对已有的方法进行了探讨，并提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法。

累积分布的应用远不止于此，在图像处理领域，基于图像直方图均衡方法的图像增强实际上也依赖于累积分布的概念，Yu Wang等人在其1999年发表的论文对此进行了说明。

主要事件

	A	B	C
1	年份	事件	相关论文/Reference
2	1933-1948	Kolmogorov和Smirnov提出了Kolmogorov-Smirnov检验	Kolmogorov A (1933). Sulla determinazione empirica di una legge di distribuzione. G. Ist. Ital. Attuari. 4: 83–91. // Smirnov N (1948). Table for estimating the goodness of fit of empirical distributions. Annals of Mathematical Statistics. 19: 279–281.
3	1951	Massey Jr在发表的论文对Kolmogorov-Smirnov检验进行了修改，从而将其用于模型的拟合优度（goodness-of-fit）分析	Frank J. M. Jr. (1951). The Kolmogorov-Smirnov Test for Goodness of Fit, Journal of the American Statistical Association, 46(253): 68-78.
4	1961	J. P. Imhof提出如何估计随机变量的二阶甚至更高阶形式的分布的新方法	Imhof. J. P.(1961). Computing the Distribution of Quadratic Forms in Normal Variables. Biometrika. 48(3/4): 419-426.
5	1999	Yu Wang等人提出了基于图像直方图均衡方法的图像增强法，这种方法实际上也是基于累积分布的	Wang, Y.; Chen, Q.; Zhang, B. (1999). Image enhancement based on equal area dualistic sub-image histogram equalization method. IEEE Transactions on Consumer Electronics. 45(1):68 - 75.
6	2011	Razali等人对基于累积分布的Shapiro-Wilk检验，Anderson-Darling检验等进行了比较	Razali, N. M.; Wah Y. B.(2011). Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of Statistical Modeling and Analytics. 2(1): 21-33.

发展分析

瓶颈

累积分布函数是数学上的一个基本概念，并且经过超过一百年的发展，已经十分成熟，很难说存在什么瓶颈。

未来发展方向

如上文所述，目前有关的研究大部分是基于累积分布函数这个概念的，而不是直接对累积分布函数进行研究。

ByYuanyuan Li

简介