正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。若一个随机变量X服从一维正态分布(注:本词条的说明将根据一维正态分布进行),则可记为
其概率密度函数为
正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线,常用的标准正态分布是位置参数为0,尺度参数为1的正态分布(见下图的红色曲线)。下图展示了几种不同类型的正态分布概率密度函数曲线。
遵从正态分布的随机变量的概率规律为取邻近位置参数的值的概率大,而取离位置参数越远的值的概率越小,以上图红色曲线所代表的标准正态分布为例,取到一个-1到1之间的值的概率是很大的,因为这一区间的曲线下面积很大,然而取到一个大于1.96的值的概率十分小,因为对应区间的曲线下面积很小。
正态分布中的一些关键量如下:
- 密度函数(density function)关于平均值对称
- 平均值与它的众数(mode),以及中位数相等
- 函数曲线下68.269%的面积在平均数左右一个标准差的范围内
- 95.450%的面积在平均数左右两个标准差的范围内
- 99.730%的面积在平均数左右三个标准差的范围内
- 函数曲线的拐点(inflection point)为离平均数一个标准差距离的位置
[描述来源: Wikipedia https://en.wikipedia.org/wiki/Normal_distribution]
发展历史
正态分布最早由棣莫弗(de Moivre)在1718年的著作 “The Doctrine of Chances”, 及在1734年发表的一篇关于二项分布(Binomial Distribution)的文章中提出的, 当二项随机变数的位置参数n很大及形状参数p为1/2时,则所推导出的二项分布的近似分布函数就是正态分布。拉普拉斯(Laplace)在1821年发表的《分析概率论》(Theorie Analytique des Probabilities) 中对棣莫弗的结论扩展到二项分布的位置参数为n及形状参数为1>p>0时。而正态分布理论则由高斯(Gauss), 在其1809年的著作 “Theoria motus corporum coelestium in sectionibus conicis solem ambientium”中提出。其后拉普拉斯于1810年提出了中心极限法则(Central Limit Theorem)的证明,进一步强调了正态分布的理论重要性。19世纪中叶,麦克斯韦进一步证明了正态分布除了是一个便利的数学工具外也出现于诸多自然现象中。正态分布这一名称的流行化则要归功于20世纪英国统计学家皮尔森(Pearson)。除此之外他也是利用标准差来表述正态分布的第一人。其后在1915年费雪(Fisher)又在皮尔森的描述基础上加入了位置参数从而形成了现代通用的表述形式。
主要事件
年份 | 事件 | 相关论文/Reference |
1734 | 棣莫弗发现正态分布 | The Doctrine of Chances |
1809 | 高斯提出正态分布理论 | Theoria motus corporum coelestium in sectionibus conicis solem ambientium |
1810 | 拉普拉斯证明中心极限法则 | Theorie Analytique des Probabilities |
1821 | 拉普拉斯扩展棣莫弗的二项分布理论 | Theorie Analytique des Probabilities |
1860 | 麦克斯韦证明正态分布可被用来描述诸多自然现象 | Illustrations of the dynamical theory of gases |
发展分析
未来发展方向
正态分布及其分支理论经过百年的发展,已极为完善,将持续为当代各领域的应用提供宝贵的理论基础
Contributor: Yiming Liu