--理论--
在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。
对于一组给定的样本数据,其平均值为μ,标准偏差为σ,则其整体数据的平均值的100(1-α)%置信区间为(μ-Ζα/2σ , μ+Ζα/2σ) ,其中α为非置信水平在正态分布内的覆盖面积 ,Ζα/2即为对应的标准分数。
--公式--
Pr(c1<=μ<=c2)=1-α
α是显著性水平(例:0.05或0.10)
100%*(1-α)指置信水平(例:95%或90%)
区间(c1,c2)则是置信区间。
来源
[1]. 维基百科
[2]. 百度百科
来源URL
[1]. https://en.wikipedia.org/wiki/Confidence_interval
[2]. https://baike.baidu.com/item/置信区间/7442583?fr=aladdin
例
国家对全国人民的平均身高进行调查,理论上应该测量每一个人的身高并计算平均值,可是测量全国14亿人每个人的身高是不现实的,这个”不现实的”理想值的准确数值我们并不知道,但是它一定存在,假设为a,并且a存在于一个合理的区间(c1, c2)内。该合理的区间可以通过全国人民身高普查算出。95%置信区间表示,理想的平均值a有95%的可能性存在于计算出的置信区间(c1, c2)内。90%置信区间则表示,理想的平均值a有90%的可能性存在于计算出的置信区间(c1', c2')内。
发展历史
描述 (300字)
1937年,Jerzy Neyman提出了不同于点估计(Point Estimation)的区间估计(Interval Estimation)。他发现统计学家通常会在引用估计值的同时加减一个标准差,这表明了在统计学家的意识中,区间估计的概念已经存在。而在Neyman提出的区间估计中,置信区间(Confidence Interval)是最为常用的形式之一。
主要事件
年份 | 事件 | 相关论文 |
1937 | 波兰数学家统计学家Jerzy Neyman在区间估计的思想中提出了置信区间的概念 | Neyman, J. (1937). Outline of a theory of statistical estimation based on the classical theory of probability. Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciences, 236(767), 333-380. |
1977 | Neyman从频率学派观点讲解置信区间的思想 | Neyman, J. (1977). Frequentist probability and frequentist statistics. Synthese, 36(1), 97-131. |
发展分析
瓶颈
置信区间是一个简单易懂却十分伟大的概念,推动了统计学,数学,概率论等多项科学的发展,并对计算机科学,人工智能等领域也产生了深远影响。然而,由于概率学派和贝叶斯派的观点不同,概率学角度的Confidence Interval和贝叶斯角度的Credible Interval始终有争论,但科学的争论激发了科学家们更多的火花。
未来发展方向
在人工智能领域,贝叶斯派思想占据主流,概率学派的置信区间Confidence Interval以及其他多种思想今后是否会有新的发展,目前还不得而知。
Contributor: Yuanchao Li