标准差
标准差
标准差,又称标准偏-{差、-{均方差 (,缩写--
,符号--
),在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度;标准差与期望值之比为标准离差率。测量到分布程度的结果,原则上具有两种性质:
一个总量的标准差或一个随机变数的标准差,及一个子集合样品数的标准差之间,有所差别。其公式如下所列。
标准差的概念由卡尔·皮尔森引入到统计中。
阐述及应用.
简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
例如,两组数的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二个集合具有较小的标准差。
表述“相差formula_1个标准差”,即在 formula_2 的样本(sample)范围内考量。
标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。
标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。
formula_3
母体的标准差.
基本定义.
formula_4为平均值。
简化计算公式.
上述公式可以如下代换而简化:
formula_5
所以:
formula_6
根号里面,亦即变异数(formula_7)的简易口诀为:「平方和的平均」减去「平均的平方」。
母体为随机变量.
一随机变量formula_8的标准差定义为:
formula_9
须注意并非所有随机变量都具有标准差,因为有些随机变量不存在期望值。
如果随机变量formula_8为formula_11具有相同机率,则可用上述公式计算标准差。
离散随机变量的标准差.
若formula_8是由实数formula_13构成的离散随机变数(),且每个值的机率相等,则formula_8的标准差定义为:
formula_15 ,其中 formula_16
换成用formula_17来写,就成为:
formula_18 ,其中 formula_16
目前为止,与母体标准差的基本公式一致。
然而若每个formula_20可以有不同机率formula_21,则formula_8的标准差定义为:
formula_23 ,其中 formula_24
这里,formula_25为formula_8的数学期望。
连续随机变量的标准差.
若formula_8为概率密度formula_28的连续随机变量(),则formula_8的标准差定义为:
formula_30
其中formula_25为formula_8的数学期望:
formula_33
标准差的特殊性质.
对于常数formula_34和随机变量formula_8和formula_36:
formula_37
formula_38
formula_39
其中:
*formula_40表示随机变量formula_8和formula_36的协方差。
*formula_43表示formula_44,即formula_45(formula_46的变异数),对formula_47亦同。
样本的标准差.
在真实世界中,找到一个总体的真实的标准差并不实际。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。
从一大组数值formula_48当中取出一样本数值组合formula_49,常定义其样本标准差:
formula_50
样本方差formula_51是对总体方差formula_7的无偏估计。之所以formula_53中的分母要用formula_54而不是像总体样本差那样用formula_55,是因为formula_56的自由度为formula_57,这是由于存在约束条件formula_58。
范例.
这里示范如何计算一组数的标准差。例如一群孩童年龄的数值为{ 5, 6, 8, 9 }:
formula_60
当formula_61(因为集合里有4个数),分别设为:
formula_62
则平均值为
formula_63
formula_65
常态分布的规则.
在实际应用上,常考虑一组数据具有近似于常态分布的机率分布。若其假设正确,则约68%数值分布在距离平均值有1个标准差之内的范围,约95%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为「68-95-99.7法则」。
formula_66
formula_67
formula_68.
标准差与平均值之间的关系.
一组数据的平均值及标准差常常同时作为参考的依据。从某种意义上说,如果用平均值来考量数值的中心的话,则标准差也就是对统计的分散度的一个“自然”的测度。因为由平均值所得的标准差要小于到其他任何一个点的标准差。较确切的叙述为:设formula_48为实数,定义函数:
formula_70
使用微积分或者通过配方法,不难算出formula_71在下面情况下具有唯一最小值:
formula_72
几何学解释.
从几何学的角度出发,标准差可以理解为一个从formula_55维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,formula_74。它们可以在3维空间中确定一个点formula_75。想像一条通过原点的直线formula_76。如果这组数据中的3个值都相等,则点formula_77就是直线formula_78上的一个点,formula_77到formula_78的距离为0,所以标准差也为0。若这3个值不都相等,过点formula_77作垂线formula_82垂直于formula_78,formula_82交formula_78于点formula_86,则formula_86的坐标为这3个值的平均数:
formula_88
运用一些代数知识,不难发现点formula_77与点formula_86之间的距离(也就是点formula_77到直线formula_78的距离)是formula_93。在formula_55维空间中,这个规律同样适用,把formula_95换成formula_55就可以了。
图片快照过大,请您耐心等候,如果加载失败请稍后再试!