logo
天地变化的道理
使用率很高网站
生活要常常分享
您身边百科全书
方差
重定向;重新导向;字符;字元;文件; 档案;快捷方式; 捷径;项目;专案;计划;计划;计划;计算机; 电脑; 电脑; 变异数()又称 变异数; 变异数; 方差、变方,在概率论及统计学中,描述的是一个随机变量的离散程度,即一组数字与其平均值之间的距离的度量,是随机变量与其总体均值或样本均值的离差的平方的期望值。方差在统计中有非常核心的地位,其应用领域包括描述统计学、推论统计学、假说检定、度量拟合优度,以及蒙特卡洛采样。由于科学分析经常涉及统计,方差也是重要的科研工具。方差是标准差的平方、分布的二阶矩,以及随机变量与其自身的协方差,其常用的符号表示有formula_1、formula_2、formula_3、formula_4,以及formula_5。 方差作为离散度量的优点是,它比其他离散度量(如平均差)更易于代数运算;例如,一组不相关的随机变量和的方差等于它们方差的和。在实际应用中,方差的一个缺点是它与随机变量的单位不同,而标准差则单位相同,这就是计算完成后通常采用标准差来衡量离散程度的原因。 有两个不同的概念都被称为“方差”。一种如上所述,是理论概率分布的方差。而另一种方差是一组观测值的特征。观测值通常是从真实世界的系统中测量的。如果给出系统的所有可能的观测,则它们算出的方差称为总体方差;然而,一般情况下我们只使用总体的一个子集(样本),由此计算出的方差称为样本方差。用样本计算出的方差可认为是对整个总体的方差的估计量。 方差的正平方根称为该随机变量的标准差;方差除以期望值归一化的值叫分散指数;标准差除以平均值归一化的值叫变异系数。 定义. 设X为服从分布F的随机变量,如果"E"["X"]是随机变量X的期望值(均值"μ"="E"["X"]),则随机变量X或者分布F的方差为X的离差平方的期望值: formula_6 这个定义涵盖了连续、离散,或两者皆非的随机变量。方差亦可视作随机变量与自身的协方差: formula_7 方差也等价于生成X的概率分布的二阶累积量。方差的常用的表达有formula_3,有时作formula_4或formula_5,也可写作符号formula_11或formula_1(读作“sigma方”)。方差的表达式可展开如下: formula_13 也就是说,X的方差等于X平方的均值减去X均值的平方。该等式不应该用于浮点运算,因为如果等式的两个成分大小相似,将会造成灾难性抵消。 离散随机变量. 如果随机变量X是具有概率质量函数的离散随机分布"x"1 ↦ "p"1, ..., "x""n" ↦ "p""n",则: formula_14 此处formula_15是其期望值,即: formula_16 formula_17 表示实现值(realized value) 当X为有n个相等机率值的离散型均匀分布时: formula_18 formula_19 n个相等机率值的方差亦可以点对点间的方变量表示为: formula_20 连续型随机变量. 如果随机变量X是连续分布,机率密度函数为"f"("x"),相应的累积分布函数为"F"("x"),则其方差为: formula_21 或等价地: formula_22 其中formula_15为formula_24的期望值,其计算方法如下: formula_25 这些公式中,formula_26和formula_27的积分分别为勒贝格积分和。 若函数formula_28在每个有限区间formula_29都是黎曼可积的,则: formula_30 该积分为非正常黎曼积分。 常见概率分布. 下表列出了一些常用概率分布的方差。 特性. 方差不会是负的,因为平方运算结果为非负数: formula_31 一个常数随机变数的方差为零。反之,若有限个数组成的资料集方差为零,则其内所有数皆相等。对于一般随机变数,也有类似结论,即方差为零推出该变数几乎总是取同一个值: formula_32 方差不变于定位参数的变动。也就是说,如果一个常数被加至一个数列中的所有变数值,此数列的方差不会改变: formula_33 如果所有数值被放大一个常数倍,方差会放大此常数的平方倍: formula_34 两个随机变数合的方差为: formula_35 formula_36 此处Cov("X", "Y")代表共变异数。 对于formula_37个随机变数formula_38的总和: formula_39 在样本空间Ω上存在有限期望和方差的随机变量构成一个希尔伯特空间:"L"2 (Ω, dP),不过这里的内积和长度跟协方差,标准差还是不大一样。所以,我们得把这个空间“除”常变量构成的子空间,也就是说把相差一个常数的所有原来那个空间的随机变量做成一个等价类。这还是一个新的无穷维线性空间,并且有一个从旧空间内积诱导出来的新内积,而这个内积就是协方差。 总体方差和样本方差. 总体方差. 一般而言,一个有限的容量为N、元素的值为xi的总体的总体方差为: formula_40 其中总体均值为: formula_41 总体方差也可用下式计算: formula_42 该式成立,是因为: formula_43 总体方差与生成该总体的概率分布的方差相匹配。因此,“总体”的概念可推广到具有无限总体的连续随机变量。 样本方差. 有偏样本方差. 在许多实际情况下,总体的真实方差无法事先知道,必须以某种方式计算出来。在面对非常大的总体时,不可能计算总体中的每一个元素,因此必须从总体中抽取样本进行计算。样本方差还可以应用于用连续分布的样本来估计该分布的方差。 下面我们从总体中有放回抽取n个数值"Y"1, ..., "Y""n",其中"n" Yi是随机选取的,formula_45和formula_48都是随机变量。它们的期望值可以用从总体中抽取的所有可能的容量为n的{"Y""i"}的样本集合来估计。对于formula_48即为: formula_50 因此,formula_48给出的是总体方差的有偏估计量,偏差为formula_52。因此,formula_48称为有偏样本方差。 无偏样本方差. 将偏差纠正后,可得到无偏样本方差,记为formula_2: formula_55 当语境明确时,两个估计量都可以简称为“样本方差”。同样的证明也适用于取自连续概率分布的样本。 其中,对"n" − 1的使用称为,它也用于和样本标准差(方差的平方根)。平方根是一个凹函数,因此会引入负偏差(根据简森不等式),具体取决于分布,因此校正的样本标准差(使用贝塞尔校正)是有偏的。是一个技术上复杂的问题,不过对于正态分布,使用"n" - 1.5能得到几乎无偏的估计值。 无偏样本方差是函数"ƒ"("y"1, "y"2) = ("y"1 − "y"2)2/2的U-统计量。 一般化. 如果X是一个向量其取值范围在实数空间Rn,并且其每个元素都是一个一维随机变量,我们就把X称为随机向量。随机向量的方差是一维随机变量方差的自然推广,其定义为"E"[("X" − "μ")("X" − "μ")T],其中"μ" = "E"("X"),"X"T是X的转置。这个方差是一个非负定的方阵,通常称为协方差矩阵。 如果X是一个复数随机变量的向量(向量中每个元素均为复数的随机变数),那么其方差定义则为"E"[("X" − μ)("X" − μ)*],其中"X"*是X的共轭转置向量或称为埃尔米特向量。根据这个定义,变异数为实数。 历史. 「方差」(variance)这个名词率先由罗纳德·费雪()在论文《-- 》中提出。 后来方差逐渐衍生出了「半方差」(semivariance)、「亚方差」(hypo variance)、「超方差」(super variance)、「」(circular variance)与「倒方差」(inverse variance)等概念。 半方差. 半方差的计算方式与方差类似,但是只包括了低于均值的观测值: formula_56 半方差在不同应用领域也被用作特殊的量度。对于偏态分布,半方差能提供方差所不能提供的额外信息。
方差
生成维基百科快照图片,大概需要3-30秒!
如果网站内容有侵犯您的版权
请联系:pinbor@iissy.com
Copyright ©2014 iissy.com, All Rights Reserved.