概率分布
概率分布
机率分布()简称分布,亦称机率分配或分配,是概率论中的一个概念。
使用时可以有以下两种含义:
称"X"和"Y"为同分布的随机变量,当且仅当对任意事件formula_3,有formula_4成立。
但是,不能认为同分布的随机变量是相同的随机变量。事实上即使"X"与"Y"同分布,也可以没有任何点ω使得"X(ω)=Y(ω)"。在这个意义下,可以把随机变量分类,每一类称作一个分布,其中的所有随机变量都同分布。用更简要的语言来说,同分布是一种等价关系,每一个等价类就是一个分布。需注意的是,通常谈到的离散分布、均匀分布、伯努利分布、正态分布、泊松分布等,都是指各种类型的分布,而不能视作一个分布。
formula_7,对任意实数formula_8定义。
具有相同分布函数的随机变量一定是同分布的,因此可以用分布函数来描述一个分布,但更常用的描述手段是概率密度函数。
分布函数的性质刻划.
对于特定的随机变量 formula_9,其分布函数formula_10是单调不减及右连续,而且formula_11,formula_12。这些性质反过来也描述了所有可能成为分布函数的函数:
随机变量的分布.
设 formula_16 为概率测度,formula_17 为随机变量,则函数
formula_18
称为 formula_17 的概率分布函数。如果将 formula_17 看成是数轴上的随机点的坐标,那么,分布函数 formula_21 在 formula_22 处的函数值就表示 formula_17 落在区间 formula_24 上的概率。
例如,设随机变量 formula_17 为掷两次骰子所得的点数差,而整个样本空间由 36 个元素组成。
其分布函数是:
formula_26
离散机率分布族.
上面所列举的例子属于离散分布,即分布函数的值域是离散的,比如只取整数值的随机变量就是属于离散分布的。formula_27表示随机变量formula_28的概率值。如果"X"的取值只有formula_29,则:
其他常见的离散机率分布族有:
二项式分布.
二项分布是最重要的离散概率分布之一,由瑞士数学家雅各布·伯努利所发展,一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,随机一次试验出现的概率如果为formula_32,那么在formula_33次试验中出现formula_34次的概率为:
formula_35
例如,在掷3次骰子中,不出现6点的概率是:formula_36在连续两次的轮盘游戏中,至少出现一次红色的概率为:formula_37
二项分布在formula_38时表现出图像的对称性,而在formula_32取其它值时是非对称的。另外二项分布的期望值formula_40,以及方差formula_41
超几何分布.
作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有formula_42个球,其中formula_43个黑球,formula_44个红球,通过下面的超几何分布公式可以计算出,从容器中抽出的formula_33个球中(抽出的球不放回去)有formula_34个黑球的概率是多少:
formula_47
例如,容器中一共10个球,其中6个黑色,4个白色,一共抽5次(抽出的球不放回去),在这5个球中有3个黑球的概率是:
formula_48
超几何分布与二项式分布的关系.
与二项式分布不同的是,在超几何分布中,特别强调的是抽出的样品在下一次抽取前不再放回去,但是如果抽取的次数formula_33和总共样品数formula_42相比很小(大约formula_51),这时在计算上二项分布和超几何分布相互间则没有主要的区别,此时人们更愿意采用二项分布的方法,因为在数学计算上二项分布要简单一些。
Poisson分布.
Poisson近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概率值formula_32相对很小,而抽取次数formula_33值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为formula_32,那么在formula_33次试验中出现formula_34次的概率按照泊松分布应该为:
formula_57
其中,数学常数formula_58(自然对数的底数)例如,某工厂在生产零件时,每200个成品中会有1个次品,那么在100个零件中最多出现2个次品的概率按照泊松分布应该是:formula_59
在实践中如果遇到formula_33值很大导致二项分布难于计算时,可以考虑使用泊松分布,但前提是formula_61必须趋于一个有限极限#重定向
-{H|zh-cn:重定向;zh-tw:重新导向;}-。#重定向
-{H|zh-cn:重定向;zh-tw:重新导向;}-是:
连续机率分布族.
设formula_17是具有分布函数formula_65的连续随机变量,且"F"的一阶导数处处存在,则其导函数
formula_66
称为formula_17的机率密度函数。每个机率密度函数都有如下性质:
第一个性质表明,机率密度函数与formula_22轴形成的区域的面积等于1,第二个性质表明,连续随机变量在区间formula_71的概率值等于密度函数在区间formula_71上的积分,也即是与formula_17轴在formula_71内形成的区域的面积。因为formula_75,且formula_76是formula_21的导数,因此按照积分原理不难推出上面两个公式。
正态分布、指数分布、formula_78-分布,formula_65-分布以及formula_80-分布都是连续分布。
常见的连续机率分布族有:
正态分布.
连续随机变量的机率密度函数如果是如下形式,
formula_81
那么这个连续分布被称之为正态分布,或者高斯分布。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中formula_82是平均值,formula_83是标准差。正态分布是一种理想分布,许多典型的分布,比如成年人的身高,汽车轮胎的运转状态,人类的智商值(IQ),都属于或者说至少接近正态分布。同样按照连续分布的定义,常态机率密度函数具有和普通机率密度函数类似的性质:
如果给出一个正态分布的平均值formula_82以及标准差formula_83,可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的,没有计算机的辅助基本是不可能的,解决这一问题的方法是借助formula_88-变换以及标准正态分布表格(formula_88-表格)。
中间值formula_90以及标准差formula_91的正态分布被称之为标准正态分布,其累积分布函数是
formula_92
将普通形式的正态分布变换到标准正态分布的方法是
formula_93
例如,已知formula_17服从正态分布,且formula_95,formula_96,求区间概率值formula_97。计算过程如下:
设另一随机变量formula_98,则formula_99服从标准常态分布,且
formula_100
所以
formula_101
其中formula_102值通过查formula_88-表格获得。
正态分布与二项分布的关系.
在离散分布中如果试验次数formula_33值非常大,而且单次试验的概率formula_32值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:formula_106。从二项分布中获得formula_82和formula_83值的方法是
如果formula_111,则必须采用下面的近似修正方法:
formula_112
上(下)临界值分别增加(减少)修正值0.5的目的是在formula_83值很大时获得更精确的近似值,只有formula_83很小时,修正值0.5可以不被考虑。
例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下,
formula_115
formula_116
formula_117,符合近似规则,应用formula_88-变换:
formula_119
formula_120
在运用formula_88-表格时注意到利用密度函数的对称性来求出formula_88为负值时的区域面积。
参考文献.