logo
天地变化的道理
使用率很高网站
生活要常常分享
您身边百科全书
免费为您秀产品
二项式分布
二项式分布 在概率论和统计学中,二项分布()是一种离散概率分布,描述在进行独立随机试验时,每次试验都有相同概率“成功”的情况下,获得成功的总次数。掷硬币十次出现五次正面的概率、产品合格率formula_6时抽出一百件样本没有发现一件次品的概率等等,都可以由二项分布给出。 只有“成功”和“失败”两种可能结果,每次重复时成功概率不变的独立随机试验称作伯努利试验,例如上述的掷硬币出现正面或反面、对产品进行抽样检查时抽到正品或次品。伯努利试验作为理论模型,其前提在现实中无法完全得到满足,比如生产线会磨损,因此每件产品合格的概率并非固定。尽管如此,二项分布给出的概率通常足以用于提供有用的推断;即使在已知前提没有满足的场合,二项分布也能用于参考和比较。二项分布的应用出现在遗传学、质量控制等领域之中。 定义. 若随机变量formula_7有概率质量函数 formula_8 其中formula_9为正整数、formula_10,则称formula_7服从参数为formula_12的二项分布,记为formula_13或formula_14。习惯上formula_15也用formula_16表示。 推导. 进行formula_9次独立伯努利试验的结果可以由formula_9个字母表示,例如用formula_19表示成功,formula_20表示失败,则 formula_21 表示五次试验中第一、二、四次的结果为成功,其余为失败。设每次试验成功的概率为formula_22,失败的概率为formula_15。因为试验相互独立,每一种排列formula_24个formula_19、formula_26个formula_20的方式对应的概率为formula_28。 从formula_9个不同元素中选出含formula_24个元素的子集的方法数量等于二项式系数 formula_31 而每种对formula_24个formula_19、formula_34个formula_20的排列式都可理解为从formula_9个位置中选出formula_24个作为字母formula_19的位置的方法,这种方法的数量即为formula_39。与每种排列方式对应的概率相乘,便得到定义中的概率 formula_40 历史. 二项分布是最早得到研究的概率分布之一。丹麦统计学家安德斯·哈尔德认为其历史可以追溯至布莱兹·帕斯卡与皮埃尔·德·费马于1654年对点数分配问题的讨论:两名玩家赢得每局游戏的机会相同,赢得一定局数的胜者可获得奖金,但比赛仅进行了数局,尚未分出胜负就被迫中断,则奖金该如何分配?帕斯卡认为,奖金的分配应当基于玩家距离胜利所差的局数:若一名玩家还需formula_41局获胜,另一名玩家还需formula_42局获胜,则应考虑在formula_43局比赛的formula_44种结果中,两名玩家分别在多少种情况中获胜。两人的讨论限于这一问题本身,并未推导出二项分布的概率,但这一解法可被视作基于参数formula_45的二项分布。 对二项分布概率的推导为雅各布·伯努利于《》中作出。该著作在他去世后,于1713年得到出版,被视作概率论的奠基性作品。伯努利还在其中首次给出了弱大数定律的严格证明。对二项分布的正态近似则是由亚伯拉罕·棣莫弗发现,这一工作于1733年完成,于1738年出版在其著作《》的第二版中。 性质. 参数为formula_12的二项分布的期望值为formula_47,方差为formula_48。其概率母函数为 formula_49 矩母函数为 formula_50 特征函数为 formula_51 参数formula_52的二项分布称作伯努利分布。是二项分布的拓展,描述重复进行不限于两种结果、可能有多种可能结果的随机试验时的概率。二项分布本身是超几何分布的极限形式。 二项分布的和. 若formula_53两个随机变量独立,分别服从参数为formula_54和formula_55的二项分布,则formula_56即是在formula_57次独立伯努利试验中取得成功的次数,所以formula_56服从参数为formula_59的二项分布。这一结论亦可通过将两者的概率母函数相乘而得出。在条件formula_60之下,随机变量formula_61的条件概率分布是参数为formula_62的超几何分布。 众数. 计算formula_63和formula_64的比值可以得到 formula_65 因此,当formula_66时,formula_63随formula_24增加而上升;当formula_69时,formula_63随formula_24增加而下降。故二项分布的众数为formula_72的下取整formula_73。若formula_72本身是整数,则formula_72和formula_76均是众数。若formula_77,则众数为formula_78。 中位数. 二项分布的中位数formula_79位于formula_47的上下取整之间,即formula_81;若formula_47为整数,则中位数formula_83。中位数formula_79和期望值formula_47之间的差满足 formula_86 若formula_87或formula_88,则该上界可进一步缩减为 formula_89 若formula_9为奇数、formula_45,则formula_92和formula_93均为中位数。 累积分布函数. 二项分布的累积分布函数和尾概率可以用正则化不完全贝塔函数表示为 formula_94 formula_95 矩. 二项分布的formula_41阶原点矩满足 formula_97 其中formula_98表示斯特林数。具体而言, formula_99 formula_100 formula_101 formula_102 其低阶中心矩为 formula_103 formula_104 formula_105 近似. 正态近似. 标准二项分布 formula_106 在formula_107时趋近于标准正态分布。这一结果称作,为中心极限定理的特殊形式。基于这一定理可以得到 formula_108 其中formula_109为标准正态分布的累积分布函数。 正态分布为连续概率分布,在近似二项分布这类离散概率分布时,可将端点向外偏移formula_110得到 formula_111 从而提升近似的准确性,这种技巧称作。何时能采用这一近似依赖于使用经验法则,例如要求formula_112,或是在formula_113时要求formula_114、在formula_115时要求formula_116。 泊松近似. 当formula_117,而formula_47保持不变时,二项分布趋近于参数为formula_47的泊松分布。以此为基础可以得到 formula_120 二项分布与其泊松近似之间的绝对误差存在上界。若随机变量formula_7服从参数为formula_12的二项分布,随机变量formula_123服从参数为formula_47的泊松分布,则 formula_125 参数估计. 点估计. 通常参数formula_9为已知。假设随机变量formula_7服从二项分布,其参数formula_22未知。若观测到formula_7的值为formula_130,采用矩估计和最大似然估计对参数formula_22的估计量均为formula_132,这一估计量为无偏的。 参数formula_22的取决于使用的先验分布。若使用连续型均匀分布作为先验分布,即假设formula_78和formula_135之间任意等长的区间包含formula_22概率的概率都相同,则后验均值估计量为 formula_137 这被称作,曾被皮埃尔-西蒙·拉普拉斯用于估计在太阳连续升起formula_9天之后,太阳明天还会升起的概率。由于人类知道太阳在过去五千年,即1,826,213天都正常升起,拉普拉斯愿意以1,826,214比1的赔率赌太阳明天继续升起。 若使用参数为formula_139的贝塔分布作为先验分布,则后验均值估计量为 formula_140 采用贝塔分布作为先验分布时,后验分布亦是贝塔分布,即贝塔分布为二项分布的共轭先验。 区间估计. 若要对参数formula_22以区间形式给出估计,通过求解 formula_142 formula_143 所得的区间formula_144为一个置信水平近似为formula_145的置信区间,称作克洛珀-皮尔逊区间(-- 正态分布可以用于推导近似的置信区间。若用formula_146表示标准正态分布的第formula_147分位数,即formula_148,则区间两端的近似值为 formula_149 参考文献.
二项式分布
本站由爱斯园团队开发维护,感谢
那些提出宝贵意见和打赏的网友,没有你们的支持,
网站不可能发展到今天,
继往开来,善终如始,我们将继续砥砺前行。
Copyright ©2014 iissy.com, All Rights Reserved.