U-统计量
U-统计量是统计学中一类特定的、具有对称性的统计量,它在估计理论中扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。
U-统计量的一个重要性是,对概率分布来说,其可估计参数的最小方差无偏估计量 是一个U-统计量。 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。
U-统计量在非参数统计中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性,这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的随机过程和随机网络类型数据的随机性质方面,发挥了作用。
目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解。
定义.
定义 formula_1 为一个函数,其具有对称性,即交换任意 formula_2 的位置,formula_3 的值保持不变。对随机变量 formula_4 ,基于 formula_3 的U-统计量定义如下:
formula_6
这里,formula_7 称为U-统计量的核函数(Kernel function),而核函数的维数 formula_8 称为该U-统计量的度(degree)。
两样本U-统计量.
定义 formula_9 为一个函数,其对 formula_10 和 formula_11 分别具有对称性,即交换任意 formula_12 的位置或交换任意 formula_13 的位置,formula_3 的值保持不变(但不能随意交换 formula_15 )。对随机变量 formula_16 ,基于 formula_3 的两样本U-统计量定义如下:
formula_18
目前在机器学习中,最常见的情形是 formula_19,例如能量距离和最大平均差异(MMD)。
Hoeffding的ANOVA分解定理.
定理表述.
Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。为表述该定理,定义:formula_20。
对所有 formula_21 ,定义投影函数:
formula_22
然后定义正交化投影函数:
formula_23,formula_24,等等,每一个 formula_25 都定义为相应的 formula_26减去之前定义过的所有 formula_27,直至最后一个函数 formula_28:
formula_29
Hoeffding的ANOVA分解定理的内容是:
formula_30
分解项的性质.
所有的正交化投影函数 formula_25 都满足:
formula_32
因此,所有的分解项之间是互不相关的,并且度为 formula_33 的分解项之平均的阶为 formula_34.
在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式:
formula_35
formula_37
定理应用.
同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行t-标准化。
formula_41
具体例子.
称为“平均成对偏差”。
formula_43
这正是人们熟知的样本方差 formula_44。
formula_45
展开后可以写成一个U-统计量。
参考文献.
生成维基百科快照图片,大概需要3-30秒!