核密度估计
核密度估计(,缩写:KDE)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。
核密度估计在估计边界区域的时候会出现边界效应。
在单变量核密度估计的基础上,可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理,可以建立不同的风险价值的预测模型。
一些比较常用的核函数是:
均匀核函数
formula_1,
加入带宽formula_2后:
formula_3。
三角核函数
formula_4,
加入带宽formula_2后:
formula_6。
伽马核函数
formula_7。
定义.
设formula_8为从单变量分布中抽取的独立同分布样本,给定点formula_9有未知的概率密度formula_10,我们对估计函数formula_10的形状感兴趣,其核密度估计器是
formula_12
其中formula_13是非负的核函数,带宽formula_14为平滑参数。带下标h的核被称为缩放核,定义为formula_15。直觉上讲,在数据允许的范围内应当选择尽可能小的带宽;然而,偏差和方差之间总有所权衡。
常用的核函数有:均匀核(Uniform)、三角核(Triangular)、双权核(Biweight)、三权核(Triweight)、Epanechnikov核、正态核(Normal)等。从均方误差的角度来看,Epanechnikov核是最佳的,尽管对于前面列出的核来说,效率的损失很小。由于其数学特性良好,正态核经常被使用,即formula_16,其中formula_17是标准正态密度函数。
生成维基百科快照图片,大概需要3-30秒!