
第九章非参数密度估计和非参数回归简介非参数回归和密度估计问题在许多方面和前面讨论的基于秩的统计问题很不一样,需要的数学方法也不相同.由于非参数回归和密度估计需要大量的计算,只有在近些年来计算机飞速发展之后,才得到长足的进展,这方面有不少专者,本书仅通过两个著名例子来介绍一些典型的方法和思路,以使读者对此方向有些直观印象.想了解本节方法田节的读者,请阅读有关的文献9.1非参数密度估计例9.1(数据:faithful.txt,faithful.sav)这是一个很著名的例子,在美国黄石国家公园有一个间歇式温泉,它的喷发间隔很有规律,大约66分钟喷发一次但实际上从33分钟到148分钟之间变化.水柱高度可达150英尺:由于其喷发保持较明显的规律性,人们称之为老忠实(OldFaithful):图9.1是其喷发持续时间(eruptions)和间隔时间(waiting)的散点图(单位为分钟,共272个点)

Oooo8?000800o0oOOOO80o80O80O08000082Oo8oOo08300)8OoO8OooOOC8OOOD0088T8C%-88O888o80OoOueooo8880OooooOOO00ooOoOOoo8eO80Co8OO8OO8Oo8OO8Oo888S5OOa80OOo88O00O0O11.52.02.53.03.54.04.55.0eruptions图9.1“老忠实”温泉的喷发持续时间和间隔时间的散点图

人们想知道间隔时间的密度函数,看起来该密度应该有两个峰,正如前面提到过的,最简单的方法是用直方图,图92是用不同数自的分割区间所画的老忠实间款温泉的间隔时间的直方图,容易看出,当区间变细时,这些直方图看起来的确象个密度,然而,如果数据不够多,分割区间太多会使得个别点太突出而看不出总体形状,因此,选择区间的数目和大小是画好直方图的关键,一般的软件都有对此的缺省值,当然,计算机软件所提供的缺省值不一定就是最优的,直方图有时仅被认为是很初等的非参数密度估计,并且往往划归到描述性统计的范畴,下面介绍一些非参数密度估计方法

2024orenoren580205001404080506070809010050607090waitingwaiting55OConeona1-r7150607080905060708090waitingwaiting“老忠实”温泉的喷发间隔时间的不同分割数目的直方图图9.2

9.1.1一元密度估计直方图记录了在每个区间中点的个数或频率,使得图中的矩形条的高度随着数值个数的多少而变化但是直方图很难给出较为精确的密度估计核密度估计.下面引进核估计(Kernelestimation).它的原理和直方图有些类似,核估计也计算某一点周围的点的个数,只不过是对于近处的点考虑多一些对于远处的考虑少一些或者甚至不考虑).具体来说,如果数据为C1,α2,·,Cn

在任意点处的一种核密度估计头n1一iZKf()hnh1这里K()称为核函数(kernelfunction),它通常满足对称性及K(a)da=1.可以看出,核函数是一种权函数,该估计利用数据点c到的距离(α一)来决定在估计点c的密度时所起的作用如果核函数取标准正态密度函数(),则离点越近的样本点,加的权也越大.上面积分等于1的条件是使得f()是一个积分为1的密度.表示式中的h称为带宽(bandwidth).一般来说,带宽取得越大,估计的密度函数就越平滑,但偏差可能会较大,如果选的h太小,估计的密度曲线和样本拟合得较好,但可能很不光滑,一般选择的原则为使得均方误差最小为宜,有许多方法选择h,比如交叉验证法(cross-validation),直接插入法(directplug-in),在各个局部取不同的带宽,或者估计出一个光滑的带宽函数h()等等

图9.3为对老忠实温泉的间隔时间所作的核估计,其中h取了四个不同的值:h=0.3.0.5.1和2.从图上可以清楚地看出带宽对图形的影响.这里的核函数为标准正态密度函数h=0.3h0.590POT20000506070808090109050607010040h=1h=270.00020o10'00000℃904050607080901004050607080100图9.3用不同带宽对“老忠实”温泉的喷发间隔时间的核密度估计

下表列出了常用的核函数核函数名称核函数K(u)均匀(Uniform)(lul≤1)三角(Triangle)(1 - [ul)I(lul ≤1)(1 -)I(lul ≤1)Epanechikov四次(Quartic)(1-)I(lu≤1)三权(Triweight)(1 -)3I(lul≤1)高斯(Gauss) exp (-u)4余弦(Cosinus)u)I(lul≤1)cOS-

局部多项式密度估计局部多项式密度估计是自前最流行的,效果很好的密度估计方法,它对每个点拟合一个局部多项式来估计在该点的密度图9.4为对“老忠实”温泉的间隔时间所作的核估计(实线)和局部多项式估计(虚线)从图上可以看出核密度估计和局部多项式估计在边界上的区别:与核方法相比较,局部多项式方法在边界上的估计结果较好

to060'0sue0010'000'0406080100waitingtime (minute)图9.4对“老忠实”温泉的间隔时间所作的核估计(实线)和局部多项式估计(虚线).注意两条线在两端的区别