第十五章非参数与半参数估计
第十五章 非参数与半参数估计
主要内容 ◆151为什么需要非参数与半参数估计 ◆152对密度函数的非参数估计 ◆153核密度估计的性质 ◆154最优带宽 ◆155多元密度函数的核估计 ◆156非参数核回归 ◆157多元核回归 ◆158k近邻回归 ◆159局部线性回归 ◆1510非参数估计的 Stata命令及实例 ◆1511半参数估计
2 主要内容 15.1 为什么需要非参数与半参数估计 15.2 对密度函数的非参数估计 15.3 核密度估计的性质 15.4 最优带宽 15.5 多元密度函数的核估计 15.6 非参数核回归 15.7 多元核回归 15.8 k近邻回归 15.9 局部线性回归 15.10 非参数估计的Stata命令及实例 15.11 半参数估计
151为什么需要非参数与半参数估计 “参数估计法”( parametric estimation)假设总体 服从带未知参数的某个分布(比如正态),或具体的回归 函数,然后估计这些参数 其缺点是,对模型设定所作的假定较强,可能导致 较大的设定误差,不够稳健 “非参数估计法”( nonparametric estimation) 般不对模型的具体分布或函数形式作任何假定,更为 稳健
3 15.1 为什么需要非参数与半参数估计 “参数估计法”(parametric estimation)假设总体 服从带未知参数的某个分布(比如正态),或具体的回归 函数,然后估计这些参数。 其缺点是,对模型设定所作的假定较强,可能导致 较大的设定误差,不够稳健。 “非参数估计法”(nonparametric estimation)一 般不对模型的具体分布或函数形式作任何假定,更为 稳健
缺点是要求样本容量较大,且估计量收敛的速度较 慢。 作为折衷,同时包含参数部分与非参数部分的“半 参数方法”( semiparametric estimation),降低对样本 容量的要求,又有一定稳健性 非参及半参方法与传统的参数法互补;后者不太适 用时,可考虑前者
4 缺点是要求样本容量较大,且估计量收敛的速度较 慢。 作为折衷,同时包含参数部分与非参数部分的“半 参数方法”(semiparametric estimation),降低对样本 容量的要求,又有一定稳健性。 非参及半参方法与传统的参数法互补;后者不太适 用时,可考虑前者
152对密度函数的非参数估计 考虑根据样本数据来推断总体的分布,即密度函数 如用参数估计法,则先对总体分布的具体形式进行假 定。 如不假设总体分布的具体形式,则为非参数方法 最原始的非参数方法是画直方图,即将数据的取值范 围等分为若干组,计算数据落入每组的频率,以此画图 ,作为对密度函数的估计。 直方图的缺点是,即使随机变量连续,直方图始终是 不连续的阶梯函数。 为得到对密度函数的光滑估计, Rosenblat(1956)提 出“核密度估计法”( kernel density estimation)
5 15.2 对密度函数的非参数估计 考虑根据样本数据来推断总体的分布,即密度函数。 如用参数估计法,则先对总体分布的具体形式进行假 定。 如不假设总体分布的具体形式,则为非参数方法。 最原始的非参数方法是画直方图,即将数据的取值范 围等分为若干组,计算数据落入每组的频率,以此画图 ,作为对密度函数的估计。 直方图的缺点是,即使随机变量连续,直方图始终是 不连续的阶梯函数。 为得到对密度函数的光滑估计,Rosenblatt(1956)提 出“核密度估计法”(kernel density estimation)
直方图得不到光滑的密度估计,根本原因在于使用示 性函数作为“权重函数”( weighting function),以及各 组间不允许交叠 核密度估计法使用更一般的权重函数,并允许各组之 间交叠 核密度佔计量为 f(xo)=2> K[(x2-x0)/h] i=1 函数K()称为“核函数”( kernel function),本质上 就是权重函数。 6
6 直方图得不到光滑的密度估计,根本原因在于使用示 性函数作为“权重函数”(weighting function),以及各 组间不允许交叠。 核密度估计法使用更一般的权重函数,并允许各组之 间交叠。 核密度估计量为 函数 称为“核函数”(kernel function),本质上 就是权重函数
带宽h越大,在Ⅺ附近邻域越大,则估计的密度函数 ∫(x)越光滑,故称带宽h为“光滑参数” 般假设核函数K(z)满足以下性质: K(z)连续且关于原点对称(偶函数); (i k(z)dz=1, zk(z)dz=0 IK(z)I dz<+
7 带宽h越大,在x0附近邻域越大,则估计的密度函数 越光滑,故称带宽h为“光滑参数” 。 一般假设核函数 满足以下性质: (i) 连续且关于原点对称(偶函数); (ii) , ;
i)或者①存在z0>0,使得当|z|>z时,K(z)=0 或者②当|2|→+∞时,z|K(z)→0; (V)|z2k(z)dz=y,其中y为常数。 条件()要求核函数的曲线下面积为1,并满足一些 有界条件。 条件(i)比条件(i)2更强,实践中常采用条件(i) ①。常将邻域[z0,z0]标准化为[-1,1]。条件(v)也是 有界条件
8 (iii)或者①存在 ,使得当 时, ; 或者②当 时, ; (iv) ,其中 为常数。 条件(ii)要求核函数的曲线下面积为1,并满足一些 有界条件。 条件(iii)①比条件(iii)②更强,实践中常采用条件(iii) ①。常将邻域 标准化为[-1,1] 。条件(iv)也是 有界条件
152对密度函数的非参数估计 常见核函数见下表。这些核函数的共同特点是,离原 点越近,则核函数取值越大,并在原点达到最大;即越 近的点权重越大。 其中,均匀核也用于直方图,只是在用均匀核进行核 密度估计时并不固定分组,而在每个点上进行估计。 最流行的核函数为二次核(也称 Epanechnikov核)与高 斯核。 注:其中δ为用来计算“ Silverman嵌入估计”的常数
9 15.2 对密度函数的非参数估计 常见核函数见下表。这些核函数的共同特点是,离原 点越近,则核函数取值越大,并在原点达到最大;即越 近的点权重越大。 其中,均匀核也用于直方图,只是在用均匀核进行核 密度估计时并不固定分组,而在每个点上进行估计。 最流行的核函数为二次核(也称Epanechnikov核)与高 斯核。 注:其中 为用来计算“Silverman嵌入估计”的常数
核函数名称 核函数的数学形式δ 均匀核 (uniform or rectangular <1 .3510 ⊥三角核(mie:t)x 伊番科尼可夫核( Epanechnikov)或二 -z)2< 1.7188 次核( quadratic 四次核quri或双权核6 biweight)(a-z)V4<)2.062 三权核( Reweight) 2(-z2)<D2312 三三核 Tricubic #),x<D 高斯核( Gaussian or normal) 0.7764 10
10