第五章比估计与回归估计 前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。 所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体 重的关系,一般用回归的方法。这类问题首先是由英国统计 学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。 第五章 比估计与回归估计 所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体 重的关系,一般用回归的方法。这类问题首先是由英国统计 学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。 §1比估计及其性质 设有一个二元变量的总体(X,Y):(X1,H1),(X2,Y2)…,(XN,YN) 有4个参数是我们所熟悉的: X、Y 指标X、Y的平均数 S2=~-12(X-X) 指标X、Y的方差 =N=12(-Y)
现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。 §1 比估计及其性质 设有一个二元变量的总体 ( , ) X Y : 1 1 2 2 ( , ),( , ), ,( , ) X Y X Y X Y N N 有 4 个参数是我们所熟悉的: X Y 、 ————指标 X Y 、 的平均数 2 2 1 1 ( ) 1 N X i i S X X N = = − − 2 2 1 1 ( ) 1 N Y i i S Y Y N = = − − ——指标 X Y 、 的方差
在研究比估计之前,再引进一个新的参数变量之间 的协方差 -+-1∑(x1-X)(x-)61 Cov(X,n) X、Y之间的相关系数定义为: Cov(X, Y) ar(x) ar(r) ∑(X-X) (5.2) ∑(X-x)|∑(x-P) 如果简单随机样本为x1,y)(=1,2,…,n),则Cov(X,Y) 及p的估计为:
如果简单随机样本为 ,则 及 的估计为: ( , ) ( 1,2, , ) i i x y i n = Cov X Y ( , ) 在研究比估计之前,再引进一个新的参数——变量之间 的协方差: 1 1 ( , ) ( )( ) 1 N i i i Cov X Y X X Y Y N = = − − − (5.1) X Y 、 之间的相关系数定义为: ( , ) ( ) ( ) Cov X Y Var X Var Y = 1 1 1 2 2 1 1 ( )( ) ( ) ( ) N i i i N N i i i i X X Y Y X X Y Y = = = − − = − − (5.2)
∑(x1-x)(n-)(53) ∑(x-x)(-y) (54) 2 ∑(x-x)∑(y1- i=1 在讨论比估计之前,先考察总体的两个平均数之比,即 R=Y/X 由于x,y分别是X,Y的无偏估计,R的估计自然定义为 R=y/x
1 1 ( )( ) 1 n xy i i i S x x y y n = = − − − (5.3) 1 1 1 2 2 1 1 ( )( ) ˆ ( ) ( ) n i i i n n i i i i x x y y x x y y = = = − − = − − (5.4) 在讨论比估计之前,先考察总体的两个平均数之比,即 R Y X = 由于 x y, 分别是 X Y, 的无偏估计, R 的估计自然定义为 R y x ˆ =
假如X或X已知,总体平均数Y与总体总和Y的比估计 量定义为: DR=RX=YX=YX (55) ja=R·X=yx 〓 (56) 通常的比估计是指55)式与(56)式,而R则称为比值R的 估计。 由(5.5)式与(5.6)式可知,JR与yR的习性主要依赖于估计量 R,因此在不少场合,我们常用R来说明 尽管x,y分别是X,Y的无偏估计,由于R的非线性形式,因 此R关于R是有偏的,从而y,VR关于Y,Y也是有偏的。 个合理的估计量,应该随着样本容量n的增加,估计量的 期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏
假如 或 已知,总体平均数 与总体总和 的比估计 量定义为: X X Y Y ˆ R y y y R X X X x x = = = (5.5) ˆ R y y y R X X X x x = = = (5.6) 通常的比估计是指(5.5) 式与 (5.6) 式,而 则称为比值 的 估计。 R ˆ R 由 (5.5) 式与 (5.6) 式可知, 与 的习性主要依赖于估计量 R ˆ ,因此在不少场合,我们常用 R ˆ 来说明。 R y R y 尽管 分别是 的无偏估计,由于 的非线性形式,因 此 关于 是有偏的,从而 关于 也是有偏的。 x y, X Y, R ˆ R ˆ R , R R y y Y Y, 一个合理的估计量,应该随着样本容量n 的增加,估计量的 期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏
比估计是否渐近无偏呢? 将比估计R=卫/x表示为: R J O X(+x-x X 利用 Taylor展开式,有 R=卫=A=x(x-x xX x-X x-X (5.7) X
比估计是否渐近无偏呢? 利用Taylor展开式,有 将比估计 R y x ˆ = 表示为: ˆ (1 ) y y R x x X X X = = − + 2 ˆ 1 y y x X x X R x X X X − − = = − + − 2 1 y x X x X X X X − − − + (5.7)
当n相当大时,与X相当接近,而X是常数,又y是Y的 无偏估计,因此,实质上R≈y/X,所以E(R)≈R (57)式的好处不单单告诉我们E(R)≈R这一事实,而且告 诉了我们,当n相当大时,R≈y/X,表明R可以表示成 /X(i=1,2,…,m)的平均数,因此R的分布可近似正态分布 R-R 因此,可利用产近似标准正态分布获得R的置信区间 Var(R) 而ar(R)≈ 比2(S2+R232-2BSm (58) 另外vmr(2)≈ 1-f (Sy +R SY -2RSYy) (59) n Jmr(2)≈ N2(1-f) (S2+R2S2-2RSxy)(5.10) n
当 n 相当大时, 与 相当接近,而 是常数,又 是 的 无偏估计,因此,实质上 ,所以 。 x X X y Y ˆ R y X ˆ E R R ( ) (5.7)式的好处不单单告诉我们 这一事实,而且告 诉了我们,当n 相当大时, ,表明 可以表示成 的平均数,因此 的分布可近似正态分布 ˆ E R R ( ) R y X ˆ R ˆ ( 1,2, , ) i y X i n = R ˆ 因此,可利用 近似标准正态分布获得 的置信区间 ˆ ˆ ( ) R R Var R − R 而 2 2 2 2 1 ˆ ( ) ( 2 ) Y X XY f Var R S R S RS nX − + − (5.8) 另外 1 2 2 2 ( ) ( 2 ) R Y X XY f Var y S R S RS n − + − (5.9) 2 2 2 2 (1 ) ( ) ( 2 ) R Y X XY N f Var y S R S RS n − + − (5.10)
公式(58)、(59)、(5.10)为我们提供了Wr(R,Jamr(g),Vr() 的估计量的形式。具体计算时,只要将2,S2,Sxy,R分别换为 s2,s1,sxy,R即可。我们将由此得到的估计量分别记为 V(R 1-f (sy+Rsx -2Rsxr V(R) 1-f (S +rSX -2RSxy) n N(1-∫) R (sy+RsX -2Rsxy n 那么,R,Y,Y的置信水平为1-a)的置信区间分别为: R-1√Vv(R),R+1 VV(R)) (5.11) (VR Pr,yR+
公式(5.8)、(5.9)、(5.10)为我们提供了 的估计量的形式。具体计算时,只要将 分别换为 即可。我们将由此得到的估计量分别记为: ˆ ( ), ( ), ( ) Var R Var y Var y R R 2 2 , , , S S S R X Y XY 2 2 ˆ , , , X Y XY s s s R ˆ 2 ) − RsXY ˆ v R( ) = 2 2 2 2 1 ˆ ( Y X f s R s nx − + 1 2 2 2 ˆ ( Y X f s R s n − + ˆ 2 ) − RsXY ( ) R v y = 2 2 2 2 (1 ) ˆ ( Y X N f s R s n − + ˆ 2 ) − RsXY ( ) R v y = 那么, R Y Y , , 的置信水平为 (1 ) − 的置信区间分别为: 2 1 ( ) R −u v y − R ( y , ) 2 1 ( ) R +u v y − R y 2 1 ˆ u v R ( ) − R ˆ − 2 1 ˆ u v R ( ) − ( , R ˆ + ) (5.11)
(F-413Vf),Fk+n1Vv()) 下面说明比估计的优点。主要针对yR与yR来说明,因为 它们相差一个常数因,卤此,只需讨论其中个就可或 当n充分大时, r(y)≈ 1-f (Sy+R'SX-2RSxy) n 而 1-f var(y) n 欲使Vmr(n)x/ 1Cx (5.1 12) 2S, 2 S,Y 2 C
2 1 ( ) R −u v y − R ( y , ) 2 1 ( ) R +u v y − R y 下面说明比估计的优点。主要针对 与 来说明,因为 它们仅相差一个常数因子,因此,只需讨论其中一个就可以。 R y R y 当 n 充分大时, 1 2 2 2 ( ) ( 2 ) R Y X XY f Var y S R S RS n − + − 1 2 ( ) Y f Var y S n − 而 = 欲使 Var y Var y ( ) ( ) R ,仅需 2 2 R S RS X XY − 2 0 或 2 2 R S R S S X X Y − 2 0 即 1 1 2 2 2 X X X Y Y Y RS S X C S S Y C = = (5.12)
(512)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果 相关程度不那么密切(<Cx/2C),此时已知的x信息并 没有较多地提供Y的信息,借助X来推断Y也许会“帮倒忙” 假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即: r Jp=Nx.J x·J (5.13) 当n充分大时,且满足: Px、 S X /X1 2 SY/Y 2C (5.14) 成立 r()<r(y)
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果 相关程度不那么密切( ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 也许会“帮倒忙” 假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即: Y C C X Y 2 当 n 充分大时,且满足: 1 1 2 2 X X Y Y S X C S Y C − = − (5.14) , p p x y x y y y N X X = = (5.13) 成立 ( ) ( ) Var y Var y R