第五章比估计与回归估计 →------- 前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。 所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体 重的关系,一般用回归的方法。这类问题首先是由英国统计 学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
前面讨论的简单随机抽样和分层抽样,我们所关心的参 数都是单指标的,给出的估计量也是线性形式。这一章我们 将要讨论比较复杂的情况,我们关心的参数不再是单指标的 而是两个或两个以上的指标。此时,遇到的统计量不再是线 性形式,往往呈现出非线性形式,比如两个变量之比,或呈 现变量之间的回归关系。 第五章 比估计与回归估计 所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体 重的关系,一般用回归的方法。这类问题首先是由英国统计 学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发
现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。 *--1--1--1----1--4--1--1---- §1比估针及其性质 设有一个二元变量的总体(X,Y):(X1,H1),(X2,Y2),…,(XN,yy) 有4个参数是我们所熟悉的: X Y 指标X、Y的平均数 N-1 ∑(X1-X)2 指标X、Y的方差 S ∑(r-1)2 N-1
现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。 §1 比估计及其性质 设有一个二元变量的总体 ( , ) X Y : 1 1 2 2 ( , ),( , ), ,( , ) X Y X Y X Y N N 有 4 个参数是我们所熟悉的: X Y 、 ————指标 X Y 、 的平均数 2 2 1 1 ( ) 1 N X i i S X X N = = − − 2 2 1 1 ( ) 1 N Y i i S Y Y N = = − − ——指标 X Y 、 的方差
在研究比估计之前,再引进一个新的参数变量之间 的协方差 Cow(,1)s、 ∑(X1-X(-Y)(5) X、Y之间的相关系数定义为: Cov(X, Y) p- Jar(x)、√ar() ∑(X-X)(x-F) (5,2) ∑(X-X)∑(x-1) 如果简单随机样本为x,y1)(i=1,2,…,n),则Cov(X,Y) 及p的估计为:
如果简单随机样本为 ,则 及 的估计为: ( , ) ( 1,2, , ) i i x y i n = Cov X Y ( , ) 在研究比估计之前,再引进一个新的参数——变量之间 的协方差: 1 1 ( , ) ( )( ) 1 N i i i Cov X Y X X Y Y N = = − − − (5.1) X Y 、 之间的相关系数定义为: ( , ) ( ) ( ) Cov X Y Var X Var Y = 1 1 1 2 2 1 1 ( )( ) ( ) ( ) N i i i N N i i i i X X Y Y X X Y Y = = = − − = − − (5.2)
S n-1 ∑(x-x)1-元)53) ∑(x-x)(1-元 54) 2 ∑(x-x)2n- i=1 在讨论比估计之前,先考察总体的两个平均数之比,即 R=Y/X 由于,分别是x,F的无偏估计,R的估计自然定义为 R=y/x
1 1 ( )( ) 1 n xy i i i S x x y y n = = − − − (5.3) 1 1 1 2 2 1 1 ( )( ) ˆ ( ) ( ) n i i i n n i i i i x x y y x x y y = = = − − = − − (5.4) 在讨论比估计之前,先考察总体的两个平均数之比,即 R Y X = 由于 x y, 分别是 X Y, 的无偏估计, R 的估计自然定义为 R y x ˆ =
假如X或X已知,总体平均数Y与总体总和Y的比估计 量定义为: JR=R·X=少 (5.5) VR=RX y=X (56) 通常的比估计是指55式与(56)式,而R则称为比值R的 估计。 由(55)式与(56)式可知,JR与yR的习性主要依赖于估计量 R,因此在不少场合,我们常用R来说明。 尽管x,分别是X,Y的无偏估计,由于R的非线性形式,因 此R关于R是有偏的,从而y,y关于Y,也是有偏的。 个合理的估计量,应该随着样本容量n的增加,估计量的 期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏
假如 或 已知,总体平均数 与总体总和 的比估计 量定义为: X X Y Y ˆ R y y y R X X X x x = = = (5.5) ˆ R y y y R X X X x x = = = (5.6) 通常的比估计是指(5.5) 式与 (5.6) 式,而 则称为比值 的 估计。 R ˆ R 由 (5.5) 式与 (5.6) 式可知, 与 的习性主要依赖于估计量 R ˆ ,因此在不少场合,我们常用 R ˆ 来说明。 R y R y 尽管 分别是 的无偏估计,由于 的非线性形式,因 此 关于 是有偏的,从而 关于 也是有偏的。 x y, X Y, R ˆ R ˆ R , R R y y Y Y, 一个合理的估计量,应该随着样本容量n 的增加,估计量的 期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏
比估计是否渐近无偏呢? 将比估计R=y/x表示为: --1-1--1-1-1--4--4--4--1-- R== X(1+ x-X 利用 Taylor展开式,有 R y y ≈2{1 x-X(x-X (5.7) X
比估计是否渐近无偏呢? 利用Taylor展开式,有 将比估计 R y x ˆ = 表示为: ˆ (1 ) y y R x x X X X = = − + 2 ˆ 1 y y x X x X R x X X X − − = = − + − 2 1 y x X x X X X X − − − + (5.7)
当n相当大时,x与X相当接近,而X是常数,又是Y的 无偏估计,因此,实质上R≈y/X,所以E(R)≈R。 (5式的好处不单单告诉我们(RR这一事实,而且告 诉了我们,当n相当大时,R≈y/X,表明R可以表示成 y/X(i=1,2,…,n)的平均数,因此R的分布可近似正态分布 R-R 因此,可利用 近似标准正态分布获得R的置信区间 Var(r 而r(R)≈ f 2(S2+R22_2Rx )(5.8) 另外ar()≈ 1-f (S2+R2S2-2RSx)(5.9) n Var(yg)≈ N2(1-f) (S2+R2S-2RSxy)(5.10) n
当 n 相当大时, 与 相当接近,而 是常数,又 是 的 无偏估计,因此,实质上 ,所以 。 x X X y Y ˆ R y X ˆ E R R ( ) (5.7)式的好处不单单告诉我们 这一事实,而且告 诉了我们,当n 相当大时, ,表明 可以表示成 的平均数,因此 的分布可近似正态分布 ˆ E R R ( ) R y X ˆ R ˆ ( 1,2, , ) i y X i n = R ˆ 因此,可利用 近似标准正态分布获得 的置信区间 ˆ ˆ ( ) R R Var R − R 而 2 2 2 2 1 ˆ ( ) ( 2 ) Y X XY f Var R S R S RS nX − + − (5.8) 另外 1 2 2 2 ( ) ( 2 ) R Y X XY f Var y S R S RS n − + − (5.9) 2 2 2 2 (1 ) ( ) ( 2 ) R Y X XY N f Var y S R S RS n − + − (5.10)
公式(58)、(59)、(5,10)为我们提供了var(R,vamr(,vmr() 的估计量的形式。具体计算时,只要将Sx,S,Sy,R分别换为 Sx,,Sx,R即可。我们将由此得到的估计量分别记为: (R)=2(2+R22-2Rsx) V(R=-(Sp+RSX -2RSxy) P(E-N(1-f) (Sx+R'sx-2RSxx) 那么,R,Y,Y的置信水平为(1-a)的置信区间分别为: (R-W_avv(r),R+u-avv( a v (R))(5.1) (yR (),+u1g√v())
公式(5.8)、(5.9)、(5.10)为我们提供了 的估计量的形式。具体计算时,只要将 分别换为 即可。我们将由此得到的估计量分别记为: ˆ ( ), ( ), ( ) Var R Var y Var y R R 2 2 , , , S S S R X Y XY 2 2 ˆ , , , X Y XY s s s R ˆ 2 ) − RsXY ˆ v R( ) = 2 2 2 2 1 ˆ ( Y X f s R s nx − + 1 2 2 2 ˆ ( Y X f s R s n − + ˆ 2 ) − RsXY ( ) R v y = 2 2 2 2 (1 ) ˆ ( Y X N f s R s n − + ˆ 2 ) − RsXY ( ) R v y = 那么, R Y Y , , 的置信水平为 (1 ) − 的置信区间分别为: 2 1 ( ) R −u v y − R ( y , ) 2 1 ( ) R +u v y − R y 2 1 ˆ u v R ( ) − R ˆ − 2 1 ˆ u v R ( ) − ( , R ˆ + ) (5.11)
(Rx-4w(),5k+4Vv(a) 下面说明比估计的优点。主要针对yR与y来说明,因为 它们衣相差一个常薮因,因茈,冥需讨论其中个就可。 当n充分大时, ar(yR)≈ - f (S +r Sx-2RSxy) n 而 Var(y Y 欲使Wm(y2)<Wr(),仅需R2Sx-2RSxy<0 或 R'SX-2RpSXS<o 即 RSx 1 Sx/X 1c (5.12) 2S 2 Sy/r 2C
2 1 ( ) R −u v y − R ( y , ) 2 1 ( ) R +u v y − R y 下面说明比估计的优点。主要针对 与 来说明,因为 它们仅相差一个常数因子,因此,只需讨论其中一个就可以。 R y R y 当 n 充分大时, 1 2 2 2 ( ) ( 2 ) R Y X XY f Var y S R S RS n − + − 1 2 ( ) Y f Var y S n − 而 = 欲使 Var y Var y ( ) ( ) R ,仅需 2 2 R S RS X XY − 2 0 或 2 2 R S R S S X X Y − 2 0 即 1 1 2 2 2 X X X Y Y Y RS S X C S S Y C = = (5.12)
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果 相关程度不那么密切(p<Cx/2C),此时已知的x信息并 没有较多地提供Y的信息,借助X来推断Y也许会“帮倒忙” 假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即 P JX y (5.13) 当n充分大时,且满足: 1 Sx/X 1Cx < = 2 S,/Y (5.14) 2C, Y Y 成立 r(g)<r()
(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果 相关程度不那么密切( ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 也许会“帮倒忙” 假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即: Y C C X Y 2 当 n 充分大时,且满足: 1 1 2 2 X X Y Y S X C S Y C − = − (5.14) , p p x y x y y y N X X = = (5.13) 成立 ( ) ( ) Var y Var y R