《抽样调查》课程PPT教学课件：第五章比估计与回归估计（5.1-5.2）比估计与回归估计

前面讨论的简单随机抽样和分层抽样，我们所关心的参数都是单指标的，给出的估计量也是线性形式。这一章我们将要讨论比较复杂的情况，我们关心的参数不再是单指标的而是两个或两个以上的指标。此时，遇到的统计量不再是线性形式，往往呈现出非线性形式，比如两个变量之比，或呈现变量之间的回归关系。

团购合买资源类别：文库，文档格式：PPT，文档页数：19，文件大小：874KB

第五章比估计与回归估计 →------- 前面讨论的简单随机抽样和分层抽样,我们所关心的参数都是单指标的,给出的估计量也是线性形式。这一章我们将要讨论比较复杂的情况,我们关心的参数不再是单指标的而是两个或两个以上的指标。此时,遇到的统计量不再是线性形式,往往呈现出非线性形式,比如两个变量之比,或呈现变量之间的回归关系。所谓回归关系就是变量之间的关系不是确定的,是带有随机影响的。比如身高和体重的关系,身高增加时,一般来说,体重也会增加,但又不能说一定如此。要确定身高和体重的关系,一般用回归的方法。这类问题首先是由英国统计学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发

前面讨论的简单随机抽样和分层抽样，我们所关心的参数都是单指标的，给出的估计量也是线性形式。这一章我们将要讨论比较复杂的情况，我们关心的参数不再是单指标的而是两个或两个以上的指标。此时，遇到的统计量不再是线性形式，往往呈现出非线性形式，比如两个变量之比，或呈现变量之间的回归关系。第五章比估计与回归估计所谓回归关系就是变量之间的关系不是确定的，是带有随机影响的。比如身高和体重的关系，身高增加时，一般来说，体重也会增加，但又不能说一定如此。要确定身高和体重的关系，一般用回归的方法。这类问题首先是由英国统计学家高尔顿研究儿子的身高与父亲身高关系时提出的，他发

现儿子的身高有回到家族平均身高的趋势,因而把所得关系式称为回归方程,于是回归的名词就沿用下来了。 *--1--1--1----1--4--1--1---- §1比估针及其性质设有一个二元变量的总体(X,Y):(X1,H1),(X2,Y2),…,(XN,yy) 有4个参数是我们所熟悉的: X Y 指标X、Y的平均数 N-1 ∑(X1-X)2 指标X、Y的方差 S ∑(r-1)2 N-1

现儿子的身高有回到家族平均身高的趋势，因而把所得关系式称为回归方程，于是回归的名词就沿用下来了。 §1 比估计及其性质设有一个二元变量的总体 ( , ) X Y ： 1 1 2 2 ( , ),( , ), ,( , ) X Y X Y X Y N N 有 4 个参数是我们所熟悉的： X Y 、 ————指标 X Y 、的平均数 2 2 1 1 ( ) 1 N X i i S X X N = = − −  2 2 1 1 ( ) 1 N Y i i S Y Y N = = − −  ——指标 X Y 、的方差

在研究比估计之前,再引进一个新的参数变量之间的协方差 Cow(,1)s、 ∑(X1-X(-Y)(5) X、Y之间的相关系数定义为: Cov(X, Y) p- Jar(x)、√ar() ∑(X-X)(x-F) (5,2) ∑(X-X)∑(x-1) 如果简单随机样本为x,y1)(i=1,2,…,n),则Cov(X,Y) 及p的估计为:

如果简单随机样本为，则及的估计为： ( , ) ( 1,2, , ) i i x y i n = Cov X Y ( , )  在研究比估计之前，再引进一个新的参数——变量之间的协方差： 1 1 ( , ) ( )( ) 1 N i i i Cov X Y X X Y Y N = = − − −  (5.1) X Y 、之间的相关系数定义为： ( , ) ( ) ( ) Cov X Y Var X Var Y  =  1 1 1 2 2 1 1 ( )( ) ( ) ( ) N i i i N N i i i i X X Y Y X X Y Y = = = − − =     − −            (5.2)

S n-1 ∑(x-x)1-元)53) ∑(x-x)(1-元 54) 2 ∑(x-x)2n- i=1 在讨论比估计之前,先考察总体的两个平均数之比,即 R=Y/X 由于,分别是x,F的无偏估计,R的估计自然定义为 R=y/x

1 1 ( )( ) 1 n xy i i i S x x y y n = = − − −  (5.3) 1 1 1 2 2 1 1 ( )( ) ˆ ( ) ( ) n i i i n n i i i i x x y y x x y y  = = = − − =     − −            (5.4) 在讨论比估计之前，先考察总体的两个平均数之比，即 R Y X = 由于 x y, 分别是 X Y, 的无偏估计， R 的估计自然定义为 R y x ˆ =

假如X或X已知,总体平均数Y与总体总和Y的比估计量定义为: JR=R·X=少 (5.5) VR=RX y=X (56) 通常的比估计是指55式与(56)式,而R则称为比值R的估计。由(55)式与(56)式可知,JR与yR的习性主要依赖于估计量 R,因此在不少场合,我们常用R来说明。尽管x,分别是X,Y的无偏估计,由于R的非线性形式,因此R关于R是有偏的,从而y,y关于Y,也是有偏的。个合理的估计量,应该随着样本容量n的增加,估计量的期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏

假如或已知，总体平均数与总体总和的比估计量定义为： X X Y Y ˆ R y y y R X X X x x =  = = (5.5) ˆ R y y y R X X X x x =  = = (5.6) 通常的比估计是指(5.5) 式与 (5.6) 式，而则称为比值的估计。 R ˆ R 由 (5.5) 式与 (5.6) 式可知，与的习性主要依赖于估计量 R ˆ ，因此在不少场合，我们常用 R ˆ 来说明。 R y R y 尽管分别是的无偏估计，由于的非线性形式，因此关于是有偏的，从而关于也是有偏的。 x y, X Y, R ˆ R ˆ R , R R y y Y Y, 一个合理的估计量，应该随着样本容量n 的增加，估计量的期望与参数之差应该越来越小并渐渐趋于零，即“渐近无偏

比估计是否渐近无偏呢? 将比估计R=y/x表示为: --1-1--1-1-1--4--4--4--1-- R== X(1+ x-X 利用 Taylor展开式,有 R y y ≈2{1 x-X(x-X (5.7) X

比估计是否渐近无偏呢？利用Taylor展开式，有将比估计 R y x ˆ = 表示为： ˆ (1 ) y y R x x X X X = = − + 2 ˆ 1 y y x X x X R x X X X     − −   = = − + −           2 1 y x X x X X X X     − −    − +           (5.7)

当n相当大时,x与X相当接近,而X是常数,又是Y的无偏估计,因此,实质上R≈y/X,所以E(R)≈R。 (5式的好处不单单告诉我们(RR这一事实,而且告诉了我们,当n相当大时,R≈y/X,表明R可以表示成 y/X(i=1,2,…,n)的平均数,因此R的分布可近似正态分布 R-R 因此,可利用近似标准正态分布获得R的置信区间 Var(r 而r(R)≈ f 2(S2+R22_2Rx )(5.8) 另外ar()≈ 1-f (S2+R2S2-2RSx)(5.9) n Var(yg)≈ N2(1-f) (S2+R2S-2RSxy)(5.10) n

当 n 相当大时，与相当接近，而是常数，又是的无偏估计，因此，实质上，所以。 x X X y Y ˆ R y X ˆ  E R R ( )  (5.7)式的好处不单单告诉我们这一事实，而且告诉了我们，当n 相当大时，，表明可以表示成的平均数，因此的分布可近似正态分布 ˆ E R R ( )  R y X ˆ  R ˆ ( 1,2, , ) i y X i n = R ˆ 因此，可利用近似标准正态分布获得的置信区间 ˆ ˆ ( ) R R Var R − R 而 2 2 2 2 1 ˆ ( ) ( 2 ) Y X XY f Var R S R S RS nX −  + − (5.8) 另外 1 2 2 2 ( ) ( 2 ) R Y X XY f Var y S R S RS n −  + − (5.9) 2 2 2 2 (1 ) ( ) ( 2 ) R Y X XY N f Var y S R S RS n −  + − (5.10)

公式(58)、(59)、(5,10)为我们提供了var(R,vamr(,vmr() 的估计量的形式。具体计算时,只要将Sx,S,Sy,R分别换为 Sx,,Sx,R即可。我们将由此得到的估计量分别记为: (R)=2(2+R22-2Rsx) V(R=-(Sp+RSX -2RSxy) P(E-N(1-f) (Sx+R'sx-2RSxx) 那么,R,Y,Y的置信水平为(1-a)的置信区间分别为: (R-W_avv(r),R+u-avv( a v (R))(5.1) (yR (),+u1g√v())

公式(5.8)、(5.9)、(5.10)为我们提供了的估计量的形式。具体计算时，只要将分别换为即可。我们将由此得到的估计量分别记为： ˆ ( ), ( ), ( ) Var R Var y Var y R R 2 2 , , , S S S R X Y XY 2 2 ˆ , , , X Y XY s s s R ˆ 2 ) − RsXY ˆ v R( ) = 2 2 2 2 1 ˆ ( Y X f s R s nx − + 1 2 2 2 ˆ ( Y X f s R s n − + ˆ 2 ) − RsXY ( ) R v y = 2 2 2 2 (1 ) ˆ ( Y X N f s R s n − + ˆ 2 ) − RsXY ( ) R v y = 那么， R Y Y , , 的置信水平为 (1 ) − 的置信区间分别为： 2 1 ( ) R −u v y −  R ( y ， ) 2 1 ( ) R +u v y −  R y 2 1 ˆ u v R  ( ) − R ˆ − 2 1 ˆ u v R  ( ) − ( ， R ˆ + ) (5.11)

(Rx-4w(),5k+4Vv(a) 下面说明比估计的优点。主要针对yR与y来说明,因为它们衣相差一个常薮因,因茈,冥需讨论其中个就可。当n充分大时, ar(yR)≈ - f (S +r Sx-2RSxy) n 而 Var(y Y 欲使Wm(y2)<Wr(),仅需R2Sx-2RSxy<0 或 R'SX-2RpSXS<o 即 RSx 1 Sx/X 1c (5.12) 2S 2 Sy/r 2C

2 1 ( ) R −u v y −  R ( y ， ) 2 1 ( ) R +u v y −  R y 下面说明比估计的优点。主要针对与来说明，因为它们仅相差一个常数因子，因此，只需讨论其中一个就可以。 R y R y 当 n 充分大时， 1 2 2 2 ( ) ( 2 ) R Y X XY f Var y S R S RS n −  + − 1 2 ( ) Y f Var y S n − 而 = 欲使 Var y Var y ( ) ( ) R  ，仅需 2 2 R S RS X XY −  2 0 或 2 2 R S R S S X X Y −  2 0  即 1 1 2 2 2 X X X Y Y Y RS S X C S S Y C   = = (5.12)

(5.12)表明,如果变量X与Y正相关,且相关程度非常密切的话,那么比估计的精度高于简单随机抽样的精度。如果相关程度不那么密切(p<Cx/2C),此时已知的x信息并没有较多地提供Y的信息,借助X来推断Y也许会“帮倒忙” 假如X与Y是负相关,则更不能采用比估计方法,此时应采用所谓乘积估计,即 P JX y (5.13) 当n充分大时,且满足: 1 Sx/X 1Cx < = 2 S,/Y (5.14) 2C, Y Y 成立 r(g)<r()

(5.12)表明，如果变量X与Y正相关，且相关程度非常密切的话，那么比估计的精度高于简单随机抽样的精度。如果相关程度不那么密切（），此时已知的X信息并没有较多地提供Y的信息，借助X来推断也许会“帮倒忙” 假如X与Y是负相关，则更不能采用比估计方法，此时应采用所谓乘积估计，即： Y   C C X Y 2 当 n 充分大时，且满足： 1 1 2 2 X X Y Y S X C S Y C   − = − (5.14) , p p x y x y y y N X X   = = (5.13) 成立 ( ) ( ) Var y Var y R 

点击下载完整版文档（PPT格式）

共19页，试读结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录