《抽样调查》课程PPT教学课件：第五章比估计与回归估计（5.3-5.4）数值例子

例5.2 某地区有976个自然村，根据该地区的地貌将各村所属耕地划为三种类型，各村按类型上报了耕地面积(以亩计算) 为核实这些上报数据，采用按比例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实，倘若以 X表示上报数据，以Y表示实测数据,抽样结果如下表:

团购合买资源类别：文库，文档格式：PPT，文档页数：34，文件大小：1.48MB

§3数值例子例52某地区有976个自然村,根据该地区的地貌将各村所属耕地划为三种类型,各村按类型上报了耕地面积以亩计算) 为核实这些上报数据,采用按比例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实,倘若以X表示上报数据,以Y表示实测数据抽样结果如下表 h=1 h=2 h=3 yI li y2 1241 1174 1030 652 527 2 85 945 2 931 996 627 585 961 1039 974 741 1132 1113 995 1499 1130 934 1031 5 941 831 1200 1140 838 792 561 545 6 1254 952 621 7 930 807 647 10 848 827

§3 数值例子例5.2 某地区有976个自然村，根据该地区的地貌将各村所属耕地划为三种类型，各村按类型上报了耕地面积(以亩计算) 为核实这些上报数据，采用按比例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实，倘若以 X表示上报数据，以Y表示实测数据,抽样结果如下表: h = 1 h = 2 h = 3 i 1i i i y x1i 2i y 3i y 2i x 3i x 1 2 3 4 5 6 7 8 9 10 1241 858 961 1132 934 838 621 647 654 848 1174 945 884 1113 1031 792 586 609 599 827 1 2 3 4 5 6 7 1030 931 1039 1101 941 561 930 885 996 805 995 831 545 807 652 627 974 1499 1200 1254 527 585 741 1130 1140 952 1 2 3 4 5 6

有关计算结果及其它数据如下表: h N, W. X yI 2 2 h h 427 0.4375 36720010873.400085600001.0203274206493345710.88942055.667 0.3043251607933285783771431.14086312257123299052269.429 32520258220800 1034333845.83331.222857121470.66771846.96787713.867 n=y=x R= S N=976 826800123933007847821-1025715414643051 试对总体总和y(该地区实际耕地面积总和)用各种手法进行估计

有关计算结果及其它数据如下表: h Nh Wh Xh nh h y h x ˆ h h h y R x = 2 Syh 2 Sxh Syxh N = 976 826800 X = 23 n = 933.6087 y = 847.7826 x = ˆ 1.101236 y R x = = 2 57745 Sy = 2 41146 Sx = 43051 Syx = 1 2 3 427 297 252 0.4375 0.3043 0.2582 367200 251600 208000 10 7 6 873.4000 933.2857 1034.3333 856.0000 837.7143 845.8333 1.020327 1.114086 1.222857 42064.933 31221.571 121470.667 45710.889 23294.905 71846.967 42055.667 22692.429 87713.867 试对总体总和 (该地区实际耕地面积总和)用各种手法进行估计. Y

(1)简单随机抽样估计由于分层抽样是在各层按比例分配进行的,因此可以将 23个村所得数据看作是丛总体976个村中抽取的一个较合理的简单随机样本,上表中最后一行的数据都是基于这样的“ 简单随机样本”而计算的 j=N∵y=976×933.6087≈911202(亩) 为求精度,常用其标准差 s(1)=√m()=Nyam() 若用mr()=(-0)S,则有 nN s(j)=976× 2397×57746≈48324(亩)

(1)简单随机抽样估计由于分层抽样是在各层按比例分配进行的，因此可以将 23个村所得数据看作是从总体976 个村中抽取的一个较合理的简单随机样本，上表中最后一行的数据都是基于这样的“ 简单随机样本”而计算的。 y N y =  =   976 933.6087 911202( ) 亩为求精度，常用其标准差 s y Var y N Var y ( ) ( ) ( ) = = 若用，则有 1 1 2 ( ) ( ) Var y s y n N = − 1 1 ( ) 976 ( ) 57746 48324( ) 23 976 s y =  −   亩

然而我们的这些数据毕竟是从分层抽样而得到的,利用分层估计真正的简单随机抽样的平均数的方差,可以借用一个近似公式(用于按比例分配的分层抽样情况)也许更为精确: N-n(n-1 ≈ s +vLy n(N-1 N-n(n-12 s++( n(N-1) W525) nN hel 此时v(y)= 76-2323-1 57745 23(976-1)23 239)(0.4375×42064933+0.3043×3121.571+0.2582×121470.660 ≈245.4235 s()≈N√v()=976xm()≈48351(亩) 两种算法的差距并不大

然而我们的这些数据毕竟是从分层抽样而得到的，利用分层估计真正的简单随机抽样的平均数的方差，可以借用一个近似公式（用于按比例分配的分层抽样情况）也许更为精确： 1 2 ( ) ( ) ( 1) y st N n n v y s v y n N n − −    +   −   2 2 1 1 1 1 ( ) ( 1) k y h yh h N n n s W s n N n n N = − −   = + −   −    (5.25) s y N v y v y ( ) ( ) 976 ( ) 48351( )  =   亩此时 976 23 23 1 ( ) { 57745 23(976 1) 23 v y − − =  − 1 1 ( )(0.4375 42064.933 0.3043 31221.571 0.2582 121470.667)} 23 976 + −  +  +  245.4235 两种算法的差距并不大

(2)简单随机抽样比估计 n=2X=RX=1.101236×826800=910502(亩) 一一一一一-一一一一一一一一一一一一■ s()≈/(1-f (S2+R22-2RS)=23095(亩) n (3)分层随机抽样简单估计 j=∑N=910780(亩) h=1 s(x)=N√v(x)=N ∑W hh h=1 =976 23%(0.475×42064.933+03043×3122571+0,2582×140.667 48975亩)

(2)简单随机抽样比估计 ˆ 1.101236 826800 910502( ) R y y X RX x = = =  = 亩 2 2 2 (1 ) ˆ ( ) ( R y x f s y N S R S n −  + ˆ 2 ) 23095( ) − = RSxy 亩 (3)分层随机抽样简单估计 1 910780( ) k st h h h y N y = = =  亩 ( ) ( ) st st s y N v y = 2 1 1 1 ( ) k h h h N W S n N = = −  1 1 976 ( )(0.4375 42064.933 0.3043 31221.571 0.2582 121470.667) 23 976 = −  +  +  = 48975(亩）

(4)分层随机抽样分别比估计予=N=∑R,X =1 =367200×1020327+251600×1.114086+208000×1.222857 909322(亩) )=01(+832m)3o间 =1 (5)分层随机抽样联合比估计 910780 R= st ≈1.100690 k 827463 ∑Nx h=1 =RX=1.100690826800=910050(亩)

(4)分层随机抽样分别比估计 1 ˆ k RS RS h h h y N y R X = =  =   =  +  +  367200 1.020327 251600 1.114086 208000 1.222857 = 909322( ) 亩 2 2 2 2 1 (1 ) ˆ ( ) ( k h h RS yh h xh h h N f s y s R s = n −  +  ˆ 2 ) − R sh yxh = 15360( ) 亩 (5)分层随机抽样联合比估计 1 ˆ st st c k st h h h y y R x N x = = =  910780 1.100690 827463 =  ˆ 1.100690 826800 910050( ) Rc c y R X = =  = 亩

S(y Rc ≈ N(-)(s2n+R3-2Rsm)=15936(亩 →--1------1--1--4--- 从以上五种情况的结果分析,两种简单估计的精度较差因为他们没有充分利用已知的X及x的信息,三种比估计由于利用了X的信息,显然精度大大提高了。同时我们注意到分层随机抽样的两种比估计比起简单随机抽样的比估计效果略好一些,这是因为在实际测量中已分的三层的确有所区别。最后我们指出,在分层随机抽样中,分别比估计与联合比估计有着几乎差不多的效果,这正是我们在正文中所阐述的理由,当每层抽样容量n不很大时,联合比估计不比分别比估计来的差

2 2 2 2 1 (1 ) ˆ ( ) ( k h h Rc Yh c xh h h N f s y S R s = n −  +  ˆ 2 ) − R sc yxh = 15936( ) 亩从以上五种情况的结果分析，两种简单估计的精度较差因为他们没有充分利用已知的及的信息，三种比估计由于利用了的信息，显然精度大大提高了。 X x X 同时我们注意到分层随机抽样的两种比估计比起简单随机抽样的比估计效果略好一些，这是因为在实际测量中已分的三层的确有所区别。最后我们指出，在分层随机抽样中，分别比估计与联合比估计有着几乎差不多的效果，这正是我们在正文中所阐述的理由，当每层抽样容量不很大时，联合比估计不比分别比估计来的差。 nh

个有趣的事实是对于的估计,恰好三个比估计比起两个简单估计要略低一些,由于随机性,当然我们不能指认到底哪一个估计比较接近事实,但是三种比估计统统略低会使我们产生这样一个想法:这是否会是由于比估计本身时有偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏小了些。但是比估计的有偏性却在理论上是无法否认的事实调查工作者与统计学家一直在设法尽力减少偏差,这称为估计量的“纠偏

一个有趣的事实是对于的估计，恰好三个比估计比起两个简单估计要略低一些，由于随机性，当然我们不能指认到底哪一个估计比较接近事实，但是三种比估计统统略低会使我们产生这样一个想法：这是否会是由于比估计本身时有偏性而引起的呢？对于上面具体例子我们缺乏根据说它们偏小了些。但是比估计的有偏性却在理论上是无法否认的事实调查工作者与统计学家一直在设法尽力减少偏差，这称为估计量的“纠偏”。 Y

§4回归估针量前面讨论的比估计之所以能在精度方面获益匪浅,是因为我们充分和用了已知的辅助变量X的信息,而且这个铺助变量X与我们所关心的变量Y之间有着密切的关系,这种关系越密切,对Y的某些指标的估计精度就越高。现在假定变量Y与X之间存在着线性回归关系(但不是通过原点),又假设X的信息已知或部分已知,我们想利用X的信息提高对Y的估计精度。 1、简单随机抽样情况设从总体(,X)i=1,2,…,N中随机无放回的抽取样本 (y1,x)i=1,2,…,n,若变量y关于x的回归直线不通过原点,具有如下形式: y1=+B1x+6;i=1,2,…,n(26)

§4 回归估计量前面讨论的比估计之所以能在精度方面获益匪浅，是因为我们充分利用了已知的辅助变量X 的信息，而且这个辅助变量 X 与我们所关心的变量Y 之间有着密切的关系，这种关系越密切，对Y 的某些指标的估计精度就越高。现在假定变量Y与X之间存在着线性回归关系（但不是通过原点），又假设X的信息已知或部分已知，我们想利用X的信息提高对Y的估计精度。 1、简单随机抽样情况设从总体中随机无放回的抽取样本，若变量关于的回归直线不通过原点，具有如下形式： ( , ) 1,2, , Y X i N i i = ( , ) 1,2, , i i y x i n = i y i x 0 1 1,2, , i i i y x i n = + + =    (5.26)

y的回归值估计为 1=+A1(x2-x)(5.27) 其中B是B的估计量。为方便起见,记B1△B,我们可以用所有N个y的回归值y的平均值来估计总体平均数Y 这样就得到Y的线性回归估计,倘若Y已知,有: y=j+f(X-x)(528) 相应的,总体总和Y的回归估计为: VI=M (5.29) 这里B可以是一个设定的常数,也可以是估计得到的回归系数。例如,若设定B=0,则vn=y即为简单估计量; 若令B=yx是一个估计量,则 VIr=y +(X-x)=X 即为比估计量。可见回归估计包含简单估计和比估计

i y ˆ i 的回归值 y 估计为相应的，总体总和 Y 的回归估计为：这里可以是一个设定的常数，也可以是估计得到的回归系数。例如，若设定，则即为简单估计量；若令是一个估计量，则   = 0 tr y y =  = y x ( ) lr y y y y X x X x x = + − = 其中是的估计量。为方便起见，记，我们可以用所有 N个的回归值的平均值来估计总体平均数这样就得到的线性回归估计，倘若已知，有： 1   ˆ  i y ˆ i y Y Y X 1 ˆ   1 即为比估计量。可见回归估计包含简单估计和比估计。 1 ˆ ˆ ( ) i i y y x x = + −  (5.27) ( ) lr y y X x = + −  (5.28) lr lr y N y =  (5.29)

点击下载完整版文档（PPT格式）

共34页，可试读12页，点击继续阅读 ↓↓

点击下载（PPT格式）

浏览记录