§3数值例子 例52某地区有976个自然村,根据该地区的地貌将各村所属 耕地划为三种类型,各村按类型上报了耕地面积以亩计算) 为核实这些上报数据,采用按比例分配的分层随机抽样方法 在每一种类型中抽取若干村进行实测核实,倘若以X表示上 报数据,以Y表示实测数据抽样结果如下表 h=1 h=2 h=3 yI li y2 1241 1174 1030 652 527 2 85 945 2 931 996 627 585 961 1039 974 741 1132 1113 995 1499 1130 934 1031 5 941 831 1200 1140 838 792 561 545 6 1254 952 621 7 930 807 647 10 848 827
§3 数值例子 例5.2 某地区有976个自然村,根据该地区的地貌将各村所属 耕地划为三种类型,各村按类型上报了耕地面积(以亩计算) 为核实这些上报数据,采用按比例分配的分层随机抽样方法 在每一种类型中抽取若干村进行实测核实,倘若以 X表示上 报数据,以Y表示实测数据,抽样结果如下表: h = 1 h = 2 h = 3 i 1i i i y x1i 2i y 3i y 2i x 3i x 1 2 3 4 5 6 7 8 9 10 1241 858 961 1132 934 838 621 647 654 848 1174 945 884 1113 1031 792 586 609 599 827 1 2 3 4 5 6 7 1030 931 1039 1101 941 561 930 885 996 805 995 831 545 807 652 627 974 1499 1200 1254 527 585 741 1130 1140 952 1 2 3 4 5 6
有关计算结果及其它数据如下表: h N, W. X yI 2 2 h h 427 0.4375 36720010873.400085600001.0203274206493345710.88942055.667 0.3043251607933285783771431.14086312257123299052269.429 32520258220800 1034333845.83331.222857121470.66771846.96787713.867 n=y=x R= S N=976 826800123933007847821-1025715414643051 试对总体总和y(该地区实际耕地面积总和)用各种手法进行 估计
有关计算结果及其它数据如下表: h Nh Wh Xh nh h y h x ˆ h h h y R x = 2 Syh 2 Sxh Syxh N = 976 826800 X = 23 n = 933.6087 y = 847.7826 x = ˆ 1.101236 y R x = = 2 57745 Sy = 2 41146 Sx = 43051 Syx = 1 2 3 427 297 252 0.4375 0.3043 0.2582 367200 251600 208000 10 7 6 873.4000 933.2857 1034.3333 856.0000 837.7143 845.8333 1.020327 1.114086 1.222857 42064.933 31221.571 121470.667 45710.889 23294.905 71846.967 42055.667 22692.429 87713.867 试对总体总和 (该地区实际耕地面积总和)用各种手法进行 估计. Y
(1)简单随机抽样估计 由于分层抽样是在各层按比例分配进行的,因此可以将 23个村所得数据看作是丛总体976个村中抽取的一个较合理 的简单随机样本,上表中最后一行的数据都是基于这样的“ 简单随机样本”而计算的 j=N∵y=976×933.6087≈911202(亩) 为求精度,常用其标准差 s(1)=√m()=Nyam() 若用mr()=(-0)S,则有 nN s(j)=976× 2397×57746≈48324(亩)
(1)简单随机抽样估计 由于分层抽样是在各层按比例分配进行的,因此可以将 23个村所得数据看作是从总体976 个村中抽取的一个较合理 的简单随机样本,上表中最后一行的数据都是基于这样的“ 简单随机样本”而计算的。 y N y = = 976 933.6087 911202( ) 亩 为求精度,常用其标准差 s y Var y N Var y ( ) ( ) ( ) = = 若用 ,则有 1 1 2 ( ) ( ) Var y s y n N = − 1 1 ( ) 976 ( ) 57746 48324( ) 23 976 s y = − 亩
然而我们的这些数据毕竟是从分层抽样而得到的,利用分层 估计真正的简单随机抽样的平均数的方差,可以借用一个近 似公式(用于按比例分配的分层抽样情况)也许更为精确: N-n(n-1 ≈ s +vLy n(N-1 N-n(n-12 s++( n(N-1) W525) nN hel 此时v(y)= 76-2323-1 57745 23(976-1)23 239)(0.4375×42064933+0.3043×3121.571+0.2582×121470.660 ≈245.4235 s()≈N√v()=976xm()≈48351(亩) 两种算法的差距并不大
然而我们的这些数据毕竟是从分层抽样而得到的,利用分层 估计真正的简单随机抽样的平均数的方差,可以借用一个近 似公式(用于按比例分配的分层抽样情况)也许更为精确: 1 2 ( ) ( ) ( 1) y st N n n v y s v y n N n − − + − 2 2 1 1 1 1 ( ) ( 1) k y h yh h N n n s W s n N n n N = − − = + − − (5.25) s y N v y v y ( ) ( ) 976 ( ) 48351( ) = 亩 此时 976 23 23 1 ( ) { 57745 23(976 1) 23 v y − − = − 1 1 ( )(0.4375 42064.933 0.3043 31221.571 0.2582 121470.667)} 23 976 + − + + 245.4235 两种算法的差距并不大
(2)简单随机抽样比估计 n=2X=RX=1.101236×826800=910502(亩) 一一一一一-一一一一一一一一一一一一■ s()≈/(1-f (S2+R22-2RS)=23095(亩) n (3)分层随机抽样简单估计 j=∑N=910780(亩) h=1 s(x)=N√v(x)=N ∑W hh h=1 =976 23%(0.475×42064.933+03043×3122571+0,2582×140.667 48975亩)
(2)简单随机抽样比估计 ˆ 1.101236 826800 910502( ) R y y X RX x = = = = 亩 2 2 2 (1 ) ˆ ( ) ( R y x f s y N S R S n − + ˆ 2 ) 23095( ) − = RSxy 亩 (3)分层随机抽样简单估计 1 910780( ) k st h h h y N y = = = 亩 ( ) ( ) st st s y N v y = 2 1 1 1 ( ) k h h h N W S n N = = − 1 1 976 ( )(0.4375 42064.933 0.3043 31221.571 0.2582 121470.667) 23 976 = − + + = 48975(亩)
(4)分层随机抽样分别比估计 予=N=∑R,X =1 =367200×1020327+251600×1.114086+208000×1.222857 909322(亩) )=01(+832m)3o间 =1 (5)分层随机抽样联合比估计 910780 R= st ≈1.100690 k 827463 ∑Nx h=1 =RX=1.100690826800=910050(亩)
(4)分层随机抽样分别比估计 1 ˆ k RS RS h h h y N y R X = = = = + + 367200 1.020327 251600 1.114086 208000 1.222857 = 909322( ) 亩 2 2 2 2 1 (1 ) ˆ ( ) ( k h h RS yh h xh h h N f s y s R s = n − + ˆ 2 ) − R sh yxh = 15360( ) 亩 (5)分层随机抽样联合比估计 1 ˆ st st c k st h h h y y R x N x = = = 910780 1.100690 827463 = ˆ 1.100690 826800 910050( ) Rc c y R X = = = 亩
S(y Rc ≈ N(-)(s2n+R3-2Rsm)=15936(亩 →--1------1--1--4--- 从以上五种情况的结果分析,两种简单估计的精度较差 因为他们没有充分利用已知的X及x的信息,三种比估计由 于利用了X的信息,显然精度大大提高了。 同时我们注意到分层随机抽样的两种比估计比起简单随 机抽样的比估计效果略好一些,这是因为在实际测量中已分 的三层的确有所区别。 最后我们指出,在分层随机抽样中,分别比估计与联合 比估计有着几乎差不多的效果,这正是我们在正文中所阐述 的理由,当每层抽样容量n不很大时,联合比估计不比分别 比估计来的差
2 2 2 2 1 (1 ) ˆ ( ) ( k h h Rc Yh c xh h h N f s y S R s = n − + ˆ 2 ) − R sc yxh = 15936( ) 亩 从以上五种情况的结果分析,两种简单估计的精度较差 因为他们没有充分利用已知的 及 的信息,三种比估计由 于利用了 的信息,显然精度大大提高了。 X x X 同时我们注意到分层随机抽样的两种比估计比起简单随 机抽样的比估计效果略好一些,这是因为在实际测量中已分 的三层的确有所区别。 最后我们指出,在分层随机抽样中,分别比估计与联合 比估计有着几乎差不多的效果,这正是我们在正文中所阐述 的理由,当每层抽样容量 不很大时,联合比估计不比分别 比估计来的差。 nh
个有趣的事实是对于的估计,恰好三个比估计比起 两个简单估计要略低一些,由于随机性,当然我们不能指认 到底哪一个估计比较接近事实,但是三种比估计统统略低会 使我们产生这样一个想法:这是否会是由于比估计本身时有 偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏 小了些。但是比估计的有偏性却在理论上是无法否认的事实 调查工作者与统计学家一直在设法尽力减少偏差,这称为估 计量的“纠偏
一个有趣的事实是对于 的估计,恰好三个比估计比起 两个简单估计要略低一些,由于随机性,当然我们不能指认 到底哪一个估计比较接近事实,但是三种比估计统统略低会 使我们产生这样一个想法:这是否会是由于比估计本身时有 偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏 小了些。但是比估计的有偏性却在理论上是无法否认的事实 调查工作者与统计学家一直在设法尽力减少偏差,这称为估 计量的“纠偏”。 Y
§4回归估针量 前面讨论的比估计之所以能在精度方面获益匪浅,是因 为我们充分和用了已知的辅助变量X的信息,而且这个铺助 变量X与我们所关心的变量Y之间有着密切的关系,这种关 系越密切,对Y的某些指标的估计精度就越高。 现在假定变量Y与X之间存在着线性回归关系(但不是通 过原点),又假设X的信息已知或部分已知,我们想利用X的 信息提高对Y的估计精度。 1、简单随机抽样情况 设从总体(,X)i=1,2,…,N中随机无放回的抽取样本 (y1,x)i=1,2,…,n,若变量y关于x的回归直线不通过 原点,具有如下形式: y1=+B1x+6;i=1,2,…,n(26)
§4 回归估计量 前面讨论的比估计之所以能在精度方面获益匪浅,是因 为我们充分利用了已知的辅助变量X 的信息,而且这个辅助 变量 X 与我们所关心的变量Y 之间有着密切的关系,这种关 系越密切,对Y 的某些指标的估计精度就越高。 现在假定变量Y与X之间存在着线性回归关系(但不是通 过原点),又假设X的信息已知或部分已知,我们想利用X的 信息提高对Y的估计精度。 1、简单随机抽样情况 设从总体 中随机无放回的抽取样本 ,若变量 关于 的回归直线不通过 原点,具有如下形式: ( , ) 1,2, , Y X i N i i = ( , ) 1,2, , i i y x i n = i y i x 0 1 1,2, , i i i y x i n = + + = (5.26)
y的回归值估计为 1=+A1(x2-x)(5.27) 其中B是B的估计量。为方便起见,记B1△B,我们可 以用所有N个y的回归值y的平均值来估计总体平均数Y 这样就得到Y的线性回归估计,倘若Y已知,有: y=j+f(X-x)(528) 相应的,总体总和Y的回归估计为: VI=M (5.29) 这里B可以是一个设定的常数,也可以是估计得到的回归 系数。例如,若设定B=0,则vn=y即为简单估计量; 若令B=yx是一个估计量,则 VIr=y +(X-x)=X 即为比估计量。可见回归估计包含简单估计和比估计
i y ˆ i 的回归值 y 估计为 相应的,总体总和 Y 的回归估计为: 这里 可以是一个设定的常数,也可以是估计得到的回归 系数。例如,若设定 ,则 即为简单估计量; 若令 是一个估计量,则 = 0 tr y y = = y x ( ) lr y y y y X x X x x = + − = 其中 是 的估计量。为方便起见,记 ,我们可 以用所有 N个 的回归值 的平均值来估计总体平均数 这样就得到 的线性回归估计,倘若 已知,有: 1 ˆ i y ˆ i y Y Y X 1 ˆ 1 即为比估计量。可见回归估计包含简单估计和比估计。 1 ˆ ˆ ( ) i i y y x x = + − (5.27) ( ) lr y y X x = + − (5.28) lr lr y N y = (5.29)