§3数值例子 例52某地区有976个自然村,根据该地区的地貌将各村所属 耕地划为三种类型,各村按类型上报了耕地面积(以亩计算) 为核实这些上报数据,采用按比例分配的分层随机抽样方法 在每一种类型中抽取若干村进行实测核实,倘若以X表示上 报数据,以Y表示实测数据抽样结果如下表: h=1 h=2 h=3 yI x li y2 J 1241 1174 1030 885 527 945 2 931 627 961 3 1039 74 741 1132 1113 1101 995 1499 1130 934 103 941 5 1200 1140 838 1254 952 7 621 930 807 654 848 827
§3 数值例子 例5.2 某地区有976个自然村,根据该地区的地貌将各村所属 耕地划为三种类型,各村按类型上报了耕地面积(以亩计算) 为核实这些上报数据,采用按比例分配的分层随机抽样方法 在每一种类型中抽取若干村进行实测核实,倘若以 X表示上 报数据,以Y表示实测数据,抽样结果如下表: h = 1 h = 2 h = 3 i 1i i i y x1i 2i y 3i y 2i x 3i x 1 2 3 4 5 6 7 8 9 10 1241 858 961 1132 934 838 621 647 654 848 1174 945 884 1113 1031 792 586 609 599 827 1 2 3 4 5 6 7 1030 931 1039 1101 941 561 930 885 996 805 995 831 545 807 652 627 974 1499 1200 1254 527 585 741 1130 1140 952 1 2 3 4 5 6
有关计算结果及其它数据如下表: hN R 2 h W.X yxh 427 043753672001083400:500010232120649345710.89409567 2 297 0.3043 251600 033285783771431.11408631221.5712329490522692.429 252 0.2582 208000 61034333845.83331.222857121470.66771846.96787713:67 X y= R S S N=976 8268002393607:87.806-1065754143051 试对总体总和Y(该地区实际耕地面积总和)用各种手法进行 估计
有关计算结果及其它数据如下表: h Nh Wh Xh nh h y h x ˆ h h h y R x = 2 Syh 2 Sxh Syxh N = 976 826800 X = 23 n = 933.6087 y = 847.7826 x = ˆ 1.101236 y R x = = 2 57745 Sy = 2 41146 Sx = 43051 Syx = 1 2 3 427 297 252 0.4375 0.3043 0.2582 367200 251600 208000 10 7 6 873.4000 933.2857 1034.3333 856.0000 837.7143 845.8333 1.020327 1.114086 1.222857 42064.933 31221.571 121470.667 45710.889 23294.905 71846.967 42055.667 22692.429 87713.867 试对总体总和 (该地区实际耕地面积总和)用各种手法进行 估计. Y
(1)简单随机抽样估计 由于分层抽样是在各层按比例分配进行的,因此可以将 23个村所得数据看作是丛总体976个付中抽取的一个较合理 的简单随机样本,上表中最后一行的数据都是基于这样的“ 简单随机样本”而计算的 j=N·y=976×9336087≈911202(亩) 为求精度,常用其标准差 s()=√ar()=N√mr() 若用vmr()=(-x)2,则有 s(y)=976× )×57746≈48324(亩) 23976
(1)简单随机抽样估计 由于分层抽样是在各层按比例分配进行的,因此可以将 23个村所得数据看作是从总体976 个村中抽取的一个较合理 的简单随机样本,上表中最后一行的数据都是基于这样的“ 简单随机样本”而计算的。 y N y = = 976 933.6087 911202( ) 亩 为求精度,常用其标准差 s y Var y N Var y ( ) ( ) ( ) = = 若用 ,则有 1 1 2 ( ) ( ) Var y s y n N = − 1 1 ( ) 976 ( ) 57746 48324( ) 23 976 s y = − 亩
然而我们的这些数据毕竟是从分层抽样而得到的,利用分层 估计真正的简单随机抽样的平均数的方差,可以借用一个近 似公式(用于按比例分配的分层抽样情况)也许更为精确 N nn (y)≈ n(N-1)(n +v0n) N-n(n-1 n(N-1)、n"nNh (5.25) 此时v(y)= 976-2323-1 57745 23(976-1)23 237)(0.4375×42064933+0.3043×31221571+0.2582×121470.667 ≈2454235 s()≈N√()=976X√v()≈48351(亩) 两种算法的差距并不大
然而我们的这些数据毕竟是从分层抽样而得到的,利用分层 估计真正的简单随机抽样的平均数的方差,可以借用一个近 似公式(用于按比例分配的分层抽样情况)也许更为精确: 1 2 ( ) ( ) ( 1) y st N n n v y s v y n N n − − + − 2 2 1 1 1 1 ( ) ( 1) k y h yh h N n n s W s n N n n N = − − = + − − (5.25) s y N v y v y ( ) ( ) 976 ( ) 48351( ) = 亩 此时 976 23 23 1 ( ) { 57745 23(976 1) 23 v y − − = − 1 1 ( )(0.4375 42064.933 0.3043 31221.571 0.2582 121470.667)} 23 976 + − + + 245.4235 两种算法的差距并不大
(2)简单随机抽样比估计 a=yx=Rx=1.101236×826800=910502(亩) s(n)≈4,/(1-f) (S2+R322R)=23095(亩 (3)分层随机抽样 单估计 ∑NDn=910780(亩) s(x)=N√w(Jx)=N ∑W hh nN h=1 =976 23976 )(0.4375×42064.933+0.3043×3122.71+0.2582×121470.667) 48975(亩)
(2)简单随机抽样比估计 ˆ 1.101236 826800 910502( ) R y y X RX x = = = = 亩 2 2 2 (1 ) ˆ ( ) ( R y x f s y N S R S n − + ˆ 2 ) 23095( ) − = RSxy 亩 (3)分层随机抽样简单估计 1 910780( ) k st h h h y N y = = = 亩 ( ) ( ) st st s y N v y = 2 1 1 1 ( ) k h h h N W S n N = = − 1 1 976 ( )(0.4375 42064.933 0.3043 31221.571 0.2582 121470.667) 23 976 = − + + = 48975(亩)
(4)分层随机抽样分别比估计 F8=N·J=∑R,R =367200×1.020327+251600×1.114086+208000×1.222857 =909322(亩) R丿≈ SN(-(n+R3-2RNm)=150亩 h=1 h (5)分层随机抽样联合比估计 910780 ≈1.100690 k 827463 ∑N hh ja=RX=1100690×826800=910050(亩)
(4)分层随机抽样分别比估计 1 ˆ k RS RS h h h y N y R X = = = = + + 367200 1.020327 251600 1.114086 208000 1.222857 = 909322( ) 亩 2 2 2 2 1 (1 ) ˆ ( ) ( k h h RS yh h xh h h N f s y s R s = n − + ˆ 2 ) − R sh yxh = 15360( ) 亩 (5)分层随机抽样联合比估计 1 ˆ st st c k st h h h y y R x N x = = = 910780 1.100690 827463 = ˆ 1.100690 826800 910050( ) Rc c y R X = = = 亩
ANh(1-fm syRC (Sh+R22-2 RUsh)=15936亩) =1 从以上五种情况的结果分析,两种简单估计的精度较差 因为他们没有充分利用已知的X及x的信息,三种比估计由 于利用了X的信息,显然精度大大提高了。 同时我们注意到分层随机抽样的两种比估计比起简单随 机抽样的比估计效果略好一些,这是因为在实际测量中已分 的三层的确有所区别。 最后我们指出,在分层随机抽样中,分别比估计与联合 比估计有着几乎差不多的效果,这正是我们在正文中所阐述 的理由,当每层抽样容量n不很大时,联合比估计不比分别 比估计来的差
2 2 2 2 1 (1 ) ˆ ( ) ( k h h Rc Yh c xh h h N f s y S R s = n − + ˆ 2 ) − R sc yxh = 15936( ) 亩 从以上五种情况的结果分析,两种简单估计的精度较差 因为他们没有充分利用已知的 及 的信息,三种比估计由 于利用了 的信息,显然精度大大提高了。 X x X 同时我们注意到分层随机抽样的两种比估计比起简单随 机抽样的比估计效果略好一些,这是因为在实际测量中已分 的三层的确有所区别。 最后我们指出,在分层随机抽样中,分别比估计与联合 比估计有着几乎差不多的效果,这正是我们在正文中所阐述 的理由,当每层抽样容量 不很大时,联合比估计不比分别 比估计来的差。 nh
一个有趣的事实是对于y的估计,恰好三个比估计比起 两个简单估计要略低一些,由于随机性,当然我们不能指认 到底哪一个估计比较接近事实,但是三种比估计统统略低会 使我们产生这样一个想法:这是否会是由于比估计本身时有 偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏 小了些。但是比估计的有偏性却在理论上是无法否认的事实 调查工作者与统计学家一直在设法尽力减少偏差,这称为估 计量的“纠偏 99
一个有趣的事实是对于 的估计,恰好三个比估计比起 两个简单估计要略低一些,由于随机性,当然我们不能指认 到底哪一个估计比较接近事实,但是三种比估计统统略低会 使我们产生这样一个想法:这是否会是由于比估计本身时有 偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏 小了些。但是比估计的有偏性却在理论上是无法否认的事实 调查工作者与统计学家一直在设法尽力减少偏差,这称为估 计量的“纠偏”。 Y
§4回归估计量 前面讨论的比估计之所以能在精度方面获益匪浅,是因 为我们态分和用了已知的辅助变量X的信息,而且这个铺助 变量X与我们所关心的变量Y之间有着密切的关系,这种关 系越密切,对Y的某些指标的估计精度就越高。 现在假定变量Y与X之间存在着线性回归关系(但不是通 过原点),又假设X的信息已知或部分已知,我们想利用X的 信息提高对Y的估计精度。 1、简单随机抽样情况 设从总体(F,X)i=1,2,…,N中随机无放回的抽取样本 (y,x)i=1,2,…,n,若变量y关于x;的回归直线不通过 原点,具有如下形式: B+B1x1+E1i=1,2,…,n(526)
§4 回归估计量 前面讨论的比估计之所以能在精度方面获益匪浅,是因 为我们充分利用了已知的辅助变量X 的信息,而且这个辅助 变量 X 与我们所关心的变量Y 之间有着密切的关系,这种关 系越密切,对Y 的某些指标的估计精度就越高。 现在假定变量Y与X之间存在着线性回归关系(但不是通 过原点),又假设X的信息已知或部分已知,我们想利用X的 信息提高对Y的估计精度。 1、简单随机抽样情况 设从总体 中随机无放回的抽取样本 ,若变量 关于 的回归直线不通过 原点,具有如下形式: ( , ) 1,2, , Y X i N i i = ( , ) 1,2, , i i y x i n = i y i x 0 1 1,2, , i i i y x i n = + + = (5.26)
y的回归值y估计为 ja=y+B,(xi-x) (527) 其中B是B的估计量;为方便起见,记1,我们可 以用所有N个y;的回归值y的平均值来估计总体平均数Y 这样就得到Y的线性回归估计,倘若X已知,有: Vi=y+B(x-x (528) 相应的,总体总和Y的回归估计为: =N (5.29) 这里B可以是一个设定的常数,也可以是估计得到的回归 系数。例如,若设定B=0,则vn=y即为简单估计量; 若令B=y/x是一个估计量,则 = y +2(x-x=yX 即为比估计量。可见回归估计包含简单估计和比估计
i y ˆ i 的回归值 y 估计为 相应的,总体总和 Y 的回归估计为: 这里 可以是一个设定的常数,也可以是估计得到的回归 系数。例如,若设定 ,则 即为简单估计量; 若令 是一个估计量,则 = 0 tr y y = = y x ( ) lr y y y y X x X x x = + − = 其中 是 的估计量。为方便起见,记 ,我们可 以用所有 N个 的回归值 的平均值来估计总体平均数 这样就得到 的线性回归估计,倘若 已知,有: 1 ˆ i y ˆ i y Y Y X 1 ˆ 1 即为比估计量。可见回归估计包含简单估计和比估计。 1 ˆ ˆ ( ) i i y y x x = + − (5.27) ( ) lr y y X x = + − (5.28) lr lr y N y = (5.29)