《抽样调查》习题 概述 1.1结合以下所列情况讨论哪些适合用全面调查,哪些适合用抽样调查,并说明理由 1.研究居住在某城市所有居民的食品消费结构 2.调查一个县各村的粮食播种面积和全县生猪的存栏头数 3.为进行治疗,调查一地区小学生中患沙眼的人数 4调查一地区结核病的发生率; 5估计一个水库中草鱼的数量: 6某企业想了解其产品在市场的占有率 7调查一个县中小学教师月平均工资 1.2结合习题1.1的讨论,你能否概括在什么场合作全面调查,什么场合适合做抽样调查 1.3讨论以下所列情况是否属于概率抽样,并说明理由: 1.从一个包含有100只兔子的实验室大笼子里抓10只兔子做实验。研究人员不经任何挑选 抓到哪只就算那一只,抓满10只为止。 2.将笼中的100只兔子编上1~100号,任意列出10个不重复的数字(为1~100之间的整 数),以相应的兔子作为抽中作试验的样本 3.从钱包中随便抽出一纸币,凡兔子号码尾数与该纸币编号尾数相同者及作为抽中的样本 1.4某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄回的调查表进行分析 试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?为什么? 1.5结合习题1.3与1.4的讨论,根据你的理解什么是概率抽样?什么是非概率抽样? 它们各有什么优点? 1.6请列举一些你所了解的以及被接受的抽样调查 1.7抽样的随机原则及其意义; 1.8怎样理解抽样调查的科学性? 1.9抽样调查基础理论及其意义 1.10抽样调查的特点。 抽样调查基本原理 2.1试说明以下术语或概念之间的关系与区别; 1.总体、样本与个体; 2.总体与抽样框: 3.个体、抽样单元与抽样框。 2.2试说明以下术语或概念之间的关系与区别 1.均方误差、方差与偏倚; 2.方差、标准差与标准误 3.无偏估计、祥和估计量与可用估计量 4.绝对误差限、置信限(置信区间)与置信度。 2.3从某个总体抽取一个n=50的独立同分布样本,样本数据如下: 567601665732366937462619279287 690520502312452562557574350875 834203593980172287753259276876 69237188764139944292744291811
《抽样调查》习题 概述 1.1 结合以下所列情况讨论哪些适合用全面调查,哪些适合用抽样调查,并说明理由; 1.研究居住在某城市所有居民的食品消费结构; 2.调查一个县各村的粮食播种面积和全县生猪的存栏头数; 3.为进行治疗,调查一地区小学生中患沙眼的人数; 4.调查一地区结核病的发生率; 5.估计一个水库中草鱼的数量; 6.某企业想了解其产品在市场的占有率; 7.调查一个县中小学教师月平均工资。 1.2 结合习题 1.1 的讨论,你能否概括在什么场合作全面调查,什么场合适合做抽样调查。 1.3 讨论以下所列情况是否属于概率抽样,并说明理由: 1.从一个包含有 100 只兔子的实验室大笼子里抓 10 只兔子做实验。研究人员不经任何挑选 抓到哪只就算那一只,抓满 10 只为止。 2.将笼中的 100 只兔子编上 1~100 号,任意列出 10 个不重复的数字(为 1~100 之间的整 数),以相应的兔子作为抽中作试验的样本; 3.从钱包中随便抽出一纸币,凡兔子号码尾数与该纸币编号尾数相同者及作为抽中的样本。 1.4 某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄回的调查表进行分析。 试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?为什么? 1.5 结合习题 1.3 与 1.4 的讨论,根据你的理解什么是概率抽样?什么是非概率抽样? 它们各有什么优点? 1.6 请列举一些你所了解的以及被接受的抽样调查。 1.7 抽样的随机原则及其意义; 1.8 怎样理解抽样调查的科学性? 1.9 抽样调查基础理论及其意义; 1.10 抽样调查的特点。 抽样调查基本原理 2.1 试说明以下术语或概念之间的关系与区别; 1.总体、样本与个体; 2.总体与抽样框; 3.个体、抽样单元与抽样框。 2.2 试说明以下术语或概念之间的关系与区别; 1.均方误差、方差与偏倚; 2.方差、标准差与标准误; 3.无偏估计、祥和估计量与可用估计量; 4.绝对误差限、置信限(置信区间)与置信度。 2.3 从某个总体抽取一个 n=50 的独立同分布样本,样本数据如下: 567 601 665 732 366 937 462 619 279 287 690 520 502 312 452 562 557 574 350 875 834 203 593 980 172 287 753 259 276 876 692 371 887 641 399 442 927 442 918 11
17841640521058797746153644476 1.计算样本均值y与样本方差s2 2.若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式 3.根据上述样本数据,如何估计v(y)? 4假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99% 的(近似)置信区间 2.4样本可能数目及其意义 2.5影响抽样误差的因素 2.6抽样分布及其意义 2.7抽样估计的基本原理 2.8置信区间的确定, 简单随机抽样 3.1讨论下列从总体中筹得的样本是否尾灯概率抽选(回答“是”或“否”) 1.总体(1-112)。抽法:从数1-56中随机抽取一个数r,再从数12中抽取一个数,以决定 该数为r或561 2.总体(1-112)。抽法:首先从1-2中抽选一个数以决定两个群1-100或101-112,再从抽 中的群中随机抽选一个数r 3总体(1-1109)。抽法:从1-10000中抽选一个随机数r,若第一位是偶数,则用后面的 位数来表示1-1000(以000代表1000);若第一位数是奇数,当后面的三位数在101-109 之间就代表1001和1109,若在110和1000之间被抛弃,重新抽选r 4.总体(67084-68192)。抽法:从1-1109中抽选一个随机数r,然后用r+67083作为被 抽选的数 5.总体(6708468192)。抽法:从1-2000中抽选一个随机数r,若在0084-192之间就加 67000取相应数,否则就抛弃,重选 6总体有1109个数分布在61000-68000之间。抽法:随机抽选四位数r加60000,如果该 数有相应的数就算抽中,无相应数抛弃重选 总体(1-17)。抽法:在1-100中抽选r,再除以20,若余数在1-17之间,就抽中相应的 数,否则抛弃重选 8总体(1-17)。抽法:在1-100中随机抽选一个数除以17,以余数作为抽中的数 32设总体N=5,其指标值为{3,5,6,7,9} 1计算总体方差a2和S2 2从中抽取n=2的随机样本,分别计算放回抽样和不放回抽样的方差V(y) 3按放回抽样和不放回抽样的分别列出所有可能的样本并计算j,验证E(y)=Y 4.按放回抽样和不放回抽样的所有可能的样本,计算其方差V(y),并与公式计算的结果 进行比较 5对所有的可能样本计算样本方差s2,并验证在放回抽样的情况下E(s2)=2:在不放回 的情况下:E(s2)=S2。 3.3在一森林抽样调査中,某林场共有1000公顷林地,随机布设了50块面积为0.06公顷
178 416 405 210 58 797 746 153 644 476 1.计算样本均值 y 与样本方差 s 2 ; 2.若用 y 估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式; 3.根据上述样本数据,如何估计 v(y)? 4.假定 y 的分布是近似正态的,试分别给出总体均值 μ 的置信度为 80%,90%,95%,99% 的(近似)置信区间。 2.4 样本可能数目及其意义; 2.5 影响抽样误差的因素; 2.6 抽样分布及其意义; 2.7 抽样估计的基本原理; 2.8 置信区间的确定。 简单随机抽样 3.1 讨论下列从总体中筹得的样本是否尾灯概率抽选(回答“是”或“否”); 1.总体(1-112)。抽法:从数 1-56 中随机抽取一个数 r,再从数 1-2 中抽取一个数,以决定 该数为 r 或 56+r; 2.总体(1-112)。抽法:首先从 1-2 中抽选一个数以决定两个群 1-100 或 101-112,再从抽 中的群中随机抽选一个数 r; 3.总体(1-1109)。抽法:从 1-10000 中抽选一个随机数 r,若第一位是偶数,则用后面的三 位数来表示 1-1000(以 000 代表 1000);若第一位数是奇数,当后面的三位数在 101-109 之间就代表 1001 和 1109,若在 110 和 1000 之间被抛弃,重新抽选r; 4.总体(67084-68192)。抽法:从 1-1109 中抽选一个随机数 r,然后用r+67083 作为被 抽选的数; 5. 总体(67084-68192)。抽法:从 1-2000 中抽选一个随机数 r,若在 0084-1192 之间就加 67000 取相应数,否则就抛弃,重选 r; 6.总体有 1109 个数分布在 61000-68000 之间。抽法:随机抽选四位数 r 加 60000,如果该 数有相应的数就算抽中,无相应数抛弃重选; 7.总体(1-17)。抽法:在 1-100 中抽选 r,再除以 20,若余数在 1-17 之间,就抽中相应的 数,否则抛弃重选; 8.总体(1-17)。抽法:在 1-100 中随机抽选一个数除以 17,以余数作为抽中的数。 3.2 设总体 N=5,其指标值为{3,5,6,7,9} 1.计算总体方差 2 和 S 2 ; 2.从中抽取 n=2 的随机样本,分别计算放回抽样和不放回抽样的方差 V ( y) ; 3.按放回抽样和不放回抽样的分别列出所有可能的样本并计算 y ,验证 E( y) =Y ; 4. 按放回抽样和不放回抽样的所有可能的样本,计算其方差 V ( y) ,并与公式计算的结果 进行比较; 5.对所有的可能样本计算样本方差 s 2 ,并验证在放回抽样的情况下 E(s 2)= 2 ;在不放回 的情况下:E(s 2)= S2。 3.3 在一森林抽样调查中,某林场共有 1000 公顷林地,随机布设了 50 块面积为 0.06 公顷
的方形样地,测得这50块样地的平均储蓄量为9m3,标准差为1.63m3,试以95%的置信 度估计该林场的木材储蓄量。 3.4某居民区共有10000户,现用抽样调查的方法估计该区居民的用水量。采用简单随 机抽样抽选了100户,得y=12.5,s2=1252。估计该居民区的总用水量95%的置信区间。 若要求估计的相对误差不超过20%,试问应抽多少户做样本? 3.5某工厂欲制定工作定额,估计所需平均操作时间,从全厂98名从事该项作业的工人 中随机抽选8人,其操作时间分别为42,5.1,79,38,53,46,5.1,4.1(单位:分) 试以95%的置信度估计该项作业平均所需时间的置信区间(有限总体修正系数可忽略)。 3.6从某百货商店的3000张发货票中随机抽取300张来估计家用电器销售额,发现其中 有200张是销售家用电器的,这200张发货票的总金额是48956元,其离差平方和为 12698499。若置信度是95%,试估计这3000张发货票中家用电器销售额的置信区间。 3.7某总体有10个单元,分为A,B,C三类,其中A类有2个单元,B类和C类各有四个 单元。若采用不放回抽样抽取一样本量为4的简单随机样本来估计B类单元在B,C两类单 元中的比例,试计算估计量的标准误。 3.8某县采用简单随机抽样估计粮食、棉花、大豆的播种面积,抽样单元为农户。根据 以往资料其变量的变异系数为 名称 粮食棉花大豆 变异系数0.380.390.44 若要求以上各个项目的置信度为95%,相对误差不超过4%,需要抽取多少户?若用这一样 本估计粮食的播种面积,其精度是多少? 3.9从一叠单据中用简单随机抽样方法抽取了250张,发现其中有50张单据出现错误, 试以95%的置信度估计这批单据中有错误的比例。若已知这批单据共1000张,你的结论有 何变化?若要求估计的绝对误差不超过1%,则至少抽取多少张单据作样本? 3.10欲调查二种疾病的发病率,疾病A的发病率较高,预期为50%; 疾病B的发病率预期为1%。若要得到相同的标准差0.5%,采用简单随机抽样各需要多大的 样本量?试对上述不同的结果加以适当的说明。 3.11假设总体中每个单元有两个指标值Y和X,i=1,…,N,记y,为相应的简单随机样 本的均值。试证样本协方差 (y1-卫x2-x 是总体协方差 n-12(-F(X-X) 的无偏估计 3.12设y是从总体{Y,…,Y}中抽取的样本量为n的简单随机样本的均值,如是从样 本量为n的简单随机子样本均值,y是剩余的样本单元均值。试证 Cov(n,yn)=- (提示:利用以下事实:两个子样本均可看成是从总体中直接抽取的简单随机子样本)。 3.13设某个总体由L个子总体构成,今从该总体中抽取一个大小为n的简单随机样本, 且设属于第j个子总体的单元数为n固定的条件下,这n个单元可看成是从第j个子总体
的方形样地,测得这 50 块样地的平均储蓄量为 9m3,标准差为 1.63 m3,试以 95%的置信 度估计该林场的木材储蓄量。 3.4 某居民区共有 10000 户,现用抽样调查的方法估计该区居民的用水量。采用简单随 机抽样抽选了 100 户,得 ý=12.5,s2=1252。估计该居民区的总用水量 95%的置信区间。 若要求估计的相对误差不超过 20%,试问应抽多少户做样本? 3.5 某工厂欲制定工作定额,估计所需平均操作时间,从全厂 98 名从事该项作业的工人 中随机抽选 8 人,其操作时间分别为 4.2,5.1,7.9,3.8,5.3,4.6,5.1,4.1(单位:分), 试以 95%的置信度估计该项作业平均所需时间的置信区间(有限总体修正系数可忽略)。 3.6 从某百货商店的 3000 张发货票中随机抽取 300 张来估计家用电器销售额,发现其中 有 200 张是销售家用电器的,这 200 张发货票的总金额是 48956 元,其离差平方和为 12698499。若置信度是 95%,试估计这 3000 张发货票中家用电器销售额的置信区间。 3.7 某总体有 10 个单元,分为 A,B,C 三类,其中 A 类有 2 个单元,B 类和 C 类各有四个 单元。若采用不放回抽样抽取一样本量为 4 的简单随机样本来估计 B 类单元在 B,C 两类单 元中的比例,试计算估计量的标准误。 3.8 某县采用简单随机抽样估计粮食、棉花、大豆的播种面积,抽样单元为农户。根据 以往资料其变量的变异系数为 名称 粮食 棉花 大豆 变异系数 0.38 0.39 0.44 若要求以上各个项目的置信度为 95%,相对误差不超过 4%,需要抽取多少户?若用这一样 本估计粮食的播种面积,其精度是多少? 3.9 从一叠单据中用简单随机抽样方法抽取了 250 张,发现其中有 50 张单据出现错误, 试以 95%的置信度估计这批单据中有错误的比例。若已知这批单据共 1000 张,你的结论有 何变化?若要求估计的绝对误差不超过 1%,则至少抽取多少张单据作样本? 3.10 欲调查二种疾病的发病率,疾病 A 的发病率较高,预期为 50%; 疾病 B 的发病率预期为 1%。若要得到相同的标准差 0.5%,采用简单随机抽样各需要多大的 样本量?试对上述不同的结果加以适当的说明。 3.11 假设总体中每个单元有两个指标值 Yi 和 Xi,i=1,…,N,记 y,为相应的简单随机样 本的均值。试证样本协方差 = − − − = n i yx i i y y x x n s 1 ( )( ) 1 1 是总体协方差 = − − − = n i yx Yi Y Xi X n S 1 ( )( ) 1 1 的无偏估计。 3.12 设 ý 是从总体{Yi, …,YN}中抽取的样本量为 n 的简单随机样本的均值,ýn1 是从样 本量为 n1 的简单随机子样本均值,ýn2 是剩余的样本单元均值。试证: Cov( n1 y , n2 y )= N S y 2 − (提示:利用以下事实:两个子样本均可看成是从总体中直接抽取的简单随机子样本)。 3.13 设某个总体由 L 个子总体构成,今从该总体中抽取一个大小为 n 的简单随机样本, 且设属于第 j 个子总体的单元数为 nj 固定的条件下,这 nj 个单元可看成是从第 j 个子总体
中抽取的一个简单随机样本 3.14简单随机抽样在抽样技术中的地位 15简单随机抽样中样本量确定的原则及主要考虑因素 3.16总体方差的预先确定思路 分层抽样 4.1 公司希望估计某一个月内由于事故引起的工时损失。因工人、技术人员及行政管 理人员的事故率不同,因而采用分层抽样。已知下列资料 工人 技术人员 行政管理人员 N1=132 S12=36 若样本量n=30,试用你乃曼分配确定各层的样本量 4.2上题中若实际调查了18个工人,10个技术人员,2个行政人员,其中损失的工时数 如下: 技术人员 行政管理人员 8,24,0,0,16,32 5,0,24,8,12,3,2,1,8 6,0,16,7,4,4,9,5,1,8 试估计总的工时损失数并给出它的置信度为95%的置信区间 4.9在估计比例问题时: (1)假设P=0.5,W=W2=0.5,则P1和P为何值时可以使按比例分配的分层抽样精度可以得 益20%(即H(pmp)/(pn)=0.8) (2)若P=4%,其中W1=0.05,P=45%;W2=0.2,P2=5%;W2=0.75,P3=1%.则采用按比例分 配的分层抽样比简单随机抽样精度得益有多大? 4.10调查某个地区的养牛头数,以村作为抽样单元。根据村的海拔高度和人口密度划分成 四层,每层取10个村作为样本单元,经过调查获得下列数据 层村总数 样本村养牛头数 678910 438498010440124130 1234 4705 5014762878415817010456160 2558 228262110232139178334063220 14997 173425343602571531 要求: (1)估计该地区养牛总头数Y及其估计量的相对标准误差s()/P (2)讨论分层抽样与不分层抽样比较效率有否提高。 (3)若样本量不变采用乃曼分配可以减少方差多少? 4.11用下面的工厂分组资料 按工人人数分组 工厂数目 手工厂产值(万元) 标准差
中抽取的一个简单随机样本。 3.14 简单随机抽样在抽样技术中的地位; 3.15 简单随机抽样中样本量确定的原则及主要考虑因素; 3.16 总体方差的预先确定思路。 分层抽样 4.1 一公司希望估计某一个月内由于事故引起的工时损失。因工人、技术人员及行政管 理人员的事故率不同,因而采用分层抽样。已知下列资料: 工人 技术人员 行政管理人员 N1=132 N2=92 N3=27 S12=36 S22=25 S32=9 若样本量 n=30,试用你乃曼分配确定各层的样本量。 4.2 上题中若实际调查了 18 个工人,10 个技术人员,2 个行政人员,其中损失的工时数 如下: 工人 技术人员 行政管理人员 8,24,0,0,16,32, 6,0,16,7,4,4,9,5, 8,18,2,0 4,5,0,24,8,12,3,2, 1,8 1,8 试估计总的工时损失数并给出它的置信度为 95%的置信区间。 4.9 在估计比例问题时: (1) 假设P=0.5,W1=W2=0.5,则P1和P2为何值时可以使按比例分配的分层抽样精度可以得 益 20%(即 ( ) ( ) V pprop V psrs =0.8) (2) 若 P=4%,其中 W1=0.05,P1=45%;W2=0.2,P2=5%; W3=0.75, P3=1%.则采用按比例分 配的分层抽样比简单随机抽样精度得益有多大? 4.10 调查某个地区的养牛头数,以村作为抽样单元。根据村的海拔高度和人口密度划分成 四层,每层取 10 个村作为样本单元,经过调查获得下列数据 层 村总数 样本村养牛头数 1 2 3 4 5 6 7 8 9 10 1 2 3 4 1411 4705 2558 14997 43 84 98 0 10 44 0 124 13 0 50 147 62 87 84 158 170 104 56 160 228 262 110 232 139 178 334 0 63 220 17 34 25 34 36 0 25 7 15 31 要求: (1) 估计该地区养牛总头数 Y 及其估计量的相对标准误差 s Y Y ˆ ) ˆ ( (2) 讨论分层抽样与不分层抽样比较效率有否提高。 (3) 若样本量不变采用乃曼分配可以减少方差多少? 4.11 用下面的工厂分组资料 按工人人数分组 工厂数目 每工厂产值(万元) 标准差
18260 50-99 4315 250 00-249 1760 1000人以上 567 2250 2500 若欲抽取3000个工厂作样本来估计产值,试比较下列各种分配的效率: (1)按工厂数多少分配样本 (2)按最优(奈曼)分配 4.12一个样本为1000的简单随机样本,其结果可分为三层,相应的 y2=10.2,12.6,17.1,S2=10.82(各层相同),s2=17.66,估计的层权是wn=0.5,0.3,0.2, 已知这些权数有误差,但误差在5%以内,最不好的情况是W=0.525,0.285,0.190或 W=0.475,0.315,0.210,你认为是否需要分层? 413设费用函数具有形式C1=c0+ m,其中C2,cn(h=1,…L均为已知数 试证明当总的费用固定时,为了使(,)达到最小,n必与(9)°成比例。 4.14假设总体包含大小相等的L个层,且N相对于L和n来说很大。I表示简单随机样 本均值的方差,V表示按比例分配的分层随机抽样时的相应方差。试证明下列两式近似 成立: (1)mnon=S2+∑(-Y) (2)n 其中S表示层内的平均方差,即2=1s2 4.15怎样分层能提高精度? 4.16总样本量在各层间分配的方法有哪些? 4.17分层的原则及其意义 比估计与回归估计 5.1对以下假设总体(N=6) U3 U
1—49 50—99 100—249 250—999 1000 人以上 18260 4315 2233 1057 567 100 250 500 1760 2250 80 200 600 1900 2500 若欲抽取 3000 个工厂作样本来估计产值,试比较下列各种分配的效率: (1) 按工厂数多少分配样本; (2) 按最优(奈曼)分配。 4.12 一 个 样 本 为 1000 的 简 单 随 机 样 本 , 其 结 果 可 分 为 三 层 , 相 应 的 2 y =10.2,12.6,17.1, 2 h s =10.82(各层相同), 2 s =17.66,估计的层权是 wh =0.5,0.3,0.2, 已知这些权数有误差,但误差在 5%以内,最不好的情况是 Wh =0.525,0.285,0.190 或 Wh =0.475,0.315,0.210,你认为是否需要分层? 4.13 设费用函数具有形式 = = + L h T h nh C c c 1 0 ,其中 0 c , h c (h=1,…,L)均为已知数。 试证明当总的费用固定时,为了使 ( ) st V y 达到最小, h n 必与 2 3 2 2 ( ) h h h c W S 成比例。 4.14 假设总体包含大小相等的 L 个层,且 N 相对于 L 和 n 来说很大。 Vran 表示简单随机样 本均值的方差, Vprop 表示按比例分配的分层随机抽样时的相应方差。试证明下列两式近似 成立: (1) = = + − L h ran h Yh Y L nV S 1 2 2 ( ) 1 (2) 2 nVprop = Sh 其中 2 h S 表示层内的平均方差,即 = = L h h Sh L S 1 2 1 2 4.15 怎样分层能提高精度? 4.16 总样本量在各层间分配的方法有哪些? 4.17 分层的原则及其意义。 比估计与回归估计 5.1 对以下假设总体(N=6) U1 U2 U3 U 4 U5 U6 Xi Yi 0 1 3 5 8 10 1 3 11 18 29 46
(1)用简单随机抽样抽取n=2的样本,列出所有可能的样本计算每个样本的R。R是不是 无偏的?若有偏,偏倚多大? (2)若用n=2的简单样本去估计总体总量Y,试比较比估计与简单估计的方差 52欲估计某小区居民的食品支出占总收入的比重,该地区共有150户,现用简单随机 抽样抽取14户为样本,经调查每户的食品支出y与总收入x;的数据如下表 样本户 总收入 食品支出y 25100 32200 5100 123456789 35000 28700 34600 10 32700 31500 5100 4000 要求估计食品支出占收入比重的95%置信度的置信区间 5.3某林场欲估计一批出售木材的材积量,从N=250株砍伐的树木中随机抽取了n=12 株作为样本,每株分别测量了根部横截面积和材积量(见附表)。为了估计总材积量又测量 了这250株树木根部的横截面积之和为75平方尺。 要求: (1)估计这250株树的总材积量及相对标准差: (2)比较采用比估计与简单估计的效率。 附表 样本序号 根部横截面积(平方尺) 材积量(立方尺) 000 6 3549 9 123456789 2658 o12 000000000 4 9 6 13 54某乡欲估计今年的小麦总产量,全县共有123个村,按简单随机抽样抽取13个村作为 样本,取得资料如下 样本村 去年的小麦产量(百斤) 今年的小麦产量(百斤)
(1) 用简单随机抽样抽取 n=2 的样本,列出所有可能的样本计算每个样本的 R。R 是不是 无偏的?若有偏,偏倚多大? (2) 若用 n=2 的简单样本去估计总体总量 Y,试比较比估计与简单估计的方差。 5.2 欲估计某小区居民的食品支出占总收入的比重,该地区共有 150 户,现用简单随机 抽样抽取 14 户为样本,经调查每户的食品支出 yi 与总收入 xi 的数据如下表: 样本户 总收入 xi 食品支出 yi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 25100 32200 29600 35000 34400 26500 28700 28200 34600 32700 31500 30600 27700 28500 3800 5100 4200 6200 5800 4100 3900 3600 3800 4100 4500 5100 4200 4000 要求估计食品支出占收入比重的 95%置信度的置信区间。 5.3 某林场欲估计一批出售木材的材积量,从 N=250 株砍伐的树木中随机抽取了 n=12 株作为样本,每株分别测量了根部横截面积和材积量(见附表)。为了估计总材积量又测量 了这 250 株树木根部的横截面积之和为 75 平方尺。 要求: (1) 估计这 250 株树的总材积量及相对标准差; (2) 比较采用比估计与简单估计的效率。 附表 样本序号 根部横截面积(平方尺) 材积量(立方尺) 1 2 3 4 5 6 7 8 9 10 11 12 0.3 0.5 0.4 0.9 0.7 0.2 0.6 0.5 0.8 0.4 0.8 0.6 6 9 7 19 15 5 12 9 20 9 18 13 5.4 某乡欲估计今年的小麦总产量,全县共有 123 个村,按简单随机抽样抽取 13 个村作为 样本,取得资料如下: 样本村 去年的小麦产量(百斤) 今年的小麦产量(百斤)
550 2 1500 4567890123 928 977 140 1350 1570 1750 210 670 865 530 1710 (1)若已知去年的小麦总产量为128200(百斤),采用比估计法估计今年的小麦总产量 和置信度为95%的置信区间 (2)估计每个村的平均小麦产量及估计的相对标准差。 5.5一公司欲了解广告对其产品销售量的作用,从销售该公司产品的452家企业中抽选了 20家,分别调查了广告前与广告后的月销售量数据如下表: 样本企业广告前广告后样本企业广告前广告后 239 428 510 538 234567 472 13 828 888 998 880 171 514 388 10 863 20 244 257 (1)若广告前的月总销售量为216256,估计广告后的月销售量及其相对标准差。 (2)求广告后比广告前销售量增加百分比的置信区间(a=0.05)。 (3)若允许估计总销售量的最大绝对误差为△=3800,置信度为95%,确定应抽取多少 企业作样本 5.6对习题54的资料采用差估计急用样本回归稀疏的回归估计法估计平均每村的小麦」 量和小麦总产量。比较差估计、回归估计与比估计的效率。 5.7某养兔专业户购进100只兔子,平均重量为3.1磅,随机抽取了10只兔子为样本,记 录其重量,经过两个月的饲养,现欲了解其平均重量,经过称重,其资料如下: 样本 原重(磅) 现重(磅) 3.0 4.l
1 2 3 4 5 6 7 8 9 10 11 12 13 550 720 1500 1020 620 980 928 1200 1350 1750 670 729 1530 610 780 1600 1030 600 1050 977 1440 1570 2210 980 865 1710 (1) 若已知去年的小麦总产量为 128200(百斤),采用比估计法估计今年的小麦总产量 和置信度为 95%的置信区间。 (2) 估计每个村的平均小麦产量及估计的相对标准差。 5.5 一公司欲了解广告对其产品销售量的作用,从销售该公司产品的 452 家企业中抽选了 20 家,分别调查了广告前与广告后的月销售量数据如下表: 样本企业 广告前 广告后 11 12 13 14 15 16 17 18 19 20 599 510 828 473 924 110 829 257 388 244 626 538 888 510 998 171 889 265 419 257 (1) 若广告前的月总销售量为 216256,估计广告后的月销售量及其相对标准差。 (2) 求广告后比广告前销售量增加百分比的置信区间(a=0.05)。 (3) 若允许估计总销售量的最大绝对误差为△=3800,置信度为 95%,确定应抽取多少 企业作样本。 5.6 对习题 5.4 的资料采用差估计急用样本回归稀疏的回归估计法估计平均每村的小麦产 量和小麦总产量。比较差估计、回归估计与比估计的效率。 5.7 某养兔专业户购进 100 只兔子,平均重量为 3.1 磅,随机抽取了 10 只兔子为样本,记 录其重量,经过两个月的饲养,现欲了解其平均重量,经过称重,其资料如下: 样本 原重(磅) 现重(磅) 1 2 3 3.2 3.0 2.9 4.1 4 4.1 样本企业 广告前 广告后 1 2 3 4 5 6 7 8 9 10 208 400 440 259 351 880 273 487 183 863 239 428 472 276 363 942 294 514 195 897
2.8 2 8 9 2.9 3.9 10 2.8 要求: (1)用回归估计法估计每只兔现有的重量,并计算其方差的近似估计量 (2)若每只兔的平均重量允许最大误差为0.05磅,置信度为95%,应该取多少只兔为 样本? 58在一水稻实割实测的实验研究中,以ⅹ表示稻草的重量,y表示稻谷的重量,通过随 机地布设大量测框(方形的抽样单元)得到Cx2=1.2,Cy2=1.24Cy=0.81,这里的Cx和Cy 分别为x和y的变异系数 Cyx= pCx C,p是x和y之间的相关系数。当x的总量可以得到时,试求估计稻谷总产量用 比估计与简单估计的相对效率(方差之比)。 59某县欲调查某种农作物的产量,由于平原和山区的产量有差别,故拟划分平原和山区 两层采用分层抽样。同时当年产量与去年产量之间有相关关系,故还计划采用比估计方法 已知平原共有120个村,去年总产量为24500百斤),山区共有180个村,去年总产为21200 (百斤)。现从平原用简单随机抽样抽取6个村,从山区抽取9个村,两年的产量资料如下: 山区 样本去年产量当年产量 (百斤) (百斤) 样本去年产量 当年产量 210 (百斤) (百斤) 137 150 23456 23456789 103 107 87 试用分别比估计与联合比估计分别估计当年的总产量,给出估计量的标准误,并对上述两 种结果进行比较和分析 510假设总体的每个单元有两个指标值Y和X1,i=1,…,N。为了估计比值R=Y/X,使 用比估计R=y。试证:如果抽取样本的概率与∑x,成正比,则R是R的无偏估计。 511假设总体回归系数B是已知的。考虑如下的回归估计量: =+B(X-x)
4 5 6 7 8 9 10 2.8 2.8 3.1 3.0 3.2 2.9 2.8 3.9 3.7 4.1 4.2 4.1 3.9 3.8 要求: (1) 用回归估计法估计每只兔现有的重量,并计算其方差的近似估计量。 (2) 若每只兔的平均重量允许最大误差为 0.05 磅,置信度为 95%,应该取多少只兔为 样本? 5.8 在一水稻实割实测的实验研究中,以 x 表示稻草的重量,y 表示稻谷的重量,通过随 机地布设大量测框(方形的抽样单元)得到 Cx2=1.2, Cy2=1.24,Cyx=0.81,这里的 Cx 和 Cy 分别为 x 和 y 的变异系数, Cyx=pCx Cy,p 是 x 和 y 之间的相关系数。当 x 的总量可以得到时,试求估计稻谷总产量用 比估计与简单估计的相对效率(方差之比)。 5.9 某县欲调查某种农作物的产量,由于平原和山区的产量有差别,故拟划分平原和山区 两层采用分层抽样。同时当年产量与去年产量之间有相关关系,故还计划采用比估计方法。 已知平原共有 120 个村,去年总产量为 24500(百斤),山区共有 180 个村,去年总产为 21200 (百斤)。现从平原用简单随机抽样抽取 6 个村,从山区抽取 9 个村,两年的产量资料如下: 平原 山区 试用分别比估计与联合比估计分别估计当年的总产量,给出估计量的标准误,并对上述两 种结果进行比较和分析。 5.10 假设总体的每个单元有两个指标值 Yi 和 Xi,i=1,…,N。为了估计比值 R=Y/X,使 用比估计 R=y/x。试证:如果抽取样本的概率与 = n i i x 1 成正比,则 R ˆ 是 R 的无偏估计。 5.11 假设总体回归系数 B 是已知的。考虑如下的回归估计量: y y B(X x) lr = + − 样本 去年产量 (百斤) 当年产量 (百斤) 1 2 3 4 5 6 204 143 82 256 275 198 210 160 75 280 300 190 样本 去年产量 (百斤) 当年产量 (百斤) 1 2 3 4 5 6 7 8 9 137 189 119 63 103 107 159 63 87 150 200 125 60 110 100 180 75 90
则玩优于y。今在上述估计量的右边用改进的估计量代替y,问所得的估计量是 否比更好?即y=y+B(X-x)是否优于n? 5.12回归估计、比估计与简单估计间的区别 5.13辅助变量的选择原则: 5.14回归系数的选择与确定。 二重抽样 6.1某县欲调査某种作物的播种面积,全县共有2000个村,拟采用分层抽样以提高抽样 效率,但由于缺乏详细的分层资料,故采用二重抽样方法。先抽取500个村作为第一重样 本,根据村的大小(现有户数)进行分层,然后又在各层中等比例地抽取1/5村作为第二 重样本,分别调査了该种作物的播种面积,其有关数据如下 层 第一重抽样第二重抽样|∑|∑ 50户以下村85 17 490 16574 2 1806 135164 100-199户 4423 736075 200-299户 110 5607 1446987 300户以上 8 4101 2205691 要求: (1)估计全县该种作物的种植面积 (2)计算播种面积估计的标准差 62现有总调查费用为3000元,拟用来作一个估计比例问题的调查。假设每一个抽样单 元的调查费用为10元,现有两种方案可供选择,一是采用二重分层抽样,第一重样本用来 对单元进行分层,每个抽样单元的分层费用是025元,已经总体中两层的权重相等。如果 第一层中的起初比例是0.2,第二层中的真实比较为0.8,要求确定二重抽样中最优的n和 n,以及由此所得到v(pD),另一种方案是采用不分层的简单随机抽样。要求将二重分 层抽样的精度与简单抽样进行比较。抽样效率是否提? (假定抽样比m/N和n/Nb均可忽略不计)。 63按照上一题中的形,P,求调查一个单元费用c2和每分层一个单元费用c1之比达 到多少时,二重抽样的费用效率高于简单随机抽样? 6.4某地区欲估计牛的年末头数,以上一次的普查数作为辅助变量。但由于行政区划的变 动,上次该地区普查的总头数已不能利用,故采取二重抽样的方法,先在全地区1238个村 抽500个村,得到上期普查的平均每村有牛的头数为602头,然后又抽取第二重样本为24 个村,分别取得了上期普查头数和当年的年末头数,起资料如下:
则 lr y 优于 y 。今在上述估计量的右边用改进的估计量 lr y 代替 y ,问所得的估计量 * lr y 是 否比 lr y 更好?即 y y B(X x) lr = + − 是否优于 lr y ? 5.12 回归估计、比估计与简单估计间的区别; 5.13 辅助变量的选择原则; 5.14 回归系数的选择与确定。 二重抽样 6.1 某县欲调查某种作物的播种面积,全县共有 2000 个村,拟采用分层抽样以提高抽样 效率,但由于缺乏详细的分层资料,故采用二重抽样方法。先抽取 500 个村作为第一重样 本,根据村的大小(现有户数)进行分层,然后又在各层中等比例地抽取 1/5 村作为第二 重样本,分别调查了该种作物的播种面积,其有关数据如下: 层 第一重抽样 第二重抽样 j hj y j hj y 2 50 户以下村 50-99 户 100-199 户 200-299 户 300 户以上 85 125 140 110 40 17 25 28 22 8 490 1806 4423 5607 4101 16574 135164 736075 1446987 2205691 要求: (1) 估计全县该种作物的种植面积; (2)计算播种面积估计的标准差。 6.2 现有总调查费用为 3000 元,拟用来作一个估计比例问题的调查。假设每一个抽样单 元的调查费用为 10 元,现有两种方案可供选择,一是采用二重分层抽样,第一重样本用来 对单元进行分层,每个抽样单元的分层费用是 0.25 元,已经总体中两层的权重相等。如果 第一层中的起初比例是 0.2,第二层中的真实比较为 0.8,要求确定二重抽样中最优的 n 和 n ,以及由此所得到 ( ) V pstD ,另一种方案是采用不分层的简单随机抽样。要求将二重分 层抽样的精度与简单抽样进行比较。抽样效率是否提? (假定抽样比 n N 和 nh Nh 均可忽略不计)。 6.3 按照上一题中的 Wh , Ph ,求调查一个单元费用 2 c 和每分层一个单元费用 1 c 之比达 到多少时,二重抽样的费用效率高于简单随机抽样? 6.4 某地区欲估计牛的年末头数,以上一次的普查数作为辅助变量。但由于行政区划的变 动,上次该地区普查的总头数已不能利用,故采取二重抽样的方法,先在全地区 1238 个村 抽 500 个村,得到上期普查的平均每村有牛的头数为 602 头,然后又抽取第二重样本为 24 个村,分别取得了上期普查头数和当年的年末头数,起资料如下:
样本序列|普查头数年末头数样本序号普查头数年末头数 623 706 707 1795 1890 l18 375 6 3456789 475 147 371 210 161 210 21 262 555 252 2110 199 12 1069 574 564 要求 用二重比估计法估计该地区年末牛的总头数及其估计的标准差。 6.5试用上题的资料,采用二重回归估计法估计该地区年末牛的总头数及其估计饿标准 差。并比较回归估计和比估计的效率,作简要分析 6.6在二重回归抽样中,如果ρ=0.8,假如由于第一重样本的均值的抽样误差使精确度的 损失必须小于10%,则相对于n来说,n必须多大? 6.7在应用二重回归抽样时,设第二重抽样的样本量为87,第一重抽样的样本量为300 下列计算应用于第二重样本。 ∑(y-y)2=17283∑(-yx-x)2=5114 ∑ (x2-x)2=3248 请计算Y的二重回归估计量的标准差 6.8对某块林地的木材蓄积量采用二重抽样方法,第一重抽样的抽样比为10%,样本量为 n,用目测估计蓄积量为辅助变ⅹ。在第一重样本中再抽取一个子样本,样本量为n2,对 该样本用目测法估计,并同时进行实测(y),对整个林地木材蓄积量采用回归估计,若给 定费用为1000元,其费用函数为Cr=1000+51+40m2,y的变异系数为1,y和x之 间的相关关系伪07,试求最优的n1和n2,并计算估计的相对标准差 69总体分为L层,第h层的大小为N(∑N=N,对总体采用简单随机抽样抽取一 个样本量为m的样本,记N为样本单元高于第h层的单元数且nb>0,证明vh=mhn是 层权W=N/N的无偏估计
样本序列 普查头数 年末头数 样本序号 普查头数 年末头数 1 2 3 4 5 6 7 8 9 10 11 12 623 690 534 293 69 842 475 371 161 298 2045 1069 654 696 530 315 78 640 692 292 210 555 2110 592 13 14 15 16 17 18 19 20 21 22 23 24 706 1795 1406 118 330 218 160 210 262 204 185 574 707 1890 1123 115 375 212 147 297 401 252 199 564 要求: 用二重比估计法估计该地区年末牛的总头数及其估计的标准差。 6.5 试用上题的资料,采用二重回归估计法估计该地区年末牛的总头数及其估计饿标准 差。并比较回归估计和比估计的效率,作简要分析。 6.6 在二重回归抽样中,如果 =0.8,假如由于第一重样本的均值的抽样误差使精确度的 损失必须小于 10%,则相对于 n 来说, n 必须多大? 6.7 在应用二重回归抽样时,设第二重抽样的样本量为 87,第一重抽样的样本量为 300。 下列计算应用于第二重样本。 − = 2 (y y) i 17283 − − = 2 (y y)(x x) i i 5114 − = 2 (x x) i 3248 请计算 Y 的二重回归估计量的标准差。 6.8 对某块林地的木材蓄积量采用二重抽样方法,第一重抽样的抽样比为 10%,样本量为 1 n ,用目测估计蓄积量为辅助变 x。在第一重样本中再抽取一个子样本,样本量为 n2 ,对 该样本用目测法估计,并同时进行实测(y),对整个林地木材蓄积量采用回归估计,若给 定费用为 10000 元,其费用函数为 CT =1000+ 5n1 + 40n2 ,y 的变异系数为 1,y 和 x 之 间的相关关系伪 0.7,试求最优的 1 n 和 n2 ,并计算估计的相对标准差。 6.9 总体分为 L 层,第 h 层的大小为 Nh ( = h Nh N ),对总体采用简单随机抽样抽取一 个样本量为 n 的样本,记 Nh 为样本单元高于第 h 层的单元数且 h n >0,证明 wh = nh n 是 层权 Wh = Nh N 的无偏估计