第九章抽样与抽样估计 本章重点:影响抽样平均误差的因素:总体平均数和总体成数的区间估计 §1抽样调查的意义与作用 一、抽样调查的概念、特点 (一)概念:抽样调查是按照随机原则从全部研究对象中抽取一部分单位进行观 察,并依据所获得的数据对全部研究对象的数量特征做出具有一定可靠性的 估计判断,从而达到对全部研究对象的认识的一种统计方法。 (二)、抽样调查的基本特点: 1、根据部分实际资料对全部总体的数量特征做出估计。 2、按随机的原则从全部总体中抽取样本单位。 3、抽样推断的抽样误差可以事先计算并且加以控制。 二、抽样调查的作用: 1、对某些不可能进行全面调查而又要了解其全面情况的社会经济现象,必 须应用抽样调查。 2、对某些社会经济现象虽然可以进行全面调查,但抽样调查可以节约时间、 费用,提高调查的时效性。 3、抽样调查和全面调查同时进行,可以发挥相互补充和检查质量的作用。 4、抽样调查可以用于工业生产过程的质量控制。 5、利用抽样调查原理,还可以对某种总体的假设进行检验,来判断这种假 设的真伪,以决定行动的取舍。 三、抽样调查的理论基础 1、大数法则:关于大量的随机现象具有稳定性质的法则。 2、中心极限定理:如果总体变量存在有限的平均数和方差,那么不论这个 总体变量的分布如何,随着抽样单位数的增加,抽样平均数的分布便趋近于正 态分布
第九章 抽样与抽样估计 本章重点:影响抽样平均误差的因素;总体平均数和总体成数的区间估计 §1 抽样调查的意义与作用 一、抽样调查的概念、特点 (一)概念:抽样调查是按照随机原则从全部研究对象中抽取一部分单位进行观 察,并依据所获得的数据对全部研究对象的数量特征做出具有一定可靠性的 估计判断,从而达到对全部研究对象的认识的一种统计方法。 (二)、抽样调查的基本特点: 1、根据部分实际资料对全部总体的数量特征做出估计。 2、按随机的原则从全部总体中抽取样本单位。 3、抽样推断的抽样误差可以事先计算并且加以控制。 二、抽样调查的作用: 1、对某些不可能进行全面调查而又要了解其全面情况的社会经济现象,必 须应用抽样调查。 2、对某些社会经济现象虽然可以进行全面调查,但抽样调查可以节约时间、 费用,提高调查的时效性。 3、抽样调查和全面调查同时进行,可以发挥相互补充和检查质量的作用。 4、抽样调查可以用于工业生产过程的质量控制。 5、利用抽样调查原理,还可以对某种总体的假设进行检验,来判断这种假 设的真伪,以决定行动的取舍。 三、抽样调查的理论基础 1、大数法则:关于大量的随机现象具有稳定性质的法则。 2、中心极限定理:如果总体变量存在有限的平均数和方差,那么不论这个 总体变量的分布如何,随着抽样单位数 n 的增加,抽样平均数的分布便趋近于正 态分布
2抽样调查中的基本概念 一、总体与样本 1、总体是指根据研究目的确定的所要研究的同类事物的全体,是所要说明其数 量特征的研究对象。其中,构成总体的个别事物(基本单元)就是总体单位,也 称个体。例如,研究学生的成绩,则所有的学生为总体,每一个学生为总体单位: 检察皮鞋厂的皮鞋质量,则所有的皮鞋为总体,每一双皮鞋为总体单位。一个总 体中的总体单位数叫总体容量,一般用N表示。 2、从总体中抽取的部分单位所构成的整体,称为该总体的一个样本。样本所包 含的总体单位个数称为样本容量,一般用n表示。人们通常把n≥30的样本称为 大样本,而把<30的样本称为小样本。样本通常是不确定的、多种多样的。 二、参数与统计量(总体指标与样本指标) 1、在抽样估计中,用来反映总体数量特征的指标称为总体指标,也叫总体参数。 研究目的一经确定,总体也唯一确定了,所以参数的值是客观存在的、是确定的, 也即参数的值是定值。常用的参数有:总体平均数X(或记为“)、总体比例P、 总体标准差σ或方差σ以及总体标志总量(NX)或总体中具有某一属性的单位 总数NP。 2、样本指标又称样本统计量或估计量,是根据样本资料计算的指标。其值随样 本的不同而不同,是个随机变量,抽样估计就是通过统计量的值去估计参数的值。 常用的统计量有:样本平均数x、样本比例(也称样本成数)P、样本标准差S 或样本方差S以及它们的函数。 三、样本容量与样本个数 1、样本容量指一个样本中的单位数,用n表示。 2、样本个数指从总体中抽一个容量为n的样本,有多少个可能的组合,用M表 示。 四、概率抽样与非概率抽样 从总体中抽取样本的方法有概率抽样与非概率抽样两类。 1、概率抽样也叫随机抽样,是指按随机原则抽取样本。概率抽样最基本的组 织方式有:简单随机抽样、分层抽样、等距抽样和整群抽样。概率抽样能有效避
§2 抽样调查中的基本概念 一、总体与样本 1、总体是指根据研究目的确定的所要研究的同类事物的全体,是所要说明其数 量特征的研究对象。其中,构成总体的个别事物(基本单元)就是总体单位,也 称个体。例如,研究学生的成绩,则所有的学生为总体,每一个学生为总体单位; 检察皮鞋厂的皮鞋质量,则所有的皮鞋为总体,每一双皮鞋为总体单位。一个总 体中的总体单位数叫总体容量,一般用 N 表示。 2、从总体中抽取的部分单位所构成的整体,称为该总体的一个样本。样本所包 含的总体单位个数称为样本容量,一般用 n 表示。人们通常把 n≥30 的样本称为 大样本,而把 n<30 的样本称为小样本。样本通常是不确定的、多种多样的。 二、参数与统计量(总体指标与样本指标) 1、在抽样估计中,用来反映总体数量特征的指标称为总体指标,也叫总体参数。 研究目的一经确定,总体也唯一确定了,所以参数的值是客观存在的、是确定的, 也即参数的值是定值。常用的参数有:总体平均数 X (或记为μ)、总体比例 P、 总体标准差σ或方差σ2以及总体标志总量(N X )或总体中具有某一属性的单位 总数 NP。 2、样本指标又称样本统计量或估计量,是根据样本资料计算的指标。其值随样 本的不同而不同,是个随机变量。抽样估计就是通过统计量的值去估计参数的值。 常用的统计量有:样本平均数 x 、样本比例(也称样本成数)P、样本标准差 S 或样本方差 S 2以及它们的函数。 三、样本容量与样本个数 1、样本容量指一个样本中的单位数,用 n 表示。 2、样本个数指从总体中抽一个容量为 n 的样本,有多少个可能的组合,用 M 表 示。 四、概率抽样与非概率抽样 从总体中抽取样本的方法有概率抽样与非概率抽样两类。 1、概率抽样也叫随机抽样,是指按随机原则抽取样本。概率抽样最基本的组 织方式有:简单随机抽样、分层抽样、等距抽样和整群抽样。概率抽样能有效避
免主观选样带来的倾向性误差(系统偏差),使得样本资料能够用于估计和推断 总体的数量特征,而且使这种估计和推断得以建立在概率论和数理统计的科学理 论上,可以计算和控制抽样误差,能够说明估计结果的可靠程度。 2、非概率抽样也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判 断,从总体中有意识地抽取若干单位构成样本。通常有:重点调查、典型调查、 配额抽样、方便抽样等。非概率抽样不能计算和控制其抽样误差,无法说明估计 结果的可靠程度。 五、抽样框 1、抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽 样框的好坏通常会直接影响到抽样调查的随机性和调查的效果。 2、抽样框主要有三种形式:①)名单抽样框,即列出全部总体单位的名录一览表, 如职工名单、企业名单等。(②)区域抽样框,即按地理位置将总体范围划分为若 干小区域,以小区域为抽样单位。如对某市居民住房情况进行调查,将全市居民 户划分为若干街道或片区。(③)时间表抽样框,即将总体全部单位按时间顺序排 列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。如 对流水线上24小时内生产的产品进行质量抽查时,以5分钟为一个抽样单位, 可将全部产品分为288个抽样单位并按时间顺序排列。 3、一个理想的抽样框应该与目标总体一致,即应包括全部总体单位,既不重复, 也不遗漏(穷尽与互斥)。若有遗漏,易造成系统性误差。 在实践中,要取得与目标总体完全一致的抽样框往往很困难,甚至不可能, 常常只能采用与目标总体近似的抽样框。 六、抽样方法 (一)根据取样方式的不同,抽样方法有重复抽样和不重复抽样两种。 1、重复抽样:是指从总体的个单位中抽取一个容量为的样本,每次抽出一 个单位后,再将其放回总体中参加下一次抽取,这样连续抽次即得到一个样 本。同一总体单位有可能被重复抽中:每个总体单位在每次抽样中被抽中的 概率都是相同的:抽样误差较大。 2、不重复抽样:是指抽中单位不再放回总体中,下一个样本单位只能从余下 的总体单位中抽取。同一总体单位不可能被重复抽中:由于每次抽取是在不
免主观选样带来的倾向性误差(系统偏差),使得样本资料能够用于估计和推断 总体的数量特征,而且使这种估计和推断得以建立在概率论和数理统计的科学理 论上,可以计算和控制抽样误差,能够说明估计结果的可靠程度。 2、非概率抽样也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判 断,从总体中有意识地抽取若干单位构成样本。通常有:重点调查、典型调查、 配额抽样、方便抽样等。非概率抽样不能计算和控制其抽样误差,无法说明估计 结果的可靠程度。 五、抽样框 1、抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽 样框的好坏通常会直接影响到抽样调查的随机性和调查的效果。 2、抽样框主要有三种形式:⑴ 名单抽样框,即列出全部总体单位的名录一览表, 如职工名单、企业名单等。⑵ 区域抽样框,即按地理位置将总体范围划分为若 干小区域,以小区域为抽样单位。如对某市居民住房情况进行调查,将全市居民 户划分为若干街道或片区。⑶ 时间表抽样框,即将总体全部单位按时间顺序排 列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。如 对流水线上 24 小时内生产的产品进行质量抽查时,以 5 分钟为一个抽样单位, 可将全部产品分为 288 个抽样单位并按时间顺序排列。 3、一个理想的抽样框应该与目标总体一致,即应包括全部总体单位,既不重复, 也不遗漏(穷尽与互斥)。若有遗漏,易造成系统性误差。 在实践中,要取得与目标总体完全一致的抽样框往往很困难,甚至不可能, 常常只能采用与目标总体近似的抽样框。 六、抽样方法 (一)根据取样方式的不同,抽样方法有重复抽样和不重复抽样两种。 1、重复抽样:是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一 个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样 本。同一总体单位有可能被重复抽中;每个总体单位在每次抽样中被抽中的 概率都是相同的;抽样误差较大。 2、不重复抽样:是指抽中单位不再放回总体中,下一个样本单位只能从余下 的总体单位中抽取。同一总体单位不可能被重复抽中;由于每次抽取是在不
同数目的总体单位中进行,每个总体单位在各次抽样中被抽中的概率不相等 抽样误差较小。 (二)、根据对样本的要求不同,抽样方法又有考虑顺序抽样和不考虑顺序抽样 两种: 1、考虑顺序的抽样:即从总体W中抽取个单位构成样本,不但要考虑样本 各单位的不同性质,而且还考虑不同性质各单位的中选顺序。相同构成成分 的单位,由于顺序不同,也作为不同样本。 2、不考虑顺序的抽样:即从总体个单位抽取个单位构成样本。只考虑样本 各单位的组成成分如何,而不考虑单位的抽样顺序。如果样本的成分相同,不 论顺序有多大不同,都作为一种样本。 (三)以上抽样方法的两种分类还存在交叉情况,即有: 考虑顺序的不重复抽样数目A=N(N-1N-2).(W-n+1) 考虑顺序的重复抽样数目B%=N“ 不考虑顺序的不重复抽样数目C:=N-n 不考虑顺序的重复抽样数目Cn=W+n+XW+mXN+n-》W+2 n 七、抽样误差 抽样误差常指随机性误差。有三个相联系的概念,即实际抽样误差、抽样平 均误差、抽样极限误差。 1、实际抽样误差:指某一具体样本估计值与总体参数Q的真实值之间的离差 (0-Q) [例91刂从1、2、3中抽2个(重复),参数取总体平均数μ(等于2),则实 际抽样误差如下: 样本 样本统计量x实际抽样误差(x-μ) (1、1) 1 -1 (1、2) 1.5 -0.5 (1、3) 2 0 (2、1) 1.5 -0.5 (2、2) 2
同数目的总体单位中进行,每个总体单位在各次抽样中被抽中的概率不相等; 抽样误差较小。 (二)、根据对样本的要求不同,抽样方法又有考虑顺序抽样和不考虑顺序抽样 两种: 1、考虑顺序的抽样:即从总体N 中抽取n个单位构成样本,不但要考虑样本 各单位的不同性质,而且还考虑不同性质各单位的中选顺序。相同构成成分 的单位,由于顺序不同,也作为不同样本。 2、不考虑顺序的抽样:即从总体N个单位抽取n个单位构成样本。只考虑样本 各单位的组成成分如何,而不考虑单位的抽样顺序。如果样本的成分相同,不 论顺序有多大不同,都作为一种样本。 (三)以上抽样方法的两种分类还存在交叉情况,即有: 考虑顺序的不重复抽样数目 ( 1)( 2).( 1) n A N N N N n N = − − − + 考虑顺序的重复抽样数目 n n BN = N 不考虑顺序的不重复抽样数目 !( )! ! n N n N C n N − = 不考虑顺序的重复抽样数目 1 ( 1)( )( 1).( 2) ! n N n N n N n N n N C n + + + + + + − + = 七、抽样误差 抽样误差常指随机性误差。有三个相联系的概念,即实际抽样误差、抽样平 均误差、抽样极限误差。 1、实际抽样误差:指某一具体样本估计值 Q ˆ 与总体参数 Q 的真实值之间的离差 ( Q ˆ -Q) [例 9-1] 从 1、2、3 中抽 2 个(重复),参数取总体平均数μ(等于 2),则实 际抽样误差如下: 样本 样本统计量 x 实际抽样误差( x -μ) (1、1) 1 -1 (1、2) 1.5 -0.5 (1、3) 2 0 (2、1) 1.5 -0.5 (2、2) 2 0
(2、3)2.5 0.5 (3、1) (3、2) 2.5 0.5 3、3) 3 2、抽样平均误差,指样本统计量的标准差,如果统计量取均值,则为4:,取 比率,则为山。 八、成数(比率) 1、成数指总体具有某种特征的单位数占总单位数的比重。用P表示。当某单位 具有某种特征时,赋予其变量值为1:当某单位不具有某种特征时,赋予其变量 值为0。 2、设资料如下表:求其平均数和标准差。 变量变量值单位数 是1 INI 非0 合计L N 则P=NN, Q=No/N P+Q=1 对1xN+0x=P 平均数x了 N 标准差 x-xf ∑f PN.-P)N.-P)r+0-PP =PL-P) $2抽样平均误差 一、抽样分布的概念 抽样分布是指样本统计量的概率分布,由样本统计量的可能取值与之相应的概 率组成。对于抽样分布,可计算其平均数和标准差差等数字特征来反映该分布的 中心和离散趋势。 二、抽样分布的集中趋势与离中趋势的测定 (一)样本平均数的抽样分布的集中趋势与离中趋势的测定
(2、3) 2.5 0.5 (3、1) 2 0 (3、2) 2.5 0.5 (3、3) 3 1 2、抽样平均误差,指样本统计量的标准差,如果统计量取均值,则为 x ,取 比率,则为 P 。 八、成数(比率) 1、成数指总体具有某种特征的单位数占总单位数的比重。用 P 表示。当某单位 具有某种特征时,赋予其变量值为 1;当某单位不具有某种特征时,赋予其变量 值为 0。 2、设资料如下表:求其平均数和标准差。 变量 变量值 单位数 是 1 N1 非 0 N0 合计 - N 则 P= N1/N, Q= N0/N P+Q=1 平均数 x p = f xf = N N1 N0 1 + 0 =P 标准差 p = ( ) − f x x f 2 = ( ) ( ) N p N P N0 2 1 2 1− + 0− = ( P) P ( P)P 2 2 1− + 1− = P(1− P) §2 抽样平均误差 一、抽样分布的概念 抽样分布是指样本统计量的概率分布,由样本统计量的可能取值与之相应的概 率组成。对于抽样分布,可计算其平均数和标准差差等数字特征来反映该分布的 中心和离散趋势。 二、抽样分布的集中趋势与离中趋势的测定 (一)样本平均数的抽样分布的集中趋势与离中趋势的测定
1、把所有可能样本的均值及其相应的概率排列起来,就是样本平均数的抽样分 布。通常计算这一分布的平均数和标准差,分别反映样本平均数分布的集中趋势 与离中趋势。 2、[例9-2]】从4、6、8三个数中按重复抽样抽2个,调查其平均数,形成的抽 样分布如下: 样本 样本平均数x 概率P(x) (44) A 10 (4、6)(6、4) 29 (4、8)(6、6)(8、4) 6 3/9 (6、8)(8、6) 7 2/9 (8.8) Q 19 计算该分布的均值和标准差,得 E(x)=4*1/9+5*2/9+6*3/9+7*2/9+8*1/9=54/9=6 Gx-(46)2*19+(56)2*294(66)2*39+(7-6)2*29+(8.6)2*19=46 而总体均值X=(4+6+8)/3=6 总体方差σ2=[(4-6)4(6-6)+(8-6)]/3=8/3 所以,可得以下两点结论:(重复) ①样本平均数x在平均的意义上等于总体平均数,即E(x)=卫 ②样本平均数的方差等于总体方差的1/n倍,即σx=G/n 3、样本平均数的标准差0,即抽样平均误差,一般用4表示,它是衡量用样 本平均数x估计总体平均数灭产生的抽样误差的一个指标。在实际中,不可能 一列举所有可能的样本,从而不能按上述方法计算4。可利用上述第②个结论 计算,即: 重复出样时4云:不复抽群时以:只0-司 当总体标准差σ未知时,用样本标准差S代替
1、把所有可能样本的均值及其相应的概率排列起来,就是样本平均数的抽样分 布。通常计算这一分布的平均数和标准差,分别反映样本平均数分布的集中趋势 与离中趋势。 2、[例 9-2] 从 4、6、8 三个数中按重复抽样抽 2 个,调查其平均数,形成的抽 样分布如下: 样本 样本平均数 x 概率 P( x ) (4、4) 4 1/9 (4、6)(6、4) 5 2/9 (4、8)(6、6)(8、4) 6 3/9 (6、8)(8、6) 7 2/9 (8、8) 8 1/9 计算该分布的均值和标准差,得 E( x )=4*1/9+5*2/9+6*3/9+7*2/9+8*1/9 = 54/9 = 6 x 2 = (4-6)2*1/9+(5-6)2*2/9+(6-6)2*3/9+(7-6)2*2/9+(8-6)2*1/9 = 4/3 而总体均值 X = (4+6+8)/3 = 6 总体方差 2 = [(4-6)2 +(6-6)2 +(8-6)2 ]/3 = 8/3 所以,可得以下两点结论:(重复) ① 样本平均数 x 在平均的意义上等于总体平均数,即 E( x )= X ② 样本平均数的方差等于总体方差的 1/ n 倍,即 x 2 = 2 /n 3、 样本平均数的标准差 x 即抽样平均误差,一般用 x 表示,它是衡量用样 本平均数 x 估计总体平均数 X 产生的抽样误差的一个指标。在实际中,不可能一 一列举所有可能的样本,从而不能按上述方法计算 x 。可利用上述第②个结论 计算,即: 重复抽样时, x = n ;不重复抽样时, x = − N n n 1 2 当总体标准差 未知时,用样本标准差 S 代替
4、[例93]用简单重复抽样的方法,从660个工厂中抽取33个工厂调查月产值 情况,得资料如下,试求月产值的抽样平均误差。 月产值(万元)工厂数(个)组中值x xf (x-x)f 0-10 10066360 10-20 15 135161.82 20-30 2550405.56 30-40 35 701175.16 合计 23 3552406.14 解:样本平均数x=35533=10.76 样本方差S2=2406.14/33=72.91 72.91 =1.49(万元) (二)样本比率的抽样分布的集中趋势与离中趋势的测定 1、把所有可能样本的比率及其相应的概率排列起来,就是样本比率的抽样分布 通常计算这一分布的均值和标准差,分别反映样本比率分布的集中趋势与离中趋 势。 2、[例94从张(男)、王(男)、田(女)三个人中按重复抽样抽2个,调查 其男性比重,形成的抽样分布如下: 样本 样本比率方 概率P() (张、张)(张、王) 4/9 (王、张)(王、王) (张、田)(王、田) 1/2 (田、张)(田、王) 田、田) 0 1/9 计算该分布的平均数和标准差,得 E(D)=1*4/9+12*4/9+0*1/9=2/3 Gp=(1-2/3P*4/9+(12-2/3P*49+(0-23P*1/9=1/9 而总体比率P=23 总体比率的方差Op=P(1-P)=231B=29 所以,可得以下两点结论:(重复) ①样本比率p在平均的意义上等于总体比率P,即E(p)=P ②样本比率的方差等于总体比率方差的1/n倍,即oD-op/m=P(1-P)/
4、[例 9-3] 用简单重复抽样的方法,从 660 个工厂中抽取 33 个工厂调查月产值 情况,得资料如下,试求月产值的抽样平均误差。 月产值(万元) 工厂数(个) 组中值 x xf (x- x ) 2 f 0-10 20 5 100 663.60 10-20 9 15 135 161.82 20-30 2 25 50 405.56 30-40 2 35 70 1175.16 合计 33 - 355 2406.14 解:样本平均数 x = 355/33 = 10.76 样本方差 S 2 = 2406.14/ 33 =72.91 所以, x = n ≈ n s = 33 72.91 =1.49 (万元) (二)样本比率的抽样分布的集中趋势与离中趋势的测定 1、把所有可能样本的比率及其相应的概率排列起来,就是样本比率的抽样分布。 通常计算这一分布的均值和标准差,分别反映样本比率分布的集中趋势与离中趋 势。 2、[例 9-4] 从张(男)、王(男)、田(女)三个人中按重复抽样抽 2 个,调查 其男性比重,形成的抽样分布如下: 样本 样本比率 p ˆ 概率 P( p ˆ ) (张、张)(张、王) (王、张)(王、王) 1 4/9 (张、田)(王、田) (田、张)(田、王) 1/2 4/9 (田、田) 0 1/9 计算该分布的平均数和标准差,得 E(p)= 1*4/9+1/2*4/9+0*1/9 = 2/3 2 p = (1-2/3)2*4/9+(1/2-2/3)2*4/9+(0-2/3)2*1/9 = 1/9 而总体比率 P= 2/3 总体比率的方差 P 2 = P(1-P)= 2/3*1/3 = 2/9 所以,可得以下两点结论:(重复) ① 样本比率 p 在平均的意义上等于总体比率 P,即 E(p)=P ② 样本比率的方差等于总体比率方差的 1/ n 倍,即 p ˆ 2 = P 2 /n= P(1-P)/ n
3、样本比率的标准差。即抽样平均误差,一般用4,表示,它是衡量用样本比 率p估计总体比率P产生的抽样误差的一个指标。在实际中,不可能一一列举所 有可能的样本,从而不能按上述方法计算山。可利用上述第②个结论计算,即: 重复抽样时,一n 西,不重复描样时·4,::巴-员》 当总体比率P未知时,可用样本比率p代替。 4、[例95]一批8瓦的日光灯管80000只,从中抽取400只检验,发现有12只 不合格,试求合格率的抽样平均误差。 解:样本合格率p=(400-12)400=97% 重复抽样时,山。Vn P-D,097x003-0.853 V400 =0.85% 5、由上知,影响抽样平均误差的因素为: ①总体各单位在被研究变量上的差异程度。差异越大,误差越大。 ②样本容量n的大小。抽取的单位数越多,误差越小。 ③抽样方法。重复抽样的误差大于不重复抽样的误差。 ④抽样的组织形式。 当一个总体给定后,总体各单位在被研究变量上的差异程度也随之确定,所以 要缩小抽样平均误差,必须保证足够多的样本容量 §4抽样估计的基本方法 根据样本提供的信息对总体的某些特征进行估计或推断,就叫抽样估计,也 叫参数估计。可分点估计与区间估计两类。 一、点估计 1、点估计也叫定值估计,它是直接以一个样本估计量Q来估计总体参数Q。当 已知一个样本的观察值时,便可得到总体参数的一个估计值。 2、点估计常用的方法有矩估计和极大似然估计 3、衡量一个样本统计量是否是总体参数的优良估计量的标准有: ①无偏性:样本统计量的均值应等于被估计总体参数的真值,即E(O)=Q
3、样本比率的标准差 pˆ 即抽样平均误差,一般用 P 表示,它是衡量用样本比 率 p 估计总体比率 P 产生的抽样误差的一个指标。在实际中,不可能一一列举所 有可能的样本,从而不能按上述方法计算 P 。可利用上述第②个结论计算,即: 重复抽样时, P = n P(1− P) ;不重复抽样时, P = (1 ) (1 ) N n n P P − − 当总体比率 P 未知时,可用样本比率 p 代替。 4、[例 9-5] 一批 8 瓦的日光灯管 80000 只,从中抽取 400 只检验,发现有 12 只 不合格,试求合格率的抽样平均误差。 解: 样本合格率 p= (400-12)/400 = 97% 则 重复抽样时, P = n P(1− P) = 400 0.97 0.03 = 0.853% 不重复抽样时, P = (1 ) (1 ) N n n P P − − = 80000 400 1− = 0.85% 5、由上知,影响抽样平均误差的因素为: ① 总体各单位在被研究变量上的差异程度。差异越大,误差越大。 ② 样本容量 n 的大小。抽取的单位数越多,误差越小。 ③ 抽样方法。重复抽样的误差大于不重复抽样的误差。 ④ 抽样的组织形式。 当一个总体给定后,总体各单位在被研究变量上的差异程度也随之确定,所以 要缩小抽样平均误差,必须保证足够多的样本容量 n §4 抽样估计的基本方法 根据样本提供的信息对总体的某些特征进行估计或推断,就叫抽样估计,也 叫参数估计。可分点估计与区间估计两类。 一、点估计 1、点估计也叫定值估计,它是直接以一个样本估计量 Q ˆ 来估计总体参数 Q。当 已知一个样本的观察值时,便可得到总体参数的一个估计值。 2、点估计常用的方法有矩估计和极大似然估计。 3、衡量一个样本统计量是否是总体参数的优良估计量的标准有: ① 无偏性:样本统计量的均值应等于被估计总体参数的真值,即 E( Q ˆ )=Q
②有效性:样本统计量的方差应比其它估计量的方差小。 ③一致性:当充分大时,样本统计量充分地靠近被估计的参数本身 二、区间估计 (一))抽样极限误差 1、指一定概率下抽样误差的可能范围,也称允许误差。用△表示。如果统计量 取平均数,则为下-s△:若取比率,则为P-P叫s△ 2、△是可能范围,与这一估计的可能性大小有关,这个概率叫置信度,用1- a表示(或F(t))。 3、△:=4:△,=4。 一个F(t)对应于一个t值 (二)总体平均数的区间估计 1、 -xs△: -△:≤x-X≤△ -△:-x≤-X≤△:-x x-A:≤X≤x+△: 2、实例 [例9-6]由历史资料,知某罐头厂的罐头重量服从方差为400的正态分布。现 从10000个罐头中按重复抽样抽取1%进行检查,得样本平均重量为250克,重 量的样本标准差为18克。在95.45%的置信度下,试求罐头平均重量的置信区间。 解:1-a=95.45%,查正态分布表得t=2 样本平均数x=250(克) 抽样极限误差△:=14.=2×2=4(克) 所以,罐头平均重量的置信区间为:250-4≤X≤250+4,即(246,254)克。 [例9-7]对某型号的电子元件检查耐用性能,结果如下,试以95.45%的置信度 下估计这批产品的平均耐用时数。 使用寿命(小时)数量(件) 3000以下 2 3000-4000 30 4000-5000 50 5000以E 18
② 有效性:样本统计量的方差应比其它估计量的方差小。 ③一致性:当 n 充分大时,样本统计量充分地靠近被估计的参数本身。 二、区间估计 (一)抽样极限误差 1、指一定概率下抽样误差的可能范围,也称允许误差。用Δ表示。如果统计量 取平均数,则为 x x X − ;若取比率,则为 − p p P 2、Δ是可能范围,与这一估计的可能性大小有关,这个概率叫置信度,用 1- α表示(或 F(t))。 3、 x x = t p p = t 一个 F(t)对应于一个 t 值 (二)总体平均数的区间估计 1、 x x X − - x ≤ x X− ≤ x - x - x ≤- X ≤ x - x x -x ≤ X ≤ x + x 2、实例 [例 9-6] 由历史资料,知某罐头厂的罐头重量服从方差为 400 的正态分布。现 从 10000 个罐头中按重复抽样抽取 1%进行检查,得样本平均重量为 250 克,重 量的样本标准差为 18 克。在 95.45%的置信度下,试求罐头平均重量的置信区间。 解:1-α=95.45%,查正态分布表得 t=2 样本平均数 x =250(克) 抽样平均误差 x = n = 100 20 =2(克) 抽样极限误差 x x = t =2×2=4(克) 所以,罐头平均重量的置信区间为:250-4≤ X ≤250+4,即(246,254)克。 [例 9-7] 对某型号的电子元件检查耐用性能,结果如下,试以 95.45%的置信度 下估计这批产品的平均耐用时数。 使用寿命(小时) 数量(件) 3000 以下 2 3000-4000 30 4000-5000 50 5000 以上 18
解:n=100,属于大样本 ①计算样本平均数和样本标准差 =430=440(小时) 3-3 100 S= 区-=81(小时) ∑f ②求极限误差及置信区间 抽样平均误差4:三三0=731(小时) 又已知1一a=95.45%,查正态分布表得t=2 抽样极限误差△:=14.=73.1×2=146.2(小时》 这批电子元件的平均耐用时数的区间为:4340-146.2≤X≤4340+146.2, 即(4193.8.4486.2)小时。 (三)总体比率的区间估计 1、 lp-l≤△。 -△≤p-P≤△, -△,p≤-P≤△,p p△D≤P≤pt△e 与总体比率相应的总量指标-一总体中某一部分单位总数P的置信区间则 为: N(p-△.)≤NP≤N(p叶△.) 2、[例9-8】某厂生产了一批产品,从中抽取100件,发现有10件不合格,试计 算当把握程度为90%时合格率的区间范围。 解:己知n=100,p=(100-10)100=90%,1-a=0.95,=1,645 ,P1-D-,D9x01=3% 40n V100 △。=14,=1.645*3%=4.93% 所以,合格率的握程度为90%的区间范围为:90%4.93%≤P≤
解:n=100,属于大样本 ① 计算样本平均数和样本标准差 x = f xf = 100 434000 =4340(小时) S= ( ) − f x x f 2 =731(小时) ② 求极限误差及置信区间 抽样平均误差 x = n S = 100 731 =73.1(小时) 又已知 1-α=95.45%,查正态分布表得 t=2 抽样极限误差 x x = t =73.1×2=146.2(小时) 这批电子元件的平均耐用时数的区间为:4340-146.2≤ X ≤4340+146.2, 即(4193.8,4486.2)小时。 (三)总体比率的区间估计 1、 − p p P - p ≤ p P− ≤ p - p -p≤-P≤ p -p p-p ≤P≤p+ p 与总体比率相应的总量指标-总体中某一部分单位总数 NP 的置信区间则 为: N(p-p )≤NP≤N(p+ p ) 2、[例 9-8] 某厂生产了一批产品,从中抽取 100 件,发现有 10 件不合格,试计 算当把握程度为 90%时合格率的区间范围。 解:已知 n=100 ,p=(100-10)/100=90% ,1-α=0.95 , t=1.645 P ≈ p p (1 ) n − = 100 0.9 0.1 =3% p p = t = 1.645*3%=4.93% 所以,合格率的 握程度为 90%的区间 范围为:90%-4.93%≤P≤