第6章抽样调查 6.1抽样调查概述 【学习目标】 本章主要介绍了抽样调查的基本理论以及利用抽样理论进行假 设检验。包括抽样推断的重要意义、基本概念,通过学习,使学习者能够 站抽样推断的基本原理和方法,利用它进行假设检验。从而为社会经济管 理服务等 【基本要求】 学习本章内容,要求学习者了解抽样调查的重要意义,明确有关抽样 推断的几个基本概念,掌握抽样推断中的抽样平均误差,参数古迹、必要 样本数目的确定等基本原理和方法 【学习内容】 6.1.1抽样调查 1.抽样调查的概念 抽样调查的概念可以有广义和狭义两种理解。按照广义的理解,凡是 抽取一部分单位进行观察,并根据观察结果来推断全体的都是抽样调查 其中又可分为非随机抽样和随机抽样两种。非随机抽样就是由调査者根据 自己的认识和判断,选取若干个有代表性的单位,根据这些单位进行观察 的结果来推断全体,如民意测验等。随机抽样则是根据大数定律的要求 在抽取调查单位时,应保证总体中各个单位都有同样的机会被抽中。一般 所讲的抽样调查,大多数是指这种随机抽样而言,即狭义的抽样调查。所 以,严格意义上的抽样调査就是:按照随机原则从总体中抽取一部分单位 进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为 代表,对总体做出数量上的推断分析 2.抽样调查的特点 (1)与全面调查相比较,抽样调查能节省人力、费用和时间,而且比较
第 6 章 抽样调查 6.1 抽样调查概述 【学习目标】 本章主要介绍了抽样调查的基本理论以及利用抽样理论进行假 设检验。包括抽样推断的重要意义、基本概念,通过学习,使学习者能够 站抽样推断的基本原理和方法,利用它进行假设检验。从而为社会经济管 理服务等。 【基本要求】 学习本章内容,要求学习者了解抽样调查的重要意义,明确有关抽样 推断的几个基本概念,掌握抽样推断中的抽样平均误差,参数古迹、必要 样本数目的确定等基本原理和方法。 【学习内容】 6.1.1 抽样调查 1. 抽样调查的概念 抽样调查的概念可以有广义和狭义两种理解。按照广义的理解,凡是 抽取一部分单位进行观察,并根据观察结果来推断全体的都是抽样调查, 其中又可分为非随机抽样和随机抽样两种。非随机抽样就是由调查者根据 自己的认识和判断,选取若干个有代表性的单位,根据这些单位进行观察 的结果来推断全体,如民意测验等。随机抽样则是根据大数定律的要求, 在抽取调查单位时,应保证总体中各个单位都有同样的机会被抽中。一般 所讲的抽样调查,大多数是指这种随机抽样而言,即狭义的抽样调查。所 以,严格意义上的抽样调查就是:按照随机原则从总体中抽取一部分单位 进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为 代表,对总体做出数量上的推断分析。 2. 抽样调查的特点 (1)与全面调查相比较,抽样调查能节省人力、费用和时间,而且比较
灵活 抽样调查的调查单位比全面调查少得多,因而既能节约人力、费用和 时间,又能比较快地得到调查的结果,这对许多工作都是很有利的。例如 农产量全面调査的统计数字要等收割完毕以后一段时间才能得到,而抽样 调查的统计数字在收获的同时就可以得到,一般能早得到两个月左右,这 对于安排农产品的收购、储存、运输等都是很有利的。 由于调查单位少,有时可以增加调查内容。因此,有的国家在人口普 查的同时也进行人口抽样调查,一般项目通过普查取得资料,另一些项目 则通过抽样调査取得资料。这样既可以节省调查费用和时间,又丰富了调 查内容 (2)有些情况下,抽样调査的结果比全面调查要准确 统计数字与客观实际数量之间是会有差别的,这种差别通常称为误差 统计误差有两种:一是登记误差,也叫调查误差或工作误差,是指在调查 登记、汇总计算过程中发生的误差,这种误差应该设法避免的;二是代表 性误差,这是指用部分单位的统计数字为代表,去推算总体的全面数字时 所产生的误差,这种误差一定会发生,是不可避免的。 全面调查只有登记误差而没有代表性误差,而抽样调查则两种误差全 有。因此,人们往往认为抽样调查不如全面调查准确,种看法忽略了两种 误差的大小。全面调查的调查单位多,涉及面广,参加调查汇总的人员也 多,水平不齐,因而发生登记误差的可能性就大。抽样调查的调查单位少 参加调查汇总的人员也少,可以进行严格的培训,因而发生登记误差的可 能性就少。在这种情况下,抽样调査的结果会比全面凋査的结果更为准确。 (3)抽选部分单位时要遵循随机原则 其他非全面调査,如典型调査和重点调查等,一般是要根据统计调查 任务的要求,有意识地选取若干个调查单位进行调查,而抽样调查不同, 从总体中抽取部分单位时,必须非常客观,毫无偏见,也就是严格按照随 机原则抽取调查査单位,不受调查人员任何主观意图的影响,否则会带上个 人偏见,挑中那部分单位的标志值可能偏高或偏低,失去对总体数量特征 的代表性 (4)抽样调查会产生抽样误差,抽样误差可以计算,并且可以加以控制 在非全面调查方式中,典型调查固然也有可能用它所取得的部分单位 的数量特征去推算全体的数量特征,但这种推算误差范围和保证程度,是 无法事先计算并加以控制的。而抽样调查则是在于对一部分单位的统计调 査,在实际观察标志值的基础上,去推断总体的综合数量特征。例如,某
灵活 抽样调查的调查单位比全面调查少得多,因而既能节约人力、费用和 时间,又能比较快地得到调查的结果,这对许多工作都是很有利的。例如, 农产量全面调查的统计数字要等收割完毕以后一段时间才能得到,而抽样 调查的统计数字在收获的同时就可以得到,一般能早得到两个月左右,这 对于安排农产品的收购、储存、运输等都是很有利的。 由于调查单位少,有时可以增加调查内容。因此,有的国家在人口普 查的同时也进行人口抽样调查,一般项目通过普查取得资料,另一些项目 则通过抽样调查取得资料。这样既可以节省调查费用和时间,又丰富了调 查内容。 (2)有些情况下,抽样调查的结果比全面调查要准确 统计数字与客观实际数量之间是会有差别的,这种差别通常称为误差。 统计误差有两种:一是登记误差,也叫调查误差或工作误差,是指在调查 登记、汇总计算过程中发生的误差,这种误差应该设法避免的;二是代表 性误差,这是指用部分单位的统计数字为代表,去推算总体的全面数字时 所产生的误差,这种误差一定会发生,是不可避免的。 全面调查只有登记误差而没有代表性误差,而抽样调查则两种误差全 有。因此,人们往往认为抽样调查不如全面调查准确,种看法忽略了两种 误差的大小。全面调查的调查单位多,涉及面广,参加调查汇总的人员也 多,水平不齐,因而发生登记误差的可能性就大。抽样调查的调查单位少, 参加调查汇总的人员也少,可以进行严格的培训,因而发生登记误差的可 能性就少。在这种情况下,抽样调查的结果会比全面凋查的结果更为准确。 (3)抽选部分单位时要遵循随机原则 其他非全面调查,如典型调查和重点调查等,一般是要根据统计调查 任务的要求,有意识地选取若干个调查单位进行调查,而抽样调查不同, 从总体中抽取部分单位时,必须非常客观,毫无偏见,也就是严格按照随 机原则抽取调查单位,不受调查人员任何主观意图的影响,否则会带上个 人偏见,挑中那部分单位的标志值可能偏高或偏低,失去对总体数量特征 的代表性。 (4)抽样调查会产生抽样误差,抽样误差可以计算,并且可以加以控制 在非全面调查方式中,典型调查固然也有可能用它所取得的部分单位 的数量特征去推算全体的数量特征,但这种推算误差范围和保证程度,是 无法事先计算并加以控制的。而抽样调查则是在于对一部分单位的统计调 查,在实际观察标志值的基础上,去推断总体的综合数量特征。例如,某
村种有晚稻3000亩,在稻子成熟后随机抽取50个单位的田块为样本,每 个单位为10平方市尺,进行实割实测,求得其平均亩产为410千克,从而 推算该村的晚稻总产量为410×3000=1230000千克。当然这种推断也会存 在一定的误差,但它与其他统计估算不同,抽样误差的范围可以事先加以 计算,并控制这个误差范围,以保证抽样推断的结果达到一定的可靠程度。 抽样调査是必不可少的一种调査方法,但是,抽样调查也有它的弱点 例如,它只能提供说明整个总体情况的统计资料,而不能提供说明各级状 况的详细的统计资料,这就难以满足各级领导和管理部门的要求。抽样调 查也很难提供各种详细分类的统计资料。因此,抽样调査和全面调查是不 能互相代替的 3.抽样调查的适用范围 抽样调查适用的范围是广泛的,从原则上讲,为取得大量社会经济现 象的数量方面的统计资料,在许多场合都可以运用抽样调查方法取得:在 某些特殊场合,甚至还必须应用抽样调查的方法取得。 (1)有些事物在测量或试验时有破坏性,不可能进行全面调查 例如,灯泡耐用时间试验,电视机抗震能力试验,罐头食品的卫生检 查,人体白血球数量的化验等等,都是有破坏性的,不可能进行全面调查 只能使用抽样调查。 (2)有些总体从理论上讲可以进行全面调查,但实际上办不到 例如,了解某森林区有多少棵树,职工家庭生活状况如何等等。从理 论上讲这是有限总体,可以进行全面调查,但实际上办不到,也不必要 对这类情况的了解一般采取抽样调查方法。 (3)抽样调查方法可以用于工业生产过程中的质量控制 抽样调查不但广泛用于生产结果的核算和估计,而且也有效地应用于 对成批或大量连续生产的工业产品在生产过程中进行质量控制,检查生产 过程是否正常,及时提供有关信息,便于采取措施,预防废品的发生 (4)利用抽样推断的方法,可以对于某种总体的假设进行检验,来判断 这种假设的真伪,以决定取舍 例如,新教学法的采用、新工艺新技术的改革、新医疗方法的使用等 等是否收到明显效果,须对未知的或不完全知道的总体做出一些假设,然 后利用抽样调查的方法,根据实验材料对所作的假设进行检验,做出判断。 随着抽样理论的发展,抽样技术的进步,抽样方法的完善和统计队伍 业务水平的提高,抽样调查方法将在社会经济生活中得到愈加广泛的运用
村种有晚稻 3000 亩,在稻子成熟后随机抽取 50 个单位的田块为样本,每 个单位为 10 平方市尺,进行实割实测,求得其平均亩产为 410 千克,从而 推算该村的晚稻总产量为 410×3000=1230000 千克。当然这种推断也会存 在一定的误差,但它与其他统计估算不同,抽样误差的范围可以事先加以 计算,并控制这个误差范围,以保证抽样推断的结果达到一定的可靠程度。 抽样调查是必不可少的一种调查方法,但是,抽样调查也有它的弱点。 例如,它只能提供说明整个总体情况的统计资料,而不能提供说明各级状 况的详细的统计资料,这就难以满足各级领导和管理部门的要求。抽样调 查也很难提供各种详细分类的统计资料。因此,抽样调查和全面调查是不 能互相代替的。 3. 抽样调查的适用范围 抽样调查适用的范围是广泛的,从原则上讲,为取得大量社会经济现 象的数量方面的统计资料,在许多场合都可以运用抽样调查方法取得;在 某些特殊场合,甚至还必须应用抽样调查的方法取得。 (1) 有些事物在测量或试验时有破坏性,不可能进行全面调查 例如,灯泡耐用时间试验,电视机抗震能力试验,罐头食品的卫生检 查,人体白血球数量的化验等等,都是有破坏性的,不可能进行全面调查, 只能使用抽样调查。 (2)有些总体从理论上讲可以进行全面调查,但实际上办不到 例如,了解某森林区有多少棵树,职工家庭生活状况如何等等。从理 论上讲这是有限总体,可以进行全面调查,但实际上办不到,也不必要。 对这类情况的了解一般采取抽样调查方法。 (3)抽样调查方法可以用于工业生产过程中的质量控制 抽样调查不但广泛用于生产结果的核算和估计,而且也有效地应用于 对成批或大量连续生产的工业产品在生产过程中进行质量控制,检查生产 过程是否正常,及时提供有关信息,便于采取措施,预防废品的发生。 (4)利用抽样推断的方法,可以对于某种总体的假设进行检验,来判断 这种假设的真伪,以决定取舍 例如,新教学法的采用、新工艺新技术的改革、新医疗方法的使用等 等是否收到明显效果,须对未知的或不完全知道的总体做出一些假设,然 后利用抽样调查的方法,根据实验材料对所作的假设进行检验,做出判断。 随着抽样理论的发展,抽样技术的进步,抽样方法的完善和统计队伍 业务水平的提高,抽样调查方法将在社会经济生活中得到愈加广泛的运用
61.2.关于抽样方法 在实际应用中,抽样方法主要有两种:概率抽样和非概率抽样。 1.概率抽样 这一方法是根据一个已知的概率选取被调查者,无须调查人员在选样 中判断或抽选。从理论上讲,概率抽样是最理想、最科学的抽样方法,它 能保证样本数据对总体参数的代表性,而且它能够将调查误差中的抽样误 差限制在一定范围之内。但相对于非概率抽样来说,概率抽样也是花费较 大的抽样方法。概率抽样有以下几种形式。 (1)简单随机抽样( Simple random sampling)。是最基本的抽样形式, 它是完全随机地选择样本。此法要求有一个完美的抽样框,或者总体中有 一个个体的详尽名单 (2)分层抽样( Reduced sampling)。分两个步骤:首先将总体分成不同 的“层”,然后在每一层内进行抽样。分层抽样可防止简单随机抽样造成的 样本构成与总体构成不成比例的现象。 (3)整群抽样( Cluster sampling)。首先将全部总体分为若干部分,每 部分称为一个群,把每一群做为一个抽样单位,在群地进行抽样:然后, 在被抽中的群中做全面调查。例如,在市场调查的入户调查中,可以对被 选作抽样单位的某个大院的每家每户进行调查。 (4)等距抽样。又称系统抽样( Systematic sampling),是在样本框中每 隔一定距离抽选一个被调查者。这一方法也比较常用,有时还可与整群抽 样法和分层抽样法结合使用。例如,可采用系统抽样去抽取选择“群”或 个体,也可在某一“层”的范围内进行系统采样 2.非概率抽样 不是完全按随机原则选取样本。非概率抽样有三种形式。 (1)主要是由调査人员自由选择被调查者的非随机选样。例如在购物中 心采访100位妇女,这100位被调查者可以随机选择。 (2)通过某些条件过滤选择某些被调查者参与调查的判断抽样法。在许 多情况下,由于研究对象可能仅限于一部分居民,因而有时采用这种方法 能节省大量经费。 (3)大多数种类的研究——产品测试、街访、座谈会,只要不是属于要 进行总体推论的大多数项目都可使用非概率抽样法
6.1.2. 关于抽样方法 在实际应用中,抽样方法主要有两种:概率抽样和非概率抽样。 1. 概率抽样 这一方法是根据一个已知的概率选取被调查者,无须调查人员在选样 中判断或抽选。从理论上讲,概率抽样是最理想、最科学的抽样方法,它 能保证样本数据对总体参数的代表性,而且它能够将调查误差中的抽样误 差限制在一定范围之内。但相对于非概率抽样来说,概率抽样也是花费较 大的抽样方法。概率抽样有以下几种形式。 (1)简单随机抽样(Simple random sampling)。是最基本的抽样形式, 它是完全随机地选择样本。此法要求有一个完美的抽样框,或者总体中有 一个个体的详尽名单。 (2)分层抽样(Reduced sampling)。分两个步骤:首先将总体分成不同 的“层”,然后在每一层内进行抽样。分层抽样可防止简单随机抽样造成的 样本构成与总体构成不成比例的现象。 (3)整群抽样(Cluster sampling)。首先将全部总体分为若干部分,每一 部分称为一个群,把每一群做为一个抽样单位,在群地进行抽样;然后, 在被抽中的群中做全面调查。例如,在市场调查的入户调查中,可以对被 选作抽样单位的某个大院的每家每户进行调查。 (4)等距抽样。又称系统抽样(Systematic sampling),是在样本框中每 隔一定距离抽选一个被调查者。这一方法也比较常用,有时还可与整群抽 样法和分层抽样法结合使用。例如,可采用系统抽样去抽取选择“群”或 个体,也可在某一“层”的范围内进行系统采样。 2. 非概率抽样 不是完全按随机原则选取样本。非概率抽样有三种形式。 (1)主要是由调查人员自由选择被调查者的非随机选样。例如在购物中 心采访 100 位妇女,这 100 位被调查者可以随机选择。 (2)通过某些条件过滤选择某些被调查者参与调查的判断抽样法。在许 多情况下,由于研究对象可能仅限于一部分居民,因而有时采用这种方法 能节省大量经费。 (3)大多数种类的研究––––产品测试、街访、座谈会,只要不是属于要 进行总体推论的大多数项目都可使用非概率抽样法
62抽样推断中几个基本概念 621.全及总体和抽样总体 在抽样调查中,有两种不同的总体即全及总体和抽样总体。 1.全及总体 全及总体简称总体是指所要认识对象的全体,总体是由具有某种共同 性质的许多单位组成的,因此,总体也就是具有同一性质的许多单位的集 合体。例如,我们要研究某城市职工的生活水平,则该城市全部职工即构 成全及总体。我们要研究某乡粮食亩产水平,则该乡的全部粮食播种面积 即是全及总体。 全及总体按其各单位标志性质不同,可以分为变量总体和属性总体两 类。构成变量总体的各个单位可以用一定的数量标志加以计量,例如,研 究居民的收入水平,每户居民的收人就是它的数量标志,反映各户的数量 特征。但并非所有标志都是可以计量的,有的标志只能用一定的文字加以 描述。例如,要研究织布厂1000台织布机的完好情况,这时只能用“完好” 和“不完好”等文字作为品质标志来描述各台设备的属性特征,这种用文 字描写属性特征的总体称为属性总体。区分变量总体和属性总体是很重要 的,由于总体不同,认识这一总体的方法也就不同 对于变量总体可分为无限总体和有限总体两类。无限总体所包含的单 位为无限多,因而各单位的变量也就有无限多的取值。这种无限变量又有 两种情况:一种是可列的无限变量,即变量值的大小可以按照顺序一一列 举直至无穷:另一种情况则是不可列的无限变量,它是一种连续变量,在 任何一个区间内都有无限多的变量,不可能按顺序加以一一列举。我们所 说的无限总体主要是指后一种情况来说的。有限总体所包含的单位数则是 有限的,因而它的变量值也是有限的,当然可以按顺序加以一一列举 通常全及总体的单位数用大写的英文字母N来表示。作为全及总体 单位数N即使有限,但总是很大,大到几千,几万,几十万,几百万。例 如,人口总体,棉花纤维总体,粮食产量总体等等。对无限总体的认识只 能采用抽样的方法,而对于有限总体的认识,理论上虽可以应用全面调查 来搜集资料,但实际上往往由于不可能或不经济而借助抽样的方法以求得 对有限总体的认识 2.抽样总体 抽样总体简称样本,是从全及总体中随机抽取出来,代表全及总体部分 单位的集合体。抽样总体的单位数通常用小写英文字母n表示。对于全及
6.2 抽样推断中几个基本概念 6.2.1. 全及总体和抽样总体 在抽样调查中,有两种不同的总体即全及总体和抽样总体。 1. 全及总体 全及总体简称总体,是指所要认识对象的全体,总体是由具有某种共同 性质的许多单位组成的,因此,总体也就是具有同一性质的许多单位的集 合体。例如,我们要研究某城市职工的生活水平,则该城市全部职工即构 成全及总体。我们要研究某乡粮食亩产水平,则该乡的全部粮食播种面积 即是全及总体。 全及总体按其各单位标志性质不同,可以分为变量总体和属性总体两 类。构成变量总体的各个单位可以用一定的数量标志加以计量,例如,研 究居民的收入水平,每户居民的收人就是它的数量标志,反映各户的数量 特征。但并非所有标志都是可以计量的,有的标志只能用一定的文字加以 描述。例如,要研究织布厂 l000 台织布机的完好情况,这时只能用“完好” 和“不完好”等文字作为品质标志来描述各台设备的属性特征,这种用文 字描写属性特征的总体称为属性总体。区分变量总体和属性总体是很重要 的,由于总体不同,认识这一总体的方法也就不同。 对于变量总体可分为无限总体和有限总体两类。无限总体所包含的单 位为无限多,因而各单位的变量也就有无限多的取值。这种无限变量又有 两种情况:一种是可列的无限变量,即变量值的大小可以按照顺序一一列 举直至无穷;另一种情况则是不可列的无限变量,它是一种连续变量,在 任何一个区间内都有无限多的变量,不可能按顺序加以一一列举。我们所 说的无限总体主要是指后一种情况来说的。有限总体所包含的单位数则是 有限的,因而它的变量值也是有限的,当然可以按顺序加以一一列举。 通常全及总体的单位数用大写的英文字母 N 来表示。作为全及总体, 单位数 N 即使有限,但总是很大,大到几千,几万,几十万,几百万。例 如,人口总体,棉花纤维总体,粮食产量总体等等。对无限总体的认识只 能采用抽样的方法,而对于有限总体的认识,理论上虽可以应用全面调查 来搜集资料,但实际上往往由于不可能或不经济而借助抽样的方法以求得 对有限总体的认识。 2. 抽样总体 抽样总体简称样本,是从全及总体中随机抽取出来,代表全及总体部分 单位的集合体。抽样总体的单位数通常用小写英文字母 n 表示。对于全及
总体单位数N来说,n是个很小的数,它可以是N的几十分之一,几百分 之一,几千分之一,几万分之 般说来,样本单位数达到或超过30 个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取 大样本。而自然实验观察则多取小样本。以很小的样本来推断很大的总体 这是抽样调查的一个特点 如果说全及总体是唯一确定的,那么,抽样样本就完全不是这样, 个全及总体可能抽取很多个抽样总体,全部样本的可能数目和每一样本的 容量有关,它也和随机抽样的方法有关。不同的样本容量和取样方法,样 本的可能数目也有很大的差别,抽样本身是一种手段,目的在于对总体做 出判断,因此,样本容量要多大,要怎样取样,样本的数目可能有多少, 它们的分布又怎样,这些都是关系到对总体判断的准确程度,都需要加以 认真的研究。 622.全及指标和抽样指标 1.全及指标 根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属 性的综合指标,称为全及指标。由于全及总体是唯一确定的,根据全及总 体计算的全及指标也是唯一确定的。 不同性质的总体,需要计算不同的全及指标。对于变量总体,由于各 单位的标志可以用数量来表示,所以可以计算总体平均数。 X 对于属性总体,由于各单位的标志不可以用数量来表示,只能用一定 的文字加以描述,所以,就应该计算结构相对指标,称为总体成数。用大 写英文字母P表示,它说明总体中具有某种标志的单位数在总体中所占的 比重。变量总体也可以计算成数,即总体单位数在所规定的某变量值以上 或以下的比重,视同具有或不具有某种属性的单位数比重。 设总体N个单位中,有N1个单位具有某种属性,N0个单位不具有某 种属性,N1+N0=N,P为总体中具有某种属性的单位数所占的比重,Q 为不具有某种属性的单位数所占的比重,则总体成数为 N
总体单位数 N 来说,n 是个很小的数,它可以是 N 的几十分之一,几百分 之一,几千分之一,几万分之一。一般说来,样本单位数达到或超过 30 个称为大样本,而在 30 个以下称为小样本。社会经济现象的抽样调查多取 大样本。而自然实验观察则多取小样本。以很小的样本来推断很大的总体, 这是抽样调查的一个特点。 如果说全及总体是唯一确定的,那么,抽样样本就完全不是这样,一 个全及总体可能抽取很多个抽样总体,全部样本的可能数目和每一样本的 容量有关,它也和随机抽样的方法有关。不同的样本容量和取样方法,样 本的可能数目也有很大的差别,抽样本身是一种手段,目的在于对总体做 出判断,因此,样本容量要多大,要怎样取样,样本的数目可能有多少, 它们的分布又怎样,这些都是关系到对总体判断的准确程度,都需要加以 认真的研究。 6.2.2. 全及指标和抽样指标 1. 全及指标 根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属 性的综合指标,称为全及指标。由于全及总体是唯一确定的,根据全及总 体计算的全及指标也是唯一确定的。 不同性质的总体,需要计算不同的全及指标。对于变量总体,由于各 单位的标志可以用数量来表示,所以可以计算总体平均数。 N X X = 对于属性总体,由于各单位的标志不可以用数量来表示,只能用一定 的文字加以描述,所以,就应该计算结构相对指标,称为总体成数。用大 写英文字母 P 表示,它说明总体中具有某种标志的单位数在总体中所占的 比重。变量总体也可以计算成数,即总体单位数在所规定的某变量值以上 或以下的比重,视同具有或不具有某种属性的单位数比重。 设总体 N 个单位中,有 N1 个单位具有某种属性,N0 个单位不具有某 种属性, N1 + N0 =N,P 为总体中具有某种属性的单位数所占的比重,Q 为不具有某种属性的单位数所占的比重,则总体成数为 P= N N1
Q-NO-N-N 1=1-P N 此外,全及指标还有总体方差σ2和总体标准差σ,它们都是测量总 体标志值分散程度的指标。 ∑(X-X) N (X-X) 抽样指标 由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标。和 全及指标相对应还有抽样平均数x、抽样成数p、样本标准差S和样本方 差S2等等。x和p用小写英文字母表示,以示区别 n 设样本n个单位中有n个单位具有某种属性,no个单位不具有某种属 性,n1+n=n,p为样本中具有某种属性的单位数所占的比重,q为不具有 某种属性的单位数所占的比重,则抽样成数为 P= P 样本的方差和样本标准差分别为 ∑ S 由于一个全及总体可以抽取许多个样本,样本不同,抽样指标的数值 也就不同,所以抽样指标的数值不是唯一确定的。实际上抽样指标是样本 变量的函数,它本身也是随机变量 623.重置抽样与不重置抽样
Q= P N N N N N = − − = 1 0 1 此外,全及指标还有总体方差 2 和总体标准差 ,它们都是测量总 体标志值分散程度的指标。 N X X 2 2 ( − ) = N X X 2 ( − ) = 2. 抽样指标 由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标。和 全及指标相对应还有抽样平均数 x 、抽样成数 p、样本标准差 S 和样本方 差 S 2 等等。 x 和 p 用小写英文字母表示,以示区别。 n x x = 设样本 n 个单位中有 n1 个单位具有某种属性,n0 个单位不具有某种属 性,n1+ n0 =n,p 为样本中具有某种属性的单位数所占的比重,q 为不具有 某种属性的单位数所占的比重,则抽样 成数为 p n n n n n q n n P = − − = , = = 1 1 0 1 样本的方差和样本标准差分别为 n x x S − = 2 2 ( ) n x x S − = 2 ( ) 由于一个全及总体可以抽取许多个样本,样本不同,抽样指标的数值 也就不同,所以抽样指标的数值不是唯一确定的。实际上抽样指标是样本 变量的函数,它本身也是随机变量。 6.2.3. 重置抽样与不重置抽样
重置抽样 重置抽样,又称有放回的抽样,是指从全及总体N个单位中随机抽取 一个容量为n的样本,每次抽中的单位经登录其有关标志表现后又放回总 体中重新参加下一次的抽选。每次从总体中抽取一个单位,可看作是一次 试验,连续进行n次试验就构成了一个样本。因此,重置抽样的样本是经 n次相互独立的连续试验形成的。每次试验均是在相同的条件下完全按照 随机原则进行的 2.不重置抽样 不重置抽样,又称无放回的抽样,是指从全及总体N个单位中随机抽 取一个容量为n的样本,每次抽中的单位登录其有关标志表现后不再放回 总体中参加下一次的抽选。经过连续n次不重置抽选单位构成样本,实质 上相当于一次性同时从总体中抽中n个单位构成样本。上一次的抽选结果 会直接影响到下一次抽选,因此,不重置抽样的样本是经n次相互联系的 连续试验形成的 624抽样框与样本数 1.抽样框 抽样框,又称抽样结构,是指对可以选择作为样本的总体单位列出名 册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可 采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则 不能计算样本单位的概率,从而也就无法进行概率选样 2.样本数 样本数,又称样本的可能数目,是指从总体N个单位中随机抽选n个 单位构成样本,通常有多种抽选方法,每一种抽选方法实际上是n个总体 单位的一种排列组合,一种排列组合便构成一个可能的样本,n个总体单 位的排列组合总数,称为样本的可能数目 63抽样推断的理论基础一大数定律与中心极限定理 抽样推断的理论基础主要是概率论的极限定理中的大数定律与中心极 限定理。 63.1大数定律 大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试 验出现的结果的平均值却几乎总是接近于某个确定的值。其原因是,在大
1. 重置抽样 重置抽样,又称有放回的抽样,是指从全及总体 N 个单位中随机抽取 一个容量为 n 的样本,每次抽中的单位经登录其有关标志表现后又放回总 体中重新参加下一次的抽选。每次从总体中抽取一个单位,可看作是一次 试验,连续进行 n 次试验就构成了一个样本。因此,重置抽样的样本是经 n 次相互独立的连续试验形成的。每次试验均是在相同的条件下完全按照 随机原则进行的。 2. 不重置抽样 不重置抽样,又称无放回的抽样,是指从全及总体 N 个单位中随机抽 取一个容量为 n 的样本,每次抽中的单位登录其有关标志表现后不再放回 总体中参加下一次的抽选。经过连续 n 次不重置抽选单位构成样本,实质 上相当于一次性同时从总体中抽中 n 个单位构成样本。上一次的抽选结果 会直接影响到下一次抽选,因此,不重置抽样的样本是经 n 次相互联系的 连续试验形成的。 6.2.4. 抽样框与样本数 1. 抽样框 抽样框,又称抽样结构,是指对可以选择作为样本的总体单位列出名 册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可 采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则 不能计算样本单位的概率,从而也就无法进行概率选样。 2. 样本数 样本数,又称样本的可能数目,是指从总体 N 个单位中随机抽选 n 个 单位构成样本,通常有多种抽选方法,每一种抽选方法实际上是 n 个总体 单位的一种排列组合,一种排列组合便构成一个可能的样本,n 个总体单 位的排列组合总数,称为样本的可能数目。 6.3 抽样推断的理论基础—大数定律与中心极限定理 抽样推断的理论基础主要是概率论的极限定理中的大数定律与中心极 限定理。 6.3.1 大数定律 大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试 验出现的结果的平均值却几乎总是接近于某个确定的值。其原因是,在大
量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消 从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出 生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的 观察就会发现,男婴和女婴占婴儿总数的比重均会趋于50% 大数定律有若干个表现形式。这里仅介绍其中常用的两个重要定律: 1.切贝雪夫大数定理 设x1,x2…是一列两两相互独立的随机变量,服从同一分布,且存在 有限的数学期望a和方差02,则对任意小的正数ε,有 lim n→on 该定律的含义是:当n很大,服从同一分布的随机变量x,x2…,xn 的算术平均数—将依概率接近于这些随机变量的数学期望 将该定律应用于抽样调査,就会有如下结论:随着样本容量n的增加, 样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计 总体平均数提供了理论依据 2贝努里大数定律 设Hn是n次独立试验中事件A发生的次数,且事件A在每次试验中 发生的概率为P,则对任意正数ε,有: lim n→0 力"b 该定律是切贝雪夫大数定律的特例,其含义是,当n足够大时,事件 A出现的频率将几乎接近于其发生的概率,即频率的稳定性。 在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。 63.2.中心极限定理 大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的 分布的问题。而中心极限定理说明的是在一定条件下,大量独立随机变量 的平均数是以正态分布为极限的。中心极限定理也有若干个表现形式,这 里仅介绍其中四个常用定理。 1.辛钦中心极限定理
量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消, 从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出 生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的 观察就会发现,男婴和女婴占婴儿总数的比重均会趋于 50%。 大数定律有若干个表现形式。这里仅介绍其中常用的两个重要定律: 1. 切贝雪夫大数定理 设 x1,x2 …是一列两两相互独立的随机变量,服从同一分布,且存在 有限的数学期望 a 和方差σ2,则对任意小的正数ε,有: 1 lim = − → a n x P n i 该定律的含义是:当 n 很大,服从同一分布的随机变量 x1,x2 …,xn 的算术平均数 n x i 将依概率接近于这些随机变量的数学期望。 将该定律应用于抽样调查,就会有如下结论:随着样本容量 n 的增加, 样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计 总体平均数提供了理论依据。 2 贝努里大数定律 设 n 是 n 次独立试验中事件 A 发生的次数,且事件 A 在每次试验中 发生的概率为 P,则对任意正数ε,有: 1 lim = − → p n u P n n 该定律是切贝雪夫大数定律的特例,其含义是,当 n 足够大时,事件 A 出现的频率将几乎接近于其发生的概率,即频率的稳定性。 在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。 6.3.2. 中心极限定理 大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的 分布的问题。而中心极限定理说明的是在一定条件下,大量独立随机变量 的平均数是以正态分布为极限的。中心极限定理也有若干个表现形式,这 里仅介绍其中四个常用定理。 1. 辛钦中心极限定理
设随机变量x1,x2…,x相互独立,服从同一分布且有有限的数学 期望a和方差2,则随机变量x∑x1,在n无限增大时,服从参数为a 和的正态分布即n→∞时 x -N(a 将该定理应用到抽样调查,就有这样一个结论:如果抽样总体的数学 期望a和方差o2是有限的,无论总体服从什么分布,从中抽取容量为n 的样本时,只要n足够大,其样本平均数的分布就趋于数学期望为a,方 差为2/n的正态分布 2.德莫佛——拉普拉斯中心极限定理 设pn是n次独立试验中事件A发生的次数,事件A在每次试验中发 生的概率为P则当n无限大时,频率设n/n趋于服从参数为p,P=pP) 的正态分布。即 p(1-P un-N(p, n 该定理是辛钦中心极限定理的特例。在抽样调查中,不论总体服从什 么分布,只要n充分大,那么频率就近似服从正态分布 3.李亚普洛夫中心极限定理 设x1,x2,…,xn,…是一个相互独立的随机变量序列,它们具有有 限的数学期望和方差:ak=E(Xkbk2=D(Xk)(k=1,2,…n,…) 记B2=∑b,如果能选择这一个正数8>0,使当 ∑Ex-a0→0 则对任意的ⅹ有: B 2+8ka
设随机变量 x1,x2 …,xn 相互独立,服从同一分布且有有限的数学 期望 a 和方差σ2,则随机变量 n x x i = ,在 n 无限增大时,服从参数为 a 和 n 2 的正态分布即 n→∞时, ~ ( , ) 2 n x N a 将该定理应用到抽样调查,就有这样一个结论:如果抽样总体的数学 期望 a 和方差σ2 是有限的,无论总体服从什么分布,从中抽取容量为 n 的样本时,只要 n 足够大,其样本平均数的分布就趋于数学期望为 a,方 差为σ2 /n 的正态分布。 2. 德莫佛——拉普拉斯中心极限定理 设 n 是 n 次独立试验中事件 A 发生的次数,事件 A 在每次试验中发 生的概率为 P,则当 n 无限大时,频率设 n / n 趋于服从参数为 n p p p (1 ) , − 的正态分布。即: ) (1 ) ~ ( , n p p N p n n − 该定理是辛钦中心极限定理的特例。在抽样调查中,不论总体服从什 么分布,只要 n 充分大,那么频率就近似服从正态分布。 3. 李亚普洛夫中心极限定理 设 x1,x2,…,xn,…是一个相互独立的随机变量序列,它们具有有 限的数学期望和方差: ( ), ( ) ( 1,2, , ) ak = E Xk bk 2 = D X K k = n 。 记 = = n k Bn bk 1 2 2 ,如果能选择这一个正数δ>0,使当 n→∞时, 0 2 1 (2 ) 1 − → + + = k k n n k E x a B , 则 对 任 意 的 x 有 :