案例2 全国电视观众抽样调查的样本设计与加权方法 一、背景介绍 我国是世界上人口最多的国家,也拥有世界上数量最大的电视收视群体。全 国电视观众抽样调查是由中央电视台组织的对全国电视观众的大规模的抽样调 查。从1987年开始,每5年进行一次,2002年是第四次调查。电视观众调查的 目的是:准确获取全国电视观众群体规模、构成以及分布情况,获取这些观众的 收视习惯,对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改 进电视频道和栏目、开展电视观众行为研究提供新的依据。 为保证调查的客观、公正和准确,中央电视台将此次调查委托中国科学院数 学与系统科学研究院系统科学所、国家统计局农村调查总队及央视市场调查股份 有限公司等机构共同完成,其中调查的抽样设计及数据的加权处理方法是由笔者 承相的。 本次调查采用分层PPS抽样方法,把全国所有的区、县作为第一级(阶)抽样 单位,并且确定了所有样本区县与居委会、村委会的样本量以及每个居(村委会) 分配的具体样本量,共抽中覆盖全国31个省,自治区,直辖市(港,澳,台除 外)的11950个成人样本,实际回收有效问卷11760份,有效率为98.41%。另 外还附带调查了2042个儿童样本。 为了确保调查数据的准确,中央电视台总编室先后召开了4次专家讨论会相 论证会,对此次调查的问卷内容,抽样设计进行了反复推敲和论证。整个调查活 动从筹备到公布调查结果历时一年。调查的新闻发布会于12月19日上午在中央 电视台举行,并在当天的新闻联播中进行了报道,引起广泛的社会反响,调查取 得良好的社会效果。 本文着重介绍此次调查的样本设计及为估计全国及不同地区目标量的数据 加权方法。2002年调查的抽样方案的设计思想及具体抽样方法与前几次调查有 很大差别。从设计思想上,本次调查的抽样以精确估计全国目标量为重点,而个 考虑省级估计的需要,样本分配更为科学与合理。对第一阶抽样单元即区、县进 行了非常仔细的分层,从而大大地提高于估计的精度:对自我代表层的设立、城 乡区分等具体问题都作了妥善的处理,这次调查的抽样设计是一个科学性强、放
案例 2 一、背景介绍 我国是世界上人口最多的国家,也拥有世界上数量最大的电视收视群体。全 国电视观众抽样调查是由中央电视台组织的对全国电视观众的大规模的抽样调 查。从 1987 年开始,每 5 年进行一次,2002 年是第四次调查。电视观众调查的 目的是:准确获取全国电视观众群体规模、构成以及分布情况,获取这些观众的 收视习惯,对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改 进电视频道和栏目、开展电视观众行为研究提供新的依据。 为保证调查的客观、公正和准确,中央电视台将此次调查委托中国科学院数 学与系统科学研究院系统科学所、国家统计局农村调查总队及央视市场调查股份 有限公司等机构共同完成,其中调查的抽样设计及数据的加权处理方法是由笔者 承担的。 本次调查采用分层 PPS 抽样方法,把全国所有的区、县作为第一级(阶)抽样 单位,并且确定了所有样本区县与居委会、村委会的样本量以及每个居(村委会) 分配的具体样本量,共抽中覆盖全国 31 个省,自治区,直辖市 (港,澳,台除 外)的 11950 个成人样本,实际回收有效问卷 11760 份,有效率为 98.41%。另 外还附带调查了 2042 个儿童样本。 为了确保调查数据的准确,中央电视台总编室先后召开了 4 次专家讨论会相 论证会,对此次调查的问卷内容,抽样设计进行了反复推敲和论证。整个调查活 动从筹备到公布调查结果历时一年。调查的新闻发布会于 12 月 19 日上午在中央 电视台举行,并在当天的新闻联播中进行了报道,引起广泛的社会反响,调查取 得良好的社会效果。 本文着重介绍此次调查的样本设计及为估计全国及不同地区目标量的数据 加权方法。2002 年调查的抽样方案的设计思想及具体抽样方法与前几次调查有 很大差别。从设计思想上,本次调查的抽样以精确估计全国目标量为重点,而个 考虑省级估计的需要,样本分配更为科学与合理。对第一阶抽样单元即区、县进 行了非常仔细的分层,从而大大地提高于估计的精度;对自我代表层的设立、城 乡区分等具体问题都作了妥善的处理,这次调查的抽样设计是一个科学性强、放
率高、操作便利的方案。 二、目标总体、抽样设计的原则及需要考虑的具体问题 1.目标总体 此次调查的目标总体定为全国31个省、自治区、直辖市(港澳台除外)电视 信号覆盖区域内所有城乡家庭户中的13岁以上可视居民以及4~12岁的儿童。 包括有户籍的正式住户也包括所有临时的或其他的住户,只要已在本居(村)委会 内居住满6个月或预计居住6个月以上,都包括在内,但不包括住在军营内的现 役军人、集体户及无固定住所的人口。 2.抽样设计的原则 抽样设计按照科学、效率、便利的原则。首先,作为一项全国性抽样调查, 整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区有代 人性。其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案 设汁应使调查精度尽可能高,也即目标量估计的抽样误差尽可能小。第三,方案 必须有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理, 3.需要考虑的具体问题及相应的处理方法 (1)城乡区分 城市与农村的电视观众的收视习惯与爱好有很大的区别。理所当然地应分别进 行研究,以便于对比。最方便的处理是将他们作为两个研究域进行独立抽样,但 这样做的代价是调查样本点数量大,地域分散,相应的费用也就较高。另一种处 理方式是在第一阶抽样中不考虑区分城乡,统一抽取抽样单元(例如区、县),在 其后的抽样中再区分城、乡。这样做的优点是样本点相对集中,但数据处理较为 复杂。综合考虑各种因素,本方案采用第二种处理方式。在样本区、县中,以居 委会的数据代表城市:以村委会的数据代表农村。 (②)抽样方案的类型与抽样单元的确定 全国性抽样必须采用利用区域框的多阶抽样,而多阶抽样中设计的关键是各阶 抽样单元的选择,其中尤以第一阶抽样单元最为重要。本项调查除个别直辖市及 大城市外,不要求对省、自治区进行推断,从而可不考虑样本对省的代表性。在 这种情况下,选择区、县作为初级抽样单元最为适宜。因为全国区、县的总数量 很大,区、县样本量也会比较大,因而第一阶的抽样误差比较小。另外对区、县 的分层也可分得更为精细
率高、操作便利的方案。 二、目标总体、抽样设计的原则及需要考虑的具体问题 1.目标总体 此次调查的目标总体定为全国 31 个省、自治区、直辖市(港澳台除外)电视 信号覆盖区域内所有城乡家庭户中的 13 岁以上可视居民以及 4~12 岁的儿童。 包括有户籍的正式住户也包括所有临时的或其他的住户,只要已在本居(村)委会 内居住满 6 个月或预计居住 6 个月以上,都包括在内,但不包括住在军营内的现 役军人、集体户及无固定住所的人口。 2.抽样设计的原则 抽样设计按照科学、效率、便利的原则。首先,作为一项全国性抽样调查, 整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区有代 人性。其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案 设汁应使调查精度尽可能高,也即目标量估计的抽样误差尽可能小。第三,方案 必须有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理, 3.需要考虑的具体问题及相应的处理方法 (1)城乡区分 城市与农村的电视观众的收视习惯与爱好有很大的区别。理所当然地应分别进 行研究,以便于对比。最方便的处理是将他们作为两个研究域进行独立抽样,但 这样做的代价是调查样本点数量大,地域分散,相应的费用也就较高。另一种处 理方式是在第一阶抽样中不考虑区分城乡,统一抽取抽样单元(例如区、县),在 其后的抽样中再区分城、乡。这样做的优点是样本点相对集中,但数据处理较为 复杂。综合考虑各种因素,本方案采用第二种处理方式。在样本区、县中,以居 委会的数据代表城市;以村委会的数据代表农村。 (2)抽样方案的类型与抽样单元的确定 全国性抽样必须采用利用区域框的多阶抽样,而多阶抽样中设计的关键是各阶 抽样单元的选择,其中尤以第一阶抽样单元最为重要。本项调查除个别直辖市及 大城市外,不要求对省、自治区进行推断,从而可不考虑样本对省的代表性。在 这种情况下,选择区、县作为初级抽样单元最为适宜。因为全国区、县的总数量 很大,区、县样本量也会比较大,因而第一阶的抽样误差比较小。另外对区、县 的分层也可分得更为精细
本抽样方案采用分层五阶抽样。各阶抽样单元确定为: 第一阶抽样:区(地级市以上城市的市辖区)、县(包括县级市等): 第二阶抽样:街道、乡、镇: 第三阶抽样:居委会、村委会: 第四阶抽样:家庭户: 第五阶抽样:个人。 为提高抽样效率,减少抽样误差,在第一阶抽样中对区、县采用按地域及类别 分层。在每一层内前三阶抽样均采用按与人口成正比的不等概率系统抽样PPS 系统抽样),而第四阶抽样采用等概率系统抽样,即等距抽样,第五阶抽样采用 简单随机抽样。 (3)自我代表层的设立 根据主持单位的要求,本次调查需要对北京、上海两个直辖市以及广州、成都、 长沙与西安四个省会城市进行独立分析,因而在处理上将这些城市(包括下辖的 所有区、县)每个都作为单独的一层处理。为方便起见,以下把这样的层称为自 我代表层。考虑到在这样处理后,全国其他区县在分层中的一些具体问题以及各 地的特殊情况,将天津市也作为自我代表层处理。另外,鉴于海南与西藏情况特 殊,因此也将它们作为自我代表层处理。这样自我代表层共有9个。 三、样本区、县的抽选方法 1.全国区、县的调查总体 根据2001年的全国行政区划资料[4],全国(港澳台除外)共有787个市辖区, 此外有5个地级市(湖州、东莞、中山、三亚、嘉峪关)不设市辖区,若将它们每 个都视同一个市辖区,则共有792个区:全国共有1674个县(包括自治县及旗、 自治旗、特区与林区等)、400个县级市,县级行政单位的总数为2074个,这中 间包括福建省的金门县,不能进行调查,因此除金门县以外的所有2865个区、 县(792个区及2073个县)构成此次调查的调查总体。 2.区、县分层 为便于调查后的资料分类汇总及提高精度,应将全国区、县进行分层。分层 叫以按多种标识进行,从理论而言,分层标识应选取与调查指标相关程度较高的 那些变量。在本次调查中也就是应选取与观众收视行为、习惯与爱好等密切相关 的内变量。关于这方面已有一些相应的研究结果,例如观众的年龄、性别、文化
本抽样方案采用分层五阶抽样。各阶抽样单元确定为: 第一阶抽样:区(地级市以上城市的市辖区)、县(包括县级市等); 第二阶抽样:街道、乡、镇; 第三阶抽样:居委会、村委会; 第四阶抽样:家庭户; 第五阶抽样:个人。 为提高抽样效率,减少抽样误差,在第一阶抽样中对区、县采用按地域及类别 分层。在每一层内前三阶抽样均采用按与人口成正比的不等概率系统抽样 PPS 系统抽样),而第四阶抽样采用等概率系统抽样,即等距抽样,第五阶抽样采用 简单随机抽样。 (3)自我代表层的设立 根据主持单位的要求,本次调查需要对北京、上海两个直辖市以及广州、成都、 长沙与西安四个省会城市进行独立分析,因而在处理上将这些城市(包括下辖的 所有区、县)每个都作为单独的一层处理。为方便起见,以下把这样的层称为自 我代表层。考虑到在这样处理后,全国其他区县在分层中的一些具体问题以及各 地的特殊情况,将天津市也作为自我代表层处理。另外,鉴于海南与西藏情况特 殊,因此也将它们作为自我代表层处理。这样自我代表层共有 9 个。 三、样本区、县的抽选方法 1.全国区、县的调查总体 根据2001年的全国行政区划资料[4],全国(港澳台除外)共有787个市辖区, 此外有 5 个地级市(湖州、东莞、中山、三亚、嘉峪关)不设市辖区,若将它们每 个都视同一个市辖区,则共有 792 个区;全国共有 1674 个县(包括自治县及旗、 自治旗、特区与林区等)、400 个县级市,县级行政单位的总数为 2074 个,这中 间包括福建省的金门县,不能进行调查,因此除金门县以外的所有 2865 个区、 县 (792 个区及 2073 个县)构成此次调查的调查总体。 2.区、县分层 为便于调查后的资料分类汇总及提高精度,应将全国区、县进行分层。分层 叫以按多种标识进行,从理论而言,分层标识应选取与调查指标相关程度较高的 那些变量。在本次调查中也就是应选取与观众收视行为、习惯与爱好等密切相关 的内变量。关于这方面已有一些相应的研究结果,例如观众的年龄、性别、文化
程度、职业、居住地的生活习惯与气候等。不过注意到我们不可能按观众的个体 来分类,只能按观众居住的区、县来分类。而对于区、县,许多表示人口特征(除 人口总数)及经济文化发展指标(除所在省的人文发展指数及县的人均GPT)的资 料都无法得到,经过多方研究,我们对区县的分层按以下两种标识进行。 (1)地域 我国幅员广大,各地经济、社会、文化与气候的地域差异极大,而所有这些 因素部与电视观众的收视行为密切相关。我们首先将所有县按所在省(自治区、 直辖市)的地理位置分成3大层14个子层,[各省括号内的数字为它们的人文发 展指数(HumanDevelopmentIndex,简称HDI),在全国的排位,参见本案例的辅 助材料。地域分层如表1。 需要说明的是以上划分的层,还考虑了其他一些因素,各省按联合国制定的 标准计算的人文发展指数仅是考虑因素之一。例如,按人文发展指数,广西(第 19位)实际上可划在第二大层(中部地区),但考虑到国家西部大开发的范围将广 西划入西部地区,我们的划分与它一致,这样便于资料的汇总发布。又如海南省, 根据人文发展指数(第13位)放在第一大层稍为勉强,但是根据它的地理位置以 及它以旅游为主业,也有其特殊性,作为单独一个子层,也划在第一大层。 (2)区、县类别 表1全国区、县的地域分层 大层 所含省、自治区、直辖市 第一大层(东部地区) 子层10:上海(1)人、北京(2入、天津(3)(每个都作为自我代表 层) 子层11:辽宁(5)、山东(9) 子层12:江苏(7)、浙江(6) 子层13:福建(8)、广东(4) 子层14:海南(13)(自我代表层) 第二大层(中部地区) 子层21:黑龙江(10、吉林(12) 子层22:河北(11、河南(18)、山西(16) 子层23:安徽(20)、江西(23) 子层24:湖北(14)、湖南(17) 第三大层(西部地区) 子层31:内蒙古(21)、新疆(15、宁夏(26) 子层32:陕西(25)、甘肃(28)、青海(29)
程度、职业、居住地的生活习惯与气候等。不过注意到我们不可能按观众的个体 来分类,只能按观众居住的区、县来分类。而对于区、县,许多表示人口特征(除 人口总数)及经济文化发展指标(除所在省的人文发展指数及县的人均 GPT)的资 料都无法得到,经过多方研究,我们对区县的分层按以下两种标识进行。 (1)地域 我国幅员广大,各地经济、社会、文化与气候的地域差异极大,而所有这些 因素部与电视观众的收视行为密切相关。我们首先将所有县按所在省(自治区、 直辖市)的地理位置分成 3 大层 14 个子层,[各省括号内的数字为它们的人文发 展指数(HumanDevelopmentlndex,简称 HDl),在全国的排位,参见本案例的辅 助材料。地域分层如表 1。 需要说明的是以上划分的层,还考虑了其他一些因素,各省按联合国制定的 标准计算的人文发展指数仅是考虑因素之一。例如,按人文发展指数,广西 (第 19 位)实际上可划在第二大层(中部地区),但考虑到国家西部大开发的范围将广 西划入西部地区,我们的划分与它一致,这样便于资料的汇总发布。又如海南省, 根据人文发展指数(第 13 位)放在第一大层稍为勉强,但是根据它的地理位置以 及它以旅游为主业,也有其特殊性,作为单独一个子层,也划在第一大层。 (2)区、县类别 表 1 全国区、县的地域分层 大层 所含省、自治区、直辖市 第一大层(东部地区) 子层 10:上海(1)、北京(2)、天津(3)(每个都作为自我代表 层) 子层 11:辽宁(5)、山东(9) 子层 12:江苏(7)、浙江(6) 子层 13:福建(8)、广东(4) 子层 14:海南(13)(自我代表层) 第二大层(中部地区) 子层 21:黑龙江(10)、吉林(12) 子层 22:河北(11)、河南(18)、山西(16) 子层 23:安徽(20)、江西(23) 子层 24:湖北(14)、湖南(17) 第三大层(西部地区) 子层 31:内蒙古(21)、新疆(15)、宁夏(26) 子层 32:陕西(25)、甘肃(28)、青海(29)
子层33:重庆(22入、四川(24) 子层34:广西(19X、云南(27)、贵州(30) 子层35:西藏(31)(自我代表层) 同一大层的各市辖区与所隶属的城市的规模、在城市中的地理位置(市区或 郊区)和居民成分构成(非农业人口占总人口的比例)有较大差异,各县也因经济 文化发达程度有较大差异。我们将各大层中所有的区、县除已划为自我代表层的 以外,(如下称抽样总体)分成一类区,二类区,县级市,一类县,二类县5类, 每类组成1个小层。 全国抽样总体中所有区县共分成11X5二55个小层。其中区的划分标准为 区中非农业人口占总人口的比例,比例高于标准的为一类区,比例低于标准的为 二类区:县的划分标准为人均国内生产总值,高的为一类县,低的为二类县。区 县划分类别的标准在三大层中各不相同,具体标准如下: 区类别的划分标准:东部地区与中部地区:非农人口在总人口中的比例大于 或等于80%为一类区,小于80%为二类区:西部地区:非农人口在总人口中的 比例大于或等于70%为一类区,小于70%为二类区。 县类别的划分标准:东部地区:人均GDP在5000元以上为一类县:5000元 以下为二类县。中部地区:人均GDP在4000元以上为一类县:4000元以下为二 类县。西部地区:人均GDP在3000元以上为一类县:3000元以下为二类县。 3.自我代表层的区、县的构成 根据最新行政区划,自我代表层中各城市及海南省、西藏自治区所辖的区 县的构成情况分别如表2。其中为区划分所需的非农业人口在总人口中所占比例 取自公安部发布的全因区县户籍人口资料。 表2自我代表层的辖区、县构成 类区 类区 直辖市的县及其他县级而 县 总罚 北系市 8 天津市 18 上海市 19 广州市 12 成都市 19
子层 33:重庆(22)、四川(24) 子层 34:广西(19)、云南(27)、贵州(30) 子层 35:西藏(31)(自我代表层) 同一大层的各市辖区与所隶属的城市的规模、在城市中的地理位置(市区或 郊区)和居民成分构成(非农业人口占总人口的比例)有较大差异,各县也因经济 文化发达程度有较大差异。我们将各大层中所有的区、县除已划为自我代表层的 以外,(如下称抽样总体)分成一类区,二类区,县级市,一类县,二类县 5 类, 每类组成 1 个小层。 全国抽样总体中所有区县共分成 11X 5 二 55 个小层。其中区的划分标准为 区中非农业人口占总人口的比例,比例高于标准的为一类区,比例低于标准的为 二类区;县的划分标准为人均国内生产总值,高的为一类县,低的为二类县。区 县划分类别的标准在三大层中各不相同,具体标准如下: 区类别的划分标准:东部地区与中部地区:非农人口在总人口中的比例大于 或等于 80%为一类区,小于 80%为二类区;西部地区:非农人口在总人口中的 比例大于或等于 70%为一类区,小于 70%为二类区。 县类别的划分标准:东部地区:人均 GDP 在 5000 元以上为一类县;5000 元 以下为二类县。中部地区:人均 GDP 在 4000 元以上为一类县;4000 元以下为二 类县。西部地区:人均 GDP 在 3000 元以上为一类县;3000 元以下为二类县。 3.自我代表层的区、县的构成 根据最新行政区划,自我代表层中各城市及海南省、西藏自治区所辖的区、 县的构成情况分别如表 2。其中为区划分所需的非农业人口在总人口中所占比例 取自公安部发布的全国区县户籍人口资料。 表 2 自我代表层的辖区、县构成 一类区 二类区 直辖市的县及其他县级市 县 总计 北京市 8 5 5 - 18 天津市 7 7 4 - 18 上海市 9 7 3 - 19 广州市 5 5 2 - 12 成都市 5 2 4 8 19
长沙市 2 3 9 西安市 6 13 海南省 10 27 西藏自治区 71 73 4.抽样总体区县情况 全国除自我代表层以外的抽样总体各小层的区、县数及人口在(抽样总体) 总人口中的比例如表3与表4所示,其中县划分所需要的GDP数据取自各省的 2000-2001年的统计年鉴。 表3抽样总体中各小层的区县数 地域子层 一类区 三类区 县级市 一类县 二类县合计 东部地区11 62 47 19 68 239 东部地区12 47 53 31 37 198 东部地区13 39 44 59 32 196 中部地区21 26 40 36 32 190 中部地区22 39 67 56 140 148 450 中部地区23 19 31 95 205 中部地区24 20 4 39 42 69 214 西部地区31 27 8 34 97 61 221 西部地区32 6 51 131 224 西部地区33 5 42 14 55 85 201 西部地区34 19 27 30 74 175 325 合计 298 412 391 629 933 2663 表4抽样总体各小层人口占总人口的比例(%) 地域子层 类呕 二类区 县级市 一类县 二类县合计 东部地区1 1.3604 2.2921 3.1944 0.7724 3.6542 11.2735 东部地区12 0.7040 1.6600 3.9097 1.420 2.2964 9.9902 东部地区13 0.4745 1.1318 3.1667 2.3657 1.4894 8.6281 中部地区21 1.0270 0.5057 1.7829 1.1110 1.0105 5.4372 中部地区22 0.9326 1.9258 2.8047 4.5600 6.4027 16.6258
长沙市 2 3 1 3 9 西安市 4 4 0 5 13 海南省 2 2 7 10 21 西藏自治区 - 1 1 71 73 4.抽样总体区县情况 全国除自我代表层以外的抽样总体各小层的区、县数及人口在(抽样总体) 总人口中的比例如表 3 与表 4 所示,其中县划分所需要的 GDP 数据取自各省的 2000-2001 年的统计年鉴。 表 3 抽样总体中各小层的区县数 地域子层 一类区 二类区 县级市 一类县 二类县 合计 东部地区 11 43 62 47 19 68 239 东部地区 12 30 47 53 31 37 198 东部地区 13 22 39 44 59 32 196 中部地区 21 56 26 40 36 32 190 中部地区 22 39 67 56 140 148 450 中部地区 23 26 34 19 31 95 205 中部地区 24 20 44 39 42 69 214 西部地区 31 27 8 34 91 61 221 西部地区 32 11 16 15 51 131 224 西部地区 33 5 42 14 55 85 201 西部地区 34 19 27 30 74 175 325 合计 298 412 391 629 933 2663 表 4 抽样总体各小层人口占总人口的比例(%) 地域子层 一类区 二类区 县级市 一类县 二类县 合计 东部地区 11 1.3604 2.2921 3.1944 0.7724 3.6542 11.2735 东部地区 12 0.7040 1.6600 3.9097 1.4201 2.2964 9.9902 东部地区 13 0.4745 1.1318 3.1667 2.3657 1.4894 8.6281 中部地区 21 1.0270 0.5057 1.7829 1.1110 1.0105 5.4372 中部地区 22 0.9326 1.9258 2.8047 4.5600 6.4027 16.6258
中部地区23 0.5308 1.1881 1.0755 1.1716 4.97228.9381 中部地区24 0.6148 1.6037 2.5588 2.2912 3.2741 10.3426 西部地区31 0.4373 0.2234 0.7369 1.2348 1.3786 4.0110 西部地区32 0.2996 0.5438 0.4286 0.7282 3.0775 5.0778 西部地区33 0.1463 2.1276 0.9646 1.8843 3.9227 9.0455 西部地区34 0.3654 0.9543 1.3344 2.6679 5.3081 10.6301 合计 6.8928 14.1562 21.967320.207 36.7864100.0000 5,风、具的抽样方法及样本量 抽样总体中各层(指小层,下同)内对区、县的抽样采用按人口的PPS系统抽 样,样本量一般为2:少数人口较多的小层样本量定为3。样本量的具体分配见 表5。样本区、县总量为121个。 表5各小层的区县样本量的分配 地域子层 类区 类区 县级市 类县 三类县合计 东部地区11 12 东部地区12 11 东部地区13 3 2 11 中部地区21 2 2 10 中部地区22 3 3 3 13 中部地区23 2 3 3 11 中部地区24 2 2 2 10 西部地区31 2 2 2 10 西部地区32 西部地区33 2 11 西部地区34 合计 2 26 21 四、抽样总体中样本区、县内的抽样方法 1、样本区内的抽样 每个一类样本区内采用街道(镇)、居委会、家庭户及个人的4阶抽样:每个 类样本区内采用街道(乡、镇)、居(村)委会、家庭户及个人的4阶抽样,样本量 皆为90。具体方法如下
中部地区 23 0.5308 1.1881 1.0755 1.1716 4.9722 8.9381 中部地区 24 0.6148 1.6037 2.5588 2.2912 3.2741 10.3426 西部地区 31 0.4373 0.2234 0.7369 1.2348 1.3786 4.0110 西部地区 32 0.2996 0.5438 0.4286 0.7282 3.0775 5.0778 西部地区 33 0.1463 2.1276 0.9646 1.8843 3.9227 9.0455 西部地区 34 0.3654 0.9543 1.3344 2.6679 5.3081 10.6301 合计 6.8928 14.1562 21.9573 20.2073 36.7864 100.0000 5.区、县的抽样方法及样本量 抽样总体中各层(指小层,下同)内对区、县的抽样采用按人口的 PPS 系统抽 样,样本量一般为 2;少数人口较多的小层样本量定为 3。样本量的具体分配见 表 5。样本区、县总量为 121 个。 表 5 各小层的区县样本量的分配 地域子层 一类区 二类区 县级市 一类县 二类县 合计 东部地区 11 2 3 3 2 2 12 东部地区 12 2 2 3 2 2 11 东部地区 13 2 2 3 2 2 11 中部地区 21 2 2 2 2 2 10 中部地区 22 2 2 3 3 3 13 中部地区 23 2 2 2 3 3 11 中部地区 24 2 2 2 2 2 10 西部地区 31 2 2 2 2 2 10 西部地区 32 2 2 2 3 3 11 西部地区 33 2 2 2 3 3 11 西部地区 34 2 2 2 3 3 11 合计 22 23 26 23 27 121 四、抽样总体中样本区、县内的抽样方法 1、样本区内的抽样 每个一类样本区内采用街道(镇)、居委会、家庭户及个人的 4 阶抽样;每个 类样本区内采用街道(乡、镇)、居(村)委会、家庭户及个人的 4 阶抽样,样本量 皆为 90。具体方法如下
(1)对街道(乡、镇)的抽样 样本区内对街道(乡、镇)抽样采用按人口的PPS系统抽样,每个样本区抽3 个街道(乡、镇),其中一类区不抽乡。 (2)对居委会的抽样 样本街道、镇(乡)内对居(村)委会的抽样采用按人口的PPS系统抽样,每个 样本街道、镇、乡各抽2个居(村)委会(其中一类区不抽村委会)。为操作方使, 这里的人口数也可用户数。 (3)对家庭户的抽样 样本居(村)委会内对家庭户的抽样采用随机起点的等概率系统抽样,即等距 抽样。每个居(村)委会固定抽取15户。在抽样时,必须首先清点居(村)委会竹 辖范围内的实际家庭户数,且规定排列的顺序。 (4)样本户内具体调查对象的确定 对每个被抽中的样本户,在13岁以上(含13岁)的成员中,完全随机地确定 名为具体调查对象。为确保家庭成员中的每一个这样的成员都有相等的概率陂抽 中,采用二维随机表来确定。 2.样本县(县级市)内的抽样 每个样本县内采用乡(镇)、村(居)委会、家庭户及个人的4阶抽样,样本量 为60。具体方法女口下。 (1)对乡、镇的抽样 确定县城所在的镇(城关镇)为必调查镇,对其余乡(镇)采用按人口的PPS 系统抽样,再抽2个乡(镇),每个样本县共调查3个乡(镇)。 (2)对村(居)委会的抽样 在每个城关镇中用按人口PPS抽样抽取2个样本居(村)委会。对其他两个样 本乡、镇内,也用同样的方法抽2个村委会。为操作方便,这里的人口数也可用 户数。 (3)对家庭户的抽样 表6确定户内调查对象的二维随机表 序 姓性年 456 78 101112 1 1
(1)对街道(乡、镇)的抽样 样本区内对街道(乡、镇)抽样采用按人口的 PPS 系统抽样,每个样本区抽 3 个街道(乡、镇),其中一类区不抽乡。 (2)对居委会的抽样 样本街道、镇(乡)内对居(村)委会的抽样采用按人口的 PPS 系统抽样,每个 样本街道、镇、乡各抽 2 个居(村)委会(其中一类区不抽村委会)。为操作方使, 这里的人口数也可用户数。 (3)对家庭户的抽样 样本居(村)委会内对家庭户的抽样采用随机起点的等概率系统抽样,即等距 抽样。每个居(村)委会固定抽取 15 户。在抽样时,必须首先清点居(村)委会竹 辖范围内的实际家庭户数,且规定排列的顺序。 (4)样本户内具体调查对象的确定 对每个被抽中的样本户,在 13 岁以上(含 13 岁)的成员中,完全随机地确定 名为具体调查对象。为确保家庭成员中的每一个这样的成员都有相等的概率陂抽 中,采用二维随机表来确定。 2.样本县(县级市)内的抽样 每个样本县内采用乡(镇)、村(居)委会、家庭户及个人的 4 阶抽样,样本量 为 60。具体方法女口下。 (1)对乡、镇的抽样 , 确定县城所在的镇(城关镇)为必调查镇,对其余乡(镇)采用按人口的 PPS 系统抽样,再抽 2 个乡(镇),每个样本县共调查 3 个乡(镇)。 (2)对村(居)委会的抽样 在每个城关镇中用按人口 PPS 抽样抽取 2 个样本居(村)委会。对其他两个样 本乡、镇内,也用同样的方法抽 2 个村委会。为操作方便,这里的人口数也可用 户数。 (3)对家庭户的抽样 表 6 确定户内调查对象的二维随机表 序 号 姓 名 性 别 年 龄 1 2 3 4 5 6 7 8 9 10 11 12 1 1 1 1 1 1 1 1 1 1 1 1 1
2 2 2 2 2 0 1 12 12 0 10 样本村内对家庭户的抽样与样本居委会内对家庭户的抽样完全相同,仍采用 随机起点的等概率系统抽样,员口等距抽样。每个村(居)固定抽取10户。 (4)具体调查对象的确定 在样本户中确定具体对象的方法与4.1.4中情形完全相同,即用二维随机表 来确定。 3、儿童样本的确定 在城乡每个样本户中,除抽取一位13岁以上的观众作为调查对象外,如果还 有4一12岁的儿童,则需要抽取1位进行儿童观众的调查。如果符合年龄的条件 多于1位,则仍按二维随机表的方法确定。 对于自我代表的7个城市中,为保证儿童的样本量,对每个样本户,调查所 有满足年龄的儿童 五、自我代表层中的抽样方法 1.自我代表城市的抽样方法 每个需要进行推断的城市皆作为自我代表层,在层内也进行分层抽样,层 的划分标准与其他子层中的区、县标准基本相同。只不过不再对县分类,且将县 级市(仅长沙市有一个)也作为一般县处理。这样每个城市皆分为一类区、二类区 及县二层。考虑到上海市浦东新区的特殊性(既包括完全城市化的市区,也包含 相当广泛的农村),将该区作为自我代表层处理。 考虑到在一个城市范围内的调查,交通比较方便,故为提高效率,根据每个
2 2 1 2 1 1 2 2 1 1 2 1 2 3 3 2 1 1 3 2 2 1 3 1 2 3 4 4 1 3 2 2 3 1 4 3 2 4 1 5 5 4 1 2 3 4 1 2 3 5 4 2 6 6 3 1 5 2 4 3 5 1 4 6 2 7 7 1 4 3 6 2 5 2 5 7 4 3 8 8 4 5 7 1 2 6 3 7 5 3 1 9 9 5 1 4 3 8 2 7 6 5 2 8 10 10 3 5 9 4 1 7 2 8 6 9 4 11 11 6 1 5 10 4 9 8 3 2 7 6 12 12 7 2 9 4 11 6 1 8 3 10 5 样本村内对家庭户的抽样与样本居委会内对家庭户的抽样完全相同,仍采用 随机起点的等概率系统抽样,员口等距抽样。每个村(居)固定抽取 10 户。 (4)具体调查对象的确定 在样本户中确定具体对象的方法与 4.1.4 中情形完全相同,即用二维随机表 来确定。 3、儿童样本的确定 在城乡每个样本户中,除抽取一位 13 岁以上的观众作为调查对象外,如果还 有 4—12 岁的儿童,则需要抽取 1 位进行儿童观众的调查。如果符合年龄的条件 多于 1 位,则仍按二维随机表的方法确定。 对于自我代表的 7 个城市中,为保证儿童的样本量,对每个样本户,调查所 有满足年龄的儿童。 五、自我代表层中的抽样方法 1.自我代表城市的抽样方法 每个需要进行推断的城市皆作为自我代表层,在层内也进行分层抽样,层 的划分标准与其他子层中的区、县标准基本相同。只不过不再对县分类,且将县 级市(仅长沙市有一个)也作为一般县处理。这样每个城市皆分为一类区、二类区 及县二层。考虑到上海市浦东新区的特殊性(既包括完全城市化的市区,也包含 相当广泛的农村),将该区作为自我代表层处理。 考虑到在一个城市范围内的调查,交通比较方便,故为提高效率,根据每个
城市的实际情况,保证(或适当增加)样本区的数量,减少每个样本区、县内的样 本量。每个样本区县规定都抽2个街道(乡、镇),每个样本街道、乡、镇抽2 个居(付)委会。样本区内每个居(村)委会样本量仍为本15户,样本县(县级市) 内每个村(居)委会样本量仍为10户。如果有可能,对一类区也可不对区进行抽 样,直接对街道进行抽样。 根据每个必调查城市所属的区县数,确定样本区、县数如下表(表中的数字 为样本区、县数,括号中的数字为每个区、县的样本户数): 表7自我代表城市的样本量 城市 一类区 二类区 县 总样本量 北京市 4(60) 2(60) 2(40) 440 天津市 3(60) 2(60) 2(40) 380 上海市 4(60) 3(60)* 2(40) 500 产州市 3(60 2(60) 2(40) 380 成都市 3(60) 2(60) 2(40) 380 长沙市 2(60 3(60) 2(40) 380 西案市* 4(45) 2(60) 2(40) 380 总计 1320 960 560 2840 *其中浦东新区在商业区抽一个街道,在农业区抽一个镇。 *成都、西安两市由于一类区数量较少,故对一类区进行全数调查,其中西安 市每个一类区中抽1个街道,每个街道抽3个居委会。若有条件在每个区中直接 抽3个居委会最好。 2.海南省的抽样方法 海南省的抽样也采用分层抽样法。海南省包括2个地级市,海口市与三亚市, 海口市下辖3个区,三亚市不设区,也按一个区对待,共抽取2个样本区 (市),每个样本区(市)调查90户。除此以外的7个县级市及10县(自治区)为 省直辖,从中抽取2个市县,每个样本市县调查60户。海南省总样本量为300 户。 3.西藏自治区的抽样方法 西藏自治区的抽样也采用分层抽样法,其中拉萨市城关区抽4个居委会,日 喀则市除城关镇外,再抽两个乡镇,共6个居(村)委会。以上两市均作为自我代
城市的实际情况,保证(或适当增加)样本区的数量,减少每个样本区、县内的样 本量。每个样本区县规定都抽 2 个街道(乡、镇),每个样本街道、乡、镇抽 2 个居 (忖)委会。样本区内每个居(村)委会样本量仍为本 15 户,样本县(县级市) 内每个村(居)委会样本量仍为 10 户。如果有可能,对一类区也可不对区进行抽 样,直接对街道进行抽样。 根据每个必调查城市所属的区县数,确定样本区、县数如下表(表中的数字 为样本区、县数,括号中的数字为每个区、县的样本户数): 表 7 自我代表城市的样本量 城市 一类区 二类区 县 总样本量 北京市 4(60) 2(60) 2(40) 440 天津市 3(60) 2(60) 2(40) 380 上海市 4(60) 3(60)* 2(40) 500 广州市 3(60) 2(60) 2(40) 380 成都市* 3(60) 2(60) 2(40) 380 长沙市 2(60) 3(60) 2(40) 380 西案市* 4(45) 2(60) 2(40) 380 总计 1320 960 560 2840 *其中浦东新区在商业区抽一个街道,在农业区抽一个镇。 *成都、西安两市由于一类区数量较少,故对一类区进行全数调查,其中西安 市每个一类区中抽 1 个街道,每个街道抽 3 个居委会。若有条件在每个区中直接 抽 3 个居委会最好。 2.海南省的抽样方法 海南省的抽样也采用分层抽样法。海南省包括 2 个地级市,海口市与三亚市。 海口市下辖 3 个区,三亚市不设区,也按一个区对待,共抽取 2 个样本区 (市),每个样本区(市)调查 90 户。除此以外的 7 个县级市及 10 县(自治区)为 省直辖,从中抽取 2 个市县,每个样本市县调查 60 户。海南省总样本量为 300 户。 3.西藏自治区的抽样方法 西藏自治区的抽样也采用分层抽样法,其中拉萨市城关区抽 4 个居委会,日 喀则市除城关镇外,再抽两个乡镇,共 6 个居(村)委会。以上两市均作为自我代