第十章非抽样误差及其控制 第一节抽样框误差及控制 第二节调査误差及控制 第三节无回答及其控制 第四节样本轮换的理论与方法 返回
第十章 非抽样误差及其控制 第一节 抽样框误差及控制 第二节 调查误差及控制 第三节 无回答及其控制 第四节 样本轮换的理论与方法 返回
第一节抽样框误差及其控制 、抽样框误差的产生 最样苯箪元的依搪理想的聲(也称抽样总不应该荷 所研究现象的总体(也即目标总体)一致,但在实践中,抽 样总体与目标总体常常不一致,由此产生的误差就是抽样 框误差。 考察抽样框误差的成因,大致有以下几个方面 1)丢失目标总体单元 ·(2)包含非目标总体单元。 (3)复合联接。 4)不正确的辅助信息。 (5)抽样框陈旧
第一节 抽样框误差及其控制 • 一、抽样框误差的产生 • 抽样框是有关总体全部单元的名录或地图等的框架,是抽 取样本单元的依据。理想的抽样框(也称抽样总体)应该同 所研究现象的总体(也即目标总体)一致,但在实践中,抽 样总体与目标总体常常不一致,由此产生的误差就是抽样 框误差。 • 考察抽样框误差的成因,大致有以下几个方面: • (1)丢失目标总体单元。 • (2)包含非目标总体单元。 • (3)复合联接。 • (4)不正确的辅助信息。 • (5)抽样框陈旧
、抽样框误差的确定 )丢失目标总体单元时的影响 (二)包含非目标总单元时的影响 (三)复合联接的影响 (四)不正确的辅助信息的影响 三、抽样框误差的补救 (-)丢失单元抽样框的补救 基本思路有两条:一是想办法将丢失的目标总体单元纳入 到不完善的抽样框中,二是对产生于不完善抽样框的数据 进行调整。具体方法有: (1)对丢失单元实行联接。 (2)采用辅助抽样框。 3)利用有关资料进行推算 4)用复查结果调整 (二)其它类型不完善抽样框的补救
• 二、抽样框误差的确定 • (一)丢失目标总体单元时的影响 • (二)包含非目标总单元时的影响 • (三)复合联接的影响 • (四)不正确的辅助信息的影响 • 三、抽样框误差的补救 • (一)丢失单元抽样框的补救 • 基本思路有两条:一是想办法将丢失的目标总体单元纳入 到不完善的抽样框中,二是对产生于不完善抽样框的数据 进行调整。具体方法有: • (1)对丢失单元实行联接。 • (2)采用辅助抽样框。 • (3)利用有关资料进行推算。 • (4)用复查结果调整。 • (二)其它类型不完善抽样框的补救
三、最佳样本轮换的确定 在调查目的既定的条件下,样本轮换率主要取决于三个因 素:调査总体发生变化的速度;被调査者对重复调査在时 间和次数上的心理接受程度;以及调査费用、抽样精度、 工作难易等的允许程度。由于不同的经常性抽样调查有不 同的调査总体、不同的被调查者和不同的精度要求,这就 使得要从理论上给出一个考虑所有影响因素的样本轮换率 是比较困难的。因此, 确定样本轮换率的一般指导原则是:如果调査总体变化的 速度较快,被调查者对重复调查在 时间和次数上的心理接受程度较低,并且调査费用比较宽 松,则样本轮换率应该高一些。反 之,则样本轮换率可以低一些。 在不考虑费用的条件下确定最佳样本轮换率的基本思路是 使估计量的方差达到最小
• 三、最佳样本轮换的确定 • 在调查目的既定的条件下,样本轮换率主要取决于三个因 素:调查总体发生变化的速度;被调查者对重复调查在时 间和次数上的心理接受程度;以及调查费用、抽样精度、 工作难易等的允许程度。由于不同的经常性抽样调查有不 同的调查总体、不同的被调查者和不同的精度要求,这就 使得要从理论上给出一个考虑所有影响因素的样本轮换率 是比较困难的。因此, • 确定样本轮换率的一般指导原则是:如果调查总体变化的 速度较快,被调查者对重复调查在 • 时间和次数上的心理接受程度较低,并且调查费用比较宽 松,则样本轮换率应该高一些。反 • 之,则样本轮换率可以低一些。 • 在不考虑费用的条件下确定最佳样本轮换率的基本思路是 使估计量的方差达到最小
第二节调査误差及其控制 、调查误差及其影响 在调查工作过程中,由于测量工具的不准确,调 查员的某些工作失误(如计量错误、计算错误、记 录错误等),以及由于被调查者没有提供真实情况 等因素影响,常使调査结果的准确性受到损害 产生一定的误差,这类误差就是调查误差,也称 之为登记性误差。 调査误差的控制 (一)、随机子抽样方法 (二)交叉子样本方法 (三)数值异常情况
第二节 调查误差及其控制 • 一、调查误差及其影响 • 在调查工作过程中,由于测量工具的不准确,调 查员的某些工作失误(如计量错误、计算错误、记 录错误等),以及由于被调查者没有提供真实情况 等因素影响,常使调查结果的准确性受到损害, 产生一定的误差,这类误差就是调查误差,也称 之为登记性误差。 • 二、调查误差的控制 • (一)、随机子抽样方法 • (二)交叉子样本方法 • (三)数值异常情况
第三节无回答及其控制 、无回答及其影响 无回答”是指被抽中的一些样本单元未能计量 也即发生计算遗漏。具体可归纳为几种类型: 是遗漏。某些样本单元找不到,或由于一些客观 原因而无法找到,或由于调查员自身的某些原因 而没有找到等。二是不在家。如果调查项目涉及 到人,在调查中可能碰巧遇到被调査者不在家或 某个事先确定地点的情形,由此会引起无回答现 象。三是不能回答。被调查者对所调查的问题由 于缺少资料或了解不多而无法回答或无法完整回 答。四是拒绝回答
第三节 无回答及其控制 • 一、无回答及其影响 • “无回答”是指被抽中的一些样本单元未能计量, 也即发生计算遗漏。具体可归纳为几种类型:一 是遗漏。某些样本单元找不到,或由于一些客观 原因而无法找到,或由于调查员自身的某些原因 而没有找到等。二是不在家。如果调查项目涉及 到人,在调查中可能碰巧遇到被调查者不在家或 某个事先确定地点的情形,由此会引起无回答现 象。三是不能回答。被调查者对所调查的问题由 于缺少资料或了解不多而无法回答或无法完整回 答。四是拒绝回答
如果无回答层和回答层在所研究标志方面 没有显著差异,则无回答的影响不大。但 如果无回答层与回答层存在显著差异(大多 数情况下是这样),则由于无回答层没有提 供样本数据,而在估计总体参数时会产生 较大的影响。其最重要的后果是:(1)估计 量可能成为有偏的,因为样本中没有调查 到的部分可能与被调查到的部分显著不同 (2)由于实际调查到的样本比目标样本小, 所以估计误差就可能会增大
• 如果无回答层和回答层在所研究标志方面 没有显著差异,则无回答的影响不大。但 如果无回答层与回答层存在显著差异(大多 数情况下是这样),则由于无回答层没有提 供样本数据,而在估计总体参数时会产生 较大的影响。其最重要的后果是:(1)估计 量可能成为有偏的,因为样本中没有调查 到的部分可能与被调查到的部分显著不同; (2)由于实际调查到的样本比目标样本小, 所以估计误差就可能会增大
、无回答的控制 为了减少无回答的数量,缩小无回答的影响,我们需要进 步讨论控制无回答的措施。 控制无回答可以采取一些预防性的措施,比如:在问卷设 计中注意问题用词的选择,问题的 排列顺序,说明词的制作等,精心选择调查实施的时间, 精心选择培训调査员,确定准确的 调査方位,给被调查者适当的物质奖励,向被调查者预先 通知,事后提醒、催促等,这些都 可能会产生程度不同的影响 对于调查过程中产生的无回答,可以考虑采取 多次访问 抽子样本 替换
• 二、无回答的控制 • 为了减少无回答的数量,缩小无回答的影响,我们需要进 一步讨论控制无回答的措施。 • 控制无回答可以采取一些预防性的措施,比如:在问卷设 计中注意问题用词的选择,问题的 • 排列顺序,说明词的制作等,精心选择调查实施的时间, 精心选择培训调查员,确定准确的 • 调查方位,给被调查者适当的物质奖励,向被调查者预先 通知,事后提醒、催促等,这些都 • 可能会产生程度不同的影响。 • 对于调查过程中产生的无回答,可以考虑采取 • 多次访问 • 抽子样本 • 替换
、敏感性问题的调査 )沃纳随机化回答模型 )西蒙斯改进随机化回答模型 (三)使用随机化回答技术应注意的问题 提出随机化回答方法,目的是减少或消除被调查者在回答敏感性问题 时 在具 籍法毒经危个同意成对敏感性间题的调查 首先,要求调査员能充分理解这种方法,这样才能很好地向被调 査者解释清楚,使他们相信,调査人员无法根据他们的回答,判断他 但是县頁砷特售,唯有如此,才能达到消除被调查者的顾虑,取 其次,在正式开始调査前,应允许被调査者检查卡片,了解调查员的 记录方式,使其相信这种方法不带欺诈的成份 最后,在使用西蒙斯模型时,要注意选择与敏感性问题无关的非敏感 性问题作为问题B,同时非敏感性间题应尽量銜单,以方便被调査者 的回答。 此外,要指出的是,随机化回答技术只适用于解决二项问题(即是非 问题)的回答,而对数值型敏感问题不起作用
• 三、敏感性问题的调查 • (一)沃纳随机化回答模型 • (二)西蒙斯改进随机化回答模型 • (三)使用随机化回答技术应注意的问题 • 提出随机化回答方法,目的是减少或消除被调查者在回答敏感性问题 时可能存在的疑虑,与调查员充分合作,完成对敏感性问题的调查。 在具体使用这种方法时应注意以下几个问题: • 首先,要求调查员能充分理解这种方法,这样才能很好地向被调 查者解释清楚,使他们相信,调查人员无法根据他们的回答,判断他 们是否具有某种特征,唯有如此,才能达到消除被调查者的顾虑,取 得好的调查效果的目的。 • 其次,在正式开始调查前,应允许被调查者检查卡片,了解调查员的 记录方式,使其相信这种方法不带欺诈的成份。 • 最后,在使用西蒙斯模型时,要注意选择与敏感性问题无关的非敏感 性问题作为问题B,同时非敏感性问题应尽量简单,以方便被调查者 的回答。 • 此外,要指出的是,随机化回答技术只适用于解决二项问题(即是非 问题)的回答,而对数值型敏感问题不起作用
四、缺失数据的处理 实际中,可能还会遇到项目无回答(即缺失数据)的问题,从而影响调 查结果的系统性和完整性,给进二步的统计分析带来一系列麻烦,因 茈,有必要对缺失薮据的处理问题作一些讨论。 缺失数据的弥补主要是采用插值法,一般分成“冷卡”(Cold-deck) 法和“热卡”(Hot-deck)法。 “冷卡”方法是用来自其他调査或过去调查的资料作为当前调查中缺 用的,因为在这种情 “热卡”方法是对调査中发现的项目缺失值,用按一定准则选出的 一调查中与无回答单元具有相似性的回单元的数值进行替代。 然 ,这可能会引出两个问题 是一些回答单元的数据没有机会成为 替代值;二是一些回答单元的数据会被多次使用。因此,作为改进, 方面可以将回答单元融合在一起构成一个完整的回答单元集,并 其作为替代单元集,当出现无回答时,在替代单元集中随机抽选回答 单元数据进行替代(或称插补),另一方面,可以允许多重替代,但要 对每个回答单元数据用于替代的次数加以控制。便用“热卡”方法的 种更为简便的情形是,以回答单元数据的平均值代替缺失值。“热 卡”方法实质上只是使资料看起来是完整的,这样便于运用统计方法 进行运算处理和分析研究,但这种替代的数据对统计分析的结果并不 生影响
• 四、缺失数据的处理 • 实际中,可能还会遇到项目无回答(即缺失数据)的问题,从而影响调 查结果的系统性和完整性,给进一步的统计分析带来一系列麻烦,因 此,有必要对缺失数据的处理问题作一些讨论。 • 缺失数据的弥补主要是采用插值法,一般分成“冷卡”(Cold—deck) 法和“热卡”(Hot—deck)法。 • “冷卡”方法是用来自其他调查或过去调查的资料作为当前调查中缺 失数据的替代。这种方法在周期性调查中是很有用的,因为在这种情 况下,可以用前一期的调查数据替代目前调查的缺失值。 • “热卡”方法是对调查中发现的项目缺失值,用按一定准则选出的、 同一调查中与无回答单元具有相似性的回答单元的数值进行替代。当 然,这可能会引出两个问题:一是一些回答单元的数据没有机会成为 替代值;二是一些回答单元的数据会被多次使用。因此,作为改进, 一方面可以将回答单元融合在一起构成一个完整的回答单元集,并以 其作为替代单元集,当出现无回答时,在替代单元集中随机抽选回答 单元数据进行替代(或称插补),另一方面,可以允许多重替代,但要 对每个回答单元数据用于替代的次数加以控制。使用“热卡”方法的 一种更为简便的情形是,以回答单元数据的平均值代替缺失值。“热 卡”方法实质上只是使资料看起来是完整的,这样便于运用统计方法 进行运算处理和分析研究,但这种替代的数据对统计分析的结果并不 产生影响