第十二章非抽样误差 抽样调查中存在各种各样的非抽样误差,主要表现在: (1)无回答现象; (2)由工具或人为因素造成的调查误差,即所谓计量误差; (3)在登录数据或输入计算机时发生的差错等等. §1抽桿方亲及抽样榧引起的非抽样误差 抽样调查从一开始就必须注意尽量避免非抽样误差,正 如本教材第一章所述,抽样设计方案对于抽样结果是否精确 起着很重要的作用.一个设计很差的抽样方案将会带来足以 使抽样失败的非抽样误差,第一章中提到的《文学摘要》民 意测验则是一个有说服力的实例
第十二章 非抽样误差 (1)无回答现象; (2)由工具或人为因素造成的调查误差,即所谓计量误差; (3)在登录数据或输入计算机时发生的差错等等. 抽样调查中存在各种各样的非抽样误差,主要表现在: §1 抽样方案及抽样框引起的非抽样误差 抽样调查从一开始就必须注意尽量避免非抽样误差,正 如本教材第一章所述,抽样设计方案对于抽样结果是否精确 起着很重要的作用.一个设计很差的抽样方案将会带来足以 使抽样失败的非抽样误差,第一章中提到的《文学摘要》民 意测验则是一个有说服力的实例
美国《文学摘要》对于1936年美国总统选举进行了预 测,当时大多数观察家认为罗斯福会轻易获胜,而《文学 摘要》根据自己的抽样断定兰登与罗斯福的获胜比率将是 57和43%。然而却是罗斯福以62%比38的绝对冼势巫 上了总统宝座。与事实完全相悖的预测断送了这家原本颇 有名气的杂志的前程,不久它只得停刊就此“关门大吉”。 美国《文学摘要》发出了1000万张调查表,收回了 200万张,花费了那么大的精力,收集了那么多的数据 怎么会出那么大的错误呢?主要原因就是抽样框的选取。 原来它是按照电话簿和俱乐部成员的名单发出调查表的, 由此选取的样本明显地排斥穷人!因为当时一般穷人很少 拥有私人电话或隶属于哪个俱乐部(1936年,美国大约有 1100万部住宅电话)。众所周知,经济地位在很大程度上 影响着政治态度:穷人压倒多数地倾向于罗斯福而有钱人 则偏向于兰登。《文学摘要》的样本反映不出这个社会现 实从而犯了致命的错误
美国《文学摘要》对于1936年美国总统选举进行了预 测,当时大多数观察家认为罗斯福会轻易获胜,而《文学 摘要》根据自己的抽样断定兰登与罗斯福的获胜比率将是 57%和43%。然而却是罗斯福以62%比38%的绝对优势坐 上了总统宝座。与事实完全相悖的预测断送了这家原本颇 有名气的杂志的前程,不久它只得停刊就此“关门大吉” 。 美国《文学摘要》发出了1000万张调查表,收回了 200万张,花费了那么大的精力,收集了那么多的数据 , 怎么会出那么大的错误呢?主要原因就是抽样框的选取。 原来它是按照电话簿和俱乐部成员的名单发出调查表的, 由此选取的样本明显地排斥穷人!因为当时一般穷人很少 拥有私人电话或隶属于哪个俱乐部(1936年,美国大约有 1100万部住宅电话)。众所周知,经济地位在很大程度上 影响着政治态度:穷人压倒多数地倾向于罗斯福而有钱人 则偏向于兰登。《文学摘要》的样本反映不出这个社会现 实从而犯了致命的错误
设计带来非抽样误差有很多表现在抽样框出了问题,第 章中所述的《文学摘要》的抽样框明显地偏向于某一部分 人而忽略了另一部分人,从中产生的非抽样误差使得抽样结 果不能反映总体(全体选民)的意见。这种致命的错误来源 于抽样框“丢失”了总体中占有一定比例的单元,如果这一部 分被“丢失”的群体在调查关心的参数方面有其独特的一面, 那么这种“丢失”引起的非抽样误差使推断或估计带有明显的 偏性。 如果我们的抽样方案是分层抽样,分层抽样不太可能按照 关心的总体参数去实施,而常常根据若干辅助信息来进行,当 然这些辅助信息与调查变量应当有较强的相关程度。倘若这些 辅助变量资料不健全,不准确甚至借用这些辅助变量本身属于 判断失误,由此引起的非抽样误差可能会严重威胁到估计的准 确性
设计带来非抽样误差有很多表现在抽样框出了问题,第 一章中所述的《文学摘要》的抽样框明显地偏向于某一部分 人而忽略了另一部分人,从中产生的非抽样误差使得抽样结 果不能反映总体(全体选民)的意见。这种致命的错误来源 于抽样框“丢失”了总体中占有一定比例的单元,如果这一部 分被“丢失”的群体在调查关心的参数方面有其独特的一面, 那么这种“丢失”引起的非抽样误差使推断或估计带有明显的 偏性。 如果我们的抽样方案是分层抽样,分层抽样不太可能按照 关心的总体参数去实施,而常常根据若干辅助信息来进行,当 然这些辅助信息与调查变量应当有较强的相关程度。倘若这些 辅助变量资料不健全,不准确甚至借用这些辅助变量本身属于 判断失误,由此引起的非抽样误差可能会严重威胁到估计的准 确性
有时候陈旧的抽样框将带来我们所不希望看到的非抽 样误差,因为陈旧的抽样框会造成总体单元的“丢失”现 象,一般地它还难以反映近期有关变量的一些变化 以上所述的非抽样误差属于在抽样之前的设计方案工 作及编制抽样框中需要认真对待的。本章就抽样过程中产 生的非抽样误差进行详尽的讨论 §2无回答现象 在设计方案相当合理,编制的抽样框令人十分满意的 情况,无回答现象的发生是非抽样误差表现的主要形式之 。无回答类型通常可归结为: (1)遗漏。由随机抽样所确定的调查单位出现“找不到” 现象,或者由于客观存在的一些困难,诸如交通极端不便, 气候异常恶劣等而无法找到确定要去访问的对象
有时候陈旧的抽样框将带来我们所不希望看到的非抽 样误差,因为陈旧的抽样框会造成总体单元的“丢失”现 象,一般地它还难以反映近期有关变量的一些变化。 以上所述的非抽样误差属于在抽样之前的设计方案工 作及编制抽样框中需要认真对待的。本章就抽样过程中产 生的非抽样误差进行详尽的讨论。 §2 无回答现象 在设计方案相当合理,编制的抽样框令人十分满意的 情况,无回答现象的发生是非抽样误差表现的主要形式之 一。无回答类型通常可归结为: (1)遗漏。由随机抽样所确定的调查单位出现“找不到” 现象,或者由于客观存在的一些困难,诸如交通极端不便, 气候异常恶劣等而无法找到确定要去访问的对象
(2)被调查对象不在家。有时候可以请家庭中其他人甚至 就近换一家进行访问,这样的做法虽然方便,但是在一定 程度上破坏了随机性。有时候为了确保抽样的随机性, x不在家”就造成了无回答” (3)不能回答。某些被访问者对于问卷中的若干问题缺乏 有关资料或者出于各种各样的原因而不愿意回答。 (4)坚决拒绝调查。这是由于各种原因造成的,尤其是有 些问题涉及到个人隐私等等,由此产生的偏差一般较难消 除。 造成无回答现象的原因有许许多多,但一般地,由政 府部门出面组织的抽样调查常常能得到被调查者的友好合 作,这种情况下无回答现象的比例相对地较少,然而对于 般的市场信息调查等非政府组织的抽样调查无回答现象 比例非常的高。随着我国社会主义市场经济的发展和完善, 这种情况正在逐步得到改善
(2)被调查对象不在家。有时候可以请家庭中其他人甚至 就近换一家进行访问,这样的做法虽然方便,但是在一定 程度上破坏了随机性。有时候为了确保抽样的随机性, “不在家”就造成了“无回答” 。 (3)不能回答。某些被访问者对于问卷中的若干问题缺乏 有关资料或者出于各种各样的原因而不愿意回答。 (4)坚决拒绝调查。这是由于各种原因造成的,尤其是有 些问题涉及到个人隐私等等,由此产生的偏差一般较难消 除。 造成无回答现象的原因有许许多多,但一般地,由政 府部门出面组织的抽样调查常常能得到被调查者的友好合 作,这种情况下无回答现象的比例相对地较少,然而对于 一般的市场信息调查等非政府组织的抽样调查无回答现象 比例非常的高。随着我国社会主义市场经济的发展和完善, 这种情况正在逐步得到改善
其实调查人员的素质,调査问题的拟定,被调查人员 的文化素质等等都对无回答率有一定影响。每件抽样调査, 我们需要力求低比率的无回答现象,从目前来看,完全避 免无回现象是不可能的。对于无回替现象严生的菲抽样 误差我们关心的是 1、问卷的回收率 调查报告一般要求列出回收率,尤其是通过邮寄方式 进行的调查,更需如此。因为回收率的高低将有力地论证 调查的成功与否。 对回收率的分析将有助于在无回答现象较严重的情况 下进行数据分析,同时也有助于分析出哪些对象是可以再 访问从而采取多次访问的手段尽量减少无回答率 2、如何进行数据分析
其实调查人员的素质,调查问题的拟定,被调查人员 的文化素质等等都对无回答率有一定影响。每件抽样调查, 我们需要力求低比率的无回答现象,从目前来看,完全避 免无回答现象是不可能的。对于无回答现象产生的非抽样 误差我们关心的是: 1、问卷的回收率 调查报告一般要求列出回收率,尤其是通过邮寄方式 进行的调查,更需如此。因为回收率的高低将有力地论证 调查的成功与否。 对回收率的分析将有助于在无回答现象较严重的情况 下进行数据分析,同时也有助于分析出哪些对象是可以再 访问从而采取多次访问的手段尽量减少无回答率。 2、如何进行数据分析
设抽样容量为n,无回答个数为2,那么我们的实际 调查量为n1=n-n2。根据n1个有效数据分析将比原定的 计划少了很多信息。如果这n1个访问到的对象是从原定的 对象中随杌无放茴地插取的,那么推断的结果只是精度上 的损失,至于估计量的一些良好性质,例如无偏性等仍然 保留。 然而事情并非这样地如意,无回答者常常拥有某些特 征以致对调查的问题持有特定的态度,因此依据n1个回答 数据所作出的推断往往带有偏性。以总体平均数的估计为 例,我们面临的情况相当于总体中N个单元划分为两部 分:N1—回答者,N2无回答者。倘若抽样方式是 简单随机的,那么n1与n2的比例理应相当于N与N的比例。 这两部分的平均数分别记为和H1,近是总体平均数为: F=F+M2△W+W2(12.1 N N
设抽样容量为 n ,无回答个数为 , 那么我们的实际 调查量为 。根据 个有效数据分析将比原定的 计划少了很多信息。如果这 个访问到的对象是从原定的 对象中随机无放回地抽取的,那么推断的结果只是精度上 的损失,至于估计量的一些良好性质,例如无偏性等仍然 保留。 n2 n n n 1 2 = − n1 n1 然而事情并非这样地如意,无回答者常常拥有某些特 征以致对调查的问题持有特定的态度,因此依据 个回答 数据所作出的推断往往带有偏性。以总体平均数的估计为 例,我们面临的情况相当于总体中N 个单元划分为两部 分: ——回答者, ——无回答者。倘若抽样方式是 简单随机的,那么 与 的比例理应相当于 与 的比例。 这两部分的平均数分别记为 和 ,于是总体平均数为: n1 N1 N2 2 N1 N2 n n1 1 Y2 Y 1 2 1 2 1 1 2 2 N N Y Y Y W Y W Y N N = + + (12.1)
根据“回答者”部分的平均数是的无偏估计,用估趼 显然会产生偏倚: -1=《-1)+H12=2(2-)(122 这个偏倚中,W2与H是可以利用调查得到的数据进行估计 的,但是由于“无回答”Y2是根本无法获知其信息的,因 要对估计量y给于“纠偏”,其难度极大,尤其是较大时 也就是“无回答者”占有相当大比例时,的置信限都难于 得到 在有些实例中,人们只能对偏倚作出一些猜测,这些 猜测有时候可以根据一些历史的资料作出,有一定的参考 价值;但是有时候凭主观作出的猜测无法证实其正确性, 因此利用它来“纠偏”缺乏依据也缺乏精确度,这显然归 因于无回答现象带来的恶果
根据“回答者”部分的平均数 是 的无偏估计,用 估计 显然会产生偏倚: 1 y 1 y Y1 Y 1 1 1 2 2 2 2 1 Y Y W Y W Y W Y Y − = − + = − ( 1) ( ) (12.2) 这个偏倚中, 与 是可以利用调查得到的数据进行估计 的,但是由于“无回答” , 是根本无法获知其信息的,因此 要对估计量 给于“纠偏”,其难度极大,尤其是在 较大时 也就是“无回答者”占有相当大比例时,连 的置信限都难于 得到。 W2 Y1 Y2 1 y W2 Y2 在有些实例中,人们只能对偏倚作出一些猜测,这些 猜测有时候可以根据一些历史的资料作出,有一定的参考 价值;但是有时候凭主观作出的猜测无法证实其正确性, 因此利用它来“纠偏”缺乏依据也缺乏精确度,这显然归 因于无回答现象带来的恶果
然而在用计算机处理抽样数据时,不单单是简单地用Y1 去代替或者最多给出一定量的纠偏。众所周知,抽样调 查,般不止问一个问题,我们的间卷经常围绕调查的目的 而设置”系列问题,我们遇到的无回答现象经常表现为 全部问题无回答或部分问题无回答。在部分问题无回答者 中,将会呈现回答问题的多少以及哪些问题无回答的复杂 情况,这给计算机处理及整体推断带来一定的困难。有些 学者提出对于这样的“丢失”数据能否人为地补缺,如果 对无回答对象一无所知的情况下,我们可以采取下述措施: (1)对某些问题无回答的数据以该问题回答数据的平 均数来代替; (2)从对某问题回答的n个数据中作n2次随机有放回 的抽样,以填补n2个无回答者的数据
(1)对某些问题无回答的数据以该问题回答数据的平 均数来代替; (2)从对某问题回答的 个数据中作 次随机有放回 的抽样,以填补 个无回答者的数据。 n1 n2 n2 然而在用计算机处理抽样数据时,不单单是简单地用 去代替 或者最多给出一定量的纠偏。众所周知,抽样调 查一般不止问一个问题,我们的问卷经常围绕调查的目的 而设置一系列问题,我们遇到的无回答现象经常表现为: 全部问题无回答或部分问题无回答。在部分问题无回答者 中,将会呈现回答问题的多少以及哪些问题无回答的复杂 情况,这给计算机处理及整体推断带来一定的困难。有些 学者提出对于这样的“丢失”数据能否人为地补缺,如果 对无回答对象一无所知的情况下,我们可以采取下述措施: Y1 Y
上述做法还是相当于从n个回答者的数据出发对总体 作出推断,但是在计算机上整体考虑来说是作为n个样本 来处理的,全整堡全再的推断带来某种方便,具也县有 定合理性,茵为我们的抽样调查本身是要求n个均有回替 的。然而这样的处理在精度上如何计算,或者说新构成的 估计量方差如何估计,国外的一些统计学家曾作过研究与 进一步的探索。 3、多次访问 为了缩小无回答所引起的偏差,减少无回答的数量, 有必要采取一些措施,例如对访问者的培训,对敏感问题 的适当处理以消除被访问者的疑虑,调查前作好充分的准 备工作等等,采用多次访问是个有效的方法。当然,对于 那些“坚决拒绝回答者”来说,多次访问很难奏效,但是 对于那些“不在家”或“不能回答”原因的无回答者应当 有不小的作用
上述做法还是相当于从 个回答者的数据出发对总体 作出推断,但是在计算机上整体考虑来说是作为 个样本 来处理的,给整体全面的推断带来某种方便,且也具有一 定合理性,因为我们的抽样调查本身是要求 个均有回答 的。然而这样的处理在精度上如何计算,或者说新构成的 估计量方差如何估计,国外的一些统计学家曾作过研究与 进一步的探索。 n1 n n 3、多次访问 为了缩小无回答所引起的偏差,减少无回答的数量, 有必要采取一些措施,例如对访问者的培训,对敏感问题 的适当处理以消除被访问者的疑虑,调查前作好充分的准 备工作等等,采用多次访问是个有效的方法。当然,对于 那些“坚决拒绝回答者”来说,多次访问很难奏效,但是 对于那些“不在家”或“不能回答”原因的无回答者应当 有不小的作用