《抽样调查》课程PPT教学课件：第十二章非抽样误差（12.1-12.2-12.3）

12.1抽样方案及抽样框引起的非抽样误差 12.2无回答现象 12.3计量误差

团购合买资源类别：文库，文档格式：PPT，文档页数：28，文件大小：599KB

第十二章非抽样误差抽样调查中存在各种各样的非抽样误差,主要表现在 (1)无回答现象; (2)由工具或人为因素造成的调查误差,即所谓计量误差; (3)在登录数据或输入计算机时发生的差错等等 §1抽样方豪及抽桿框引起的非抛样误差抽样调查从一开始就必须注意尽量避免非抽样误差,正如本教材第一章所述,抽样设计方案对于抽样结果是否精确起着很重要的作用.一个设计很差的抽样方案将会带来足以使抽样失败的非抽样误差,第一章中提到的《文学摘要》民意测验则是一个有说服力的实例

第十二章非抽样误差 (1)无回答现象; (2)由工具或人为因素造成的调查误差,即所谓计量误差; (3)在登录数据或输入计算机时发生的差错等等. 抽样调查中存在各种各样的非抽样误差,主要表现在: §1 抽样方案及抽样框引起的非抽样误差抽样调查从一开始就必须注意尽量避免非抽样误差,正如本教材第一章所述,抽样设计方案对于抽样结果是否精确起着很重要的作用.一个设计很差的抽样方案将会带来足以使抽样失败的非抽样误差,第一章中提到的《文学摘要》民意测验则是一个有说服力的实例

美国《文学摘要》对于1936年美国总统选举进行了预测,当时大多数观察家认为罗斯福会轻易获胜,而《文学摘要》根据自己的抽样断定兰登与罗斯福的获胜比率将是 57%和43%。然却是罗財福以62%比387的绝对势巫上了总统宝座。与事实完全相悖的预测断送了这家原本颇有名气的杂志的前程,不久它只得停刊就此“关门大吉”。美国《文学摘要》发出了1000万张调查表,收回了 200万张,花费了那么大的精力,收集了那么多的数据怎么会出那么大的错误呢?主要原因就是抽样框的选取。原来它是按照电话簿和俱乐部成员的名单发出调查表的, 由此选取的样本明显地排斥穷人!因为当时一般穷人很少拥有私人电话或隶属于哪个俱乐部(1936年,美国大约有 1100万部住宅电话)。众所周知,经济地位在很大程度上影响着政治态度:穷人压倒多数地倾向于罗斯福而有钱人则偏向于兰登。《文学摘要》的样本反映不出这个社会现实从而犯了致命的错误

美国《文学摘要》对于1936年美国总统选举进行了预测，当时大多数观察家认为罗斯福会轻易获胜，而《文学摘要》根据自己的抽样断定兰登与罗斯福的获胜比率将是 57％和43％。然而却是罗斯福以62％比38％的绝对优势坐上了总统宝座。与事实完全相悖的预测断送了这家原本颇有名气的杂志的前程，不久它只得停刊就此“关门大吉” 。美国《文学摘要》发出了1000万张调查表，收回了 200万张，花费了那么大的精力，收集了那么多的数据，怎么会出那么大的错误呢？主要原因就是抽样框的选取。原来它是按照电话簿和俱乐部成员的名单发出调查表的，由此选取的样本明显地排斥穷人！因为当时一般穷人很少拥有私人电话或隶属于哪个俱乐部（1936年，美国大约有 1100万部住宅电话）。众所周知，经济地位在很大程度上影响着政治态度：穷人压倒多数地倾向于罗斯福而有钱人则偏向于兰登。《文学摘要》的样本反映不出这个社会现实从而犯了致命的错误

设计带来非抽样误差有很多表现在抽样框出了问题,第章中所述的《文学摘要》的抽样框明显地偏向于某一部分人而忽略了另一部分人,从中产生的非抽样误差使得抽样结果不能反映总体(全体选民)的意见。这种致命的错误来源于抽样框“丢失”了总体中占有一定比例的单元,如果这一部分被“丢失”的群体在调查关心的参数方面有其独特的一面那么这种“丢失”引起的非抽样误差使推断或估计带有明显的偏性。如果我们的抽样方案是分层抽样,分层抽样不太可能按照关心的总体参数去实施,而常常根据若干辅助信息来进行,当然这些辅助信息与调查变量应当有较强的相关程度。倘若这些辅助变量资料不健全,不准确甚至借用这些辅助变量本身属于判断失误,由此引起的非抽样误差可能会严重威胁到估计的准确性

设计带来非抽样误差有很多表现在抽样框出了问题，第一章中所述的《文学摘要》的抽样框明显地偏向于某一部分人而忽略了另一部分人，从中产生的非抽样误差使得抽样结果不能反映总体（全体选民）的意见。这种致命的错误来源于抽样框“丢失”了总体中占有一定比例的单元，如果这一部分被“丢失”的群体在调查关心的参数方面有其独特的一面，那么这种“丢失”引起的非抽样误差使推断或估计带有明显的偏性。如果我们的抽样方案是分层抽样，分层抽样不太可能按照关心的总体参数去实施，而常常根据若干辅助信息来进行，当然这些辅助信息与调查变量应当有较强的相关程度。倘若这些辅助变量资料不健全，不准确甚至借用这些辅助变量本身属于判断失误，由此引起的非抽样误差可能会严重威胁到估计的准确性

有时候陈旧的抽样框将带来我们所不希望看到的非抽样误差,因为陈旧的抽样框会造成总体单元的“丢失”现象,一般地它还难以反映近期有关变量的一些变化。以上所述的非抽样误差属于在抽样之前的设计方案工作及编制抽样框中需要认真对待的。本章就抽样过程中产生的非抽样误差进行详尽的讨论。 §2无回答现象在设计方案相当合理,编制的抽样框令人十分满意的情况,无回答现象的发生是非抽样误差表现的主要形式之。无回答类型通常可归结为: (1)遗漏。由随机抽样所确定的调查单位出现“找不到” 现象,或者由于客观存在的一些困难,诸如交通极端不便, 气候异常恶劣等而无法找到确定要去访问的对象

有时候陈旧的抽样框将带来我们所不希望看到的非抽样误差，因为陈旧的抽样框会造成总体单元的“丢失”现象，一般地它还难以反映近期有关变量的一些变化。以上所述的非抽样误差属于在抽样之前的设计方案工作及编制抽样框中需要认真对待的。本章就抽样过程中产生的非抽样误差进行详尽的讨论。 §2 无回答现象在设计方案相当合理，编制的抽样框令人十分满意的情况，无回答现象的发生是非抽样误差表现的主要形式之一。无回答类型通常可归结为：（1）遗漏。由随机抽样所确定的调查单位出现“找不到” 现象，或者由于客观存在的一些困难，诸如交通极端不便，气候异常恶劣等而无法找到确定要去访问的对象

(2)被调查对象不在家。有时候可以请家庭中其他人甚至就近换一家进行访问,这样的做法虽然方便,但是在一定程度上破坏了随机性。有时候为了确保抽样的随机性, 不在家”就造成了无回答” (3)不能回答。某些被访问者对于问卷中的若干问题缺乏有关资料或者出于各种各样的原因而不愿意回答。 (4)坚决拒绝调查。这是由于各种原因造成的,尤其是有些问题涉及到个人隐私等等,由此产生的偏差一般较难消除。造成无回答现象的原因有许许多多,但一般地,由政府部门出面组织的抽样调查常常能得到被调查者的友好合作,这种情况下无回答现象的比例相对地较少,然而对于一般的市场信息调查等非政府组织的抽样调查无回答现象比例非常的高。随着我国社会主义市场经济的发展和完善, 这种情况正在逐步得到改善

（2）被调查对象不在家。有时候可以请家庭中其他人甚至就近换一家进行访问，这样的做法虽然方便，但是在一定程度上破坏了随机性。有时候为了确保抽样的随机性， “不在家”就造成了“无回答” 。（3）不能回答。某些被访问者对于问卷中的若干问题缺乏有关资料或者出于各种各样的原因而不愿意回答。（4）坚决拒绝调查。这是由于各种原因造成的，尤其是有些问题涉及到个人隐私等等，由此产生的偏差一般较难消除。造成无回答现象的原因有许许多多，但一般地，由政府部门出面组织的抽样调查常常能得到被调查者的友好合作，这种情况下无回答现象的比例相对地较少，然而对于一般的市场信息调查等非政府组织的抽样调查无回答现象比例非常的高。随着我国社会主义市场经济的发展和完善，这种情况正在逐步得到改善

其实调查人员的素质,调查问题的拟定,被调查人员的文化素质等等都对无回答率有一定影响。每件抽样调查, 我们需要力求低比率的无回答现象,从目前来看,完全避免无回杏现蔡是不可能的。对无回答现象产生酌菲抽样误差我们关心的是 1、问卷的回收率调查报告一般要求列出回收率,尤其是通过邮寄方式进行的调查,更需如此。因为回收率的高低将有力地论证调查的成功与否。对回收率的分析将有助于在无回答现象较严重的情况下进行数据分析,同时也有助于分析出哪些对象是可以再访问从而采取多次访问的手段尽量减少无回答率。 2、如何进行数据分析

其实调查人员的素质，调查问题的拟定，被调查人员的文化素质等等都对无回答率有一定影响。每件抽样调查，我们需要力求低比率的无回答现象，从目前来看，完全避免无回答现象是不可能的。对于无回答现象产生的非抽样误差我们关心的是： 1、问卷的回收率调查报告一般要求列出回收率，尤其是通过邮寄方式进行的调查，更需如此。因为回收率的高低将有力地论证调查的成功与否。对回收率的分析将有助于在无回答现象较严重的情况下进行数据分析，同时也有助于分析出哪些对象是可以再访问从而采取多次访问的手段尽量减少无回答率。 2、如何进行数据分析

设抽样容量为n,无回答个数为2,那么我们的实际调查量为n1=n-n2。根据n1个有效数据分析将比原定的计划少了很多信息。如果这n1个访问到的对象是从原定的对象中随杌无放卣地插取的,那么推断的结果攴是精度上的损失,至于估计量的一些良好性质,例如无偏性等仍然保留。然而事情并非这样地如意,无回答者常常拥有某些特征以致对调查的问题持有特定的态度,因此依据n个回答数据所作出的推断往往带有偏性。以总体平均数的估计为例,我们面临的情况相当于总体中N个单元划分为两部分:N1-回答者,N2无回答者。倘若抽样方式是简单随机的,那么1与n的比例理应相当于N与N的比例。这两部分的平均数分别记为和】1,】是总体平均数为 N Y=当y+ N N N Y2△W1H1+W2Y2(12.1)

设抽样容量为 n ,无回答个数为 , 那么我们的实际调查量为。根据个有效数据分析将比原定的计划少了很多信息。如果这个访问到的对象是从原定的对象中随机无放回地抽取的，那么推断的结果只是精度上的损失，至于估计量的一些良好性质，例如无偏性等仍然保留。 n2 n n n 1 2 = − n1 n1 然而事情并非这样地如意，无回答者常常拥有某些特征以致对调查的问题持有特定的态度，因此依据个回答数据所作出的推断往往带有偏性。以总体平均数的估计为例，我们面临的情况相当于总体中N 个单元划分为两部分： ——回答者， ——无回答者。倘若抽样方式是简单随机的，那么与的比例理应相当于与的比例。这两部分的平均数分别记为和，于是总体平均数为： n1 N1 N2 2 N1 N2 n n1 1 Y2 Y 1 2 1 2 1 1 2 2 N N Y Y Y W Y W Y N N = +  + (12.1)

根据“回答者”部分的平均猕的无偏估计,用估趼显然会产生偏倚: 27=19+(2 这个偏倚中,W2与H是可以利用调查得到的数据进行估计的,但是由于“无回答”Y2是根本无法获知其信息的,因止要对估计量y给于“纠偏”,其难度极大,尤其是萜较大际也就是“无回答者”占有相当大比例时,莲的置信限都难于得到。在有些实例中,人们只能对偏倚作出一些猜测,这些猜测有时候可以根据一些历史的资料作出,有一定的参考价值;但是有时候凭主观作出的猜测无法证实其正确性, 因此利用它来“纠偏”缺乏依据也缺乏精确度,这显然归因于无回答现象带来的恶果

根据“回答者”部分的平均数是的无偏估计，用估计显然会产生偏倚： 1 y 1 y Y1 Y 1 1 1 2 2 2 2 1 Y Y W Y W Y W Y Y − = − + = − ( 1) ( ) (12.2) 这个偏倚中，与是可以利用调查得到的数据进行估计的，但是由于“无回答” ，是根本无法获知其信息的，因此要对估计量给于“纠偏”，其难度极大，尤其是在较大时也就是“无回答者”占有相当大比例时，连的置信限都难于得到。 W2 Y1 Y2 1 y W2 Y2 在有些实例中，人们只能对偏倚作出一些猜测，这些猜测有时候可以根据一些历史的资料作出，有一定的参考价值；但是有时候凭主观作出的猜测无法证实其正确性，因此利用它来“纠偏”缺乏依据也缺乏精确度，这显然归因于无回答现象带来的恶果

然而在用计算机处理抽样数据时,不单单是简单地用1 去代替Y或者最多给出一定量的纠偏。众所周知,抽样调查一般不止问一个问题,我们的问卷经常围绕调查的且的而设置一系列问题,我们遇到的无回答现象经常表现为: 全部问题无回答或部分问题无回答。在部分问题无回答者中,将会呈现回答问题的多少以及哪些问题无回答的复杂情况,这给计算机处理及整体推断带来一定的困难。有些学者提出对于这样的“丢失”数据能否人为地补缺,如果对无回答对象一无所知的情况下,我们可以采取下述措施: (1)对某些问题无回答的数据以该问题回答数据的平均数来代替; (2)从对某问题回答的n个数据中作n2次随机有放回的抽样,以填补n2个无回答者的数据

（1）对某些问题无回答的数据以该问题回答数据的平均数来代替；（2）从对某问题回答的个数据中作次随机有放回的抽样，以填补个无回答者的数据。 n1 n2 n2 然而在用计算机处理抽样数据时，不单单是简单地用去代替或者最多给出一定量的纠偏。众所周知，抽样调查一般不止问一个问题，我们的问卷经常围绕调查的目的而设置一系列问题，我们遇到的无回答现象经常表现为：全部问题无回答或部分问题无回答。在部分问题无回答者中，将会呈现回答问题的多少以及哪些问题无回答的复杂情况，这给计算机处理及整体推断带来一定的困难。有些学者提出对于这样的“丢失”数据能否人为地补缺，如果对无回答对象一无所知的情况下，我们可以采取下述措施： Y1 Y

上述做法还是相当于从吗个回答者的数据出发对总体作出推断,但是在计算机上整体考虑来说是作为n个样本来处理的,绘整体全再的推断带来某种方便,县也县有定台理性,因为我们的抽样调查本身是要求n不均有回客的。然而这样的处理在精度上如何计算,或者说新构成的估计量方差如何估计,国外的一些统计学家曾作过研究与进一步的探索。 3、多次访问为了缩小无回答所引起的偏差,减少无回答的数量, 有必要采取一些措施,例如对访问者的培训,对敏感问题的适当处理以消除被访问者的疑虑,调查前作好充分的准备工作等等,采用多次访问是个有效的方法。当然,对于那些“坚决拒绝回答者”来说,多次访问很难奏效,但是对于那些“不在家”或“不能回答”原因的无回答者应当有不小的作用

上述做法还是相当于从个回答者的数据出发对总体作出推断，但是在计算机上整体考虑来说是作为个样本来处理的，给整体全面的推断带来某种方便，且也具有一定合理性，因为我们的抽样调查本身是要求个均有回答的。然而这样的处理在精度上如何计算，或者说新构成的估计量方差如何估计，国外的一些统计学家曾作过研究与进一步的探索。 n1 n n 3、多次访问为了缩小无回答所引起的偏差，减少无回答的数量，有必要采取一些措施，例如对访问者的培训，对敏感问题的适当处理以消除被访问者的疑虑，调查前作好充分的准备工作等等，采用多次访问是个有效的方法。当然，对于那些“坚决拒绝回答者”来说，多次访问很难奏效，但是对于那些“不在家”或“不能回答”原因的无回答者应当有不小的作用

点击下载完整版文档（PPT格式）

共28页，试读结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录