数据的收集 第一数据的来源 数据的来源主要有两种渠道 种是通过直接的调查获得的原始数据,般称之为第一手或直接的统 计数据; 另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数 据,通常称之为第二手或间接的统计数据 一、第二手或间接的统计数据来源 主要来自于国内外公开出版的或公开报道的各种出版物。 公开出版的或报道的社会经济统计数据主要是国家和地方的统计部门以及 各种报刊媒介。例如,公开的出版物有《中国统计年鉴》、《中国统计摘要》和 各种专业统计年鉴,以及各省、市、地区的统计年鉴等。 提供世界各国社会和经济数据的出版物业有许多,如《世界经济年鉴》、《国 外经济统计资料》、世界银行各年度的《世界发展报告》等。联合国的有关部门 及世界各国也定期出版各种统计数据。 、第一手或直接的统计数据来源 这类数据来源是指通过各种各样的调查获取数据
数据的收集 第一 数据的来源 数据的来源主要有两种渠道: 一种是通过直接的调查获得的原始数据,一般称之为第一手或直接的统 计数据; 另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数 据,通常称之为第二手或间接的统计数据。 一、第二手或间接的统计数据来源 主要来自于国内外公开出版的或公开报道的各种出版物。 公开出版的或报道的社会经济统计数据主要是国家和地方的统计部门以及 各种报刊媒介。例如,公开的出版物有《中国统计年鉴》、《中国统计摘要》和 各种专业统计年鉴,以及各省、市、地区的统计年鉴等。 提供世界各国社会和经济数据的出版物业有许多,如《世界经济年鉴》、《国 外经济统计资料》、世界银行各年度的《世界发展报告》等。联合国的有关部门 及世界各国也定期出版各种统计数据。 二、第一手或直接的统计数据来源 这类数据来源是指通过各种各样的调查获取数据
获得第—手数据并不象得到二手数据那么轻松。某些在华的外资企业毎年至 少要花三四干万元来收集和分析数据。他们调查其产品目前在市场中的状况和 地位并确定其竞争对手的态势等等 三、观测数据和试验数据 上面所说的数据是在自然的末被控制的条件下观测到的,称为观测数据 (observational data) 而对于有些问题,比如在不同的医疗手段下某疾病的治疗结果有什么不同、 不同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物 质变成超导体的温度等等。这种在人工干预和操作情况下收集的数据就称为试验 数据( experimental data 第二调查方法 、调查方法的类型 调查的方法有许多种类型:普查、抽样调查、重点调查、典型调查等等。 在实际中最常用的方法:抽样调查和普查 两者的差别在于抽样调查只调查总体中的一部分单元,而普查则调查总体中 的所有单元。与普查相比,抽样凋查可以更为经济、迅速地提供数据,并较容易 进行监控
获得第一手数据并不象得到二手数据那么轻松。某些在华的外资企业每年至 少要花三四千万元来收集和分析数据。 他们调查其产品目前在市场中的状况和 地位并确定其竞争对手的态势等等; 三、观测数据和试验数据 上面所说的数据是在自然的未被控制的条件下观测到的,称为观测数据 (observational data) 。 而对于有些问题,比如在不同的医疗手段下某疾病的治疗结果有什么不同、 不同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物 质变成超导体的温度等等。这种在人工干预和操作情况下收集的数据就称为试验 数据 (experimental data) 。 第二 调查方法 一、调查方法的类型 调查的方法有许多种类型:普查、抽样调查、重点调查、典型调查等等。 在实际中最常用的方法:抽样调查和普查。 两者的差别在于抽样调查只调查总体中的一部分单元,而普查则调查总体中 的所有单元。与普查相比,抽样凋查可以更为经济、迅速地提供数据,并较容易 进行监控
二、数据收集的方式 不论何种调查方法,都可采用不同的数据收集方式,并常常利用调查问卷或 调查表来收集数据 利用问卷或调查表收集数据的方式主要有 1、自填法 自填式方法,是指被调查者在没有访员协助的情况下完成问卷 自填式方法也可使用计算机辅助调查(CAS,这时,要将电子格式的问卷 传送给被调查者,被调查者使用计算机填写问卷。 自填法的特点: 所需费用较低,但同时它要求问卷结构严谨,有清楚的说明 通常这种方法适用于受过比较好的教育的被调查者 比较好管理,有助于减少回答误差 还可以方便被调查者回答敏感问题」 但这种方法的回答率通常低于访员协助式方法 问卷应尽量简短,所花费的时间也较长。 2、电话调查
二、数据收集的方式 不论何种调查方法,都可采用不同的数据收集方式,并常常利用调查问卷或 调查表来收集数据。 利用问卷或调查表收集数据的方式主要有: 1、自填法 自填式方法,是指被调查者在没有访员协助的情况下完成问卷。 自填式方法也可使用计算机辅助调查 (CASl) ,这时,要将电子格式的问卷 传送给被调查者,被调查者使用计算机填写问卷。 自填法的特点: 所需费用较低,但同时它要求问卷结构严谨,有清楚的说明; 通常这种方法适用于受过比较好的教育的被调查者; 比较好管理,有助于减少回答误差; 还可以方便被调查者回答敏感问题; 但这种方法的回答率通常低于访员协助式方法; 问卷应尽量简短,所花费的时间也较长。 2、电话调查
电话调查,是指访员通过电话协助被调查者完成问卷 采用纸张方式时,又称为纸笔式电话访问(PAT)采用计算机辅助方式时 又称为计算机辅助电话调查(CAT) 电话调查的特点 电话调查的费用和回答率介于面访调查和自填式调查之间 速度较快(在各种数据收集方法中是最快的) 适合于总体和样本在地理上比较分散的情况, 适用于文化程度较低的调查总体, 管理起来比较容易。 电话调查的另一个优点:它具有需要立即处理的性质。不管人们当时正在做 什么,他们都会急切的去接听电话。 现举一个令人吃惊的例子,《纽约时报》曾报道了一则关于一个多年前的屠 杀犯的新闻 一个犯有精神病的参加过战争的老兵,(名叫霍华德鲁),在新泽西州康 姆登大街上疯狂枪杀了13个人以后就堂而皇之地回家了 防暴警察队带着机关枪、滑膛枪、催泪弹赶到,双方开始了枪战;
电话调查,是指访员通过电话协助被调查者完成问卷。 采用纸张方式时,又称为纸笔式电话访问 (PATl) ;采用计算机辅助方式时, 又称为计算机辅助电话调查 (CATl) 。 电话调查的特点 电话调查的费用和回答率介于面访调查和自填式调查之间 速度较快 ( 在各种数据收集方法中是最快的 ) 适合于总体和样本在地理上比较分散的情况, 适用于文化程度较低的调查总体, 管理起来比较容易。 电话调查的另一个优点:它具有需要立即处理的性质。不管人们当时正在做 什么,他们都会急切的去接听电话。 现举一个令人吃惊的例子,《纽约时报》曾报道了一则关于一个多年前的屠 杀犯的新闻: 一个犯有精神病的参加过战争的老兵, ( 名叫霍华德鲁 ) ,在新泽西州康 姆登大街上疯狂枪杀了 13 个人以后就堂而皇之地回家了。 防暴警察队带着机关枪、滑膛枪、催泪弹赶到,双方开始了枪战;
正在这个时候《康姆登晩间快报》的个编辑人员在电话簿上找到了恩鲁的 电话号码,并拔通了他的电话 恩鲁停下射击来接电话。 喂 ″是霍华德吗? 是的… 你为什么杀人? 我不知道,我也不能回答此问题,等会儿我再跟你谈,现在我太忙了。 3、访员面访法 访员面访,是指以个人接触的方式,由访员协助被调查者完成问卷。 当采用纸张式数据收集方式时,这种方法称为纸笔式面访(PAP);当采用 计算机辅助方式时,称为计算机辅助式面访(CAP)。 访员面访法的特点 面访调查的回答率最高 但费用也最高 访员可以进行直接观察
正在这个时候《康姆登晚间快报》的一个编辑人员在电话簿上找到了恩鲁的 电话号码,并拨通了他的电话。 恩鲁停下射击来接电话。 “ 喂 ” “ 是霍华德吗 ?” “ 是的 ……” “ 你为什么杀人? ” “ 我不知道,我也不能回答此问题,等会儿我再跟你谈,现在我太忙了。 ” 3 、访员面访法 访员面访,是指以个人接触的方式,由访员协助被调查者完成问卷。 当采用纸张式数据收集方式时,这种方法称为纸笔式面访 (PAPl) ;当采用 计算机辅助方式时,称为计算机辅助式面访 (CAPl) 。 访员面访法的特点 面访调查的回答率最高 但费用也最高 访员可以进行直接观察
但管理人员很难对面访进行监督。 第三抽样调查中的基本问题 总体和样本 要想了解北京市民对建设北京交通设施是以包括轨道运输在內的公共交通 工具为主还是以小汽车为主的观点,需要进行调查 调查对象是所有北京市民调查目的是希望知道市民中对这个问题的不同看 法各自占有的比例。 显然,不可能去问所有的北京市民,而只能够问-部分;并且根据这-部分 的观点来理解整个北京市民的总体观点。 这种情况下,称所有(每个)北京市民对这个问题的观点为一个总体 ( population),而调查时问到的那部分市民的观点为该总体的一个样本 (sample) 总体是包含所有要研究的个体( element)的集合。而样本是总体中选中的 部分。 二、抽样调查中的误差 1、抽样误差
但管理人员很难对面访进行监督。 第三 抽样调查中的基本问题 一、总体和样本。 要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通 工具为主还是以小汽车为主的观点,需要进行调查; 调查对象是所有北京市民,调查目的是希望知道市民中对这个问题的不同看 法各自占有的比例。 显然,不可能去问所有的北京市民,而只能够问一部分;并且根据这一部分 的观点来理解整个北京市民的总体观点。 这种情况下,称所有(每个)北京市民对这个问题的观点为一个总体 (population) ,而调查时问到的那部分市民的观点为该总体的一个样本 (sample) 。 总体是包含所有要研究的个体 (element) 的集合。而样本是总体中选中的 一部分。 二、抽样调查中的误差 1、抽样误差
样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的 抽样误差( sampling error) 2、未响应误差与响应误差; 在抽样调查中,一些人因为种种原因没有对调査作岀反映(或回答),这种 误差称为未响应误差( nonresponse error) 而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应 误差( response error)。 和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应 该在设计调查方案时尽量避免。 3、数据伦理: 隐私、保密、知情、需要,显变量与隐变量。调查时应尽量减少敏感问题或 隐私问题的影响。 4、抽样框 抽样框是一张包括被抽样总体所有单元的目录表 确定了抽样框,就相当于定义了被抽样总体,我们可通过抽样框从总体中抽 取样本单元,但前提是抽样框充分地代表了总体。 在确定了抽样框后,我们就可以计算总体中每个个体的抽样概率,根据这一 概率,就可以用样本数据推算总体数据
样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的 抽样误差( sampling error )。 2 、未响应误差与响应误差; 在抽样调查中,一些人因为种种原因没有对调查作出反映(或回答),这种 误差称为未响应误差( nonresponse error )。 而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应 误差( response error )。 和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应 该在设计调查方案时尽量避免。 3 、数据伦理: 隐私、保密、知情、需要,显变量与隐变量。调查时应尽量减少敏感问题或 隐私问题的影响。 4 、抽样框 抽样框是一张包括被抽样总体所有单元的目录表 . 确定了抽样框,就相当于定义了被抽样总体,我们可通过抽样框从总体中抽 取样本单元,但前提是抽样框充分地代表了总体。 在确定了抽样框后,我们就可以计算总体中每个个体的抽样概率,根据这一 概率,就可以用样本数据推算总体数据
例如:学校学生的名单就可以是一个抽样框 这个抽样框应当包括:识别资料、分类资料、联系资料 抽样框的类型有:名录框和区域框 名录框是由总体中所有的单元组成的目录 区域框是由许多地理区域构成的抽样框 在下列两种情况下,适合采用区域框 1)调查具有地理性质; 2)没有合适的目录框,需要借助区域框来构造目录框 区域框 例如某项调查需在某个城市抽取住户但没有该城市最新的住户名录。此时, 统计调查机构可以用区域框抽取地理区域,如街区,然后由调查员列岀毎个被抽 中街区中的全部住户名单。 这种方法将对住户的抽样集中于数量有限的被的区域,从而可以较为经济地 进行个人面访调查
例如:学校学生的名单就可以是一个抽样框 这个抽样框应当包括:识别资料、分类资料、联系资料 抽样框的类型有:名录框和区域框 名录框是由总体中所有的单元组成的目录。 区域框是由许多地理区域构成的抽样框。 在下列两种情况下,适合采用区域框: 1) 调查具有地理性质; 2) 没有合适的目录框,需要借助区域框 来构造目录框 区域框 例如某项调查需在某个城市抽取住户,但没有该城市最新的住户名录。此时, 统计调查机构可以用区域框抽取地理区域,如街区,然后由调查员列出每个被抽 中街区中的全部住户名单。 这种方法将对住户的抽样集中于数量有限的被的区域,从而可以较为经济地 进行个人面访调查
第四抽样方法 抽样的两种主要类型是概率抽样与非概率抽样。 一、非概率抽样 1、非概率抽样 非概率抽样是用主观的(非随机的)方法从总体中抽选单元,是一种快 速、简易且节省的从总体中选取样本单元的方法。 由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框不可能计算岀 各个单元的入样概率。从而无法得到总体目标量的可靠估计值及其抽样误差估计 2、非概率抽样的优点 快速简便;费用相对较低;不需要抽样框;对探索性硏究和调查的设计开发很 有用。所以在市场调查中广泛应用 3、非概率抽样的缺点 为了对总体迸行推断,需要对样本的代表性做很强的假定。不可能得到可靠 的估计值以及抽样误差估计值 4、非概率抽样的种类 非概率抽样方法有:随意抽样、志愿抽样、判断抽样、配额抽样
第四 抽样方法 抽样的两种主要类型是概率抽样与非概率抽样。 一、非概率抽样: 1、非概率抽样 非概率抽样是用主观的 ( 非随机的 ) 方法从总体中抽选单元,是一种快 速、简易且节省的从总体中选取样本单元的方法。 由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框,不可能计算出 各个单元的入样概率。从而无法得到总体目标量的可靠估计值及其抽样误差估计 值。 2、非概率抽样的优点 快速简便;费用相对较低;不需要抽样框;对探索性研究和调查的设计开发很 有用。所以在市场调查中广泛应用 3、非概率抽样的缺点 为了对总体进行推断,需要对样本的代表性做很强的假定。不可能得到可靠 的估计值以及抽样误差估计值。 4、非概率抽样的种类 非概率抽样方法有: 随意抽样、志愿抽样、判断抽样、配额抽样
随意抽样 随意抽样的样本单元的抽选以无目标、随意的方式进行,几乎没有或完全没 有计划。 它假定总体是同质的,即总体单元都相似。比如“街道拦截”访问法 志愿抽样 被调查者都是志愿者。 例如具有特定病情的人参加某些医疗实验;打电话参与广播或电视节目的 人;抽选参加焦点座谈或深入访问的人。 判断抽样 由专家有目的地抽选有代表性的样本。它适用于探索性研究, 如:抽选参加焦点座谈或深入访谈的人,但不宜用在试调查中 配额抽样 这是最常见的一种非概率抽样。抽样要从各个子总体中选取特定数量的单元 (配额)。 总样本量:900人 二、概率抽样
随意抽样 随意抽样的样本单元的抽选以无目标、随意的方式进行,几乎没有或完全没 有计划。 它假定总体是同质的,即总体单元都相似。比如 “ 街道拦截 ” 访问法。 志愿抽样 被调查者都是志愿者。 例如具有特定病情的人参加某些医疗实验;打电话参与广播或电视节目的 人;抽选参加焦点座谈或深入访问的人。 判断抽样 由专家有目的地抽选有代表性的样本。它适用于探索性研究, 如:抽选参加焦点座谈或深入访谈的人,但不宜用在试调查中。 配额抽样 这是最常见的一种非概率抽样。抽样要从各个子总体中选取特定数量的单元 ( 配额 ) 。 总样本量: 900 人 二、概率抽样: