
数据统计与数据分析 一、问卷的确认和编辑 数据资料的处理过程是从回收第一份问卷开始的。按照事先调查方案的计划, 尽量确保每份问卷都是有效问卷(所谓“有效”问卷,指的是在调查过程中按照正 确的方式执行完成的问卷)0问卷回收以后,督导员必须按照调查的要求,仔细地检 查问卷。检查问卷的目的在于将有错误填写,或者是不完整、不规范的问卷挑出, 保证数据的准确性。所谓错误填写即出现了那些不合逻辑或根本不可能的结果,通 过对调查员的复核,可以检查出哪些调查员没有按照调查的要求去访问,那么,该 调查员完成的问卷可能存在很多问题。还有可能漏答了某些必答的问题,比如被访 者的人口特征等基本情况,造成问卷回答不完整。 鉴于这些情况,不管是由于调查员造成的还是被访者的原因,通常有两种 方式进行补教:对于出现漏答的问卷,通常要求调查员对受访者进行重访,以补充 未答的问题:如果不便于重访或重访后的问卷还有问题,数目不是很多,可以当作 缺失值计。如果数量非常大,这份问卷就只能当作废卷处理,并且按照被访对象的 抽样条件,补充相关的样本。!一、问卷检查 问卷的检查一般是指对回收问卷的完整性和访问质量的检查,目的是要确 定哪些问卷可以接受,哪些问卷要作废。检查的要点包括: (①)规定详细的检查规则,一份问卷哪些问题是必须填写完整的,哪些问题出 现缺失时可以容忍等,使督导员明确检查问卷的每一项流程。 (②)对于每份调查员交回来的问卷必须彻底地检查,以确认调查员或者被 访者是否按照相关的要求完成了访问,并且完整地记录在问卷的恰当位置。 (3)应该将问卷分成三种类型,一种是完成的问卷,一种是作废的问卷, 第三种是有问题,但通过追访还可以利用的问卷。 (④)如果抽样中有配额的要求,那么应将完成的问卷中的配额指标进行统 计分析,确定问卷是否完成配额的要求,以便及时补充不足的样本。 (⑤)通常有下面情况的问卷是不能接受的:所回收的问卷明显不完整,缺 了一页或者多页:问卷中有很多内容没有填答:问卷的模式说明调查员(被访者)没 有理解或者遵循访问指南回答;问卷的答案几乎没有什么变化,如在态度的选项上 全部选择第X项:问卷的被访者不符合抽样要求:问卷的回收日期超过了访问的时 限等。二、问卷的校订
1 数据统计与数据分析 一、问卷的确认和编辑 数据资料的处理过程是从回收第一份问卷开始的。按照事先调查方案的计划, 尽量确保每份问卷都是有效问卷(所谓“有效”问卷,指的是在调查过程中按照正 确的方式执行完成的问卷)o 问卷回收以后,督导员必须按照调查的要求,仔细地检 查问卷。检查问卷的目的在于将有错误填写,或者是不完整、不规范的问卷挑出, 保证数据的准确性。所谓错误填写即出现了那些不合逻辑或根本不可能的结果,通 过对调查员的复核,可以检查出哪些调查员没有按照调查的要求去访问,那么,该 调查员完成的问卷可能存在很多问题。还有可能漏答了某些必答的问题,比如被访 者的人口特征等基本情况,造成问卷回答不完整。 鉴于这些情况,不管是由于调查员造成的还是被访者的原因,通常有两种 方式进行补救:对于出现漏答的问卷,通常要求调查员对受访者进行重访,以补充 未答的问题;如果不便于重访或重访后的问卷还有问题,数目不是很多,可以当作 缺失值计。如果数量非常大,这份问卷就只能当作废卷处理,并且按照被访对象的 抽样条件,补充相关的样本。 !一、问卷检查 问卷的检查一般是指对回收问卷的完整性和访问质量的检查,目的是要确 定哪些问卷可以接受,哪些问卷要作废。检查的要点包括: (1)规定详细的检查规则,一份问卷哪些问题是必须填写完整的,哪些问题出 现缺失时可以容忍等,使督导员明确检查问卷的每一项流程。 (2)对于每份调查员交回来的问卷必须彻底地检查,以确认调查员或者被 访者是否按照相关的要求完成了访问,并且完整地记录在问卷的恰当位置。 (3)应该将问卷分成三种类型,一种是完成的问卷,一种是作废的问卷, 第三种是有问题,但通过追访还可以利用的问卷。 (4)如果抽样中有配额的要求,那么应将完成的问卷中的配额指标进行统 计分析,确定问卷是否完成配额的要求,以便及时补充不足的样本。 (5)通常有下面情况的问卷是不能接受的:所回收的问卷明显不完整,缺 了一页或者多页;问卷中有很多内容没有填答;问卷的模式说明调查员(被访者)没 有理解或者遵循访问指南回答;问卷的答案几乎没有什么变化,如在态度的选项上 全部选择第 X 项;问卷的被访者不符合抽样要求;问卷的回收日期超过了访问的时 限等。二、问卷的校订

为了加强问卷的准确性,对那些初步接受的问卷还要进行进一步的检查和 校订,在校订的过程中,通常会发现问卷中存在有字迹模糊、问题漏选、前后回答 不一致、答案模棱两可和跳答错误的问题。 问卷的某些问题答案可能出现字迹模糊的情况,特别是碰上无结构的开放 式的问题时,因为调查员记录的不好,答案不容易识别。如果发现这样的问题,必 须对受访者进行追访,将不清楚的地方填写清楚。对于漏选的问题处理方法也是 样,出现漏选的题目因为各种原因,无法进行事后补充访问,普通的问题,且数目 不大时,通常作为缺失值处理:如果涉及到受访对象的个人特征的问题,通常只能 作为废卷处理。 问卷中有些问题的答案会出现不容易理解的模棱两可的情况,或者是使用 了不是通用的缩写方式或词语,或者在应该单选一项的问题中,圈选了两项等,都 必须通过追访进行补救。另外就是回答时可能出现跳答错误的情况,这可能是因为 被访对象没有很好地理解问题。如果出现这种情况,首先要核实被访对象是否符合 抽样调查的条件(跳答题目往往是筛选条件),如果符合,进行追问补充,如果不符 合条件,问卷只能作废,重新补充样本。 问卷的回收、检查与校订可能是非常繁琐、且时间很长的工作,但却是保 证数据处理过程中较少误差的重要步骤。三、问卷的编码 编码是指对一个问题的不同答案进行分组和确定数字代码的过程。大多数 问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组 问题的不同答案的数字编码已经确定(参见表15一1)。 而开放式问题,因为不知道会得到什么答案,或者是希望得到比列出的封 闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问题进行事后 编码。开放题的事后编码的工作量很大,无法预知会出现多少个新的代码和答案, 而且有些答案是非常类似的,必须决定是合并成一类呢,还是分成不同的代码。具 体地说,编码需要以下几个步骤: (1)每个需要编码的项目都必须有一份编码表,将问题和项目的代码详细 地标注在编码表的项端位置,由于事先不知道会有多少新的代码或答案出现,所以 一定要预备足够的空间。 (②)如果编码的工作由一个编码员完成,出现错误的可能性相对较小。但 实际上,因为需要编码的问题可能很多,一个人没有办法按时完成,这就需要多个
2 为了加强问卷的准确性,对那些初步接受的问卷还要进行进一步的检查和 校订,在校订的过程中,通常会发现问卷中存在有字迹模糊、问题漏选、前后回答 不一致、答案模棱两可和跳答错误的问题。 问卷的某些问题答案可能出现字迹模糊的情况,特别是碰上无结构的开放 式的问题时,因为调查员记录的不好,答案不容易识别。如果发现这样的问题,必 须对受访者进行追访,将不清楚的地方填写清楚。对于漏选的问题处理方法也是一 样,出现漏选的题目因为各种原因,无法进行事后补充访问,普通的问题,且数目 不大时,通常作为缺失值处理;如果涉及到受访对象的个人特征的问题,通常只能 作为废卷处理。 问卷中有些问题的答案会出现不容易理解的模棱两可的情况,或者是使用 了不是通用的缩写方式或词语,或者在应该单选一项的问题中,圈选了两项等,都 必须通过追访进行补救。另外就是回答时可能出现跳答错误的情况,这可能是因为 被访对象没有很好地理解问题。如果出现这种情况,首先要核实被访对象是否符合 抽样调查的条件(跳答题目往往是筛选条件),如果符合,进行追问补充,如果不符 合条件,问卷只能作废,重新补充样本。 问卷的回收、检查与校订可能是非常繁琐、且时间很长的工作,但却是保 证数据处理过程中较少误差的重要步骤。三、问卷的编码 编码是指对一个问题的不同答案进行分组和确定数字代码的过程。大多数 问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组 问题的不同答案的数字编码已经确定(参见表 15—1)。 而开放式问题,因为不知道会得到什么答案,或者是希望得到比列出的封 闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问题进行事后 编码。开放题的事后编码的工作量很大,无法预知会出现多少个新的代码和答案, 而且有些答案是非常类似的,必须决定是合并成一类呢,还是分成不同的代码。具 体地说,编码需要以下几个步骤: (1)每个需要编码的项目都必须有一份编码表,将问题和项目的代码详细 地标注在编码表的顶端位置,由于事先不知道会有多少新的代码或答案出现,所以 一定要预备足够的空间。 (2)如果编码的工作由一个编码员完成,出现错误的可能性相对较小。但 实际上,因为需要编码的问题可能很多,一个人没有办法按时完成,这就需要多个

编码员。在这样的情况下,一定要注意多个编码员工作的协调。应该安排编码员在 不同的时间,或者相同的时间相同的地点,使用同一个编码表。这样可以避免编码 重复的情况。 (③)研究人员应详细制定编码的守则,指导编码员如何识别答案,并且将 其归类。以及如何分配编码等等,并同时对编码的过程进行监督和检查。编码员在 编码的过程中可能有两种倾向:一种是事无巨细地将出现的每一种答案给与新的代 码,结果代码的数量比预料要多得多;另一种情况是对答案的归类过于粗糙,可能 丢弃了数据中有意义的差异。对于这两种情况都必须通过守则的规定,尽量避免。 碰到无法确认的分类的时候,通常的做法是付与一个新的代码,如果需要合并,可 以在将来的数据处理过程中完成。 (4)可以对“不知道”、“无所谓”、“不清楚”、“缺失,事先规定,但是 定要注意规定的编码与实现对该问题的最大编码的预计的数量一致。 (⑤)编码的字迹必须清楚,如果可能的话,及时进行计算机的录入管理。 二、问卷调查中的编码技巧 在问卷调查中大量的问卷收回后,需要对每个问题的答案进行整理、汇总。为 了充分利用问卷中的调查数据,提高问卷的录入效率及分析效果,需要对问卷中的 数据进行科学的编码。编码就是对一个问题的不同答案给出一个电脑能够识别的数 字代码的过程,在同一道题目中,每个编码仅代表一个观点,然后将其以数字形式 输入电脑,将不能直接统计计算的文字转变成可直接计算的数字,将大量文字信息 压缩成一份数据报告,使信息更为清晰和直观,以便对数据进行分组和后期分析。 这就使问卷编码工作成为问卷调查中不可缺少的流程,也成为数据整理汇总阶段重 要而基本的环节 通常,问卷中的问题有两类,一类是封闭式问题,即在提出问题的同时,列出 若干可能的答案供被调查者进行选择:另一类是开放式问题,即不向被调查者提供 回答选项的问题,被调查者使用自己的语言来回答问题。下面就不同问题的编码列 出不同的编码方法,以供大家探讨: 1、封闭式问题的编码方法 事实上在调查问卷开始设计的时候,编码工作就己经开始了。因为有些问题的答案 范围研究者事先是知道的,象性别,学历等。这样的问题,在问卷中以封闭问题的 形式出现,被访者回答问题时只要选择相应的现成答案就可以了。如:
3 编码员。在这样的情况下,一定要注意多个编码员工作的协调。应该安排编码员在 不同的时间,或者相同的时间相同的地点,使用同一个编码表。这样可以避免编码 重复的情况。 (3)研究人员应详细制定编码的守则,指导编码员如何识别答案,并且将 其归类.以及如何分配编码等等,并同时对编码的过程进行监督和检查。编码员在 编码的过程中可能有两种倾向:一种是事无巨细地将出现的每一种答案给与新的代 码,结果代码的数量比预料要多得多;另一种情况是对答案的归类过于粗糙,可能 丢弃了数据中有意义的差异。对于这两种情况都必须通过守则的规定,尽量避免。 碰到无法确认的分类的时候,通常的做法是付与一个新的代码,如果需要合并,可 以在将来的数据处理过程中完成。 (4)可以对“不知道”、“无所谓”、“不清楚”、“缺失,事先规定,但是一 定要注意规定的编码与实现对该问题的最大编码的预计的数量一致。 (5)编码的字迹必须清楚,如果可能的话,及时进行计算机的录入管理。 二、问卷调查中的编码技巧 在问卷调查中大量的问卷收回后,需要对每个问题的答案进行整理、汇总。为 了充分利用问卷中的调查数据,提高问卷的录入效率及分析效果,需要对问卷中的 数据进行科学的编码。编码就是对一个问题的不同答案给出一个电脑能够识别的数 字代码的过程,在同一道题目中,每个编码仅代表一个观点,然后将其以数字形式 输入电脑,将不能直接统计计算的文字转变成可直接计算的数字,将大量文字信息 压缩成一份数据报告,使信息更为清晰和直观,以便对数据进行分组和后期分析。 这就使问卷编码工作成为问卷调查中不可缺少的流程,也成为数据整理汇总阶段重 要而基本的环节。 通常,问卷中的问题有两类,一类是封闭式问题,即在提出问题的同时,列出 若干可能的答案供被调查者进行选择;另一类是开放式问题,即不向被调查者提供 回答选项的问题,被调查者使用自己的语言来回答问题。下面就不同问题的编码列 出不同的编码方法,以供大家探讨: 1、封闭式问题的编码方法 事实上在调查问卷开始设计的时候,编码工作就已经开始了。因为有些问题的答案 范围研究者事先是知道的,象性别,学历等。这样的问题,在问卷中以封闭问题的 形式出现,被访者回答问题时只要选择相应的现成答案就可以了。如:

Q1.请问您通常在什么地方购买日常用品?[多 小杂货店/便民店nn.1 仓储/超市nnn2 商场内超 市3 百货商场 零售摊点 5 批发市场6 直销/邮购 网上购 买11n8 其他n9 封闭式问题的调查问卷,在问 卷回收后就可以直接录入电脑,这对调查来说是非常便捷有效的。所以正常的问卷 调查都尽可能的使用封闭式问题。即便是那些事先不容易知道答案的问题,如购买 某商品的地点类型、使用某种商品的主要原因等也可采用此类形式,但通常会在封 闭式问题的答案中增加一个“其它”选项,就是为了保证所有的被访者在回答问题 时都有合适的被选对象,并且这个选项被选择的机会应当是可以预见到很少的,不 会超过主要答案被选择的机会。 二、开放式问题的编码方法 还有一些问题问卷设计者在设计问卷时是不完全知道答案的,这样的问题在问 卷中一般有两种形式。一种是只有问题没有备选答案,称作完全开放式问题。例 如:Q2.请问您不喜欢吃巧克力的原因有哪些?(需要追问) 另一种是有部分备选答案同时还有要求被访者注明的“其它”选项,称作半开 放式问题或隐含的开放式问题。例如: Q3.请问对于*产品,您愿意接受什么样的促销活动?[多选] 免费试用1 价格打折nnn2 赠送相关产品 礼品盒/礼品包.4 抽奖5 会员式活动. ”n6 集旧包装换取新产品、奖品等”,7 其他[请注 明]」 对于开放性问题,被访者需要用文字来叙述自 己的回答。问卷回收后这些答案不能马上录入电脑,需要后期的人员对其进行“再 编码”。“再编码”是为了方便数据处理,对原编码的有效补充,有时还是对原编码 的调整修改。“再编码”往往伴随着重新归类分组,由于电脑对数字型数据的偏爱, 以及某些统计分析程序只能处理数字型数据,因此经过再编码,数据处理更方便, 更可行。 但对于问卷调查来说,开放性问题出现的较少。从功能的角度来看开放性问题 是对封闭式问题的补充
4 Q1.请问您通常在什么地方购买日常用品?[多 小杂货店/便民店 „„„„„„„„.1 仓储/超市 „„„„„„„„„„„.2 商场内超 市„„„„„„„„„„„3 百货商场„„„„„„„„„„„„4 零售摊点„„„„„„„„„„„„ 5 批发市场„„„„„„„„„„„„6 直销/邮购 „„„„„„„„„„„.7 网上购 买„„„„„„„„„„„„8 其他„„„„„„„„„„„„„„9 封闭式问题的调查问卷,在问 卷回收后就可以直接录入电脑,这对调查来说是非常便捷有效的。所以正常的问卷 调查都尽可能的使用封闭式问题。即便是那些事先不容易知道答案的问题,如购买 某商品的地点类型、使用某种商品的主要原因等也可采用此类形式,但通常会在封 闭式问题的答案中增加一个“其它”选项,就是为了保证所有的被访者在回答问题 时都有合适的被选对象,并且这个选项被选择的机会应当是可以预见到很少的,不 会超过主要答案被选择的机会。 二、开放式问题的编码方法 还有一些问题问卷设计者在设计问卷时是不完全知道答案的,这样的问题在问 卷中一般有两种形式。一种是只有问题没有备选答案,称作完全开放式问题。例 如: Q2.请问您不喜欢吃巧克力的原因有哪些?(需要追问) 另一种是有部分备选答案同时还有要求被访者注明的“其它”选项,称作半开 放式问题或隐含的开放式问题。例如: Q3.请问对于**产品,您愿意接受什么样的促销活动?[多选] 免费试用„„„„„„„„„„„„1 价格打折„„„„„„„„„„„„2 赠送相关产品„„„ „„„„„„„3 礼品盒/礼品包 „„„„„„„„„4 抽奖„„„„„„„„„„„„„„5 会员式活动„„„„„ „„„ „„„ 6 集旧包装换取新产品、奖品等„„„ 7 其 他 [ 请 注 明]_ 对于开放性问题,被访者需要用文字来叙述自 己的回答。问卷回收后这些答案不能马上录入电脑,需要后期的人员对其进行“再 编码”。“再编码”是为了方便数据处理,对原编码的有效补充,有时还是对原编码 的调整修改。“再编码”往往伴随着重新归类分组,由于电脑对数字型数据的偏爱, 以及某些统计分析程序只能处理数字型数据,因此经过再编码,数据处理更方便, 更可行。 但对于问卷调查来说,开放性问题出现的较少。从功能的角度来看开放性问题 是对封闭式问题的补充

2、开放式问题的编码步骤 对回收问卷的再编码主要是针对开放式问题的。开放性问题的编码工作需要进 行4个步骤才能进行数据的录入: 第一步、录入答案。由于录入技术的进步,传统上让调查人员对着问卷逐条寻 找不同答案并列在一份大清单上的烦琐做法应当废止,而代之以全部录入答案,然 后再按照下列步骤实施编码。 第二步、尝试用不同方法对录入的答案进行排序、归类(许多软件例如excel、 foxpro、spss甚至word的汉字版等都有按笔画和拼音排序的功能),并结合主观判 断,然后合并意思相近的答案。并且对明显相同的答案统计其出现的次数。例 如:Q4.请问您不喜欢吃巧克力的原因有哪些? 原因 次数 价格不合理 5 价格有点贵 4 糖多怕胖 10 因为体重增加8 8 热量高,怕发胖 8 妈妈说上火 4 天气太热了,易上火 15 天气热想吃清淡的 价格原因 第三步、编码人员及问卷设计者根据调查的目的对抄出的答案进一步归纳,形成类 别数量适当的“编码表”。以上题为例,归纳的结果如下表: 编码表 合并原因 编码 价格不合理 担心发胖 2
5 2、开放式问题的编码步骤 对回收问卷的再编码主要是针对开放式问题的。开放性问题的编码工作需要进 行 4 个步骤才能进行数据的录入: 第一步、录入答案。由于录入技术的进步,传统上让调查人员对着问卷逐条寻 找不同答案并列在一份大清单上的烦琐做法应当废止,而代之以全部录入答案,然 后再按照下列步骤实施编码。 第二步、尝试用不同方法对录入的答案进行排序、归类(许多软件例如 excel、 foxpro、spss 甚至 word 的汉字版等都有按笔画和拼音排序的功能),并结合主观判 断,然后合并意思相近的答案。并且对明显相同的答案统计其出现的次数。例 如: Q4.请问您不喜欢吃巧克力的原因有哪些? 原因 次数 价格不合理 5 价格有点贵 4 糖多怕胖 10 因为体重增加 8 8 热量高,怕发胖 8 妈妈说上火 4 天 气太热了,易上火 15 天气热想吃清淡的 6 价格原因 1 。 第三步、编码人员及问卷设计者根据调查的目的对抄出的答案进一步归纳,形成类 别数量适当的“编码表”。以上题为例,归纳的结果如下表: 编码表 合并原因 编码 价格不合理 1 担心发胖 2

易上火 . 从“编码表”中可以看出,答案的数量减少了,每一个保留的答案是对实际填写的 同类答案的总结。 第四步、调查人员根据“编码表”中的编码对所有开放题的答案进行逐一归类, 并在每个问题旁边写上实际答案在编码表中对应的号码。如下所示: Q4.请 问您不喜欢吃巧克力的原因有哪些?(需要追问) 调查问题对照表 原因 对照编码 热量高吃了怕发胖 2 价格有点贵 到此为止问卷上的文字答案经过归纳变成了数字,方便了录入人员的录入、统计 3、对问卷调查编码工作的几点建议 不论是调查前还是调查后的编码工作都有相同的原则,从这些原则可以看出 编码做得好坏,也可以看出问卷设计是否科学、合理。在进行编码时提出以下几点 建议: 1、提倡使用统一编码表和对编码表进行测试。无论是开放题还是半开放题, 几道问题选项或答案内容相同、相近、类似等情况下,将这几道题目采用统一的编 码表。这样做一是易于控制编码,二是给后期的数据处理、分析带来很多方便。另 外,对于确定的编码表,在正式开展调查前应在小范围内对编码表进行测试(测试 问卷50份左右),以便对编码表进行修正,并使编码人员充分理解编码表。 2、编码的合理性。首先编码应充分反映调查项目之间的内在逻辑联系,如对 地区的编码,象对本省地市的编码值应该接近,以反映本省地理位置接近这一客观 事实,并且在处理和汇总时容易设定条件。其次,还要遵循以下数字的用法:能用 自然数,绝不用小数:能用正数绝不用负数:能用绝对值小的整数绝不用绝对值大 的整数。 3、编码的广泛性和概括性。它包含两方面含义,(I)每个答案都可以在最终 的编码表上找到合适的对应,否则编码表是不完备的。(2)最终的编码表应当全面 的含盖问题设计时所要收集的各个方面的信息,有时候出现频次少但观点特别的回
6 易上火 3 . . 从“编码表”中可以看出,答案的数量减少了,每一个保留的答案是对实际填写的 同类答案的总结。 第四步、调查人员根据“编码表”中的编码对所有开放题的答案进行逐一归类, 并在每个问题旁边写上实际答案在编码表中对应的号码。如下所示: Q4.请 问您不喜欢吃巧克力的原因有哪些?(需要追问) 调查问题对照表 原因 对照编码 热量高 吃了怕发胖 2 价格有点贵 1 到此为止问卷上的文字答案经过归纳变成了数字,方便了录入人员的录入、统计。 3、对问卷调查编码工作的几点建议 不论是调查前还是调查后的编码工作都有相同的原则,从这些原则可以看出 编码做得好坏,也可以看出问卷设计是否科学、合理。在进行编码时提出以下几点 建议: 1、提倡使用统一编码表和对编码表进行测试。无论是开放题还是半开放题, 几道问题选项或答案内容相同、相近、类似等情况下,将这几道题目采用统一的编 码表。这样做一是易于控制编码,二是给后期的数据处理、分析带来很多方便。另 外,对于确定的编码表,在正式开展调查前应在小范围内对编码表进行测试(测试 问卷 50 份左右),以便对编码表进行修正,并使编码人员充分理解编码表。 2、编码的合理性。首先编码应充分反映调查项目之间的内在逻辑联系,如对 地区的编码,象对本省地市的编码值应该接近,以反映本省地理位置接近这一客观 事实,并且在处理和汇总时容易设定条件。其次,还要遵循以下数字的用法:能用 自然数,绝不用小数;能用正数绝不用负数;能用绝对值小的整数绝不用绝对值大 的整数。 3、编码的广泛性和概括性。它包含两方面含义,(1)每个答案都可以在最终 的编码表上找到合适的对应,否则编码表是不完备的。(2)最终的编码表应当全面 的含盖问题设计时所要收集的各个方面的信息,有时候出现频次少但观点特别的回

答可能代表一个特定的重要群体,从研究的角度来说包含这类编码也是非常重要。 在确定最终编码表的时候,可以通过经验判断编码表是否包含了各个角度的回 4、编码的唯一性和排斥性。不同编码值不能表示相同的内容或有重叠交叉。 每个答案只能有唯一的编码条目与之对应,不应出现同一个答案对应两个或以上编 码条目的情况,否则编码表就不满足唯一性。例如:如果编码表中出现5-高兴、8 愉快,那么对于“快乐”这个答案就可以编成5也可以编成8。这种情况需要对编 码表重新进行归纳。 三、问卷的数据录入 EXCEL SPSS 四、数据的图形化 五、描述性统计 1、频数和百分比 所谓频数,是表示某一个取值的个案数:所谓百分比,是表示该取值的个案 数占总样本的比例,即(频数/样本量)100%。将变量所有取值的频数和百分比 列在一个表中,这种表叫领数表,从中可以看出变量各个取值的分布情况。 频数表分析方式一般适用于定序变量和定类变量,对定距变量,必须先将变量的取 值进行分组,每一个分组作为一个新的选项,然后对这些新的选项进行频数表的计 算。 例:的《对某家电品牌品牌宜传认知情况调查》中,样本量是501人。其中的一 个问题设置是“总的说来,您如何评价品牌的广告?”,备选的答案是“1-非常不 好”、2-不好”、3-一般”、4-好”、5非常好”。在计算选择各种答案的人数和百分 比时,使用sPss统计分析软件,具体的结果参见表
7 答可能代表一个特定的重要群体,从研究的角度来说包含这类编码也是非常重要。 在确定最终编码表的时候,可以通过经验判断编码表是否包含了各个角度的回 答。 4、编码的唯一性和排斥性。不同编码值不能表示相同的内容或有重叠交叉。 每个答案只能有唯一的编码条目与之对应,不应出现同一个答案对应两个或以上编 码条目的情况,否则编码表就不满足唯一性。例如:如果编码表中出现 5-高兴、8- 愉快,那么对于“快乐”这个答案就可以编成 5 也可以编成 8。这种情况需要对编 码表重新进行归纳。 三、问卷的数据录入 EXCEL SPSS 四、数据的图形化 五、描述性统计 1、频数和百分比 所谓频数,是表示某一个取值的个案数;所谓百分比 ,是表示该取值的个案 数占总样本的比例,即(频数/样本量) 100%。将变量所有取值的频数和百分比 列在一个表中,这种表叫频数表,从中可以看出变量各个取值的分布情况。 频数表分析方式一般适用于定序变量和定类变量,对定距变量,必须先将变量的取 值进行分组,每一个分组作为一个新的选项,然后对这些新的选项进行频数表的计 算。 例 :的《对某家电品牌 品牌宣传认知情况调查》中,样本量是 501 人。其中的一 个问题设置是“总的说来,您如何评价品牌的广告?”,备选的答案是“1-非常不 好”、2-不好”、3-一般”、4-好”、5-非常好”。在计算选择各种答案的人数和百分 比时,使用 spss 统计分析软件,具体的结果参见表

表16-1频数数据计算结果 Valid Value Lable Value Frequency Percent 2 2 2 2 10 2.0 2.3 2.5 3 193 38.5 44.3 46.5 216 43.1 49.5 16 3.2 3.7 65 13.0 Total 50t 100.0 100.0 Valid 436 Missing case 65 表中第一列是“变量标签”,是对变量取值的说明(现在使用的SPSS软件虽然是英 文版,但是已经可以兼容中文,变量标签可以使用中文表示)。 第二列是“变量取值”,即:“1至“5”分别代表了非常不好”到“非常好”, 其中“.”代表缺失值,即有些人没有回答此题。 第三列是“频数”,对应的数值表示各个取值的个案数,这里认为“非常好 有16样本、认为“好”的有216个样本、认为“一般”的有193个样本、认为“不 好”的有10个样本、认为“非常不好”的有1个样本,而没回答此题约有65个样 本。 第四列是“百分比”,是频数对样本量(501人)的比率。 第五列是“有效百分比”,是频数对有效个案数(所谓有效个案数,即样本量减 去缺失个案数)的比例,这里有效个案数是436。 第六列是“累计百分比”,是对有效百分比逐行累加的结果。 从对该题的频数分析结果来看,对A品牌广告的评价总的来说还是倾向于比较 好的,所有的样本中,认为“不好”或者“非常不好”的比例合计只有2.5%,即 占样本2.5%的人不喜欢A品牌的广告。 2、指数 指数(1ndex)的计算方法很多,最常用的一种方法是,将一些待比较的数字中 的一个特定的数字定为基数100,计算其他数字相对于基数的百分数。用各种指数 来描述和比较一些特定的市场的问题,既方便又直观。定义适当的指数不但可以进
8 表中第一列是“变量标签”,是对变量取值的说明(现在使用的 SPSS 软件虽然是英 文版,但是已经可以兼容中文,变量标签可以使用中文表示)。 第二列是“变量取值”,即:“1 至“5”分别代表了非常不好”到“非常好”, 其中“.”代表缺失值,即有些人没有回答此题。 ·, 第三列是“频数”,对应的数值表示各个取值的个案数,这里认为“非常好” 有 16 样本、认为“好”的有 216 个样本、认为“一般”的有 193 个样本、认为“不 好”的有 10 个样本、认为“非常不好”的有 1 个样本,而没回答此题约有 65 个样 本。 第四列是“百分比”,是频数对样本量(501 人)的比率。 第五列是“有效百分比”,是频数对有效个案数(所谓有效个案数,即样本量减 去缺失个案数)的比例,这里有效个案数是 436。 第六列是“累计百分比”,是对有效百分比逐行累加的结果。 从对该题的频数分析结果来看,对 A 品牌广告的评价总的来说还是倾向于比较 好的,所有的样本中,认为“不好”或者“非常不好”的比例合计只有 2.5%,即 占样本 2.5%的人不喜欢 A 品牌的广告。 2、指数 指数(1ndex)的计算方法很多,最常用的一种方法是,将一些待比较的数字中 的一个特定的数字定为基数 100,计算其他数字相对于基数的百分数。用各种指数 来描述和比较一些特定的市场的问题,既方便又直观。定义适当的指数不但可以进

行横向(不同空间)的比较,还可以进行纵向(不同时间)的比较。为了说明20多年 来广告的发展情况,可以1978年的广告营业额作为基数,计算以后每年广告经营 额与基数的百分比,如果小于100的指数表明广告经营额的负增长,如果大于100 的指数,代表增长,而且还能够计算出增长的幅度。 3、众数、中位数、均值和标准差 用于描述一组市场调查数据或资料的中心的常用的统计量有三种:众数、中位 数和平均数。所谓众数(Mod),是表示一组数据中出现次数最多或最常见的数值。 在市场调查的数据中,众数代表了典型的个案,或者是分布的高峰所对应的变量取 值,变量的所有取值中频数最大的取值,如在消费者的教育程度问题里,初中学历 程度选项最多,所以初中相对应的变量编码,就是众数。众数适于描述定序和定类 变量,对于定距变量,可先将数据分组,分组后频数最大的那一组的组中值,被近 似地认为是该变量的众数。 中位数(Medium)表示一组数据按照大小的顺序排列时,中间位置的那个数值, 即针对某个变量,有50%的个案的取值在中位数以下。通俗地讲,样本的所有观测 值中,有一半数比中位数大,有一半数比中位数小。中位数计算时会面临两种情况: 当样本数()是奇数时,将样本的所有观测值按由小到大(或由大到小)的顺序排列, 排在中间位置上的数值即为中位数:当样本为偶数时,排在中间两个位置上的数值 的平均值即为中位数。中位数适用于定序变量,对于定距变量,还是首先对观测值 进行分组,简单的方法就是用中间那一组的组中值作为变量的中位数。 平均数(Mean)也叫均值,等于样本的所有n个观测值之和除以样本量。假设n 个观测值用zl,2,z表示,均值用竞表示,均值的公式为: X=ΣX/n()或者 =∑xf/n(2) 这里公式(②)是针对分组的数据而言,其中X表示某变量的取值,/表示变量 落在某一组中的频数,∑表示对所有的值求和(或者对所有的组求和)。 平均数是最典型也是最常用的统计量,适用于定距变量和定比变量。平均数也 是最有“意义”的统计量,它可以看作是数据的“平衡点”或“重心”位置所在。 因为中位数在计算时,使用到了所有的数据,所以与众数和中位数相比,平均数所 包含的信息量最大。但是平均数受极端值的影响很大,个别的极端值会直接影响平 均数的数字的变化,不如中位数和众数稳定。因此当调查的数据分布比较规则,不 存在什么极端值,或数据对中心的偏离不是很大的情况下,平均数是很好的描述统
9 行横向(不同空间)的比较,还可以进行纵向(不同时间)的比较。为了说明 20 多年 来广告的发展情况,可以 1978 年的广告营业额作为基数,计算以后每年广告经营 额与基数的百分比,如果小于 100 的指数表明广告经营额的负增长,如果大于 100 的指数,代表增长,而且还能够计算出增长的幅度。 3、众数、中位数、均值和标准差 用于描述一组市场调查数据或资料的中心的常用的统计量有三种:众数、中位 数和平均数。所谓众数(Mode),是表示一组数据中出现次数最多或最常见的数值。 在市场调查的数据中,众数代表了典型的个案,或者是分布的高峰所对应的变量取 值,变量的所有取值中频数最大的取值,如在消费者的教育程度问题里,初中学历 程度选项最多,所以初中相对应的变量编码,就是众数。众数适于描述定序和定类 变量,对于定距变量,可先将数据分组,分组后频数最大的那一组的组中值,被近 似地认为是该变量的众数。 中位数(Medium)表示一组数据按照大小的顺序排列时,中间位置的那个数值, 即针对某个变量,有 50%的个案的取值在中位数以下。通俗地讲,样本的所有观测 值中,有一半数比中位数大,有一半数比中位数小。中位数计算时会面临两种情况: 当样本数(n)是奇数时,将样本的所有观测值按由小到大(或由大到小)的顺序排列, 排在中间位置上的数值即为中位数;当样本为偶数时,排在中间两个位置上的数值 的平均值即为中位数。中位数适用于定序变量,对于定距变量,还是首先对观测值 进行分组,简单的方法就是用中间那一组的组中值作为变量的中位数。 平均数(Mean)也叫均值,等于样本的所有 n 个观测值之和除以样本量。假设 n 个观测值用 z1,2,.zn 表示,均值用竞表示,均值的公式为: X=∑X/n (1) 或者 =∑xf/n (2) 这里公式(2)是针对分组的数据而言,其中 X 表示某变量的取值,/表示变量 落在某一组中的频数,∑表示对所有的值求和(或者对所有的组求和)。 平均数是最典型也是最常用的统计量,适用于定距变量和定比变量。平均数也 是最有“意义”的统计量,它可以看作是数据的“平衡点”或“重心”位置所在。 因为中位数在计算时,使用到了所有的数据,所以与众数和中位数相比,平均数所 包含的信息量最大。但是平均数受极端值的影响很大,个别的极端值会直接影响平 均数的数字的变化,不如中位数和众数稳定。因此当调查的数据分布比较规则,不 存在什么极端值,或数据对中心的偏离不是很大的情况下,平均数是很好的描述统

计量;如果存在极端值或分布偏离比较大时,还必须使用众数和中位数来补充描述。 众数、中位数、均值都是对变量分布中心的描述,其中均值最为常用。对变量 的分布形状的描述,最常用的统计量是方差或标准差。 所谓方差(Variance)或标准差(Standardvariance)是表示分布对平均数的偏 离程度或伸展程度的度量。计算公式是:
10 计量;如果存在极端值或分布偏离比较大时,还必须使用众数和中位数来补充描述。 众数、中位数、均值都是对变量分布中心的描述,其中均值最为常用。对变量 的分布形状的描述,最常用的统计量是方差或标准差。 所谓方差(Variance)或标准差(Standardvariance)是表示分布对平均数的偏 离程度或伸展程度的度量。计算公式是: