《教育调查研究》课程教学资源（讲义）第六章测量调查法.doc_大学文库

第六章测量调查法教育调査的研究对象通常是学生,研究主题常常围绕学生的发展与学业,收集的资料会涉及学生的心理能力、人格特质、学业成就、态度倾向等个体的内在特征。这些特征仅靠观察、访谈、问卷等方法来收集,不一定合适。因此,调査中经常需要运用标准化的测验、量表作为收集资料工具。教育研究者不但要了解测量量表的性质,也要熟悉测量量表的编制和实施第一节什么是测量调查法教育测量的涵义 (一)测量的定义测量就是按规则给对象或事件赋值。通俗地说,就是根据一定的规则,给事物分派数字。 1、2、3、4、5这些数字本身是没有数量或质量意义的,只是个符号。当我们规定1代表学业成绩的最低等级“不及格”:2代表“及格”:3代表“中等”:4代表“良好”:5代表“优秀”,这时1、2、3、4、5才具有实际意义,数字按规则被赋予了意义根据测量的定义,任何测量必须具备以下几个要素 (1)测量客体。指测量的对象。测量的客体可以是人,也可以是教育研究中的事物或现象 (2)测量内容。指测量客体的属性和特征。测量内容可以是外显的,如学生的性别年龄、身高、体重等,也可以是内隐的,如学习兴趣、动机、态度、价值观等 (3)测量规则。指测量的法则或方法。也就是说,要构建一套如何分派数字或符号的准则,按准则对测量内容进行规范化、标准化的操作。 (4)测量工具。指测量的指标体系。进行测量通常要借助标准化测验或量表这类工具对测量客体的属性和特征进行测定,没有工具,测量难以进行。 (二)教育测量的定义从广义来说,教育测量是根据一定的客观标准,依据一定的规则,对教育领域中的事物或现象予以数量化描述。从狭义来说,教育测量是对学生经过某些学科的学习和训练之后, 所获得的知识、技能的测量。测量在教育、教学过程中应用广泛,对学生的发展需要评价,对学业成绩需要评价。任何个体、任何学科、任何学校都会用到测量。通过测量,可以对教学过程进行连续的、即时的评价,评价的结果又可以促进教育教学过程的变革。教育测量在教育研究应用中有两种基本形式。(1)直接选取某个测验作为收集资料的工具,测量结果就是研究的成果。例如,测定学生的智商、诊断学业情况、升级考证等。(2) 教育测量与其他研究方法结合使用,作为研究组合中的一部分。例如,对小学生识字量与语文学业成绩的相关性进行研究,需要利用识字量表对小学生识字量进行测量,然后再求与语文学业成绩的相关

第六章测量调查法教育调查的研究对象通常是学生，研究主题常常围绕学生的发展与学业，收集的资料会涉及学生的心理能力、人格特质、学业成就、态度倾向等个体的内在特征。这些特征仅靠观察、访谈、问卷等方法来收集，不一定合适。因此，调查中经常需要运用标准化的测验、量表作为收集资料工具。教育研究者不但要了解测量量表的性质，也要熟悉测量量表的编制和实施。第一节什么是测量调查法一、教育测量的涵义（一）测量的定义测量就是按规则给对象或事件赋值。通俗地说，就是根据一定的规则，给事物分派数字。 1、2、3、4、5 这些数字本身是没有数量或质量意义的，只是个符号。当我们规定 1 代表学业成绩的最低等级“不及格”；2 代表“及格”；3 代表“中等”；4 代表“良好”；5 代表“优秀”，这时 1、2、3、4、5 才具有实际意义，数字按规则被赋予了意义。根据测量的定义，任何测量必须具备以下几个要素。（1）测量客体。指测量的对象。测量的客体可以是人，也可以是教育研究中的事物或现象。（2）测量内容。指测量客体的属性和特征。测量内容可以是外显的，如学生的性别、年龄、身高、体重等，也可以是内隐的，如学习兴趣、动机、态度、价值观等。（3）测量规则。指测量的法则或方法。也就是说，要构建一套如何分派数字或符号的准则，按准则对测量内容进行规范化、标准化的操作。（4）测量工具。指测量的指标体系。进行测量通常要借助标准化测验或量表这类工具对测量客体的属性和特征进行测定，没有工具，测量难以进行。（二）教育测量的定义从广义来说，教育测量是根据一定的客观标准，依据一定的规则，对教育领域中的事物或现象予以数量化描述。从狭义来说，教育测量是对学生经过某些学科的学习和训练之后，所获得的知识、技能的测量。测量在教育、教学过程中应用广泛，对学生的发展需要评价，对学业成绩需要评价。任何个体、任何学科、任何学校都会用到测量。通过测量，可以对教学过程进行连续的、即时的评价，评价的结果又可以促进教育教学过程的变革。教育测量在教育研究应用中有两种基本形式。（1）直接选取某个测验作为收集资料的工具，测量结果就是研究的成果。例如，测定学生的智商、诊断学业情况、升级考证等。（2）教育测量与其他研究方法结合使用，作为研究组合中的一部分。例如，对小学生识字量与语文学业成绩的相关性进行研究，需要利用识字量表对小学生识字量进行测量，然后再求与语文学业成绩的相关

我:所有这些又回到了开始的问题上。偏见真的存在吗?还是你一直在蒙我? 你:不,偏见确实存在! 我:哦,我倒有些不确定了。你只说服了我,商人在雇用女员工时有偏见,原因是你曾经见到过,而且,我相信你说的。你也说服了我,有些人用不雅的名称来称呼黑人,并要他们全部回非洲去。但是我还是不确定,偏见到底存不存在?我想我该寻根探底,这样,我才能向你证明我能测量它。老实说,我已经开始怀疑偏见到底存不存在了。我的意思是,你看过偏见确实存在吗?偏见有颜色吗?重量多少?位于哪儿? 你:你到底在说些什么呀?你听不懂我的话吗?真不知道你有没有脑子! 引用这段对话的目的就是为了证明偏见是个抽象的概念,本质上说根本就不存在。虽然谁也没有摸过偏见的实体,也不知道偏见长得什么样、有多大、是什么颜色,但我们却在谈论偏见。而且,偏见可以通过具体的事例或指标(对女员工的态度、对黑人的态度)将抽象的概念和现实世界联系起来,使偏见可以测量。当人们提到偏见时,我们头脑里就会产生一种印象,就会把以前经历过的有关事件和资料联系起来。这些资料是别人告知的偏见的意义和自己观察到的偏见的例子。当双方在某一点上对偏见达成共识时,理解就会产生。上面的对话涉及以下几个基本要点观念是头脑中的印象观念是头脑中表达“印象”的术语。人们把这种“印象”当作工具,概括观察的和经验的具有共性的事物。如果没有这些观念,人们就不可能进行交流,因为头脑中的印象是不可以直接用来交流的,人们无法直接展示头脑中的印象 2.概念是一组观念,是达成共识的结果人们可以通过概念进行交流。“偏见”这个概念是大家使用这个术语的人的观念的集合偏见本身并不存在于真实世界中,也不能直接被观察、被测量。它是我们创造出来的一个术语。有了概念人们可以互相交流,达成共识。 3.可以测量的是概念所概括的事物人们交流所使用的术语通常是模糊的和会意的,只是有一个大致的了解。指出概念的具体含义,区分概念的不同维度就是概念化的过程。概念化就是使模糊印象清晰化。概念化的最终产品就是一组具体指标。指标被用来说明概念的属性,指标是可以测量的在科学研究中,一个抽象的、含义模糊不清的术语,可以转换成具体可测量的指标。这种转换有以下几个步骤概念化

我：所有这些又回到了开始的问题上。偏见真的存在吗？还是你一直在蒙我？你：不，偏见确实存在！我：哦，我倒有些不确定了。你只说服了我，商人在雇用女员工时有偏见，原因是你曾经见到过，而且，我相信你说的。你也说服了我，有些人用不雅的名称来称呼黑人，并要他们全部回非洲去。但是我还是不确定，偏见到底存不存在？我想我该寻根探底，这样，我才能向你证明我能测量它。老实说，我已经开始怀疑偏见到底存不存在了。我的意思是，你看过偏见确实存在吗？偏见有颜色吗？重量多少？位于哪儿？你：你到底在说些什么呀？你听不懂我的话吗？真不知道你有没有脑子！引用这段对话的目的就是为了证明偏见是个抽象的概念，本质上说根本就不存在。虽然谁也没有摸过偏见的实体，也不知道偏见长得什么样、有多大、是什么颜色，但我们却在谈论偏见。而且，偏见可以通过具体的事例或指标（对女员工的态度、对黑人的态度）将抽象的概念和现实世界联系起来，使偏见可以测量。当人们提到偏见时，我们头脑里就会产生一种印象，就会把以前经历过的有关事件和资料联系起来。这些资料是别人告知的偏见的意义和自己观察到的偏见的例子。当双方在某一点上对偏见达成共识时，理解就会产生。上面的对话涉及以下几个基本要点。 1．观念是头脑中的印象观念是头脑中表达“印象”的术语。人们把这种“印象”当作工具，概括观察的和经验的具有共性的事物。如果没有这些观念，人们就不可能进行交流，因为头脑中的印象是不可以直接用来交流的，人们无法直接展示头脑中的印象。 2．概念是一组观念，是达成共识的结果人们可以通过概念进行交流。“偏见”这个概念是大家使用这个术语的人的观念的集合。偏见本身并不存在于真实世界中，也不能直接被观察、被测量。它是我们创造出来的一个术语。有了概念人们可以互相交流，达成共识。 3．可以测量的是概念所概括的事物人们交流所使用的术语通常是模糊的和会意的，只是有一个大致的了解。指出概念的具体含义，区分概念的不同维度就是概念化的过程。概念化就是使模糊印象清晰化。概念化的最终产品就是一组具体指标。指标被用来说明概念的属性，指标是可以测量的。在科学研究中，一个抽象的、含义模糊不清的术语，可以转换成具体可测量的指标。这种转换有以下几个步骤：概念化

抽象性定义操作性定义具体测量指标根据以上所述,只要我们能找到指标,世界上所有事物都是可以测量的。但是,事情没有这样简单,因为不同的研究者对同一个抽象概念的理解和认识往往会有很大的差异。即使是“素质”这样常用的概念,10个人可能会有10种解释。从概念到具体的测量方法还有很长的路要走,还有很多工作要做。例如,要测量学生的语文水平,用什么工具去测量呢?全世界有无数各式各样的试卷,怎么办?在无法选择的时候,最后可能会以30分钟的听写测验就代表了语文水平。这样显然没有达到原定的目的。又如,智力这个变量可以描述得很深奥,可以有多种意义和解释,但如何测量?似乎不可能将智力的所有方面都测量到,一般主要测量记忆能力,解数学题的能力、逻辑推理能力、语言表达能力等要把抽象概念转换成操作性定义,把不可观测的事物转换成可观测的指标,需要谨慎地设计测量工具,尽可能全面反映概念的意义。例如,测量学生写作能力时,出的测试题目是 “评论李白诗句的特点”、“论述纳米材料的优缺点”或“论伊拉克战争发展态势”,这些题目似乎是在测验学生的相关知识,而不像是在考学生的写作能力测量调查的类型 (一)根据行为目标和测验内容分类 1.智力测验。测被试的智力高低,其结果常以智商(IQ)来表示。其中比较著名的有斯坦福——比纳智力测验、韦克斯勒儿童智力测验量表( WISC-CR)、瑞文推理测验等。 2.能力倾向测验。测被试潜在的某种能力,以了解其发展的可能性,预测个人能力发展倾向。如音乐、美术、体育、创造力、想象力、记忆力等方面的能力倾向测验。 3.成就测验。测被试经某种形式的学习或训练后对知识、技能的掌握程度或熟练水平。如识字量、阅读、算术测验等。成就测验可以是学科成就测验或综合成就测验 4.人格测验。测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格心理特征。较为著名的有明尼苏达多相个性测验(MMPI)、艾森克人格问卷(EPQ-R)卡特尔 16项人格因素测验(16PF)等。 (二)根据测验对象分类 1.个别测验。指主试与被试一对一进行的测验。个别测验的可靠性比较高,主试能有效地观察控制被试的行为反应。但是,个别测验费时费力,短时间内难以获得大量的资料, 并且对主试的要求较高 2.团体测验。指一个主试能同时对许多被试进行的测验。团体测验节省人力与时间, 在短时间内能收集到大量的资料,效率较高。但是,被试的反应不容易控制,并且测验效果不及个别测验可靠。 (三)根据测验材料分类 1.语言、文字测验。指测验内容是以语言、文字形式构成,被试要用语言、文字作答, 主要是纸笔测验。语言、文字测验实施比较容易,在学校系统广泛应用,适宜于进行团体测

抽象性定义操作性定义具体测量指标根据以上所述，只要我们能找到指标，世界上所有事物都是可以测量的。但是，事情没有这样简单，因为不同的研究者对同一个抽象概念的理解和认识往往会有很大的差异。即使是“素质”这样常用的概念，10 个人可能会有 10 种解释。从概念到具体的测量方法还有很长的路要走，还有很多工作要做。例如，要测量学生的语文水平，用什么工具去测量呢？全世界有无数各式各样的试卷，怎么办？在无法选择的时候，最后可能会以 30 分钟的听写测验就代表了语文水平。这样显然没有达到原定的目的。又如，智力这个变量可以描述得很深奥，可以有多种意义和解释，但如何测量？似乎不可能将智力的所有方面都测量到，一般主要测量记忆能力，解数学题的能力、逻辑推理能力、语言表达能力等。要把抽象概念转换成操作性定义，把不可观测的事物转换成可观测的指标，需要谨慎地设计测量工具，尽可能全面反映概念的意义。例如，测量学生写作能力时，出的测试题目是 “评论李白诗句的特点”、“论述纳米材料的优缺点”或“论伊拉克战争发展态势”，这些题目似乎是在测验学生的相关知识，而不像是在考学生的写作能力。三、测量调查的类型（一）根据行为目标和测验内容分类 1．智力测验。测被试的智力高低，其结果常以智商（IQ）来表示。其中比较著名的有：斯坦福——比纳智力测验、韦克斯勒儿童智力测验量表（WISC-CR）、瑞文推理测验等。 2．能力倾向测验。测被试潜在的某种能力，以了解其发展的可能性，预测个人能力发展倾向。如音乐、美术、体育、创造力、想象力、记忆力等方面的能力倾向测验。 3．成就测验。测被试经某种形式的学习或训练后对知识、技能的掌握程度或熟练水平。如识字量、阅读、算术测验等。成就测验可以是学科成就测验或综合成就测验。 4．人格测验。测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格心理特征。较为著名的有明尼苏达多相个性测验（MMPI）、艾森克人格问卷（EPQ-R）卡特尔 16 项人格因素测验（16PF）等。（二）根据测验对象分类 1．个别测验。指主试与被试一对一进行的测验。个别测验的可靠性比较高，主试能有效地观察控制被试的行为反应。但是，个别测验费时费力，短时间内难以获得大量的资料，并且对主试的要求较高。 2．团体测验。指一个主试能同时对许多被试进行的测验。团体测验节省人力与时间，在短时间内能收集到大量的资料，效率较高。但是，被试的反应不容易控制，并且测验效果不及个别测验可靠。（三）根据测验材料分类 1．语言、文字测验。指测验内容是以语言、文字形式构成，被试要用语言、文字作答，主要是纸笔测验。语言、文字测验实施比较容易，在学校系统广泛应用，适宜于进行团体测

验。但是,它易受被试的教育程度和不同文化背景的影响 2.非语言、文字测验。又称操作测验,是以图形、模型、实物、工具等作为测试材料, 被试需要动手操作才能完成的测验。由于被试不需要用文字作答,因而特别适合文字表达有困难的被试,适合于不同文化背景的比较研究。比较著名的测验有:瑞文标准推理能力测验、画人测验等。 (四)根据测验的参照系分类 1.常模参照测验。常模指具有一定代表性,并且数量足够大的样本在某项测验上的平均成绩。常模是评价被试测验成绩的相对标准。常模参照测验是一种衡量被试相对水平的测验,是将被试的测验成绩与同类对象在同一测验上的平均分(常模)相比较,从而解释分数, 确定被试在总体中的相对位置的测验方法。常模参照测验要有常模对照表。常模有地区性常模和全国性常模,地区性常模只适用于特定的区域。例如,在城市获得的常模就不一定适用于农村或边远地区。全国性常模适用于全国所有的同类个体。例如,儿童的身高、体重就有全国性常模,中国儿童发展量表(3-6岁)就有全国性常模。 2.目标参照测验。又称标准参照测验,是衡量被试实际水平的测验,将被试在测验上的分数与事先制定好的某种标准进行比较,看被试是否达到了目标规定的要求。目标参照测验的特点是依据标准,判断被试的达标程度,而不是将被试的成绩与他人成绩做比较。如, 英语水平测试、毕业考试、动作技能测试、体育达标测试等 (五)根据测验的标准化程度分类 1.标准化测验。由专家学者或专门机构采用系统的科学程序编制的、在测验实施过程、评分手续、分数的解释上具有统一标准的,并对测验误差做了严格控制的测验。标准化测验编制和施测有一套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的样本进行试测;根据数量化指标筛选测验题目:鉴定整个测验的信度和效度;建立常模、确定指导语、时限和施测条件;规定评分标准、分数转换和解释方法等。标准化测验所获得的测量结果比较客观、可靠、应用范围较广,一般测量调查应尽可能选用标准化的测验工具 2.非标准化测验。指测验的编制和实施不按标准程序进行的测验,通常由教师或研究人员自编的、为临时测验所用的简单测验。如课堂测验、考试、等级评定量表等。这些测验是教师根据教学目标和自己的教学经验编制而成,它通常与日常教学工作紧密联系;测验内容与教材内容、教学进度一致;难易程度由教师把握;针对性较强。非标准化测验的编制省时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测验,测验的实施和记分也不甚严格。除了上述的分类之外,还有许多其他分类。如按测验的执行方式,可以分为口头测验、纸笔测验、操作测验、计算机测验;按答案和评分的客观性,可分为客观题测验和主观题测验;按测验目的,可以分为描述性测验、诊断性测验、预示性测验等。三、测量调查的特点 (一)测量调查的优点 (1)科学性较强。测验量表的编制过程客观、严谨,测验结果直观形象。 (2)标准化程度较高。测验的编制、施测、评分、计分、对分数的解释等均有统一标准,容易控制,便于操作 (3)定量化水平较高。测量所获得的均为客观的数据资料,便于记录和分析,可用计算机进行结果处理 (4)能直接进行对比研究。标准化测验一般都有常模,只需将所测得的数据资料直接与常模比较,便可知差异

验。但是，它易受被试的教育程度和不同文化背景的影响。 2．非语言、文字测验。又称操作测验，是以图形、模型、实物、工具等作为测试材料，被试需要动手操作才能完成的测验。由于被试不需要用文字作答，因而特别适合文字表达有困难的被试，适合于不同文化背景的比较研究。比较著名的测验有：瑞文标准推理能力测验、画人测验等。（四）根据测验的参照系分类 1．常模参照测验。常模指具有一定代表性，并且数量足够大的样本在某项测验上的平均成绩。常模是评价被试测验成绩的相对标准。常模参照测验是一种衡量被试相对水平的测验，是将被试的测验成绩与同类对象在同一测验上的平均分（常模）相比较，从而解释分数，确定被试在总体中的相对位置的测验方法。常模参照测验要有常模对照表。常模有地区性常模和全国性常模，地区性常模只适用于特定的区域。例如，在城市获得的常模就不一定适用于农村或边远地区。全国性常模适用于全国所有的同类个体。例如，儿童的身高、体重就有全国性常模，中国儿童发展量表（3-6 岁）就有全国性常模。 2．目标参照测验。又称标准参照测验，是衡量被试实际水平的测验，将被试在测验上的分数与事先制定好的某种标准进行比较，看被试是否达到了目标规定的要求。目标参照测验的特点是依据标准，判断被试的达标程度，而不是将被试的成绩与他人成绩做比较。如，英语水平测试、毕业考试、动作技能测试、体育达标测试等。（五）根据测验的标准化程度分类 1．标准化测验。由专家学者或专门机构采用系统的科学程序编制的、在测验实施过程、评分手续、分数的解释上具有统一标准的，并对测验误差做了严格控制的测验。标准化测验编制和施测有一套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的样本进行试测；根据数量化指标筛选测验题目；鉴定整个测验的信度和效度；建立常模、确定指导语、时限和施测条件；规定评分标准、分数转换和解释方法等。标准化测验所获得的测量结果比较客观、可靠、应用范围较广，一般测量调查应尽可能选用标准化的测验工具。 2．非标准化测验。指测验的编制和实施不按标准程序进行的测验，通常由教师或研究人员自编的、为临时测验所用的简单测验。如课堂测验、考试、等级评定量表等。这些测验是教师根据教学目标和自己的教学经验编制而成，它通常与日常教学工作紧密联系；测验内容与教材内容、教学进度一致；难易程度由教师把握；针对性较强。非标准化测验的编制省时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测验，测验的实施和记分也不甚严格。除了上述的分类之外，还有许多其他分类。如按测验的执行方式，可以分为口头测验、纸笔测验、操作测验、计算机测验；按答案和评分的客观性，可分为客观题测验和主观题测验；按测验目的，可以分为描述性测验、诊断性测验、预示性测验等。三、测量调查的特点（一）测量调查的优点（1）科学性较强。测验量表的编制过程客观、严谨，测验结果直观形象。（2）标准化程度较高。测验的编制、施测、评分、计分、对分数的解释等均有统一标准，容易控制，便于操作。（3）定量化水平较高。测量所获得的均为客观的数据资料，便于记录和分析，可用计算机进行结果处理。（4）能直接进行对比研究。标准化测验一般都有常模，只需将所测得的数据资料直接与常模比较，便可知差异

(5)经济实用,省时省力。只需根据硏究需要直接选择合适的测验量表施测即可, (二)测量调查的局限性 (1)测验编制难度较大,费时费力。尤其是标准化测验的编制专业化程度高,非专门机构、专业人员不能胜任。 (2)教育测验通常是间接测验。测量涉及的智力、能力、知识、技能、性格等因素难以直接测量,只能依据被试行为、活动、或自评等来推测其水平。因此,测量的结果往往是相对的 (3)难以进行整体定性的分析。无论是能力测验还是人格测验,结果多采用定量分析, 结果多在静止的表面水平上描述和解释 (4)测验研究灵活性较差。测验量表题目内容固定,必须按测验程序严格进行,无法根据研究的实际需要增删内容,灵活掌握 (5)测验研究对研究者要求较高。研究者要具有一定的专业知识,了解测验的有关情况,熟悉测验的技能等第二节怎样编制测量量表、测量量表的定义测量量表有广义和狭义之分,广义的测量量表指所有用于测量的,具有实施和计分标准或有指导语的工具。例如,通常用的调查表、问卷、教师命题的测验、等级量表等。狭义的测量量表是指建立使用群体常模的、具有对照比较指标的标准化测验。比较流行的标准化测验有:韦克斯勒儿童智力量表(wISC-CR)、瑞文标准推理测验、16种人格因素问卷(16PFQ) 艾森克人格问卷(EPQ-R)等。根据以上定义的划分,绝大多数的问卷、调查表由于没有建立常模,没有比较指标和缺乏标准化程序。从严格意义上说,它们不属于测量量表测量量表的水平根据史蒂文斯(S.S. Stevens)1951年创立的测量层次分类,把量表分为四种不同水平的类型 1.类别量表( nominal scale 类别量表又叫称名量表,是根据事物的某一特点,对事物属性进行分类,用数字来代表事物或性质。如运动员的号码,学生的学号等。又如,对于性别,我们可以用数字1表示男生,用数字0表示女生,在这里1和0只是代表事物的性质,只是起到给事物分类的作用, 数字本身并不具有数量意义称名量表不能作大小比较和加减乘除运算,在数据处理上仅适宜作计数资料的统计 2.顺序量表( ordinal scale) 顺序量表又叫等级量表,是按研究对象的某一种属性的顺序排列出等第次序,只有等级顺序而无等距的单位和绝对零点。如根据学生的测验成绩排出名次,成绩最好的为1,成绩次之为2,再次之为3,依次类推。又如,对于生活水平,我们可以给出四个等级:贫困温饱、小康、富裕。顺序量表的数值具有等级性和序列性的特点,能够进行大小比较,但不能作加减乘除运

（5）经济实用，省时省力。只需根据研究需要直接选择合适的测验量表施测即可。（二）测量调查的局限性（1）测验编制难度较大，费时费力。尤其是标准化测验的编制专业化程度高，非专门机构、专业人员不能胜任。（2）教育测验通常是间接测验。测量涉及的智力、能力、知识、技能、性格等因素难以直接测量，只能依据被试行为、活动、或自评等来推测其水平。因此，测量的结果往往是相对的。（3）难以进行整体定性的分析。无论是能力测验还是人格测验，结果多采用定量分析，结果多在静止的表面水平上描述和解释。（4）测验研究灵活性较差。测验量表题目内容固定，必须按测验程序严格进行，无法根据研究的实际需要增删内容，灵活掌握。（5）测验研究对研究者要求较高。研究者要具有一定的专业知识，了解测验的有关情况，熟悉测验的技能等。第二节怎样编制测量量表一、测量量表的定义测量量表有广义和狭义之分，广义的测量量表指所有用于测量的，具有实施和计分标准或有指导语的工具。例如，通常用的调查表、问卷、教师命题的测验、等级量表等。狭义的测量量表是指建立使用群体常模的、具有对照比较指标的标准化测验。比较流行的标准化测验有：韦克斯勒儿童智力量表（WISC-CR）、瑞文标准推理测验、16 种人格因素问卷（16PFQ）、艾森克人格问卷（EPQ-R）等。根据以上定义的划分，绝大多数的问卷、调查表由于没有建立常模，没有比较指标和缺乏标准化程序。从严格意义上说，它们不属于测量量表。二、测量量表的水平根据史蒂文斯（S．S．Stevens）1951 年创立的测量层次分类，把量表分为四种不同水平的类型。 1．类别量表（nominal scale）类别量表又叫称名量表，是根据事物的某一特点，对事物属性进行分类，用数字来代表事物或性质。如运动员的号码，学生的学号等。又如，对于性别，我们可以用数字 1 表示男生，用数字 0 表示女生，在这里 1 和 0 只是代表事物的性质，只是起到给事物分类的作用，数字本身并不具有数量意义。称名量表不能作大小比较和加减乘除运算，在数据处理上仅适宜作计数资料的统计。 2．顺序量表(ordinal scale) 顺序量表又叫等级量表，是按研究对象的某一种属性的顺序排列出等第次序，只有等级顺序而无等距的单位和绝对零点。如根据学生的测验成绩排出名次，成绩最好的为 1，成绩次之为 2，再次之为 3，依次类推。又如，对于生活水平，我们可以给出四个等级：贫困；温饱、小康、富裕。顺序量表的数值具有等级性和序列性的特点，能够进行大小比较，但不能作加减乘除运

算。如,对于文化程度,我们可以按一定的顺序排列:文盲:小学;初中;高中;大学。但不能说“小学减文盲等于高中减初中”。在数据处理上能计算中位数、百分位数、等级相关系数、肯德尔和谐系数及秩次方差分析等。 3.等距量表( interval scale 等距量表又叫间距量表,是具有相等的单位,但没有绝对零点的量表。等距量表的数量单位之间的间距是相等的。如,温度摄氏30度至32度与摄氏18度至20度的温差是相等的。三个儿童在智商测验中分别得分105、110、115,在智商测验分数体系中,分数差距是相等的。等距量表在学校教育系统运用广泛,一般将百分制评分看作等距量表。由于等距量表具有相等的单位,因此可以进行加减运算,但不能作乘除运算。等距量表可以广泛运用统计方法,如平均数、标准差、相关系数以及t检验、Z检验和F检验等多种检验 4.等比量表( ratio scale) 等比量表又叫比率量表,是有相等的单位和绝对零点的量表。等比量表除了具有类别顺序、等距量表的特征外,还有一个具有实际意义的绝对零点。零点是指测量的起点或参照点。有些零点是人定的,称相对零点。例如,摄氏零度并不意味着没有一点温度,而是以人定的冰点为参照标准。学生的智商、考试成绩的0分都是相对零点。有些零点具有实际意义称绝对零点。如年龄、身高、经费开支等都有绝对零点,0岁、0米、0元中的“零”都表示真实的“无”,表示一点都没有。等比量表具有绝对零点,可以进行加减乘除运算,可以表示倍数关系。当然等比量表适用的统计方法就更多。以上四种类型的量表分别代表4种不同水平的测量。这4种量表构成一个等级分类体系, 后一类量表包括前一类量表所具有的条件。等比量表是4种量表中层次最高的,包含信息最多的量表。因此,一般不要将属于测量水平高的测量结果转换成测量水平低的测量结果。如我们可以将百分制(等距量表)转换成等级制(顺序量表)来表示学习成绩,但等级制却无法还原成百分制,因为等距量表层次要比顺序量表层次高。在将学习成绩的百分制转换成等级制的过程中,会丢失许多信息。一般在两种量表可供选择的情况下,尽可能采用层次高的测量量表,采用精确程度高的测量量表。下表6-1清楚显示了这4种量表的区别和内在联系表6-1四种测量量表的特征、功能和适用的统计分析方法表名称基本功能数学特征适用统计方法类别分类符号分类、描述 ≠百分比,检验量表列联相关系数顺序1分类符号1分类 ≠中位数,四分位差量表2等第顺序2可按顺序排列 <等级相关,非参数检验等距1同上 1同上算术平均数,方差,积量表2同上 2同上差相关,复相关,参数 3差值大小|3差值的确定检验有相等单位与比较等比1同上同上算术平均数,方差,积量表2同上 2同上差相关,复相关,参数 3同上 3同上检验,几何平均数 ①吴增基等:《现代社会调查上海人民出版社,98年,第72页

算。如，对于文化程度，我们可以按一定的顺序排列：文盲；小学；初中；高中；大学。但不能说“小学减文盲等于高中减初中”。在数据处理上能计算中位数、百分位数、等级相关系数、肯德尔和谐系数及秩次方差分析等。 3．等距量表(interval scale) 等距量表又叫间距量表，是具有相等的单位，但没有绝对零点的量表。等距量表的数量单位之间的间距是相等的。如，温度摄氏 30 度至 32 度与摄氏 18 度至 20 度的温差是相等的。三个儿童在智商测验中分别得分 105、110、115，在智商测验分数体系中，分数差距是相等的。等距量表在学校教育系统运用广泛，一般将百分制评分看作等距量表。由于等距量表具有相等的单位，因此可以进行加减运算，但不能作乘除运算。等距量表可以广泛运用统计方法，如平均数、标准差、相关系数以及 t 检验、Z 检验和 F 检验等多种检验。 4．等比量表(ratio scale) 等比量表又叫比率量表，是有相等的单位和绝对零点的量表。等比量表除了具有类别、顺序、等距量表的特征外，还有一个具有实际意义的绝对零点。零点是指测量的起点或参照点。有些零点是人定的，称相对零点。例如，摄氏零度并不意味着没有一点温度，而是以人定的冰点为参照标准。学生的智商、考试成绩的 0 分都是相对零点。有些零点具有实际意义，称绝对零点。如年龄、身高、经费开支等都有绝对零点，0 岁、0 米、0 元中的“零”都表示真实的“无”，表示一点都没有。等比量表具有绝对零点，可以进行加减乘除运算，可以表示倍数关系。当然等比量表适用的统计方法就更多。以上四种类型的量表分别代表4种不同水平的测量。这4种量表构成一个等级分类体系，后一类量表包括前一类量表所具有的条件。等比量表是 4 种量表中层次最高的，包含信息最多的量表。因此，一般不要将属于测量水平高的测量结果转换成测量水平低的测量结果。如，我们可以将百分制（等距量表）转换成等级制（顺序量表）来表示学习成绩，但等级制却无法还原成百分制，因为等距量表层次要比顺序量表层次高。在将学习成绩的百分制转换成等级制的过程中，会丢失许多信息。一般在两种量表可供选择的情况下，尽可能采用层次高的测量量表，采用精确程度高的测量量表。下表 6-1 清楚显示了这 4 种量表的区别和内在联系。 ① 表 6-1 四种测量量表的特征、功能和适用的统计分析方法表名称特点基本功能数学特征适用统计方法类别分类符号分类、描述 = ≠ 百分比，检验，量表列联相关系数顺序 1 分类符号 1 分类 = ≠ 中位数，四分位差，量表 2 等第顺序 2 可按顺序排列 > < 差相关，复相关，参数 3 同上 3 同上 + - 检验，几何平均数 ①吴增基等：《现代社会调查方法》，上海人民出版社，1998 年，第 72 页

4有绝对零点4比值的确定、比较测量量表的编制过程测量量表的编制是一个复杂的系统工程。编制过程会因测验的内容、性质的不同而有所不同。但是,由于测验原理大致相同。测验编制大致可分为以下几个步骤: (1)确定测验目标(测谁、测什么内容、测验目标是什么等); (2)拟定编题计划(怎么测、具体项目、内容比重等) (3)编制测验题目(题目数量、形式、时间安排、分数分配、复本等); 4)试测和项目分析(样本、题目的难度、区分度、被试的反应等) (5)修订、筛选测验题目(施测程序、指导语、时限、计分标准等) (6)组成正式测验(建立常模、编制测验手册等) (7)检验测验的可靠性和有效性(建立测验的信度、效度等)。标准化测验的编制专业化要求很高,需要投入大量的人力、物力、财力,通常由专门机构或专家学者编制。标准化测验应具备三个基本特点:测验的效度要高,即测验的准确性要高,测验本身确实能测出所拟定的目标程度:测验的信度要高,即测验的可靠性要高,测验结果能真实反映被试的实际水平:测验有常模比较,即测验能解释实际测得的分数,能评价被试的水平和程度第三节怎样进行测量调查测验的编制有标准化的程序,测量的实施也有标准化的要求。从测量调查实施人员的角度,可以将实施标准化测验框定为以下几个方面、选择合适的测验工具教育调査研究中,研究人员常常找不到合适的测验量表来收集所需的实证资料,又没有可能自行编制测验量表,以至最后不得不放弃很多有价值的研究课题。因此,收集测验量表是进行研究的一项基础工作。在国外,有关教育、心理的测验量表比较多,可以从心理测验年鉴、手册等参考资料上査找。比较重要的资料有:《心理测验年鉴》( Mental measurement Yearbook)、《测验出版目录》( Test in Print)、《儿童发展测验及评价手册》( Test and Measurements in Child Development)。在国内尚无专业书籍汇编有关测验量表,有关测验量表主要集中在心理学领域,散见于一些杂志、书籍之中,还有一些自编的测验量表常见于网络。因此需要研究人员留心收集,注意积累。教育测验种类繁多,功能特点各不相同。因此,研究者应根据研究目的,选择合适的测验工具。选择测验工具要从现实和适用着眼,可以从两个方面考虑 (一)测验工具的性能。以下是衡量测验性能的5个方面标准 (1)客观性,即指测量的科学化程度,测试结果能准确反映被测对象的真实情况。(2)标准化。最好选择标准化测验作为硏究工具。(3)效度。效度是测验分数能正确反映测量想要得到的内容和特征。如果一个测验能真实地测出所要测量的特性,这个测验或量表就是有效的,如果测量工具无效或效度太低,就失去了存在的意义。(4)信度。信度指测验结果的稳

4 有绝对零点 4 比值的确定、 × ÷ 比较三、测量量表的编制过程测量量表的编制是一个复杂的系统工程。编制过程会因测验的内容、性质的不同而有所不同。但是，由于测验原理大致相同。测验编制大致可分为以下几个步骤：（1）确定测验目标（测谁、测什么内容、测验目标是什么等）；（2）拟定编题计划（怎么测、具体项目、内容比重等）；（3）编制测验题目（题目数量、形式、时间安排、分数分配、复本等）；（4）试测和项目分析（样本、题目的难度、区分度、被试的反应等）；（5）修订、筛选测验题目（施测程序、指导语、时限、计分标准等）；（6）组成正式测验（建立常模、编制测验手册等）；（7）检验测验的可靠性和有效性（建立测验的信度、效度等）。标准化测验的编制专业化要求很高，需要投入大量的人力、物力、财力，通常由专门机构或专家学者编制。标准化测验应具备三个基本特点：测验的效度要高，即测验的准确性要高，测验本身确实能测出所拟定的目标程度；测验的信度要高，即测验的可靠性要高，测验结果能真实反映被试的实际水平；测验有常模比较，即测验能解释实际测得的分数，能评价被试的水平和程度。第三节怎样进行测量调查测验的编制有标准化的程序，测量的实施也有标准化的要求。从测量调查实施人员的角度，可以将实施标准化测验框定为以下几个方面。一、选择合适的测验工具教育调查研究中，研究人员常常找不到合适的测验量表来收集所需的实证资料，又没有可能自行编制测验量表，以至最后不得不放弃很多有价值的研究课题。因此，收集测验量表是进行研究的一项基础工作。在国外，有关教育、心理的测验量表比较多，可以从心理测验年鉴、手册等参考资料上查找。比较重要的资料有：《心理测验年鉴》（Mental Measurement Yearbook）、《测验出版目录》（Test in Print）、《儿童发展测验及评价手册》（Test and Measurements in Child Development）。在国内尚无专业书籍汇编有关测验量表，有关测验量表主要集中在心理学领域，散见于一些杂志、书籍之中，还有一些自编的测验量表常见于网络。因此需要研究人员留心收集，注意积累。教育测验种类繁多，功能特点各不相同。因此，研究者应根据研究目的，选择合适的测验工具。选择测验工具要从现实和适用着眼，可以从两个方面考虑。（一）测验工具的性能。以下是衡量测验性能的 5 个方面标准。（1）客观性，即指测量的科学化程度，测试结果能准确反映被测对象的真实情况。（2）标准化。最好选择标准化测验作为研究工具。（3）效度。效度是测验分数能正确反映测量想要得到的内容和特征。如果一个测验能真实地测出所要测量的特性，这个测验或量表就是有效的，如果测量工具无效或效度太低，就失去了存在的意义。（4）信度。信度指测验结果的稳

定性或一致性。从被试来说,在同一测验的多次测试中能获得相似的分数:从主试来说,不同的测量人员能给出相似的分数。 (二)测验工具的价值。价值是测验是符合研究需要的程度,通常可以从研究的目的、研究对象、研究资源等方面作综合考虑。不要将一个态度倾向性测验作为收集诊断性硏究的资料,也不要将一个适用于城市中学生的人格测验用于收集农村小学生的研究资料,更不要选择一个在研究时间、人力、物力都无法负担的测验作为收集研究资料的工具二、按标准化测验的要求施测有了合适的测验工具,还必须按测验的规定实施测验。施测前,要仔细阅读测验手册, 熟悉测验手册中的内容要求,准备好测验所需的材料,熟练掌握测验的操作程序,选择适宜的测验环境,避免各种偶然因素可能带来的误差,与被试建立良好的信任关系,解除被试的过度紧张和不适感等。施测过程中,要严格按照测验手册上规定的标准化程序执行,指导语的解说要统一,不应以测验手册以外的词语去解释被试的疑问,避免给予被试以任何暗示, 要严格控制测验时间三、客观、准确地记录被试的反应测验过程中,研究人员要公平地对待每个被试,评分标准要统一、客观准确、前后一致通常标准化测验都有标准答案或评分标准供测试人员对照使用。测试人员应熟记于心,严格执行。有些标准化测验还需对评分人员进行必要的培训,以统一评分标准。测验结果的整理分析也应按照测验手册提示的方法执行。只有按照标准化的程序实施测验,测验结果才可靠, 获得的资料才有意义。四、合理解释测验结果标准化测验是一项严肃的、学术性很强的工作,尤其是对测验结果的解释,通常要求经过专业培训的人员主持。在解释测验结果时,要做到有依据,有分寸,不武断地作绝对性的结论,也不作无限度的推论。五、测量调查的注意事项 1.遵守测验的职业道德。对涉及个人隐私的问题要为被试严守秘密;不要给测验分数低的被试贴标签,说他们低能,没有培养前途:不要伤害被试的自尊心。 2.好测验试题的保密工作。教育测验量表不象物理测量的工具(如尺、秤等),可以在被试身上反复使用。教育测验内容一旦泄露,测验就失去了价值。因此,测验量表不宜在杂志、书籍中刊登、披露。 3.测验主试应具备必要的专业知识。教育测验专业化程度很高,要保证测验操作的规范,结果解释的准确,从事测验的人员必须具备一定的专业基础知识,或经过专门的培训测验过程的标准化。测验的实施要求尽力做到标准化,为每个被试提供尽可能相同的测验条件,应严格按照测验手册中规定的要求和步骤实施操作,不能随意变动。否则, 可能会影响测验的结果

定性或一致性。从被试来说，在同一测验的多次测试中能获得相似的分数；从主试来说，不同的测量人员能给出相似的分数。（二）测验工具的价值。价值是测验是符合研究需要的程度，通常可以从研究的目的、研究对象、研究资源等方面作综合考虑。不要将一个态度倾向性测验作为收集诊断性研究的资料，也不要将一个适用于城市中学生的人格测验用于收集农村小学生的研究资料，更不要选择一个在研究时间、人力、物力都无法负担的测验作为收集研究资料的工具。二、按标准化测验的要求施测有了合适的测验工具，还必须按测验的规定实施测验。施测前，要仔细阅读测验手册，熟悉测验手册中的内容要求，准备好测验所需的材料，熟练掌握测验的操作程序，选择适宜的测验环境，避免各种偶然因素可能带来的误差，与被试建立良好的信任关系，解除被试的过度紧张和不适感等。施测过程中，要严格按照测验手册上规定的标准化程序执行，指导语的解说要统一，不应以测验手册以外的词语去解释被试的疑问，避免给予被试以任何暗示，要严格控制测验时间。三、客观、准确地记录被试的反应测验过程中，研究人员要公平地对待每个被试，评分标准要统一、客观准确、前后一致。通常标准化测验都有标准答案或评分标准供测试人员对照使用。测试人员应熟记于心，严格执行。有些标准化测验还需对评分人员进行必要的培训，以统一评分标准。测验结果的整理分析也应按照测验手册提示的方法执行。只有按照标准化的程序实施测验，测验结果才可靠，获得的资料才有意义。四、合理解释测验结果标准化测验是一项严肃的、学术性很强的工作，尤其是对测验结果的解释，通常要求经过专业培训的人员主持。在解释测验结果时，要做到有依据，有分寸，不武断地作绝对性的结论，也不作无限度的推论。五、测量调查的注意事项 1．遵守测验的职业道德。对涉及个人隐私的问题要为被试严守秘密；不要给测验分数低的被试贴标签，说他们低能，没有培养前途；不要伤害被试的自尊心。 2．好测验试题的保密工作。教育测验量表不象物理测量的工具（如尺、秤等），可以在被试身上反复使用。教育测验内容一旦泄露，测验就失去了价值。因此，测验量表不宜在杂志、书籍中刊登、披露。 3．测验主试应具备必要的专业知识。教育测验专业化程度很高，要保证测验操作的规范，结果解释的准确，从事测验的人员必须具备一定的专业基础知识，或经过专门的培训。 4．确保测验过程的标准化。测验的实施要求尽力做到标准化，为每个被试提供尽可能相同的测验条件，应严格按照测验手册中规定的要求和步骤实施操作，不能随意变动。否则，可能会影响测验的结果

《教育调查研究》课程教学资源（讲义）第六章 测量调查法

《教育调查研究》课程教学资源（讲义）第六章测量调查法