第六章测量调查法 教育调査的研究对象通常是学生,研究主题常常围绕学生的发展与学业,收集的资料会 涉及学生的心理能力、人格特质、学业成就、态度倾向等个体的内在特征。这些特征仅靠观 察、访谈、问卷等方法来收集,不一定合适。因此,调査中经常需要运用标准化的测验、量 表作为收集资料工具。教育研究者不但要了解测量量表的性质,也要熟悉测量量表的编制和 实施 第一节什么是测量调查法 教育测量的涵义 (一)测量的定义 测量就是按规则给对象或事件赋值。通俗地说,就是根据一定的规则,给事物分派数字。 1、2、3、4、5这些数字本身是没有数量或质量意义的,只是个符号。当我们规定1代表学 业成绩的最低等级“不及格”:2代表“及格”:3代表“中等”:4代表“良好”:5代表“优 秀”,这时1、2、3、4、5才具有实际意义,数字按规则被赋予了意义 根据测量的定义,任何测量必须具备以下几个要素 (1)测量客体。指测量的对象。测量的客体可以是人,也可以是教育研究中的事物或 现象 (2)测量内容。指测量客体的属性和特征。测量内容可以是外显的,如学生的性别 年龄、身高、体重等,也可以是内隐的,如学习兴趣、动机、态度、价值观等 (3)测量规则。指测量的法则或方法。也就是说,要构建一套如何分派数字或符号的 准则,按准则对测量内容进行规范化、标准化的操作。 (4)测量工具。指测量的指标体系。进行测量通常要借助标准化测验或量表这类工具 对测量客体的属性和特征进行测定,没有工具,测量难以进行。 (二)教育测量的定义 从广义来说,教育测量是根据一定的客观标准,依据一定的规则,对教育领域中的事物 或现象予以数量化描述。从狭义来说,教育测量是对学生经过某些学科的学习和训练之后, 所获得的知识、技能的测量。 测量在教育、教学过程中应用广泛,对学生的发展需要评价,对学业成绩需要评价。任 何个体、任何学科、任何学校都会用到测量。通过测量,可以对教学过程进行连续的、即时 的评价,评价的结果又可以促进教育教学过程的变革。 教育测量在教育研究应用中有两种基本形式。(1)直接选取某个测验作为收集资料的工 具,测量结果就是研究的成果。例如,测定学生的智商、诊断学业情况、升级考证等。(2) 教育测量与其他研究方法结合使用,作为研究组合中的一部分。例如,对小学生识字量与语 文学业成绩的相关性进行研究,需要利用识字量表对小学生识字量进行测量,然后再求与语 文学业成绩的相关
第六章 测量调查法 教育调查的研究对象通常是学生,研究主题常常围绕学生的发展与学业,收集的资料会 涉及学生的心理能力、人格特质、学业成就、态度倾向等个体的内在特征。这些特征仅靠观 察、访谈、问卷等方法来收集,不一定合适。因此,调查中经常需要运用标准化的测验、量 表作为收集资料工具。教育研究者不但要了解测量量表的性质,也要熟悉测量量表的编制和 实施。 第一节 什么是测量调查法 一、教育测量的涵义 (一)测量的定义 测量就是按规则给对象或事件赋值。通俗地说,就是根据一定的规则,给事物分派数字。 1、2、3、4、5 这些数字本身是没有数量或质量意义的,只是个符号。当我们规定 1 代表学 业成绩的最低等级“不及格”;2 代表“及格”;3 代表“中等”;4 代表“良好”;5 代表“优 秀”,这时 1、2、3、4、5 才具有实际意义,数字按规则被赋予了意义。 根据测量的定义,任何测量必须具备以下几个要素。 (1)测量客体。指测量的对象。测量的客体可以是人,也可以是教育研究中的事物或 现象。 (2)测量内容。指测量客体的属性和特征。测量内容可以是外显的,如学生的性别、 年龄、身高、体重等,也可以是内隐的,如学习兴趣、动机、态度、价值观等。 (3)测量规则。指测量的法则或方法。也就是说,要构建一套如何分派数字或符号的 准则,按准则对测量内容进行规范化、标准化的操作。 (4)测量工具。指测量的指标体系。进行测量通常要借助标准化测验或量表这类工具 对测量客体的属性和特征进行测定,没有工具,测量难以进行。 (二)教育测量的定义 从广义来说,教育测量是根据一定的客观标准,依据一定的规则,对教育领域中的事物 或现象予以数量化描述。从狭义来说,教育测量是对学生经过某些学科的学习和训练之后, 所获得的知识、技能的测量。 测量在教育、教学过程中应用广泛,对学生的发展需要评价,对学业成绩需要评价。任 何个体、任何学科、任何学校都会用到测量。通过测量,可以对教学过程进行连续的、即时 的评价,评价的结果又可以促进教育教学过程的变革。 教育测量在教育研究应用中有两种基本形式。(1)直接选取某个测验作为收集资料的工 具,测量结果就是研究的成果。例如,测定学生的智商、诊断学业情况、升级考证等。(2) 教育测量与其他研究方法结合使用,作为研究组合中的一部分。例如,对小学生识字量与语 文学业成绩的相关性进行研究,需要利用识字量表对小学生识字量进行测量,然后再求与语 文学业成绩的相关
、教育测量的可能性 在教育研究过程中,有很多变量是抽象的、模糊的。这些模糊观念是否可以转化为可认 知的、可测量的概念呢?是否都可以测量呢?美国心理学家桑代克( Thorndike E.L.)在 1918年断言:凡物的存在必有其数量。1923年,美国测量学者麦柯尔( McCall w.A.)认 为:凡有数量的东西都可以测量。这就为教育领域中抽象的心理属性测量奠定了理论基础 下面对话是巴比( Earl babbie)在《社会研究方法》一书中所用的一个例子①。这个例子有 助于我们理解抽象的概念是否可以测量,以及如何测量。 我:社会科学家可以对任何存在的事物进行测量 你:哈!我赌你做不到 我:你告诉我要测量什么吧,我可以告诉你如何去测量它。 你:好吧,怎样测量“偏见"。 我:不错的选择。不过,我不愿意把时间浪费在一些根本不存在的事物上。你说,社 会上真的有偏见吗? 你:当然!谁都知道有偏见。谁都知道!如果你够聪明的话,我想你也知道。 傻瓜也知道。 我:从前每个人都认为地球是平的。我想知道的是,你怎么知道就真的存在偏 见 你:好了,好了!你似乎不会“观察"。好了,“我看见过偏见。 我:你到底看到了什么?偏见是怎样存在的呢? 你:我认识一个生意人,他说他永远也不会让女人做主管,因为他认为女人不 着边际,而且没有理性。看吧!这个例子不错吧! 我:太好了。看起来,这就是所谓的偏见,所以可以假设偏见是存在的。现在 我们要对偏见进行测量,准备好了没有? (美〕巴比著:邱泽奇译,《社会研究方法》(上册),华夏出版社2000年版,第150-151页
二、教育测量的可能性 在教育研究过程中,有很多变量是抽象的、模糊的。这些模糊观念是否可以转化为可认 知的、可测量的概念呢?是否都可以测量呢?美国心理学家桑代克(Thorndike E.L.)在 1918 年断言:凡物的存在必有其数量。1923 年,美国测量学者麦柯尔(McCall W.A.)认 为:凡有数量的东西都可以测量。这就为教育领域中抽象的心理属性测量奠定了理论基础。 下面对话是巴比(Earl Babbie)在《社会研究方法》一书中所用的一个例子①。这个例子有 助于我们理解抽象的概念是否可以测量,以及如何测量。 我:社会科学家可以对任何存在的事物进行测量。 你:哈!我赌你做不到。 我:你告诉我要测量什么吧,我可以告诉你如何去测量它。 你:好吧,怎样测量“偏见”。 我:不错的选择。不过,我不愿意把时间浪费在一些根本不存在的事物上。你说,社 会上真的有偏见吗? 你:当然!谁都知道有偏见。谁都知道!如果你够聪明的话,我想你也知道。 傻瓜也知道。 我:从前每个人都认为地球是平的。我想知道的是,你怎么知道就真的存在偏 见? 你:好了,好了!你似乎不会“观察”。好了,“我看见过偏见。” 我:你到底看到了什么?偏见是怎样存在的呢? 你:我认识一个生意人,他说他永远也不会让女人做主管,因为他认为女人不 着边际,而且没有理性。看吧!这个例子不错吧! 我:太好了。看起来,这就是所谓的偏见,所以可以假设偏见是存在的。现在 我们要对偏见进行测量,准备好了没有? ① (美)巴比著;邱泽奇译,《社会研究方法》(上册),华夏出版社 2000 年版,第 150-151 页
你:准备好了。 我:我们一起到商业圈去,静悄悄地访问一些生意人,问问他们雇用员工的标 准是什么。凡是有人表示永远不会让女人担任主管,因为女人不可理喻 不着边际的,我们就认为他有偏见。如果是相反的情形,我们就认定他没 有偏见。当我们完成了所有的访谈之后,再将所得到的资料(有偏见的或 是无偏见的)加以分类。 你:等等!这并不是一个测量偏见的好方法!我们忽视了很多其他的偏见!因 为这样做的结果只包括了对女性的偏见。 我:我明白你的意思。但你的例子只是证明了女性的偏见。我们最好再来研究 下,偏见真的存在吗 你:当然存在的。我刚才说的是众多偏见的例子之一。还有成千上万的例子咧! 我:那你就再说几个来听听 你:好吧,试试这个。某天夜里,我在校园里无意中听到有两个人—个是 白人,一个是黑人—争论政治问题。最后,白人非常气愤,就用带有强 烈种族歧视的话辱骂黑人,“你们这些人都应该被送回到你们原来的地方 (非洲)去『这个例子听起来够带偏见意味了吧。 我:我的天哪!这个例子真的证明偏见是存在的。我们又要对偏见进行测量了。 我们俩每天晚上分开巡视校园,看看是否有白人使用低俗的种族歧视言语 并且说着“你们全部都 你:慢着!这个例子也不一定能测量偏见。虽然会说那种话的人一定有偏见 但是有偏见的人却不一定都说那种话。如果到校园巡视,就会忽视那些不 说那种话的人
你:准备好了。 我:我们一起到商业圈去,静悄悄地访问一些生意人,问问他们雇用员工的标 准是什么。凡是有人表示永远不会让女人担任主管,因为女人不可理喻、 不着边际的,我们就认为他有偏见。如果是相反的情形,我们就认定他没 有偏见。当我们完成了所有的访谈之后,再将所得到的资料(有偏见的或 是无偏见的)加以分类。 你:等等!这并不是一个测量偏见的好方法!我们忽视了很多其他的偏见!因 为这样做的结果只包括了对女性的偏见。 我:我明白你的意思。但你的例子只是证明了女性的偏见。我们最好再来研究 一下,偏见真的存在吗? 你:当然存在的。我刚才说的是众多偏见的例子之一。还有成千上万的例子咧! 我:那你就再说几个来听听。 你:好吧,试试这个。某天夜里,我在校园里无意中听到有两个人——一个是 白人,一个是黑人——争论政治问题。最后,白人非常气愤,就用带有强 烈种族歧视的话辱骂黑人,“你们这些人都应该被送回到你们原来的地方 (非洲)去!”这个例子听起来够带偏见意味了吧。 我:我的天哪!这个例子真的证明偏见是存在的。我们又要对偏见进行测量了。 我们俩每天晚上分开巡视校园,看看是否有白人使用低俗的种族歧视言语, 并且说着“你们全部都……” 你:慢着!这个例子也不一定能测量偏见。虽然会说那种话的人一定有偏见, 但是有偏见的人却不一定都说那种话。如果到校园巡视,就会忽视那些不 说那种话的人
我:所有这些又回到了开始的问题上。偏见真的存在吗?还是你一直在蒙我? 你:不,偏见确实存在! 我:哦,我倒有些不确定了。你只说服了我,商人在雇用女员工时有偏见,原 因是你曾经见到过,而且,我相信你说的。你也说服了我,有些人用不雅 的名称来称呼黑人,并要他们全部回非洲去。但是我还是不确定,偏见到 底存不存在?我想我该寻根探底,这样,我才能向你证明我能测量它。老 实说,我已经开始怀疑偏见到底存不存在了。我的意思是,你看过偏见确 实存在吗?偏见有颜色吗?重量多少?位于哪儿? 你:你到底在说些什么呀?你听不懂我的话吗?真不知道你有没有脑子! 引用这段对话的目的就是为了证明偏见是个抽象的概念,本质上说根本就不存在。虽然 谁也没有摸过偏见的实体,也不知道偏见长得什么样、有多大、是什么颜色,但我们却在谈 论偏见。而且,偏见可以通过具体的事例或指标(对女员工的态度、对黑人的态度)将抽象 的概念和现实世界联系起来,使偏见可以测量。当人们提到偏见时,我们头脑里就会产生一 种印象,就会把以前经历过的有关事件和资料联系起来。这些资料是别人告知的偏见的意义 和自己观察到的偏见的例子。当双方在某一点上对偏见达成共识时,理解就会产生。上面的 对话涉及以下几个基本要点 观念是头脑中的印象 观念是头脑中表达“印象”的术语。人们把这种“印象”当作工具,概括观察的和经验 的具有共性的事物。如果没有这些观念,人们就不可能进行交流,因为头脑中的印象是不可 以直接用来交流的,人们无法直接展示头脑中的印象 2.概念是一组观念,是达成共识的结果 人们可以通过概念进行交流。“偏见”这个概念是大家使用这个术语的人的观念的集合 偏见本身并不存在于真实世界中,也不能直接被观察、被测量。它是我们创造出来的一个术 语。有了概念人们可以互相交流,达成共识。 3.可以测量的是概念所概括的事物 人们交流所使用的术语通常是模糊的和会意的,只是有一个大致的了解。指出概念的具 体含义,区分概念的不同维度就是概念化的过程。概念化就是使模糊印象清晰化。概念化的 最终产品就是一组具体指标。指标被用来说明概念的属性,指标是可以测量的 在科学研究中,一个抽象的、含义模糊不清的术语,可以转换成具体可测量的指标。这 种转换有以下几个步骤 概念化
我:所有这些又回到了开始的问题上。偏见真的存在吗?还是你一直在蒙我? 你:不,偏见确实存在! 我:哦,我倒有些不确定了。你只说服了我,商人在雇用女员工时有偏见,原 因是你曾经见到过,而且,我相信你说的。你也说服了我,有些人用不雅 的名称来称呼黑人,并要他们全部回非洲去。但是我还是不确定,偏见到 底存不存在?我想我该寻根探底,这样,我才能向你证明我能测量它。老 实说,我已经开始怀疑偏见到底存不存在了。我的意思是,你看过偏见确 实存在吗?偏见有颜色吗?重量多少?位于哪儿? 你:你到底在说些什么呀?你听不懂我的话吗?真不知道你有没有脑子! 引用这段对话的目的就是为了证明偏见是个抽象的概念,本质上说根本就不存在。虽然 谁也没有摸过偏见的实体,也不知道偏见长得什么样、有多大、是什么颜色,但我们却在谈 论偏见。而且,偏见可以通过具体的事例或指标(对女员工的态度、对黑人的态度)将抽象 的概念和现实世界联系起来,使偏见可以测量。当人们提到偏见时,我们头脑里就会产生一 种印象,就会把以前经历过的有关事件和资料联系起来。这些资料是别人告知的偏见的意义 和自己观察到的偏见的例子。当双方在某一点上对偏见达成共识时,理解就会产生。上面的 对话涉及以下几个基本要点。 1.观念是头脑中的印象 观念是头脑中表达“印象”的术语。人们把这种“印象”当作工具,概括观察的和经验 的具有共性的事物。如果没有这些观念,人们就不可能进行交流,因为头脑中的印象是不可 以直接用来交流的,人们无法直接展示头脑中的印象。 2.概念是一组观念,是达成共识的结果 人们可以通过概念进行交流。“偏见”这个概念是大家使用这个术语的人的观念的集合。 偏见本身并不存在于真实世界中,也不能直接被观察、被测量。它是我们创造出来的一个术 语。有了概念人们可以互相交流,达成共识。 3.可以测量的是概念所概括的事物 人们交流所使用的术语通常是模糊的和会意的,只是有一个大致的了解。指出概念的具 体含义,区分概念的不同维度就是概念化的过程。概念化就是使模糊印象清晰化。概念化的 最终产品就是一组具体指标。指标被用来说明概念的属性,指标是可以测量的。 在科学研究中,一个抽象的、含义模糊不清的术语,可以转换成具体可测量的指标。这 种转换有以下几个步骤: 概念化
抽象性定义 操作性定义 具体测量指标 根据以上所述,只要我们能找到指标,世界上所有事物都是可以测量的。但是,事情没 有这样简单,因为不同的研究者对同一个抽象概念的理解和认识往往会有很大的差异。即使 是“素质”这样常用的概念,10个人可能会有10种解释。从概念到具体的测量方法还有很 长的路要走,还有很多工作要做。例如,要测量学生的语文水平,用什么工具去测量呢?全 世界有无数各式各样的试卷,怎么办?在无法选择的时候,最后可能会以30分钟的听写测 验就代表了语文水平。这样显然没有达到原定的目的。又如,智力这个变量可以描述得很深 奥,可以有多种意义和解释,但如何测量?似乎不可能将智力的所有方面都测量到,一般主 要测量记忆能力,解数学题的能力、逻辑推理能力、语言表达能力等 要把抽象概念转换成操作性定义,把不可观测的事物转换成可观测的指标,需要谨慎地 设计测量工具,尽可能全面反映概念的意义。例如,测量学生写作能力时,出的测试题目是 “评论李白诗句的特点”、“论述纳米材料的优缺点”或“论伊拉克战争发展态势”,这些题 目似乎是在测验学生的相关知识,而不像是在考学生的写作能力 测量调查的类型 (一)根据行为目标和测验内容分类 1.智力测验。测被试的智力高低,其结果常以智商(IQ)来表示。其中比较著名的有 斯坦福——比纳智力测验、韦克斯勒儿童智力测验量表( WISC-CR)、瑞文推理测验等。 2.能力倾向测验。测被试潜在的某种能力,以了解其发展的可能性,预测个人能力发 展倾向。如音乐、美术、体育、创造力、想象力、记忆力等方面的能力倾向测验。 3.成就测验。测被试经某种形式的学习或训练后对知识、技能的掌握程度或熟练水平。 如识字量、阅读、算术测验等。成就测验可以是学科成就测验或综合成就测验 4.人格测验。测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格心理 特征。较为著名的有明尼苏达多相个性测验(MMPI)、艾森克人格问卷(EPQ-R)卡特尔 16项人格因素测验(16PF)等。 (二)根据测验对象分类 1.个别测验。指主试与被试一对一进行的测验。个别测验的可靠性比较高,主试能有 效地观察控制被试的行为反应。但是,个别测验费时费力,短时间内难以获得大量的资料, 并且对主试的要求较高 2.团体测验。指一个主试能同时对许多被试进行的测验。团体测验节省人力与时间, 在短时间内能收集到大量的资料,效率较高。但是,被试的反应不容易控制,并且测验效果 不及个别测验可靠。 (三)根据测验材料分类 1.语言、文字测验。指测验内容是以语言、文字形式构成,被试要用语言、文字作答, 主要是纸笔测验。语言、文字测验实施比较容易,在学校系统广泛应用,适宜于进行团体测
抽象性定义 操作性定义 具体测量指标 根据以上所述,只要我们能找到指标,世界上所有事物都是可以测量的。但是,事情没 有这样简单,因为不同的研究者对同一个抽象概念的理解和认识往往会有很大的差异。即使 是“素质”这样常用的概念,10 个人可能会有 10 种解释。从概念到具体的测量方法还有很 长的路要走,还有很多工作要做。例如,要测量学生的语文水平,用什么工具去测量呢?全 世界有无数各式各样的试卷,怎么办?在无法选择的时候,最后可能会以 30 分钟的听写测 验就代表了语文水平。这样显然没有达到原定的目的。又如,智力这个变量可以描述得很深 奥,可以有多种意义和解释,但如何测量?似乎不可能将智力的所有方面都测量到,一般主 要测量记忆能力,解数学题的能力、逻辑推理能力、语言表达能力等。 要把抽象概念转换成操作性定义,把不可观测的事物转换成可观测的指标,需要谨慎地 设计测量工具,尽可能全面反映概念的意义。例如,测量学生写作能力时,出的测试题目是 “评论李白诗句的特点”、“论述纳米材料的优缺点”或“论伊拉克战争发展态势”,这些题 目似乎是在测验学生的相关知识,而不像是在考学生的写作能力。 三、测量调查的类型 (一)根据行为目标和测验内容分类 1.智力测验。测被试的智力高低,其结果常以智商(IQ)来表示。其中比较著名的有: 斯坦福——比纳智力测验、韦克斯勒儿童智力测验量表(WISC-CR)、瑞文推理测验等。 2.能力倾向测验。测被试潜在的某种能力,以了解其发展的可能性,预测个人能力发 展倾向。如音乐、美术、体育、创造力、想象力、记忆力等方面的能力倾向测验。 3.成就测验。测被试经某种形式的学习或训练后对知识、技能的掌握程度或熟练水平。 如识字量、阅读、算术测验等。成就测验可以是学科成就测验或综合成就测验。 4.人格测验。测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格心理 特征。较为著名的有明尼苏达多相个性测验(MMPI)、艾森克人格问卷(EPQ-R)卡特尔 16 项人格因素测验(16PF)等。 (二)根据测验对象分类 1.个别测验。指主试与被试一对一进行的测验。个别测验的可靠性比较高,主试能有 效地观察控制被试的行为反应。但是,个别测验费时费力,短时间内难以获得大量的资料, 并且对主试的要求较高。 2.团体测验。指一个主试能同时对许多被试进行的测验。团体测验节省人力与时间, 在短时间内能收集到大量的资料,效率较高。但是,被试的反应不容易控制,并且测验效果 不及个别测验可靠。 (三)根据测验材料分类 1.语言、文字测验。指测验内容是以语言、文字形式构成,被试要用语言、文字作答, 主要是纸笔测验。语言、文字测验实施比较容易,在学校系统广泛应用,适宜于进行团体测
验。但是,它易受被试的教育程度和不同文化背景的影响 2.非语言、文字测验。又称操作测验,是以图形、模型、实物、工具等作为测试材料, 被试需要动手操作才能完成的测验。由于被试不需要用文字作答,因而特别适合文字表达有 困难的被试,适合于不同文化背景的比较研究。比较著名的测验有:瑞文标准推理能力测验、 画人测验等。 (四)根据测验的参照系分类 1.常模参照测验。常模指具有一定代表性,并且数量足够大的样本在某项测验上的平 均成绩。常模是评价被试测验成绩的相对标准。常模参照测验是一种衡量被试相对水平的测 验,是将被试的测验成绩与同类对象在同一测验上的平均分(常模)相比较,从而解释分数, 确定被试在总体中的相对位置的测验方法。常模参照测验要有常模对照表。常模有地区性常 模和全国性常模,地区性常模只适用于特定的区域。例如,在城市获得的常模就不一定适用 于农村或边远地区。全国性常模适用于全国所有的同类个体。例如,儿童的身高、体重就有 全国性常模,中国儿童发展量表(3-6岁)就有全国性常模。 2.目标参照测验。又称标准参照测验,是衡量被试实际水平的测验,将被试在测验上 的分数与事先制定好的某种标准进行比较,看被试是否达到了目标规定的要求。目标参照测 验的特点是依据标准,判断被试的达标程度,而不是将被试的成绩与他人成绩做比较。如, 英语水平测试、毕业考试、动作技能测试、体育达标测试等 (五)根据测验的标准化程度分类 1.标准化测验。由专家学者或专门机构采用系统的科学程序编制的、在测验实施过程、 评分手续、分数的解释上具有统一标准的,并对测验误差做了严格控制的测验。标准化测验 编制和施测有一套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的样本 进行试测;根据数量化指标筛选测验题目:鉴定整个测验的信度和效度;建立常模、确定指 导语、时限和施测条件;规定评分标准、分数转换和解释方法等。标准化测验所获得的测量 结果比较客观、可靠、应用范围较广,一般测量调查应尽可能选用标准化的测验工具 2.非标准化测验。指测验的编制和实施不按标准程序进行的测验,通常由教师或研究 人员自编的、为临时测验所用的简单测验。如课堂测验、考试、等级评定量表等。这些测验 是教师根据教学目标和自己的教学经验编制而成,它通常与日常教学工作紧密联系;测验内 容与教材内容、教学进度一致;难易程度由教师把握;针对性较强。非标准化测验的编制省 时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测验,测验的 实施和记分也不甚严格。 除了上述的分类之外,还有许多其他分类。如按测验的执行方式,可以分为口头测验、 纸笔测验、操作测验、计算机测验;按答案和评分的客观性,可分为客观题测验和主观题测 验;按测验目的,可以分为描述性测验、诊断性测验、预示性测验等。 三、测量调查的特点 (一)测量调查的优点 (1)科学性较强。测验量表的编制过程客观、严谨,测验结果直观形象。 (2)标准化程度较高。测验的编制、施测、评分、计分、对分数的解释等均有统一标 准,容易控制,便于操作 (3)定量化水平较高。测量所获得的均为客观的数据资料,便于记录和分析,可用计 算机进行结果处理 (4)能直接进行对比研究。标准化测验一般都有常模,只需将所测得的数据资料直接 与常模比较,便可知差异
验。但是,它易受被试的教育程度和不同文化背景的影响。 2.非语言、文字测验。又称操作测验,是以图形、模型、实物、工具等作为测试材料, 被试需要动手操作才能完成的测验。由于被试不需要用文字作答,因而特别适合文字表达有 困难的被试,适合于不同文化背景的比较研究。比较著名的测验有:瑞文标准推理能力测验、 画人测验等。 (四)根据测验的参照系分类 1.常模参照测验。常模指具有一定代表性,并且数量足够大的样本在某项测验上的平 均成绩。常模是评价被试测验成绩的相对标准。常模参照测验是一种衡量被试相对水平的测 验,是将被试的测验成绩与同类对象在同一测验上的平均分(常模)相比较,从而解释分数, 确定被试在总体中的相对位置的测验方法。常模参照测验要有常模对照表。常模有地区性常 模和全国性常模,地区性常模只适用于特定的区域。例如,在城市获得的常模就不一定适用 于农村或边远地区。全国性常模适用于全国所有的同类个体。例如,儿童的身高、体重就有 全国性常模,中国儿童发展量表(3-6 岁)就有全国性常模。 2.目标参照测验。又称标准参照测验,是衡量被试实际水平的测验,将被试在测验上 的分数与事先制定好的某种标准进行比较,看被试是否达到了目标规定的要求。目标参照测 验的特点是依据标准,判断被试的达标程度,而不是将被试的成绩与他人成绩做比较。如, 英语水平测试、毕业考试、动作技能测试、体育达标测试等。 (五)根据测验的标准化程度分类 1.标准化测验。由专家学者或专门机构采用系统的科学程序编制的、在测验实施过程、 评分手续、分数的解释上具有统一标准的,并对测验误差做了严格控制的测验。标准化测验 编制和施测有一套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的样本 进行试测;根据数量化指标筛选测验题目;鉴定整个测验的信度和效度;建立常模、确定指 导语、时限和施测条件;规定评分标准、分数转换和解释方法等。标准化测验所获得的测量 结果比较客观、可靠、应用范围较广,一般测量调查应尽可能选用标准化的测验工具。 2.非标准化测验。指测验的编制和实施不按标准程序进行的测验,通常由教师或研究 人员自编的、为临时测验所用的简单测验。如课堂测验、考试、等级评定量表等。这些测验 是教师根据教学目标和自己的教学经验编制而成,它通常与日常教学工作紧密联系;测验内 容与教材内容、教学进度一致;难易程度由教师把握;针对性较强。非标准化测验的编制省 时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测验,测验的 实施和记分也不甚严格。 除了上述的分类之外,还有许多其他分类。如按测验的执行方式,可以分为口头测验、 纸笔测验、操作测验、计算机测验;按答案和评分的客观性,可分为客观题测验和主观题测 验;按测验目的,可以分为描述性测验、诊断性测验、预示性测验等。 三、测量调查的特点 (一)测量调查的优点 (1)科学性较强。测验量表的编制过程客观、严谨,测验结果直观形象。 (2)标准化程度较高。测验的编制、施测、评分、计分、对分数的解释等均有统一标 准,容易控制,便于操作。 (3)定量化水平较高。测量所获得的均为客观的数据资料,便于记录和分析,可用计 算机进行结果处理。 (4)能直接进行对比研究。标准化测验一般都有常模,只需将所测得的数据资料直接 与常模比较,便可知差异
(5)经济实用,省时省力。只需根据硏究需要直接选择合适的测验量表施测即可, (二)测量调查的局限性 (1)测验编制难度较大,费时费力。尤其是标准化测验的编制专业化程度高,非专门 机构、专业人员不能胜任。 (2)教育测验通常是间接测验。测量涉及的智力、能力、知识、技能、性格等因素难 以直接测量,只能依据被试行为、活动、或自评等来推测其水平。因此,测量的结果往往是 相对的 (3)难以进行整体定性的分析。无论是能力测验还是人格测验,结果多采用定量分析, 结果多在静止的表面水平上描述和解释 (4)测验研究灵活性较差。测验量表题目内容固定,必须按测验程序严格进行,无法 根据研究的实际需要增删内容,灵活掌握 (5)测验研究对研究者要求较高。研究者要具有一定的专业知识,了解测验的有关情 况,熟悉测验的技能等 第二节怎样编制测量量表 、测量量表的定义 测量量表有广义和狭义之分,广义的测量量表指所有用于测量的,具有实施和计分标准 或有指导语的工具。例如,通常用的调查表、问卷、教师命题的测验、等级量表等。狭义的 测量量表是指建立使用群体常模的、具有对照比较指标的标准化测验。比较流行的标准化测 验有:韦克斯勒儿童智力量表(wISC-CR)、瑞文标准推理测验、16种人格因素问卷(16PFQ) 艾森克人格问卷(EPQ-R)等。根据以上定义的划分,绝大多数的问卷、调查表由于没有建 立常模,没有比较指标和缺乏标准化程序。从严格意义上说,它们不属于测量量表 测量量表的水平 根据史蒂文斯(S.S. Stevens)1951年创立的测量层次分类,把量表分为四种不同水 平的类型 1.类别量表( nominal scale 类别量表又叫称名量表,是根据事物的某一特点,对事物属性进行分类,用数字来代表 事物或性质。如运动员的号码,学生的学号等。又如,对于性别,我们可以用数字1表示男 生,用数字0表示女生,在这里1和0只是代表事物的性质,只是起到给事物分类的作用, 数字本身并不具有数量意义 称名量表不能作大小比较和加减乘除运算,在数据处理上仅适宜作计数资料的统计 2.顺序量表( ordinal scale) 顺序量表又叫等级量表,是按研究对象的某一种属性的顺序排列出等第次序,只有等级 顺序而无等距的单位和绝对零点。如根据学生的测验成绩排出名次,成绩最好的为1,成绩 次之为2,再次之为3,依次类推。又如,对于生活水平,我们可以给出四个等级:贫困 温饱、小康、富裕。 顺序量表的数值具有等级性和序列性的特点,能够进行大小比较,但不能作加减乘除运
(5)经济实用,省时省力。只需根据研究需要直接选择合适的测验量表施测即可。 (二)测量调查的局限性 (1)测验编制难度较大,费时费力。尤其是标准化 测验的编制专业化程度高,非专门 机构、专业人员不能胜任。 (2)教育测验通常是间接测验。测量涉及的智力、能力、知识、技能、性格等因素难 以直接测量,只能依据被试行为、活动、或自评等来推测其水平。因此,测量的结果往往是 相对的。 (3)难以进行整体定性的分析。无论是能力测验还是人格测验,结果多采用定量分析, 结果多在静止的表面水平上描述和解释。 (4)测验研究灵活性较差。测验量表题目内容固定,必须按测验程序严格进行,无法 根据研究的实际需要增删内容,灵活掌握。 (5)测验研究对研究者要求较高。研究者要具有一定的专业知识,了解测验的有关情 况,熟悉测验的技能等。 第二节 怎样编制测量量表 一、测量量表的定义 测量量表有广义和狭义之分,广义的测量量表指所有用于测量的,具有实施和计分标准 或有指导语的工具。例如,通常用的调查表、问卷、教师命题的测验、等级量表等。狭义的 测量量表是指建立使用群体常模的、具有对照比较指标的标准化测验。比较流行的标准化测 验有:韦克斯勒儿童智力量表(WISC-CR)、瑞文标准推理测验、16 种人格因素问卷(16PFQ)、 艾森克人格问卷(EPQ-R)等。根据以上定义的划分,绝大多数的问卷、调查表由于没有建 立常模,没有比较指标和缺乏标准化程序。从严格意义上说,它们不属于测量量表。 二、测量量表的水平 根据史蒂文斯(S.S.Stevens)1951 年创立的测量层次分类,把量表分为四种不同水 平的类型。 1.类别量表(nominal scale) 类别量表又叫称名量表,是根据事物的某一特点,对事物属性进行分类,用数字来代表 事物或性质。如运动员的号码,学生的学号等。又如,对于性别,我们可以用数字 1 表示男 生,用数字 0 表示女生,在这里 1 和 0 只是代表事物的性质,只是起到给事物分类的作用, 数字本身并不具有数量意义。 称名量表不能作大小比较和加减乘除运算,在数据处理上仅适宜作计数资料的统计。 2.顺序量表(ordinal scale) 顺序量表又叫等级量表,是按研究对象的某一种属性的顺序排列出等第次序,只有等级 顺序而无等距的单位和绝对零点。如根据学生的测验成绩排出名次,成绩最好的为 1,成绩 次之为 2,再次之为 3,依次类推。又如,对于生活水平,我们可以给出四个等级:贫困; 温饱、小康、富裕。 顺序量表的数值具有等级性和序列性的特点,能够进行大小比较,但不能作加减乘除运
算。如,对于文化程度,我们可以按一定的顺序排列:文盲:小学;初中;高中;大学。但 不能说“小学减文盲等于高中减初中”。在数据处理上能计算中位数、百分位数、等级相关 系数、肯德尔和谐系数及秩次方差分析等。 3.等距量表( interval scale 等距量表又叫间距量表,是具有相等的单位,但没有绝对零点的量表。等距量表的数量 单位之间的间距是相等的。如,温度摄氏30度至32度与摄氏18度至20度的温差是相等的。 三个儿童在智商测验中分别得分105、110、115,在智商测验分数体系中,分数差距是相等 的。等距量表在学校教育系统运用广泛,一般将百分制评分看作等距量表。 由于等距量表具有相等的单位,因此可以进行加减运算,但不能作乘除运算。等距量表 可以广泛运用统计方法,如平均数、标准差、相关系数以及t检验、Z检验和F检验等多种 检验 4.等比量表( ratio scale) 等比量表又叫比率量表,是有相等的单位和绝对零点的量表。等比量表除了具有类别 顺序、等距量表的特征外,还有一个具有实际意义的绝对零点。零点是指测量的起点或参照 点。有些零点是人定的,称相对零点。例如,摄氏零度并不意味着没有一点温度,而是以人 定的冰点为参照标准。学生的智商、考试成绩的0分都是相对零点。有些零点具有实际意义 称绝对零点。如年龄、身高、经费开支等都有绝对零点,0岁、0米、0元中的“零”都表 示真实的“无”,表示一点都没有。 等比量表具有绝对零点,可以进行加减乘除运算,可以表示倍数关系。当然等比量表适 用的统计方法就更多。 以上四种类型的量表分别代表4种不同水平的测量。这4种量表构成一个等级分类体系, 后一类量表包括前一类量表所具有的条件。等比量表是4种量表中层次最高的,包含信息最 多的量表。因此,一般不要将属于测量水平高的测量结果转换成测量水平低的测量结果。如 我们可以将百分制(等距量表)转换成等级制(顺序量表)来表示学习成绩,但等级制却无 法还原成百分制,因为等距量表层次要比顺序量表层次高。在将学习成绩的百分制转换成等 级制的过程中,会丢失许多信息。一般在两种量表可供选择的情况下,尽可能采用层次高的 测量量表,采用精确程度高的测量量表。下表6-1清楚显示了这4种量表的区别和内在联系 表6-1四种测量量表的特征、功能和适用的统计分析方法表 名称 基本功能 数学特征 适用统计方法 类别分类符号 分类、描述 ≠百分比,检验 量表 列联相关系数 顺序1分类符号1分类 ≠中位数,四分位差 量表2等第顺序2可按顺序排列 <等级相关,非参数检验 等距1同上 1同上 算术平均数,方差,积 量表2同上 2同上 差相关,复相关,参数 3差值大小|3差值的确定 检验 有相等单位与比较 等比1同上 同上 算术平均数,方差,积 量表2同上 2同上 差相关,复相关,参数 3同上 3同上 检验,几何平均数 ①吴增基等:《现代社会调查 上海人民出版社,98年,第72页
算。如,对于文化程度,我们可以按一定的顺序排列:文盲;小学;初中;高中;大学。但 不能说“小学减文盲等于高中减初中”。在数据处理上能计算中位数、百分位数、等级相关 系数、肯德尔和谐系数及秩次方差分析等。 3.等距量表(interval scale) 等距量表又叫间距量表,是具有相等的单位,但没有绝对零点的量表。等距量表的数量 单位之间的间距是相等的。如,温度摄氏 30 度至 32 度与摄氏 18 度至 20 度的温差是相等的。 三个儿童在智商测验中分别得分 105、110、115,在智商测验分数体系中,分数差距是相等 的。等距量表在学校教育系统运用广泛,一般将百分制评分看作等距量表。 由于等距量表具有相等的单位,因此可以进行加减运算,但不能作乘除运算。等距量表 可以广泛运用统计方法,如平均数、标准差、相关系数以及 t 检验、Z 检验和 F 检验等多种 检验。 4.等比量表(ratio scale) 等比量表又叫比率量表,是有相等的单位和绝对零点的量表。等比量表除了具有类别、 顺序、等距量表的特征外,还有一个具有实际意义的绝对零点。零点是指测量的起点或参照 点。有些零点是人定的,称相对零点。例如,摄氏零度并不意味着没有一点温度,而是以人 定的冰点为参照标准。学生的智商、考试成绩的 0 分都是相对零点。有些零点具有实际意义, 称绝对零点。如年龄、身高、经费开支等都有绝对零点,0 岁、0 米、0 元中的“零”都表 示真实的“无”,表示一点都没有。 等比量表具有绝对零点,可以进行加减乘除运算,可以表示倍数关系。当然等比量表适 用的统计方法就更多。 以上四种类型的量表分别代表4种不同水平的测量。这4种量表构成一个等级分类体系, 后一类量表包括前一类量表所具有的条件。等比量表是 4 种量表中层次最高的,包含信息最 多的量表。因此,一般不要将属于测量水平高的测量结果转换成测量水平低的测量结果。如, 我们可以将百分制(等距量表)转换成等级制(顺序量表)来表示学习成绩,但等级制却无 法还原成百分制,因为等距量表层次要比顺序量表层次高。在将学习成绩的百分制转换成等 级制的过程中,会丢失许多信息。一般在两种量表可供选择的情况下,尽可能采用层次高的 测量量表,采用精确程度高的测量量表。下表 6-1 清楚显示了这 4 种量表的区别和内在联系。 ① 表 6-1 四种测量量表的特征、功能和适用的统计分析方法表 名称 特点 基本功能 数学特征 适用统计方法 类别 分类符号 分类、描述 = ≠ 百分比, 检验, 量表 列联相关系数 顺序 1 分类符号 1 分类 = ≠ 中位数,四分位差, 量表 2 等第顺序 2 可按顺序排列 > < 差相关,复相关,参数 3 同上 3 同上 + - 检验,几何平均数 ①吴增基等:《现代社会调查方法》,上海人民出版社,1998 年,第 72 页
4有绝对零点4比值的确定、 比较 测量量表的编制过程 测量量表的编制是一个复杂的系统工程。编制过程会因测验的内容、性质的不同而有所 不同。但是,由于测验原理大致相同。测验编制大致可分为以下几个步骤: (1)确定测验目标(测谁、测什么内容、测验目标是什么等); (2)拟定编题计划(怎么测、具体项目、内容比重等) (3)编制测验题目(题目数量、形式、时间安排、分数分配、复本等); 4)试测和项目分析(样本、题目的难度、区分度、被试的反应等) (5)修订、筛选测验题目(施测程序、指导语、时限、计分标准等) (6)组成正式测验(建立常模、编制测验手册等) (7)检验测验的可靠性和有效性(建立测验的信度、效度等)。 标准化测验的编制专业化要求很高,需要投入大量的人力、物力、财力,通常由专门机 构或专家学者编制。标准化测验应具备三个基本特点:测验的效度要高,即测验的准确性要 高,测验本身确实能测出所拟定的目标程度:测验的信度要高,即测验的可靠性要高,测验 结果能真实反映被试的实际水平:测验有常模比较,即测验能解释实际测得的分数,能评价 被试的水平和程度 第三节怎样进行测量调查 测验的编制有标准化的程序,测量的实施也有标准化的要求。从测量调查实施人员的角 度,可以将实施标准化测验框定为以下几个方面 、选择合适的测验工具 教育调査研究中,研究人员常常找不到合适的测验量表来收集所需的实证资料,又没有 可能自行编制测验量表,以至最后不得不放弃很多有价值的研究课题。因此,收集测验量表 是进行研究的一项基础工作。在国外,有关教育、心理的测验量表比较多,可以从心理测验 年鉴、手册等参考资料上査找。比较重要的资料有:《心理测验年鉴》( Mental measurement Yearbook)、《测验出版目录》( Test in Print)、《儿童发展测验及评价手册》( Test and Measurements in Child Development)。在国内尚无专业书籍汇编有关测验量表,有关测验量 表主要集中在心理学领域,散见于一些杂志、书籍之中,还有一些自编的测验量表常见于网 络。因此需要研究人员留心收集,注意积累。 教育测验种类繁多,功能特点各不相同。因此,研究者应根据研究目的,选择合适的测 验工具。选择测验工具要从现实和适用着眼,可以从两个方面考虑 (一)测验工具的性能。以下是衡量测验性能的5个方面标准 (1)客观性,即指测量的科学化程度,测试结果能准确反映被测对象的真实情况。(2)标 准化。最好选择标准化测验作为硏究工具。(3)效度。效度是测验分数能正确反映测量想要 得到的内容和特征。如果一个测验能真实地测出所要测量的特性,这个测验或量表就是有效 的,如果测量工具无效或效度太低,就失去了存在的意义。(4)信度。信度指测验结果的稳
4 有绝对零点 4 比值的确定、 × ÷ 比较 三、测量量表的编制过程 测量量表的编制是一个复杂的系统工程。编制过程会因测验的内容、性质的不同而有所 不同。但是,由于测验原理大致相同。测验编制大致可分为以下几个步骤: (1)确定测验目标(测谁、测什么内容、测验目标是什么等); (2)拟定编题计划(怎么测、具体项目、内容比重等); (3)编制测验题目(题目数量、形式、时间安排、分数分配、复本等); (4)试测和项目分析(样本、题目的难度、区分度、被试的反应等); (5)修订、筛选测验题目(施测程序、指导语、时限、计分标准等); (6)组成正式测验(建立常模、编制测验手册等); (7)检验测验的可靠性和有效性(建立测验的信度、效度等)。 标准化测验的编制专业化要求很高,需要投入大量的人力、物力、财力,通常由专门机 构或专家学者编制。标准化测验应具备三个基本特点:测验的效度要高,即测验的准确性要 高,测验本身确实能测出所拟定的目标程度;测验的信度要高,即测验的可靠性要高,测验 结果能真实反映被试的实际水平;测验有常模比较,即测验能解释实际测得的分数,能评价 被试的水平和程度。 第三节 怎样进行测量调查 测验的编制有标准化的程序,测量的实施也有标准化的要求。从测量调查实施人员的角 度,可以将实施标准化测验框定为以下几个方面。 一、选择合适的测验工具 教育调查研究中,研究人员常常找不到合适的测验量表来收集所需的实证资料,又没有 可能自行编制测验量表,以至最后不得不放弃很多有价值的研究课题。因此,收集测验量表 是进行研究的一项基础工作。在国外,有关教育、心理的测验量表比较多,可以从心理测验 年鉴、手册等参考资料上查找。比较重要的资料有:《心理测验年鉴》(Mental Measurement Yearbook)、《测验出版目录》(Test in Print)、《儿童发展测验及评价手册》(Test and Measurements in Child Development)。在国内尚无专业书籍汇编有关测验量表,有关测验量 表主要集中在心理学领域,散见于一些杂志、书籍之中,还有一些自编的测验量表常见于网 络。因此需要研究人员留心收集,注意积累。 教育测验种类繁多,功能特点各不相同。因此,研究者应根据研究目的,选择合适的测 验工具。选择测验工具要从现实和适用着眼,可以从两个方面考虑。 (一)测验工具的性能。以下是衡量测验性能的 5 个方面标准。 (1)客观性,即指测量的科学化程度,测试结果能准确反映被测对象的真实情况。(2)标 准化。最好选择标准化测验作为研究工具。(3)效度。效度是测验分数能正确反映测量想要 得到的内容和特征。如果一个测验能真实地测出所要测量的特性,这个测验或量表就是有效 的,如果测量工具无效或效度太低,就失去了存在的意义。(4)信度。信度指测验结果的稳
定性或一致性。从被试来说,在同一测验的多次测试中能获得相似的分数:从主试来说,不 同的测量人员能给出相似的分数。 (二)测验工具的价值。价值是测验是符合研究需要的程度,通常可以从研究的目的、 研究对象、研究资源等方面作综合考虑。不要将一个态度倾向性测验作为收集诊断性硏究的 资料,也不要将一个适用于城市中学生的人格测验用于收集农村小学生的研究资料,更不要 选择一个在研究时间、人力、物力都无法负担的测验作为收集研究资料的工具 二、按标准化测验的要求施测 有了合适的测验工具,还必须按测验的规定实施测验。施测前,要仔细阅读测验手册, 熟悉测验手册中的内容要求,准备好测验所需的材料,熟练掌握测验的操作程序,选择适宜 的测验环境,避免各种偶然因素可能带来的误差,与被试建立良好的信任关系,解除被试的 过度紧张和不适感等。施测过程中,要严格按照测验手册上规定的标准化程序执行,指导语 的解说要统一,不应以测验手册以外的词语去解释被试的疑问,避免给予被试以任何暗示, 要严格控制测验时间 三、客观、准确地记录被试的反应 测验过程中,研究人员要公平地对待每个被试,评分标准要统一、客观准确、前后一致 通常标准化测验都有标准答案或评分标准供测试人员对照使用。测试人员应熟记于心,严格 执行。有些标准化测验还需对评分人员进行必要的培训,以统一评分标准。测验结果的整理 分析也应按照测验手册提示的方法执行。只有按照标准化的程序实施测验,测验结果才可靠, 获得的资料才有意义。 四、合理解释测验结果 标准化测验是一项严肃的、学术性很强的工作,尤其是对测验结果的解释,通常要求经 过专业培训的人员主持。在解释测验结果时,要做到有依据,有分寸,不武断地作绝对性的 结论,也不作无限度的推论。 五、测量调查的注意事项 1.遵守测验的职业道德。对涉及个人隐私的问题要为被试严守秘密;不要给测验分数 低的被试贴标签,说他们低能,没有培养前途:不要伤害被试的自尊心。 2.好测验试题的保密工作。教育测验量表不象物理测量的工具(如尺、秤等),可以在 被试身上反复使用。教育测验内容一旦泄露,测验就失去了价值。因此,测验量表不宜在杂 志、书籍中刊登、披露。 3.测验主试应具备必要的专业知识。教育测验专业化程度很高,要保证测验操作的规 范,结果解释的准确,从事测验的人员必须具备一定的专业基础知识,或经过专门的培训 测验过程的标准化。测验的实施要求尽力做到标准化,为每个被试提供尽可能 相同的测验条件,应严格按照测验手册中规定的要求和步骤实施操作,不能随意变动。否则, 可能会影响测验的结果
定性或一致性。从被试来说,在同一测验的多次测试中能获得相似的分数;从主试来说,不 同的测量人员能给出相似的分数。 (二)测验工具的价值。价值是测验是符合研究需要的程度,通常可以从研究的目的、 研究对象、研究资源等方面作综合考虑。不要将一个态度倾向性测验作为收集诊断性研究的 资料,也不要将一个适用于城市中学生的人格测验用于收集农村小学生的研究资料,更不要 选择一个在研究时间、人力、物力都无法负担的测验作为收集研究资料的工具。 二、按标准化测验的要求施测 有了合适的测验工具,还必须按测验的规定实施测验。施测前,要仔细阅读测验手册, 熟悉测验手册中的内容要求,准备好测验所需的材料,熟练掌握测验的操作程序,选择适宜 的测验环境,避免各种偶然因素可能带来的误差,与被试建立良好的信任关系,解除被试的 过度紧张和不适感等。施测过程中,要严格按照测验手册上规定的标准化程序执行,指导语 的解说要统一,不应以测验手册以外的词语去解释被试的疑问,避免给予被试以任何暗示, 要严格控制测验时间。 三、客观、准确地记录被试的反应 测验过程中,研究人员要公平地对待每个被试,评分标准要统一、客观准确、前后一致。 通常标准化测验都有标准答案或评分标准供测试人员对照使用。测试人员应熟记于心,严格 执行。有些标准化测验还需对评分人员进行必要的培训,以统一评分标准。测验结果的整理 分析也应按照测验手册提示的方法执行。只有按照标准化的程序实施测验,测验结果才可靠, 获得的资料才有意义。 四、合理解释测验结果 标准化测验是一项严肃的、学术性很强的工作,尤其是对测验结果的解释,通常要求经 过专业培训的人员主持。在解释测验结果时,要做到有依据,有分寸,不武断地作绝对性的 结论,也不作无限度的推论。 五、测量调查的注意事项 1.遵守测验的职业道德。对涉及个人隐私的问题要为被试严守秘密;不要给测验分数 低的被试贴标签,说他们低能,没有培养前途;不要伤害被试的自尊心。 2.好测验试题的保密工作。教育测验量表不象物理测量的工具(如尺、秤等),可以在 被试身上反复使用。教育测验内容一旦泄露,测验就失去了价值。因此,测验量表不宜在杂 志、书籍中刊登、披露。 3.测验主试应具备必要的专业知识。教育测验专业化程度很高,要保证测验操作的规 范,结果解释的准确,从事测验的人员必须具备一定的专业基础知识,或经过专门的培训。 4.确保测验过程的标准化。测验的实施要求尽力做到标准化,为每个被试提供尽可能 相同的测验条件,应严格按照测验手册中规定的要求和步骤实施操作,不能随意变动。否则, 可能会影响测验的结果