当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

《教育学》课程教学资源(教育研究方法)第八章 测量研究

资源类别:文库,文档格式:DOC,文档页数:32,文件大小:246KB,团购合买
本章主要阐述测量的原理和基本概念,并描述测量法和社会测量法的具体运用,以及介绍几种常用的幼儿智力测验。
点击下载完整版文档(DOC)

第八章测量研究 测量包括物理测量、教育测量、心理测量和社会测量。教育测量是对教育领域内的事物 或现象作数量化的描述过程。在教育研究中,测量已成为不可缺少的一种研究方法。任何事 物都存在于一定的数和量之中,因而都可以被测量,如儿童的各科成绩,智商、创造力、语 言、动机、注意力、态度、兴趣、动作技能、熟练程度、反应速度等等,都可以在某种程度 上进行测量。测量对于教育研究具有重要意义。有了测量,对事物的描述更精确,分析更细 致、结论更准确。本章主要阐述测量的原理和基本概念,并描述测量法和社会测量法的具体 运用,以及介绍几种常用的幼儿智力测验。 第一节测量法 教育研究中,尤其是实证性研究,往往要对研究对象进行测量,如进行一项教学方法改 革的实验就必须对教学方法的效果(通常是成绩或态度)进行测量,测量的成绩或态度就是实 验的因变量。测量法一般用测量工具进行,测量工具通常指标准化测验,如智力测验、能力 测验、人格测验、成就测验等。有些研究项目可以直接利用现成的测量工具,另外一些研究 项目可能要花大量的精力去开发编制新的测量工具。无论哪种情况,测量的直接目的是用测 量工具准确、客观地测岀硏究中的变最、概念或现象,从操作意义上提供硏究所需的数据 、测量的基本概念 1.测量 克林格( Kerlinger)为测量作了一个被普遍接受的定义:按规则给对象或事件赋值。通俗 地说,就是根据一定的规则,给事物分派数字。1、2、3、4、5之类的数字本身是没有数量 或质量意义的,只是个符号。当我们规定1代表男性、2代表女性,或者1表示奖励的最高

1 第八章 测量研究 测量包括物理测量、教育测量、心理测量和社会测量。教育测量是对教育领域内的事物 或现象作数量化的描述过程。在教育研究中,测量已成为不可缺少的一种研究方法。任何事 物都存在于一定的数和量之中,因而都可以被测量,如儿童的各科成绩,智商、创造力、语 言、动机、注意力、态度、兴趣、动作技能、熟练程度、反应速度等等,都可以在某种程度 上进行测量。测量对于教育研究具有重要意义。有了测量,对事物的描述更精确,分析更细 致、结论更准确。本章主要阐述测量的原理和基本概念,并描述测量法和社会测量法的具体 运用,以及介绍几种常用的幼儿智力测验。 第一节 测量法 教育研究中,尤其是实证性研究,往往要对研究对象进行测量,如进行一项教学方法改 革的实验就必须对教学方法的效果(通常是成绩或态度)进行测量,测量的成绩或态度就是实 验的因变量。测量法一般用测量工具进行,测量工具通常指标准化测验,如智力测验、能力 测验、人格测验、成就测验等。有些研究项目可以直接利用现成的测量工具,另外一些研究 项目可能要花大量的精力去开发编制新的测量工具。无论哪种情况,测量的直接目的是用测 量工具准确、客观地测出研究中的变最、概念或现象,从操作意义上提供研究所需的数据。 一、测量的基本概念 1.测量 克林格(Kerlinger)为测量作了一个被普遍接受的定义:按规则给对象或事件赋值。通俗 地说,就是根据一定的规则,给事物分派数字。1、2、3、4、5 之类的数字本身是没有数量 或质量意义的,只是个符号。当我们规定 1 代表男性、2 代表女性,或者 l 表示奖励的最高

等级,2次之,5为奖励的最低等级,或者5表示成绩的最高等第,4次之,1为成绩的最低 等第,这时1、2、3、4、5才具有实际意义,数字按规则被赋予了意义。 根据克林格的定义,我们可以给测量法下个定义:测量法是用一组标准化测验,按照规 定的程序,通过对研究对象的实际测定来收集数据资料的研究方法。测量是评价过程中搜集 资料的一种方式。在教育教学过程中,教育者对幼儿不断地施加各种教育影响,幼儿的身心 发展状况也在不断地发生变化,这就需要对教育教学的结果作出评价,即对幼儿身心发展状 况及变化的特征、趋势通过测量来获得事实根据,作出评价。 测量与测验是容易混淆的概念,在现实生活中,人们常常混用。实际上,它们既有联系 又有区别。测量是对事物作定量化测定的一门学科或方法,是通过采用量表或具体测验实现 的。测验则是测量的工具。测量比测验的含义更广泛 据美国《心理测量年鉴》称:在美国有关教育心理的标准化测验就有1100多个,分为 15个种类,它们是:成套成就测验、英语测验、艺术测验、外语测验、智力测验、数学测 验、学科综合测验、拼读测验、阅读测验、自然科学测验、社会科学测验、感觉运动测验、 职业测验、多项能力倾向测验、人格测验 测量要具备以下几个基本要素 ①测量客体。即测量的对象。测量的客体可以是人,也可以是教育研究中的事物或现象 ②测量内容。指测量客体的属性和特征。测量内容有些是外显的,如幼儿的性别、身高、 体重、行为等:有些则是内隐的,如兴趣、动机、知识等。 ③测量规则。指测量的准则或方法。任何测量必须按一定的规则对测量内容进行规范的 标准化的操作。 ④测量工具。指测量的指标体系。在教育研究中通常要借助于标准化测验或量表这类工 具对测量客体的属性和特征进行测定。没有工具,测量难以进行。 2.测量的四种水平 测量某一事物,需要有测量的工具,这个工具应具有单位和参照点,并有表示量数的方 法,我们把这种工具称之为量表。如,尺是度量长度的量表,血压计是测量血压高低的量表。 在教育研究中,测验量表多以文字试题的形式出现,由于数字化程度不同,数值所包含 的信息量不同,因此测量的程度水平也不同。通常可把量表分为四种不同水平的类型 ①名称量表 亦称类别量表,只是用名称或数字来代表事物或对个体和事物进行简单归类,既没有数 量关系,也没有单位和零点,如运动员的号码、学生的学号等。又如,用数字1表示男生 2

2 等级,2 次之,5 为奖励的最低等级,或者 5 表示成绩的最高等第,4 次之,1 为成绩的最低 等第,这时 1、2、3、4、5 才具有实际意义,数字按规则被赋予了意义。 根据克林格的定义,我们可以给测量法下个定义:测量法是用一组标准化测验,按照规 定的程序,通过对研究对象的实际测定来收集数据资料的研究方法。测量是评价过程中搜集 资料的一种方式。在教育教学过程中,教育者对幼儿不断地施加各种教育影响,幼儿的身心 发展状况也在不断地发生变化,这就需要对教育教学的结果作出评价,即对幼儿身心发展状 况及变化的特征、趋势通过测量来获得事实根据,作出评价。 测量与测验是容易混淆的概念,在现实生活中,人们常常混用。实际上,它们既有联系 又有区别。测量是对事物作定量化测定的一门学科或方法,是通过采用量表或具体测验实现 的。测验则是测量的工具。测量比测验的含义更广泛。 据美国《心理测量年鉴》称:在美国有关教育心理的标准化测验就有 1100 多个,分为 15 个种类,它们是:成套成就测验、英语测验、艺术测验、外语测验、智力测验、数学测 验、学科综合测验、拼读测验、阅读测验、自然科学测验、社会科学测验、感觉运动测验、 职业测验、多项能力倾向测验、人格测验。 测量要具备以下几个基本要素: ①测量客体。即测量的对象。测量的客体可以是人,也可以是教育研究中的事物或现象。 ②测量内容。指测量客体的属性和特征。测量内容有些是外显的,如幼儿的性别、身高、 体重、行为等;有些则是内隐的,如兴趣、动机、知识等。 ③测量规则。指测量的准则或方法。任何测量必须按一定的规则对测量内容进行规范的、 标准化的操作。 ④测量工具。指测量的指标体系。在教育研究中通常要借助于标准化测验或量表这类工 具对测量客体的属性和特征进行测定。没有工具,测量难以进行。 2.测量的四种水平 测量某一事物,需要有测量的工具,这个工具应具有单位和参照点,并有表示量数的方 法,我们把这种工具称之为量表。如,尺是度量长度的量表,血压计是测量血压高低的量表。 在教育研究中,测验量表多以文字试题的形式出现,由于数字化程度不同,数值所包含 的信息量不同,因此测量的程度水平也不同。通常可把量表分为四种不同水平的类型。 ①名称量表 亦称类别量表,只是用名称或数字来代表事物或对个体和事物进行简单归类,既没有数 量关系,也没有单位和零点,如运动员的号码、学生的学号等。又如,用数字 1 表示男生

用数字0表示女性,这些数字本身并无数量意义,只是为了给对象分类才用数字来代表 称名量表的数字不能作大小比较或进行加减乘除运算,仅具有符号的区分性,在数据处 理上仅适宜作计数资料的统计,如百分比,x2检验等 ②顺序量表 亦称等级量表,只有等级顺序而无等值的单位和绝对零点,它是按照类别的大小或某种 属性的重要性把一些项目排出等第次序。如,根据学生的测验成绩排出名次,成绩最好的为 1,成绩次之为2,再次之为3,以此类推。顺序量表的数值具有等级性和序列性的特点,能 够进行大小比较,但不能作加减乘除运算,在数据处理上能用中位数、百分比、等级相关系 数等 ③等距量表 也称间距量表,具有相等的单位,但没有绝对零点的量表。等距量表除了具有称名量表 和顺序量表的数量性质外,它的数量单位之间的差异是等距的。如,温度30C-32°C与 18°C一20°C的温差是2°C,是相等的。又如,三个儿童在智商测验中分别得分105、110、 115,前二者5分的差距与后二者5分的差距是相等的。测验所得原始分数转换成的标准分 数就是一种等距量表 由于等距量表有相等的单位,故可以进行加减运算,但不能作乘除运算。等距量表可以 广泛运用统计方法。如平均数、标准差、相关及各种检验。 ④比率量表 有相等的单位和绝对零点的量表是比率量表,也称等比量表。比率量表除了具有称名、 顺序、等距量表的特征外,还有一个具有实际意义的绝对零点。零点是指测量的起点或参照 点。有些零点是人定的,称相对零点。如摄氏零度,这里零度并不意味着没有一点温度,而 是以人定的冰点为参照标准。像学生的考试成绩、智商的0分都是相对零点。有些零点具有 实际意义,称绝对零点。如年龄、身高、经费开支等都有绝对零点,0岁、0米、0元中的 “零”都表示真实的“无”,表示一点都没有。比率量表具有绝对零点,可作加减乘除运算 故可表示倍数关系。如身高18米是12米的1.5倍;经费开支120元是150元的80%等

3 用数字 0 表示女性,这些数字本身并无数量意义,只是为了给对象分类才用数字来代表。 称名量表的数字不能作大小比较或进行加减乘除运算,仅具有符号的区分性,在数据处 理上仅适宜作计数资料的统计,如百分比, 2  检验等。 ②顺序量表 亦称等级量表,只有等级顺序而无等值的单位和绝对零点,它是按照类别的大小或某种 属性的重要性把—些项目排出等第次序。如,根据学生的测验成绩排出名次,成绩最好的为 1,成绩次之为 2,再次之为 3,以此类推。顺序量表的数值具有等级性和序列性的特点,能 够进行大小比较,但不能作加减乘除运算,在数据处理上能用中位数、百分比、等级相关系 数等。 ③等距量表 也称间距量表,具有相等的单位,但没有绝对零点的量表。等距量表除了具有称名量表 和顺序量表的数量性质外,它的数量单位之间的差异是等距的。如,温度 30oC 一 32oC 与 18oC 一 20oC 的温差是 2 oC,是相等的。又如,三个儿童在智商测验中分别得分 105、110、 115,前二者 5 分的差距与后二者 5 分的差距是相等的。测验所得原始分数转换成的标准分 数就是一种等距量表。 由于等距量表有相等的单位,故可以进行加减运算,但不能作乘除运算。等距量表可以 广泛运用统计方法。如平均数、标准差、相关及各种检验。 ④比率量表 有相等的单位和绝对零点的量表是比率量表,也称等比量表。比率量表除了具有称名、 顺序、等距量表的特征外,还有一个具有实际意义的绝对零点。零点是指测量的起点或参照 点。有些零点是人定的,称相对零点。如摄氏零度,这里零度并不意味着没有一点温度,而 是以人定的冰点为参照标准。像学生的考试成绩、智商的 0 分都是相对零点。有些零点具有 实际意义,称绝对零点。如年龄、身高、经费开支等都有绝对零点,0 岁、0 米、0 元中的 “零”都表示真实的“无”,表示一点都没有。比率量表具有绝对零点,可作加减乘除运算, 故可表示倍数关系。如身高 1.8 米是 1.2 米的 1.5 倍;经费开支 120 元是 150 元的 80%等

表8-1四种测量量表的特征、功能和适用的统计分析方法表 名称 基本功能 适用统计方法 类别分类符号分类、描述 ≠百分比,检验, 量表 列联相关系数 顺序1分类符号1分类 ≠中位数,四分位差 量表2等第顺序2可按顺序排列> 等级相关,非参数检验 等距1同上 1同上 ≠算术平均数,方差,积 量表2同上 2同上 差相关,复相关,参数 3差值大小|3差值的确定 检验 有相等单位与比较 等比1同上 1同上 ≠算术平均数,方差,积 量表2同上 2同上 差相关,复相关,参数 3同上 3同上 检验,几何平均数 4有绝对零点4比值的确定、 比较 以上四种类型的量表分别代表了4种不同水平的测量,是按测量数值中所包含信息的多 少来划分的,这4种量表构成一个等级分类体系,后一类量表包括前一类量表所具有的条件 比率量表是4种量表中层次最高,包含信息最多的量表。因此,一般不要将属于测量水平高 的测量结果转换成测量水平低的测量结果。如,不要用百分制转换成等级制来表示成绩,否 则会丢失很多信息 二、测验的基本类型 测验是测量的工具。在教育研究中,测验的种类很多,按照不同的分类标准可以得出不 同的测验类型。 1.按行为目标和测验内容可分为: ①智力测验。测被试的智力高低,其结果常以智商(Q来表示,此类测验很多,其中较 著名的有斯坦福—一比纳测验、韦克斯勒智力测验等。 ②能力倾向测验。测被试潜在的某种能力,以了解其发展的可能性,如音乐、美术、体 育、创造力、想象力、记忆力等方面的特殊才能的测验。 ③成就测验。测被试经某种形式的学习后对知识、技能的掌握程度或熟练水平。如识字 量、阅读、算术测验等

4 表 8-1 四种测量量表的特征、功能和适用的统计分析方法表 名称 特点 基本功能 数学特征 适用统计方法 类别 分类符号 分类、描述 = ≠ 百分比, 检验, 量表 列联相关系数 顺序 1 分类符号 1 分类 = ≠ 中位数,四分位差, 量表 2 等第顺序 2 可按顺序排列 > < 差相关,复相关,参数 3 同上 3 同上 + - 检验,几何平均数 4 有绝对零点 4 比值的确定、 × ÷ 比较 以上四种类型的量表分别代表了 4 种不同水平的测量,是按测量数值中所包含信息的多 少来划分的,这 4 种量表构成一个等级分类体系,后一类量表包括前一类量表所具有的条件。 比率量表是 4 种量表中层次最高,包含信息最多的量表。因此,一般不要将属于测量水平高 的测量结果转换成测量水平低的测量结果。如,不要用百分制转换成等级制来表示成绩,否 则会丢失很多信息。 二、测验的基本类型 测验是测量的工具。在教育研究中,测验的种类很多,按照不同的分类标准可以得出不 同的测验类型。 1.按行为目标和测验内容可分为: ①智力测验。测被试的智力高低,其结果常以智商(IQ)来表示,此类测验很多,其中较 著名的有斯坦福——比纳测验、韦克斯勒智力测验等。 ②能力倾向测验。测被试潜在的某种能力,以了解其发展的可能性,如音乐、美术、体 育、创造力、想象力、记忆力等方面的特殊才能的测验。 ③成就测验。测被试经某种形式的学习后对知识、技能的掌握程度或熟练水平。如识字 量、阅读、算术测验等

④个性人格测验。测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格特 征,较为著名的有明尼苏达多相个性测验(MMP)、罗夏墨迹测验、卡特尔16项人格因素量 表(16PF)等 2.按测验方式可分为 ①个别测验。指主试与被试一对一进行的测验。个别测验的可靠性较高,主试能有效地 观察控制被试的行为反应,尤其是对尚无书面文字表达能力的幼儿,通常采用个别测验,但 个别测验费时费力,短时间内难以获得大量的资料,并且对主试的要求较高 ②团体测验。指一个主试能同时对许多被试进行的测验。团体测验节省人力与时间,在 短时间内能收集到大量的资料,效率较高,但被试的反应不容易控制,并且测验效果不及个 别测验可靠。 3.按测验材料可分为: ①语言、文字测验。指测验内容是以语言、文字形式构成,被试要用语言、文字作答 语言、文字测验实施比较容易,适宜于进行团体测验,但它易受被试的教育程度和不同文化 背景的影响 ②非语言、文字测验。又称操作测验,它是以图形、模型、实物、工具等作为测试材料, 被试需动手操作才能完成的测验。由于被试不需要用文字作答,因而特别适合于幼儿或文字 表达有困难的被试,适合于不同文化背景的比较研究。较著名的测验有:瑞文标准推理能力 测验,画人测验等 4.按测验的参照系可分为 ①常模参照测验。常模指有一定代表性,并且数量足够大的样本在某项测验上的平均成 绩。常模是评价被试测验成绩的相对标准。常模参照测验是一种衡量被试相对水平的测验, 是将被试的测验成绩与同类被试在同一测验上的平均分即常模相比较,从而确定被试在总体 中的相对位置。常模参照测验要有常模对照表,一般包括分数分布量表、年级量表、年龄量 表、标准分数、百分等级量表等。常模有地区性常模和全国性常模,地区性常模只适用于特 定的区域,如在城市获得的常模就不一定适用于农村或边远地区,而全国性常模适用于全国 所有的同类个体。我国学前儿童的常模参照测验工具主要集中在智力测验和儿童身体发育测 试方面,如:中国儿童发展量表(3-6岁)、中国比纳测验(2-18岁)、韦克斯勒学龄前儿童 智力量表( WPPSI)。 ②目标参照测验。又称标准参照测验,是衡量被试实际水平的测验。将被试在测验上的 分数与事先制定好的某种标准进行比较,看被试是否达到了目标规定的要求。目标参照测验

5 ④个性人格测验。测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格特 征,较为著名的有明尼苏达多相个性测验(MMPl)、罗夏墨迹测验、卡特尔 16 项人格因素量 表(16PF)等。 2.按测验方式可分为: ①个别测验。指主试与被试一对一进行的测验。个别测验的可靠性较高,主试能有效地 观察控制被试的行为反应,尤其是对尚无书面文字表达能力的幼儿,通常采用个别测验,但 个别测验费时费力,短时间内难以获得大量的资料,并且对主试的要求较高。 ②团体测验。指一个主试能同时对许多被试进行的测验。团体测验节省人力与时间,在 短时间内能收集到大量的资料,效率较高,但被试的反应不容易控制,并且测验效果不及个 别测验可靠。 3.按测验材料可分为: ①语言、文字测验。指测验内容是以语言、文字形式构成,被试要用语言、文字作答。 语言、文字测验实施比较容易,适宜于进行团体测验,但它易受被试的教育程度和不同文化 背景的影响。 ②非语言、文字测验。又称操作测验,它是以图形、模型、实物、工具等作为测试材料, 被试需动手操作才能完成的测验。由于被试不需要用文字作答,因而特别适合于幼儿或文字 表达有困难的被试,适合于不同文化背景的比较研究。较著名的测验有:瑞文标准推理能力 测验,画人测验等。 4.按测验的参照系可分为: ①常模参照测验。常模指有一定代表性,并且数量足够大的样本在某项测验上的平均成 绩。常模是评价被试测验成绩的相对标准。常模参照测验是一种衡量被试相对水平的测验, 是将被试的测验成绩与同类被试在同一测验上的平均分即常模相比较,从而确定被试在总体 中的相对位置。常模参照测验要有常模对照表,一般包括分数分布量表、年级量表、年龄量 表、标准分数、百分等级量表等。常模有地区性常模和全国性常模,地区性常模只适用于特 定的区域,如在城市获得的常模就不一定适用于农村或边远地区,而全国性常模适用于全国 所有的同类个体。我国学前儿童的常模参照测验工具主要集中在智力测验和儿童身体发育测 试方面,如:中国儿童发展量表(3—6 岁)、中国比纳测验(2-18 岁)、韦克斯勒学龄前儿童 智力量表(WPPSI)。 ②目标参照测验。又称标准参照测验,是衡量被试实际水平的测验。将被试在测验上的 分数与事先制定好的某种标准进行比较,看被试是否达到了目标规定的要求。目标参照测验

的特点是依据标准,判断被试的达标程度,而不是将被试的成绩与其他人作比较。如:毕业 考试、英语水平测试、钢琴考级、律师、经济师的资格考试等均是目标参照测验。 5.按测验的标准化程度可分为: ①标准化测验。由专家学者或专门机构采用系统的科学程序编制的、在测验施测过程 评分手续和分数的解释上具有统一标准的,并对测验误差做了严格控制的测验。标准化测验 编制和施测有一套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的样本 进行试测;根据数量化指标筛选测验题目:鉴定整个测验的信度和效度;建立常模、确定指 导语、时限和施测条件;规定评分标准、分数转换和解释方法等。标准化测验所获得的测量 结果比较客观、可靠,应用范围较广,通常测量法所用的测验工具均为标准化测验 ②非标准化测验。指测验的编制和施测不按标准程序进行的测验,通常由教师或研究人 员自编的、为临时测验所用的简单测验。如课堂测验,期中、期末的测验,等级评定量表等。 这些测验是教师根据教学目标和自己的教学经验编制而成,它通常与日常教学工作紧密联 系:测验内容与教材内容、教学进度一致:难易程度由教师把握;针对性较强。非标准化测 验的编制省时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测 验,测验的实施和记分也不甚严格。 三、测验的性质和条件 教育研究中的测量通常是凭借教育测验得以实现。测验是对行为样本进行客观的和标准 化的测量。测验中的客观性指要用数量化的指标筛选测验题目,并对整个测验进行信度和效 度的鉴定。测验中的标准化指测验的编制、实施、记分、分数的解释等都要按照统一的标准 和严格的规定进行。换句话说,标准化就是使所有被试的测验条件一致。教育测验必须考虑 以下一些基本特性。 1.信度 信度指测验结果的可靠性和稳定性,即同一个测验对同一组被试先后实施二次,所得测 量的一致性程度。例如,用一杆秤来称一样物品,第一次称出的重量与第二次称出的重量不 样,那么我们说这杆秤不可靠,称出的结果不可信。这样的测量工具是不可靠的工具。又 如,某幼儿经过几次智力测验,其智商均在120左右,结果基本保持一致,那么这个测量工 具(智力测验)是可靠的、可信的。估计测验信度主要用测验结果的相关程度表示 ①再测法

6 的特点是依据标准,判断被试的达标程度,而不是将被试的成绩与其他人作比较。如:毕业 考试、英语水平测试、钢琴考级、律师、经济师的资格考试等均是目标参照测验。 5.按测验的标准化程度可分为: ①标准化测验。由专家学者或专门机构采用系统的科学程序编制的、在测验施测过程、 评分手续和分数的解释上具有统一标准的,并对测验误差做了严格控制的测验。标准化测验 编制和施测有—套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的样本 进行试测;根据数量化指标筛选测验题目;鉴定整个测验的信度和效度;建立常模、确定指 导语、时限和施测条件;规定评分标准、分数转换和解释方法等。标准化测验所获得的测量 结果比较客观、可靠,应用范围较广,通常测量法所用的测验工具均为标准化测验。 ②非标准化测验。指测验的编制和施测不按标准程序进行的测验,通常由教师或研究人 员自编的、为临时测验所用的简单测验。如课堂测验,期中、期末的测验,等级评定量表等。 这些测验是教师根据教学目标和自己的教学经验编制而成,它通常与日常教学工作紧密联 系;测验内容与教材内容、教学进度一致;难易程度由教师把握;针对性较强。非标准化测 验的编制省时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测 验,测验的实施和记分也不甚严格。 三、测验的性质和条件 教育研究中的测量通常是凭借教育测验得以实现。测验是对行为样本进行客观的和标准 化的测量。测验中的客观性指要用数量化的指标筛选测验题目,并对整个测验进行信度和效 度的鉴定。测验中的标准化指测验的编制、实施、记分、分数的解释等都要按照统一的标准 和严格的规定进行。换句话说,标准化就是使所有被试的测验条件一致。教育测验必须考虑 以下一些基本特性。 1.信度 信度指测验结果的可靠性和稳定性,即同一个测验对同一组被试先后实施二次,所得测 量的一致性程度。例如,用一杆秤来称—样物品,第一次称出的重量与第二次称出的重量不 一样,那么我们说这杆秤不可靠,称出的结果不可信。这样的测量工具是不可靠的工具。又 如,某幼儿经过几次智力测验,其智商均在 120 左右,结果基本保持一致,那么这个测量工 具(智力测验)是可靠的、可信的。估计测验信度主要用测验结果的相关程度表示。 ①再测法

用同一种测验对同一组被试实施两次或更多次的测验,前后两次或多次测验分数间的相 关系数即为再测信度。如果相关系数为高度的正相关,则表示该测验信度高,反之则信度低。 再测法只要用一种测验形式,即可获得有关测试结果是否随时间而变异的资料。但,前 次测验会影响后次测验的成绩。 ②复本法 用两个或更多的等值测验复本,对一组被试先后进行两次或更多次的测验,前后两次测 验分数的相关系数即为复本信度。如果相关系数为高度的正相关,则表示该测验信度高,反 之则信度低。 复本法避免了一套测验可能引起的练习效应和记忆效应。但要编制多个完全等值的复本 难度很大 ③分半法 在测验没有复本,并且只能施测一次的情况下,可将测验题目分成对等的两半,它们的 内容和难度相当,然后根据各人在这两半测验上的分数,计算其相关系数,即为分半信度 如果两半为高度的正相关,则表示该测验信度高,反之则信度低 为使分半后的两组等值,一般采取先将题目按难易顺序排列,然后按奇数或偶数平分为 两半,也有将题目拦腰分为上下两半,求其信度系数。分半法常用于估计测验内部的一致性 以及测验成绩的稳定性,问题是我们往往很难将题目分成平均数、标准差基本相等的等值的 两半 ④评判员法 一些主观性测验题日(如作文、口试、唱歌、图画等)需要评判员来评分或打等级,评分 常会出现误差。如:一个评判员对许多份测验试卷中的同一题目所作的先后评阅可能会因前 后次序效应而不一致。另外,不同的评判员对同一题目也可能会有不同的评判。通常有两种 求评判员信度的方法,一是随机地抽取一些测验卷进行重新评阅,然后计算二次评分的相关 系数,以了解一个评判员先后评分的信度。二是让两个或两个以上的评判员分别评阅同一批 测验卷,然后计算其相关系数,以了解不同评判员之间的信度 影响测验信度的因素很多,从测验本身来看主要有: ①测验的长度。测验项目多,信度就会提高 ②测验的时间。增加测验时间,保证被试能做完所有题目,可提高信度。 ③测验的同质性。如果测验项目涉及同一能力倾向,信度也会提高 ④测验的区分度。区分能力强的题目越多,信度也会提高

7 用同一种测验对同一组被试实施两次或更多次的测验,前后两次或多次测验分数间的相 关系数即为再测信度。如果相关系数为高度的正相关,则表示该测验信度高,反之则信度低。 再测法只要用一种测验形式,即可获得有关测试结果是否随时间而变异的资料。但,前 次测验会影响后次测验的成绩。 ②复本法 用两个或更多的等值测验复本,对一组被试先后进行两次或更多次的测验,前后两次测 验分数的相关系数即为复本信度。如果相关系数为高度的正相关,则表示该测验信度高,反 之则信度低。 复本法避免了一套测验可能引起的练习效应和记忆效应。但要编制多个完全等值的复本 难度很大。 ③分半法 在测验没有复本,并且只能施测一次的情况下,可将测验题目分成对等的两半,它们的 内容和难度相当,然后根据各人在这两半测验上的分数,计算其相关系数,即为分半信度。 如果两半为高度的正相关,则表示该测验信度高,反之则信度低。 为使分半后的两组等值,一般采取先将题目按难易顺序排列,然后按奇数或偶数平分为 两半,也有将题目拦腰分为上下两半,求其信度系数。分半法常用于估计测验内部的一致性 以及测验成绩的稳定性,问题是我们往往很难将题目分成平均数、标准差基本相等的等值的 两半。 ④评判员法 一些主观性测验题目(如作文、口试、唱歌、图画等)需要评判员来评分或打等级,评分 常会出现误差。如:一个评判员对许多份测验试卷中的同一题目所作的先后评阅可能会因前 后次序效应而不一致。另外,不同的评判员对同一题目也可能会有不同的评判。通常有两种 求评判员信度的方法,一是随机地抽取一些测验卷进行重新评阅,然后计算二次评分的相关 系数,以了解一个评判员先后评分的信度。二是让两个或两个以上的评判员分别评阅同一批 测验卷,然后计算其相关系数,以了解不同评判员之间的信度。 影响测验信度的因素很多,从测验本身来看主要有: ①测验的长度。测验项目多,信度就会提高。 ②测验的时间。增加测验时间,保证被试能做完所有题目,可提高信度。 ③测验的同质性。如果测验项目涉及同一能力倾向,信度也会提高。 ④测验的区分度。区分能力强的题目越多,信度也会提高

⑤测验变量的性质。学术和技能领域的测验要比兴趣和态度领域的测验信度要高o ⑥测验的形式。如多项选择题等客观性试题要比论述题等主观性试题信度更高。 ⑦被试的差异性。被试能力差异越大,信度也越高。 从被试的角度来看,影响信度的因素主要有 ①身体健康状况。 ②情绪紧张,疲劳, ③人的记忆波动 ④对测验形式的了解 ⑤施测的环境条件。 ⑥具备其他有关知识 ⑦对测定内容的熟悉情况。 以上罗列的种种因素,或多或少会对测验信度造成影响,并且其中有些因素是难以预测 和控制的,但一个可靠的测验必须对这些影响因素进行考虑,尽可能提高测验信度。一般来 说,在运用测验工具前必须了解该测验的可靠性,当自行编制测验工具时必须测定它的信度。 2.效度 效度指测验的有效性和准确性,即一种测验在多大程度上达到了测量目标。例如:数学 能力倾向测验,测验的结果必须反映一个学生数学能力的真实程度,那这种测验是有较高效 度的。如果测验结果只是反映学生的语言理解能力,那这种测验效度就很差。换句话说,效 度所要鉴定的是一个测量工具用来测量某种属性是否有效。对某个目标有效的测验,对其他 目标就不一定准确有效。一个秤米的工具用来秤米可以是有效的,但用它来秤金子就不一定 有效。又如:智力测验,测验项目尽是知识性的题目,这对被试的智力来说会失去效度,因 为测验目的是要测量被试的智力,但实际测得的都是被试原有的知识,这就大大降低了想要 测量的智力的效度 效度常用相关系数来表示,称效度系数。由于测量的目的不同,效度就有不同的类型 常用的类型有: ①内容效度 指测验题目对所要测的内容的覆盖程度,即测验题目对有关内容或行为范围取样的适当 性和代表性。内容效度主要用于成就测验,通过对内容的逻辑分析,从而确定它们的代表程 度。内容效度的值常由该领域的专家判定。例如:教师要了解学生对某门课的掌握程度,他 可以对这门课的所有内容进行测验,但由于内容很多,不可能面面俱到都测,因此只能选择

8 ⑤测验变量的性质。学术和技能领域的测验要比兴趣和态度领域的测验信度要高 o ⑥测验的形式。如多项选择题等客观性试题要比论述题等主观性试题信度更高。 ⑦被试的差异性。被试能力差异越大,信度也越高。 从被试的角度来看,影响信度的因素主要有: ①身体健康状况。 ②情绪紧张,疲劳。 ③人的记忆波动。 ④对测验形式的了解。 ⑤施测的环境条件。 ⑥具备其他有关知识。 ⑦对测定内容的熟悉情况。 以上罗列的种种因素,或多或少会对测验信度造成影响,并且其中有些因素是难以预测 和控制的,但一个可靠的测验必须对这些影响因素进行考虑,尽可能提高测验信度。一般来 说,在运用测验工具前必须了解该测验的可靠性,当自行编制测验工具时必须测定它的信度。 2.效度 效度指测验的有效性和准确性,即一种测验在多大程度上达到了测量目标。例如:数学 能力倾向测验,测验的结果必须反映一个学生数学能力的真实程度,那这种测验是有较高效 度的。如果测验结果只是反映学生的语言理解能力,那这种测验效度就很差。换句话说,效 度所要鉴定的是一个测量工具用来测量某种属性是否有效。对某个目标有效的测验,对其他 目标就不一定准确有效。一个秤米的工具用来秤米可以是有效的,但用它来秤金子就不一定 有效。又如:智力测验,测验项目尽是知识性的题目,这对被试的智力来说会失去效度,因 为测验目的是要测量被试的智力,但实际测得的都是被试原有的知识,这就大大降低了想要 测量的智力的效度。 效度常用相关系数来表示,称效度系数。由于测量的目的不同,效度就有不同的类型, 常用的类型有: ①内容效度 指测验题目对所要测的内容的覆盖程度,即测验题目对有关内容或行为范围取样的适当 性和代表性。内容效度主要用于成就测验,通过对内容的逻辑分析,从而确定它们的代表程 度。内容效度的值常由该领域的专家判定。例如:教师要了解学生对某门课的掌握程度,他 可以对这门课的所有内容进行测验,但由于内容很多,不可能面面俱到都测,因此只能选择

部分内容或题目进行测验,然后用测验结果推论学生是否掌握了这门课的内容,很显然,测 验所选内容的代表性如何,会直接影响对总体情况进行推论的准确性。 ②效标效度 又称效标关联效度。效标效度是通过将测验与某种外在标准作比较来确定的。效标效度 是由两个量数之间的相关关系决定的,一种是测量到的量数,另一种是作为参照标准用的量 数,后一种量数就称为效标(效度标准),两个量数的效度系数(相关系数)越大,则测验的效 度越高。反之,效度则低。例如:用《中国儿童发展量表(CDCC》的测验分数与效标《韦 氏儿童智力量表( WISC-CR)》的测验分数进行相关比较 效标效度又可分为两种类型,一是共时效度,即测验分数是否测出了目前实际存在的情 况,具体做法是在收集测验分数的同时,收集效标资料,然后计算两组数据的相关系数,决 定测验分数是否可取代效标分数。二是预测效度,即测验分数是否预测到了将来发生的特定 情况,具体做法是先收集测验分数,经过一段时间(如半年或一年)之后再收集效标资料,然 后计算两组相关系数,目的是决定测验分数是否具有预测性。例如:对5岁幼儿在绘人智能 测验中获得的分数与半年后在《中国比纳测验》测得的智商进行相关系数比较 ③结构效度 结构效度指一个测验在多大程度上测量了所要测的理论构想。它验证的是所提出的理论 假说是否有效的问题。结构效度包括内容效度和预测效度,当理论构想涉及测验内容时,便 是内容效度,如果涉及外部标准,则为预测效度。当要求回答这样的问题:这个测验究竟测 量了什么?实际上就是在考虑这个测验的结构效度,例如:智力测验的结构效度是指被试解 答的问题足以智力来加以解释,而不是以学习成绩或知识多少来加以解释。智力测验的结构 效度越高,它所测量的智力因素也越高。又如:关于智力测验有许多理论假说,如测验分数 在16岁以前随年龄的增长而增加:一种智力测验的分数与其他智力测验的分数呈正相关 测验分数能区别智力水平;测验分数受教学的直接影响不大:智商具有相对的稳定性等,然 后通过智力测验的具体项目来验证这些理论假设。如果假设得到材料的支持,则认为这个智 力测验的结果与智力的理论结构相符合,即有结构效度。 由于结构指的是理论结构,而不是测验项目的外在技术结构,还由于结构是抽象的,而 不是实在的事物,因此确定结构效度比较复杂。既要从实际中收集各方面的资料,又要从理 论上对构想进行分析。如,分析测验过程与测验题目之间的关系:比较两组被试在同一测验 中的结果:比较前测与后测的变化:求出一种测验与其他测验的相关等。 影响测验效度的因素很多,主要有以下几个方面:

9 部分内容或题目进行测验,然后用测验结果推论学生是否掌握了这门课的内容,很显然,测 验所选内容的代表性如何,会直接影响对总体情况进行推论的准确性。 ②效标效度 又称效标关联效度。效标效度是通过将测验与某种外在标准作比较来确定的。效标效度 是由两个量数之间的相关关系决定的,一种是测量到的量数,另一种是作为参照标准用的量 数,后一种量数就称为效标(效度标准),两个量数的效度系数(相关系数)越大,则测验的效 度越高。反之,效度则低。例如:用《中国儿童发展量表(CDCC)》的测验分数与效标《韦 氏儿童智力量表(WISC—CR)》的测验分数进行相关比较。 效标效度又可分为两种类型,一是共时效度,即测验分数是否测出了目前实际存在的情 况,具体做法是在收集测验分数的同时,收集效标资料,然后计算两组数据的相关系数,决 定测验分数是否可取代效标分数。二是预测效度,即测验分数是否预测到了将来发生的特定 情况,具体做法是先收集测验分数,经过一段时间(如半年或一年)之后再收集效标资料,然 后计算两组相关系数,目的是决定测验分数是否具有预测性。例如:对 5 岁幼儿在绘人智能 测验中获得的分数与半年后在《中国比纳测验》测得的智商进行相关系数比较。 ③结构效度 结构效度指一个测验在多大程度上测量了所要测的理论构想。它验证的是所提出的理论 假说是否有效的问题。结构效度包括内容效度和预测效度,当理论构想涉及测验内容时,便 是内容效度,如果涉及外部标准,则为预测效度。当要求回答这样的问题:这个测验究竟测 量了什么?实际上就是在考虑这个测验的结构效度,例如:智力测验的结构效度是指被试解 答的问题足以智力来加以解释,而不是以学习成绩或知识多少来加以解释。智力测验的结构 效度越高,它所测量的智力因素也越高。又如:关于智力测验有许多理论假说,如测验分数 在 16 岁以前随年龄的增长而增加;一种智力测验的分数与其他智力测验的分数呈正相关; 测验分数能区别智力水平;测验分数受教学的直接影响不大;智商具有相对的稳定性等,然 后通过智力测验的具体项目来验证这些理论假设。如果假设得到材料的支持,则认为这个智 力测验的结果与智力的理论结构相符合,即有结构效度。 由于结构指的是理论结构,而不是测验项目的外在技术结构,还由于结构是抽象的,而 不是实在的事物,因此确定结构效度比较复杂。既要从实际中收集各方面的资料,又要从理 论上对构想进行分析。如,分析测验过程与测验题目之间的关系;比较两组被试在同一测验 中的结果;比较前测与后测的变化;求出一种测验与其他测验的相关等。 影响测验效度的因素很多,主要有以下几个方面:

①测验的组成 测验的选材与构思、测验的长度、项目的难度、区分度以及测验的编排方式等 ②测验的程序 其中主要包括测验程序设计、测验手册的配备、实验程序的标准化、指导语、环境条件、 时限等。 ③效标的特征 选择适当的效标,是测验效度的前提条件,效标的信度、效标与测量效标之间的相关程 度会影响测验效度 ④样本与被试的特点 样本的代表性会影响效度,样本的异质性会提高效度系数,被试的兴趣、动机、情绪和 态度对效度影响很大。 在对效度进行评定时,应注意以上影响因素,努力设法排除或控制可能造成误差的原因, 同时,在测验的设计和实施过程中,从以上方面改进措施,能显著地提高测验效度。 教育测量除必须具备适当的量表作为测量工具外,还必须以一定的信度和效度作为测量 的必要条件,信度往往以两种尽可能相似的方法去测量同一倾向的一致性,而效度则往往以 两种尽可能不同的方法去测量同一倾向的一致性。信度和效度既有区别又有联系,是互为补 充的,信度是效度的必要条件,但并不是充分的条件。也就是说一个测验可能信度高,但效 度低。然而一个测验要有效度,首先必须有信度,如果一个测验测出的结果不一致,它就不 可能有较高的效度。 难度 难度指题目的难易程度,是衡量测验题目质量的一个重要指标。计算难度主要有三种方 ①以通过率计算难度 即求正确解答题目的人数与总人数之比,多用于选择题,计算公式 R 式中P代表难度,R为答对人数,N为参加测试的总人数。 例如:150名儿童中答对第l题的有50人,答对第2题的有75人,这二道题目的难度 分别为: 0.33 150

10 ①测验的组成 测验的选材与构思、测验的长度、项目的难度、区分度以及测验的编排方式等。 ②测验的程序 其中主要包括测验程序设计、测验手册的配备、实验程序的标准化、指导语、环境条件、 时限等。 ③效标的特征 选择适当的效标,是测验效度的前提条件,效标的信度、效标与测量效标之间的相关程 度会影响测验效度。 ④样本与被试的特点 样本的代表性会影响效度,样本的异质性会提高效度系数,被试的兴趣、动机、情绪和 态度对效度影响很大。 在对效度进行评定时,应注意以上影响因素,努力设法排除或控制可能造成误差的原因, 同时,在测验的设计和实施过程中,从以上方面改进措施,能显著地提高测验效度。 教育测量除必须具备适当的量表作为测量工具外,还必须以一定的信度和效度作为测量 的必要条件,信度往往以两种尽可能相似的方法去测量同一倾向的一致性,而效度则往往以 两种尽可能不同的方法去测量同一倾向的一致性。信度和效度既有区别又有联系,是互为补 充的,信度是效度的必要条件,但并不是充分的条件。也就是说一个测验可能信度高,但效 度低。然而一个测验要有效度,首先必须有信度,如果一个测验测出的结果不一致,它就不 可能有较高的效度。 3.难度 难度指题目的难易程度,是衡量测验题目质量的一个重要指标。计算难度主要有三种方 法: ① 以通过率计算难度 即求正确解答题目的人数与总人数之比,多用于选择题,计算公式为: N R P = 式中 P 代表难度,R 为答对人数,N 为参加测试的总人数。 例如:150 名儿童中答对第 l 题的有 50 人,答对第 2 题的有 75 人,这二道题目的难度 分别为: 0.33 150 50 P1 = =

点击下载完整版文档(DOC)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共32页,可试读12页,点击继续阅读 ↓↓
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有