华东师范大学：《数学教学》课程教学资源（电子讲义）第二章测验的统计指标（2.1）信度.doc_大学文库

第一节信度信度是衡量测验分数一致性或可靠性的一个指标,即用一个或一组测验对同一被试群体施测多次,所得结果的一致性程度,以及测验分数所反映被试真实水平(即真分数)的可靠性程度。如果对一组学生用同一个测验实施两次,测试的结果完全一样,可以认为该测验完全可靠,这时它的信度系数为1。但在现实中这种测验是很难找到的。在测量心理属性的教学测量中,与测量目标无关的变量(或因素)对测量的不准确和不一致的效应,使这类测量产生各种误差。误差越大,信度越低;而误差越小,信度越髙。因此,确定测验的客观性和可靠性程度的关键在于控制各种误差,使测验能测出心理属性的客观量数,并使其具有良好的稳定性。怎样提髙测验的信度,是值得进一步研究的问题。、信度的概念我们知道,影响信度的主要因素是测量中的误差。那么误差又是如何产生的呢?一般情况下,测量资料存在三种误差。一是抽样误差。它是由机遇或抽样变动而造成的误差它的估计值Sx是样本标准差S与样本容量n的算术平方根之比。由于测验取样容量n总是相当大,因此Sx很小,可以忽略不计。二是随机误差。它是由偶然因素引起的无规律的误差,是由心理属性的行为反应所造成的。三是系统误差。它是由与测验目标无关的某种常定因素所引起的恒定的、有规律性变化的误差。由于这种误差的影响,可使每个学生的得分普遍偏髙或普遍偏低,但是,它在测验成绩中不会引起不一致性。因此,测验的可靠性主要是研究如何控制随机误差问题。为此,我们将通过真分数、随机误差与所得分数的关系来揭示随机误差对信度的影响程度 1.真分数在无数次测验中所得分数的期望值称作真分数。由于测量误差在测验中不可避免地存在,因此,真分数只是理论上的概念。根据真分数理论,我们可以将学生个体的测验实际得分X表示成真分数T与随机误差分数E的和,即 X=T+E。真分数理论存在着两个假设:一是真分数与误差分数相互独立,即真分数与误差分数的相关系数re为零;二是由于随机误差是无规律的,不会倾向于任何一个方面,所以当测量次数n足够大时,随机误差的总和∑E1为零随机误差反映了在一定条件下,测验的某一种特性。像Ⅹ=T+E 那样,一个团体测验所得分数的方差(s2)可以表示成真分数方差 (s)与随机误差分数方差(s)的和,即 +s 2.信度的定义信度是反映测验成绩在不同条件下一致性程度的指标。信度在理论上被定义为:在组测验中真分数方差与所得分数方差之比,即这里的rx也称为信度系数。由上述两式,可得

第一节信度信度是衡量测验分数一致性或可靠性的一个指标，即用一个或一组测验对同一被试群体施测多次，所得结果的一致性程度，以及测验分数所反映被试真实水平(即真分数)的可靠性程度。如果对一组学生用同一个测验实施两次，测试的结果完全一样，可以认为该测验完全可靠，这时它的信度系数为 1。但在现实中这种测验是很难找到的。在测量心理属性的教学测量中，与测量目标无关的变量(或因素)对测量的不准确和不一致的效应，使这类测量产生各种误差。误差越大，信度越低；而误差越小，信度越高。因此，确定测验的客观性和可靠性程度的关键在于控制各种误差，使测验能测出心理属性的客观量数，并使其具有良好的稳定性。怎样提高测验的信度，是值得进一步研究的问题。一、信度的概念我们知道，影响信度的主要因素是测量中的误差。那么误差又是如何产生的呢？一般情况下，测量资料存在三种误差。一是抽样误差。它是由机遇或抽样变动而造成的误差。它的估计值 Sx是样本标准差 S 与样本容量 n 的算术平方根之比。由于测验取样容量 n 总是相当大，因此 Sx很小，可以忽略不计。二是随机误差。它是由偶然因素引起的无规律的误差，是由心理属性的行为反应所造成的。三是系统误差。它是由与测验目标无关的某种常定因素所引起的恒定的、有规律性变化的误差。由于这种误差的影响，可使每个学生的得分普遍偏高或普遍偏低，但是，它在测验成绩中不会引起不一致性。因此，测验的可靠性主要是研究如何控制随机误差问题。为此，我们将通过真分数、随机误差与所得分数的关系来揭示随机误差对信度的影响程度。 1．真分数在无数次测验中所得分数的期望值称作真分数。由于测量误差在测验中不可避免地存在，因此，真分数只是理论上的概念。根据真分数理论，我们可以将学生个体的测验实际得分 X 表示成真分数 T 与随机误差分数 E 的和，即 X＝T＋E。真分数理论存在着两个假设：一是真分数与误差分数相互独立，即真分数与误差分数的相关系数 rte为零；二是由于随机误差是无规律的，不会倾向于任何一个方面，所以当测量次数 n 足够大时，随机误差的总和 n i i=1 E 为零。随机误差反映了在一定条件下，测验的某一种特性。像 X＝T＋E 2．信度的定义信度是反映测验成绩在不同条件下一致性程度的指标。信度在理论上被定义为：在一组测验中真分数方差与所得分数方差之比，即这里的 rxx也称为信度系数。由上述两式，可得

信度反映了在所得分数的方差中,测验受随机误差影响的程度,也就是测验的可靠程度。由信度的理论定义可知,信度系数rx的范围是[0,1]。当rx=0.90时,可以认为测验所得分数中有90%的方差来自真分数的方差,仅有10%来自测量的随机误差。同时,所得分数的方差强调团体测验的一致性,这就说明信度不仅与测量工具有关,而且还与受测团体有关。因此讨论信度时,必须明确标明在某种条件下,用于某一团体的测验所具有的可靠性程度。信度的另一个涵义是:测验所得分数与真分数的相关系数rx之平方,就是 rx=r2XT。信度和真分数一样是一个无法确切知道的理论概念,只能通过一些估计的方法来推断。般情况下,在规模较大的测验中,信度系数应不低于0.90,以达到0.95为好;学校平时测验的信度系数也应不低于0.60。 3.影响信度的因素由误差来源可知,随机误差是影响信度的因素。它的主要表现,一是测验内容的自身方面,如测验内容取样的多少,作答时猜测的机率,指导语的清晰程度;二是施测过程方面,如测验环境,测验时间,主试因素,意外干扰,阅卷评分;三是受测者自身方面,如应试动机,焦虑心理,生理因素,测验的经验与技巧等。除了随机误差以外,影响测验信度的还有如下因素。 (1)受测团体的范围信度系数与相关系数一样,受到分数分布范围的影响,受测团体的水平越接近,测验分数的分布范围越小,随机误差的影响就越大,信度就越低。反之,分数分布范围越大, 信度就越高。从信度的理论定义可知,随机误差方差在相同受测条件和同一个团体中一般比较稳定。当受测者的水平越不一致时,所得分数方差S就会增大,随机误差方差与所得分数方差的比s/s就会相应减小,于是信度系数, rx就随之增大。例如,在数学学科高考和会考中市重点中学、区(县)重点中学、普通完全中学分类所得分数方差均小于全市所得分数方差,这三类学校分别的统计信度低于全市学校总体的信度。它反映了不同受测团体对信度的影响。 (2)测验的长度测验所含题目的数量称作测验的长度。测验的题目越多,测量学生水平的可靠性越高即信度越高。在一般情况下,测验长度増加时信度也随之提高。如果在某个测验中增加与该测验同质的试题,并且它们具有相同的难度,就可以改进信度。由斯皮尔曼一布朗( Spearman Brown)公式 ntt m-1+(n-1)rt 可导出计算测验长度的公式

信度反映了在所得分数的方差中，测验受随机误差影响的程度，也就是测验的可靠程度。由信度的理论定义可知，信度系数 rxx的范围是[0，1]。当 rxx＝0.90 时，可以认为测验所得分数中有 90%的方差来自真分数的方差，仅有 10%来自测量的随机误差。同时，所得分数的方差强调团体测验的一致性，这就说明信度不仅与测量工具有关，而且还与受测团体有关。因此讨论信度时，必须明确标明在某种条件下，用于某一团体的测验所具有的可靠性程度。信度的另一个涵义是：测验所得分数与真分数的相关系数 rxt之平方，就是 rxx＝r2XT。信度和真分数—样是一个无法确切知道的理论概念，只能通过一些估计的方法来推断。一般情况下，在规模较大的测验中，信度系数应不低于 0.90，以达到 0.95 为好；学校平时测验的信度系数也应不低于 0.60。 3．影响信度的因素由误差来源可知，随机误差是影响信度的因素。它的主要表现，一是测验内容的自身方面，如测验内容取样的多少，作答时猜测的机率，指导语的清晰程度；二是施测过程方面，如测验环境，测验时间，主试因素，意外干扰，阅卷评分；三是受测者自身方面，如应试动机，焦虑心理，生理因素，测验的经验与技巧等。除了随机误差以外，影响测验信度的还有如下因素。 (1)受测团体的范围信度系数与相关系数一样，受到分数分布范围的影响，受测团体的水平越接近，测验分数的分布范围越小，随机误差的影响就越大，信度就越低。反之，分数分布范围越大，信度就越高。从信度的理论定义可 rxx就随之增大。例如，在数学学科高考和会考中市重点中学、区(县)重点中学、普通完全中学分类所得分数方差均小于全市所得分数方差，这三类学校分别的统计信度低于全市学校总体的信度。它反映了不同受测团体对信度的影响。 (2)测验的长度测验所含题目的数量称作测验的长度。测验的题目越多，测量学生水平的可靠性越高，即信度越高。在一般情况下，测验长度增加时信度也随之提高。如果在某个测验中增加与该测验同质的试题，并且它们具有相同的难度，就可以改进信度。由斯皮尔曼－布朗(Spearman－ Brown)公式可导出计算测验长度的公式

n与(1 其中,n是增加试题后的测验长度与原测验长度的比率,rt是原测验信度系数,rm是增加测验长度为原测验的n倍时的信度系数由计算测验长度公式可以确定一个信度较低的测验,需要增加多少题目才能使它的信度达到预期的目标。例如,某测验的信度系数是0.75,要增加多少长度才能使信度达到 0.90?由于 0904-075) 所以当原测验信度为0.75时,测验题量需增加至原来的3倍,才可使信度达到0.90。另方面,当测验长度过长,需要删减适当题量,而删减多少才不致对信度造成较大的影响, 这也可利用计算公式作出断定 (3)测验的难度测验的难易将会影响分数的分布范围。测验太易或太难都会使分数的分布范围缩小随之使信度降低。这就需要硏究,测验应该具有怎样的难度才能提髙信度。本章第三节将继续讨论这个问题。我们知道,根据解释测验成绩的参照标准,可以把测验划分为常模参照测验和标准参照测验。在常模参照测验中,测验的成绩以常模作为参照标准进行解释。所谓常模,是指参加测验的全体学生或者一个标准化样本(经过选择,能代表全体学生的一个学生群体)在测验中实际达到的平均水平。而标准参照测验是以事先制定的标准或表示完成这一标准程度的等级分数作为参照标准解释成绩的一种测验。以下分别讨论常模参照测验和标准参照测验的信度。、常模参照测验的信度由于真分数无法直接测量,前面所述的信度定义是一种理论概念,所以只能根据测验所得分数来推算信度。对常模参照测验来说,主要有稳定性信度,等值性信度和内在一致性信度。 1.稳定性信度对一组受测者先后两次施测同一测验所得分数的一致性称作稳定性信度,它通常被表示为两次测验所得分数的相关系数(以下称稳定系数)。由于两次测验先后进行,所以又称为再测信度。计算稳定系数的方法是求两次测验分数的积差相关系数。如果收集到的是原始数据, 可用下列公式计算: n x 2i/n 其中,rm是信度系数,x1、xz是第i个受测者先后两次测验所得分数,n是受测人数。如果收集到的数据还有两次测验分数的平均数和标准差,则上式为

其中，n 是增加试题后的测验长度与原测验长度的比率，rtt是原测验信度系数，rnn是增加测验长度为原测验的 n 倍时的信度系数。由计算测验长度公式可以确定一个信度较低的测验，需要增加多少题目才能使它的信度达到预期的目标。例如，某测验的信度系数是 0.75，要增加多少长度才能使信度达到 0.90？由于所以当原测验信度为 0.75 时，测验题量需增加至原来的 3 倍，才可使信度达到 0.90。另一方面，当测验长度过长，需要删减适当题量，而删减多少才不致对信度造成较大的影响，这也可利用计算公式作出断定。 (3)测验的难度测验的难易将会影响分数的分布范围。测验太易或太难都会使分数的分布范围缩小，随之使信度降低。这就需要研究，测验应该具有怎样的难度才能提高信度。本章第三节将继续讨论这个问题。我们知道，根据解释测验成绩的参照标准，可以把测验划分为常模参照测验和标准参照测验。在常模参照测验中，测验的成绩以常模作为参照标准进行解释。所谓常模，是指参加测验的全体学生或者一个标准化样本(经过选择，能代表全体学生的一个学生群体)在测验中实际达到的平均水平。而标准参照测验是以事先制定的标准或表示完成这一标准程度的等级分数作为参照标准解释成绩的一种测验。以下分别讨论常模参照测验和标准参照测验的信度。二、常模参照测验的信度由于真分数无法直接测量，前面所述的信度定义是一种理论概念，所以只能根据测验所得分数来推算信度。对常模参照测验来说，主要有稳定性信度，等值性信度和内在一致性信度。 1．稳定性信度对一组受测者先后两次施测同一测验所得分数的一致性称作稳定性信度，它通常被表示为两次测验所得分数的相关系数(以下称稳定系数)。由于两次测验先后进行，所以又称为再测信度。计算稳定系数的方法是求两次测验分数的积差相关系数。如果收集到的是原始数据，可用下列公式计算：其中，rtt是信度系数，x1i、x2i是第 i 个受测者先后两次测验所得分数，n 是受测人数。如果收集到的数据还有两次测验分数的平均数和标准差，则上式为

一521221/n-x122 SxISx2 其中x1x2分别表示两次测验分数的平均数,Sx1、Sx2分别表示两次测验分数的标准差。在计算稳定系数时,首测与再测时间间隔的长短应该依据测验的性质、题型、题量和受测者的特点来决定稳定性信度适用于包含几个相关程度很低的不同性质内容的测验。稳定性信度适用于速度测验而不适用于难度测验。速度测验的测题数量较多,且有一定的时间限制,受测者很难记住前一次测验的内容,受记忆影响较小。难度测验则相反 2.等值性信度两个复份测验之间分数的一致性称作等值性信度,通常被表示为两个复份测验分数的相关系数(以下称等值系数)。所谓复份测验是指在测验性质、内容、题型、题量、难度等方面均为一致的A、B两个测验,这两个测验中的一个几乎是另一个的复本,所以等值性信度又称为复本信度计算等值系数的方法是,先用A卷施测,然后在较短的时间间隔内施测B卷,再求它们得分的积差相关系数例如,以摸底测试和高中会考两份试卷对高三部分学生施测,摸底测试成绩如表2-1 中x1所示,高中会考成绩如表2-1中x所示表2-1高三部分学生模底测试成装和会考成装学生序号123456789 869486948387858885 88949595849496992 739688367396 774488369025902570668836921694098 ￥1·z75688836817089306928178816085367820 学生序号10 12131415161718z 938180 93938792931631 921656256084688981070567569192119613492 8649656164007056864864756984648649148257 x1·289860756246972830n8127589818m9814132 测验的等值性信度可以用这两类成绩的积差相关系数表示: 141322-1556×1631/18 和不192-059718小143-0371=071 为了排除施测的顺序效应,可以让二分之一受测者先答A卷,再答B卷,另外二分之受测者则相反。求得相关系数后,需要进行显著性检验。相关系数较高的两份测验不定具有“等值”的意义。由于难度不同、变异幅度不同的两份试卷之间也可能具有较高的

题序123456 通过人数865544 080605050404 020405050606 Fiq106024025025024024 用K一R20公式计算,可得到 ∑pq1=138,s2=276, 6 138 276/=060 如果题目难度接近,可以应用K一R21公式: 其中,p、可分别是各题答对和答错人数比率的平均数由于分半信度是根据被分成相等的两部分测验计算的,它们之间的同质性较强:K一R 公式是根据对测验试题的答对与答错两部分计算的,它们之间异质性较强。因此,所求信度系数后者较低,尤其是用K-R21公式,所得信度系数更低些。 (3)a系数当测验题目是多值评分时,克伦巴赫( Cronbach)提供了更通用的公式: ∑Pq 其中,S代替了∑pq1,s2是每个测验题目得分的方差。在通常情况下,当测验是同质性时,其内在一致性信度较高;当测验是异质性时,其稳定性信度较高。上述三种估计信度的方法主要用于衡量学生的相对水平,区分他们之间差异的常模参照测验。它们都是研究教育测验的一致性程度,不同的是研究的侧面各不相同。稳定性信度是估计不同时间测验的一致性;等值性信度是估计不同形式测验的一致性;内在一致信度是估计一个测验中,在不同测题上所得分数的一致性三、标准参照测验的信度标准参照测验强调注重于考査学生对教学内容熟练掌握的程度,在教与学各个环节处理得较好或较差的情况下,受测团体的水平将比较一致,测验分数的分布范围比较小。这样,既使测验具有一定的稳定性或可靠性,它的信度系数仍然较低。根据标准参照测验的特点,可用下面较为简便的方法估计信度。 1.阶段比较法对数学学科内部某一分支的标准参照测验,可用阶段比较法来判断测验的信度。例如, 施测“不等式”的内容。先对学生进行“不等式的性质”的标准参照测验,鉴别出学生通过和未通过的类别。学生经过下一阶段的学习,再进行“不等式证明”的标准参照测验

华东师范大学：《数学教学》课程教学资源（电子讲义）第二章 测验的统计指标（2.1）信度

华东师范大学：《数学教学》课程教学资源（电子讲义）第二章测验的统计指标（2.1）信度