第三节难度和区分度 个测验的信度和效度在很大程度上取决于该测验的题目参数(难度和区分度),编制和筛 选具有适当参数的题目是改善测验信度和效度的前提。在通常情况下只要讨论常模参照测验中 题目的难度和区分度。 、难度 受测团体中被试者在答案范围内回答题目的程度称为难度。一般用难度指数p表示题目的 难度。 1.题目难度的计算 当题目的评分为多值时,受测者的得分可能是x(x=1,2,…,n,n为该题满分数)。所谓 难度指数(有时也称得分率),就是该题平均得分与满分数n之比,即 n 由此可见,平均分越高,p值越大,题目的难度越小;平均分越低,p值越小,题目的难度 越大。 当题目为二值评分(即0、1评分)时,上式可变形为 R N 其中,N是答题人数,R是答对人数。这种难度指数也称为通过率,一般用于是非题或多项 选择题 由通过率可知,答对人数越多,p值越大,题目的难度越小;答对人数越少,p值越小,题 目的难度越大。 形式为多选一的选择题有多个可能的答案供受测者选择。选择正确答案的人数可能会受猜 测机遇的影响,可供选择的答案越少,这种机遇的影响就越大。对此,可以用公式 对难度指数p进行校正。其中,C是校正后的难度指数,p是校正前的难度指数,k是每个 题目可供选择的答案数 2.题目难度的等距量表 在进行测量时,用来表示一些对象和事件的某些特征的指标称作量表。根据不同的单位和 参照点,从低级到高级,从模糊到精确,可以用不同的量表表示。用平均得分比率或答对人数 比率表示难度,仅说明事物含有某种属性的多少,它是无相等单位,不具有等距性和可加性的 顺序量表。这种量表只能表示事物间的大小、次序关系,不能反映两个比率间的数量差异。我 们可以把这种量表转换成不仅有大小关系,而且有相等单位和规定参照点的等距量表,使其能 表示题目之间难度差异的大小。 美国教育测验服务处(ETS)采用的难度指数为 △=13+4Z, 其中,Δ是正态化的等距难度指数,13是平均数,4是标准差,Z是标准正态曲线下的面积 (即p值)所对应的值。转换后的难度指数介于1~25之间,不会出现负值 题目的难度指数以多少为宜,以及它与方差、测验信度、效度、成绩分布的关系,都是值 得进一步研究的问题。 3.难度指数与方差的关系 当题目以0、1评分时,难度指数p是N个受测者中答对人数的平均数。 1+1+1+…+0+0 p ∑x=N
第三节 难度和区分度 一个测验的信度和效度在很大程度上取决于该测验的题目参数(难度和区分度),编制和筛 选具有适当参数的题目是改善测验信度和效度的前提。在通常情况下只要讨论常模参照测验中 题目的难度和区分度。 一、难度 受测团体中被试者在答案范围内回答题目的程度称为难度。一般用难度指数 p 表示题目的 难度。 1.题目难度的计算 当题目的评分为多值时,受测者的得分可能是 x(x=1,2,…,n,n 为该题满分数)。所谓 难度指数(有时也称得分率),就是该题平 由此可见,平均分越高,p 值越大,题目的难度越小;平均分越低,p 值越小,题目的难度 越大。 当题目为二值评分(即 0、1 评分)时,上式可变形为 其中,N 是答题人数,R 是答对人数。这种难度指数也称为通过率,一般用于是非题或多项 选择题。 由通过率可知,答对人数越多,p 值越大,题目的难度越小;答对人数越少,p 值越小,题 目的难度越大。 形式为多选一的选择题有多个可能的答案供受测者选择。选择正确答案的人数可能会受猜 测机遇的影响,可供选择的答案越少,这种机遇的影响就越大。对此,可以用公式 对难度指数 p 进行校正。其中,Cp是校正后的难度指数,p 是校正前的难度指数,k 是每个 题目可供选择的答案数。 2.题目难度的等距量表 在进行测量时,用来表示一些对象和事件的某些特征的指标称作量表。根据不同的单位和 参照点,从低级到高级,从模糊到精确,可以用不同的量表表示。用平均得分比率或答对人数 比率表示难度,仅说明事物含有某种属性的多少,它是无相等单位,不具有等距性和可加性的 顺序量表。这种量表只能表示事物间的大小、次序关系,不能反映两个比率间的数量差异。我 们可以把这种量表转换成不仅有大小关系,而且有相等单位和规定参照点的等距量表,使其能 表示题目之间难度差异的大小。 美国教育测验服务处(ETS)采用的难度指数为 Δ=13+4Z, 其中,Δ是正态化的等距难度指数,13 是平均数,4 是标准差,Z 是标准正态曲线下的面积 (即 p 值)所对应的值。转换后的难度指数介于 1~25 之间,不会出现负值。 题目的难度指数以多少为宜,以及它与方差、测验信度、效度、成绩分布的关系,都是值 得进一步研究的问题。 3.难度指数与方差的关系 当题目以 0、1 评分时,难度指数 p 是 N 个受测者中答对人数的平均数。 即 ∑x=Np
答对分数的平方和是 ∑x2=12+12+12+…+02+02=Np 由原始数据计算方差,得 Np Np N (1-p)=p 由此可知,答对人数比率与答错人数比率之积正是题目得分的方差。 4.难度对信度与效度的影响 我们知道,测验总分的方差可由各个题目的方差和协方差求得, s=∑P:1+2∑9,i,1,j=1,2,…, 其中,p、q分别是题目i答对与答错人数的比率,r是题目i和题目j之间的相关系数。 上式可变形为 p;22IiP2qP9° 注意到,这等式的左边就是K一R20公式的分子,当r增大时,等式右边随之增大,K-R 信度系数也增大。这说明提高题目间的相关程度,使题目间的难度接近时,信度系数就会提髙。 但是,预测效度又要求题目的难度有所差异,差异越大,效度越高。也就是说,难度接近的题 目对预测效度不利。可见,内在一致性信度与预测效度之间存在着矛盾。因此实施一个测验, 应该根据测验的目的,使上述矛盾的两个方面保持合理的得失。 5.难度与测验分数的分布 对于一个测验,不能为了追求高信度,使每个题目的难度都很接近,也不能为了追求高效 度,而使题目的难度从最易到最难全都涉及。在一般情况下,标准化的样本组所构成的测验分 数分布呈正态分布(图2-1);如果题目太难,频数集中于分布的左侧,呈现正偏态(图2-2) 如果题目太易,频数集中于分布的右侧,呈现负偏态(图2-3)。 频数 分数 图2-1正态分布曲线 测验中各个题目的难度必须与测验的性质、目的相协调。如果是筛选尖子的数学竞赛,应 该尽可能有相当难度的题目;如果为选拔学生进入高一级学校学习的能力测验或学业成就测验, 应尽量使题目的难度适中;如果是教学状态测验,应以基本的、难度较低的题目为主。尽管难 度适中的测验以难度指数0.5为宜,但并不是一个测验每一题的难度都为0.5。因为这会使测验 分数的分布呈双峰状态,50%的学生将所有题目都答对,另外50%的学生将所有题目都答错。测 验题的难度应有合理的分布,如分布在0.30~0.70,这样可使测验的成绩接近正态分布,并使 测验的难度适中
答对分数的平方和是 ∑x2=12+12+12+…+02+02=Np。 由原始数据计算方差,得 =p-p2=p(1-p)=pq。 由此可知,答对人数比率与答错人数比率之积正是题目得分的方差。 4.难度对信度与效度的影响 我们知道,测验总分的方差可由各个题目的方差和协方差求得, 其中,pi、qi分别是题目 i 答对与答错人数的比率,rij 是题目 i 和题目 j 之间的相关系数。 上式可变形为 注意到,这等式的左边就是 K-R20 公式的分子,当 rij增大时,等式右边随之增大,K-R 信度系数也增大。这说明提高题目间的相关程度,使题目间的难度接近时,信度系数就会提高。 但是,预测效度又要求题目的难度有所差异,差异越大,效度越高。也就是说,难度接近的题 目对预测效度不利。可见,内在一致性信度与预测效度之间存在着矛盾。因此实施一个测验, 应该根据测验的目的,使上述矛盾的两个方面保持合理的得失。 5.难度与测验分数的分布 对于一个测验,不能为了追求高信度,使每个题目的难度都很接近,也不能为了追求高效 度,而使题目的难度从最易到最难全都涉及。在一般情况下,标准化的样本组所构成的测验分 数分布呈正态分布(图 2-1);如果题目太难,频数集中于分布的左侧,呈现正偏态(图 2-2); 如果题目太易,频数集中于分布的右侧,呈现负偏态(图 2-3)。 测验中各个题目的难度必须与测验的性质、目的相协调。如果是筛选尖子的数学竞赛,应 该尽可能有相当难度的题目;如果为选拔学生进入高一级学校学习的能力测验或学业成就测验, 应尽量使题目的难度适中;如果是教学状态测验,应以基本的、难度较低的题目为主。尽管难 度适中的测验以难度指数 0.5 为宜,但并不是一个测验每一题的难度都为 0.5。因为这会使测验 分数的分布呈双峰状态,50%的学生将所有题目都答对,另外 50%的学生将所有题目都答错。测 验题的难度应有合理的分布,如分布在 0.30~0.70,这样可使测验的成绩接近正态分布,并使 测验的难度适中
频数 频数 图2-2正偏态曲线 图2-3负偏态曲线 区分度 题目对受测者作答反应的鉴别程度称为区分度。它是题目对受测者心理属性进行区分能力 的指标。题目区分度的高低意味着测题对于能力强与弱的学生在测验分数上区分和鉴别度的高 低。因此,它是编制常模参照测验中筛选题目的主要指标 1.题目区分度的计算 根据测验题目和已经具备的数据资料可以确定题目的区分度 (1)分组法 将受测团体按某题目得分的高低排列,取高分人数的27%为一组,他们的得分率记作PH 低分人数的27%为另一组,他们的得分率记作PL,则该题的区分度为 D= PH-PL 当题目是0、1评分时,PH、PL分别是高、低分组在该题答对人数的比率;当题目是多值评 分时,PH、P分别是高、低分组在该题的得分率。 (2)相关法 当题目为0、1评分时,可以用二列相关系数rb和点二列相关系数rpb(见第二节二列相关法) 计算题目的区分度,其中,b,r均为区 分度,p、q是某题答对与答错的人数比率,2、z2分别是该题答对、 答错的受测者测验总分的平均数,St是所有受测者测验总分的标准差。 当题目为多值评分时,可以用受测者在某题上的得分与其测验总分之间的积差相关计算区 分度。 (3)方差法 我们知道,方差是反映一组受测者分数离散程度的指标,题目得分的离散程度越高,区分 度也越高。 经统计分析可以知道积差相关系数r与方差S2之间有很高的一致性。在实际应用中,为了 选择区分度高的题目,用方差S2作为区分度指标较为恰当。这是由于:S2的计算是因题目而异 的,不受其他题目的影响;由研究得到的S2=b0+b1r与r=b′o+b′S2,表明b远大于b′1, 因而s2更能拉开点与点之间的距离,这对衡量区分度的高低给出了比r更精确的尺度;当r小 于a=0.05或α=0.01的临界值时,在统计意义上比较它们的大小都是没有显著性价值的,但 是对S2却无此顾虑,并且它的计算比较简单 (4)特征曲线法 用受测团体中受测者所得测验总分与他们在某题的得分率绘制的题目特征曲线,给出一种 简单形象的区分度分析方法。观察特征曲线的变化趋势,可以清楚地区分该题目对哪一部分学 生的成绩具有考察功能。例如,抽取100个考生作为绘制题目特征曲线的样本,他们的测验总 分在某一分数段上的人数和在某一试题(该试题满分6分)上的得分率情况可列成表2-7
二、区分度 题目对受测者作答反应的鉴别程度称为区分度。它是题目对受测者心理属性进行区分能力 的指标。题目区分度的高低意味着测题对于能力强与弱的学生在测验分数上区分和鉴别度的高 低。因此,它是编制常模参照测验中筛选题目的主要指标。 1.题目区分度的计算 根据测验题目和已经具备的数据资料可以确定题目的区分度。 (1)分组法 将受测团体按某题目得分的高低排列,取高分人数的 27%为一组,他们的得分率记作 PH; 低分人数的 27%为另一组,他们的得分率记作 PL,则该题的区分度为 D=PH-PL。 当题目是 0、1 评分时,PH、PL分别是高、低分组在该题答对人数的比率;当题目是多值评 分时,PH、PL分别是高、低分组在该题的得分率。 (2)相关法 当题目为 0、1 评分时,可以用二列相关系数 rb和点二列相关系数 rpbi(见第二节二列相关法) 计算题目的区分度,其中,rb,rpbi均为区 答错的受测者测验总分的平均数,St 是所有受测者测验总分的标准差。 当题目为多值评分时,可以用受测者在某题上的得分与其测验总分之间的积差相关计算区 分度。 (3)方差法 我们知道,方差是反映一组受测者分数离散程度的指标,题目得分的离散程度越高,区分 度也越高。 经统计分析可以知道积差相关系数 r 与方差 S2之间有很高的一致性。在实际应用中,为了 选择区分度高的题目,用方差 S2作为区分度指标较为恰当。这是由于:S2的计算是因题目而异 的,不受其他题目的影响;由研究得到的 S2=b0+b1r 与 r=b′0+b′1S2,表明 b1远大于 b′1, 因而 S 2更能拉开点与点之间的距离,这对衡量区分度的高低给出了比 r 更精确的尺度;当 r 小 于α=0.05 或α=0.01 的临界值时,在统计意义上比较它们的大小都是没有显著性价值的,但 是对 S 2却无此顾虑,并且它的计算比较简单。 (4)特征曲线法 用受测团体中受测者所得测验总分与他们在某题的得分率绘制的题目特征曲线,给出一种 简单形象的区分度分析方法。观察特征曲线的变化趋势,可以清楚地区分该题目对哪一部分学 生的成绩具有考察功能。例如,抽取 100 个考生作为绘制题目特征曲线的样本,他们的测验总 分在某一分数段上的人数和在某一试题(该试题满分 6 分)上的得分率情况可列成表 2-7
表2-7100个考生某试题得分情况 测验3040560708090100110120130140150 总分 人数 平均108120 252|390438468|486498|522 得分 得分率0180202302303003804065073078081083087 以测验总分为横坐标,该题的得分率为纵坐标,将每个受测者的得分情况在直角坐标系内 描点,连线,即为该题的特征曲线。 图2-4所示的曲线是1992年高考上海数学试题第18、21、26题的特征曲线。从图中可见 不论学生测验成绩的髙低,第21题的得分率相当接近,所以该题的区分度较低;测验成绩为中 等水平的学生,第18题的得分率差异较大,所以该题对中等水平学生有较高的区分度;测验成 绩较高的学生,在第26题的得分率差异较大,所以该题有能区分成绩较好学生的功能 ↑得分率 0.80 0.60第21题 第18题 第26题 20406080100120140 总分 图2-41992年高考上海数学试题第18、21、26题的特征曲线 2.区分度与难度的关系 用方差S作为区分度的指标,由方差与答对率p的关系可知,题目的方差依赖于难度而变 化,当p接近于1或0的,S2=pq都接近于零;可以证明当p=0.5时,pq达到最大。由此可 知,中等难度的题目,它的区分度最大。例如,某题如果在10个受测者中仅有1人答对,这个 答对者与其他9人中每人都有差异,该题共有1×9个差异;如果10个受测者中仅有2人答对, 该题共有2×8=16个差异;如果10个受测者中有5人答对,该题共有5×5=25个差异,这时 差异最大,所以区分度最高。 3.区分度与信度、效度的关系 题目的区分度受到难度的影响,区分度与难度又涉及测验的信度与效度,它们之间相互制 约,颇为复杂。因此,了解它们之间的关系,对于提高测验的质量是有益的 我们知道,当测量误差的方差S在总体中保持稳定时,测验总分 的方差s2越大,则信度越大。由测险总分方差与题目区分度D的关系式 △D)2 6 可知,提高题目的区分度,测验总分方差随之增大,测验的信度就相应地提高。另一方面 当题目的区分度用题目得分与测验总分的相关系数表示时,题目的区分度就是它的信度和效度。 由于题目的区分度是以测验总分为内部效标的题目效度,因此,一般来说,各题的区分度都较 高时,测验的信度和效度也都会提高
以测验总分为横坐标,该题的得分率为纵坐标,将每个受测者的得分情况在直角坐标系内 描点,连线,即为该题的特征曲线。 图 2-4 所示的曲线是 1992 年高考上海数学试题第 18、21、26 题的特征曲线。从图中可见, 不论学生测验成绩的高低,第 21 题的得分率相当接近,所以该题的区分度较低;测验成绩为中 等水平的学生,第 18 题的得分率差异较大,所以该题对中等水平学生有较高的区分度;测验成 绩较高的学生,在第 26 题的得分率差异较大,所以该题有能区分成绩较好学生的功能。 2.区分度与难度的关系 用方差 S 2作为区分度的指标,由方差与答对率 p 的关系可知,题目的方差依赖于难度而变 化,当 p 接近于 1 或 0 的,S2=pq 都接近于零;可以证明当 p=0.5 时,pq 达到最大。由此可 知,中等难度的题目,它的区分度最大。例如,某题如果在 10 个受测者中仅有 1 人答对,这个 答对者与其他 9 人中每人都有差异,该题共有 1×9 个差异;如果 10 个受测者中仅有 2 人答对, 该题共有 2×8=16 个差异;如果 10 个受测者中有 5 人答对,该题共有 5×5=25 个差异,这时 差异最大,所以区分度最高。 3.区分度与信度、效度的关系 题目的区分度受到难度的影响,区分度与难度又涉及测验的信度与效度,它们之间相互制 约,颇为复杂。因此,了解它们之间的关系,对于提高测验的质量是有益的。 式 可知,提高题目的区分度,测验总分方差随之增大,测验的信度就相应地提高。另一方面, 当题目的区分度用题目得分与测验总分的相关系数表示时,题目的区分度就是它的信度和效度。 由于题目的区分度是以测验总分为内部效标的题目效度,因此,一般来说,各题的区分度都较 高时,测验的信度和效度也都会提高