第三节题库 反映现代编制数学测验技术的题库理论和它的应用,主要涉及题库的 意义、题库建设、利用题库生成数学测验题这三个方面的内容。 、题库的意义 20世纪中叶,迅猛发展的世界经济迫使人们寻找编制测验的新技术 以保证客观、准确、及时地选拔人才,题库正是顺应这一时代潮流需要的 产物。题库的建立使编制测验技术发生了根本性的变革。在已建立的不同 级别、不同类型题库的实践中,已显示了题库的优越性。 1.题库的概念 题库是带有必要参数的大量题目的有机组合。按建设题库的主管单位 划分,有国家级、省级、校级等题库;按其生成测验题的能力,则可分为 只能生成一种测试性质的单功能题库,以及能生成两种或两种以上测试性 质的多功能题库;按构成题库的学科可分为单分支学科题库和多分支学科 题库;按接受测试的对象来分,则有适宜于各级、各类在校学生与适用于 非在校人员的题库。容量小的题库往往只有单功能,而国家级和省级题库 般具有多种功能。 题库除了能完成建库所规定的任务外,还应符合如下标准: (1)高效、经济、保密、易于管理; (2)库题的质量应是较高的,能预控,且等值可比; (3)题库应便于技术上的维修,并不断完善和增加新库题,具有根据 考试水平的变化及时修改库题的参数值的能力。 2.建立题库的基本条件 建立题库一般应具备如下基本条件: (1)有一个成熟、稳定、明确的考试大钢。这个大纲应对不同性质 层次和目的考试的内容、能力要求,考试方式和对象作出明确说明,以便 明确库题的内容、题型、权重和完成时量,避免构造无效库题。 (2)有一个命题和审题的专门队伍。命题的专门队伍由职业专家和兼 职人员(有关学科的教师和爱好者)组成,其任务是根据考纲拟造题目。而 审题班子,则是由各种测评专家和经验丰富的教师组成的,鉴定题目能否 入库的具有决定性的权威组织。 (3)有科学有效地测试拟入库题指标的方法。对于一个题目,必须判 明其适宜性、难度、区分度、及格要求度、信息函数值等才能决断该题能
第三节 题库 反映现代编制数学测验技术的题库理论和它的应用,主要涉及题库的 意义、题库建设、利用题库生成数学测验题这三个方面的内容。 一、题库的意义 20 世纪中叶,迅猛发展的世界经济迫使人们寻找编制测验的新技术, 以保证客观、准确、及时地选拔人才,题库正是顺应这一时代潮流需要的 产物。题库的建立使编制测验技术发生了根本性的变革。在已建立的不同 级别、不同类型题库的实践中,已显示了题库的优越性。 1.题库的概念 题库是带有必要参数的大量题目的有机组合。按建设题库的主管单位 划分,有国家级、省级、校级等题库;按其生成测验题的能力,则可分为 只能生成一种测试性质的单功能题库,以及能生成两种或两种以上测试性 质的多功能题库;按构成题库的学科可分为单分支学科题库和多分支学科 题库;按接受测试的对象来分,则有适宜于各级、各类在校学生与适用于 非在校人员的题库。容量小的题库往往只有单功能,而国家级和省级题库 一般具有多种功能。 题库除了能完成建库所规定的任务外,还应符合如下标准: (1)高效、经济、保密、易于管理; (2)库题的质量应是较高的,能预控,且等值可比; (3)题库应便于技术上的维修,并不断完善和增加新库题,具有根据 考试水平的变化及时修改库题的参数值的能力。 2.建立题库的基本条件 建立题库一般应具备如下基本条件: (1)有一个成熟、稳定、明确的考试大钢。这个大纲应对不同性质、 层次和目的考试的内容、能力要求,考试方式和对象作出明确说明,以便 明确库题的内容、题型、权重和完成时量,避免构造无效库题。 (2)有一个命题和审题的专门队伍。命题的专门队伍由职业专家和兼 职人员(有关学科的教师和爱好者)组成,其任务是根据考纲拟造题目。而 审题班子,则是由各种测评专家和经验丰富的教师组成的,鉴定题目能否 入库的具有决定性的权威组织。 (3)有科学有效地测试拟入库题指标的方法。对于一个题目,必须判 明其适宜性、难度、区分度、及格要求度、信息函数值等才能决断该题能
否入库。目前,用经典测验理论(CT)建立的难度、区分度等指标法,在 建设题库时仍在使用:由项目反应理论(IRT)建立的适宜性、难度、区分 度、及格要求度、信息函数值等指标法,在一定场合下对确定库题也非常 有效。但由于CTˆ对样本依赖性强,而IRT对多级评分模型又不能直接使 用,所以建设题库的权宜之计是CTT与IRT并用。 (4)有建立库题的分类系统。为便于管理,对库题必须进行分类。分 类标准可以是知识结构,也可以是题目的指标值。整个分类系统由基本情 况(名称和索引、编制和使用情况、来源和加工情况等)、内容分类、试测 数据(指标状况)、答案等组成 (5)有大量的题目。校级单功能题库,一般实际考题数与库题数之比 不低于1:10,而省级、国家级的题库,按照多功能性的要求,其库题数 应逾万。 (6)有合理完善的保存库题的方法。无论是用题卡还是用计算机保存 库题,都必须完整地记载分类细目,而且要利于检索和管理。 二、题库的建设 建设题库,首先必须把好题目的入库关。题目入库后,还必须建立相 应的管理、维护和扩充题库的措施。 1.选择库题的标准 根据所建题库用于编制测验题的性质,CTT与IRT各有确定库题的标 (1)利用CTT确定库题 φ一系数法是用于CTT建立题库时的简单易行的确定库题的方法。通 常规定 其中PH表示成绩好的答对率,PL表示成绩差的答对率,当被测总数 N>30时,计算PH、PL的人数均取27N%,而 1 2(P+P 具体操作为
否入库。目前,用经典测验理论(CTT)建立的难度、区分度等指标法,在 建设题库时仍在使用;由项目反应理论(IRT)建立的适宜性、难度、区分 度、及格要求度、信息函数值等指标法,在一定场合下对确定库题也非常 有效。但由于 CTT 对样本依赖性强,而 IRT 对多级评分模型又不能直接使 用,所以建设题库的权宜之计是 CTT 与 IRT 并用。 (4)有建立库题的分类系统。为便于管理,对库题必须进行分类。分 类标准可以是知识结构,也可以是题目的指标值。整个分类系统由基本情 况(名称和索引、编制和使用情况、来源和加工情况等)、内容分类、试测 数据(指标状况)、答案等组成。 (5)有大量的题目。校级单功能题库,一般实际考题数与库题数之比 不低于 1∶10,而省级、国家级的题库,按照多功能性的要求,其库题数 应逾万。 (6)有合理完善的保存库题的方法。无论是用题卡还是用计算机保存 库题,都必须完整地记载分类细目,而且要利于检索和管理。 二、题库的建设 建设题库,首先必须把好题目的入库关。题目入库后,还必须建立相 应的管理、维护和扩充题库的措施。 1.选择库题的标准 根据所建题库用于编制测验题的性质,CTT 与 IRT 各有确定库题的标 准。 (1)利用 CTT 确定库题 φ-系数法是用于 CTT 建立题库时的简单易行的确定库题的方法。通 常规定 其中 PH表示成绩好的答对率,PL 表示成绩差的答对率,当被测总数 N>30 时,计算 PH、PL的人数均取 27N%,而 具体操作为:
第一步,求出φ。根据抽取的被试样本的测试结果,利用φ一系数公 式求出φ值 第二步,检验。利用 VM 27% 在0的道水平下,x=381,40=N当际求出的值大于 φoos,就可保证肯定性判断错误的可能性不超过5%。一般地,当φ≥0.5 时有较好的区分度。如图3-6,其阴影部分中的点(中,P所对应的题可 入选为库题。 题目过易 区分度 较低 「题目过难 0.5 图3-6 φ一系数法的精确性很大程度上依赖于被抽取的测试样本,而且等值 问题未能得到有效解决,对于库题的参数也未能予以充分揭示。尽管如此, 在建立小型题库(如校级题库)时,它仍不失为一种可行的方法。 (2)利用IRT确定库题 IRT是一种关于能力测量的理论。它的理论基础是能力单维性(每题 只测验一种能力),局部独立性(考生对测验各题的反应在统计上是独立 的),题目特征曲线(ICC),完成时间充分性(考生完成测验题的时间是足 够的)四个假设。它包括复杂程度不同的多个模型,目前被广泛使用的是 下面的逻辑斯蒂( logistic)模型。 三参数模型(其中难度b,区分度a,猜测因素c) ( 1-Ci exp[Da (8-b P3()=c1+ 2) xp[Da; 0-bi)]
第一步,求出φ。根据抽取的被试样本的测试结果,利用φ-系数公 式求出φ值。 第二步,检验。利用 大于 φ0.05,就可保证肯定性判断错误的可能性不超过 5%。一般地,当φ≥0.5 时有较好的区分度。如图 3-6,其阴影部分中的点(φ,P)所对应的题可 入选为库题。 φ-系数法的精确性很大程度上依赖于被抽取的测试样本,而且等值 问题未能得到有效解决,对于库题的参数也未能予以充分揭示。尽管如此, 在建立小型题库(如校级题库)时,它仍不失为一种可行的方法。 (2)利用 IRT 确定库题 IRT 是一种关于能力测量的理论。它的理论基础是能力单维性(每题 只测验一种能力),局部独立性(考生对测验各题的反应在统计上是独立 的),题目特征曲线(ICC),完成时间充分性(考生完成测验题的时间是足 够的)四个假设。它包括复杂程度不同的多个模型,目前被广泛使用的是 下面的逻辑斯蒂(logistic)模型。 三参数模型(其中难度 b,区分度 a,猜测因素 c)
二参数模型(其中难度b,区分度a) P2(8) exp[Dai (8-b,] 1+ exp[Da;(0-bi) 单参数模型(其中难度b)又称拉什( Rasch)模型 P1(e) D(-b1 p[D(8-b1)] 以上三个模型中参数取值的正常范围分别为:0≤a≤2,-3≤b≤3, 0≤c≤1,D=1.7(D被称为调整因子,是常数)。更精确的D值可取为 1.704。这里,P(θ)表示能力水平为θ的考生按第j种模型计算答对第i 题的概率,显然有 =0 P3(6)+P2(6) 对于单参数模型表示的能力和水平,可通过公式 P1( (f2-b1) 联系起来,这里fr为具有r分数考生的能力估计值,b为第i题的难 度估计值 规定题i对测验信息函数的贡献 I1(6) F2()Q1() 为题i的信息函数,这里只P′(0)为P(0)关于0的一阶导数, Q(0)=1-P(0) 利用IRT建设题库具有难度与样本无关、能力与题目无关的优点,便 于对题目和考生作适宜性检验,及研究整卷的效度、难度。由此建立的题 库易于扩充,并能根据考生水平调整库题的难度值。IRT在题库建设中有 多方面的应用 第一,估计能力参数θ与题目参数a、b、c
二参数模型(其中难度 b,区分度 a) 单参数模型(其中难度 b)又称拉什(Rasch)模型 以上三个模型中参数取值的正常范围分别为:0≤ai≤2,-3≤bi≤3, 0≤ci≤1,D=1.7(D 被称为调整因子,是常数)。更精确的 D 值可取为 1.704。这里,Pij(θ)表示能力水平为θ的考生按第 j 种模型计算答对第 i 题的概率,显然有 对于单参数模型表示的能力和水平,可通过公式 联系起来,这里 fr为具有 r 分数考生的能力估计值,bi为第 i 题的难 度估计值。 规定题 i 对测验信息函数的贡献 为题 i 的信息函数,这里只 P′i(θ)为 Pi(θ)关于θ的一阶导数, Qi(θ)=1-Pi(θ)。 利用 IRT 建设题库具有难度与样本无关、能力与题目无关的优点,便 于对题目和考生作适宜性检验,及研究整卷的效度、难度。由此建立的题 库易于扩充,并能根据考生水平调整库题的难度值。IRT 在题库建设中有 多方面的应用。 第一,估计能力参数θ与题目参数 a、b、c
对参数估计的研究一直是IRT研究的一个重要问题,已有的估计能力 参数0和题目参数a、b、c的方法有多种。下面用极大似然估计和近似估 计方法对逻辑斯蒂三参数模型的参数进行估计,可见求参数的一般过程。 先看逻辑斯蒂三参数模型参数的极大似然估计。 设被试样本容量为N,其个体能力水平为0(i=1,2,…,N),0= (θ1,θ2,…,θn),选取M道题目测试,第j(j=1,2,…,M)道题的 反应为u,u=(u1,u2,…,um),样本对题作出的反应概率为P(ul0), 利用IRT的局部独立性假设,有 P (ul 8) 记为 P(u38)=L L(u|0)就是极大似然函数。 利用极大似然估计可得: 能力参数估计式 0(i1=1,2, PiQu 题目参数估计式 [u:-F2D(63-b)Pp-=0, PuDar R,(P,-cj) PiQ = PiQj 这里Q=1一Pp,D=1.7,P=P(u|0),a=(at,a2,…,an),b= 根据0、a、b、c的初值以及上述3M+N个方程,用迭代法反复在θ 和a、b、c之间进行迭代,能按预定的精确度求出θ和a、b、c的值。若 将求解的过程设计成程序,可以用计算机求解
对参数估计的研究一直是 IRT 研究的一个重要问题,已有的估计能力 参数θ和题目参数 a、b、c 的方法有多种。下面用极大似然估计和近似估 计方法对逻辑斯蒂三参数模型的参数进行估计,可见求参数的一般过程。 先看逻辑斯蒂三参数模型参数的极大似然估计。 设被试样本容量为 N,其个体能力水平为θi(i=1,2,…,N),θ= (θ1,θ2,…,θn),选取 M 道题目测试,第 j(j=1,2,…,M)道题的 反应为 uj,u=(u1,u2,…,um),样本对题作出的反应概率为 P(u|θ), 利用 IRT 的局部独立性假设,有 L(u|θ)就是极大似然函数。 利用极大似然估计可得: 能力参数估计式 题目参数估计式 这里 Qji=1-Pji,D=1.7,Pji=P(uj|θi),a=(a1,a2,…,an),b= (b1,b2,…,bn),c=(c1,c2,…,cn)。 根据θ、a、b、c 的初值以及上述 3M+N 个方程,用迭代法反复在θ 和 a、b、c 之间进行迭代,能按预定的精确度求出θ和 a、b、c 的值。若 将求解的过程设计成程序,可以用计算机求解
再看逻辑斯蒂三参数模型参数的近似估计。 在大样本和能力参数θ服从正态分布的条件下,近似估计逻辑斯蒂三 参数模型的参数有如下关系式: (1+a1 Y;=p′;b; [c;+(1-c)x]·[1-c1-(1-c1)x1] 其中ρ′10是u与θ的点二列相关系数,pi是第i题与θ的点二列 相关系数,π为第i题的通过率难度,φ(t)是标准正态分布的密度 函数,为满足[中(t)=1-丌的的解,c1的估计值为测险 分x=∑u与丌作点(x1,丌)所得的曲线的渐近线下限。 第二,库题的适宜性检验 测验者对题目作出的反应是否与测量模式所期望的相符,这就是题目 的适宜性。建设题库的选题是为编制测验作准备的,因而必须查明拟入库 题的适宜性。规定 Z2=exp[(2x-1)(f-b)] 为残余值,式中f为能力值,b为难度值,答对时x=1,答错时x 0,可通过下面步骤对拟入库题作适宜性检验 第一步,按题目从易到难为行序,得分由高到低为列序构成分数矩阵。 第二步,设∑Z表示各测验者标准残余值的和,利用 ∑2∑2址 作t检验,其中df为自由度。 第三步,以总题数-1为题目数的自由度作能力值t检验,以测验人 数一1为自由度作难度值t检验,决定拟入库题是否可作为库题接受。在
再看逻辑斯蒂三参数模型参数的近似估计。 在大样本和能力参数θ服从正态分布的条件下,近似估计逻辑斯蒂三 参数模型的参数有如下关系式: 其中ρ′iθ是 ui与θ的点二列相关系数,ρiθ是第 i 题与θ的点二列 相关系数,πi为第 i 题的通过率难度,φ(t)是标准正态分布的密度 第二,库题的适宜性检验。 测验者对题目作出的反应是否与测量模式所期望的相符,这就是题目 的适宜性。建设题库的选题是为编制测验作准备的,因而必须查明拟入库 题的适宜性。规定 Z2=exp[(2x-1)(f-b)] 为残余值,式中 f 为能力值,b 为难度值,答对时 x=1,答错时 x= 0,可通过下面步骤对拟入库题作适宜性检验: 第一步,按题目从易到难为行序,得分由高到低为列序构成分数矩阵。 第二步,设∑Z2表示各测验者标准残余值的和,利用 作 t 检验,其中 df 为自由度。 第三步,以总题数-1 为题目数的自由度作能力值 t 检验,以测验人 数-1 为自由度作难度值 t 检验,决定拟入库题是否可作为库题接受。在
缺乏分布表的情况下,当t5时应加以拒绝,当3≤t ≤5时应作进一步不合适的原因分析 2.建设题库的方法 建设题库的方法起初是实验性的,由此所生成的库题具有随意性,只 能生成具有特定性的小规模测验题。当今,建设题库的方法已得到根本的 改变和发展。建设库题可按如下步骤进行: (1)作好拟入库题的开发工作 开发拟入库题可按两种形式进行:其一,组织专家从事库题的开发和 研究;其二,向广大教师及有关学科爱好者征题,由此而带动开发库题的 群众性活动。 (2)分析等值 所谓分析等值主要分析题目间的难度b、区分度a是否等值,并把它 转化到一量表上。用CTT分析等值受样本的影响较大,故一般用IRT进行 等值分析。在二级评分模型中,具体应用IRT理论进行等值分析的途径很 多。PROX过程使能力与难度相分离,可对能力与难度进行数值比较,又 易于操作,其步骤如下。 第一步,整理数据。删除全答对或全答错的题,构成分数矩阵(表3 表3-3分数矩阵 目编号考生分百分 12 题目分数 百分比 第二步,根据分数构造题目难度值分布表3-4,表中f表示能力, b表示难度,难度初始值b=x1-x0,x p1为答对
缺乏分布表的情况下,当 t<3 时可接受,t>5 时应加以拒绝,当 3≤t ≤5 时应作进一步不合适的原因分析。 2.建设题库的方法 建设题库的方法起初是实验性的,由此所生成的库题具有随意性,只 能生成具有特定性的小规模测验题。当今,建设题库的方法已得到根本的 改变和发展。建设库题可按如下步骤进行: (1)作好拟入库题的开发工作 开发拟入库题可按两种形式进行:其一,组织专家从事库题的开发和 研究;其二,向广大教师及有关学科爱好者征题,由此而带动开发库题的 群众性活动。 (2)分析等值 所谓分析等值主要分析题目间的难度 b、区分度 a 是否等值,并把它 转化到一量表上。用 CTT 分析等值受样本的影响较大,故一般用 IRT 进行 等值分析。在二级评分模型中,具体应用 IRT 理论进行等值分析的途径很 多。PROX 过程使能力与难度相分离,可对能力与难度进行数值比较,又 易于操作,其步骤如下。 第一步,整理数据。删除全答对或全答错的题,构成分数矩阵(表 3 -3)。 第二步,根据分数构造题目难度值分布表 3-4,表中 fi表示能力
率,r为同一分数出现的频数,x0= U为难度方差。 表3-4题目难度值分布 题目组编号题目编号|题目分数题目次数F1-B1x1b=x-x 1 2 N 一1乙1 第三步,根据分数矩阵整理出测验者能力值的分布(表分3-5), 表中表示分数,n表示分数为的测验者数,工表示题数,PL x=1(n1.e=x表示能力初始值,=之 表3-5测验者及题目能力值分布 r=hn[P2/(1-p2)]r=Y Y-2n1Y0)/(2n2 第四步,求出离差扩张因子X,Y: x-1+U/289 1+V/289 1-UV/835 1-UV/835 第五步,用X校正能力值,用Y校正难度值, f=xf, bi
第三步,根据分数矩阵整理出测验者能力值的分布(表分 3-5), 第四步,求出离差扩张因子 X,Y: 第五步,用 X 校正能力值,用 Y 校正难度值
通过以上各步骤求出的fr和b具有可比性。当b0时,题偏难。题库总是按b将库题分等。例如,按容易(b≤一3), 比较容易(一33),可将库题分为五等。当然也可采用其他标准将库题分等。 PROX过程虽容易理解,但较复杂,再加上逐一测试,工作量大,因 而常用学科评估专家对拟入库题进行估计来推导有关参数值。这已成为 种可行的方法。在二级评分模型中,可以证明,用贝叶斯( Bayes)估计参 数得的难度值bB与专家评估难度b。有如下关系式 bB=0.613+1.333b (相关系数为0.712,误差标准差的估计为0.7383),或 b=1.5142+3181b+07218b (误差标准差的估计为0.70)。 通过率p与bn的关系为 0.53b-123b2 (误差标准差的估计为0.0017)。 通过率p与bB的关系为 bB=3.0516-6.1244p (相关系数为0.975,误差标准差的估计为0.073)。 我们认为,只要有一定数量的,并在测评题目方面有丰富经验的教师, 就可用上述关系求bB。类似于分数的等值定义可给出内容难度等值的定 义。如果在任一题组中(实际上取一个题目大样本)两个水平相同的专家组 评定的两题的百分等级相等,则称这两题的内容难度等值。例如,取60 道题构成大样本,由A、B两个专家组对其内容难度值进行评定。若题甲 由A评定的内容难度值为0.6,其所在百分等级是30,而题乙由B评定的 内容难度值为0.65,其所在百分等级也为30,则题甲与题乙的内容难度 值相等 (3)贮存库题建设题库 设置题卡是早期建设题库的主要方法,现代题卡主要由正文、答案 评分标准、使用情况、使用后记录、适宜性记录、及格要求度、各种参数 (a、b、c)值、命题人、审题人和编卡时间组成。为了便于査阅,还需对
通过以上各步骤求出的 fr和 bi具有可比性。当 bi<0 时,题偏易;当 bi>0 时,题偏难。题库总是按 br将库题分等。例如,按容易(br≤-3), 比较容易(-3<bi≤-1),中等难度(-1<bi≤1),比较难(1<bi≤3),难 (bi>3),可将库题分为五等。当然也可采用其他标准将库题分等。 PROX 过程虽容易理解,但较复杂,再加上逐一测试,工作量大,因 而常用学科评估专家对拟入库题进行估计来推导有关参数值。这已成为一 种可行的方法。在二级评分模型中,可以证明,用贝叶斯(Bayes)估计参 数得的难度值 bB与专家评估难度 bη有如下关系式 bB=0.613+1.333bη (相关系数为 0.712,误差标准差的估计为 0.7383),或 (误差标准差的估计为 0.70)。 通过率 p 与 bη的关系为 (误差标准差的估计为 0.0017)。 通过率 p 与 bB的关系为 bB=3.0516-6.1244p (相关系数为 0.975,误差标准差的估计为 0.073)。 我们认为,只要有一定数量的,并在测评题目方面有丰富经验的教师, 就可用上述关系求 bB。类似于分数的等值定义可给出内容难度等值的定 义。如果在任一题组中(实际上取一个题目大样本)两个水平相同的专家组 评定的两题的百分等级相等,则称这两题的内容难度等值。例如,取 60 道题构成大样本,由 A、B 两个专家组对其内容难度值进行评定。若题甲 由 A 评定的内容难度值为 0.6,其所在百分等级是 30,而题乙由 B 评定的 内容难度值为 0.65,其所在百分等级也为 30,则题甲与题乙的内容难度 值相等。 (3)贮存库题建设题库 设置题卡是早期建设题库的主要方法,现代题卡主要由正文、答案、 评分标准、使用情况、使用后记录、适宜性记录、及格要求度、各种参数 (a、b、c)值、命题人、审题人和编卡时间组成。为了便于查阅,还需对
题卡进行分类编号。早期的题卡没有如此详尽的记载,而且不用计算机贮 存。尽管如此,当今没有计算机管理系统的单位仍采用较完备的题卡以建 立题库。但是,随着题库容量大幅度增加,对题库的管理和使用提出了很 高的要求,今天利用计算机技术建库已成了建库的主流和方向 利用计算机技术可把库题存于机内,也可把库题单独放在机外。前者 管理起来方便,但对内存要求高:后者节省了计算机存储空间,但管理不 太方便。随着计算机存储容量的提高,目前一般倾向于采用把库题存入计 算机内的建库方法,并建立相应的软件对整个题库进行监控。这种软件由 题目输入,题目信息管理,统计分析(库题各项指标的获得方式),试卷生 成,信息输出等五个模块组成。 3.题库的维护和扩充 题库是一个动态的存储和管理系统,便于维护和扩充题库是当代题库 建设的重要特征。 (1)题库的动态维护 题库的状态随情况的变化而变化,必须经常对题库的思想性、科学性 根据相关学科的教育现状和要求加以调整,及时修正库题的各种参数值 (2)题库的扩充 扩充题库,充实题库中新内容,能给题库带来生机。用CTT很难实现 题库的参数可公度(新旧参数值可比)扩充,IRT为扩充题库提供了如下可 行的方法 设g1,g2,…,gn为题库中的n道题,其难度分别为b,b2,…,bn, 问欲新增加gn1,gm2,…,gmm这m道题入库是否可行? 选g(1≤i≤n)为连接题目(在不同时期测验中总是使用的库题称为 连接题目),由g,gm1,gm2,…,gmm编成测验题,测 得各题的难度分别为人51,b+1,…,b1。令△:=b1-,取 bn4=bn4+△ n+ b′:=b1-b,这里 b=∑b+∑b+(m+n)
题卡进行分类编号。早期的题卡没有如此详尽的记载,而且不用计算机贮 存。尽管如此,当今没有计算机管理系统的单位仍采用较完备的题卡以建 立题库。但是,随着题库容量大幅度增加,对题库的管理和使用提出了很 高的要求,今天利用计算机技术建库已成了建库的主流和方向。 利用计算机技术可把库题存于机内,也可把库题单独放在机外。前者 管理起来方便,但对内存要求高;后者节省了计算机存储空间,但管理不 太方便。随着计算机存储容量的提高,目前一般倾向于采用把库题存入计 算机内的建库方法,并建立相应的软件对整个题库进行监控。这种软件由 题目输入,题目信息管理,统计分析(库题各项指标的获得方式),试卷生 成,信息输出等五个模块组成。 3.题库的维护和扩充 题库是一个动态的存储和管理系统,便于维护和扩充题库是当代题库 建设的重要特征。 (1)题库的动态维护 题库的状态随情况的变化而变化,必须经常对题库的思想性、科学性, 根据相关学科的教育现状和要求加以调整,及时修正库题的各种参数值。 (2)题库的扩充 扩充题库,充实题库中新内容,能给题库带来生机。用 CTT 很难实现 题库的参数可公度(新旧参数值可比)扩充,IRT 为扩充题库提供了如下可 行的方法。 设 g1,g2,…,gn为题库中的 n 道题,其难度分别为 b1,b2,…,bn, 问欲新增加 gn+1,gn+2,…,gn+m这 m 道题入库是否可行? 选 gi(1≤i≤n)为连接题目(在不同时期测验中总是使用的库题称为 连接题目),由 gi,gn+1,gn+2,…,gn+m编成测验题,测