心理科学Psychological Science2008.31(1):177-180 177 ·研究方法· IRT模型参数估计的新方法一MCMC算法 涂冬波!漆书青·1蔡艳2戴海琦1丁树良3 (江西师范大学教育学院,南吕,330027)(2江西师范大学数学与信息科学学院,南昌,330027) (江西师范大学计算机信息工稻学院,南昌,330027) 摘要本研究主要探讨MCMC算法在IRT模型参数估计中的实现及其估计精度。通过模拟多种实验条件(人少题少、人题 适中,人多题多、被试数及其参数固定情况下项目数变化,项目数及其参数固定情况下人数变化),考察两参数和叁参数Lcgs 模型的MCMC算祛对其参数估计的精度,并与国际通用测量程序-Bilg程序(E-M算法)进行比较研究。模拟实验研究表 明,上述各种实验条件下,MCMC算法均可用于IRT模型参数估计,且其估计的精度均较BlOg程序(E-M算法)高,值得推广。 关键词:马尔可夫链朦特卡洛Logistic模型E一M算法 1引言 难于实现其参数估计,他们运用MCMC方法实现了该模型 项目反应理论(RT)自20世纪60年代以来,由于其理 的参数估计:Jimmy,Douglas(2004)91使用MCMC方法估计 论模型的科学性和精确性,一直受到心理和教育测量学的研 高维的认知诊断模型一Higher-order DINA model、和 究者和实际工作者的关注和兴趣,至今已成为考试技术学研 LLM,深入研究了MCMC算法在认知诊断模型中参数估计 究领城中最有影响的一种现代测量理论。其在实际应用 的运用;Jinag Yanlin(2005)1o1使用MCMC算法估计多维项 中存在的核心问题在于参数估计的复杂性,随着现代统计学 目反应模型(multidimensional item response theory model)的参 及数学的不断发展,参数估计的方法也不断发展,其估计方 数,拓展了传统单维IRT模型。因此,MCMC算法实现了 法主要有“联合极大似然估计”(JMLE)、“边标极大似然估 RT中以下几类模型的参数估计:第一,不再局限于“单维” 计“(MMLE)、“条件期望-极大化算法"(E-M算法)等2。 模型,已经实现了多维模型参数估计;第二,即使是单维模 1992年统计学家J.H.Albert(1992)3)首先将马尔可夫链蒙 型,但参数个数在三个以上:第三,不再局限于“局部独立”条 特卡洛(Markov Chain Monte Carlo.,MCMC)方法应用到IRT 件下,在估计试题相依模型参数。总之,在RT模型参数估 参数估计研究中,大大简化了RT中参数估计的复杂度,并 计中,MCMC方法实现了E-M算法难于或无法解决的问 且估计精度较好。MCMC方法源于物理学研究,20世纪末 题,更好地服务实际。但在我国MCMC算法在IRT参数估 引人心理计量学领域,它是一种动态的计算机模拟技术,是 计的研究却很少,目前仅看到王权老师(2006))介绍的关于 根据任一多元理论分布,特别是根据贝叶斯(Bays)推断为中 国外学者将MCMC方法应用于1RT参数估计。而本文主要 心的多元后验分布,米模拟随机样本的一种方法。其基本 是想研究MCMC算法在IRT下Logistic模型参数估计的可 思想是通过模拟服从某一分布也即平稳分布(一般是待估参 行性、参数估计的实现及参数估计的精度,探讨MCMC方法 数的联合后验分布)的马尔可夫链,然后根据模拟的马尔可 在RT参数估计中具体运用。国外虽然有过同类研究,但并 夫链上的样本点对待估参数进行估计。 没有设计系统的实验来比较MCMC算法与EM算法,且 当IRT模型中的参数的个数或维度过多时,传统的E一 MCMC算法参数估计的返真性也未见报道,本文主要是尝试 M算法一般难于或无法实现模型的参数估计。自MCMC算 弥补这方面空缺,以期推进我国心理测量学的发展。 法引进心理计量学领域后,心理计量领域中的许多复杂、高 维模型的参数估计成为现实,它是一种全新的参数估计方 2研究方法 法。在国外,目前该算法已被广泛应用于1RT下的各种模型 2.1IRT下Logistic模型MCMC算法参数估计过程 的参数估计。Patz&Junker(1999)[4.s]应用MCMC方法估 对于叁参数的Logistic模型(3PLM),其概率模型为P 计IRT下的Logistie模型、分部评分模型(partial credit 1-9 models)及GLLT模型(generalized linear logistic test model)的 (a,69)=s+1+c即(-Dg-万(D=I。Logistie横 参数估计,拓广了MCMC方法在IRT参数估计的实际应用: 型中,参数的先验分布一般为:0~N(0,1),Log(a)~N(0,1), Bradlow,Wainer,Wang(1999)i61运用MCMC方法估计两参 b-N(0,1),C-~B(5,17)。采取Gibbs抽样下的随机移动M 数Logistic的相依题组模型(testlet model),成功实现了题组 -H算法[1-13(jumping M-H),生成项目参数和被试参数 内项目间存在相依IRT模型的参数估计:Wainer,Bradlow, 的马尔可夫链,再以所生成链上的样本点的均值作为参数的 Du(2001)[7I运用MCMC方法来估计参参数Logistic的题组 估计值,就可具体实现参数估计。其过程如下: 模型,拓展了题组模型的使用范围,并研究了题组模型在 (1)设定被试参数及项目参数的初始状态:P=0,B=0, CAT中应用;Hart,Rouss,Stout(2002)[s]提出了认知诊断 ·A°=1。即所有被试能力参数初值均为0,所有项目参数初值 的新模型一fusion model,由于该模型比较复杂,E-M算法 均为(A=1,B=0)。 ·通讯作者:漆书青,男。E-mail:jxnugsq@126com 万方数据
心理科学Psychological Science 2008,3l(1):177~180 t77 IRT模型参数估计的新方法——MCMC算法 涂冬波1漆书青+1蔡艳2戴海琦1 丁树良3 (1江西师范大学教育学院,南昌,330027)(2江西师范大学数学与信息科学学院,南昌,330027) (3江西师范大学计算机信息工程学院,南昌,330027) 。研究方法· 摘要本研究主要探讨MCMC算法在IRT模型参数估计中的实现及其估计精度。通过模拟多种实验条件(人少题少、人题 适中、人多题多、被试数及其参数固定情况下项目数变化、项目数及其参数固定情况下人数变化).考察两参数和叁参数Logistic 模型的MCMC算法对其参数估计的精度,并与国际通用测量程序一Bi】og程序(E—M算法)进行比较研究。模拟实验研究表 明,上述各种实验条件下,MCMC算法均可用于IRT模型参数估计,且其估计的精度均较Bilog程序(E—M算法)高,值得推广。 关键词:马尔可夫链蒙特卡洛Logistic模型 E—M算法 1 引言 项目反应理论(IRT)自20世纪60年代以来,由于其理 论模型的科学性和精确性,一直受到心理和教育测量学的研 究者和实际工作者的关注和兴趣,至今已成为考试技术学研 究领域中最有影响的一种现代测量理论…。其在实际应用 中存在的核心问题在于参数估计的复杂性,随着现代统计学 及数学的不断发展,参数估计的方法也不断发展,其估计方 法主要有“联合极大似然估计”(JMLE)、“边际极大似然估 计”(MMLE)、“条件期望一极大化算法”(E—M算法)等[2】。 1992年统计学家J.H.Albert(1992)¨]首先将马尔可夫链蒙 特卡洛(Markov Chain Monte Carlo,MCMC)方法应用到IRT 参数估计研究中,大大简化了IRT中参数估计的复杂度,并 且估计精度较好。MCMC方法源于物理学研究,20世纪末 引入心理计量学领域,它是一种动态的计算机模拟技术,是 根据任一多元理论分布,特别是根据贝叶斯(Bayes)推断为中 心的多元后验分布,来模拟随机样本的一种方法It J。其基本 思想是通过模拟服从某一分布也即平稳分布(一般是待估参 数的联合后验分布)的马尔可夫链,然后根据模拟的马尔可 夫链上的样本点对待估参数进行估计。 当IRT模型中的参数的个数或维度过多时,传统的E— M算法一般难于或无法实现模型的参数估计。自MCMC算 法引进心理计量学领域后,心理计量领域中的许多复杂、高 维模型的参数估计成为现实,它是~种全新的参数估计方 法。在国外,目前该算法已被广泛应用于IRT下的各种模型 的参数估计。Patz&Junker(1999)¨’5j应用MCMC方法估 计IRT下的Logistic模型、分部评分模型(partial credit models)及GLLT模型(generalized linear logistic test model)的 参数估计,拓广了MCMC方法在IRT参数估计的实际应用; Bradlow,Wainer,Wang(1999)【6 J运用MCMC方法估计两参 数Logistic的相依题组模型(testlet model),成功实现了题组 内项目间存在相依IRT模型的参数估计;Wainer,Bradlow, Du(2001)(7 J运用MCMC方法来估计叁参数Logistic的题组 模型,拓展了题组模型的使用范围,并研究了题组模型在 CAT中应用;Hartz,Rouss,Stout(2002)【8 J提出了认知诊断 的新模型——f嘁on model,由于该模型比较复杂,E—M算法 *通讯作者:漆书青,男。E:mail:jxduqsq@126eom 难于实现其参数估计,他们运用MCMC方法实现了该模型 的参数估计;Jimmy,Douglas(2004)【91使用MCMC方法估计 高维的认知诊断模型——Higher—order DINA model、和 LLM,深入研究了MCMC算法在认知诊断模型中参数估计 的运用;Jinag Yanlin(2005)11叫使用MCMC算法估计多维项 目反应模型(multidimensional item response theory model)的参 数,拓展了传统单维IRT模型。因此,MCMC算法实现了 IRT中以下几类模型的参数估计:第一,不再局限于“单维” 模型,已经实现了多维模型参数估计;第二,即使是单维模 型,但参数个数在三个以上;第三,不再局限于“局部独立”条 件下,在估计试题相依模型参数。总之,在IRT模型参数估 计中,MCMC方法实现了E—M算法难于或无法解决的问 题,更好地服务实际。但在我国MCMC算法在[RT参数估 计的研究却很少,目前仅看到王权老师(2006)[1 J介绍的关于 国外学者将MCMC方法应用于IRT参数估计。而本文主要 是想研究MCMC算法在IRT下Logistic模型参数估计的可 行性、参数估计的实现及参数估计的精度,探讨MCMC方法 在IRT参数估计中具体运用。国外虽然有过同类研究,但并 没有设计系统的实验来比较MCMC算法与EM算法,且 MCMC算法参数估计的返真性也未见报道,本文主要是尝试 弥补这方面空缺,以期推进我国心理测量学的发展。 2研究方法 2.1 IRT下Logistic模型MCMC算法参数估计过程 对于叁参数的Logistic模型(3PLM),其概率模型为Pii 1一, (。;,ai,bj,ci)2 Ci+Ⅳ面寺未F研(D=1)。Logism模 型中,参数的先验分布一般为:0~N(O,1),Log(a)~N(O,1), b-N(O,1),C~B(5,17)。采取Gibbs抽样下的随机移动M —H算法[“一t3](jumping M—H),生成项目参数和被试参数 的马尔可夫链,再以所生成链上的样本点的均值作为参数的 估计值,就可具体实现参数估计。其过程如下: (1)设定被试参数及项目参数的初始状态:00=0.B0=0, Ao=1。即所有被试能力参数初值均为0,所有项目参数初值 均为(A=1,B=0)。 万方数据
178 心理科学 (2)假定项目参数已知,估计被试参数 ②计算从状态-1至转移概率a(0l,的)=nmin ①对各被试(i=1,2,…,N)独立地从所选取的建议分布 x(0) (proposal distribution)中随机抽取一状态0。理论上建议分 {0-马1(由于建议分布为对称的正态分布,故分子分母 布可取任何形式,但为计算简便,一般取对称分布(如正态分 的建议分布约掉,其中π(·)为参数的联合后验分布,它由所 布、均匀分布等),也即q(6-1,几)=q(0,0-1)。我们取被试 有参数的先验分布及被试作答的似然函数所决定,也即所构 参数的建议分布为正态分布,它以上一次选代的值为均数, 造马尔可夫链的极限分布或平稳分布(stationary 以一常数为方差,也即从9~N(-',C)中随机抽取被试参 distribution)。用此以决定状态是否进行转移。(下类同) 数的下一状态。(下类同) π() P(,A-,hQ(,A-1旷-)1 (-巧) X 除A-,时0除,A武e0-2- 1 ③生成随机数r~u[0,1],进行状态转移判断。 A-N(A-,C),IB-N(B-,C),C-N(C-1,C) 的,r≤a(-',) =传1>a(g-) ②计算从状态(A-',-',C-1)至(A,,C)转移的 概率a(A-l,B-I,C-1,A,,C)=min (3)假定被试参数已知,估计项目参数 (A,B,C) ①对各项目参数(G=1,2,…,m)独立生戒各自的下一状 A-,,C-可1。 用此以决定状态是否进行转移。 π(A,B,C) iP(,A,B)Q(,A,)- (A-1,C巧 IP(,A-1,B-1)Q(,A-1,B-1)1- ( (C)-1(1-C)b-t cp2o-1 1 1 (C-1)-1(1-C-)立 7 m-家e-P ③生存得分矩阵随机数r~U[0,1],进行状态转移判断。 {(A,B,C),r≤a(A-l,B-1,C-1),(A,B,C)) (A,B,C)= (A-l,-1,Ct),r>a(A-1,1,C-1),(A,B,C)) (4)重复(2)、(3)步骤L次(L为链长,本文取L=5000, 算法作一比较。Monet Carlo模拟过程:(1)指定项目参数和 但对于其它较为复杂的模型如多维【RT等,链长最好在 被试参数的分布(0一B(0,1),log(A)~N(0,1),C一B(5, 10000以上),取最后W次(本文取W=3000)次迭代的平均 17)),并从相应的分布中生成参数真值。(2)根据参数真值, 值作为初步参数估计值。 采用模拟方法生存被试得分矩阵。(3)根据所生成的被试得 (5)上述4步生存了一条链长为L的马尔可夫链,可再 分矩阵,采用E-M算法(Bilog3.0程序[9),收敛精度定为 重复上述4步五次(但第1步的初值最好有所变化,以保证5 0.001)和MCMC算法分别估计被试参数与项目参数。(4) 条链的相对独立),即生成五条马氏链,再取这五条链估出的最后将由两种算法的参数估出值与事先指定的参数真值进 参数值的均值为最终参数估计值。 行比较,若估计值与真值之间的差异越小说明该估计方法越 (6)收敛判断标准,以五条链所估出的参数的标准差(参 有效,反之越无效。反映差异的指标如下:平均绝对离差 数估计误差)为判断标准(若五条链所估出的参数一样,则其 (ABSE),ABSE=多IX-实N,x为参数真值,x为参数的估 标准差为0),本研究五条链所估参数的标准差均小于0.01, 计值,它反映了估计值与真值之间的绝对偏离程度,越小说 基本收敛。 明估计越准,也即该指标平均绝对离差(ABSE),能考察参数 理论上C,、CA、CB、dA,m的取值不待意固定,但根据 估计的返真性或精确性。 Patz和Junker的研究[4,s)表明,对于Logistic模型取C= 实验考察的因素有四个:题数、人数、模型(2PLM一 1.1,=1CA=0.3,C8=0.3,0=1/2,c=2对于所生存的马 3PLM)、估计方法(E-M、MCMC),具体设计如下: 尔可夫链相对比较合理。本研究采用Patz和Junker的研究 实验一:2PLM,人数变化,题目固定。两参数Logistic模 结果。对于区分度参数及猜测度参数的建议分布的选取,本 型下,固定项目数及其参数,考察人数的增加对项目参数估 文均采用具有对称性且抽样相对简单的正态分布,与Patz和 计精度的影响。题数固定为60题,人数分别为100、200、 Junker8的所采用的非对称的对数正态分布和B分布不同, 500、1000、2000、3000、4000人,且共用同批项目参数。 但在算法上却大大简化了Patz和Junker的算法。 实验二:2PLM,被试固定,题数变化。两参数Iogi5tic模 2.2实验设计 型下,固定被试数及其参数,考察题数的增加对被试参数估 为检验MCMC算法的可行性及估计的精确性,本研究 计精度的影响。人数固定为1000人,题数分别为10、30、50、 采用Monet Carlo模拟方法,考察其估计的精确性并与E-M,100、150、200题,且共用同批被试参数。 万方数据
178 心理科学 (2)假定项目参数已知.估计被试参数 ①对各被试(i_L.2,…,N)独立地从所选取的建议分布 (proposal distribution)中随机抽取一状态0j。理论上建议分 布可取任何形式.但为计算简便,一般取对称分布(如正态分 布、均匀分布等),也即q(0k一1’uk0)=q(0k,ok—1)。我们取被试 参数的建议分布为正态分布,它以上一次迭代的值为均数, 以一常数为方差,也即从q。~N(oi-。,暖)中随机抽取被试参 数的下一状态0i。(下类同) ②计算从状态ei叫至01转移概率“(0j~.0j)=rain f,,水、 {黼,1}(由于建议分布为对称的正态分布,故分子分母 I●~、v , 的建议分布约掉,其中丌(·)为参数的联合后验分布,它由所 有参数的先验分布及被试作答的似然函数所决定,也即所构 造马尔可夫链的极限分布或平稳分布(stationary distribution))。用此以决定状态是否进行转移。(下类同) 。(ok) 尊P(。!,衅~,Bk一·)xtQ(oj,对一,B;【~-)-一n、,ex。{一去(。k)2} 丌(0k-1)直P(。i~,衅-t,B;叫)~Q(。k~,衅-1,B;。1)卜1。exp{一寿(。?叫)2} ③生成随机数r~u[o,1],进行状态转移判断。 q~N(对~,c叠),啦j~N(B}~,岛),qc~N(时.。,暖) {酵,r≤a(Oik一,oj) 1 }。k~,r>a(旷1,。k) (3)假定被试参数已知,估计项目参数 ①对各项目参数(j_I,2,…,m)独立生成各自的下一状 态 ②计算从状态(肆~,衅~,ck’1)至(衅,B},畸)转移的 概率a(对一,衅~,畔~,衅,衅,C孛) =min {i裔圣艴,t}。用此以决定状态是否进行转移。 丌(衅,Bj,ck) :r—w,(q,对,衅)1uQ(衅,衅,B{【)卜xii 丌(衅_。,Bk-。,Ck_1)r『NP(。k,衅~,B;一-)x日Q(o?,衅_。,Bj一-)-一x# exp{一壶‘B})2} 寿eXp{一赤‘Log(衅”2} ,(畔)。一·(1一ck)“一t —eXp{_土2aB2(B}_1)2}一嘉exp卜去(Log(衅.1))2}‘‘C}【。1户。1n—C{【‘1户‘1 ③生存得分矩阵随机数r~u[o,1],进行状态转移判断。 ,小仁。rk、一I(衅,衅,ck),r≤a(对~,衅~,C}【-1),(对,Bk,ck)) “”uj“∥ i(衅~,Bk~,Ck—t),r>。(衅_。,磷、_-,C}【叫),(衅,B?,C{【)) (4)重复(2)、(3)步骤L次(L为链长,本文取L=5000, 算法作一比较。Monet Carlo模拟过程:(1)指定项目参数和 但对于其它较为复杂的模型如多维IRT等,链长最好在 被试参数的分布(0~B(0,1),log(A)~N(0,1),C~B(5, 10000以上),取最后w次(本文取W=3000)次迭代的平均 17)),并从相应的分布中生成参数真值。(2)根据参数真值, 值作为初步参数估计值。 采用模拟方法生存被试得分矩阵。(3)根据所生成的被试得 (5)上述4步生存了一条链长为L的马尔可夫链,可再 分矩阵,采用E—M算法(Bil093.0程序旧1,收敛精度定为 重复上述4步五次(但第1步的初值最好有所变化,以保证5 0.001)和MCMC算法分别估计被试参数与项目参数。(4) 条链的相对独立),即生成五条马氏链,再取这五条链估出的 最后将由两种算法的参数估出值与事先指定的参数真值进 参数值的均值为最终参数估计值。 行比较,若估计值与真值之间的差异越小说明该估计方法越 (6)收敛判断标准,以五条链所估出的参数的标准差(参 有效,反之越无效。反映差异的指标如下:平均绝对离差 数估计误差)为判断标准(若五条链所估出的参数一样,则其(ABSE),ABSE=奎J玛一文ll/i'4,玛为参数真值,Ri为参数的估 标准差为o),本研究五条链所估参数的标准差均小于o·01, 计值,它反映了宿辞值与真值之间的绝对偏离程度,越小说 垄平仪双。 明估计越准,也即该指标平均绝对离差(ABSE),能考察参数 理论上Co、吣CA、CB、O"A、oBNIRNaV特NNg,但根据 估计的返真性或精确性。 Patz和Junker的研究H’51表明,对于Logistic模型取C。2 实验考察的因素有四个:题数、人数、模型(2PLM一 1.1、0"0=1、CA=0.3、CB=0.3、叭=1/2,d=2对于所生存的马 3PLM)、估计方法(E—M、MCMC),具体设计如下: 尔可夫链相对比较合理。本研究采用Patz和Junker的研究 实验一:2PLM,人数变化,题目固定。两参数Logistic模 结果。xq=J=lg分度参数及猜测度参数的建议分布的选取,本 型下,固定项目数及其参数,考察人数的增加对项目参数估 文均采用具有对称性且抽样相对简单的正态分布,与Patz和 计精度的影响。题数固定为60题,人数分别为100、200、 JunkerI 8I的所采用的非对称的对数正态分布和B分布不同, 500、1000、2000、3000、4000人,且共用同批项目参数。 但在算法上却大大简化了Patz和Junker的算法。 实验二:2PLM,被试固定,题数变化。两参数Logistic模 2.2实验设计 型下,固定被试数及其参数,考察题数的增加对被试参数估 为检验MCMC算法的可行性及估计的精确性,本研究 计精度的影响。人数固定为1000人,题数分别为lO、30、50、 采用Monet Carlo模拟方法,考察其估计的精确性并与E—M 100、150、200题,且共用同批被试参数。 万方数据
涂冬波等:IRT模型参数估计的新方法一一MCMC算法 179 实验三至实验五:2PLM,人数题数均变化。两参数 2.3分析工具 Logistic模型下,考虑三种情况下的MCMC算法和E-M算 采用Biog3.0程序(E-M算法)、Visual Basic6.0语 法的估计精度。实验三,模拟200人,20题(人少题少)。实 言自编程序(MCMC算法)及SPSS10.0分析工具。 验四:模拟1000被试,60题(人、题适中)。实验五:3000人, 3研究结果 150题(人多题多)。实验三、四各重复10次,实验五因人多 题多,计算太耗时故只重复5次(下同),每个实验下每次共 3.1实验一、实验二研究结果 用同一批项目参数,但不共用同-一批被试参数。 表1、表2表明,不论是MCMC算法还是E一M算法,在 实验六至实验八:3PLM,人数题数均变化。叁参数 项目固定的情况下,随着被试数的增加,项目参数估计的精 Logistic模型下,同样考虑三种情况下的MCMC算法和E- 度均不断提高:同样,在被试固定的情况下,随着题数的增 M算法的估计精度。实验六,模拟200人,20题(人少题少)。加,被试参数估计的精度也不断提高。在项目反应理论框架 实验七:模拟1000被试,60题(人、题适中)。实验八:3000 下,题数的增加能提高对被试参数估计精度,而人数的增加 人,150题(人多题多)。实验六、七各重复10次,实验八重复 能提高对项目参数的估计精度,这独立于参数估计方法。表 5次,每个实验下每次共用同一批项目参数,但不共用同一批 1表2显示,当样本容量(被试/项目)越大,MCMC算法对参 被试参数。 数估计精度越高,这符合经典研究结果。 表1人数变化对项目参数估计精度的影响(60题) 参数 估计方法 100人 200人 500人 1000人 2000人 3000人 4000人 A值 Bilog 0.2541 0.1896 0.1773 0.0955 0.0862 0.0877 0.0805 MCMC 0.2247 0.1746 0.1604 0.0891 0.0826 0.0821 0.0755 B值 Bilog 0.2739 0.316 0.1384 0.1436 0.1041 0.1014 0.0885 MCMC 0.2198 0.3343 0.2163 0.1423 0.1235 0.0886 0.0799 表2题数变化对被试参数估计精度的影响(1000人) 10题 30题 50题 100题 150题 200题 Bilog 0.4405 0.3789 0.284 0.2618 0.2539 0.2145 MCMC 0.4399 0.3785 0.2795 0.2394 0.2264 0.1916 表1还显示,当项目固定,不论人数多大,MCMC算法对 3.3实验六至八结果(3PLM) 区分度参数的估计精度均优于Blog程序:但对于难度参数, 表4表明,参参数模型下,MCMC算法对于区分度、难度参 只有当被试容量足够大(3000以上)的情况下,MCMC算法 数的估计精度普遍优于lg程序:对于猜测参数和能力参数,当 的估计精度才明显优于Bog程序,其它条件下两者相当。 样本容量小时(实验六),E-M算法优于MCMC算法,当样本容 表2中,当被试固定,不论项目数多大,MCMC算法对被试参 量大时(实验七、实验八),MCMC算法优于E一M算法。 数的估计的精度均优于Bilog程序。 表4 参数估计值与真值的平均绝对离差的平均(3PLM) 3.2实验三至实验五结果(2PLM) 实验六 实验七 实验人 参数估计方法 表3参数估计值与真值的平均绝对离差的平均(2PLM) (200人20题)(1000人60题)(3000人150题) 实验三 实验四 实验五 A值 Bilog 0.2752 0.2087 0.1422 参数估计方法 MCMC 0.2691 0.1528 0.1020 (200人20题)(1000人60题)(3000人150题) B值 Bilog 0.3891 0.3233 0.2978 A值 Bilog 0.21266 0.0955 0.0705 MCMC 0.3525 0.2888 0.2358 MCMC 0.20016 0.0891 0.0654 C值 Bilog 0.0530 0.0600 0.0538 B值 Bilog 0.2676 0.1436 0.0899 MCMC 0.0541 0.0516 0.0442 MCMC 0.2398 0.1423 0.0887 值 Bilog 0.46995 0.357 0.2631 9值 Bilog 0.4024 0.2594 0.2453 MCMC 0.49923 0.35117 0.2357 MCMC 0.4165 0.2436 0.1850 总体看,两种算法的参参数估计精度不如两参数模型估 表3为MCMC算法和Bilog程序估计两参数Logistic模 计精度高;就两种算法比较而言,MCMC算法对叁参数模型 型(2PLM)的估计精度。总体来看,MCMC算法在2PLM的 参数的估计精度较Biog程序要高。 估计是可行的,估计的精度会随着样本容量(人数题数)的增 4结论 加而不断提高,这符合实际:且它估计的精度总体上较B©g 程序要好。实验三中两种算法对项目参数估计精度的差异 本研究考察了多种样本容量下的实验结果,同时考察了 最大,实验四其次、实验五最小,说明随著样本容量的增加, 固定被试或项目情况下,项目的增加或被试的增加对参数估 两种算法估计精度差异越小,及MCMC算法在样本容量较 计精度的彩响。实验结果表明,采用MCMC算法估计IRT 少的情况下仍表现出一定的估计精度。对于能力参数的估 模型的参数是可行的,参数估计的精度较高,总体来讲优于 计,实验五中两种算法的精度差异达到最大,随着样本容量 Bilog程序(E-M算法)。因此,可将MCMC方法推广到RT 的增加,MCMC算法对能力参数估计的精度有显著的提高, 模型的参数估计。同时,MCMC算法没有E-M算法复杂, 且提高较E一M算法敏感,但在样本容量少(实验三)的情况 且相对来讲比较容易实现。但MCMC算法由于在M-H- 下,MCMC的估计精度不如E-M算祛。 Gibbs抽样中的取舍过程耗费了较多时间且没有考忠对算法 万方数据
涂冬波等:IRT模型参数估计的新方法——MCMC算法 179 实验三至实验五:2PLM,人数题数均变化。两参数 Logistic模型下.考虑三种情况下的MCMC算法和E—M算 法的估计精度。实验三,模拟200人,20题(人少题少)。实 验四:模拟1000被试.60题(人、题适中)。实验五:3000人, 150题(人多题多)。实验三、四各重复10次,实验五因人多 题多,计算太耗时故只重复5次(下同),每个实验下每次共 用同一批项目参数,但不共用同-ttL.被试参数。 实验六至实验八:3PLM,人数题数均变化。叁参数 Logistic模型下.同样考虑三种情况下的MCMC算法和E— M算法的估计精度。实验六,模拟200人,20题(人少题少)。 实验七:模拟1000被试,60题(人、题适中)。实验八:3000 人,150题(人多题多)。实验六、七各重复10次,实验八重复 5次,每个实验下每次共用同一批项目参数,但不共用同一批 被试参数。 2.3分析工具 采用Bil093.0程序n4l(E—M算法)、Visual Basic 6.0语 言自编程序(MCMC算法)及SPSSl0.0分析工具。 3 研究结果 3.1实验一、实验二研究结果 表1、表2表明,不论是MCMC算法还是E~M算法,在 项目固定的情况下,随着被试数的增加,项目参数估计的精 度均不断提高;同样,在被试固定的情况下,随着题数的增 加,被试参数估计的精度也不断提高。在项目反应理论框架 下,题数的增加能提高对被试参数估计精度,而人数的增加 能提高对项目参数的估计精度,这独立于参数估计方法。表 1表2显示,当样本容量(被试/N,目)越大,MCMC算法对参 数估计精度越高,这符合经典研究结果。 表1 人数变化对项目参数估计精度的影响(60题) 表2题数变化对被试参数估计精度的影响(1000人) 表1还显示,当项目固定,不论人数多大,MCMC算法对 区分度参数的估计精度均优于Bilog程序;但对于难度参数, 只有当被试容量足够大(3000以上)的情况下,MCMC算法 的估计精度才明显优于Bilog程序,其它条件下两者相当。 表2中,当被试固定,不论项目数多大,MCMC算法对被试参 数的估计的精度均优于Bilog程序。 3.2实验三至实验五结果(2PLM) 表3参数估计值与真值的平均绝对离差的平均【2PLM) 表3为MCMC算法和Bilog程序估计两参数Logistic模 型(2PLM)的估计精度。总体来看,MCMC算法在2PLM的 估计是可行的,估计的精度会随着样本容量(人数题数)的增 加而不断提高,这符合实际;且它估计的精度总体上较Bilog 程序要好。实验三中两种算法对项目参数估计精度的差异 最大,实验四其次、实验五最小,说明随着样本容量的增加, 两种算法估计精度差异越小,及MCMC算法在样本容量较 少的情况下仍表现出一定的估计精度。对于能力参数的估 计,实验五中两种算法的精度差异达到最大,随着样本容量 的增加,MCMC算法对能力参数估计的精度有显著的提高, 且提高较E—M算法敏感,但在样本容量少(实验三)的情况 下,MCMC的估计精度不如E—M算法。 3.3实验六至八结果(3PLM) 表4表明,叁参数模型下,MCMC算法对于区分度、难度参 数的估计精度普遍优于Bil。g程序;对于猜测参数和能力参数,当 样本容量小时(实验六),E—M算法优于MCMC算法,当样本容 量大时(实验七、实验八),MCMC算法优于E—M算法。 表4参数估计值与真值的平均绝对离差的平均{3PLM) 总体看,两种算法的叁参数估计精度不如两参数模型估 计精度高;就两种算法比较而言,MCMC算法对叁参数模型 参数的估计精度较Bilog程序要高。 4结论 本研究考察了多种样本容量下的实验结果,同时考察了 固定被试或项目情况下,项目的增加或被试的增加对参数估 计精度的影响。实验结果表明,采用MCMC算法估计IRT 模型的参数是可行的,参数估计的精度较高,总体来讲优于 Bilog程序(E—M算法)。因此,可将MCMC方法推广到IRT 模型的参数估计。同时,MCMC算法没有E—M算法复杂, 且相对来讲比较容易实现。但MCMC算法由于在M—H— Gibbs抽样中的取舍过程耗费了较多时问且没有考虑对算法 万方数据
180 心理科学 编码的优化,因此MCMC算法耗时较多。对于1000个被试 Responses.Journal of Educational and Behaviorial Statistics.1999 60个项目的测验,若链长为5000,链数为1,MCMC算法的参 24(4):342-366 数估计则需化费1一2个小时。若链长更长,链数更多,则耗 6 Bradlow E T,Wainer H,Wang X.A Bayesian random effects 时更多,这是MCMC算法中一个值得注意的问题,也是 model for testlets.Psychometrika.1999,64:153-168 MCMC算法有待进一步研究的问题(如算法的优化等)。 7 Wainer H.Bradlow E T.,Du Z.Testlet response theory:An analog for the 3PL model useful in adaptive testing.In:Van der 前已述及,RT中有些模型的参数估计非常复杂,如多 维IRT,题组(testlet)相依IRT及高维的认知诊断模型(如 Linden WJ.Glas CA W.(Eds.).Computerized adaptive testing: Theory and practice.Boston,MA:Kluwer-Nijhoff,2001:245- Fusion model,High-order DINA model).,对于这些模型的参 270 数估计,E一M算祛难于实现,但可用MCMC算法来实现,能 8 Hatz S M.Rousson L.Stout W.Skills diagnosis:Theory and 更好地解决实际问题。这也是本研究正在研究的间题。 practice(Technical Report).Princeton.N:Educational Testing Service 5参考文献 9 Jimmy D T,Douglas J A.Higher-order latent trait models for 1王权编译.“马尔可夫链蒙特卡洛”(MCMC)方法在估计RT陕 cognitive diagnosis.Psychometrika,2004,69(3):333-353 型参数中的应用.考试研究,2006.(4):45-63 10 Jiang Yanlin.Estimating parameters for multidimensional item 2漆书青,现代测量理论在考试中的应用。华中师范大学出版社, response theory models by MCMC methods (unpublished doctoral 2003:233-268 dissertation).Michigan State University,2005 3 Albert J H.Bayesian estimation of normal ogive item response 11 Gentle J E.Elements of Computational Statistics.Science Press. curves using Gibbs sampling.Journal of Educational Statistics, 2006:39-66 1992,(17):251-269 12龚光鲁、钱敏平.应用随机过程教程.清华大学出版社,2003:191 4 Richard Patz J,Brian Junker W.A straightforward approech to Markov -202 Chain Monte Carlo Methods for Item Response Models,Joumal of 13茆诗松、王静龙、禳骁龙.高等数理统计.高等教育出版社,1998: Educational and Behaviorial Statistics,1999,24(2):146-178 444-459 5 Richard Patz J,Brian Junker W.Application and Extensions of 14 Mislevy R J.Bock R D.Bilog3 Item analysis and test scoring with MCMC in IRT:Multipe Item Types,Missing Data,and Rated binary Logistic Models 2nded.Scientific Sotfware Ine..1990 New Method of Parameter Estimation under the IRT Model-MCMC Algorithm Tu Dongbol,Qi Shuqing,Cai Yan2,Dai Haiqi,Ding Shuliang3 College of Education,Jiangxi Normal University,Nanchang,330027) (2 College of Mathemetic and Information Science,Jiangxi Normal University,Nanchang,330027) (College of Comprter Information Engineering,Jiangxi Normal University,Nanchang,330027) Abstract This paper demonstrates the MCMC method,which is now widely used in parameter estimation in the IRT model abroad and discusses its application in the parameter estimation of IRT models.M-H algorithm within Gibbs samplings to estimate the parameters of 2PLM and 3PLM under some conditions such as small,medium or large samples was wsed.To test the feasibility and veracity of the MCMC method,the Monte Carlo simulation method was used.The simulation researches show (1)the MCMC method can be used in the parameter estimation of 2PLM and 3PLM;(2)the MCMC method is better than E-M in the veracity of parameter estimation;(3)the MCMC method will take more time to estimate parameters;(4)the MCMC method can be used to estimate parameters of other IRT. Key words:MCMC,Logistic model,E-M algorithm (上接第165页) A Review of Developmental Research on Children of Parental Divorce Lin Xunyi,Sang Biao (Department of Psychology,East China Normal University,Shanghai,200062) Abstract This review presented literature on divorce.It involved the changes of theorical perspectives and methodology in the research on divorce.It also probed into the mechanism that produced developmental trajectories into factors that influenced the development of children with divorced parents as well as a transactional model examining the multiple trajectories of interacting risks and protective factors.Finally,suggestions on public policies in China which will promote the well-being of children of parental divorce were made. Key words:children with divoreed parents,developmental research,public policy 万方数据
180 心理科学 编码的优化,因此MCMC算法耗时较多。对于1000个被试 60个项目的测验,若链长为5000、链数为1,MCMC算法的参 数估计则需化费1—2个小时。若链长更长、链数更多.则耗 时更多,这是MCMC算法中一个值得注意的问题,也是 MCMC算法有待进一步研究的问题(如算法的优化等)。 前已述及,IRT中有些模型的参数估计非常复杂,如多 维IRT、题组(testlet)相依IRT及高维的认知诊断模型(如 Fusion model,High—order DINA model),对于这些模型的参 数估计,E—M算法难予实现,但可用MCMC算法来实现,能 更好地解决实际问题。这也是本研究正在研究的问题。 5 参考文献 4 5 王权编译.“马尔可夫链蒙特卡洛”(MCMC)方法在估计IRT模 型参数中的应用.考试研究,2006,(4):45—63 漆书青.现代测量理论在考试中的应用.华中师范大学出版社, 2003:233—268 Albert J H.Bayesian estimation of normal ogive item response curves using Gibbs sampling.Journal of Educational Statistics, 1992,(17):25l一269 Richard Patz J,Brian Junker W.A straightforward approach to Markov Chain Monte Carlo Methods for Item Response Models,Jourml of Educational and Behaviorial Statistics,1999,24(2):146—178 Riehard Patz J,Brian Junker W.Application and Extensions of MCMC in IRT:Multipe Item Types,Missing Data,and Rated Responses.Journal of Educational and Behavioria[Statistics,1999, 24(4):342 366 6 Bradlow E T.Wainer H.Wang X.A Bayesian random effects model for testlets.Psychometrika.1999.64:153—168 7 Wainer H.Bradlow E T.,Du Z.Testlet response theory:An analog for the 3PL model useful in adaptive testing In:Van der Linden W J,Glas C A W.(Eds.).Computerized adaptive testing: Theory and practice.Boston,MA:Kluwer—Nijhoff,2001:245— 270 8 Hatz S M,Rousson L,Stout W.Skills diagnosis:Theory and practice(Technical Report).Princeton,NJ:Educational Testing Serviee 9 Jimmy D T。Douglas J A.Higher—order latent trait models for cognitive diagnosis.Psyehometrika,2004,69(3):333—353 10 Jiang Yanlin.Estimating parameters for multidimensional item response theory models by MCMC methods(unpublished doctoral dissertation).Michigan State University,2005 11 Gentle J E.Elements of Computational Statistics.Science Press, 2006:39—66 12龚光鲁、钱敏乎.应用随机过程教程.清华大学出版社,2003:191 ~202 13茆诗松、王静龙、濮晓龙.高等数理统计.高等教育出版社,1998: 444—459 14 Mislevy R J,Boek R D.Bil093 Item analysis and test scoring with binary Logistic Models 2nded.Scientific Software Inc.,1990 New Method of Parameter Estimation under the IRT Model~MCMC Algorithm 乳Dongb01,Qi Shuqin91,Cai Yan2,Dai Haiqil,Ding Shulian93 (1 College of Education,Jiangxi Normal University,Nanchang,330027) (2 College of Mathemetie and Information Science,Jiangxi Normal University,Nanchang,330027) (3 CoUege of Comprter Information Engineering,Jiangxi Normal University,Nanehang,330027) Abstraet This paper demonstrates the MCMC method.which is now widely used in parameter estimation in the IRT model abroad and discusses its application in the parameter estimation of IRT models.M·H algorithm within Gibbs samplings to estimate the parameters of 2PLM and 3PLM under some conditions such as small.medium or large samples was wsed.To test the feasibility and veracity of the MCMC method,the Monte Carlo simulation method was used.The simulation researches show(1)the MCMC method can be used in the parameter estimation of 2PLM and 3PLM;(2)the MCMC method ia better than E—M in the veracity of parameter estimation;(3)the MCMC method will take more time to estimate parameters;(4)the MCMC method can be used to estimate parameters of other IRT. Key words:MCMC,Logistic model,E—M algorithm (上接第165页) A Review of Developmental Researeh oil Children of Parental Divoree Lin Xunyi,Sang Biao (Department of Psychology,East China Normal University,Shanghai,200062) Abstract This review presented literature on divorce.It involved the changes of theorical perspectives and methodology in the research on divorce.It also probed into the mechanism that produced developmental trajectories,into factors that influenced the development。of children with divorced parentS as well as a transactional modeI examining the multiple trajectories of interacting risks and protecti‘ve factors.Finally,suggestions on public policies in China which will promote the well-being of children of parental divorce were made. Key words:children with divorced parents,developmental research,public policy 万方数据