第26卷第6期 作物学报 Vol 26,Na 6 2000年11月 ACTA A GRONOM CA SN CCA Nov,2000 数量性状分离分析中分布参数估计的ECM算法 章元明盖钧镒 (南家农业大学大豆研究所。农业部田家大豆改良中心.江苏南家210093) 提要在主基因+多基因混合遗传分析中,随着模型的扩展,估计成分分布参数的M算法显示其 局限性。本文在ECM算法和剂分成分分布方差为主基因、多基因及环境三种方差组分基础上,推演出 S个QM步骤的一般选代公式,称为选代EM算法(简称正QM算法).文中给出利用个别分离世代鉴 定主基因和多基因存在,以及利用联合多个世代分离分析的ECM算法。用TuoC·语言编写了所 有计算程序。最后给出的实例说明E○M算法比M算法更易收敛 关键词ECM算法混合模型参数估计 The IECM Algorithm for Estmation of Component D istr ibution Parameters in Segregating Analysis of Quan titative Tra its ZHANG YuanM ing GA IJun-Yi (Sey bean Research Instinte.N anjung A griculmral University.N aional Center of Soybean improvenent.M iistry of 4 griculm尾,N anj ing,210095) Based on both the ECM algorithm and the plit of variances of componen mponent,po lygen n ntal the d m ponen edbonenand 21k d fur nher in the t of FM h g alg for abo give iste sfor singles egregaton popu ere w ritten nd the ed that the convergence by r tha BMaieortm is easier and better n that by using Key words Iterated ECM algorithm;M ixture model.Parameter estmation 数量性状分离分析是建立在混合分布理论基础上的,它将分离群体分布看作为多个主基 因型受多基因和环境修饰所形成的多个正态分布的混合分布八。因此,研究混合分布中成 分分布参数的估计方法十分重要。一般采用极大似然法估计其参数。自Dempster等(I977) 提出M算法后,有关算法的研究有较多报道。但是,在数量性状分离分析中常用 1994-2009 China Academic Joual Electronie Publishing House.All rights reserved http://ww.enkine
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第 26 卷 第 6 期 作 物 学 报 Vo l. 26, No. 6 2000 年 11 月 A CTA A GRONOM ICA S IN ICA Nov. , 2000 数量性状分离分析中分布参数估计的 IECM 算法 Ξ 章元明 盖钧镒 (南京农业大学大豆研究所, 农业部国家大豆改良中心, 江苏南京 210095) 提 要 在主基因+ 多基因混合遗传分析中, 随着模型的扩展, 估计成分分布参数的 EM 算法显示其 局限性。本文在ECM 算法和剖分成分分布方差为主基因、多基因及环境三种方差组分基础上, 推演出 S 个CM 步骤的一般迭代公式, 称为迭代 ECM 算法(简称 IECM 算法)。文中给出利用个别分离世代鉴 定主基因和多基因存在, 以及利用联合多个世代分离分析的 IECM 算法。用 Turbo C + + 语言编写了所 有计算程序。最后给出的实例说明 IECM 算法比 EM 算法更易收敛。 关键词 IECM 算法; 混合模型; 参数估计 The IECM A lgor ithm for Estimation of Com ponen t D istr ibution Param eters in Segregating Analysis of Quan titative Tra its ZHAN G Yuan2M ing GA I Jun2Yi (S oy bean R esea rch Institu te, N anj ing A g ricu ltu ra l U n iversity ; N a tiona l Cen ter of S oy bean Imp rovem en t, M in istry of A g ricu ltu re, N anj ing , 210095) Abstract Based on bo th the ECM algo rithm and the sp lit of variances of componen t distribu tion s of the m ix tu re model in to their m ajo r gene componen t, po lygene componen t and environm en tal componen t, the iterated ECM ( IECM ) algo rithm w as suggested to estim ate the distribu tion param eters in samp le likelihood function fo r m ajo r gene p lu s po lygene m ixed inheritance analysis in the rep lacem en t of EM algo rithm w h ich w as though t to be no t sufficien t w hen the genetic models getting comp licated. The general iterated fo rm u las in CM i step s of IECM algo rithm fo r estim ating the above distribu tion param eters w ere given to iden tify the ex istence of m ajo r genes and po lygenes fo r single segregation popu lation, and fo r jo in t analysis of m u lti2generation popu lation s. A ll compu ter p rogramm es w ere w ritten in Tu rbo C + + , and then comp iled and linked in to execu tive files. The resu lt from an examp le show ed that the convergence by u sing IECM algo rithm is easier and better than that by u sing EM algo rithm. Key words Iterated ECM algo rithm; M ix tu re model; Param eter estim ation 数量性状分离分析是建立在混合分布理论基础上的, 它将分离群体分布看作为多个主基 因型受多基因和环境修饰所形成的多个正态分布的混合分布[1~ 7 ]。因此, 研究混合分布中成 分分布参数的估计方法十分重要。一般采用极大似然法估计其参数。自D emp ster 等(1977) 提出 EM 算法后[8 ] , 有关算法的研究有较多报道[9~ 15 ]。但是, 在数量性状分离分析中常用 Ξ 国家 863 项目和重庆市科委应用基础研究项目 收稿日期: 1998211208, 接受日期: 1999202223
700 作物学报 26卷 DM算法估计分布参数八。这时,对样本似然函数求偏导常忽略成分分布方差中同时含有 一阶遗传参数和二阶分布参数的项使参数估计相对简化7。。在2对主+多基因混合遗 传模型中,这种项占大多数,将这些项都忽略显然会使参数估计不可靠。若采用EQM算法, 也因分离群体成分分布方差不全等使估计环境方差和多基因方差组分时会出现解高达十几次 方的高次方程的情况,若用Gauss N ew ton法解这些高次方程也因其解不唯一可能造成迭代 发散。本文根据数量遗传学原理,在将成分分布方差剖分为环境、多基因和主基因(由一阶遗 传参数表示)三种方差组分和EQM算法的基础上,推导出了QM,步骤中估计一阶分布参数 多基因方差和环境方差组分的选代公式,有效地避免了采用M和EQM算法的缺陷,避免 了解高次方程的解不唯一性,降低了参数估计的维数,缩短了计算时间,这称为迭代ECM (简称EQM)算法。它有效地解决2对主+多基因混合遗传分析的主基因存在和多基因存在 的鉴定和联合多个世代分离分析的分布参数的极大似然估计。 1主+多基因混合遗传模型 本文涉及的数量性状主+多基因混合遗传的数学模型和有关符号与文献[25]一致。若 T是分离群体家系数量性状平均数,则有一N(O,d),n为家系内观测植株数。 22对主基因时分离群体成分分布的方差组分 假定亲本主基因型分别为AABB(P)和aabb(P:),则F2和F2:3群体分别为AABB、 AAB b.AA bb.A aBB、A aB b.A abb、aaBB、aaBb和aabb9种主基因型及其衍生家系按孟德 尔分离比的混合,B1和B1:2群体分别为AABB、AABb.A aBB和AaBb4种主基因型及其衍 生家系等比例的混合,B:和B2:2群体分别为A aB b.A abb.aaB b和aabb4种主基因型及其衍 生家系等比例的混合。若主基因服从加性-显性-上位性模型,根据文献4,5]的假定,F2和 F2:群体都为9个正态分布的混合,B1、B、B1:2和B2:2群体都为4个正态分布的混合。 若数量性状受主基因控制同时有多基因的修饰,由数量遗传学原理可知B、B,和F,群 体的各自成分分布方差分别相等,可剖分为多基因和环境两种方差组分,分别记为和 B1:B2:2和F2:群体的各自成分分布方差不全等,多数可剖分为主基因(由一阶遗传参数表 示)、多基因和环境三种方差组分。记F2:群体9个成分分布的平均数与方差分别为山,和G (=1,…,k),多基因方差组分为底.误差方差为G。假定家系间附加的非遗传变异E。为 0.则F,:的家系平均数方差分别为: =店=G房==+G/n 防=a+G/h+【l/2(ds+)2+1/4(hs+j)2]/m d=+d/h+[1/2(d.+02+1/4(h。+ja)21/n =0+cd/n+【d后+di+2+(da+j)2+(ds+j)2+(ha+1/202(1) +(hs+1/202+1/4]/(4n) G=偏+G/n+[1/2(d。-)2+1/4(h.-j)2]/m 庆=a+c正/n+[/2(ds-)2+1/4(hs-j)2]/n B1:2和B2:群体成分分布方差的剖分公式参阅上述公式得到。关于1对主基因的情形可参阅 文献25, C 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://ww.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net EM 算法估计分布参数[1~ 7 ]。这时, 对样本似然函数求偏导常忽略成分分布方差中同时含有 一阶遗传参数和二阶分布参数的项使参数估计相对简化[2~ 7, 9, 10 ]。在 2 对主+ 多基因混合遗 传模型中, 这种项占大多数, 将这些项都忽略显然会使参数估计不可靠。若采用 ECM 算法, 也因分离群体成分分布方差不全等使估计环境方差和多基因方差组分时会出现解高达十几次 方的高次方程的情况, 若用 Gau ss2N ew ton 法解这些高次方程也因其解不唯一可能造成迭代 发散。本文根据数量遗传学原理, 在将成分分布方差剖分为环境、多基因和主基因(由一阶遗 传参数表示) 三种方差组分和 ECM 算法的基础上, 推导出了CM i 步骤中估计一阶分布参数、 多基因方差和环境方差组分的迭代公式, 有效地避免了采用 EM 和 ECM 算法的缺陷, 避免 了解高次方程的解不唯一性, 降低了参数估计的维数, 缩短了计算时间, 这称为迭代 ECM (简称 IECM ) 算法。它有效地解决 2 对主+ 多基因混合遗传分析的主基因存在和多基因存在 的鉴定和联合多个世代分离分析的分布参数的极大似然估计。 1 主+ 多基因混合遗传模型 本文涉及的数量性状主+ 多基因混合遗传的数学模型和有关符号与文献[ 2~ 5 ]一致。若 x 是分离群体家系数量性状平均数, 则有 e~N (0, Ρ 2 eön) , n 为家系内观测植株数。 2 2 对主基因时分离群体成分分布的方差组分 假 定亲本主基因型分别为A A B B (P1 ) 和 aabb (P2 ) , 则 F2 和 F2∶3群体分别为A A B B 、 A A B b、A A bb、A aB B 、A aB b、A abb、aaB B 、aaB b 和 aabb 9 种主基因型及其衍生家系按孟德 尔分离比的混合; B1 和B1∶2群体分别为A A B B 、A A B b、A aB B 和A aB b 4 种主基因型及其衍 生家系等比例的混合, B2 和B2∶2群体分别为A aB b、A abb、aaB b 和 aabb 4 种主基因型及其衍 生家系等比例的混合。若主基因服从加性2显性2上位性模型, 根据文献[ 4, 5 ]的假定, F2 和 F2∶3群体都为 9 个正态分布的混合, B1、B2、B1∶2和B2∶2群体都为 4 个正态分布的混合。 若数量性状受主基因控制同时有多基因的修饰, 由数量遗传学原理可知B1、B2 和 F2 群 体的各自成分分布方差分别相等, 可剖分为多基因和环境两种方差组分, 分别记为 Ρ 2 j0和 Ρ 2 e; B1∶2、B2∶2和 F2∶3群体的各自成分分布方差不全等, 多数可剖分为主基因(由一阶遗传参数表 示)、多基因和环境三种方差组分。记 F2∶3群体 9 个成分分布的平均数与方差分别为 Λj 和 Ρ 2 j (j = 1, …, k 3) , 多基因方差组分为 Ρ 2 t0, 误差方差为 Ρ 2 e。假定家系间附加的非遗传变异 E b 为 0, 则 F2∶3的家系平均数方差分别为: Ρ 2 1 = Ρ 2 3 = Ρ 2 7 = Ρ 2 9 = Ρ 2 t0 + Ρ 2 eön Ρ 2 2 = Ρ 2 t0 + Ρ 2 eön + [ 1ö2 (d b + i) 2 + 1ö4 (hb + j ab) 2 ]ön Ρ 2 4 = Ρ 2 t0 + Ρ 2 eön + [ 1ö2 (d a + i) 2 + 1ö4 (ha + j ba ) 2 ]ön Ρ 2 5 = Ρ 2 t0 + Ρ 2 eön + [d 2 a + d 2 b + i 2 + (d a + j ab) 2 + (d b + j ba ) 2 + (ha + 1ö2l) 2 + (hb + 1ö2l) 2 + 1ö4l 2 ]ö(4n) Ρ 2 6 = Ρ 2 t0 + Ρ 2 eön + [ 1ö2 (d a - i) 2 + 1ö4 (ha - j ba ) 2 ]ön Ρ 2 8 = Ρ 2 t0 + Ρ 2 eön + [ 1ö2 (d b - i) 2 + 1ö4 (hb - j ab) 2 ]ön (1) B1∶2和B2∶2群体成分分布方差的剖分公式参阅上述公式得到。关于 1 对主基因的情形可参阅 文献[ 2~ 5 ]。 700 作 物 学 报 26 卷
6期 章元明等:数量性状分离分析中分布参数估计的ECM算法 701 3鉴定数量性状主+多基因混合遗传模型的EQM算法 31ECM算法 ECM算法是BM算法的拓展,分为E步骤和QM步骤两步。E步骤与DM算法的E步 骤是一致的,见文献[7],这里从略。第1次迭代的QM步骤是分S步进行Q(”)的极大 化。G={g,(0;s=1,“,S;是参数估计前选择的S个日的函数,这里g1(0是似然函数中除 分布平均数外的参数,g:(日是除多基因方差组分外的参数,8:(日是除环境方差组分外的参 数。若多基因方差组分不存在则S=2,否则S=3。在第什1次迭代中,首先进行E步骤,然 后进行S个QM步骤。对于=1,S,在g,(Θ=g,(日“)和日参数空间极大化Q(阳1 日)以获得日的条件极大似然估计值日”,或者说,EQM算法第1次迭代的第,个QM步 骤是获得日*6)使 0(θ)I旧)≥Q(8旧6∈⊙ 0 完全资料似然函数的条件期望Q(日旧)的极大值点由下列公式确定 trD=∑w"n (3) L(yl旧-∑xn(ua=-0(s=1,…,s) 其中,wP是第:次迭代后第1个观测值归入第」个成分分布的后验概率,(口)是分布平均数 间的第m个约束条件,k是约束条件个数,:是样本容量。取日”=日5),以此进行下 轮循环 32数量性状主+多基因混合遗传分析的ECM算法 数量性状主+多基因混合遗传分析的EQM算法由E步骤和23个CM步骤组成。其 E步骤与EQM算法的E步骤是一致的。QM:步骤是在固定多基因方差组分(=4,5,6) 和环境方差的条件下用迭代方法求分布平均数的条件极大似然估计:QM:是在固定环境方差 和QM:步骤中获得的分布平均数的条件下用迭代公式求多基因方差组分的条件极大似然估 计,QM3步骤是在固定QM,和CM,中获得的分布平均数和多基因方差组分条件下用迭代公 式求环境方差的条件极大似然估计。若涉及家系世代,QM:步骤中分布平均数条件极大似然 估计可按下列步骤进行:①若分布平均数间有约束条件,由约束条件和平均数公式得到的联 立方程组求Lagrange乘数X②由分布平均数公式求其估计值:③由分布平均数估计值得 到一阶遗传参数估计值及其表示的主基因方差组分,从而改变了家系群体成分分布方差④ 重复①③步骤直到平均数变化满足预定的精度为止。 为节省篇幅,本文的EQM算法均略去E步骤和估计分布平均数的QM,步骤,其符号 和样本似然函数参见文献[25],这里只列出多基因和误差两种方差的迭代公式。 33利用个别分离世代分离分析的ECM算法 331鉴定主基因存在ECM算法的迭代公式 F2或F,:世代鉴定主基因存在的样本以 然函数的形式参见文献[2,3。只是这里的成分分布是按前述的主基因型来确定的。记x、 和k分别是F2或F2:群体的第个观测值或家系平均数、样本容量和成分分布个数。QM:是 在固定成分分布平均数条件下求的条件极大似然估计,其迭代公式为: 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 3 鉴定数量性状主+ 多基因混合遗传模型的 IECM 算法 3. 1 ECM 算法[12 ] ECM 算法是 EM 算法的拓展, 分为 E 步骤和 CM 步骤两步。E 步骤与 EM 算法的 E 步 骤是一致的, 见文献[ 7 ], 这里从略。第 t 次迭代的 CM 步骤是分 S 步进行Q (ΗûΗ (t) ) 的极大 化。G= {g s (Η); s= 1, …, S }是参数估计前选择的S 个 Η的函数, 这里 g 1 (Η) 是似然函数中除 分布平均数外的参数, g 2 (Η) 是除多基因方差组分外的参数, g 3 (Η) 是除环境方差组分外的参 数。若多基因方差组分不存在则S = 2, 否则S = 3。在第 t+ 1 次迭代中, 首先进行 E 步骤, 然 后进行S 个CM 步骤。对于 s= 1, …, S , 在 g s (Η) = g s (Η {t+ (s- 1)öS } ) 和 Η参数空间极大化Q (Ηû Η (t) ) 以获得 Η的条件极大似然估计值 Η (t+ söS ) , 或者说, ECM 算法第 t 次迭代的第 s 个 CM 步 骤是获得 Η (t+ söS )使 Q (Η (t+ söS ) ûΗ (t) ) ≥Q (ΗûΗ (t) ) Η∈ ( (2) 完全资料似然函数的条件期望Q (ΗûΗ (t) ) 的极大值点由下列公式确定: Π (t+ 1) j = ∑ n 1 i= 1 w (t) j i ön1 (3) L (Y ûΗ) - ∑ k m = 1 Κm rm (Λ) öΗs = 0 (s = 1, …, S ) (4) 其中, w (t) j i 是第 t 次迭代后第 i 个观测值归入第 j 个成分分布的后验概率, rm (Λ) 是分布平均数 间的第m 个约束条件, k 是约束条件个数, n1 是样本容量。取 Η (t+ 1) = Η (t+ S öS ) , 以此进行下一 轮循环。 3. 2 数量性状主+ 多基因混合遗传分析的 IECM 算法 数量性状主+ 多基因混合遗传分析的 IECM 算法由 E 步骤和 2~ 3 个CM 步骤组成。其 E 步骤与 ECM 算法的 E 步骤是一致的。CM 1 步骤是在固定多基因方差组分 Ρ 2 j0 (j = 4, 5, 6) 和环境方差的条件下用迭代方法求分布平均数的条件极大似然估计; CM 2 是在固定环境方差 和 CM 1 步骤中获得的分布平均数的条件下用迭代公式求多基因方差组分的条件极大似然估 计; CM 3 步骤是在固定CM 1 和 CM 2 中获得的分布平均数和多基因方差组分条件下用迭代公 式求环境方差的条件极大似然估计。若涉及家系世代, CM 1 步骤中分布平均数条件极大似然 估计可按下列步骤进行: ① 若分布平均数间有约束条件, 由约束条件和平均数公式得到的联 立方程组求L agrange 乘数 Κi; ② 由分布平均数公式求其估计值; ③ 由分布平均数估计值得 到一阶遗传参数估计值及其表示的主基因方差组分, 从而改变了家系群体成分分布方差; ④ 重复①~ ③步骤直到平均数变化满足预定的精度为止。 为节省篇幅, 本文的 IECM 算法均略去 E 步骤和估计分布平均数的CM 1 步骤, 其符号 和样本似然函数参见文献[ 2~ 5 ], 这里只列出多基因和误差两种方差的迭代公式。 3. 3 利用个别分离世代分离分析的 IECM 算法 3. 3. 1 鉴定主基因存在 IECM 算法的迭代公式 F2 或 F2∶3世代鉴定主基因存在的样本似 然函数的形式参见文献[ 2, 3 ]。只是这里的成分分布是按前述的主基因型来确定的。记x i、n1 和 k 分别是 F2 或 F2∶3群体的第 i 个观测值或家系平均数、样本容量和成分分布个数。CM 2 是 在固定成分分布平均数条件下求 Ρ 2 1 的条件极大似然估计, 其迭代公式为: 6 期 章元明等: 数量性状分离分析中分布参数估计的 IECM 算法 701
702 作物学报 26卷 (5) 其中,F2:3群体有v,=/GF:群体有v,=1。 B,和B,或B1:2和B:,世代鉴定主基因存在的样本似然函数为 242 fYl旧=Em/xk,)fx站a,) (6) 其中,x和xn1和、k1和ka、而,和和店分别是B:和B:或B1:2和B:群体的第 个观测值或家系平均数、样本容量、成分分布个数、第)个成分分布的后验概率与方差。QM: 步骤是在固定成分分布平均数条件下求和,的条件极大似然估计,其迭代公式分别为: (7a) (7b 其中,B1:和B:2群体有vy=/,v2y=,/;B,和B:群体有vy=v2y=10。这里的成 分分布也是按主基因型来确定的。将两回交群体合并分析是为了拓展两对主+多基因混合遗 传模型。 332鉴定多基因存在的EQM算法 从文献[2]可知,在个别分离世代基础上增加P、 F,和P2三个同质群体估计环境方差以鉴定多基因存在。利用亲本、F,和F,或F2:3鉴定多基 因存在的符号和样本似然函数等参见文献[2]。在构造H。时,多基因不存在包括多基因效应 平均数和多基因方差均为0两个方面。由在H。和H.下的最大对数似然函数值L。和L。构造 的似然比统计量仁2(nL。nLo~xr可鉴定多基因是否存在,其自由度d矿为两种假设下 相差的遗传参数个数。QMz步是在固定误差方差d和分布平均数,求H,条件下F?或F2:群 体成分分布方差中的多基因方差组分的条件极大似然估计,其迭代公式为: 偏=∑明∑wnx∑∑wmA (8) 其中,F:群体有A=d和v,=1C,F2:群体有A=dn和v,=/低。在Ho条件下,d不存 在,即无这一步骤。CM,步是在固定F,或F:群体成分分布平均数和方差中的多基因方差 组分,求误差方差d的条件极大似然估计,其迭代公式为: 正=[x产+4x月几n+】(9) 其中,F2:群体有v,=(dn)/园和A=n,F2群体有y=G/,和A=10 若利用亲本、F、B1和B:(或B1:2和B2:2)鉴定多基因存在,xm和n,(=1,2,3)的含义同 上,记x4和x刻,以及4和m5分别为B1和B:或B1:2和B:2群体的观测值或家系平均数和样 本容量,则B1和B:或B1:2和B2:群体分别是k1个N(,)和k:个N(μ,)的混合。由 此,样本似然函数为 fVl旧=ΠV6h,G)Π/xs,)Π/x6,) (10) 1994-2009 China Academie Joural Electronie Publishing House.All rights reserved hup://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net Ρ 2 1 = ∑ k j= 1 v 2 j∑ n 1 i= 1 w j i (x i - Λj) 2 ∑ k j= 1 v j∑ n 1 i= 1 w j i (5) 其中, F2∶3群体有 v j= Ρ 2 1öΡ 2 j , F2 群体有 v j= 1。 B1 和B2 或B1∶2和B2∶2世代鉴定主基因存在的样本似然函数为: f (Y ûΗ) = ∑ n 1 i= 1 ∑ k 1 j= 1 Π1j f (x 1i; Λ1j , Ρ 2 1j)∑ n 2 i= 1 ∑ k 2 j= 1 Π2j f (x 2i; Λ2j , Ρ 2 2j) (6) 其中, x 1i和 x 2i、n1 和 n2、k 1 和 k 2、Π1j和 Π2j、Ρ 2 1j和 Ρ 2 2j分别是B1 和B2 或B1∶2和B2∶2群体的第 i 个观测值或家系平均数、样本容量、成分分布个数、第 j 个成分分布的后验概率与方差。CM 2 步骤是在固定成分分布平均数条件下求 Ρ 2 11和 Ρ 2 2k 2的条件极大似然估计, 其迭代公式分别为: Ρ 2 11 = ∑ k 1 j= 1 v 2 1j∑ n 1 i= 1 w 1j i (x 1i - Λ1j) 2 ∑ k 1 j= 1 v 1j∑ n 1 i= 1 w 1j i (7a) Ρ 2 2k 2 = ∑ k 2 j= 1 v 2 2j∑ n 2 i= 1 w 2j i (x 2i - Λ2j) 2 ∑ k 2 j= 1 v 2j∑ n 2 i= 1 w 2j i (7b) 其中, B1∶2和B2∶2群体有 v 1j= Ρ 2 11öΡ 2 1j , v 2j= Ρ 2 2k 2öΡ 2 2j; B1 和B2 群体有 v 1j= v 2j= 1. 0 。这里的成 分分布也是按主基因型来确定的。将两回交群体合并分析是为了拓展两对主+ 多基因混合遗 传模型。 3. 3. 2 鉴定多基因存在的 IECM 算法 从文献[ 2 ]可知, 在个别分离世代基础上增加 P1、 F1 和 P2 三个同质群体估计环境方差以鉴定多基因存在。利用亲本、F1 和 F2 或 F2∶3鉴定多基 因存在的符号和样本似然函数等参见文献[ 2 ]。在构造H 0 时, 多基因不存在包括多基因效应 平均数和多基因方差均为 0 两个方面。由在H 0 和H a 下的最大对数似然函数值L 0 和L a 构造 的似然比统计量 Κ= 2 (ln L a - ln L 0)~ x 2 df 可鉴定多基因是否存在, 其自由度 df 为两种假设下 相差的遗传参数个数。CM 2 步是在固定误差方差 Ρ 2 e 和分布平均数, 求H a 条件下 F2 或 F2∶3群 体成分分布方差中的多基因方差组分 Ρ 2 40的条件极大似然估计, 其迭代公式为: Ρ 2 40 = ∑ k j= 1 v 2 j∑ n 4 i= 1 w j i (x 4i - Λ4j) 2 ∑ k j= 1 v j∑ n 4 i= 1 w j i - A (8) 其中, F2 群体有A = Ρ 2 e 和 v j= 1. 0; F2∶3群体有A = Ρ 2 eön 和 v j= Ρ 2 41öΡ 2 4j。在H 0 条件下, Ρ 2 40不存 在, 即无这一步骤。CM 3 步是在固定 F2 或 F2∶3群体成分分布平均数和方差中的多基因方差 组分 Ρ 2 40, 求误差方差 Ρ 2 e 的条件极大似然估计, 其迭代公式为: Ρ 2 e = ∑ 3 j= 1∑ n j i= 1 (x j i - Λj) 2 + A ∑ k j= 1 v 2 j∑ n 4 i= 1 w j i (x 4i - Λ4j) 2 ∑ 3 i= 1 ni + ∑ k j= 1 v j∑ n 4 i= 1 w j i (9) 其中, F2∶3群体有 v j= (Ρ 2 eön)öΡ 2 4j和A = n, F2 群体有 v j= Ρ 2 eöΡ 2 4j和A = 1. 0。 若利用亲本、F1、B1 和B2 (或B1∶2和B2∶2) 鉴定多基因存在, x ti和 nt (t= 1, 2, 3) 的含义同 上, 记 x 4i和 x 5i, 以及 n4 和 n5 分别为B1 和B2 或B1∶2和B2∶2群体的观测值或家系平均数和样 本容量, 则B1 和B2 或B1∶2和B2∶2群体分别是 k 1 个N (Λ4j , Ρ 2 4j) 和 k 2 个N (Λ5j , Ρ 2 5j) 的混合。由 此, 样本似然函数为: f (Y ûΗ) = ∏ n 1 i= 1 f (x 1i; Λ1, Ρ 2 e )∏ n 2 i= 1 f (x 2i; Λ2, Ρ 2 e )∏ n 3 i= 1 f (x 3i; Λ3, Ρ 2 e ) ∏ n 4 i= 1∑ k 1 j= 1 Π4j f (x 4i; Λ4j , Ρ 2 4j)∏ n 5 i= 1∑ k 5 j= 1 Π5j f (x 5i; Λ5j , Ρ 2 5j) (10) 702 作 物 学 报 26 卷
6期 章元明等:数量性状分离分析中分布参数估计的正CM算法 703 H、H,和似然比统计量入可仿上述内容来构造。QM,步是在固定环境方差G和分布平均数 求H。条件下B1和B:或B:2和B:2群体成分分布方差中的多基因方差组分和的条件极 大似然估计,其迭代公式为 do=2”(h)wwr4m=4,)(I 其中,B:和B:群体有A=d和y=g=1CB1:和B:群体有A=Gh,vy=/属,= ,/侯。在H。条件下,无这一步骤。QM3步是在固定B1和B2或B1:,和B:2群体成分分布方 差中的多基因方差组分(dG和)和分布平均数的条件下,求误差方差G的条件极大似然估 计,其迭代公式为 G=[xm+A”nxau月 (12) 其中,B:和B:群体有vv=【dh]/低,=[da]/偏,和A=m,B:和B:群体有v=d/ iv2=d/G,和A=10。 34利用联合多个世代群体分离分析的ECM算法 PF、PB、B:和F,6世代分离分析。其符号、基本假定和似然函数参见文献[5]。 QM2步是在固定环境方差G和分布平均数,求B1,B2和F2群体成分分布方差的多基因方差 组分(d、和)的条件极大似然估计,其迭代公式为: w·3 Go=SSm/na 0 SS= 之∑wG-h)2 (m=4,5,6)(13) QM,步是在固定多基因方差组分(d、和)和分布平均数,求误差方差G的条件极大似 然估计,其迭代公式为: (14) 其中,v=G/(d+d),=4,5,6。 P、F、P、F:和F2:35世代分离分析。其符号、基本假定和似然函数参见文献[4]。 QM:步骤是固定环境方差d和分布平均数,求F,和F2:,群体成分分布方差中的多基因方差 组分(和)的条件极大似然估计,其迭代公式分别为 14 a=SSm-正ss=rxw月 (15a) (15b) 其中,=/店,=L,…,k2。QM,步是在固定多基因方差组分(和)和分布平均数的 条件下,求环境方差正的条件极大似然估计,其迭代公式为 d-[c。…2+iss4+ns月 兀∑n:+v+rr别 (16) 1994-2009 China Academic Journal Electronc Publishing House.All rights reserved.http:/ww.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net H 0、H a 和似然比统计量 Κ可仿上述内容来构造。CM 2 步是在固定环境方差 Ρ 2 e 和分布平均数, 求H a 条件下B1 和B2 或B1∶2和B2∶2群体成分分布方差中的多基因方差组分 Ρ 2 40和 Ρ 2 50的条件极 大似然估计, 其迭代公式为: Ρ 2 m 0 = ∑ km - 3 j= 1 v 2 m - 3, j∑ nm i= 1 w m j i (x m i - Λm j) 2 ∑ km - 3 j= 1 vm - 3, j∑ n 4 i= 1 w m j i - A (m = 4, 5) (11) 其中, B1 和B2 群体有A = Ρ 2 e 和 v 1j= v 2j= 1. 0; B1∶2和B2∶2群体有A = Ρ 2 eön, v 1j= Ρ 2 41öΡ 2 4j , v 2j= Ρ 2 5k 2öΡ 2 5j。在H 0 条件下, 无这一步骤。CM 3 步是在固定B1 和B2 或B1∶2和B2∶2群体成分分布方 差中的多基因方差组分(Ρ 2 40和 Ρ 2 50) 和分布平均数的条件下, 求误差方差 Ρ 2 e 的条件极大似然估 计, 其迭代公式为: Ρ 2 e = ∑ 3 j= 1∑ n j i= 1 (x j i - Λj) 2 + A ∑ 5 t= 4 ∑ k t- 3 j= 1 v 2 t- 3, j∑ n t i= 1 w tj i (x ti - Λtj) 2 ∑ 3 i= 1 ni + ∑ 5 t= 4 ∑ k t- 3 j= 1 v t- 3, j∑ n t i= 1 w tj i (12) 其中, B1∶2和B2∶2群体有 v 1j = [ Ρ 2 eön ]öΡ 2 4j , v 2j = [ Ρ 2 eön ]öΡ 2 5j和A = n; B1 和B2 群体有 v 1j = Ρ 2 eö Ρ 2 4j、v 2j= Ρ 2 eöΡ 2 5j和A = 1. 0。 3. 4 利用联合多个世代群体分离分析的 IECM 算法 P1、F1、P2、B1、B2 和 F2 6 世代分离分析。其符号、基本假定和似然函数参见文献[ 5 ]。 CM 2 步是在固定环境方差 Ρ 2 e 和分布平均数, 求B1, B2 和 F2 群体成分分布方差的多基因方差 组分(Ρ 2 40、Ρ 2 50和 Ρ 2 60) 的条件极大似然估计, 其迭代公式为: Ρ 2 m 0 = S S mönm - Ρ 2 e S S m = ∑ km - 3 j= 1∑ nm i= 1 w m j i (x m i - Λm j) 2 (m = 4, 5, 6) (13) CM 3 步是在固定多基因方差组分(Ρ 2 40、Ρ 2 50和 Ρ 2 60) 和分布平均数, 求误差方差 Ρ 2 e 的条件极大似 然估计, 其迭代公式为: Ρ 2 e = ∑ 3 t= 1 ∑ n t i= 1 (x ti - Λt) 2 + ∑ 6 t= 4 v 2 tS S t ∑ 3 t= 1 nt + ∑ 6 t= 4 v tnt (14) 其中, v t= Ρ 2 eö(Ρ 2 t0+ Ρ 2 e ) , t= 4, 5, 6。 P1、F1、P2、F2 和 F2∶3 5 世代分离分析。其符号、基本假定和似然函数参见文献[ 4 ]。 CM 2 步骤是固定环境方差 Ρ 2 e 和分布平均数, 求 F2 和 F2∶3群体成分分布方差中的多基因方差 组分(Ρ 2 40和 Ρ 2 50) 的条件极大似然估计, 其迭代公式分别为: Ρ 2 40 = S S 4ön4 - Ρ 2 e S S 4 = ∑ k 1 j= 1∑ n 4 i= 1 w 4j i (x 4i - Λ4j) 2 (15a) Ρ 2 50 = ∑ k 2 j= 1 v 2 j∑ n 5 i= 1 w 5j i (x 5i - Λ5j) 2 ∑ k 2 j= 1 v j∑ n 5 i= 1 w 5j i - Ρ 2 eön (15b) 其中, v j= Ρ 2 51öΡ 2 5j , j= 1, …, k 2。CM 3 步是在固定多基因方差组分(Ρ 2 40和 Ρ 2 50 ) 和分布平均数的 条件下, 求环境方差 Ρ 2 e 的条件极大似然估计, 其迭代公式为: Ρ 2 e = ∑ 3 t= 1 ∑ n t i= 1 (x ti - Λt) 2 + v 2 4S S 4 + n∑ k 2 j= 1 v 2 5j∑ n 5 i= 1 w 5j i (x 5i - Λ5j) 2 ∑ 3 t= 1 nt + v 4n4 + ∑ k 2 j= 1 v 5j∑ n 5 i= 1 w 5j i (16) 6 期 章元明等: 数量性状分离分析中分布参数估计的 IECM 算法 703
704 作物学报 26卷 其中,v4=G/Gi,v=【dn]/,ss,见(15a)式。 PP、F、B1:B:2和F2:36个家系世代分离分析。关于亲本和F、B1:2和B2:2群体的 符号与§332一致亲本和F1数量性状平均数xN(,G/m),=L,2,3。记xnm6和 k:分别是F2:群体的第i个家系平均数、样本容量和成分分布数。由S1和§2可知,B1:、 B:2和F2:群体分别为k1个N(μ,、k2个N(H,)和k3个N(H,)的混合,则样本 似然函数为 fyl旧=Vxs,G加ΠVxe,G加ΠVx6s,c加)r 时w,国)开x,)T/s,国) (17) QM:步是在固定环境方差G和分布平均数条件下,求B1:2、B2:2和F2:群体成分分布方差中 的多基因方差组分(、和)的条件极大似然估计,其迭代公式为: 。=∑,wn-∑a∑wan-/n 0m=4.5.6)(18) 其中,vy=d/,v=,/店,v6=d店/店。CM,步是在固定多基因方差组分(do、d和) 和分布平均数的条件下,求环境方差G条件极大似然估计,其迭代公式为 d[g+公云公w月[公+2】u 其中,v=[G/m1/G,=45,6。 以上方法看起来繁杂,但使用计算机也仅一举手之劳。本文作者应用Turbo C·语言编 制了以上各种情况的全套EQM算法软件F:EXE(利用F:鉴定主基因的存在)和F:P.EXE (利用亲本F,和F,鉴定多基因的存在)、F:EXE(利用F2:3鉴定主基因的存在)和FP.EXE (利用亲本、F1和F2:鉴定多基因的存在)、BEXE(利用B,和B2鉴定主基因的存在)和BP EXE(利用亲本,F、B:和B:鉴定多基因的存在)、FB.EXE(利用B1:和B2:,鉴定主基因的 存在)和FBP.EXE(利用亲本、F、B1:2和B2:2鉴定多基因的存在)、SN.EXE(利用亲本、 F小B、B2和F,的联合分析)、M EXE(利用亲本、F、F?和F2:3的联合分析)和FAMI EXE(利用亲本和F1、B1:B2:2和F:的联合分析)。欢迎读者来函联系。 4应用实例 本文以南京农业大学朱立宏教授提供的南京6号×广丛杂交组合6个基本世代P、P: F、B1、B:和F2)株高资料为例来说明EQM算法。用M和ECM算法进行分布参数估计 的结果见表1。从表1可知:EQM算法的结果比M算法的结果好,更容易收敛,极大似然 函数值更大。由此可通过AC准则进行模型选择和用适合性检验进行模型检验(另文报道)。 5讨论 本文迭代公式中分离群体成分分布数是一般的,主要是为满足A、B、C、D和E类共24 种遗传模型的缘故。在多世代联合分离分析的A和B两类模型中,没有多基因方差组分的估 计,即M步骤只分两步进行。吃今为止.利用个别分离世代鉴定主基因存在一般是先确定 成分分布数目然后鉴定主基因是否存在。确定成分分布数的方法可分为图形方法和统计检验 C 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.ne
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 其中, v 4= Ρ 2 eöΡ 2 41, v 5j= [Ρ 2 eön ]öΡ 2 5j , S S 4 见(15a) 式。 P1、P2、F1、B1∶2、B2∶2和 F2∶3 6 个家系世代分离分析。关于亲本和F1、B1∶2和B2∶2群体的 符号与§3. 3. 2 一致, 亲本和 F1 数量性状平均数 x t~i N (Λt, Ρeön) , t= 1, 2, 3。记 x 6i、n6 和 k 3 分别是 F2∶3群体的第 i 个家系平均数、样本容量和成分分布数。由§1 和§2 可知, B1∶2、 B2∶2和 F2∶3群体分别为 k 1 个N (Λ4j , Ρ 2 4j)、k 2 个N (Λ5j , Ρ 2 5j) 和 k 3 个N (Λ6j , Ρ 2 6j) 的混合, 则样本 似然函数为: f (Y ûΗ) = ∏ n 1 i= 1 f (x 1i; Λ1, Ρ 2 eön)∏ n 2 i= 1 f (x 2i; Λ2, Ρ 2 eön)∏ n 3 i= 1 f (x 3i; Λ3, Ρ 2 eön) õ ∏ n 4 i= 1 ∑ k 1 j= 1 Π4j f (x 4i; Λ4j , Ρ 2 4j) ∏ n 5 i= 1 ∑ k 2 j= 1 Π5j f (x 5i; Λ5j , Ρ 2 5j)∏ n 6 i= 1 ∑ k 3 j= 1 Π6j f (x 6i; Λ6j , Ρ 2 6j) (17) CM 2 步是在固定环境方差 Ρ 2 e 和分布平均数条件下, 求B1∶2、B2∶2和 F2∶3群体成分分布方差中 的多基因方差组分(Ρ 2 40、Ρ 2 50和 Ρ 2 60) 的条件极大似然估计, 其迭代公式为: Ρ 2 m 0 = ∑ km - 3 j= 1 v 2 m j∑ nm i= 1 w m j i (x m i - Λm j) 2 ∑ km - 3 j= 1 vm j∑ nm i= 1 w m j i - Ρ 2 eön (m = 4, 5, 6) (18) 其中, v 4j= Ρ 2 41öΡ 2 4j , v 5j= Ρ 2 5k 2öΡ 2 5j , v 6j= Ρ 2 61öΡ 2 6j。CM 3 步是在固定多基因方差组分(Ρ 2 40、Ρ 2 50和 Ρ 2 60) 和分布平均数的条件下, 求环境方差 Ρ 2 e 条件极大似然估计, 其迭代公式为: Ρ 2 e = ∑ 3 t= 1 ∑ n t i= 1 (x ti - Λt) 2 + ∑ 6 t= 4 ∑ k t- 3 j= 1 v 2 tj∑ n t i= 1 w tj i (x ti - Λtj) 2 ∑ 3 t= 1 nt + ∑ 6 t= 4 ∑ k t- 3 j= 1 v 2 tj∑ n t i= 1 w tj i (19) 其中, v tj= [Ρ 2 eön ]öΡ 2 tj , t= 4, 5, 6。 以上方法看起来繁杂, 但使用计算机也仅一举手之劳。本文作者应用 Tu rbo C + + 语言编 制了以上各种情况的全套 IECM 算法软件 F2. EXE (利用 F2 鉴定主基因的存在) 和 F2P. EXE (利用亲本、F1 和 F2 鉴定多基因的存在)、F3. EXE (利用 F2∶3鉴定主基因的存在) 和 F3P. EXE (利用亲本、F1 和 F2∶3鉴定多基因的存在)、B. EXE (利用B1 和B2 鉴定主基因的存在) 和BP. EXE (利用亲本、F1、B1 和B2 鉴定多基因的存在)、FB. EXE (利用B1∶2和B2∶2鉴定主基因的 存在) 和 FBP. EXE (利用亲本、F1、B1∶2和B2∶2鉴定多基因的存在)、SIN. EXE (利用亲本、 F1、B1、B2 和 F2 的联合分析)、M IX. EXE (利用亲本、F1、F2 和 F2∶3的联合分析) 和 FAM I. EXE (利用亲本和 F1、B1∶2、B2∶2和 F2∶3的联合分析)。欢迎读者来函联系。 4 应用实例 本文以南京农业大学朱立宏教授提供的南京 6 号×广丛杂交组合 6 个基本世代(P1、P2、 F1、B1、B2 和 F2) 株高资料为例来说明 IECM 算法。用 EM 和 IECM 算法进行分布参数估计 的结果见表 1。从表 1 可知: IECM 算法的结果比 EM 算法的结果好, 更容易收敛, 极大似然 函数值更大。由此可通过A IC 准则进行模型选择和用适合性检验进行模型检验(另文报道)。 5 讨论 本文迭代公式中分离群体成分分布数是一般的, 主要是为满足A、B、C、D 和 E 类共 24 种遗传模型的缘故。在多世代联合分离分析的A 和B 两类模型中, 没有多基因方差组分的估 计, 即 CM 步骤只分两步进行。迄今为止, 利用个别分离世代鉴定主基因存在一般是先确定 成分分布数目然后鉴定主基因是否存在。确定成分分布数的方法可分为图形方法和统计检验 704 作 物 学 报 26 卷
6期 章元明等:数量性状分离分析中分布参数估计的ECM算法 705 方法两大类,。后者有采用 表1用M算法和正CM算法计算的24种遗传模型 AC准则,3川、BC准则和自 的极大对数以燃承数值 助Bootstrap)等方法。这些方法常 Table I The max inum log-likelhood function values (MLFV) 会导致比如在利用F,世代讲行主 基因存在的鉴定中不能有效地区分 itera ted ECM IECM a lgorithm 1个位点的1:2:1的3个正态分 极大对数似然值MLFV 极大对数似然值MLV 模型 模型 IECM 日M 布的混合和2个位点的9:6:1的 IECM 3个正态分布的混合,也不能有效 A 35963 32579 348785 318 A D 3512 地区分3:1的完全显性的2个正 A D 318 态分布的混合和1:3的负向完全 A D 112 显性的2个正态分布的混合。从参 B D 93 数估计角府来看闲不同草型的分 B 398 338 31838 布平均数间约束条件不同,致使分 B-5 42 布平均数的迭代公式不同,因此其 参数估计结果是不一致的。本研究 8-6 3 3782 E 的利用个别分离世代鉴定主基因存 在是建立在一定的遗传模型基础上 的,根据特定的遗传模型来确定成分分布数的,具有特定的遗传背景,其分布参数有特定的 遗传学意义,这把分布参数的估计和遗传参数的估计有机地结合在一起,具体表现在一阶分 布参数估计中考虑了通时一阶贵传参数得到的约束条件和鉴定多基闲存在中到分了分离世代 成分分布方差的数量遗传学构成。有效地克服了传统分析方法的缺陷23。鉴定多基因存 在中的统计假设不仅考虑了多基因存在与否的分布方差构成,还应考虑多基因是否存在的分 布平均数。这就是说在H。中不仅今多基因方差组分为0.还应今多基闲效应平均数为0 这才比较完整地表示出多基因不存在;在H,中两者均应存在。鉴定多基因存在的似然比检 验统计量入的自由度不是固定为1而是在H。和H中相差的遗传参数个数。 自M算法提出后,虽对M算法的改进算法较多,如用相对简单的S个CM步骤代 替计算复杂的BM算法M步骤的EOM算法),在CM步骤中用实际似然函数代替ECM算 法中的期望完全资料似然函数的EQME算法,用M算法获得近似方差-协方差矩阵的 SM算法,但在主+多基因混合遗传分析的参数估计中一般是采用BM算法心?。然 而,在2对主+多基因混合遗传分析中,采用M算法进行参数估计显然是不可靠的,特别 是有家系世代时。这是因为它忽略的项数较多。若采用EQM算法进行参数估计,也因多基 因和环境两种方差估计时会出现高次方程,用Gauss N ew ton法解高次方程时其解可能不唯 致使迭代可能不收敛。本文以M和ECM算法为基础从数量遗传学观点出发将成分分布 方差剖分为主基因、多基因和环境三种方差组分,推导出C,步骤的一般迭代公式。经大量 计算表明,只要方差组分不为负数,QM,步骤中的迭代是收敛的。此外,还有效地降低了参 数估计维数,节约了计算时间,在环境方差估计中利用了所有群体的所有分布,克服了以前 方法在估计误差方差时只考虑了亲本和F1群体分布方差的缺陷。 在参数估计前选择分布参数初值对于2对主+多基因混合遗传分析是十分重要的。Bk© )994)将BM算法与Nwo0n选代结合克服初值选择问题,Lard(1973)建议用
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 表 1 用 EM 算法和 IECM 算法计算的 24 种遗传模型 的极大对数似然函数值 Table 1 The max imum log-likelihood function values (MLFV) of 24 genetic modelscalculated through the EM and iterated ECM (IECM ) algor ithm 模型 极大对数似然值ML FV EM IECM 模型 极大对数似然值ML FV EM IECM A 21 3596. 38 3257. 94 D 3487. 85 3185. 95 A 22 3984. 39 3460. 48 D 21 3512. 90 3185. 30 A 23 3618. 97 3300. 69 D 22 3801. 36 3185. 30 A 24 4122. 60 3631. 70 D 23 3514. 13 3264. 98 B21 3521. 80 3224. 81 D 24 4160. 12 3422. 24 B22 3538. 69 3225. 94 E 3185. 93 B23 3983. 97 3381. 16 E21 3183. 80 B24 4093. 22 3422. 23 E22 3172. 06 B25 3618. 85 3444. 06 E23 3226. 75 B26 - 3389. 06 E24 3254. 51 C 3782. 60 3287. 47 E25 3195. 23 C21 3804. 39 3290. 65 E26 3337. 26 方法两大类[2, 3, 17 ]。后者有采用 A IC 准则[2, 3, 17 ]、B IC 准则[17 ]和自 助(Boo tstrap ) 等方法。这些方法常 会导致比如在利用 F2 世代进行主 基因存在的鉴定中不能有效地区分 1 个位点的 1∶2∶1 的 3 个正态分 布的混合和 2 个位点的 9∶6∶1 的 3 个正态分布的混合; 也不能有效 地区分 3∶1 的完全显性的 2 个正 态分布的混合和 1∶3 的负向完全 显性的 2 个正态分布的混合。从参 数估计角度来看, 因不同模型的分 布平均数间约束条件不同, 致使分 布平均数的迭代公式不同, 因此其 参数估计结果是不一致的。本研究 的利用个别分离世代鉴定主基因存 在是建立在一定的遗传模型基础上 的, 根据特定的遗传模型来确定成分分布数的, 具有特定的遗传背景, 其分布参数有特定的 遗传学意义, 这把分布参数的估计和遗传参数的估计有机地结合在一起, 具体表现在一阶分 布参数估计中考虑了通过一阶遗传参数得到的约束条件和鉴定多基因存在中剖分了分离世代 成分分布方差的数量遗传学构成, 有效地克服了传统分析方法的缺陷[2, 3, 18 ]。鉴定多基因存 在中的统计假设不仅考虑了多基因存在与否的分布方差构成, 还应考虑多基因是否存在的分 布平均数。这就是说, 在 H 0 中不仅令多基因方差组分为 0, 还应令多基因效应平均数为 0, 这才比较完整地表示出多基因不存在; 在H a 中两者均应存在。鉴定多基因存在的似然比检 验统计量 Κ的自由度不是固定为 1 而是在H 0 和 H a 中相差的遗传参数个数。 自 EM 算法[8 ]提出后, 虽对 EM 算法的改进算法较多, 如用相对简单的S 个 CM 步骤代 替计算复杂的 EM 算法M 步骤的 ECM 算法[12 ] , 在CM 步骤中用实际似然函数代替 ECM 算 法中的期望完全资料似然函数的 ECM E 算法[10 ] , 用 EM 算法获得近似方差2协方差矩阵的 SEM 算法[11 ] , 但在主+ 多基因混合遗传分析的参数估计中一般是采用 EM 算法[2~ 7, 9, 16 ]。然 而, 在 2 对主+ 多基因混合遗传分析中, 采用 EM 算法进行参数估计显然是不可靠的, 特别 是有家系世代时。这是因为它忽略的项数较多。若采用 ECM 算法进行参数估计, 也因多基 因和环境两种方差估计时会出现高次方程, 用 Gau ss2N ew ton 法解高次方程时其解可能不唯 一致使迭代可能不收敛。本文以 EM 和 ECM 算法为基础从数量遗传学观点出发将成分分布 方差剖分为主基因、多基因和环境三种方差组分, 推导出CM i 步骤的一般迭代公式。经大量 计算表明, 只要方差组分不为负数, CM i 步骤中的迭代是收敛的。此外, 还有效地降低了参 数估计维数, 节约了计算时间, 在环境方差估计中利用了所有群体的所有分布, 克服了以前 方法在估计误差方差时只考虑了亲本和 F1 群体分布方差的缺陷。 在参数估计前选择分布参数初值对于 2 对主+ 多基因混合遗传分析是十分重要的。Bake (1994) 将 EM 算法与N ew ton2Raph son 迭代结合克服初值选择问题[19 ] , L aird (1978) 建议用 6 期 章元明等: 数量性状分离分析中分布参数估计的 IECM 算法 705
105 作物学报 26卷 网点搜索7,M dL achlan等(1988)建议用聚类方法先分组再估计参数作为初值),本文就是 采用这一方法,也有用多组初值的结果进行比较选择的。关于度量参数估计值误差大小的参 数标准误,有Fisher信息阵和观察信息阵两种方法4。Little等(1987)认为前者不精确, 典不亮东教数受品本卒表检纯我标香款在套款时中高代特 。Titterington等 (1985)认为停止早迟将会影响参数估计值,采用前一方法可能会过早停止迭代。从本文 的结果来看,EQM算法比BM算法更易收敛。 在本文水稻株高性状遗传分析中,通过ECM算法从前四类模型(表1)中只能发现表现 为完全显性的1个主基因位点的存在,与拓展到两对主+多基因混合遗传分析结果中的最大 效应主基因是一致的,此外还有一个表现为次大效应的主基因。进一步的比较分析还发现利 用个别世代和多世代联合的分析结果是一致的,并且后者优于前者,利用家系群体的结果优 于利用单株群体的结果,利用自交群体的结果优于利用回交群体的结果。正M算法保证了 参数估计时良好的收敛性,因而更充分地揭示数据内含的信息。 参考文献 1盖钧槛,管荣展,王建康世界科技研究与发展,1999,21(:3次40 2王建康盖遗传学报199724(5)432一440 3盖钧槛.王建康作物学报。1998.24(5):402409 王建康,盖钧拉作物学报,1998,24(6:65659 GaiJ Y,JK ,1998,9711621168 能生物数学 19951048792 王建康,盖钓生物数学学报,1997,12(5):540548 5cB.,1977,3938 Zeng B kmetric 94.814) 63648 26 4 128139 o- pp 48:549 558 af SeB.,1997,59(2:40414 1994-2009 China Academic Jounal Electronic Publishing House.All rights reserved hup:/ww.cnkine
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 网点搜索[17 ] , M cL ach lan 等(1988) 建议用聚类方法先分组再估计参数作为初值[17 ] , 本文就是 采用这一方法, 也有用多组初值的结果进行比较选择的。关于度量参数估计值误差大小的参 数标准误, 有 Fisher 信息阵和观察信息阵两种方法[14, 17 ]。L ittle 等(1987) 认为前者不精确, 建议不用; 后者的计算相当复杂。因此, 本文未给出其标准误。在参数估计中停止迭代的准 则有迭代间对数似然函数值变化很小(如小于 10 - 4)和方向导数准则等[2, 3, 18 ]。T itterington 等 (1985) 认为: 停止早迟将会影响参数估计值, 采用前一方法可能会过早停止迭代[18 ]。从本文 的结果来看, IECM 算法比 EM 算法更易收敛。 在本文水稻株高性状遗传分析中, 通过 IECM 算法从前四类模型(表 1) 中只能发现表现 为完全显性的 1 个主基因位点的存在, 与拓展到两对主+ 多基因混合遗传分析结果中的最大 效应主基因是一致的, 此外还有一个表现为次大效应的主基因。进一步的比较分析还发现利 用个别世代和多世代联合的分析结果是一致的, 并且后者优于前者, 利用家系群体的结果优 于利用单株群体的结果, 利用自交群体的结果优于利用回交群体的结果。IECM 算法保证了 参数估计时良好的收敛性, 因而更充分地揭示数据内含的信息。 参 考 文 献 1 盖钧镒, 管荣展, 王建康. 世界科技研究与发展, 1999, 21 (1): 34~ 40 2 王建康, 盖钧镒. 遗传学报, 1997, 24 (5): 432~ 440 3 盖钧镒, 王建康. 作物学报, 1998, 24 (5): 402~ 409 4 王建康, 盖钧镒. 作物学报, 1998, 24 (6): 651~ 659 5 Gai J Y, J K W ang. T heor. A pp l. Genet. , 1998, 97: 1162~ 1168 6 王建康, 盖钧镒. 生物数学学报, 1995, 10 (4): 87~ 92 7 王建康, 盖钧镒. 生物数学学报, 1997, 12 (5): 540~ 548 8 Demp ster A P, N M L aird, D B Rubin. J. R. S ta tist. S oc. B. , 1977, 39: 1~ 38 9 Kao C H , Z B Zeng. B iom etrics, 1997, 53: 653~ 665 10 L iu C, D B Rubin. B iom etrika, 1994, 81 (4): 633~ 648 11 M eng X L , D B Rubin. J. of the A m erican S ta tist. A ssociation, 1991, 86: 899~ 909 12 M eng X L , D B Rubin. B iom etrika, 1993, 80 (2): 267~ 278 13 Rai S N , E M atthew s. B iom etrics, 1993, 49: 587~ 591 14 Shouk riM M , G J M cL ach lan. B iom etrics, 1994, 50: 128~ 139 15 U im ari P, I Hoeschele. Genetics, 1997, 146: 735~ 743 16 Jansen R C. T heor. A pp l. Genet. , 1992, 85: 252~ 260 17 L eroux B G, M L Puterm an. B iom etrics, 1992, 48: 545~ 558 18 Bohning D , P Sch lattm an. B iom etrics, 1992, 48: 283~ 303 19 M o lenbergh s G, E Goetghebeur. J R S ta tist. S oc. B. , 1997, 59 (2): 401~ 414 706 作 物 学 报 26 卷