第26卷第4期 作物学报 Vol 26.No 4 2000年7月 ACTA A GRONOM ICA SN ICA Juy.2000 QTL混合遗传模型扩展至2对主基因+多基因时的多世代联 合分析 盖钧锁 章元明王建康” (南京农业大学大豆研究所,农业部四家大豆改良中心,江苏南京,210095) 提要本文将Gai and Wang(1998)的P、FPB、B:和F:6个世代联合分离分析方法从4、B C、D4类共17种遗传模型扩楼至E(2对主基因+多基因)共5类24种遗传模型。成分分布参数估计 的方法由EM算法改进为迭代条件E算法(ECM).其收敛性和所获结果优于EM算法。水稻株高 例中2对主基因+多基因的遗传模型(E-2)优于原所获得的1对主基因+多基因的遗传模型)。 关键词数量性状,主基因+多基因混合遗传,多世代联合分析,ECM算法 A Jont Analysis of Multiple Generations for OTL Models Ex tended to M kxed Two Major Genes Plus Polygene GA IJun-Yi ZHAN G YuanM ing WANG Jian-Kang A g ricultre,N anjing 210095) Abstract The two major genes plus polygene Model (Model E)of OTL in a joint analysis of Pi,F1,P2,B1,B2 and F2 was extended to based on Gai and W ang (1998).The mapr steps were to establish the genetic models and likelihood functions,to estmate the distribution param eters through iterated expectaton and conditonal maxm raton (/ECM algorithm,to select the best genetic model through 4 IC value and tests for goodness of fit,to estmate the genetic parameters of the best fitted model through least squares method,and to classify the ind ividuals nto mapr gene genotypes in tem sof Bayesian posteror probability.The example of the inheritance of rice plant height which was used by Gai and W ang (1998)was further analyzed to explan the procedures It was shown through the example that the convergence of the parameter in IECM algorithm was better than that in EM algorithm,and the two mapor genes plus polygene model(E-2)was better than the prevous one mapr gene plus polygene model (D). Key words Quantitative trait,Mapr gene plus polygene m ixed nheritance.Joint analysis of m ultple generatons /ECM algorithm 对植物数量性状遗传体系的认识有一个发展过程一。最早认为数量性状由微效多基因 联系作者,Ema educnnausri@publicl ptt jsen 致谢南京农业大学农学系朱立宏教授思允使用南京6号×广丛杂交组合6个基本世代群体株高货料。谨致谢忧 收稿日册1999-07-28,接受日期1999-12-18 China Academie ou Publishing House.All rights reserved http://www.cnki.net
第 26 卷 第 4 期 作 物 学 报 Vol. 26, No. 4 2000 年 7 月 ACTA A GRONOM ICA S IN ICA July, 2000 QTL 混合遗传模型扩展至 2 对主基因+ 多基因时的多世代联 合分析 Ξ 盖钧镒 ΞΞ 章元明 王建康 ΞΞΞ (南京农业大学大豆研究所, 农业部国家大豆改良中心, 江苏南京, 210095) 提 要 本文将 Gai and W ang (1998) 的 P1、F1、P2、B1、B2 和 F2 6 个世代联合分离分析方法从A 、B、 C、D 4 类共 17 种遗传模型扩展至 E (2 对主基因+ 多基因) 共 5 类 24 种遗传模型。成分分布参数估计 的方法由 EM 算法改进为迭代条件 EM 算法(IECM ) , 其收敛性和所获结果优于 EM 算法。水稻株高 例中 2 对主基因+ 多基因的遗传模型(E 22) 优于原所获得的 1 对主基因+ 多基因的遗传模型(D )。 关键词 数量性状; 主基因+ 多基因混合遗传; 多世代联合分析; IECM 算法 A Joint Analysis of M ultiple Generations for QTL M odels Extended to M ixed TwoMajor Genes Plus Polygene GA IJun2Yi ZHAN G Yuan2M ing WAN G Jian2Kang ( S oy bean R esearch Institute, N anj ing A g ricultural U niversity; N ational Center of S oy bean Im p rovem ent, M inistry of A g riculture, N anj ing 210095) Abstract The two m ajor genes p lus polygene M odel (M odel E ) of Q TL in a joint analysis of P1, F1, P2, B1, B2 and F2 w as extended to based on Gai and W ang (1998). The m ajor step s w ere to establish the genetic models and respective m axim um likelihood functions, to estim ate the distribution param eters th rough iterated expectation and conditional m axim ization ( IECM ) algorithm , to select the best genetic model th rough A IC value and tests for goodness of fit, to estim ate the genetic param eters of the best fitted model th rough least squares m ethod, and to classify the individuals into m ajor gene genotypes in term s of Bayesian posterior p robability. The examp le of the inheritance of rice p lant heigh t w h ich w as used by Gai and W ang (1998) w as further analyzed to exp lain the p rocedures. It w as show n th rough the examp le that the convergence of the param eter estim ation in IECM algorithm w as better than that in EM algorithm , and the two m ajor genes p lus polygene model (E 22) w as better than the p revious one m ajor gene p lus polygene model (D ). Key words Q uantitative trait; M ajor gene p lus polygene m ixed inheritance; Joint analysis of m ultip le generations; IECM algorithm 对植物数量性状遗传体系的认识有一个发展过程[1~ 2 ]。最早认为数量性状由微效多基因 Ξ ΞΞ ΞΞΞ 现在河南农业科学院科学实验中心工作 致谢: 南京农业大学农学系朱立宏教授惠允使用南京 6 号×广丛杂交组合 6 个基本世代群体株高资料, 谨致谢忱! 收稿日期: 1999207228, 接受日期: 1999212218 联系作者, E2m ail: sri@njau. edu. cn 或 nausri@public1. p tt. js. cn 国家 973 项目
386 作物学报 26卷 控制,以后发现水稻矮秆等一些数量性状也受主基因控制Elston and Steward(I973)提出 了1对主基因+多基因混合遗传模型。后米大量研究发现控制数量性状的基因效应大小不 一.大者表现为主基因.小者表现为微效多基因。因而盖钧等(1999)提出将主基因+多 基因混合遗传看作植物数量性状遗传的普遍性模型,将单纯多基因、单纯主基因看作其特 例,并在前人基础上r列发展了一套QTL遗传模型检测的分离分析方法,将孟德尔用于研究 主基因的遗传研究方法延伸到数量性状的通用模型。这种方法通过对分离世代的分析可以检 测1对主基因4)、2对主基因(B)、多基因(C)、1对主基因+多基因D)等4类多种遗传模 型,所用试验材料可以是单个分离世代及其亲本,也可以是多个分离世代及其亲本。这 种分离分析的主要理论基础是混合分布理论,将分离世代的分布看作为多个主基因型在多基 因和环境修饰下形成的多个正态分布的混合分布,其主要方法是通过极大似然法和EM 算法对混合分布中有关成分分布参数作出估计,然后通过A1C值判别及一组适合性测验从 中选出最适遗传模型,并由之估计相应的主基因和多基因的效应值、方差和有关遗传参数」 乃至对参试材料的主基因型作出后验概率判别。Gai and W ang(1998)提出的P、F、P B、B2、F:6世代联合分析方法考虑了上述4类17种遗传模型,并在此基础上进一步拓展分 离世代的类型,包括个体世代的类型及可进行重复试验提高精确度的家系世代的类型,以及 拓展为更为复杂的遗传模型等方面改进提高这套方法。本文目的是将Gai and W ang(1998)例 的6世代联合分析方法进一步拓展至2对主基因+多基因遗传模型的情况,使6世代试验资 料可鉴别5类共24种遗传模型,并估计相应遗传参数。 1理论推演 11基本假定与遗传模型 本文对P1、F、P、B、B:及F:QTL体系及A、B、C、D4类共17种遗传模型所作的基 本假定、符号和参数与Gai and W ang(1998)相同,此处不再重复。现将2对主基因+多基 因简称为£类模型,其相应6世代的分布通式列于后,观察值以个体或植株为单位,此处假 定2对主基因属独立遗传。至于主基因间连锁遗传有待进一步研究。 P::XN (m,F::X2N (H2,Pz:XaN (m,d) B:X(1/4)N(H,c)+(1/A)N(a,G)+(I/4)N(μ,G)+(I/A)N(H4,G) B:Xs(1/4)N(μs,c店)+(1/4)N(μ2,c店)+(1/4)N(μs,G)+(1/4)N(μ4,G店) Fz:X6(1/h6)N(μ61,)+(1/8)N(μa,)+(1/16)N(Ha,)+(1/8)N(u4,) (1/4)N(us,G)+(1/8)N(μ66,G)+(1/h6)N(μ6,)+ (1/8)N(μ,G)+(1/h6)N(μm,d) 以上6个群体的分布分别由单个、4个和9个各不相同的成分分布组成。在两对主基因服从 等加性、完全显性、等显性且名基因服从加性-品性模型下.B1、B,和F,群体的成分分布数分 别为3(1:2:1)、3(1:2:1)和5(1:4:6:4:1):1、4(1:1:1:1)和4(9:3:3:1) 1、3(1:2:1)和3(9:6:1)。将上述结果列于表1,A~D类模型参见文献。表1中E为2 对主基因+多基因时包括主基因与多基因的加性、显性和上位性的全部遗传效应的完全棋 型:E-~E-6的多基因均为加性-显性模型E-1的主基因为完全模型E-2的主基因为加性 -显性模型E-3的主基因为加性模型E-4的主基因为等加性模型,E-5的主基因为加性-完 全显性模型E-6的主基因为等加性。等显性(完全显性)模型。综合起来,本文考虑的遗传 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:./www.cnkine
控制, 以后发现水稻矮秆等一些数量性状也受主基因控制; Elston and Stew ard (1973) [3 ]提出 了 1 对主基因+ 多基因混合遗传模型。后来大量研究发现控制数量性状的基因效应大小不 一, 大者表现为主基因, 小者表现为微效多基因。因而盖钧镒等(1999) [1 ]提出将主基因+ 多 基因混合遗传看作植物数量性状遗传的普遍性模型, 将单纯多基因、单纯主基因看作其特 例, 并在前人基础上[3~ 5 ]发展了一套Q TL 遗传模型检测的分离分析方法, 将孟德尔用于研究 主基因的遗传研究方法延伸到数量性状的通用模型。这种方法通过对分离世代的分析可以检 测 1 对主基因(A )、2 对主基因(B )、多基因(C)、1 对主基因+ 多基因(D ) 等 4 类多种遗传模 型, 所用试验材料可以是单个分离世代及其亲本, 也可以是多个分离世代及其亲本[6~ 9 ]。这 种分离分析的主要理论基础是混合分布理论, 将分离世代的分布看作为多个主基因型在多基 因和环境修饰下形成的多个正态分布的混合分布[10 ] , 其主要方法是通过极大似然法和 EM 算法对混合分布中有关成分分布参数作出估计, 然后通过A IC 值判别及一组适合性测验从 中选出最适遗传模型, 并由之估计相应的主基因和多基因的效应值、方差和有关遗传参数, 乃至对参试材料的主基因型作出后验概率判别。Gai and W ang (1998) [9 ]提出的 P1、F1、P2、 B1、B2、F2 6 世代联合分析方法考虑了上述 4 类 17 种遗传模型, 并在此基础上进一步拓展分 离世代的类型, 包括个体世代的类型及可进行重复试验提高精确度的家系世代的类型, 以及 拓展为更为复杂的遗传模型等方面改进提高这套方法。本文目的是将 Gai and W ang (1998) [9 ] 的 6 世代联合分析方法进一步拓展至 2 对主基因+ 多基因遗传模型的情况, 使 6 世代试验资 料可鉴别 5 类共 24 种遗传模型, 并估计相应遗传参数。 1 理论推演 1. 1 基本假定与遗传模型 本文对 P1、F1、P2、B1、B2 及 F2 Q TL 体系及A 、B、C、D 4 类共 17 种遗传模型所作的基 本假定、符号和参数与 Gai and W ang (1998) [9 ]相同, 此处不再重复。现将 2 对主基因+ 多基 因简称为 E 类模型, 其相应 6 世代的分布通式列于后, 观察值以个体或植株为单位, 此处假 定 2 对主基因属独立遗传。至于主基因间连锁遗传有待进一步研究。 P1: X 1~i N (Λ1, Ρ 2 ) F1: X 2~i N (Λ2, Ρ 2 ) P2: X 3~i N (Λ3, Ρ 2 ) B1: X 4~i (1ö4)N (Λ41, Ρ 2 4) + (1ö4)N (Λ42, Ρ 2 4) + (1ö4)N (Λ43, Ρ 2 4) + (1ö4)N (Λ44, Ρ 2 4) B2: X 5~i (1ö4)N (Λ51, Ρ 2 5) + (1ö4)N (Λ52, Ρ 2 5) + (1ö4)N (Λ53, Ρ 2 5) + (1ö4)N (Λ54, Ρ 2 5) F2: X 6~i (1ö16)N (Λ61, Ρ 2 6) + (1ö8)N (Λ62, Ρ 2 6) + (1ö16)N (Λ63, Ρ 2 6) + (1ö8)N (Λ64, Ρ 2 6) + (1ö4)N (Λ65, Ρ 2 6) + (1ö8)N (Λ66, Ρ 2 6) + (1ö16)N (Λ67, Ρ 2 6) + (1ö8)N (Λ68, Ρ 2 6) + (1ö16)N (Λ69, Ρ 2 6) 以上 6 个群体的分布分别由单个、4 个和 9 个各不相同的成分分布组成。在两对主基因服从 等加性、完全显性、等显性且多基因服从加性2显性模型下, B1、B2 和 F2 群体的成分分布数分 别为: 3 (1∶2∶1)、3 (1∶2∶1) 和 5 (1∶4∶6∶4∶1); 1、4 (1∶1∶1∶1) 和 4 (9∶3∶3∶1); 1、3 (1∶2∶1) 和 3 (9∶6∶1)。将上述结果列于表 1, A~D 类模型参见文献[9 ]。表 1 中 E 为 2 对主基因+ 多基因时包括主基因与多基因的加性、显性和上位性的全部遗传效应的完全模 型; E 21~ E 26 的多基因均为加性2显性模型; E 21 的主基因为完全模型; E 22 的主基因为加性 2显性模型; E 23 的主基因为加性模型; E 24 的主基因为等加性模型; E 25 的主基因为加性2完 全显性模型; E 26 的主基因为等加性- 等显性(完全显性) 模型。综合起来, 本文考虑的遗传 386 作 物 学 报 26 卷
4期 盖钧镒等QTL混合遗传模型扩展至2对主基因+多基因时的多世代联合分析 387 模型共有A、B、C、D、E5类24种。至于3对主基因模型和3对主基因+多基因模型等更复 杂的情况还有待于进一步研究。 表1两对主基因+多基因想型下6个世代所包含的成分分布数及可估的遗传参数 Table 1 The nuber of component distrbutionsand estmatble geneti parameters of P.F,P:,B,B:and F under two ma jor genes plus polygene m ked nheritance models 模型成分分布数 立参数个数 约束条件数 代号 t No mete parameters oonditons E 20 ”aha 店底d 6 E-1 20 15 m,da ds 9 足..屁子 E-2 20 11 m.da.dh.he.hh.Idl.Ihl 匠.床 13 E-3 20 9 m d.d (h=h=0)Idl (hl 品 15 E-4 14 8 m,d(=da=do,ho h0),[d],[h] a d f 10 E-5 12 9 m.da(=ha).ds(=hs),Idl.[h] 民录子 7 E-6 10 m.d(=d=d=h=h).Id).Ih] 品..d 126世代联合似然函数和成分分布参数极大似然估计的1EQM算法 利用P、F、PB、B2和F?世代联合分析的样本似然函数为 f旧=ΠVx4,x4,)Πyxys,Π∑时x4, (1) TE时rs6,因)ΠE飞fru 其中,f(x6μ,G)是正态分布N(4,G)的密度函数,k1、k台和k3分别是B1、B:和F,群体的 成分分布数。采用IECM算法获得(I)式中分布参数的极大似然估计值。IECM算法采用迭 代方法在条件EM算法(ECM山)基础上获得极大似然估计的方法。在多世代联合估计的 1ECM算法中,E步骤的完全数据对数似然函数的期望函数为: Lcyl旧=bgx6h,)+bg,)+bg/6站,d+ 4 公bg+bg,+ 其中,w4个w4域,w5个w5,w6~w6,表示样本的后验概率。迭代CM步骤是分步骤地计算 Lc(y旧的条件极大值和极大值点。分布平均数间无约束条件时可直接分步骤地对Lc(y旧 求偏导数并令其等于0以得到新一轮参数估计值:分布平均数间有约束条件时可利用 Lagrange函数分步骤地确定Cw步骤中Lc(yO的条件极值。其具体过程为: ①根据样本观测值选择一组分布参数初始值。 ②计算混合群体中样本观测值的后验概率w个:”5个w5西,”个”6一,从而得到 完全数据的似然函数值Lc(YΘ(E步骤)。 http://www.cnki.net
模型共有A 、B、C、D、E 5 类 24 种。至于 3 对主基因模型和 3 对主基因+ 多基因模型等更复 杂的情况还有待于进一步研究。 表 1 两对主基因+ 多基因模型下 6 个世代所包含的成分分布数及可估的遗传参数 Table 1 The number of component distr ibutions and estimatable genetic parameters of P1, F1, P2, B1, B2 and F2 under two major genes plus polygene m ixed inher itance models 模型 代号 Code 成分分布数 No. component distribution 独立参数个数 No. independent param eters 一阶遗传参数 1st order genetic param eter 二阶分布参数 2nd param eter 约束条件数 No. restricted conditions E 20 18 m , d a, d b, ha, hb, i, j ab, j ba, l, [d ], [h ], [ i], [ j ], [ l] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 6 E 21 20 15 m , d a, d b, ha, hb, i, j ab, j ba, l, [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 9 E 22 20 11 m , d a, d b, ha, hb, [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 13 E 23 20 9 m , d a, d b, (ha= hb= 0) , [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 15 E 24 14 8 m , d (= d a= d b, ha= hb= 0) , [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 10 E 25 12 9 m , d a (= ha) , d b (= hb) , [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 7 E 26 10 8 m , d (= d a= d b= ha= hb) , [d ], [h ] Ρ 2 4, Ρ 2 5, Ρ 2 6, Ρ 2 6 1. 2 6 世代联合似然函数和成分分布参数极大似然估计的 IECM 算法 利用 P1、F1、P2、B1、B2 和 F2 世代联合分析的样本似然函数为: f (Y ûΗ) = ∏ n 1 i= 1 f (x 1i; Λ1, Ρ 2 e )∏ n 2 i= 1 f (x 2i; Λ2, Ρ 2 e )∏ n 3 i= 1 f (x 3i; Λ3, Ρ 2 e )∏ n 4 i= 1 ∑ k 1 t= 1 Π4tf (x 4i; Λ4t, Ρ 2 4) ∏ n 5 i= 1 ∑ k 2 t= 1 Π5tf (x 5i; Λ5t, Ρ 2 5)∏ n 6 i= 1 ∑ k 3 t= 1 Π6t f (x 6i; Λ6t, Ρ 2 6) (1) 其中, f (x j i; Λ, Ρ 2 ) 是正态分布N (Λ, Ρ 2 ) 的密度函数, k1、k2 和 k3 分别是B1、B2 和 F2 群体的 成分分布数。采用 IECM 算法获得(1) 式中分布参数的极大似然估计值。IECM 算法采用迭 代方法在条件 EM 算法(ECM [11, 14 ] ) 基础上获得极大似然估计的方法。在多世代联合估计的 IECM 算法中, E 步骤的完全数据对数似然函数的期望函数为: L C (Y ûΗ) = ∑ n 1 i= 1 logf (x 1i; Λ1, Ρ 2 e ) + ∑ n 2 i= 1 logf (x 2i; Λ2, Ρ 2 e ) + ∑ n 3 i= 1 logf (x 3i; Λ3, Ρ 2 e + ∑ n 4 i= 1 ∑ k 1 t= 1 w 4it logf (x 4i; Λ4t, Ρ 2 4) + ∑ n 5 i= 1 ∑ k 2 t= 1 w 5it logf (x 5i; Λ5t, Ρ 2 5) + ∑ n 6 i= 1 ∑ k 3 t= 1 w 6it log f (x 6i; Λ6t, Ρ 2 6) 其中, w 4i1~w 4ik 1 , w 5i1~w 5ik 2 , w 6i1~w 6ik 3表示样本的后验概率。迭代CM 步骤是分步骤地计算 L C (Y ûΗ) 的条件极大值和极大值点。分布平均数间无约束条件时可直接分步骤地对L C (Y ûΗ) 求偏导数并令其等于 0 以得到新一轮参数估计值; 分布平均数间有约束条件时可利用 L agrange 函数分步骤地确定CM 步骤中L C (Y ûΗ) 的条件极值。其具体过程为: ① 根据样本观测值选择一组分布参数初始值。 ② 计算混合群体中样本观测值的后验概率w 4i1~w 4ik 1 , w 5i1~w 5ik 2 , w 6i1~w 6ik 3 , 从而得到 完全数据的似然函数值L C (Y ûΗ) (E 步骤)。 4 期 盖钧镒等: Q TL 混合遗传模型扩展至 2 对主基因+ 多基因时的多世代联合分析 387
388 作物学报 26卷 ③分23步对Lc(y旧求条件极值,用迭代方法得到分布平均数、多基因方差组分和 环境方差的估计(CM步骤)。以模型D、E为例,迭代CM,步骤是在固定多基因方差组分和 环境方差的条件下用迭代方法求分布平均数的条件极大似然估计,迭代CM:步骤是在固定 环境方差和迭代CM,步骤所获得的分布平均数条件下用迭代方法求多基因方差组分的条件 极大似然估计,迭代CM,步骤是在固定迭代CM,和CM,步骤所获得的两组估计值条件下用 迭代方法求环境方差的条件极大似然估计。模型A、B、C比较简单,只分两步进行。 ④将得到的估计值作为初始值重复进行②和③步骤,直到达到预定的精度为止。 为从A~E5类共24种模型中找出最适合于所得试验数据的模型,要按上述方法分别估 计出这5类共24种模型的成分分布参数。 13遗传模型的判定及其相应遗传参数的估计 从5类24种模型中判定最佳遗传模型的方法按Gai and W ang(1998)的方法分两步进 行。第一步根据最大熵准则,从最小41C值找出最佳的1个或几个模型第二步对初选模型 进行适合性检验,以找出最适模型。A1C值的计算、判定方法以及入选模型的适合性检验包 括Ui、U经、U、Sm irnov的2和Komogorov的D,统计量检验方法均同Gai and W ang (1998)。选定最佳遗传模型后,使用该模型下的各成分分布参数估计值估算相应的遗传参 数。以E-6模型为例说明分布平均数与一阶遗传参数的关系 =m+dt[d=m++[hku=m-d-【dua=m+2d+(1/2)[d]+(1/2)[h μ1=m+2d-(1/2)[d]+(1/2)[h5 u52=m-(1/2)[d]+(1/2)[h] 4=m-2d-(1/2)[d]+(1/2)[h 61=m+2d+(1/2)[h] μ@=m+(1/2)[h: u6=m-2d+(12)[h1 由此,采用最小二乘法可估计出m、d、[d]和[h。其它模型同理可得相应遗传参数估计值。 各世代表型方差由试验数据直接算得:极大似然估计得到的心为环境方差云、店和 店分别为B、B:和F:各成分分布方差,由多基因方差组分和环境方差构成群体的多基因 方差。=.店正,主基因方差店分别按下列公式求得 dn=d.-ha2+d-h2+u-o2+-2+ (1-02+-a)2+m-02+U加-02]+4(d。-h) (2a) (1+j-j加-0+4(d6-h)(i-j+j-0 正,=(d+h)2+(d+h)2++j)2++j加2+ (i-02+0bj)2+0+02+Um+02]+4(d.+h)(2b) (i+ja-j+)+(ds+ho)(i-j+jw+1) Gg=4[d+d6+2+(d。+j)2+(d+ja)2+(h。+)2+ (hs+02+1] (2c) 主基因遗传率h品,=G,/G和多基因遗传率品=,/。D下D-4和E-E-6模型还能把 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http:/www.cnkine
③ 分 2~ 3 步对L C (Y ûΗ) 求条件极值, 用迭代方法得到分布平均数、多基因方差组分和 环境方差的估计(CM 步骤)。以模型D、E 为例, 迭代 CM 1 步骤是在固定多基因方差组分和 环境方差的条件下用迭代方法求分布平均数的条件极大似然估计; 迭代CM 2 步骤是在固定 环境方差和迭代CM 1 步骤所获得的分布平均数条件下用迭代方法求多基因方差组分的条件 极大似然估计; 迭代CM 3 步骤是在固定迭代CM 1 和CM 2 步骤所获得的两组估计值条件下用 迭代方法求环境方差的条件极大似然估计。模型A 、B、C 比较简单, 只分两步进行。 ④ 将得到的估计值作为初始值重复进行②和③步骤, 直到达到预定的精度为止。 为从A~ E 5 类共 24 种模型中找出最适合于所得试验数据的模型, 要按上述方法分别估 计出这 5 类共 24 种模型的成分分布参数。 1. 3 遗传模型的判定及其相应遗传参数的估计 从 5 类 24 种模型中判定最佳遗传模型的方法按 Gai and W ang (1998) [9 ]的方法分两步进 行。第一步根据最大熵准则, 从最小A IC 值找出最佳的 1 个或几个模型; 第二步对初选模型 进行适合性检验, 以找出最适模型。A IC 值的计算、判定方法以及入选模型的适合性检验包 括 U 2 1、U 2 2、U 2 3、Sm irnov 的 nW 2 和 Kolmogorov 的 D n 统计量检验方法均同 Gai and W ang (1998) [9 ]。选定最佳遗传模型后, 使用该模型下的各成分分布参数估计值估算相应的遗传参 数。以 E 26 模型为例说明分布平均数与一阶遗传参数的关系: Λ1= m + d + [d ]; Λ2= m + h+ [h ]; Λ3= m - d - [d ]; Λ4= m + 2d + (1ö2) [d ]+ (1ö2) [h ] Λ51= m + 2d - (1ö2) [d ]+ (1ö2) [ h ]; Λ52= m - (1ö2) [d ]+ (1ö2) [h ] Λ53= m - 2d - (1ö2) [d ]+ (1ö2) [ h ]; Λ61= m + 2d + (1ö2) [h ] Λ62= m + (1ö2) [h ]; Λ63= m - 2d + (1ö2) [h ] 由此, 采用最小二乘法可估计出m、d、[d ]和[h ]。其它模型同理可得相应遗传参数估计值。 各世代表型方差 Ρ 2 P 由试验数据直接算得; 极大似然估计得到的 Ρ 2 为环境方差; Ρ 2 4、Ρ 2 5 和 Ρ 2 6 分别为B1、B2 和 F2 各成分分布方差, 由多基因方差组分和环境方差构成; 群体的多基因 方差 Ρ 2 p g= Ρ 2 P - Ρ 2 mg- Ρ 2 e , 主基因方差 Ρ 2 mg分别按下列公式求得: Ρ 2 m g (B 1 ) = 1 4 (d a - ha) 2 + 1 4 (d b - hb) 2 + 1 16 [ (i - j ab) 2 + (i - j ba) 2 + (i - l) 2 + (j ab - j ba) 2 + (j ab - l) 2 + (j ba - l) 2 ] + 1 4 (d a - ha) (i + j ab - j ba - l) + 1 4 (d b - hb) (i - j ab + j ba - l) (2a) Ρ 2 m g (B 2 ) = 1 4 (d a + ha) 2 + 1 4 (d b + hb) 2 + 1 16 [ (i + j ab) 2 + (i + j ba) 2 + (i - l) 2 + (j ab - j ba) 2 + (j ab + l) 2 + (j ba + l) 2 ] + 1 4 (d a + ha) (- i + j ab - j ba + l) + 1 4 (d b + hb) (- i - j ab + j ba + l) (2b) Ρ 2 m g (F2 ) = 1 4 [d 2 a + d 2 b + i 2 + (d a + j ab) 2 + (d b + j ba) 2 + (ha + 1 2 l) 2 + (hb + 1 2 l) 2 + 1 4 l 2 ] (2c) 主基因遗传率 h 2 m g= Ρ 2 m göΡ 2 P 和多基因遗传率 h 2 p g= Ρ 2 p göΡ 2 P。D 21~D 24 和 E 21~ E 26 模型还能把 388 作 物 学 报 26 卷
4期 盖钧镒等:QTL混合遗传模型扩展至2对主基因+多基因时的多世代联合分析 389 B1、B:和F2的多基因方差组分、和o剖分为多基因加性效应方差D、显性效应方差H 以及F D=4d2d02dG (3a) H=4(io+o-Co) (3b) F=正-n (3c) 由此,可联合估计B、B2和F,群体的多基因遗传率 h)=D/4+H/4.F/2)/床 (4a higm=(D /4+H/4+F/)/ (4b) hx,=D久+H/A)/床e (4c 14 Bayes后验概率与分离世代个体主基因型的归属 将分布参数估计值代入E步骤便可得到Bayes后验概率wu~w4,Ws~ws纯和w6~ W6,B1、B:和F2群体单株的后验概率可表示为: wu=rfx6hwG)/Tf (i正 m=4,5,6) (5) 在A、D模型时,主基因型数不多,个体主基因型的判别较简单,但在B、E模型时主基 因型数增多,下,代将有9种主基因型,此时个体主基因型的后验概率判别弹性增大,实际意 义比A、D模型时小得多。 以上A~E5类共24个遗传模型的分析计算(1ECM算法)均用Turbo C·语言编写成 程序名为SN.EXE的计算程序软件,欢迎读者来函联系。 2应用实例 GaiandW ang(1998)文中南京6号×广丛杂交组合的6世代的数据在此作进一步分 析。其次数分布数据 表2用I正CM算法估计各种遗传模型的极大对数似然函数值和AIC值 参见该文表3。按本 Table 2 The maxmum log likel hood values and A IC values under varbous genetik 文22节所获得的5 类24种模型的极大 桢型 极大对数似然信 模型 极大对数似然值 AIC AIC 对数似然函数值和 Model Max mum bg-likelhood lodel Maxmum bg-likelhood A 3259 65238 31859 A1C值列于表2。E 639590 3460+ 6926 -3853 63886 2模型具有最小AC 3300 6607 D 318530 638660 值,为最佳可能模 3631 7269 ·326 65459 32 6+6 3422 型。与之相近的还有 68604 2 04078 D-2、D-I、D、E-1 B-3 63 等。这与Gai and 9 63650 Wang(1998)的结 652503 果有所不同也有所相 近,说明可能属2对 C-l 5206 658730 333226 669051 主基因+多基因的混合遗传模型。但因与1对主基因+多基因模型的差异甚小,可能第2对 主基因的作用较小。经一组适合性检验的结果(表3),E-2不仅最佳而且最适。因而确认该组 C 1994-2009 China Academic Journal Electr All rights http:
B1、B2 和 F2 的多基因方差组分 Ρ 2 40、Ρ 2 50和 Ρ 2 60剖分为多基因加性效应方差D、显性效应方差H 以及 F: D = 4Ρ 2 60 - 2Ρ 2 40 - 2Ρ 2 50 (3a) H = 4 (Ρ 2 40 + Ρ 2 50 - Ρ 2 60) (3b) F = Ρ 2 50 - Ρ 2 40 (3c) 由此, 可联合估计B1、B2 和 F2 群体的多基因遗传率: h 2 p g (B1 ) = (D ö4 + H ö4 - Fö2)öΡ 2 P (B1 ) (4a) h 2 p g (B2 ) = (D ö4 + H ö4 + Fö2)öΡ 2 P (B2 ) (4b) h 2 p g (F 2 ) = (D ö2 + H ö4)öΡ 2 P (F 2 ) (4c) 1. 4 Bayes 后验概率与分离世代个体主基因型的归属 将分布参数估计值代入 E 步骤便可得到Bayes 后验概率w 4i1~w 4ik 1 , W 5i1~w 5ik 2和w 6i1~ w 6ik 3 , B1、B2 和 F2 群体单株的后验概率可表示为: w m it = Πm itf (x m i; Λm t, Ρ 2 m )ö∑ km - 3 r= 1 Πm irf (x m i; Λm r, Ρ 2 m (m = 4, 5, 6) (5) 在A 、D 模型时, 主基因型数不多, 个体主基因型的判别较简单, 但在B、E 模型时主基 因型数增多, F2 代将有 9 种主基因型, 此时个体主基因型的后验概率判别弹性增大, 实际意 义比A 、D 模型时小得多。 以上A~ E 5 类共 24 个遗传模型的分析计算( IECM 算法) 均用 Turbo C + + 语言编写成 程序名为 SIN. EXE 的计算程序软件, 欢迎读者来函联系。 2 应用实例 Gai andW ang ( 1998) [9 ]文中南京6号×广丛杂交组合的6世代的数据在此作进一步分 表 2 用 IECM 算法估计各种遗传模型的极大对数似然函数值和A IC 值 Table 2 The max imum log l ikel ihood values and A IC values under var ious genetic models estimated through the iterated ECM (IECM ) algor ithm 模型 M odel 极大对数似然值 M axim um log2likelihood A IC 模型 M odel 极大对数似然值 M axim um log2likelihood A IC A 21 - 3257. 94 6523. 87 D - 3185. 95 6395. 90 A 22 - 3460. 48 6926. 97 D 21 - 3185. 30 6388. 60 A 23 - 3300. 69 6607. 37 D 22 - 3185. 30 6386. 60 A 24 - 3631. 70 7269. 40 D 23 - 3264. 98 6545. 97 B 21 - 3224. 81 6469. 63 D 24 - 3422. 24 6860. 48 B 22 - 3225. 94 6463. 88 E - 3185. 93 6407. 87 B 23 - 3381. 16 6770. 32 E 21 - 3183. 80 6397. 60 B 24 - 3422. 23 6864. 46 E 22 - 3172. 06 6366. 12 B 25 - 3444. 06 6902. 12 E 23 - 3226. 75 6471. 50 B 26 - 3389. 06 6784. 12 E 24 - 3254. 51 6525. 03 C - 3287. 47 6582. 93 E 25 - 3195. 23 6408. 46 C21 - 3290. 65 6587. 30 E 26 - 3337. 26 6690. 51 析。其次数分布数据 参见该文表 3。按本 文 2. 2 节所获得的 5 类 24 种模型的极大 对数似然函数值和 A IC 值列于表 2。E 2 2 模型具有最小A IC 值, 为 最 佳 可 能 模 型, 与之相近的还有 D 22、D 21、D、 E 21 等。 这 与 Gai and W ang ( 1998) [9 ] 的 结 果有所不同也有所相 近, 说明可能属 2 对 主基因+ 多基因的混合遗传模型。但因与 1 对主基因+ 多基因模型的差异甚小, 可能第 2 对 主基因的作用较小。经一组适合性检验的结果(表 3) , E 22 不仅最佳而且最适。因而确认该组 4 期 盖钧镒等: Q TL 混合遗传模型扩展至 2 对主基因+ 多基因时的多世代联合分析 389
390 作物学报 26卷 合水稻株高为2对主基因+多基因的遗传。模型的扩展使分析不局限于D,更确切地反应了 实际数据的性质 表3 E-2模型的适合性检 E-2模型时全部 Table 3 Tests for goodness of fit of model E-2 1阶、2阶分布参数 模型 112 D 估计值列于表4,由 P1Q48(049)020(065) 082(037) 0196(005)0143>005) 表4计算出1阶、2 a20065 061(044 L89017 0199(>005) 0178>005 阶遗传参数估计值 0200.89 016(69 L06(030 118>005 0116>005 列于表5。将此结 00096 005088 019(066 0088>005 1002005 B2 10076 00530870 2909 0040(2005 0068(>005) 果与Gai and W ang F2000(099)000(L00)000(097) 0049(>005)0037(>005) (1998)的D模型 结果相比,第1对主 基因的加性和显性效应、显性度(2711、2128、Q785)与D模型的1对主基因相近或略小些 (2915、2412、Q83)。E-2模型中增加了第2对主基因,其加性效应只有第1对主基因的 1乃,且显性不明显。多基因的效应虽然不大,但E-2模型和D模型一方面多基因效应的成 分不同,且加性和显性效应有明显差别。E-2模型主基因效应在B、B:和F:3世代为076 ~9412(%),多基因遗传率为30下807(%),比在D模型下较一致。总之,水稻株高性 状主基因是起决定作用的,通过将模型扩展到E,增加了对第2对主基因的了解。原来只有 D模型时,这第2对主基因的效应是混杂在多基因的效应中。 表4E2模型参数的极大似然估计值 参数 估计值 参数 估计值 参数 估计值 参数 估计值 Parmeter 上a Parameter Estma Parameter 上sma 16254 44 146 15649 10226 14849 6 14795 10370 6 162 5 表5水稻南京6号(P)X广丛(P)株高的有关遗传参数估计值 3讨论 Table 5 The estimates of genete parameters of plant heght of 通过A1~D4模型共17 the rire cross bety 个模型比较本文IECM算法与 1阶参数 估计值 2阶参数 估计值Estmate Ist orde 2nd order 文献的EM算法,IECM算法 Estm ate BI B2 F2 的极大对数似然函数值比相应 EM算法的结果要大300~600, 1011 346 2485 2913 IECM算法的AIC值比相应的 22 结果要小600~1300。因此 0785 531 IECM算法的结果要比EM算 ·0156 法的结果更好,说明ECM算法 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net
合水稻株高为 2 对主基因+ 多基因的遗传。模型的扩展使分析不局限于D , 更确切地反应了 实际数据的性质。 表 3 E-2 模型的适合性检验 Table 3 Tests for goodness of f it of model E-2 模型 U 2 1 U 2 2 U 2 3 nW 2 D n P1 0. 48 (0. 49) 0. 20 (0. 65) 0. 82 (0. 37) 0. 196 (> 0. 05) 0. 143 (> 0. 05) F1 0. 20 (0. 65) 0. 61 (0. 44) 1. 89 (0. 17) 0. 199 (> 0. 05) 0. 178 (> 0. 05) P2 0. 20 (0. 89) 0. 16 (0. 69) 1. 06 (0. 30) 0. 118 (> 0. 05) 0. 116 (> 0. 05) B1 0. 00 (0. 96) 0. 03 (0. 88) 0. 19 (0. 66) 0. 088 (> 0. 05) 0. 100 (> 0. 05) B2 0. 10 (0. 76) 0. 03 (0. 87) 0. 29 (0. 59) 0. 040 (> 0. 05) 0. 068 (> 0. 05) F2 0. 00 (0. 99) 0. 00 (1. 00) 0. 00 (0. 97) 0. 049 (> 0. 05) 0. 037 (> 0. 05) E 22 模型时全部 1 阶、2 阶分布参数 估计值列于表 4, 由 表 4 计算出 1 阶、2 阶遗传参数估计值 列 于 表 5。 将 此 结 果 与 Gai and W ang ( 1998) [9 ] 的 D 模 型 结果相比, 第 1 对主 基因的加性和显性效应、显性度(27. 11、21. 28、0. 785) 与D 模型的 1 对主基因相近或略小些 (29. 15、24. 12、0. 83)。E 22 模型中增加了第 2 对主基因, 其加性效应只有第 1 对主基因的 1ö3, 且显性不明显。多基因的效应虽然不大, 但 E 22 模型和D 模型一方面多基因效应的成 分不同, 且加性和显性效应有明显差别。E 22 模型主基因效应在B1、B2 和 F2 3 世代为 70. 76 ~ 94. 12 (% ) , 多基因遗传率为 3. 01~ 8. 07 (% ) , 比在D 模型下较一致。总之, 水稻株高性 状主基因是起决定作用的, 通过将模型扩展到 E , 增加了对第 2 对主基因的了解。原来只有 D 模型时, 这第 2 对主基因的效应是混杂在多基因的效应中。 表 4 E-2 模型参数的极大似然估计值 Table 4 The max imum l ikel ihood estimates in model E-2 参数 Param eter 估计值 Estim ate 参数 Param eter 估计值 Estim ate 参数 Param eter 估计值 Estim ate 参数 Param eter 估计值 Estim ate Λ1 162. 54 Λ44 146. 76 Λ62 156. 49 Λ68 102. 26 Λ2 148. 49 Λ51 154. 56 Λ63 147. 95 Λ69 93. 73 Λ3 103. 70 Λ52 146. 03 Λ64 162. 35 Ρ 2 19. 23 Λ41 164. 27 Λ53 106. 17 Λ65 150. 66 Ρ 2 4 22. 69 Λ42 152. 58 Λ54 97. 63 Λ66 142. 12 Ρ 2 5 44. 08 Λ43 158. 45 Λ61 168. 18 Λ67 113. 95 Ρ 2 6 48. 36 表 5 水稻南京 6 号(P1) ×广丛(P2) 株高的有关遗传参数估计值 Table 5 The estimates of genetic parameters of plant he ight of the r ice cross between nanjing No. 6 and guangcong 1 阶参数 1st order param eter 估计值 Estim ate 2 阶参数 2nd order param eter 估计值 Estim ate B1 B2 F2 m 133. 12 Ρ 2 P 53. 11 853. 26 563. 86 d a 27. 11 Ρ 2 mg 42. 65 603. 78 532. 55 d b 10. 11 Ρ 2 pg 3. 46 24. 85 29. 13 ha 21. 28 Ρ 2 e 19. 23 19. 23 19. 23 hb - 1. 58 h 2 m g (% ) 80. 31 70. 76 94. 45 haöd a 0. 785 h 2 pg (% ) 8. 07 3. 01 5. 31 hböd b - 0. 156 [d ] - 7. 81 [h ] - 4. 34 3 讨论 通过 A 21~ D 24 模型共 17 个模型比较本文 IECM 算法与 文献[9 ]的 EM 算法, IECM 算法 的极大对数似然函数值比相应 EM 算法的结果要大 300~ 600, IECM 算法的 A IC 值比相应的 结 果 要 小 600~ 1300。 因 此, IECM 算法的结果要比 EM 算 法的结果更好, 说明 IECM 算法 390 作 物 学 报 26 卷
4期 盖钧镒等:QTL混合遗传模型扩展至2对主基因+多基因时的多世代联合分析 391 更易收敛。同时,本文在估计环境方差时不像文献只用P、F、P:3个不分离世代,将每 成分分布均做分解,故应用了6个世代的有关信息,这也是降低A1C值的一个原因。 分布平均数间的约束条件数是分布平均数减去一阶遗传参数,E模型的分布平均数间有 6个约束条件,D模型有2个约束条件:g1=u1-He-61+H6=0和g=51-H-H+H6 =0,这就补充了文献[9]中D模型的分布平均数间无约束条件的不足。 比较Gai and W ang(1998)的结果和本文结果,在A、B、C和D类模型中只能发现遗 传效应最大的主基因,在拓展E类模型后则可发现遗传效应最大和次大的2个主基因。因 此,拓展2对主基因+多基因的混合遗传模型是必要的。比较利用个别世代的分离分析结果 和利用多个世代的联合分析结果,利用回交世代群体只能发现遗传效应最大的1对主基因和 遗传效应很小的1对主基因,这可能是由于利用个别世代的信息较少或环境方差的估计误差 较大的缘故。因此,有必要拓展利用环境误差较小的家系世代的重复试验的分析方法,这将 另文报道。此外,在完成了E模型的基础上自然会考虑3对主基因+多基因模型。鉴于这种 情况的推导更加复杂,有待于今后的工作。但从孟德尔主基因的一般情况来看,最常见还是 1、2对主基因的实验,更多的也己很少应用了。 参考文献 1盖钧锐,管荣展。王建康世界科技研究与发展。199,21(:3本40 马育华植物育种的数量遗传学基础南京江苏科技出版社1982 3 Elston R C.J Steward Geneties,1973.73:695-711 4莫惠栋作物学报.1993.19(1):6 5姜长鉴,莫惠栋作物学报,1995,21(6:64下648 6王建康,盖钧能遗传学报,1997,24(5:432440 7盖钧拉,王建康作物学报,1998,24(4):402>409 8王建康.盖钧槛作物学报,198,24(6):65659 9 GaiJ.J W ang Theor A pp/Genet,1998.97:1162-1168 10王建康.盖钧撖生物数学学报.1995.10(3):87一92 11 Dampster A P.N M Laird,D B Rubin J.R.Surist B.,1977.3938 12王建康.盖钧槛生物数学学报,1997,12(5外:540548 13 Akake H h:PR Krishnaiah (ed)pp/Amsterda:North-Hollnd Publish ing Co 267278 4-009 China Academic Joumal Eleetronie Publishing House.All rights reserved.http:/www.enki.net
更易收敛。同时, 本文在估计环境方差时不像文献[9 ]只用 P1、F1、P2 3 个不分离世代, 将每一 成分分布均做分解, 故应用了 6 个世代的有关信息, 这也是降低A IC 值的一个原因。 分布平均数间的约束条件数是分布平均数减去一阶遗传参数, E 模型的分布平均数间有 6 个约束条件; D 模型有 2 个约束条件: g 1= Λ41 - Λ42 - Λ61+ Λ62= 0 和 g 2= Λ51 - Λ52 - Λ62+ Λ63 = 0, 这就补充了文献[ 9 ]中D 模型的分布平均数间无约束条件的不足。 比较 Gai and W ang (1998) [9 ]的结果和本文结果, 在A 、B、C 和D 类模型中只能发现遗 传效应最大的主基因, 在拓展 E 类模型后则可发现遗传效应最大和次大的 2 个主基因。因 此, 拓展 2 对主基因+ 多基因的混合遗传模型是必要的。比较利用个别世代的分离分析结果 和利用多个世代的联合分析结果, 利用回交世代群体只能发现遗传效应最大的 1 对主基因和 遗传效应很小的 1 对主基因, 这可能是由于利用个别世代的信息较少或环境方差的估计误差 较大的缘故。因此, 有必要拓展利用环境误差较小的家系世代的重复试验的分析方法, 这将 另文报道。此外, 在完成了 E 模型的基础上自然会考虑 3 对主基因+ 多基因模型。鉴于这种 情况的推导更加复杂, 有待于今后的工作。但从孟德尔主基因的一般情况来看, 最常见还是 1、2 对主基因的实验, 更多的也已很少应用了。 参 考 文 献 1 盖钧镒, 管荣展, 王建康. 世界科技研究与发展, 1999, 21 (1): 34~ 40 2 马育华. 植物育种的数量遗传学基础. 南京: 江苏科技出版社. 1982 3 Elston R C, J Stew ard. Genetics, 1973, 73: 695~ 711 4 莫惠栋. 作物学报, 1993, 19 (1): 1~ 6 5 姜长鉴, 莫惠栋. 作物学报, 1995, 21 (6): 641~ 648 6 王建康, 盖钧镒. 遗传学报, 1997, 24 (5): 432~ 440 7 盖钧镒, 王建康. 作物学报, 1998, 24 (4): 402~ 409 8 王建康, 盖钧镒. 作物学报, 1998, 24 (6): 651~ 659 9 Gai J, J W ang. T heor A p p l Genet, 1998, 97: 1162~ 1168 10 王建康, 盖钧镒. 生物数学学报, 1995, 10 (3): 87~ 92 11 Demp ster A P, N M L aird, D B Rubin. J. R. S tatist. B. , 1977, 39: 1~ 38 12 王建康, 盖钧镒. 生物数学学报, 1997, 12 (5): 540~ 548 13 A kaike H. In: P R Krishnaiah (ed. ) A p p lication of S tatistics, Am sterdam: North2Holland Publishing Co. 1977. 27~ 41 14 M eng X L , D B Rubin. B iom etrika, 1993, 80 (2): 267~ 278 4 期 盖钧镒等: Q TL 混合遗传模型扩展至 2 对主基因+ 多基因时的多世代联合分析 391