正在加载图片...
6期 章元明等:数量性状分离分析中分布参数估计的ECM算法 705 方法两大类,。后者有采用 表1用M算法和正CM算法计算的24种遗传模型 AC准则,3川、BC准则和自 的极大对数以燃承数值 助Bootstrap)等方法。这些方法常 Table I The max inum log-likelhood function values (MLFV) 会导致比如在利用F,世代讲行主 基因存在的鉴定中不能有效地区分 itera ted ECM IECM a lgorithm 1个位点的1:2:1的3个正态分 极大对数似然值MLFV 极大对数似然值MLV 模型 模型 IECM 日M 布的混合和2个位点的9:6:1的 IECM 3个正态分布的混合,也不能有效 A 35963 32579 348785 318 A D 3512 地区分3:1的完全显性的2个正 A D 318 态分布的混合和1:3的负向完全 A D 112 显性的2个正态分布的混合。从参 B D 93 数估计角府来看闲不同草型的分 B 398 338 31838 布平均数间约束条件不同,致使分 B-5 42 布平均数的迭代公式不同,因此其 参数估计结果是不一致的。本研究 8-6 3 3782 E 的利用个别分离世代鉴定主基因存 在是建立在一定的遗传模型基础上 的,根据特定的遗传模型来确定成分分布数的,具有特定的遗传背景,其分布参数有特定的 遗传学意义,这把分布参数的估计和遗传参数的估计有机地结合在一起,具体表现在一阶分 布参数估计中考虑了通时一阶贵传参数得到的约束条件和鉴定多基闲存在中到分了分离世代 成分分布方差的数量遗传学构成。有效地克服了传统分析方法的缺陷23。鉴定多基因存 在中的统计假设不仅考虑了多基因存在与否的分布方差构成,还应考虑多基因是否存在的分 布平均数。这就是说在H。中不仅今多基因方差组分为0.还应今多基闲效应平均数为0 这才比较完整地表示出多基因不存在;在H,中两者均应存在。鉴定多基因存在的似然比检 验统计量入的自由度不是固定为1而是在H。和H中相差的遗传参数个数。 自M算法提出后,虽对M算法的改进算法较多,如用相对简单的S个CM步骤代 替计算复杂的BM算法M步骤的EOM算法),在CM步骤中用实际似然函数代替ECM算 法中的期望完全资料似然函数的EQME算法,用M算法获得近似方差-协方差矩阵的 SM算法,但在主+多基因混合遗传分析的参数估计中一般是采用BM算法心?。然 而,在2对主+多基因混合遗传分析中,采用M算法进行参数估计显然是不可靠的,特别 是有家系世代时。这是因为它忽略的项数较多。若采用EQM算法进行参数估计,也因多基 因和环境两种方差估计时会出现高次方程,用Gauss N ew ton法解高次方程时其解可能不唯 致使迭代可能不收敛。本文以M和ECM算法为基础从数量遗传学观点出发将成分分布 方差剖分为主基因、多基因和环境三种方差组分,推导出C,步骤的一般迭代公式。经大量 计算表明,只要方差组分不为负数,QM,步骤中的迭代是收敛的。此外,还有效地降低了参 数估计维数,节约了计算时间,在环境方差估计中利用了所有群体的所有分布,克服了以前 方法在估计误差方差时只考虑了亲本和F1群体分布方差的缺陷。 在参数估计前选择分布参数初值对于2对主+多基因混合遗传分析是十分重要的。Bk© )994)将BM算法与Nwo0n选代结合克服初值选择问题,Lard(1973)建议用© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 表 1 用 EM 算法和 IECM 算法计算的 24 种遗传模型 的极大对数似然函数值 Table 1 The max imum log-likelihood function values (MLFV) of 24 genetic modelscalculated through the EM and iterated ECM (IECM ) algor ithm 模型 极大对数似然值ML FV EM IECM 模型 极大对数似然值ML FV EM IECM A 21 3596. 38 3257. 94 D 3487. 85 3185. 95 A 22 3984. 39 3460. 48 D 21 3512. 90 3185. 30 A 23 3618. 97 3300. 69 D 22 3801. 36 3185. 30 A 24 4122. 60 3631. 70 D 23 3514. 13 3264. 98 B21 3521. 80 3224. 81 D 24 4160. 12 3422. 24 B22 3538. 69 3225. 94 E 3185. 93 B23 3983. 97 3381. 16 E21 3183. 80 B24 4093. 22 3422. 23 E22 3172. 06 B25 3618. 85 3444. 06 E23 3226. 75 B26 - 3389. 06 E24 3254. 51 C 3782. 60 3287. 47 E25 3195. 23 C21 3804. 39 3290. 65 E26 3337. 26 方法两大类[2, 3, 17 ]。后者有采用 A IC 准则[2, 3, 17 ]、B IC 准则[17 ]和自 助(Boo tstrap ) 等方法。这些方法常 会导致比如在利用 F2 世代进行主 基因存在的鉴定中不能有效地区分 1 个位点的 1∶2∶1 的 3 个正态分 布的混合和 2 个位点的 9∶6∶1 的 3 个正态分布的混合; 也不能有效 地区分 3∶1 的完全显性的 2 个正 态分布的混合和 1∶3 的负向完全 显性的 2 个正态分布的混合。从参 数估计角度来看, 因不同模型的分 布平均数间约束条件不同, 致使分 布平均数的迭代公式不同, 因此其 参数估计结果是不一致的。本研究 的利用个别分离世代鉴定主基因存 在是建立在一定的遗传模型基础上 的, 根据特定的遗传模型来确定成分分布数的, 具有特定的遗传背景, 其分布参数有特定的 遗传学意义, 这把分布参数的估计和遗传参数的估计有机地结合在一起, 具体表现在一阶分 布参数估计中考虑了通过一阶遗传参数得到的约束条件和鉴定多基因存在中剖分了分离世代 成分分布方差的数量遗传学构成, 有效地克服了传统分析方法的缺陷[2, 3, 18 ]。鉴定多基因存 在中的统计假设不仅考虑了多基因存在与否的分布方差构成, 还应考虑多基因是否存在的分 布平均数。这就是说, 在 H 0 中不仅令多基因方差组分为 0, 还应令多基因效应平均数为 0, 这才比较完整地表示出多基因不存在; 在H a 中两者均应存在。鉴定多基因存在的似然比检 验统计量 Κ的自由度不是固定为 1 而是在H 0 和 H a 中相差的遗传参数个数。 自 EM 算法[8 ]提出后, 虽对 EM 算法的改进算法较多, 如用相对简单的S 个 CM 步骤代 替计算复杂的 EM 算法M 步骤的 ECM 算法[12 ] , 在CM 步骤中用实际似然函数代替 ECM 算 法中的期望完全资料似然函数的 ECM E 算法[10 ] , 用 EM 算法获得近似方差2协方差矩阵的 SEM 算法[11 ] , 但在主+ 多基因混合遗传分析的参数估计中一般是采用 EM 算法[2~ 7, 9, 16 ]。然 而, 在 2 对主+ 多基因混合遗传分析中, 采用 EM 算法进行参数估计显然是不可靠的, 特别 是有家系世代时。这是因为它忽略的项数较多。若采用 ECM 算法进行参数估计, 也因多基 因和环境两种方差估计时会出现高次方程, 用 Gau ss2N ew ton 法解高次方程时其解可能不唯 一致使迭代可能不收敛。本文以 EM 和 ECM 算法为基础从数量遗传学观点出发将成分分布 方差剖分为主基因、多基因和环境三种方差组分, 推导出CM i 步骤的一般迭代公式。经大量 计算表明, 只要方差组分不为负数, CM i 步骤中的迭代是收敛的。此外, 还有效地降低了参 数估计维数, 节约了计算时间, 在环境方差估计中利用了所有群体的所有分布, 克服了以前 方法在估计误差方差时只考虑了亲本和 F1 群体分布方差的缺陷。 在参数估计前选择分布参数初值对于 2 对主+ 多基因混合遗传分析是十分重要的。Bake (1994) 将 EM 算法与N ew ton2Raph son 迭代结合克服初值选择问题[19 ] , L aird (1978) 建议用 6 期 章元明等: 数量性状分离分析中分布参数估计的 IECM 算法 705
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有