正在加载图片...
评述 第51卷第19期2006年10月学通 通过σ2调节b.估计值的一股原理.以达到直OTL的 的互作.其功效偏低.这是由于相邻标记间的多重共 效应不压缩而假OT,的效应值向0压缩的目的 线性关系.使其与合并,特别是标记密度大的情 Braak等人 认为,上述方法的先验分布不当 并进行了改进.但是,通过比较发现两者效果相差不 在实际应用时. 一种方法是先用惩罚似然方法 大· 与此相似的还有考虑不同先验方差或平均数的 对所有标记的主效与互,作进行分析(这时也可嵌合可 情形.对于前者,Yi等人和Oh等人假定每 变区间的思想以减少模型变量个数,然后用 效应b:服从平均数为0.方差较大和较小的两个正态 Bavesian压缩估计方法进行多OTL主效与互作的分 分布的混合分布,这就是他们独立成用George和 所:另一种方法是采取可变区间Bavesian比宿活 McMulloch判的变量选择方法来定位OTL的随机博 方法进行多OTL主效与互作分析 索变量选择方法.其中,先验方差不从数据中估计而 2QTL精细定位 是人为确定.这导致了它比上述压箱估计方法效果 初步定位OTL只说明在某区域可能存在一个控 差.对于后者,Zhang等人假定每一效应b,服从 平均数为正、零和负的3个正态分布的混合分布,提 制数量性状的基因,即我到 一个基因座距基因还有 一段距离 -方面OT.定位的精度还不高其位 出了OTL定位的Bavesian分类方法 的95%置信区间通常为10-30cM5m,另 方面目 1.3惩罚最大似然方法 1 cM的主要农作物DNA序列长度至少包括几】 针对用上述方法估计互作模型参数的运行时间 万碱基因此 之是 长的不足,有必要用极大似然方法实现其思想,以节 6置信区何为1-5cM的Q定位5 省运行时间.这就是惩罚最大似然方法.遗传模型与 有 即发展新的统计片 模型(3)相同,此时,m为全基因组上标记数.若将所 利用次级分离雕体 有参数的联合先验分布作为惩罚因子,与似然函数 一起构成惩罚似然函数.通过最大化延罚似然函翻 网在酹究高梁开花期遗传时用区间行 就可以估计QTL效应及其先验分布参数.应当指出 图只检测到1个QTL 用已检测的QTL效 来调整表型观测值后 发现另外两个Q 这被其 该方法对参数的先验分布比较敏感,研究发现。下述 这说明统计方法的合理利用可 先验是可行的x,风x1/ 实验所证列 掘出更多的清在信息 这只是对连锁信息的 的 利用 起同时从 ,只是将单QTL模型拓展到多QTL模 现有资料中估计例如.QTL效应能 连锁不平衡信息也是可供利用的 估计 是出用连线 6-+j 较 它在人关 疾病 中应用相当 (4) 在作 日益 到重视 我 者在 方面 若o-0,则6→4由于,=6,+,不断选代 精 后,会使弓,一→0.这说明假QTL的效应估计值接近0, 而真实QTL的效应估计值远离0,以检测主效与互作 的复杂分 QTL,以达到在参数估计过程中选择变量的目的,并 结 解决了最大似然方法中待估参数个数远大于样本容 量时参数估计的难题.模型中待估参数个数量多为 型方法 古服 该缺点」 前者已 用于玉米 样本容量的10倍时,该方法是有效的21,s.Y等人6 花时 将该法作为精确定位QTL的方法之 这可可能是中 联合 于在模型拟合初期误差方差估计值偏小,从而增大 就可直 用它进行 的关联分析或互 了检测小效应QTL的功效.然而,对于相邻标记间 日在玉米石 www.scichina.com 2225 190 ing Hous.Ath ki.ne 评 述 第 51 卷 第 19 期 2006 年 10 月 www.scichina.com 2225 通过σ j 2 调节 bj 估计值的一般原理, 以达到真 QTL 的 效应不压缩而假 QTL 的效应值向 0 压缩的目的. Braak 等人[50]认为, 上述方法的σ j 2 先验分布不当 并进行了改进. 但是, 通过比较发现两者效果相差不 大. 与此相似的还有考虑不同先验方差或平均数的 情形. 对于前者, Yi 等人[51]和 Oh 等人[52]假定每一 效应 bj 服从平均数为 0, 方差较大和较小的两个正态 分布的混合分布, 这就是他们独立应用 George 和 McMulloch[53]的变量选择方法来定位 QTL 的随机搜 索变量选择方法. 其中, 先验方差不从数据中估计而 是人为确定. 这导致了它比上述压缩估计方法效果 差[32]. 对于后者, Zhang 等人[54]假定每一效应 bj 服从 平均数为正、零和负的 3 个正态分布的混合分布, 提 出了 QTL 定位的 Bayesian 分类方法. 1.3 惩罚最大似然方法 针对用上述方法估计互作模型参数的运行时间 长的不足, 有必要用极大似然方法实现其思想, 以节 省运行时间. 这就是惩罚最大似然方法. 遗传模型与 模型(3)相同, 此时, m 为全基因组上标记数. 若将所 有参数的联合先验分布作为惩罚因子, 与似然函数 一起构成惩罚似然函数, 通过最大化惩罚似然函数 就可以估计 QTL 效应及其先验分布参数. 应当指出, 该方法对参数的先验分布比较敏感, 研究发现, 下述 先验是可行的: p(b0)∝1, p(σ e 2 )∝1/σ e 2 , p(bj) = N(µj, σ j 2 ), p(µj) = N(0, σ j 2 /η)和 p(σ j 2 )∝1. 该方法的特点在于各 效应的先验平均数与先验方差同各效应一起同时从 现有资料中估计. 例如, QTL 效应的估计值为 1 2 22 1 2 2 0 1 ˆ . n j ij e j i n q ij i ik k j e j i kj b x x y b xb σ σ µσ σ − = = ≠ ⎛ ⎞ = + ⎜ ⎟ ⎝ ⎠ ⎡ ⎤ ⎛ ⎞ × −− + ⎢ ⎥ ⎜ ⎟ ⎣ ⎦ ⎝ ⎠ ∑ ∑ ∑ (4) 若σ j 2 →0, 则 ˆ j b →µj. 由于 ˆ ˆ ( 1) j j µ η = + b , 不断迭代 后, 会使 ˆ j b →0. 这说明假 QTL 的效应估计值接近 0, 而真实 QTL 的效应估计值远离 0, 以检测主效与互作 QTL, 以达到在参数估计过程中选择变量的目的, 并 解决了最大似然方法中待估参数个数远大于样本容 量时参数估计的难题. 模型中待估参数个数最多为 样本容量的 10倍时, 该方法是有效的[21,55]. Yi等人[56] 将该法作为精确定位 QTL 的方法之一, 这可能是由 于在模型拟合初期误差方差估计值偏小, 从而增大 了检测小效应 QTL 的功效. 然而, 对于相邻标记间 的互作, 其功效偏低. 这是由于相邻标记间的多重共 线性关系, 使其与 b0 合并, 特别是标记密度大的情 形. 在实际应用时, 一种方法是先用惩罚似然方法 对所有标记的主效与互作进行分析(这时也可嵌合可 变区间的思想以减少模型变量个数 ), 然后用 Bayesian 压缩估计方法进行多 QTL 主效与互作的分 析; 另一种方法是采取可变区间 Bayesian 压缩估计 方法进行多 QTL 主效与互作分析. 2 QTL 精细定位 初步定位 QTL 只说明在某区域可能存在一个控 制数量性状的基因, 即找到一个基因座, 距基因还有 一段距离. 一方面, QTL 定位的精度还不高, 其位置 的 95%置信区间通常为 10~30 cM[57]; 另一方面, 即 使 1 cM 的主要农作物 DNA 序列长度至少包括几十 万碱基. 因此, 精细定位 QTL 是应当考虑的. 它是指 QTL 位置的 95%置信区间为 1~5 cM 的 QTL 定位[58]. 目前, 精细定位 QTL 有 3 种途径, 即发展新的统计方 法、增加重组的机会和利用次级分离群体. Lin 等人[59]在研究高粱开花期遗传时, 用区间作 图只检测到 1 个 QTL, 但是, 用已检测的 QTL 效应 来调整表型观测值后, 发现另外两个 QTL, 这被其他 独立实验所证实. 这说明统计方法的合理利用可挖 掘出更多的潜在信息. 不过, 这只是对连锁信息的巧 妙利用, 只是将单 QTL 模型拓展到多 QTL 模型. 实 际上, 连锁不平衡信息也是可供利用的. Bodmer[60]最 早提出用连锁不平衡进行 QTL 的精细定位. 由于不 构建分离群体和解析度较高[61,62]等原因, 它在人类 复杂疾病的 QTL 定位研究中应用相当广泛. 但是, 在作物 QTL 定位中应用较少. 不过, 近年来日益受 到重视[63], 我国学者在水稻和小麦方面进行了探索. 它的精度取决于研究群体的连锁不平衡的结构, 群 体中分布不均的等位基因亚群往往会导致较高的假 阳性. 例如, 复杂的育种历史和野生种间有限基因流 动造成了种质资源内的复杂分层, 这使关联分析复 杂化[64,65]. 幸运的是, Pritchard 等人[66]结合群体结构 估计与关联分析而提出的新方法及 Yu 等人[65]提出的 混合模型方法克服了该缺点, 前者已应用于玉米开 花时间基因 Dwarf8 的定位. 当然, 将连锁不平衡与 连锁信息联合, 精度会更高[67]. 若 QTL 区间存在候 选基因, 就可直接利用它进行基因的关联分析或互 补检验. 这种方法已在玉米研究中应用[68,69]
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有