农业院校《试验设计与分析》课程参考资料（数量性状分析方法）贝叶斯概率及其在数量遗传领域的一些应用.pdf_大学文库

江苏农业研究 JIANGSU AGRICULTURAL RESEARCH 文章编号：1000-2049(2001)·01·0074-05 贝叶斯概率及其在数量遗传领域的一些应用莫惠栋 (插州大学教量遗传研究室，江苏扬州225009) 中宙分类号：0 212．8；S11+4 文献标识码：A BAYES’PRoBABILITY AND SOME APPLICATIoN IN QUANTITA’nVE GENETICS Mo Hui—dong (Lab 0，Qua．GeneL，Yangzh∞U,dv，Yangzhou 2250{)9，China) 贝叶斯(Bayes)概率是复杂事件的条件概率，在现代统计学、决策学、生态学、医疗诊断学和分子生物学等领域都有着广泛的应用，并已成为这些学科领域中一些重要原理和方法的依据之一“11。本文简述贝叶斯概率的基础知识及其在数量遗传领域的一些可能应用，以供读者进一步研读一些国际前沿报道和深化自己的研究。 l基本概率 1．I概率加法律设事件^、B和再的概率依次为P(A)、P(上i)和P(A)．则在A和B互斥(Mutually exclusive)时，事件或A或B的概率为： P(A或B)一P(A)+P(上『)； (1) 在^和A互补(Complement)时，事件^的概率为： P(A)一1一P(A)； (2) 事件A和占的联合(Union)记作以UB，它包括事件或A、或B、或A和B发生。事件A和占的相交(Intersection)记作AnB，它指事件A和B同时或相继发生。因此，事件^和占联合的概率为： P(^U B)=P(A)+P(B)一P(A n B)； (3) 若A和B非相交(互斥)，则P(An占)一0，式(3)即式(1)。上述基本概念可用图1解释。图1中的^、B集表明； P(^)一0．5，P(A)=0．5；P(上})一0．2，P(雷)一0．8； P(AfqB)一0．05，和P(AU占)一o．5+o．2-o．05=o．65。 1．2概率乘法律设P(A)和P(片)分别为事件一和B的非零概率，则在给定B下(B事件发生下)事件A发生的概率称为条件概率，记作P(AIB)： P(以IB)=P(A n B)／P(B)； (4) 在给定^下事件占发生的条件概率则记作P(Bl^)：圉i事件和概率的解释 Figure 1 Explanation of events and probabilRies 收蔫日期：2000—07—28 作者蔺舟：奠惠拣“934一)，男．浙江温岭人．扬卅|大学教授、博士生导Im，主蒉从事数量遗传学和生物统计学研究。 E—mJil：gtls@yzu．edu．cn 万方数据

第1期英寒栋：贝叶所领本及其在数量遗传领城的一些应用 75 P(BIA)=P(AN B)/P(A) (5) 例如从图1可得：P(A1B)=0.05/0.20=0.25,P(B|A)=0.05/0.50=0.10。从式(4)和式(5)可以得到事件A和B相交的概常P(A门B)为： P(A∩B)=P(AIB)P(B) =P(BIA)P(A) 如果A和B独立，则P(AB)=P(A)和P(BA)=P(B). 2贝叶斯概率 2.11个简例设一人群中有0.1%的人患有肺结核(Tuberculosis,简记作TB)。现有一种简易检测方法，对患TB 人群的检测结果是95%患者呈阳性反应，但对未患TB人群检测亦有2%的人是阳性反应。现问在阳性结果中患TB者的概率？这里的情形是：人群愿TB概率P(TB)=0.001,其中检测为阳性(+)和阴性（一）的条件概率分别为P(+|TB) 0.95和P(一-1TB)=0.05:人群未电TB概客P(非TB)》 0.001 ,999,其中检测为阳性和阴性的条件概率分别为P(+|非TB)=0.02和P(-1非TB)=0.98,要求 +n非TB 的解答是P(TB1十)=？非B P(TB!+)易然就是该人群中事件TB∩+的概率 P(TBn+)对事件的概率P(+)之比，而P(+)则是TB 人群和+同时发生”及“非TB人群和十同时发生”的概率图2P(+)=P(+∩TB) 之和（图2），即 P(+门非TB)的几何解释 P(+)=P(+∩TB)+P(+∩非TB)。 (7) P(+)-P(+TB)+P(+TB 故根据式(6)和式(7)可得： P(TBI+)=P(TB+)/P(+) =+TBP+2PTBpT =0.95×0.00￥882×09=0.0454 这表明在阳性结果中期望仅有4.54%的人恋TB(其余95.46%的人为非TB).所以该简易检测方法可以作为思TB病者的辅助诊断[P(+|TB)=0.95],却不能作为发现TB患者的依据[P(TB!+)= 0.04541 22一般公式以上简例容易推广到一般情形。设完全事件系A具有互斥事件A,A2,,A,其非条件概率 P(A)>0和∑P(A)=1,则在关连事件B发生下事件A(使为=1,2，…中的任一指定值)的条件概率.，即贝叶断概常P(AB)为 P(BA)P(A) (8) P(BIA)P(A) 式(8)的分子是事件B和A,同时发生的概率，即P(B门A):分母是事件B的非条件概率，即P (B),图3是这一结果的几何解释：图中的空间S被A事件系分割成5个互斥部分(i=1,2,“5),其中万方数据

第1期莫惠栋：贝叶斯概率及其在数量遗传领域的一些应用 75 P(BIA)一P(A n B)／P(A)。例如从图1可得：P(AIB)一O．05／0．20=0．25，P(BlA)=O．05／0．50=0．10。从式(4)和式(5)可以得到事件A和上}相交的概率P(ANB)为： P(A n B)一P(AIB)P(B)1 一P(BfA)P(A)J 如果^和B独立，则P(AlB)一P(A)和P(BlA)=P(B)。 2贝叶斯概率 (5) (6) 2．1 1个简例设一人群中有0．1％的人患有肺结W／(Tuberculosis，简记作TB)。现有一种简易检测方法，对患TB 人群的检测结果是95％患者呈阳性反应，但对未患TB人群检测亦有z％的人呈阳性反应。现问在阳性结果中患TB者的概率? 这里的情形是：人群患TB概率P(TB)=O．001，其中检测为阳性(+)和阴性(一)的条件概率分别为P(+lTB) 一0．95和P(一lTB)一0．05；人群未患’FB概率P(非TB) 一1—0．001—0．999，其中检测为阳性和阴性的条件概率分别为P(+I非TB)一0．02和P(一I非TB)一0．98。要求的解答是P(TBl+)一? P(TBl+)显然就是该人群中事件TBn+的概率 P(TBn+)对事件+的概率P(+)之比。而P(+)则是“TB 人群和+同时发生”及“非TB人群和+同时发生”的概率之和(图2)，即 P(+)一P(+n 7FB)+P(+n非TB)。 (7) 故根据式(6)和式(7)可得： P(TBI+)一P(TB n+)／P(+) 图2 P(+)一P(+nTB)+ P(+n非TB)的几何解释 Figure 2 Geometric explanation for P(+)一P(+nTB)+P(+n非TB) 一丽诹名器等器丽。0’04595 0 00 0 02 0 999 4。 (O． ×． 1)+(． ×． ) 一～这表明在阳性结果中期望仅有4．54％的人患TB(其余95．46％的人为非TB)。所以该简易检测方法可以作为患TB病者的辅助诊断[P(+fTB)=0．953，却不能作为发现TB患者的依据[P(TB}+)一 0．045 4]。 2．2一般公式以上简例容易推广到一般情形。设完全事件系A具有互斥事件^一，Az，…，^。，其非条件概率 P(^)>o和FP(A．)一1；则在关连事件占发生下事件A。船为j=】，2，…，”中的任一指定值)的条件概率，即贝叶斯概率P(A。IB)为： P(AIB)一甄可石河西了F可可P(石BI河AD琢P丁(AFD i了下西酉习甄j P(B lA)P(A) ∑P(BIA．)P(4．’ (8) 式(8)的分子是事件B和A。同时发生的概率，即P(BnAt)；分母是事件B的非条件概率，即P (占)。图3是这一结果的几何解释：图中的空间s被A事件系分割成5个互斥部分(i=1，2，…，5)，其中万方数据

76 江苏农业研究第22卷的B事件(圆)与各个At均有相交，即存在BNA·。所以B发生下A的条件概率为； №㈣一等一赢P(B而n A,)乩展开上式右边即得式(8)。注意：在B和A不相交时式(8)亦适用，这时P(BnA。)一P(A。IB)=0。一般情况下，事件A是自然状态(States of na— ture)或难以观察但可推断的事件(如基因型)，事件 B则是试验中的观察事件(如表现型)。所以P(A。J上}) 是可观察事件B发生下A发生的似然值(Likeli— hoods)。由于P(A．)发生于观察事件上}之前，而 P(AIB)则计算干观察事件B之后，故又分别称 P(A)和P(A。IB)为事前概率(Prior probability)和事后概率(P0sterior probabifity)口]。 2．3进一步推广式(8)可推广到以下2种情形：圉3贝叶斯概率P(A。l曰)的几何解释 Figure 3 Geometric explanatlon for Bayes’probability P(A·IB) 1)如果B也是一个事件系，由互斥事件B。，B。，…，B．组成，则式(8)变为： P(A I且)一÷掣业嫂绁一。 (9) ∑∑P(B，Ia．)P(A．’ 式(9)中z为J一1，2，…．m中的任一指定值。 2)如果B是多个观察结果．例如不是一个个体的表型值，而是该个体的后裔或其近缘系的5个个体表型值，则可以向量以一(6】，b2，…，n)，(j一1，2，…．m)， (1 0) 代B，即式(8)变为： P(A JB)一∑P豇(bt{丽Ak)P丽(A,丽)。(11i ) ￡J￡J…i“I…“}1 3应用实例 3．1由个体表型值推断基因型在大麦矮秆系76—2104／正常秆系0208的 F：代发现，该杂交的株高遗传为完全显性，由2 个正态分布Nt(67．68 cm，79．94 cm2)和N2 (97．62 cm，79．94 cm2)混合而成口】。Nl为矮秆基因型gg组，N：为正常秆基因型印+GG 组，其理论比率分别为1／4和3／4。据此可求得在这2个分布下不同株高组的概率分布于表 1。现希望知道在B：组(50～70 cm)和目组(90 ～110 cm)选择时，所得个体的株高基因型为 gg或G_g+GG的概率? 表1大麦76．2104／0208的F：代株高的概率分布 Table l Probability distribution of plant height in the B population of barley lines 76-2104／0208 此处n一2，m=5；且P(B2IAl)一o．578 4，P(岛1A2)；o．001 0，P(B。lA L)一O．006 2，P(且IAz) 0．719 8。故根据式(9)可得：万方数据

第1期莫惠练：贝叶斯瓶率及其在数量遗传领城的一些应用 77 PA1)-a51x848篇gX75-Q98, PM1a)-a58x9&源gX07万-Q0s2, PAB)-a62x02器18票6X07西=a02. 0.7198×0.75 P(A1B)=0.0062×0.25+0.7198×0.75-0.9971. 上述结果表明：在B,组选得个体的株高基因型几平都是gg(达99.48%)，而在B,组个体的株高基因型则几乎都是Gg或GG(达99.71%).所以此例的株高虽然是连续的相互重的混合分布（参见文献[6]图1)，但对选择gg或Gg十GG基因型并无多大障碍，因为分布的重选区主要在T0~90cm内 (其间gg占39.9%，Gg+GG占61.1%).这种情况在具有主基因的数量性状上有一定普遍性。 3.2由标记表现型推断基因型在DNA分子标记分析中一个个体的任表2在M,为1,0，一1时M,基因型的亲件鞭车一标记座位的基因型都只有3种：即2份 Table 2 Conditional probabilityof M. DNA为P,纯合，P,P,杂合以及P纯合，可用 genotypes glven M.=1.0 and-1 代码1,0，一1表示。但表现型（电泳谱带的有 M Mo=1 Mo-0 Ma=-1 无)却可能是3种（共显性标记），2种（显性标 r(1-r 记)或1种（缺失标记），后两者为遗传信息不完 2r1-r 全标记，可用它们最邻近的信息完全标记和贝叶斯框率椎断其所属基因型.设M。和M,为相邻标记，其间重组率为r,则在M。取1,0，一1时，M,为 10 -1的概率如表2.表2中的r函数均为M,基因型的条件概率.例如在M,=1下，M,亦为1的摄率乃M。和M1间2条DNA均未发生交换的概率，故P(M:=1|M。=1)=(1一r):M:为0的概率乃有2条DNA一条发生交换另一条未发生交换的概率，故P(M,=0lM。=1)=2r(1一r):…等，这些领率是推晰信息不完全标记基因型的莲础。现设某染色体上有顺序标记MM,和M,M,=1(共显性标记)，M,可能为1或0（显性标记） M:可能为1,0或-1（缺失标记）：相应重组案依次为=0.1和=0.2。求M。=1下，M,为1或0的领率？M2为1,0或一1的概率？对于M.观事件是=[M。=1,M,=(1,0)].由于P(M,=1M,=1)=(1-=(1-0.1)2= 0.81,P(M1=01M。=1)-2(1-)=2×0.1×(1-0.1)=0.18和P(M。=1)=1,故 -0.81x+018xD=0.8182 0.18×1 PM,=01B)-0.81X0.18xT=0.1818. 即M1基因型为1和0的概串分别为0.8182和0.1818。对于M2,观察事件B=[M=1,M1=(1,0),M2=(1,0,-1)门.故必须考患M1一1时M:为1,0或 -1以及M,=0时M,为1.0或-1的6种组合，可简记为6=(1,1)，=(1,0)，6=(1，-1)，,= (0,1),=(0,0)和=(0，-1)。在M。-1下它们的条件概率为 P(6lM。=1=(1-r)2…(1-r)2=(1-0.1)2×(1-0.2)2=0.5184, P(6M。=1)=(1-r22(1-)=(1-0.1)2×2×0.2×(1-0.2)=0.2592 P(6,M=1)=(1-)·r=(1-0.1)X0.2=0.0324 P(hlM=1)=2(1-r)·n(1-n). =2×0.1×(1-0.1)×0.2×(1-0.2)=0.0288. 万方数据

第1期莫惠栋：贝叶斯概率及其在数量遗传领域的一些应用 P(A㈣I B=丽砸蒜器竿舞岳而而 P(A舢：)一丽丽黑器竿篇南而丽 P(A㈣IE一丽丽蒜焉竿描‰而丽 0．994 8， 0．005 2； =0．002 9． P(A：IBD一丽丽书等卑等等厕_o．997 1。上述结果表明：在B：组选得个体的株高基因型几乎都是gg(达99．48％)，而在B．组个体的株高基因型则几乎都是G奢或GG(达99．71％)。所以此例的株高虽然是连续的相互重迭的混合分布(参见文献[6]图1)，但对选择gg或G奢+GG基因型并无多大障碍，因为分布的重迭区主要在70～90 cm内 (其间gg占39．9％，G奢+6G占61．1％)。这种情况在具有主基因的数量性状上有一定普遍性。 3．2由标记表现型推断基因型在DNA分子标记分析中，一个个体的任一标记座位的基因型都只有3种：即2份 DNA为P。纯合、P。P：杂合以及P。纯合，可用代码1．0，一l表示。但表现型(电泳谱带的有无)却可能是3种(共显性标记)、2种(显性标记)或1种(缺失标记)。后两者为遗传信息不完全标记，可用它们最邻近的信息完全标记和贝表2在^f．为1。o，一1时埘．基因型的条件概率 Table 2 Conditional probability of MI genotypes given肌一1，0 and一1 叶斯概率推断其所属基因型。设M。和"。为相邻标记，其间重组率为r，则在肘。取1，0，一1时，肘。为 1．0，一1的概率如表2”1。表2中的r函数均为肘．基因型的条件概率。例如在M。=1下，M。亦为1的慨率乃肘。和M。间2条DNA均未发生交换的概率，故P(M，一1IM。一1)一(1--r)2；M。为0的概率乃有2条DNA一条发生交换另一条未发生交换的概率，故P(M．一0lM。=1)一2r(1一r)；……等。这些概率是推断信息不完全标记基因型的基础。现设某染色体上有顺序标记肘。、M。和肘：，M。一1(共显性标记)，Mt可能为1或0(显性标记)，肘：可能为1，0或一1(缺失标记)；相应重组率依次为n一0．1和r。一0．2。求Mo一1下，M。为1或0的概率7．!lfz为1，0或一1的概率? 对于Ⅳ。，观察事件是B；[M。一l，M。一(1，o)]。由于P(JIlf，=1IM。=1)=(1一r。)2=(1—0．1)2— 0．81，P(Ml一0lM。一1)一2r1(1一r1)一2X0．1×(1—0．1)一0．18和P(M。一1)一1，故刚。刮肛而i瓜器锰砦岩胖舄旨丽 0．81×1 2丽忑订可可了矿丙又可一0．818 2， P(M。=o|B)=丽-蓟了昌弩晕i‰=0．181 8。即M。基因型为1和0的概率分别为0．818 2和0．181 8。对于肘：，观察事件B一[M。一1，M，一(1，o)，M。一(1，0．一1)]。故必须考虑M-一1时Mz为1，0或一1以及M。一0时肘：为1．0或一1的6种组合，可简记为b，一(1，1)，bz=(1，o)，b，一(1，一1)，b4一 (O，1)，b；一(O，o)和b。一(O，一1)。在M。一1下它们的条件概率为： P(bl lMo一1)一(1mr．1)2·(1一r2)。一(1一o．1)2×(1一o．2)2=0．518 4， P(b2lM。一1)一(1一r。)2·2r：(1一r：)=(1—0．1)2×2×0．2×(1—0．2)一0．259 2， P(b，IM。=1)=(1一ri)2·一一(1—0．1)2×0．2 2—0．032 4， P(风IM。=1)一2r。(1一n)·n(1一n)，一2×0．1×(】一0．1)X0．2×(】一0．2)=0．028 8，万方数据

78 江苏农业研究第z2卷 P(b5IM。一1)一2r1(1--r1)·[(1--r2)2+一]=2×0．1×0．9×(O．82+O．22)=0．122 4， P(b6lM。一1)=2rI(1--r1)·r2(1一r2)；2×0．1×(1一O．1)×0．2×(1--0．2)=O．028 8。由于P(M。一1)一1，故M。=1的概率可简化为： P(M。一1|B)一墅世霉』生旦虹刿 ∑P(以IM。=1) J-1 一高0 51型8 4岩罴0 022 8=o．552 7；． +…+． ……1 M：=0的概率为： P(M：一01B)=高署等揣=0．3855； M：一一1的概率为： P(M：=一liB)一正{；器芝÷{__睾‰=o．os·s。如果遗传信息不完全座位连续，类似上述的计算亦需继续，直至达到完全信息座位(这时该座位某基因型的概率为1，任何其他座位的基因型都不可能影响其概率)或染色体末端座位为止。所以当不完全信息座位成串出现时，恢复其遗传信息的工作量将是非常艰巨的(如上例，假设M，～"，。也是缺失标记，就要计算6X3。=39 366种概率，并涉及10个不同的r)，即使高效率的计算机也难以胜任“1。文献 [7]报道的是此计算过程的一种较简捷算法。以往一些软件对显性标记常以P(1)一1／3，P(0)=2／3，或P(0)=2／3，P(一1)=1／3处理；对缺失标记则以P(1)一1／4，P(o)一1／2，P(一1)一1／4处理或甚至剔除该个体(不参加分析)。这样，运算虽然简化，但肯定丧失部分有用信息。参考文献 Berry D A．Stangl D K．Bayesian biostatistics[M]2nd Ed．New York：Mabel Dekker·INC，2000．1—696． Dey D K，Ghosh S K，Mallick B K．Genemlized linear models：A bayesian perspective[M]．New York：Mabel Dekker．INC，2000．1—440． LynchM，WalshB．Genetics and analysis ofquantitativetraits[M]．Massachusetts：SinauerAssociates，INC，Pub— Ushers．1998．1—980．。 Weir B S．Genetic data analysis 1[M]．Massachusetts：Sinauer Assoicates，INC，Pubfishers，1996．1--445． DeGtootMH．Probability and slatistics[M]．California：Addison—wesley PublishingCo．INC，1975．49—76．姜长鉴．其惠栋．质量一数量性状的遗传分析IV[J]．作物学报，1995，21(6)：641—648．姜长鉴．莫寒拣．DNA分子标记信息不完全的统计处理口]．中国科学(c辑)，1998，28(6)：529--535． Kinghom B P。Kennedy B W，Smith C．A method for screening genes of major effect E1]．Genetics，1993，134I 35l一360． m嗍啪啪踟嘲Ⅲ嘲万方数据