第九章系统发育分析 页码,1/3 第九章系统发育分析 Mark A. Hershkovi tz and Detlef D Lei pe Nati onal Center for Biotechnol ogy I nformati on Nati onal Li brary of Medi ci ne Nati onal insti tutes of heal th Bethesda, Maryl and 系统发育学研究的是进化关系,系统发育分析就是要推断或者评估这些进化关系。通过系统 发育分析所推断出来的进化关系一般用分枝图表(进化树)来描述,这个进化树就描述了同 一谱系的进化关系,包括了分子进化(基因树)、物种进化以及分子进化和物种进化的综 合。因为”cade”这个词(拥有共同祖先的同一谱系)在希腊文中的本意是分支,所以系统 发育学有时被称为遗传分类学( cl adi stics)。在现代系统发育学研究中,研究的重点已经不 再是生物的形态学特征或者其他特性,而是生物大分子尤其是序列。 尽管本章的目的是想描述一个万能的系统发育分析方法,但是这个目标过于天真,是不可能 实现的( Hils et al.,1993)。虽然人们已经设计了大量的用于系统发育的算法、过程和计算 机程序,这些方法的可靠性和实用性还是依赖于数据的结构和大小,因此关于这些方法的优 点和缺点的激烈争论成了分类学和系统发育学期刊的热门课题( Avi se,1994: Sai tou,1996 Li,1997; Swofford et al.,1996a)。 Hillis等人(1993)曾经极其简单地介绍过系统发 育学 比起许多其它学科而言,用计算的方法进行系统发育分析很容易得到错误的结果,而且出错 的危险几乎是不可避免的;其它学科一般都会有实验基础,而系统发育分析不太可能会拥有 实验基础,至多也就是一些模拟实验或者病毒实验( Hillis et a.,194);实际上,系统 发育的发生过程都是已经完成的历史,只能去推断或者评估,而无法再现了。尽管现在的系 统发育分析的程序存在着很多缺陷,许多生物学著作中仍然大量引用系统发育分析得到的结 论,这些结论的源数据只是简单地应用了某一个系统发育的分析程序。只有在很偶然的情况 ,在应用某些软件处理数据时受到的困难会少一点,但是在概念上理解这些程序是如何处 理数据仍然是个难题。 本文中关于系统发育分析方法的指导有如下一些目的。首先,我们要介绍一个概念性的步 骤,这个步骤包含了当前在对生物序列进行系统发育分析时最广泛使用的方法中应用到的 些最重要的原理。这个步骤认为,所有的系统发育方法都刻画了一个模型去模拟真实的进化 过程,然后假定程序发现的序列之间的差异是模拟的进化结果,而这个模型本身就包含了方 法中固有的假定。对于一个好的使用的系统发育的分析方法,刻画一个正确的模型同描绘 个正确的进化树是同等重要的。另外,我们还将讨论一些比较通用的方法所刻画的模型,并 且讨论一下这些模型是如何影响对数据组的分析的。最后,我们会针对系统发育模型和进化 史的推论,提供一些具体方法应用的例子 系统发育模型的组成 系统发育的建树方法都会预先假定一个进化模型( Penny et al.1994)。比如,所有广泛 使用的方法都假定进化的分歧是严格分枝的,因此我们可以用树状拓扑发生图来描述已知的 数据。但是在一个给定的数据组中,因为存在着物种的杂交以及物种之间遗传物质的传递 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
бゴ㋏㒳থ㚆ߚᵤ Mark A. Hershkovitz and Detlef D.Leipe National Center for Biotechnology Information National Library of Medicine National Institutes of Health Bethesda,Maryland ㋏㒳থ㚆ᄺⷨおⱘᰃ䖯࣪LTDˈLTD݇㒳থ㚆ߚᵤህᰃ㽕ᮁ㗙䆘Ԅ䖭ѯ䖯࣪LTD݇DŽ䗮䖛㋏㒳 থ㚆ߚᵤ᠔ᮁߎᴹⱘ䖯࣪LTD݇ϔ㠀⫼ߚᵱ㸼˄䖯࣪˅ᷥᴹᦣ䗄ˈ䖭Ͼ䖯࣪ᷥህᦣ䗄њৠ ϔ䈅㋏ⱘ䖯࣪ˈLTD݇ࣙᣀњߚᄤ䖯࣪˅ᷥ˄ǃ⠽⾡䖯࣪ҹঞߚᄤ䖯࣪⠽⾡䖯࣪ⱘ㓐 ড়DŽЎ”clade”䖭Ͼ䆡˄ᢹ᳝݅ৠ⼪ܜⱘৠϔ䈅㋏˅Ꮰ㜞᭛Ёⱘᴀᛣᰃߚˈᬃ᠔ҹ㋏㒳 থ㚆ᄺ᳝ᯊ㹿⿄Ў䘫Ӵߚ㉏ᄺ(cladistics)DŽ⦄ҷ㋏㒳থ㚆ᄺⷨおЁˈⷨおⱘ䞡⚍Ꮖ㒣ϡ ݡᰃ⫳⠽ⱘᔶᗕᄺ⡍ᕕ㗙݊Ҫ⡍ᗻˈ㗠ᰃ⫳⠽ߚᄤᇸ݊ᰃᑣ߫DŽ ሑㅵᴀゴⱘⳂⱘᰃᛇᦣ䗄ϔϾϛ㛑ⱘ㋏㒳থ㚆ߚᵤᮍ⊩ˈԚᰃ䖭ϾⳂᷛ䖛Ѣⳳˈᰃϡৃ㛑 ᅲ⦄ⱘ(Hills et al.,1993)DŽ㱑✊ҎӀᏆ㒣䆒䅵њ䞣ⱘ⫼Ѣ㋏㒳থ㚆ⱘㅫ⊩ǃ䖛䅵ㅫ ᴎᑣˈ䖭ѯᮍ⊩ⱘৃ䴴ᗻᅲ⫼ᗻ䖬ᰃձ䌪Ѣ᭄ⱘ㒧ᵘᇣˈℸ݇Ѣ䖭ѯᮍ⊩ⱘӬ ⚍㔎⚍ⱘ▔⚜ѝ䆎៤њߚ㉏ᄺ㋏㒳থ㚆ᄺᳳߞⱘ⛁䮼䇒乬˄Avise, 1994:Saitou, 1996; Li, 1997; Swofford et al., 1996a˅DŽHillisㄝҎ˄1993˅᳒㒣ᵕ݊ㅔऩഄҟ㒡䖛㋏㒳থ 㚆ᄺDŽ ↨䍋䆌݊ᅗᄺ⾥㗠㿔ˈ⫼䅵ㅫⱘᮍ⊩䖯㸠㋏㒳থ㚆ߚᵤᕜᆍᯧᕫࠄ䫭䇃ⱘ㒧ᵰˈ㗠Ϩߎ䫭 ⱘॅ䰽Тᰃϡৃ䙓ܡⱘ˗݊ᅗᄺ⾥ϔ㠀䛑Ӯ᳝ᅲ偠⸔ˈ㗠㋏㒳থ㚆ߚᵤϡৃ㛑Ӯᢹ᳝ ᅲ偠⸔ˈ㟇гህᰃϔѯᢳᅲ偠㗙⮙↦ᅲ偠˄Hillis et al., 1994˅˗ᅲ䰙Ϟˈ㋏㒳 থ㚆ⱘথ⫳䖛䛑ᰃᏆ㒣ᅠ៤ⱘग़ˈা㛑এᮁ㗙䆘Ԅˈ㗠᮴⊩ݡ⦃њDŽሑㅵ⦄ⱘ㋏ 㒳থ㚆ߚᵤⱘᑣᄬⴔᕜ㔎䱋ˈ䆌⫳⠽ᄺ㨫Ёҡ✊䞣ᓩ⫼㋏㒳থ㚆ߚᵤᕫࠄⱘ㒧 䆎ˈ䖭ѯ㒧䆎ⱘ⑤᭄াᰃㅔऩഄᑨ⫼њᶤϔϾ㋏㒳থ㚆ⱘߚᵤᑣDŽা᳝ᕜي✊ⱘᚙމ ϟˈᑨ⫼ᶤѯ䕃ӊ໘⧚᭄ᯊফࠄⱘೄ䲒Ӯᇥϔ⚍ˈԚᰃὖᗉϞ⧚㾷䖭ѯᑣᰃབԩ໘ ⧚᭄ҡ✊ᰃϾ䲒乬DŽ ᴀ᭛Ё݇Ѣ㋏㒳থ㚆ߚᵤᮍ⊩ⱘᣛᇐ᳝བϟϔѯⳂⱘDŽ佪ܜˈ៥Ӏ㽕ҟ㒡ϔϾὖᗉᗻⱘℹ 偸ˈ䖭Ͼℹ偸ࣙњᔧࠡᇍ⫳⠽ᑣ߫䖯㸠㋏㒳থ㚆ߚᵤᯊ᳔ᑓ⊯Փ⫼ⱘᮍ⊩Ёᑨ⫼ࠄⱘϔ ѯ᳔䞡㽕ⱘॳ⧚DŽ䖭Ͼℹ偸䅸Ўˈ᠔᳝ⱘ㋏㒳থ㚆ᮍ⊩䛑ࠏ⬏њϔϾൟএᢳⳳᅲⱘ䖯࣪ 䖛ˈ✊ৢ؛ᅮᑣথ⦄ⱘᑣ߫П䯈ⱘᏂᓖᰃᢳⱘ䖯࣪㒧ᵰˈ㗠䖭Ͼൟᴀ䑿ህࣙњᮍ ⊩Ё᳝ⱘ؛ᅮDŽᇍѢϔϾདⱘՓ⫼ⱘ㋏㒳থ㚆ⱘߚᵤᮍ⊩ˈࠏ⬏ϔϾℷ⹂ⱘൟৠᦣ㒬ϔ Ͼℷ⹂ⱘ䖯࣪ᷥᰃৠㄝ䞡㽕ⱘDŽˈ៥Ӏ䖬ᇚ䅼䆎ϔѯ↨䕗䗮⫼ⱘᮍ⊩᠔ࠏ⬏ⱘൟˈᑊ Ϩ䅼䆎ϔϟ䖭ѯൟᰃབԩᕅડᇍ᭄㒘ⱘߚᵤⱘDŽ᳔ৢˈ៥ӀӮ䩜ᇍ㋏㒳থ㚆ൟ䖯࣪ ⱘ䆎ˈᦤկϔѯԧᮍ⊩ᑨ⫼ⱘ՟ᄤDŽ ㋏㒳থ㚆ൟⱘ㒘៤ ㋏㒳থ㚆ⱘᓎᷥᮍ⊩䛑Ӯ乘؛ܜᅮϔϾ䖯࣪˄ൟPenny et al., 1994˅DŽ↨བˈ᠔᳝ᑓ⊯ Փ⫼ⱘᮍ⊩䛑؛ᅮ䖯࣪ⱘߚFAXᰃϹḐߚᵱⱘˈℸ៥Ӏৃҹ⫼ᷥ⢊ᢧᠥথ⫳ᴹᦣ䗄Ꮖⶹⱘ ᭄DŽԚᰃϔϾ㒭ᅮⱘ᭄㒘ЁˈЎᄬⴔ⠽⾡ⱘᴖѸҹঞ⠽⾡П䯈䘫Ӵ⠽䋼ⱘӴ䗦ˈ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ1/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,2/3 这个假定很可能会被推翻。因此,如果所观察的序列并非是严格遗传的话,大多数系统发育 方法就会得到错误的结果。 系统发育方法中固有的模型会导致一些额外的假定: 1.序列有指定的来源并且正确无误( Hel big and Sei bol d,1996; Hershkovi tz and Lewis, 1996: Sol tis et al. 1997) 2.序列是同源的(也就是说,所有的序列都起源于同一祖先序列);这些序列不是 paral og°( paral og指的是一个祖先序列通过复制等方法在基因组中产生的歧化序 列)的混合物。 3.序列比对中,不同序列的同一个位点都是同源的 4.在接受分析的一个序列组中,序列之间的系统发育史是相同的(比如,序列组中不存在 核序列与细胞器序列的混合)。 5.样本足以解决感兴趣的问题 6.样本序列之间的差异代表了感兴趣的宽组 7.样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号 还有一些假定,在某些方法中是默认的,但是在另外一些方法中是可以修正的 8.样本序列是随机进化的。 9.序列中的所有位点的进化都是随机的。 10.序列中的每一个位点的进化都是独立的 许多公开发表的系统发育分析结果的错误通常都是因为违反了上述假定,特别令人恼火的是 现有的方法并不能察觉对基本假定的违反。每一个序列组都必须根据上述基本假定进行评 估,并且同分析过程相协调。下面我们将会描述分析过程。 系统发育数据分析:比对,建立取代模型,建立进化树以及进 化树评估 对DNA序列进行系统发育分析的四个主要步骤是比对,建立取代模型,建立进化树以及进化树 评估。一般来说,执行这四个步骤的计算机程序都是相互独立的,但是他们都是进行系统发 育分析的有机部分 当前的讨论主要集中在分析DNA序列的方法上,这些方法基本上(不全是)仍然是通过碱基和 密码子的替代来考察序列的差异;这个方法同样应用于对蛋白质序列的分析,但是由于氨基 酸的生物化学多样性,我们必须引入更多的数学参数。因此,下面讨论的适用于核苷酸碱基 的方法同样适用于氨基酸和密码子,而关于蛋白质的一些特殊问题和程序会在别的地方得到 讨论( Fel sensei n,1996)。 因为建树的标准在一定程度上依赖比对和取代模型,因此一开始就应该介绍这些方法,这些 介绍非常必要。三种主要的建树方法分别是距离、最大节约( maxi mum parsi mony,MP)和最 大似然( maxi mum ike i hood,ML)。距离树考察数据组中所有序列的两两比对结果,通过 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
䖭Ͼ؛ᅮᕜৃ㛑Ӯ㹿㗏DŽℸˈབᵰ᠔㾖ᆳⱘᑣ߫ᑊ䴲ᰃϹḐ䘫Ӵⱘ䆱ˈ᭄㋏㒳থ㚆 ᮍ⊩ህӮᕫࠄ䫭䇃ⱘ㒧ᵰDŽ ㋏㒳থ㚆ᮍ⊩Ё᳝ⱘൟӮᇐ㟈ϔѯ乱ⱘ؛ᅮ˖ 1. ᑣ᳝߫ᣛᅮⱘᴹ⑤ᑊϨℷ⹂᮴䇃˄Helbig and Seibold, 1996; Hershkovitz and Lewis, 1996; Soltis et al., 1997˅DŽ 2. ᑣ߫ᰃৠ⑤ⱘ˄гህᰃ䇈ˈ᠔᳝ⱘᑣ߫䛑䍋⑤Ѣৠϔ⼪ܜᑣ߫˅˗䖭ѯᑣ߫ϡᰃ “paralog“˄paralogᣛⱘᰃϔϾ⼪ܜᑣ߫䗮䖛ࠊㄝᮍ⊩㒘Ёѻ⫳ⱘ℻࣪ᑣ ߫˅ⱘ⏋ড়⠽DŽ 3. ᑣ߫↨ᇍЁˈϡৠᑣ߫ⱘৠϔϾԡ⚍䛑ᰃৠ⑤ⱘDŽ 4. ফߚᵤⱘϔϾᑣ߫㒘Ёˈᑣ߫П䯈ⱘ㋏㒳থ㚆ᰃⳌৠⱘ˄↨བˈᑣ߫㒘Ёϡᄬ Ḍᑣ߫Ϣ㒚㚲఼ᑣ߫ⱘ⏋ড়˅DŽ 5. ḋᴀ䎇ҹ㾷އ݈ᛳ䍷ⱘ䯂乬DŽ 6. ḋᴀᑣ߫П䯈ⱘᏂᓖҷ㸼њᛳ݈䍷ⱘᆑ㒘DŽ 7. ḋᴀᑣ߫П䯈ⱘᏂᓖࣙњ䎇ҹ㾷އ݈ᛳ䍷ⱘ䯂乬ⱘ㋏㒳থ㚆ֵোDŽ 䖬᳝ϔѯ؛ᅮˈᶤѯᮍ⊩Ёᰃ咬䅸ⱘˈԚᰃϔѯᮍ⊩Ёᰃৃҹׂℷⱘ˖ 8. ḋᴀᑣ߫ᰃ䱣ᴎ䖯࣪ⱘDŽ 9. ᑣ߫Ёⱘ᠔᳝ԡ⚍ⱘ䖯࣪䛑ᰃ䱣ᴎⱘDŽ 10. ᑣ߫Ёⱘ↣ϔϾԡ⚍ⱘ䖯࣪䛑ᰃ⣀ゟⱘDŽ 䆌݀ᓔথ㸼ⱘ㋏㒳থ㚆ߚᵤ㒧ᵰⱘ䫭䇃䗮ᐌ䛑ᰃЎ䖱ডњϞ䗄؛ᅮˈ⡍߿ҸҎᙐ☿ⱘᰃ ⦄᳝ⱘᮍ⊩ᑊϡ㛑ᆳ㾝ᇍᴀ؛ᅮⱘ䖱ডDŽ↣ϔϾᑣ߫㒘䛑ᖙ乏ḍϞ䗄ᴀ؛ᅮ䖯㸠䆘 ԄˈᑊϨৠߚᵤ䖛Ⳍण䇗DŽϟ䴶៥ӀᇚӮᦣ䗄ߚᵤ䖛DŽ ㋏㒳থ㚆᭄ߚᵤ˖↨ᇍˈᓎゟপҷൟˈᓎゟ䖯࣪ᷥҹঞ䖯 䆘Ԅᷥ࣪ ᇍDNAᑣ߫䖯㸠㋏㒳থ㚆ߚᵤⱘಯϾЏ㽕ℹ偸ᰃ↨ᇍˈᓎゟপҷൟˈᓎゟ䖯࣪ᷥҹঞ䖯࣪ᷥ 䆘ԄDŽϔ㠀ᴹ䇈ˈᠻ㸠䖭ಯϾℹ偸ⱘ䅵ㅫᴎᑣ䛑ᰃⳌѦ⣀ゟⱘˈԚᰃҪӀ䛑ᰃ䖯㸠㋏㒳থ 㚆ߚᵤⱘ᳝ᴎ䚼ߚDŽ ᔧࠡⱘ䅼䆎Џ㽕䲚ЁߚᵤDNAᑣ߫ⱘᮍ⊩Ϟˈ䖭ѯᮍ⊩ᴀϞ˄ϡܼᰃ˅ҡ✊ᰃ䗮䖛⺅ ᆚⷕᄤⱘ᳓ҷᴹ㗗ᆳᑣ߫ⱘᏂᓖ˗䖭Ͼᮍ⊩ৠḋᑨ⫼Ѣᇍ㲟ⱑ䋼ᑣ߫ⱘߚᵤˈԚᰃ⬅Ѣ⇼ 䝌ⱘ⫳⠽࣪ᄺḋᗻˈ៥Ӏᖙ乏ᓩܹⱘ᭄ᄺখ᭄DŽℸˈϟ䴶䅼䆎ⱘ䗖⫼ѢḌ㣋䝌⺅ ⱘᮍ⊩ৠḋ䗖⫼Ѣ⇼䝌ᆚⷕᄤˈ㗠݇Ѣ㲟ⱑ䋼ⱘϔѯ⡍⅞䯂乬ᑣӮ߿ⱘഄᮍᕫࠄ 䅼䆎˄Felsenstein, 1996˅DŽ ЎᓎᷥⱘᷛޚϔᅮᑺϞձ䌪↨ᇍপҷൟˈℸϔᓔྟህᑨ䆹ҟ㒡䖭ѯᮍ⊩ˈ䖭ѯ ҟ㒡䴲ᐌᖙ㽕DŽϝ⾡Џ㽕ⱘᓎᷥᮍ⊩߿ߚᰃ䎱⾏ǃ᳔㡖㑺˄maximum parsimony, MP˅᳔ Ԑ✊˄maximum likelihoodˈML˅DŽ䎱⾏ᷥ㗗ᆳ᭄㒘Ё᠔᳝ᑣ߫ⱘϸϸ↨ᇍ㒧ᵰˈ䗮䖛 бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ2/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,3/32 序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大节约方法考察数据组中序列的 多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。最 大似然方法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化 树,这个进化树能够以最大的概率导致考察的多重比对结果。这些方面将会在后面详细讨 论 建立数据模型(比对) 系统发育的序列数据通常会进行多重比对,也就是说,在系统发育的有关文献中通常会把那 些单独的比对好的碱基所占据的位置称作位点;在进行系统发育的理论讨论时这些位点等同 于特征符,而占据这些位点的真实的碱基或者空位被称为特征符状态;但是也有例外, STATALI GN程序( Thorne and ki shi no,1992)在进行系统发育分析时不会进行多重比对,它 使用原始的未比对过的序列。 多重比对在第七章中有详细讨论,在这里我们只讨论与系统发育分析有关的多重比对方法。 对准的序列位点将会被应用于系统发育分析,但是这只能描述一个先验的系统发育的结论, 因为位点本身(不是真实的碱基)都是假定为同源的( Mi ndel l,1991; Wheeler,1994)。 因此,出于系统发育的目的,比对程序只是系统发育分析的一部分。 建立一个比对模型的基本步骤包括:选择合适的比对程序;然后从比对结果中提取系统发育 的数据集,至于如何提取有效数据,取决于所选择的建树程序如何处理容易引起歧义的比对 区域和插入---删除序列(即所谓的inde状态或者空位状态) 多重比对程序 多重比对程序有如下一些属性: 计算机依赖性:无依赖;部分依赖;完全依赖 系统发育调用:无调用;先验调用;递归调用。 比对参数评估:先验评估;动态评估;递归评估。 比对特征:基本结构(比如序列);高级结构。 数学优化:统计优化:非统计优化。 在系统发育分析研究中,一个典型的比对过程包括:首先应用 CLUSTAL W程序,然后进行手工 比对,最后提交给一个建树程序。这个过程有如下特征选项:(1)、部分依赖于计算机(也 就是说,需要手工调整);(2)、需要一个先验的系统发育标准(也就是说需要一个前导 树):(3)、使用先验评估方法和动态评估方法(推荐)对比对参数进行评估;(4)、对 基本结构(序列)进行比对(对于亲水的氨基酸,推荐引入部分的二级结构特征);(5)、 应用非统计数学优化。这些特征选项的取舍都依赖于下面将要描述的具体的系统发育分析方 计算机依赖型 提倡进行完全的计算机多重比对的人常常有这样的依据,他们认为手工比对通常都是含混不 清的( Gatesy et al.,1993)。 MALI GN( Wheeler and gl adstei n,1994)和 TreeAl i gn (Hein,1990,1994)程序都试图在根据系统发育功能而优化比对的时候实现完全计算机 化,尤其是试图通过初步的多重比对而优化出一个最大节约树( MP tree)。一般来说,只有 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
ᑣ߫ϸϸП䯈ⱘᏂᓖއᅮ䖯࣪ᷥⱘᢧᠥ㒧ᵘᷥᵱ䭓ᑺDŽ᳔㡖㑺ᮍ⊩㗗ᆳ᭄㒘Ёᑣ߫ⱘ 䞡↨ᇍ㒧ᵰˈӬߎ࣪ⱘ䖯࣪ᷥ㛑᳔߽⫼ᇥⱘ⾏ᬷℹ偸এ㾷䞞䞡↨ᇍЁⱘ⺅ᏂᓖDŽ᳔ Ԑ✊ᮍ⊩㗗ᆳ᭄㒘Ёᑣ߫ⱘ䞡↨ᇍ㒧ᵰˈӬߎ࣪ᢹ᳝ϔᅮᢧᠥ㒧ᵘᷥᵱ䭓ᑺⱘ䖯࣪ ᷥˈ䖭Ͼ䖯࣪ᷥ㛑ҹ᳔ⱘὖ⥛ᇐ㟈㗗ᆳⱘ䞡↨ᇍ㒧ᵰDŽ䖭ѯᮍ䴶ᇚӮৢ䴶䆺㒚䅼 䆎DŽ ᓎゟ᭄ൟ˄↨ᇍ˅ ㋏㒳থ㚆ⱘᑣ᭄߫䗮ᐌӮ䖯㸠䞡↨ᇍˈгህᰃ䇈ˈ㋏㒳থ㚆ⱘ᳝݇᭛⤂Ё䗮ᐌӮᡞ䙷 ѯऩ⣀ⱘ↨ᇍདⱘ⺅᠔ऴⱘԡ㕂⿄ԡ⚍˗䖯㸠㋏㒳থ㚆ⱘ⧚䆎䅼䆎ᯊ䖭ѯԡ⚍ㄝৠ Ѣ⡍ᕕヺˈ㗠ऴ䖭ѯԡ⚍ⱘⳳᅲⱘ⺅㗙ぎԡ㹿⿄Ў⡍ᕕヺ⢊ᗕ˗Ԛᰃг᳝՟ˈ STATALIGNᑣ˄Thorne and Kishino, 1992˅䖯㸠㋏㒳থ㚆ߚᵤᯊϡӮ䖯㸠䞡↨ᇍˈᅗ Փ⫼ॳྟⱘ↨ᇍ䖛ⱘᑣ߫DŽ 䞡↨ᇍϗゴЁ᳝䆺㒚䅼䆎ˈ䖭䞠៥Ӏা䅼䆎Ϣ㋏㒳থ㚆ߚᵤ᳝݇ⱘ䞡↨ᇍᮍ⊩DŽ ᇍޚⱘᑣ߫ԡ⚍ᇚӮ㹿ᑨ⫼Ѣ㋏㒳থ㚆ߚᵤˈԚᰃ䖭া㛑ᦣ䗄ϔϾܜ偠ⱘ㋏㒳থ㚆ⱘ㒧䆎ˈ Ўԡ⚍ᴀ䑿˄ϡᰃⳳᅲⱘ⺅˅䛑ᰃ؛ᅮЎৠ⑤ⱘ˄Mindell, 1991; Wheeler, 1994˅DŽ ℸˈߎѢ㋏㒳থ㚆ⱘⳂⱘˈ↨ᇍᑣাᰃ㋏㒳থ㚆ߚᵤⱘϔ䚼ߚDŽ ᓎゟϔϾ↨ᇍൟⱘᴀℹ偸ࣙᣀ˖䗝ᢽড়䗖ⱘ↨ᇍᑣ˗✊ৢҢ↨ᇍ㒧ᵰЁᦤপ㋏㒳থ㚆 ⱘ᭄䲚ˈ㟇Ѣབԩᦤপ᳝ᬜ᭄ˈপއѢ᠔䗝ᢽⱘᓎᷥᑣབԩ໘⧚ᆍᯧᓩ䍋℻Нⱘ↨ᇍ ऎඳᦦܹ----ߴ䰸ᑣ߫˄े᠔䇧ⱘindel⢊ᗕ㗙ぎԡ⢊ᗕ˅DŽ 䞡↨ᇍᑣ 䞡↨ᇍᑣ᳝བϟϔѯሲᗻ˖ 䅵ㅫᴎձ䌪ᗻ˖᮴ձ䌪˗䚼ߚձ䌪˗ᅠܼձ䌪DŽ ㋏㒳থ㚆䇗⫼˖᮴䇗⫼˗ܜ偠䇗⫼˗䗦ᔦ䇗⫼DŽ ↨ᇍখ᭄䆘Ԅ˖ܜ偠䆘Ԅ˗ࡼᗕ䆘Ԅ˗䗦ᔦ䆘ԄDŽ ↨ᇍ⡍ᕕ˖ᴀ㒧ᵘ˄↨བᑣ߫˅˗催㑻㒧ᵘDŽ ᭄ᄺӬ࣪˖㒳䅵Ӭ࣪˗䴲㒳䅵Ӭ࣪DŽ ㋏㒳থ㚆ߚᵤⷨおЁˈϔϾൟⱘ↨ᇍ䖛ࣙᣀ˖佪ܜᑨ⫼CLUSTAL Wᑣˈ✊ৢ䖯㸠Ꮉ ↨ᇍˈ᳔ৢᦤѸ㒭ϔϾᓎᷥᑣDŽ䖭Ͼ䖛᳝བϟ⡍ᕕ䗝乍˖˄˅ǃ䚼ߚձ䌪Ѣ䅵ㅫᴎ˄г ህᰃ䇈ˈ䳔㽕Ꮉ䇗ᭈ˅˗˄˅ǃ䳔㽕ϔϾܜ偠ⱘ㋏㒳থ㚆ᷛޚ˄гህᰃ䇈䳔㽕ϔϾࠡᇐ ᷥ˅˗˄˅ǃՓ⫼ܜ偠䆘Ԅᮍ⊩ࡼᗕ䆘Ԅᮍ⊩˄㤤˅ᇍ↨ᇍখ᭄䖯㸠䆘Ԅ˗˄˅ǃᇍ ᴀ㒧ᵘ˄ᑣ߫˅䖯㸠↨ᇍ˄ᇍѢ҆∈ⱘ⇼䝌ˈ㤤ᓩܹ䚼ߚⱘѠ㑻㒧ᵘ⡍ᕕ˅˗˄˅ǃ ᑨ⫼䴲㒳䅵᭄ᄺӬ࣪DŽ䖭ѯ⡍ᕕ䗝乍ⱘপ㟡䛑ձ䌪Ѣϟ䴶ᇚ㽕ᦣ䗄ⱘԧⱘ㋏㒳থ㚆ߚᵤᮍ ⊩DŽ 䅵ㅫᴎձ䌪ൟ ᦤ䖯㸠ᅠܼⱘ䅵ㅫᴎ䞡↨ᇍⱘҎᐌᐌ᳝䖭ḋⱘձˈҪӀ䅸ЎᎹ↨ᇍ䗮ᐌ䛑ᰃ⏋ϡ ⏙ⱘ˄Gatesy et al., 1993˅DŽMALIGN˄Wheeler and Gladstein, 1994˅TreeAlign ˄Hein, 1990, 1994˅ᑣ䛑䆩ḍ㋏㒳থ㚆ࡳ㛑㗠Ӭ࣪↨ᇍⱘᯊᅲ⦄ᅠܼ䅵ㅫᴎ ࣪ˈᇸ݊ᰃ䆩䗮䖛߱ℹⱘ䞡↨ᇍ㗠Ӭߎ࣪ϔϾ᳔㡖㑺ᷥ˄MP tree˅DŽϔ㠀ᴹ䇈ˈা᳝ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ3/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,4/3 当我们假定计算机程序能够进行正确的比对的时候,我们才会实行完全的计算机处理。之所 以还提倡进行手工比对(比如, Thompson et al.,1994),是因为现在的比对算法和程序还 不能满足系统发育分析的需要。 系统发育标准 许多计算机多重比对程序(比如 CLUSTAL, PileUp, ALI GN in ProPack)根据明确的系统发育 标准(一个前导树)进行比对,这个前导树是由双重比对得到的。但是SAM( Hughey et al 1996)和 MACAW( Lawrence et al.,1993)程序在进行多重比对时并不引入明确的系统发育 标准,虽然这些程序也可以模拟系统发育过程操作参数。 如果在进行系统发育分析的时候,比对中引入了前导树,那么通过这个比对推导出的进化树 逻辑上应该同前导树的拓扑结构相同。由 CLUSTALI比对得到的前导树(如图9.1)将会被转化 成 PHYLIP树的文件格式,然后输入到画树程序中,这些画树程序包括 TreeTool( x wi ndows) TreeDraw(Maci ntosh), PHYLODENDRON (Maci ntos), TREEVI EW(Maci ntosh, Mi crosof Wi ndows)或者PAUP(图9.1; Maci tosh, Mi crosoft wi ndows)的画树工具。按道理,我们应 该回过头来为 CLUSTAL比对再指定一个前导树,但是在实际操作中我们并不会这么做。有些程 序(比如 TreeAl i gn and MALI GN)为了得到优化的比对和系统发育树,程序本身就设计了交 叉(同步)递归优化的算法。理论上,能够解决比对-系统发育难题的同步优化算法或者 配套算法应该是存在的,但是递归算法必须冒一定的风险,它很可能会导致一个错误的或者 不完整的结果( Thorne and ki shi no,1992)。因此,根据比对结果建立进化树之后,必须 考虑另外的可能性,也就是说,如果根据其它的比对结果得到一个并不是最优化的进化树, 这个次优化的进化树是不是更能够满足研究的需要。 比对参数评估 在比对中会出现一些序列区域,其长度是可变的,如何处理这些区域中inde状态的位点是最 重要,这取决于进化模型的所有要素(比如,包括核苷酸转换/颠换速率),而且相关的参数 在前导树与比对推导的进化树中应该保持一致。比对参数应该随着进化的分叉动态变化 ( Thompson et al.,1994),只有这样才能保证碱基错配的几率能够满足序列趋异的需要; 比对参数应该随时调整( Thompson et al.1994, Hughey et al.,1996),以防止引入过 多的近似序列而导致比对序列的信息量不足,可以通过降低近似序列的比对分值权重来防止 这种情况。 CULSTAL程序兼顾了这两种情况(参数动态变化),而SAM程序引入了序列权重。 利用基本结构或者高级结构进行比对 根据二级或者三级序列结构进行比对,比起直接利用一级序列进行比对的可信度要好,因为 在同源性评估中,人们一直认为复杂结构的保守性高于简单特征(核苷酸,氨基酸)的同源 保守性,而且,立足于复杂结构的比对程序还可以搜索到一些特殊的关联位点,这些位点是 进化的功能区域。实际上,基于系统发育的结构多重比对并没有将问题简化,也就是说,序 列比对必须服从结构进化,而结构进化则同系统发育保持一致。有一个探索式的手工程序 (如图9.2),是用来对核糖体DNA进行结构比对的( Gutell et al.,1994),这个程序要考 察相关取代的样式,但是相关性必须通过系统发育树中的多个独立的补偿性突变推导得到 (cf. harvey and pagel 1991) 数学优化 有些比对程序(比如, MACAW,SAM)根据一个统计模型进行优化,但是这些统计同系统发育 模型的关系并不清楚。仅仅根据一个系统发育模型是没有办法比较多重比对方法的优劣的。 总结:对于系统发育分析,最好的比对程序是什么呢? file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
ᔧ៥Ӏ؛ᅮ䅵ㅫᴎᑣ㛑䖯㸠ℷ⹂ⱘ↨ᇍⱘᯊˈ៥ӀᠡӮᅲ㸠ᅠܼⱘ䅵ㅫᴎ໘⧚DŽП᠔ ҹ䖬ᦤ䖯㸠Ꮉ↨ᇍ˄↨བˈThompson et al., 1994˅ˈᰃЎ⦄ⱘ↨ᇍㅫ⊩ᑣ䖬 ϡ㛑⒵䎇㋏㒳থ㚆ߚᵤⱘ䳔㽕DŽ ޚᷛ㒳থ㚆㋏ 䆌䅵ㅫᴎ䞡↨ᇍᑣ˄↨བCLUSTAL, PileUp,ALIGN in ProPack˅ḍᯢ⹂ⱘ㋏㒳থ㚆 ᷛޚ˄ϔϾࠡᇐᷥ˅䖯㸠↨ᇍˈ䖭Ͼࠡᇐᷥᰃ⬅ঠ䞡↨ᇍᕫࠄⱘDŽԚᰃSAM˄Hughey et al., 1996˅MACAW˄Lawrence et al., 1993˅ᑣ䖯㸠䞡↨ᇍᯊᑊϡᓩܹᯢ⹂ⱘ㋏㒳থ㚆 ᷛޚˈ㱑✊䖭ѯᑣгৃҹᢳ㋏㒳থ㚆䖛᪡খ᭄DŽ བᵰ䖯㸠㋏㒳থ㚆ߚᵤⱘᯊ↨ˈᇍЁᓩܹњࠡᇐᷥˈ䙷М䗮䖛䖭Ͼ↨ᇍᇐߎⱘ䖯࣪ᷥ 䘏䕥Ϟᑨ䆹ৠࠡᇐᷥⱘᢧᠥ㒧ᵘⳌৠDŽ⬅CLUSTAL↨ᇍᕫࠄⱘࠡᇐᷥ˄བ9.1˅ᇚӮ㹿䕀࣪ ៤PHYLIPᷥⱘ᭛ӊḐᓣˈ✊ৢ䕧ܹࠄᷥ⬏ᑣЁˈ䖭ѯ⬏ᷥᑣࣙᣀTreeTool(X windows), TreeDraw(Macintosh), PHYLODENDRON(Macintosh), TREEVIEW(Macintosh, Microsoft Windows) 㗙PAUP( 9.1˗Macintosh, Microsoft Windows)ⱘ⬏ᷥᎹDŽᣝ䘧⧚ˈ៥Ӏᑨ 䆹ಲ䖛༈ᴹЎCLUSTAL↨ᇍݡᣛᅮϔϾࠡᇐᷥˈԚᰃᅲ䰙᪡Ё៥ӀᑊϡӮ䖭МخDŽ᳝ѯ ᑣ˄↨བTreeAlign and MALIGN˅ЎњᕫࠄӬ࣪ⱘ↨ᇍ㋏㒳থ㚆ᷥˈᑣᴀ䑿ህ䆒䅵њѸ ঝ˄ৠℹ˅䗦ᔦӬ࣪ⱘㅫ⊩DŽ⧚䆎Ϟˈ㛑㾷އ↨ᇍ----㋏㒳থ㚆䲒乬ⱘৠℹӬ࣪ㅫ⊩㗙 䜡༫ㅫ⊩ᑨ䆹ᰃᄬⱘˈԚᰃ䗦ᔦㅫ⊩ᖙ乏ݦϔᅮⱘ亢䰽ˈᅗᕜৃ㛑Ӯᇐ㟈ϔϾ䫭䇃ⱘ㗙 ϡᅠᭈⱘ㒧ᵰ˄Thorne and Kishino, 1992˅DŽℸˈḍ↨ᇍ㒧ᵰᓎゟ䖯࣪ᷥПৢˈᖙ乏 㗗㰥ⱘৃ㛑ᗻˈгህᰃ䇈ˈབᵰḍ݊ᅗⱘ↨ᇍ㒧ᵰᕫࠄϔϾᑊϡᰃ᳔Ӭ࣪ⱘ䖯࣪ˈᷥ 䖭ϾӬ࣪ⱘ䖯࣪ᷥᰃϡᰃ㛑⒵䎇ⷨおⱘ䳔㽕DŽ ↨ᇍখ᭄䆘Ԅ ↨ᇍЁӮߎ⦃ϔѯᑣ߫ऎඳˈ݊䭓ᑺᰃৃবⱘˈབԩ໘⧚䖭ѯऎඳЁindel⢊ᗕⱘԡ⚍ᰃ᳔ 䞡㽕ˈ䖭পއѢ䖯࣪ൟⱘ᠔᳝㽕㋴˄↨བˈࣙᣀḌ㣋䝌䕀ᤶ乴ᤶ䗳⥛˅ˈ㗠ϨⳌ݇ⱘখ᭄ ࠡᇐᷥϢ↨ᇍᇐⱘ䖯࣪ᷥЁᑨ䆹ֱᣕϔ㟈DŽ↨ᇍখ᭄ᑨ䆹䱣ⴔ䖯࣪ⱘߚঝࡼᗕব࣪ ˄Thompson et al., 1994˅ˈা᳝䖭ḋᠡ㛑ֱ䆕⺅䫭䜡ⱘ⥛㛑⒵䎇ᑣ߫䍟ᓖⱘ䳔㽕˗ ↨ᇍখ᭄ᑨ䆹䱣ᯊ䇗ᭈ˄Thompson et al., 1994, Hughey et al., 1996˅ˈҹ䰆ℶᓩܹ䖛 ⱘ䖥Ԑᑣ߫㗠ᇐ㟈↨ᇍᑣ߫ⱘֵᙃ䞣ϡ䎇ˈৃҹ䗮䖛䰡Ԣ䖥Ԑᑣ߫ⱘ↨ᇍߚؐᴗ䞡ᴹ䰆ℶ 䖭⾡ᚙމDŽCULSTALᑣݐ乒њ䖭ϸ⾡ᚙމ˄খ᭄ࡼᗕব࣪ˈ˅㗠SAMᑣᓩܹњᑣ߫ᴗ䞡DŽ ߽⫼ᴀ㒧ᵘ㗙催㑻㒧ᵘ䖯㸠↨ᇍ ḍѠ㑻㗙ϝ㑻ᑣ߫㒧ᵘ䖯㸠↨ᇍˈ↨䍋Ⳉ߽⫼ϔ㑻ᑣ߫䖯㸠↨ᇍⱘৃֵᑺ㽕དˈЎ ৠ⑤ᗻ䆘ԄЁˈҎӀϔⳈ䅸Ўᴖ㒧ᵘⱘֱᅜᗻ催Ѣㅔऩ⡍ᕕ˄Ḍ㣋䝌ˈ⇼䝌˅ⱘৠ⑤ ֱᅜᗻˈ㗠Ϩˈゟ䎇Ѣᴖ㒧ᵘⱘ↨ᇍᑣ䖬ৃҹ᧰㋶ࠄϔѯ⡍⅞ⱘ݇㘨ԡ⚍ˈ䖭ѯԡ⚍ᰃ 䖯࣪ⱘࡳ㛑ऎඳDŽᅲ䰙ϞˈѢ㋏㒳থ㚆ⱘ㒧ᵘ䞡↨ᇍᑊ≵᳝ᇚ䯂乬ㅔ࣪ˈгህᰃ䇈ˈᑣ ߫↨ᇍᖙ乏᳡Ң㒧ᵘ䖯࣪ˈ㗠㒧ᵘ䖯࣪߭ৠ㋏㒳থ㚆ֱᣕϔ㟈DŽ᳝ϔϾ㋶ᓣⱘᎹᑣ ˄བ9.2˅ˈᰃ⫼ᴹᇍḌ㊪ԧDNA䖯㸠㒧ᵘ↨ᇍⱘ˄Gutell et al., 1994˅ˈ䖭Ͼᑣ㽕㗗 ᆳⳌ݇পҷⱘḋᓣˈԚᰃⳌ݇ᗻᖙ乏䗮䖛㋏㒳থ㚆ᷥЁⱘϾ⣀ゟⱘ㸹ٓᗻさবᇐᕫࠄ ˄cf. Harvey and Pagel, 1991˅DŽ ᭄࣪ᄺӬ ᳝ѯ↨ᇍᑣ˄↨བˈMACAW, SAM˅ḍϔϾ㒳䅵ൟ䖯㸠Ӭ࣪ˈԚᰃ䖭ѯ㒳䅵ৠ㋏㒳থ㚆 ൟⱘ݇㋏ᑊϡ⏙ἮDŽҙҙḍϔϾ㋏㒳থ㚆ൟᰃ≵᳝ࡲ↨⫣䕗䞡↨ᇍᮍ⊩ⱘӬࡷⱘDŽ ᘏ㒧˖ᇍѢ㋏㒳থ㚆ߚᵤˈ᳔དⱘ↨ᇍᑣᰃҔМਸ਼˛ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ4/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,5/32 对于一个给定的系统发育问题,如果预先不知道其中的系统发育关系,就很难知道最适用的 比对方法(cf. Morri son and ellis,1997)。一般来说,我们并不赞成直接把计算机比对 结果提交给建树程序,因为建树程序不能发现比对的错误;尤其是那些包含在比对程序包中 (比如, CLUSTAL and tree in ProPack)的建树程序,特别要注意这一点( Feng and Dooli ttle,1996),因为在这些程序包中的建树程序更加不严格。我们必须通过分子结构 �功能和碱基取代过程作出一些假定,并且结合另外一些独立的系统发育证据,对整个比 对进行考察。 从比对中提取系统发育数据集 在某些比对中,比对长度是可变的,这时,系统发育数据集同比对就不会完全吻合;即使在 些长度不变的比对中,数据集也可能同比对结果不一致--举一个很简单的例子,有时候我 们只需要处理第一个和第二个密码子位点,就不需要全部的比对结果,这个话题我们在后面 讨论取代模型的时候还会涉及到 如果比对中出现可变长度,我们通常会根据比对的不确定性程度和处理inde状态的原则这两 个标准对比对结果进行取舍,从中选择所需的系统发育数据集;其中针对 i ndel状态的处理方 法取决于建树方法以及从比对结果中发掘出的系统发育信息,最极端的方法是把包括空位在 内的所有 i ndel位点从比对中清除出去,在分析时不加考虑(cf. Swofford et al.,1996a),这 个方法的好处是可以把序列的变化包容在取代模型中,而不需要特别的模型来处理 i ndel状 态,但是它的缺点也很明显:inde区域的系统发育信息完全被忽略了, 在提取数据集时保留inde区域但是忽略所有的空位分值,将会保留包括空位在内的位点碱基 变化信息。某些长度可变区域在部分序列或者全部序列中很难对准,在这种情况下,这些难 以对准的碱基的分值应该清零;这个方法存在很大的缺陷,M和M建树方法会不加考虑地把 这些清零的或者被忽略的分值理解为零分歧,但是实际上隐藏在这些分值下面的实际的数据 (不管是空位还是难以对准的碱基),一般来说,反映出的分歧度都很大。PAUP4.0中的距 离建树方法(将在下文描述)允许通过非空位区域外推得到空位区域的距离。 最大节约(MP;见下)是允许把可比对的空位合并,并将其视为特征符的唯一方法;可以通 过两种方式达到目的:作为一个附加的特征符状态(第五种核酸碱基或者第二十一种氨基 酸),或者作为一套独立于碱基取代的特征符集。当空位占据了不止一个位点的时候,前一 个方法行不通,因为每一个空位位点都会被统计为一次独立的特征符状态变化。当比对的 列的局部出现很好的可比对的空位的时候,后一种方法非常有用。我们可以把一套空位特征 符附加到比对序列数据集中,也可以用额外的碱基程序在适当的位置对空位计分,但是在计 分的时候,空位位点中只有一个作为空位计分,其余的将会被忽略。PAUP将会执行这个方 法。 对于某些比对而言,比对程序会忽略所有的空位分值或者忽略所有低于预设值的空位分值 但是,还没有任何一种程序会忽略单个序列的单个位点。如果比对在序列组内部相当明确, 但是处身其中时却不太清楚,此时必须对比对做“手术”,确保同序列组相关的明确的信息 被保留,而除去模糊的信息。 图9.3给出了一个比对“手术”的例子。在空位区域,我们必须作出决定:在可供选择的比对 中,哪一个更加合理,尤其重要的是,哪一个更加适合于建立进化树分析。如果手工解决比 对的不确定性,就必须考虑系统发育关系、取代过程(比如,转换和颠换)和碱基组成;在 这个阶段,用系统发育证据解决不确定性非常合理。在倾向于变长的序列区域,关系非常疏 远的序列和序列组的比对就可以侧向展开(就是说,引入人工空位,并且忽略分值),最终 的结果使得只有关系很近的序列区域对准在一起。某些序列中的某些位点虽然对准了,但是 并不确定,他们的分值可以在计分时忽略;这个方法的优点是可以保留同这些序列相关的明 确信息,缺点是最大节约和最大似然的建树方法会把这些“缺失”的分值看做是零分歧 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
ᇍѢϔϾ㒭ᅮⱘ㋏㒳থ㚆䯂乬ˈབᵰ乘ܜϡⶹ䘧݊Ёⱘ㋏㒳থ㚆݇㋏ˈህᕜ䲒ⶹ䘧᳔䗖⫼ⱘ ↨ᇍᮍ⊩˄cf. Morrison and Ellis, 1997˅DŽϔ㠀ᴹ䇈ˈ៥Ӏᑊϡ䌲៤Ⳉᡞ䅵ㅫᴎ↨ᇍ 㒧ᵰᦤѸ㒭ᓎᷥᑣˈЎᓎᷥᑣϡ㛑থ⦄↨ᇍⱘ䫭䇃˗ᇸ݊ᰃ䙷ѯࣙ↨ᇍᑣࣙЁ ˄↨བˈCLUSTAL and TREE in ProPack˅ⱘᓎᷥᑣˈ⡍߿㽕⊼ᛣ䖭ϔ⚍˄Feng and Doolittle, 1996˅ˈЎ䖭ѯᑣࣙЁⱘᓎᷥᑣࡴϡϹḐDŽ៥Ӏᖙ乏䗮䖛ߚᄤ㒧ᵘ �ࡳ㛑⺅পҷ䖛ߎϔѯ؛ᅮˈᑊϨ㒧ড়ϔѯ⣀ゟⱘ㋏㒳থ㚆䆕ˈᇍᭈϾ↨ ᇍ䖯㸠㗗ᆳDŽ Ң↨ᇍЁᦤপ㋏㒳থ㚆᭄䲚 ᶤѯ↨ᇍЁˈ↨ᇍ䭓ᑺᰃৃবⱘˈ䖭ᯊˈ㋏㒳থ㚆᭄䲚ৠ↨ᇍህϡӮᅠܼਏড়˗ेՓ ϔѯ䭓ᑺϡবⱘ↨ᇍЁˈ᭄䲚гৃ㛑ৠ↨ᇍ㒧ᵰϡϔ㟈--ВϔϾᕜㅔऩⱘ՟ᄤˈ᳝ᯊ៥ Ӏা䳔㽕໘⧚ϔϾѠϾᆚⷕᄤԡ⚍ˈህϡ䳔㽕ܼ䚼ⱘ↨ᇍ㒧ᵰˈ䖭Ͼ䆱乬៥Ӏৢ䴶 䅼䆎পҷൟⱘᯊ䖬Ӯ⍝ঞࠄDŽ བᵰ↨ᇍЁߎৃ⦃ব䭓ᑺˈ៥Ӏ䗮ᐌӮḍ↨ᇍⱘϡ⹂ᅮᗻᑺ໘⧚indel⢊ᗕⱘॳ߭䖭ϸ Ͼᷛޚᇍ↨ᇍ㒧ᵰ䖯㸠প㟡ˈҢЁ䗝ᢽ᠔䳔ⱘ㋏㒳থ㚆᭄䲚˗݊Ё䩜ᇍindel⢊ᗕⱘ໘⧚ᮍ ⊩পއѢᓎᷥᮍ⊩ҹঞҢ↨ᇍ㒧ᵰЁথᥬߎⱘ㋏㒳থ㚆ֵᙃˈ᳔ᵕッⱘᮍ⊩ᰃᡞࣙᣀぎԡ ݙⱘ᠔᳝indelԡ⚍Ң↨ᇍЁ⏙䰸ߎএˈߚᵤᯊϡࡴ㗗㰥˄cf. Swofford et al., 1996a˅ˈ䖭 Ͼᮍ⊩ⱘད໘ᰃৃҹᡞᑣ߫ⱘবࣙ࣪ᆍপҷൟЁˈ㗠ϡ䳔㽕⡍߿ⱘൟᴹ໘⧚indel⢊ ᗕˈԚᰃᅗⱘ㔎⚍гᕜᯢᰒ˖indelऎඳⱘ㋏㒳থ㚆ֵᙃᅠܼ㹿ᗑ⬹њDŽ ᦤপ᭄䲚ᯊֱ⬭indelऎඳԚᰃᗑ⬹᠔᳝ⱘぎԡߚˈؐᇚӮֱ⬭ࣙᣀぎԡݙⱘԡ⚍⺅ বֵ࣪ᙃDŽᶤѯ䭓ᑺৃবऎඳ䚼ߚᑣ߫㗙ܼ䚼ᑣ߫Ёᕜ䲒ᇍޚˈ䖭⾡ᚙމϟˈ䖭ѯ䲒 ҹᇍޚⱘ⺅ⱘߚؐᑨ䆹⏙䳊˗䖭Ͼᮍ⊩ᄬᕜⱘ㔎䱋ˈMPMLᓎᷥᮍ⊩Ӯϡࡴ㗗㰥ഄᡞ 䖭ѯ⏙䳊ⱘ㗙㹿ᗑ⬹ⱘߚ⧛ؐ㾷Ў䳊ߚˈFAXԚᰃᅲ䰙Ϟ䱤㮣䖭ѯߚؐϟ䴶ⱘᅲ䰙ⱘ᭄ ˄ϡㅵᰃぎԡ䖬ᰃ䲒ҹᇍޚⱘ⺅˅ˈϔ㠀ᴹ䇈ˈডߎⱘߚFAXᑺ䛑ᕜDŽPAUP 4.0Ёⱘ䎱 ⾏ᓎᷥᮍ⊩˄ᇚϟ᭛ᦣ䗄˅ܕ䆌䗮䖛䴲ぎԡऎඳᕫࠄぎԡऎඳⱘ䎱⾏DŽ ᳔㡖㑺˄MP˗㾕ϟ˅ᰃܕ䆌ᡞৃ↨ᇍⱘぎԡড়ᑊˈᑊᇚ݊㾚Ў⡍ᕕヺⱘଃϔᮍ⊩˗ৃҹ䗮 䖛ϸ⾡ᮍᓣ䖒ࠄⳂⱘ˖ЎϔϾ䰘ࡴⱘ⡍ᕕヺ⢊ᗕ˄Ѩ⾡Ḍ䝌⺅㗙Ѡकϔ⾡⇼ 䝌˅ˈ㗙Ўϔ༫⣀ゟѢ⺅পҷⱘ⡍ᕕヺ䲚DŽᔧぎԡऴњϡℶϔϾԡ⚍ⱘᯊࠡˈϔ Ͼᮍ⊩㸠ϡ䗮ˈЎ↣ϔϾぎԡԡ⚍䛑Ӯ㹿㒳䅵Ўϔ⣀ゟⱘ⡍ᕕヺ⢊ᗕব࣪DŽᔧ↨ᇍⱘᑣ ߫ⱘሔ䚼ߎ⦃ᕜདⱘৃ↨ᇍⱘぎԡⱘᯊৢˈϔ⾡ᮍ⊩䴲ᐌ᳝⫼DŽ៥Ӏৃҹᡞϔ༫ぎԡ⡍ᕕ ヺ䰘ࠄࡴ↨ᇍᑣ᭄߫䲚Ёˈгৃҹ⫼乱ⱘ⺅ᑣ䗖ᔧⱘԡ㕂ᇍぎԡ䅵ߚˈԚᰃ䅵 ߚⱘᯊˈぎԡԡ⚍Ёা᳝ϔϾЎぎԡ䅵ߚԭ݊ˈⱘᇚӮ㹿ᗑ⬹DŽPAUPᇚӮᠻ㸠䖭Ͼᮍ ⊩DŽ ᇍѢᶤѯ↨ᇍ㗠㿔ˈ↨ᇍᑣӮᗑ⬹᠔᳝ⱘぎԡߚؐ㗙ᗑ⬹᠔᳝ԢѢ乘䆒ؐⱘぎԡߚ˗ؐ Ԛᰃˈ䖬≵᳝ӏԩϔ⾡ᑣӮᗑ⬹ऩϾᑣ߫ⱘऩϾԡ⚍DŽབᵰ↨ᇍᑣ߫㒘ݙ䚼Ⳍᔧᯢ⹂ˈ Ԛᰃ໘䑿݊Ёᯊैϡ⏙Ἦˈℸᯊᖙ乏ᇍ↨ᇍخĀᴃāˈ⹂ֱৠᑣ߫㒘Ⳍ݇ⱘᯢ⹂ⱘֵᙃ 㹿ֱ⬭ˈ㗠䰸এ㊞ⱘֵᙃDŽ 9.3㒭ߎњϔϾ↨ᇍĀᴃāⱘ՟ᄤDŽぎԡऎඳˈ៥Ӏᖙ乏އߎᅮ˖ৃկ䗝ᢽⱘ↨ᇍ ЁˈાϔϾࡴড়⧚ˈᇸ݊䞡㽕ⱘᰃˈાϔϾࡴ䗖ড়Ѣᓎゟ䖯࣪ᷥߚᵤDŽབᵰᎹ㾷އ↨ ᇍⱘϡ⹂ᅮᗻˈህᖙ乏㗗㰥㋏㒳থ㚆݇㋏ǃপҷ䖛˄↨བˈ䕀ᤶ乴ᤶ˅⺅㒘៤˗ 䖭Ͼ䰊↉ˈ⫼㋏㒳থ㚆䆕㾷އϡ⹂ᅮᗻ䴲ᐌড়⧚DŽؒѢব䭓ⱘᑣ߫ऎඳˈ݇㋏䴲ᐌ⭣ 䖰ⱘᑣ߫ᑣ߫㒘ⱘ↨ᇍህৃҹջሩᓔ˄ህᰃ䇈ˈᓩܹҎᎹぎԡˈᑊϨᗑ⬹ߚ᳔ˈ˅ؐ㒜 ⱘ㒧ᵰՓᕫা᳝݇㋏ᕜ䖥ⱘᑣ߫ऎඳᇍޚϔ䍋DŽᶤѯᑣ߫Ёⱘᶤѯԡ⚍㱑✊ᇍޚњˈԚᰃ ᑊϡ⹂ᅮˈҪӀⱘߚৃؐҹ䅵ߚᯊᗑ⬹˗䖭Ͼᮍ⊩ⱘӬ⚍ᰃৃҹֱ⬭ৠ䖭ѯᑣ߫Ⳍ݇ⱘᯢ ⹂ֵᙃˈ㔎⚍ᰃ᳔㡖㑺᳔Ԑ✊ⱘᓎᷥᮍ⊩Ӯᡞ䖭ѯĀ㔎༅āⱘߚؐⳟخᰃ䳊ߚFAXDŽ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ5/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,6/32 由 MALI GN( Wheeler and gl adstein,1994)和 TreeAl i gn得到的比对不需要在比对后用这些 方法中的建树方法进行数据修饰,即使这些比对中仍然有一些同样类型的不确定性,这些不 确定性在另外一个程序进行分析时需要修正。如前所述,这些程序会根据由比对得到的最好 的MP系统发育进化树,对比对参数进行递归优化。 MALI GN还会利用一套空位为代价,对以连 接的可供选择的比对为基础的建树方法进行优化;在这个方法中,在最有可能的几种比对中 出现的比对特征将会被加权。这就提供了一种方法,可以捕获序列分歧的数量(在取消不确 定的比对区域的分值的时候这些分歧是被忽略掉的),因为这些区域的所有可能的比对方式 都将显示这些区域的最大的序列分歧。处于不确定的比对区域中的位点很可能不是同源的, 因此在进化树中需要加入一些噪声干扰或者偏向。 决定取代模型 对于取代模型,应该给予同比对和建树同样的重视。就像前面暗示的那样,取代模型既影响 比对,也影响建树;因此需要采用递归方法。现在,对于核酸数据而言,可以通过取代模型 中的两个要素进行计算机评估( Swofford,1997),但是对于氨基酸和密码子数据而言,没 有什么评估方案( Fel sensei n,1996)。其中一个要素是碱基之间相互取代的模型;另外- 个要素是序列中不同位点的所有取代的相对速率。还没有一种简单的计算机程序可以对较复 杂的变量(比如,位点特异性或者系统特异性取代模型)进行评估,同样,现有的建树软件 也不可能理解这些复杂变量。 碱基取代速率模型 一般而言,生物化学性质相近的碱基之间的取代频率较高;在DNA中,四种转换(A→G,G→ A,C→T,T>C)的频率比八种颠换(A→C,A→T,C→G,G→T,以及前四种的反向取 代)的频率要高;这些偏向会影响两个序列之间的预计的分歧。 各个残基之间的相对取代速率一般由方阵形式列出;对于碱基而言,行数和列数都是4,对于 氨基酸而言,行数和列数都是20(比如PAM方阵),对于密码子而言,行数和列数都是61(除 去了中止密码子)。非对角线元素对应于一个碱基变为另一个碱基的相对代价,而对角线元 素则代表不同序列拥有同一个碱基的代价 这些代价值可以固定为先验的代价表,以确保建树方法在计分时对每一种取代都使用确定的 代价值。固定的代价方阵是典型的静态权重方阵,MP建树方法(如图9.4)使用的就是这种方 阵。如果使用这种权重,那么这个方法就会被称为“加权节约”。又如,ML建树方法,代价 值是由即时的速率方阵得到的,这个方阵(如图9.5)代表了各种取代可能会发生的概率的M 估计值。MP权重方阵只涉及简单的算术,而应用距离和M速率方阵则可以引入复杂的代数 为了避免盲目使用不适当的方法,建议大家熟悉其内部的基本原理(见Li,1997,and/or Swofford et al. 1996a) 实际上,“前进”和“反向”取代速率被认为是相同的:这个取代模型被称为是“时间可 逆”;这个模型拥有“静态”的性质,因为在所有的碱基频率中没有预知的变化。在系统发 育的特殊历史中,不同序列中的碱基频率不同表明,前进和反向速率实际上可能会不同;而 传统的取代权重或者速率方阵不能包容这个“非静态”环境;本节的结尾将讨论一个基于非 静态取代模型(“1og�:det")的建树方法,这个方法将会提供一个可供选择的计算方 法 通常,特征符状态的权重方阵都会或多或少地通过观察进行过估值,当然也可以从速率矩阵 衍生得到。比如,如果假定两个转化的其中一个,发生的频率是每个颠换的两倍,那么据此 就可以确定一个权重方阵,比如,A�:G的转换代价为1,而A�:T的颠换代价为2(图 9.4)。(节约方法规定对角线元素值,或者说是不同序列中拥有相同碱基的代价值为零。这 是节约方法的一个缺点��详见下文)在随后的建树步骤中,这套假定会把颠换的总数 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
⬅MALIGN˄Wheeler and Gladstein, 1994˅TreeAlignᕫࠄⱘ↨ᇍϡ䳔㽕↨ᇍৢ⫼䖭ѯ ᮍ⊩Ёⱘᓎᷥᮍ⊩䖯㸠᭄ׂ佄ˈेՓ䖭ѯ↨ᇍЁҡ✊᳝ϔѯৠḋ㉏ൟⱘϡ⹂ᅮᗻˈ䖭ѯϡ ⹂ᅮᗻϔϾᑣ䖯㸠ߚᵤᯊ䳔㽕ׂℷDŽབࠡ᠔䗄ˈ䖭ѯᑣӮḍ⬅↨ᇍᕫࠄⱘ᳔ད ⱘMP㋏㒳থ㚆䖯࣪ˈᷥᇍ↨ᇍখ᭄䖯㸠䗦ᔦӬ࣪DŽMALIGN䖬Ӯ߽⫼ϔ༫ぎԡЎҷӋˈᇍҹ䖲 ⱘৃկ䗝ᢽⱘ↨ᇍЎ⸔ⱘᓎᷥᮍ⊩䖯㸠Ӭ࣪˗䖭Ͼᮍ⊩Ёˈ᳔᳝ৃ㛑ⱘ↨辵ᇍЁ ߎ⦃ⱘ↨ᇍ⡍ᕕᇚӮ㹿ࡴᴗDŽ䖭ህᦤկњϔ⾡ᮍ⊩ˈৃҹᤩ㦋ᑣ߫ߚFAXⱘ᭄䞣˄প⍜ϡ⹂ ᅮⱘ↨ᇍऎඳⱘߚؐⱘᯊ䖭ѯߚFAXᰃ㹿ᗑ⬹ᥝⱘ˅ˈЎ䖭ѯऎඳⱘ᠔᳝ৃ㛑ⱘ↨ᇍᮍᓣ 䛑ᇚᰒ⼎䖭ѯऎඳⱘ᳔ⱘᑣ߫ߚFAXDŽ໘Ѣϡ⹂ᅮⱘ↨ᇍऎඳЁⱘԡ⚍ᕜৃ㛑ϡᰃৠ⑤ⱘˈ ℸ䖯࣪ᷥЁ䳔㽕ࡴܹϔѯాໄᑆᡄ㗙أDŽ ൟᅮপҷއ ᇍѢপҷൟˈᑨ䆹㒭ќৠ↨ᇍᓎᷥৠḋⱘ䞡㾚DŽህڣࠡ䴶ᱫ⼎ⱘ䙷ḋˈপҷൟ᮶ᕅડ ↨ᇍˈгᕅડᓎᷥ˗ℸ䳔㽕䞛⫼䗦ᔦᮍ⊩DŽ⦄ˈᇍѢḌ䝌᭄㗠㿔ˈৃҹ䗮䖛পҷൟ ЁⱘϸϾ㽕㋴䖯㸠䅵ㅫᴎ䆘Ԅ˄Swofford, 1997˅ˈԚᰃᇍѢ⇼䝌ᆚⷕᄤ᭄㗠㿔ˈ≵ ᳝ҔМ䆘ԄᮍḜ˄Felsenstein, 1996˅DŽ݊ЁϔϾ㽕㋴ᰃ⺅П䯈ⳌѦপҷⱘൟ˗ϔ Ͼ㽕㋴ᰃᑣ߫Ёϡৠԡ⚍ⱘ᠔᳝পҷⱘⳌᇍ䗳⥛DŽ䖬≵᳝ϔ⾡ㅔऩⱘ䅵ㅫᴎᑣৃҹᇍ䕗 ᴖⱘব䞣˄↨བˈԡ⚍⡍ᓖᗻ㗙㋏㒳⡍ᓖᗻপҷൟ˅䖯㸠䆘Ԅˈৠḋˈ⦄᳝ⱘᓎᷥ䕃ӊ гϡৃ㛑⧚㾷䖭ѯᴖব䞣DŽ ⺅পҷ䗳⥛ൟ ϔ㠀㗠㿔ˈ⫳⠽࣪ᄺᗻ䋼Ⳍ䖥ⱘ⺅П䯈ⱘপҷ乥⥛䕗催˗DNAЁˈಯ⾡䕀ᤶ˄AÆ G, GÆ A, CÆ T, TÆ &˅ⱘ乥⥛↨ܿ⾡乴ᤶ˄AÆ C, AÆ T, CÆ G, GÆ T, ҹঞࠡಯ⾡ⱘডপ ҷ˅ⱘ乥⥛㽕催˗䖭ѯأӮᕅડϸϾᑣ߫П䯈ⱘ乘䅵ⱘߚFAXDŽ Ͼ⅟П䯈ⱘⳌᇍপҷ䗳⥛ϔ㠀⬅ᮍ䰉ᔶᓣ߫ߎ˗ᇍѢ⺅㗠㿔ˈ㸠᭄᭄߫䛑ᰃˈᇍѢ ⇼䝌㗠㿔ˈ㸠᭄᭄߫䛑ᰃ20˄↨བPAMᮍ䰉˅ˈᇍѢᆚⷕᄤ㗠㿔ˈ㸠᭄᭄߫䛑ᰃ61˄䰸 এњЁℶᆚⷕᄤ˅DŽ䴲ᇍ㾦㒓ܗ㋴ᇍᑨѢϔϾ⺅বЎϔϾ⺅ⱘⳌᇍҷӋˈ㗠ᇍ㾦㒓ܗ ㋴߭ҷ㸼ϡৠᑣ߫ᢹ᳝ৠϔϾ⺅ⱘҷӋDŽ 䖭ѯҷӋؐৃҹᅮЎܜ偠ⱘҷӋ㸼ˈҹ⹂ֱᓎᷥᮍ⊩䅵ߚᯊᇍ↣ϔ⾡পҷ䛑Փ⫼⹂ᅮⱘ ҷӋؐDŽᅮⱘҷӋᮍ䰉ᰃൟⱘ䴭ᗕᴗ䞡ᮍ䰉ˈMPᓎᷥᮍ⊩˄བ9.4˅Փ⫼ⱘህᰃ䖭⾡ᮍ 䰉DŽབᵰՓ⫼䖭⾡ᴗ䞡ˈ䙷М䖭Ͼᮍ⊩ህӮ㹿⿄ЎĀࡴᴗ㡖㑺āDŽজབˈMLᓎᷥᮍ⊩ˈҷӋ ؐᰃ⬅ेᯊⱘ䗳⥛ᮍ䰉ᕫࠄⱘˈ䖭Ͼᮍ䰉˄བ9.5˅ҷ㸼њ⾡পҷৃ㛑Ӯথ⫳ⱘὖ⥛ⱘML Ԅ䅵ؐDŽMPᴗ䞡ᮍ䰉া⍝ঞㅔऩⱘㅫᴃˈ㗠ᑨ⫼䎱⾏ML䗳⥛ᮍ䰉߭ৃҹᓩܹᴖⱘҷ᭄DŽ Ўњ䙓ܡⳆⳂՓ⫼ϡ䗖ᔧⱘᮍ⊩ˈᓎ䆂ᆊ❳ᙝ݊ݙ䚼ⱘᴀॳ⧚˄㾕Li, 1997, and / or Swofford et al., 1996a˅DŽ ᅲ䰙ϞˈĀࠡ䖯āĀডāপҷ䗳⥛㹿䅸ЎᰃⳌৠⱘ˗䖭Ͼপҷൟ㹿⿄ЎᰃĀᯊ䯈ৃ 䗚ā˗䖭Ͼൟᢹ᳝Ā䴭ᗕāⱘᗻ䋼ˈЎ᠔᳝ⱘ⺅乥⥛Ё≵᳝乘ⶹⱘব࣪DŽ㋏㒳থ 㚆ⱘ⡍⅞ग़Ёˈϡৠᑣ߫Ёⱘ⺅乥⥛ϡৠ㸼ᯢˈࠡ䖯ড䗳⥛ᅲ䰙Ϟৃ㛑Ӯϡৠ˗㗠 Ӵ㒳ⱘপҷᴗ䞡㗙䗳⥛ᮍ䰉ϡ㛑ࣙᆍ䖭ϾĀ䴲䴭ᗕā⦃๗˗ᴀ㡖ⱘ㒧ሒᇚ䅼䆎ϔϾѢ䴲 䴭ᗕপҷൟ˄“log�det”˅ⱘᓎᷥᮍ⊩ˈ䖭Ͼᮍ⊩ᇚӮᦤկϔϾৃկ䗝ᢽⱘ䅵ㅫᮍ ⊩DŽ 䗮ᐌˈ⡍ᕕヺ⢊ᗕⱘᴗ䞡ᮍ䰉䛑Ӯᇥഄ䗮䖛㾖ᆳ䖯㸠䖛Ԅؐˈᔧ✊гৃҹҢ䗳⥛ⶽ䰉 㸡⫳ᕫࠄDŽ↨བˈབᵰ؛ᅮϸϾ䕀࣪ⱘ݊ЁϔϾˈথ⫳ⱘ乥⥛ᰃ↣Ͼ乴ᤶⱘϸסˈ䙷Мℸ ህৃҹ⹂ᅮϔϾᴗ䞡ᮍ䰉ˈ↨བˈA�Gⱘ䕀ᤶҷӋЎˈ㗠A�Tⱘ乴ᤶҷӋЎ˄ 9.4˅DŽ˄㡖㑺ᮍ⊩㾘ᅮᇍ㾦㒓ܗ㋴ؐˈ㗙䇈ᰃϡৠᑣ߫Ёᢹ᳝Ⳍৠ⺅ⱘҷӋؐЎ䳊DŽ䖭 ᰃ㡖㑺ᮍ⊩ⱘϔϾ㔎⚍��䆺㾕ϟ᭛˅䱣ৢⱘᓎᷥℹ偸Ёˈ䖭༫؛ᅮӮᡞ乴ᤶⱘᘏ᭄ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ6/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,7/3 降至最低值,而力求把那些主要差异是转换的序列集中在一起。 任何一种“时间可逆”的核苷酸取代模型都可以用图9.5所示的方阵刻画,只是其中一个速率 和其它速率的差异;在任意组合中,最多可以达到只有六个参数,其中每一个速率参数都是 独立的( Swofford et al.,19%6a;Li,1997)。如果平衡的碱基频率不相等,则需要额外 的参数:如果平衡的碱基频率不相等,但是却假定这些频率相等,那么系统发育进化树的最 终结果将会出错(Li,1997)。 侧线( paral inear)(Lake,1994)和“log�det”( Lockhart et al.,1994)做了一些 修正(见 Swofford et a.,1996a)来满足非静态环境的需要;这个方法只适用于距离进化 树的建立;在这个方法中,对于每一个序列匹配,各种类型和变化方向的原始取代的数目都 会计算在一个4×4的方阵中(如图9.6)。每个方阵都会有一个代数行列式,这个行列式的 og值是评估序列差异性的一个要素,因此被称为“Iog�:det”。对那些拥有各种各样的碱 基频率的序列进行双重比较,就会得到各种各样的方阵,也就会得到各种各样的行列式值 因此,在评估序列两两之间的距离的时候,就要受到序列两两之间的行列式值的影响,而且 序列两两之间的比较允许适用不同的取代模型,因此沿着系统发育进化树的不同树枝,将会 产生多元化。Log&#o;det尤其对位点之间的速率差异(见下文)敏感,因此,碱基频率的偏 向可能只存在于那些承受变化的位点 位点内速率差异模型 除了取代模型的多元化以外,一个序列中各个不同位点之间取代速率的差异也会对建立进化 树的结果产生很深远的影响( Swofford et a.,1996a);关于位点之间的速率差异(或者 叫做位点异质性),有一个最明显的例子,就是在一个编码序列中,三联体编码的位点差 异:在三联体编码中,第三个编码位点比另外两个位点更加容易发生变化;正是出于这个原 因,许多系统发育分析方法在分析编码序列时,都会把第三个编码位点排除在外;但是在某 些情况下,速率差异模型会更加敏锐(比如,对应于蛋白质或者rRNA的保守序列) 对位点差异的取代速率进行估值的方法有非参数化模型(W.M. Yang et a.,1996),不变 式模型和gama分布模型( Swofford et al.1996a)。非参数化方法源于特异位点的相对速 率的范畴;这个方法可以在MP建树方法中使用,只要根据相对的变异频率对特异位点进行简 单加权就可以了,当然进行加权时需要有关于真实进化树的预备知识;这个方法同样也可以 适用于M建树方法,但是在计算上被认为是不切实际的(W.M. Yang et al.,1996)。不 式模型对一定比例的位点进行估值,这些位点并不能自由变化;剩余的位点假定为等概率变 化。至于gama模型方法,它假定一个给定的序列变化的概率是遵守 gamma分布规律的,据此 指定位点的取代概率; gamma分布的形状(有形状参数α描述)描述了一个序列中各个位点的 取代频率的分布( Swofford et al.,1996a,p.444 Fi gure13:cf.Li,1997,p.76, Fi gure3.10:注意尺度差异)。在一个混合方法中,可以假定一部分位点是不变的,而剩余 的位点则是按照 gamma分布变化的。 实际上,gama修正可以是连续的,离散的或者自离散的(W.M. Yang et al.1996)。连续 gama的意思是各个位点沿一条连续的概率曲线变化;目前,这个方法在绝大多数情况下无法 计算。离散gama逼近方法指定各个位点的概率,使得这些(大量的)概率值逼近 gamma曲 线。自离散模型假定相邻的位点的变化速率是相关联的;许多组位点被分为许多类,其中每 类中的位点的变化速率可能被假定为常量或者异类值。 进化树建立程序使用各种各样的位点速率差异修正方法。对于核酸数据,PAUP4.0在单独或 者混合使用时间可逆的距离建树方法和最大似然建树方法时,既使用不变式 gamma模型,也使 用离散的gama模型;在使用lσ&#o;det距离建树方法时,使用不变式模型(见下)。对于核 酸,氨基酸和编码子数据,PAM使用连续的,离散的和自离散的gama模型。对于核酸和氨基 酸数据, PHYLIP使用一种离散的gama模型 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
䰡㟇᳔Ԣؐˈ㗠∖ᡞ䙷ѯЏ㽕Ꮒᓖᰃ䕀ᤶⱘᑣ߫䲚Ёϔ䍋DŽ ӏԩϔ⾡Āᯊ䯈ৃ䗚āⱘḌ㣋䝌পҷൟ䛑ৃҹ⫼9.5᠔⼎ⱘᮍ䰉ࠏˈ⬏াᰃ݊ЁϔϾ䗳⥛ ݊ᅗ䗳⥛ⱘᏂᓖ˗ӏᛣ㒘ড়Ёˈ᳔ৃҹ䖒ࠄা᳝݁Ͼখ᭄ˈ݊Ё↣ϔϾ䗳⥛খ᭄䛑ᰃ ⣀ゟⱘ˄Swofford et al., 1996a˗Li, 1997˅DŽབᵰᑇ㸵ⱘ⺅乥⥛ϡⳌㄝˈ߭䳔㽕乱 ⱘখ᭄˗བᵰᑇ㸵ⱘ⺅乥⥛ϡⳌㄝˈԚᰃै؛ᅮ䖭ѯ乥⥛Ⳍㄝˈ䙷М㋏㒳থ㚆䖯࣪ᷥⱘ᳔ 㒜㒧ᵰᇚӮߎ䫭˄Li, 1997˅DŽ ջ㒓˄paralinear˅˄Lake, 1994˅“log�det”˄Lockhart et al., 1994˅خњϔѯ ׂℷ˄㾕Swofford et al., 1996a˅ᴹ⒵䎇䴲䴭ᗕ⦃๗ⱘ䳔㽕˗䖭Ͼᮍ⊩া䗖⫼Ѣ䎱⾏䖯࣪ ᷥⱘᓎゟ˗䖭Ͼᮍ⊩ЁˈᇍѢ↣ϔϾᑣ߫ऍ䜡ˈ⾡㉏ൟব࣪ᮍⱘॳྟপҷⱘ᭄Ⳃ䛑 Ӯ䅵ㅫϔϾ4×4ⱘᮍ䰉Ё˄བ9.6˅DŽ↣Ͼᮍ䰉䛑Ӯ᳝ϔϾҷ᭄㸠߫ᓣˈ䖭Ͼ㸠߫ᓣⱘ logؐᰃ䆘Ԅᑣ߫ᏂᓖᗻⱘϔϾ㽕㋴ˈℸ㹿⿄Ў“log�det”DŽᇍ䙷ѯᢹ᳝⾡ḋⱘ⺅ 乥⥛ⱘᑣ߫䖯㸠ঠ䞡↨䕗ˈህӮᕫࠄ辵ḋⱘᮍ䰉ˈгህӮᕫࠄ辵ḋⱘ㸠߫ᓣؐ˗ ℸˈ䆘Ԅᑣ߫ϸϸП䯈ⱘ䎱⾏ⱘᯊˈህ㽕ফࠄᑣ߫ϸϸП䯈ⱘ㸠߫ᓣؐⱘᕅડˈ㗠Ϩ ᑣ߫ϸϸП䯈ⱘ↨䕗ܕ䆌䗖⫼ϡৠⱘপҷൟˈℸ⊓ⴔ㋏㒳থ㚆䖯࣪ᷥⱘϡৠᷥᵱˈᇚӮ ѻ⫳࣪ܗDŽLog�detᇸ݊ᇍԡ⚍П䯈ⱘ䗳⥛Ꮒᓖ˄㾕ϟ᭛˅ᬣᛳˈℸˈ⺅乥⥛ⱘأ ৃ㛑াᄬѢ䙷ѯᡓফব࣪ⱘԡ⚍DŽ ԡ⚍ݙ䗳⥛Ꮒᓖൟ 䰸њপҷൟⱘ࣪ܗҹˈϔϾᑣ߫ЁϾϡৠԡ⚍П䯈পҷ䗳⥛ⱘᏂᓖгӮᇍᓎゟ䖯࣪ ᷥⱘ㒧ᵰѻ⫳ᕜ⏅䖰ⱘᕅડ˄Swofford et al., 1996a˅˗݇Ѣԡ⚍П䯈ⱘ䗳⥛Ꮒᓖ˄㗙 িخԡ⚍ᓖ䋼ᗻ˅ˈ᳝ϔϾ᳔ᯢᰒⱘ՟ᄤˈህᰃϔϾ㓪ⷕᑣ߫Ёˈϝ㘨ԧ㓪ⷕⱘԡ⚍Ꮒ ᓖ˖ϝ㘨ԧ㓪ⷕЁˈϝϾ㓪ⷕԡ⚍↨ϸϾԡ⚍ࡴᆍᯧথ⫳ব࣪˗ℷᰃߎѢ䖭Ͼॳ ˈ䆌㋏㒳থ㚆ߚᵤᮍ⊩ߚᵤ㓪ⷕᑣ߫ᯊˈ䛑ӮᡞϝϾ㓪ⷕԡ⚍ᥦ䰸˗Ԛᰃᶤ ѯᚙމϟˈ䗳⥛ᏂᓖൟӮࡴᬣ䫤˄↨བˈᇍᑨѢ㲟ⱑ䋼㗙rRNAⱘֱᅜᑣ߫˅DŽ ᇍԡ⚍Ꮒᓖⱘপҷ䗳⥛䖯㸠Ԅؐⱘᮍ⊩᳝䴲খ᭄࣪˄ൟW.M. Yang et al., 1996˅ˈϡব ᓣൟgammaߚᏗൟ˄Swofford et al., 1996a˅DŽ䴲খ᭄࣪ᮍ⊩⑤Ѣ⡍ᓖԡ⚍ⱘⳌᇍ䗳 ⥛ⱘ㣗⭈˗䖭Ͼᮍ⊩ৃҹMPᓎᷥᮍ⊩ЁՓ⫼ˈা㽕ḍⳌᇍⱘবᓖ乥⥛ᇍ⡍ᓖԡ⚍䖯㸠ㅔ ऩࡴᴗህৃҹњˈᔧ✊䖯㸠ࡴᴗᯊ䳔㽕᳝݇Ѣⳳᅲ䖯࣪ᷥⱘ乘ⶹ䆚˗䖭Ͼᮍ⊩ৠḋгৃҹ 䗖⫼ѢMLᓎᷥᮍ⊩ˈԚᰃ䅵ㅫϞ㹿䅸Ўᰃϡߛᅲ䰙ⱘ˄W.M. Yang et al., 1996˅DŽϡব ᓣൟᇍϔᅮ↨՟ⱘԡ⚍䖯㸠Ԅؐˈ䖭ѯԡ⚍ᑊϡ㛑㞾⬅ব࣪˗࠽ԭⱘԡ⚍؛ᅮЎㄝὖ⥛ব ࣪DŽ㟇Ѣgammaൟᮍ⊩ˈᅗ؛ᅮϔϾ㒭ᅮⱘᑣ߫ব࣪ⱘὖ⥛ᰃ䙉ᅜgammaߚᏗ㾘ᕟⱘˈℸ ᣛᅮԡ⚍ⱘপҷὖ⥛˗gammaߚᏗⱘᔶ⢊˄᳝ᔶ⢊খ᭄Įᦣ䗄˅ᦣ䗄њϔϾᑣ߫ЁϾԡ⚍ⱘ পҷ乥⥛ⱘߚᏗ˄Swofford et al., 1996a, p. 444, Figure 13; cf. Li, 1997, p. 76, Figure 3.10; ⊼ᛣሎᑺᏂᓖ˅DŽϔϾ⏋ড়ᮍ⊩Ёˈৃҹ؛ᅮϔ䚼ߚԡ⚍ᰃϡবⱘˈ㗠࠽ԭ ⱘԡ⚍߭ᰃᣝ✻gammaߚᏗব࣪ⱘDŽ ᅲ䰙Ϟˈgammaׂℷৃҹᰃ䖲㓁ⱘˈ⾏ᬷⱘ㗙㞾⾏ᬷⱘ˄W.M. Yang et al., 1996˅DŽ䖲㓁 gammaⱘᛣᗱᰃϾԡ⚍⊓ϔᴵ䖲㓁ⱘὖ⥛᳆㒓ব࣪˗Ⳃࠡˈ䖭Ͼᮍ⊩㒱᭄ᚙމϟ᮴⊩ 䅵ㅫDŽ⾏ᬷgamma䘐䖥ᮍ⊩ᣛᅮϾԡ⚍ⱘὖ⥛ˈՓᕫ䖭ѯ˄䞣ⱘ˅ὖ⥛ؐ䘐䖥gamma᳆ 㒓DŽ㞾⾏ᬷൟ؛ᅮⳌ䚏ⱘԡ⚍ⱘব࣪䗳⥛ᰃⳌ݇㘨ⱘ˗䆌㒘ԡ⚍㹿ߚЎ䆌㉏ˈ݊Ё↣ ϔ㉏Ёⱘԡ⚍ⱘব࣪䗳⥛ৃ㛑㹿؛ᅮЎᐌ䞣㗙ᓖ㉏ؐDŽ 䖯࣪ᷥᓎゟᑣՓ⫼⾡ḋⱘԡ⚍䗳⥛Ꮒᓖׂℷᮍ⊩DŽᇍѢḌ䝌᭄ˈPAUP 4.0ऩ⣀ 㗙⏋ড়Փ⫼ᯊ䯈ৃ䗚ⱘ䎱⾏ᓎᷥᮍ⊩᳔Ԑ✊ᓎᷥᮍ⊩ᯊˈ᮶Փ⫼ϡবᓣgammaൟˈгՓ ⫼⾏ᬷⱘgammaൟ˗Փ⫼log�det䎱⾏ᓎᷥᮍ⊩ᯊˈՓ⫼ϡবᓣൟ˄㾕ϟ˅DŽᇍѢḌ 䝌ˈ⇼䝌㓪ⷕᄤ᭄ˈPAMLՓ⫼䖲㓁ⱘˈ⾏ᬷⱘ㞾⾏ᬷⱘgammaൟDŽᇍѢḌ䝌⇼ 䝌᭄ˈPHYLIPՓ⫼ϔ⾡⾏ᬷⱘgammaൟDŽ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ7/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,8/3 究竟使用哪一种取代模型呢? 在一个给定的序列集中,即使一个取代模型中的任何参数都可以证明是很有判断力的,但是 最好的模型并不一定总是拥有最多的蚕室;相反,参数越少,模型越好,这是因为对每一个 参数进行估值都会引入一个相关的变量,而每引入一个附加的参数维度,都会使得整体的变 数增加,有时候甚至会对模型起抑制作用(见Li,1997:p.84,表4.1)。对于一个给定的 序列比较,如果模型只有两个参数,那么碱基差异的总和要被划分为两个类别;如果模型有 六个参数,那么碱基差异的总和要被划分为六个类别;很明显,如果分为六个类别,那么每 一个类别中的位点样本数目将会很小,很可能小得无法进行合理地估值 PAUP的“描述树”特征是对DNA序列的取代模型进行规范的一个较好的策略,它使用似然方法 同时评估六个可逆的取代速率、gama分布的a形状参数和不变的位点的比例(图97)。这些 参数可以通过相等的或者指定的碱基频率进行估值。通常,任何一个合理的系统发育进化树 (比如,很容易就可以得到一个相邻连接的进化树)都适用于这个程序,因为很明显,对参 数的估值在很大程度上受到特征符模式的影响,而不是进化树的拓扑结构( Swofford et a.,1996b)。这个估值程序对于50个序列而言,并不会耗费太多的时间。如果序列较多, 或者时间较紧,可以对试验的进化树进行精简,在保留全部的系统发育范围和结构的同时, 减少分类数目。通过这些估算的取代参数,我们可以通过比较由较多参数和较少参数分别评 估得到的似然分值,决定一个简化的模型是否合理(比如,六个取代类别是否可以减少到两 个)。有时候,α参数和不变位点的比例可以相互替换,所以我们应该比较每一个单独使用时 得到的似然分值和两个同时使用时得到的似然分值。注意,和MP以及M不同,用不同的参数 值得到M分值可以直接比较( Swofford et a.,1996b) 对于编码蛋白质的DNA序列,根据样本的分歧程度,有时候很明显地,有用的变化基本上都是 第一位和第二位的编码位点,而在整个数据集中,第三位点通常都是随机的,或者第三位点 变化而第一位点和第二位点不变。尽管除去“无用”位点可以提高剩余位点的不同速率的估 值精确度,上面所述的程序还是要对这个速率差异进行修正。对于节约进化树的建立,我们 有时候会把随机的第三位点从分析中除去,因为这些位点只会引入噪声,如果碱基频率不相 等,这些位点还会引入错误 怎么样才能确定数据集中的非静态因素是否会成为一个问题呢?最简单的方法可能就是去比 较PAUP中两种通过不同方法得到的建树结果和进化树评估结果,一种方法是使用时间可逆的 方法,另一种方法是log�:det距离建树方法。下面的章节中将会涉及到这些程序。 还没有什么好的计算方法,能够直接从序列数据中评估非静态因素的影响。PAUP中有一个命 令,会列出所有序列的碱基频率。这个程序应该使用排除不变位点( Excl ude Constant Si tes)的选项。序列中的碱基频率可以很直观地比较出来。数据文件应该指定 gapmode= mi ssi ng,或者PAUP要把一个空位特征符计算为一个碱基变化。碱基频率的命令还要 对数据执行一个“chi平方(chi� square)”测试,但是这个测试并不切实际,因为它假 定数据是从一个随机样本中提取的,而结果就会假定所观察到的不相等是相互独立的而不是 系统发育结构的结果。一个毫无意义的chi� square分值并不能除去非静态因素,而一个有 意义的分值很可能会进一步证实非静态因素。PAUP中的碱基组成命令已经被用来证明:在被 子植物和绿藻的5.8SrD№A序列中,两者之间变化比较大的位点集中存在中碱基偏好,但是并 不一定在某个序列上产生变化( Hershkovi tz and lewis,1996)。 建树方法 现有的软件中所采用的建树方法已经在某些著作( Sai tou,1996: Swofford et a.,1996a Li,1997)中有很详尽的讨论;这部分只是简单地描述一些最常用的方法。建树方法可以分 为两类,每类有两种不同的方法: file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
おコՓ⫼ાϔ⾡পҷൟਸ਼˛ ϔϾ㒭ᅮⱘᑣ߫䲚ЁˈेՓϔϾপҷൟЁⱘӏԩখ᭄䛑ৃҹ䆕ᯢᰃᕜ᳝߸ᮁⱘˈԚᰃ ᳔དⱘൟᑊϡϔᅮᘏᰃᢹ᳔᳝ⱘ㱩ᅸ˗Ⳍডˈখ᭄䍞ᇥˈൟ䍞དˈ䖭ᰃЎᇍ↣ϔϾ খ᭄䖯㸠Ԅؐ䛑ӮᓩܹϔϾⳌ݇ⱘব䞣ˈ㗠↣ᓩܹϔϾ䰘ࡴⱘখ᭄㓈ᑺˈ䛑ӮՓᕫᭈԧⱘব ᭄ࡴᯊ᳝ˈ⫮㟇Ӯᇍൟ䍋ᡥࠊ˄⫼㾕Li, 1997: p. 84, 㸼4.1˅DŽᇍѢϔϾ㒭ᅮⱘ ᑣ߫↨䕗ˈབᵰൟা᳝ϸϾখ᭄ˈ䙷М⺅Ꮒᓖⱘᘏ㽕㹿ߚߦЎϸϾ㉏߿˗བᵰൟ᳝ ݁Ͼখ᭄ˈ䙷М⺅Ꮒᓖⱘᘏ㽕㹿ߚߦЎ݁Ͼ㉏߿˗ᕜᯢᰒˈབᵰߚЎ݁Ͼ㉏߿ˈ䙷М↣ ϔϾ㉏߿Ёⱘԡ⚍ḋᴀ᭄ⳂᇚӮᕜᇣˈᕜৃ㛑ᇣᕫ᮴⊩䖯㸠ড়⧚ഄԄؐDŽ PAUPⱘĀᦣ䗄ᷥā⡍ᕕᰃᇍDNAᑣ߫ⱘপҷൟ䖯㸠㾘㣗ⱘϔϾ䕗དⱘㄪ⬹ˈᅗՓ⫼Ԑ✊ᮍ⊩ ৠᯊ䆘Ԅ݁Ͼৃ䗚ⱘপҷ䗳⥛ǃgammaߚᏗⱘĮᔶ⢊খ᭄ϡবⱘԡ⚍ⱘ↨՟˄9.7˅DŽ䖭ѯ খ᭄ৃҹ䗮䖛Ⳍㄝⱘ㗙ᣛᅮⱘ⺅乥⥛䖯㸠ԄؐDŽ䗮ᐌˈӏԩϔϾড়⧚ⱘ㋏㒳থ㚆䖯࣪ᷥ ˄↨བˈᕜᆍᯧህৃҹᕫࠄϔϾⳌ䚏䖲ⱘ䖯࣪˅ᷥ䛑䗖⫼Ѣ䖭ϾᑣˈЎᕜᯢᰒˈᇍখ ᭄ⱘԄؐᕜᑺϞফࠄ⡍ᕕヺᓣⱘᕅડˈ㗠ϡᰃ䖯࣪ᷥⱘᢧᠥ㒧ᵘ˄Swofford et al., 1996b˅DŽ䖭ϾԄؐᑣᇍѢ50Ͼᑣ߫㗠㿔ˈᑊϡӮ㗫䌍ⱘᯊ䯈DŽབᵰᑣ߫䕗ˈ 㗙ᯊ䯈䕗㋻ˈৃҹᇍ䆩偠ⱘ䖯࣪ᷥ䖯㸠㊒ㅔˈֱ⬭ܼ䚼ⱘ㋏㒳থ㚆㣗ೈ㒧ᵘⱘৠᯊˈ ޣᇥߚ㉏᭄ⳂDŽ䗮䖛䖭ѯԄㅫⱘপҷখ᭄ˈ៥Ӏৃҹ䗮䖛↨䕗⬅䕗খ᭄䕗ᇥখ᭄߿ߚ䆘 ԄᕫࠄⱘԐ✊ߚˈؐއᅮϔϾㅔ࣪ⱘൟᰃ৺ড়⧚˄↨བˈ݁Ͼপҷ㉏߿ᰃ৺ৃҹޣᇥࠄϸ Ͼ˅DŽ᳝ᯊˈĮখ᭄ϡবԡ⚍ⱘ↨՟ৃҹⳌѦ᳓ᤶˈ᠔ҹ៥Ӏᑨ䆹↨䕗↣ϔϾऩ⣀Փ⫼ᯊ ᕫࠄⱘԐ✊ߚؐϸϾৠᯊՓ⫼ᯊᕫࠄⱘԐ✊ߚؐDŽ⊼ᛣˈMPҹঞMEϡৠˈ⫼ϡৠⱘখ᭄ ؐᕫࠄMLߚৃؐҹⳈ↨䕗˄Swofford et al., 1996b˅DŽ ᇍѢ㓪ⷕ㲟ⱑ䋼ⱘDNAᑣ߫ˈḍḋᴀⱘߚFAXᑺˈ᳝ᯊᕜᯢᰒഄˈ᳝⫼ⱘব࣪ᴀϞ䛑ᰃ ϔԡѠԡⱘ㓪ⷕԡ⚍ˈ㗠ᭈϾ᭄䲚Ёˈϝԡ⚍䗮ᐌ䛑ᰃ䱣ᴎⱘˈ㗙ϝԡ⚍ ব࣪㗠ϔԡ⚍Ѡԡ⚍ϡবDŽሑㅵ䰸এĀ᮴⫼āԡ⚍ৃҹᦤ催࠽ԭԡ⚍ⱘϡৠ䗳⥛ⱘԄ ؐ㊒⹂ᑺˈϞ䴶᠔䗄ⱘᑣ䖬ᰃ㽕ᇍ䖭Ͼ䗳⥛Ꮒᓖ䖯㸠ׂℷDŽᇍѢ㡖㑺䖯࣪ᷥⱘᓎゟˈ៥Ӏ ᳝ᯊӮᡞ䱣ᴎⱘϝԡ⚍ҢߚᵤЁ䰸এˈЎ䖭ѯԡ⚍াӮᓩܹాໄˈབᵰ⺅乥⥛ϡⳌ ㄝˈ䖭ѯԡ⚍䖬Ӯᓩܹ䫭䇃DŽ ᗢМḋᠡ㛑⹂ᅮ᭄䲚Ёⱘ䴲䴭ᗕ㋴ᰃ৺Ӯ៤ЎϔϾ䯂乬ਸ਼˛᳔ㅔऩⱘᮍ⊩ৃ㛑ህᰃএ↨ 䕗PAUPЁϸ⾡䗮䖛ϡৠᮍ⊩ᕫࠄⱘᓎᷥ㒧ᵰ䖯࣪ᷥ䆘Ԅ㒧ᵰˈϔ⾡ᮍ⊩ᰃՓ⫼ᯊ䯈ৃ䗚ⱘ ᮍ⊩ˈϔ⾡ᮍ⊩ᰃlog�det䎱⾏ᓎᷥᮍ⊩DŽϟ䴶ⱘゴ㡖ЁᇚӮ⍝ঞࠄ䖭ѯᑣDŽ 䖬≵᳝ҔМདⱘ䅵ㅫᮍ⊩ˈ㛑ⳈҢᑣ᭄߫Ё䆘Ԅ䴲䴭ᗕ㋴ⱘᕅડDŽPAUPЁ᳝ϔϾੑ ҸˈӮ߫ߎ᠔᳝ᑣ߫ⱘ⺅乥⥛DŽ䖭Ͼᑣᑨ䆹Փ⫼ᥦ䰸ϡবԡ⚍˄Exclude Constant Sites˅ⱘ䗝乍DŽᑣ߫Ёⱘ⺅乥⥛ৃҹᕜⳈ㾖ഄ↨䕗ߎᴹDŽ᭄᭛ӊᑨ䆹ᣛᅮ gapmode=missingˈ㗙PAUP㽕ᡞϔϾぎԡ⡍ᕕヺ䅵ㅫЎϔϾ⺅ব࣪DŽ⺅乥⥛ⱘੑҸ䖬㽕 ᇍ᭄ᠻ㸠ϔϾ“chiᑇᮍ˄chi�square˅ā⌟䆩ˈԚᰃ䖭Ͼ⌟䆩ᑊϡߛᅲ䰙ˈЎᅗ؛ ᅮ᭄ᰃҢϔϾ䱣ᴎḋᴀЁᦤপⱘˈ㗠㒧ᵰህӮ؛ᅮ᠔㾖ᆳࠄⱘϡⳌㄝᰃⳌѦ⣀ゟⱘ㗠ϡᰃ ㋏㒳থ㚆㒧ᵘⱘ㒧ᵰDŽϔϾ↿᮴ᛣНⱘchi�squareߚؐᑊϡ㛑䰸এ䴲䴭ᗕ㋴ˈ㗠ϔϾ᳝ ᛣНⱘߚؐᕜৃ㛑Ӯ䖯ϔℹ䆕ᅲ䴲䴭ᗕ㋴DŽPAUPЁⱘ⺅㒘៤ੑҸᏆ㒣㹿⫼ᴹ䆕ᯢ˖㹿 ᄤỡ⠽㓓㯏ⱘ5.8S rDNAᑣ߫Ёˈϸ㗙П䯈ব࣪↨䕗ⱘԡ⚍䲚ЁᄬЁ⺅أདˈԚᰃᑊ ϡϔᅮᶤϾᑣ߫Ϟѻ⫳ব࣪˄Hershkovitz and Lewis, 1996˅DŽ ᓎᷥᮍ⊩ ⦄᳝ⱘ䕃ӊЁ᠔䞛⫼ⱘᓎᷥᮍ⊩Ꮖ㒣ᶤѯ㨫˄Saitou, 1996; Swofford et al., 1996a; Li, 1997˅Ё᳝ᕜ䆺ሑⱘ䅼䆎˗䖭䚼ߚাᰃㅔऩഄᦣ䗄ϔѯ᳔ᐌ⫼ⱘᮍ⊩DŽᓎᷥᮍ⊩ৃҹߚ Ўϸ㉏ˈ↣㉏᳝ϸ⾡ϡৠⱘᮍ⊩˖ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ8/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,9/32 1.基于算法的和基于标准的。基于算法的建树方法根据一系列的步骤得到一个进化树;而 基于标准的建树方法则是根据一些优化的功能对可选的进化树进行评估。相邻连接方法 (NJ)是一个纯粹的基于算法的建树方法,这个方法只得到一个进化树,这个进化树拥 有令人满意的性质,它的距离附加值接近或者是非常优化的(见下);而一个基于标准 的距离建树方法将会根据进化树的附加值优化的标准,对所有可能的进化树(不管这些 进化树是否产生)进行评估 2.基于距离的和基于特征符的。历史上的和现有的许多关于系统发育的讨论描述了各种各 样的基于距离的和基于特征符的建树方法的效用(比如, Sai tou,1996: 1997) 距离建树方法根据一些尺度计算出双重序列的距离,然后抛开真实数据,只是根据固定 的距离建立进化树;而基于特征符的建树方法在建立进化树时,优化了每一个特征符的 真实数据模式的分布,于是双重序列的距离不再固定,而是取决于进化树的拓扑结构 最常用的基于特征符的建树方法包括MP和ML。 距离建树方法 距离建树方法根据双重序列比对的差异程度(距离)建立进化树。如果所有的起源分歧事件 都很精确地记录在序列中( Swofford et al.,19%6a),那么距离建树方法将会重构真实的 进化树。然而,当序列突变达到饱和时,分歧程度就会达到上限。一对分歧序列的其中之 在某个特定位点发生突变后,后续的突变不管发生在哪一条序列,都不会再造成更多的差 异。实际上,后续的变异很可能会使得前一个位点恢复成相等的状态,从而屏蔽掉前一个突 变,因此,绝大多数基于距离的建树方法都会针对这样“不可见”的替换进行修正。在实际 操作中,使用的速率方阵都会很有效地假定:在所观察的相等的碱基对中,实际上存在 比例的位点,这些位点经受了多次突变,而且,随着整个序列差异程度的增加,这些位点的 比例也在增加。有些程序(至少是随意地)会计算出不正确的距离进行,比方说,MEGA程序 ( Kumar et al.,1994)只针对密码子和氨基酸数据会计算出错误的距离:除非序列的整体 差异程度很小,这个程序实质上将会保证给出错误的结果 双重序列差异使用最大似然方法的取代速率计算得到。最常用的距离建树程序使用的模型局 限于时间可逆模型,只包含很有限的几个取代模型;但是PAUP4.0基本上会测试时间可逆模 型的所有变化,包括用最大似然方法从数据中评估得到的实际模型,以及针对非静态数据的 log�det距离建树方法所得到的模型 与最大似然方法相比,距离建树方法的计算强度很小,但是可以使用序列进化的相同模型, 这是它们最主要的优点。这个方法的缺点是屏蔽了真实的特征符数据。最常用的距离建树方 法是“不加权配对组算术方法”( UPGMA, unwei ghted pai r group method wi th ari thetic mean)、相邻连接方法(NJ, nei gabor joi ni ng)和对距离进化树的附加值进行优化的方 法,包括最小进化方法(ME, mi ni mum evol uti on)。有些方法被不止一个系统发育软件包引 用,但是在使用时不一定会使用相同的指定参数和(或)进化树优化特征(比如,树枝交换 �,8�见下)。 不加权配对组算术方法( UPGMA, unweighted pair group method with arithmetic mean) UPGMA是一种聚类或者说是分类方法��它按照配对序列的最大相似性和连接配对的平均 值的标准将进化树的树枝连接起来。它还不是一种严格的进化距离建树方法(Li,1997) 只有当序列分歧是基于一个分子钟或者近似等于原始的序列差异性的时候,我们才会期望 UPGMA会产生一个拥有真实的树枝长度的准确的拓扑结构( ul trametric; Swofford et al. 1996a)。正如前面讨论的那样,在实际问题中很少会遇到这种情况 相邻连接方法(NJ, neighbor joining) file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
1. Ѣㅫ⊩ⱘѢᷛޚⱘDŽѢㅫ⊩ⱘᓎᷥᮍ⊩ḍϔ㋏߫ⱘℹ偸ᕫࠄϔϾ䖯࣪˗ᷥ㗠 Ѣᷛޚⱘᓎᷥᮍ⊩߭ᰃḍϔѯӬ࣪ⱘࡳ㛑ᇍৃ䗝ⱘ䖯࣪ᷥ䖯㸠䆘ԄDŽⳌ䚏䖲ᮍ⊩ ˄NJ˅ᰃϔϾ㒃㊍ⱘѢㅫ⊩ⱘᓎᷥᮍ⊩ˈ䖭Ͼᮍ⊩াᕫࠄϔϾ䖯࣪ˈᷥ䖭Ͼ䖯࣪ᷥᢹ ᳝ҸҎ⒵ᛣⱘᗻ䋼ˈᅗⱘ䎱⾏䰘ࡴؐ䖥㗙ᰃ䴲ᐌӬ࣪ⱘ˄㾕ϟ˅˗㗠ϔϾѢᷛޚ ⱘ䎱⾏ᓎᷥᮍ⊩ᇚӮḍ䖯࣪ᷥⱘ䰘ࡴؐӬ࣪ⱘᷛޚˈᇍ᠔᳝ৃ㛑ⱘ䖯࣪˄ᷥϡㅵ䖭ѯ 䖯࣪ᷥᰃ৺ѻ⫳˅䖯㸠䆘ԄDŽ 2. Ѣ䎱⾏ⱘѢ⡍ᕕヺⱘDŽग़Ϟⱘ⦄᳝ⱘ䆌݇Ѣ㋏㒳থ㚆ⱘ䅼䆎ᦣ䗄њ⾡ ḋⱘѢ䎱⾏ⱘѢ⡍ᕕヺⱘᓎᷥᮍ⊩ⱘᬜ⫼˄↨བˈSaitou, 1996: Li, 1997˅DŽ 䎱⾏ᓎᷥᮍ⊩ḍϔѯሎᑺ䅵ㅫߎঠ䞡ᑣ߫ⱘ䎱⾏ˈ✊ৢᡯᓔⳳᅲ᭄ˈাᰃḍᅮ ⱘ䎱⾏ᓎゟ䖯࣪˗ᷥ㗠Ѣ⡍ᕕヺⱘᓎᷥᮍ⊩ᓎゟ䖯࣪ˈᯊᷥӬ࣪њ↣ϔϾ⡍ᕕヺⱘ ⳳᅲ᭄ᓣⱘߚᏗˈѢᰃঠ䞡ᑣ߫ⱘ䎱⾏ϡݡᅮˈ㗠ᰃপއѢ䖯࣪ᷥⱘᢧᠥ㒧ᵘDŽ ᳔ᐌ⫼ⱘѢ⡍ᕕヺⱘᓎᷥᮍ⊩ࣙᣀMPMLDŽ 䎱⾏ᓎᷥᮍ⊩ 䎱⾏ᓎᷥᮍ⊩ḍঠ䞡ᑣ߫↨ᇍⱘᏂᓖᑺ˄䎱⾏˅ᓎゟ䖯࣪ᷥDŽབᵰ᠔᳝ⱘ䍋⑤ߚFAXџӊ 䛑ᕜ㊒⹂ഄ䆄ᔩᑣ߫Ё˄Swofford et al., 1996a˅ˈ䙷М䎱⾏ᓎᷥᮍ⊩ᇚӮ䞡ᵘⳳᅲⱘ 䖯࣪ᷥDŽ✊㗠ˈᔧᑣ߫さব䖒ࠄ佅ᯊˈߚFAXᑺህӮ䖒ࠄϞ䰤DŽϔᇍߚFAXᑣ߫ⱘ݊ЁПϔ ᶤϾ⡍ᅮԡ⚍থ⫳さবৢˈৢ㓁ⱘさবϡㅵথ⫳ાϔᴵᑣ߫ˈ䛑ϡӮݡ䗴៤ⱘᏂ ᓖDŽᅲ䰙Ϟˈৢ㓁ⱘবᓖᕜৃ㛑ӮՓᕫࠡϔϾԡ⚍ᘶ៤Ⳍㄝⱘ⢊ᗕˈҢ㗠ሣ㬑ᥝࠡϔϾさ বˈℸˈ㒱᭄Ѣ䎱⾏ⱘᓎᷥᮍ⊩䛑Ӯ䩜ᇍ䖭ḋĀϡৃ㾕āⱘ᳓ᤶ䖯㸠ׂℷDŽᅲ䰙 ᪡ЁˈՓ⫼ⱘ䗳⥛ᮍ䰉䛑Ӯᕜ᳝ᬜഄ؛ᅮ˖᠔㾖ᆳⱘⳌㄝⱘ⺅ᇍЁˈᅲ䰙Ϟᄬϔᅮ ↨՟ⱘԡ⚍ˈ䖭ѯԡ⚍㒣ফњさবˈ㗠Ϩˈ䱣ⴔᭈϾᑣ߫Ꮒᓖᑺⱘࡴˈ䖭ѯԡ⚍ⱘ ↨՟гࡴDŽ᳝ѯᑣ˄㟇ᇥᰃ䱣ᛣഄ˅Ӯ䅵ㅫߎϡℷ⹂ⱘ䎱⾏䖯㸠ˈ↨ᮍ䇈ˈMEGAᑣ ˄Kumar et al., 1994˅া䩜ᇍᆚⷕᄤ⇼䝌᭄Ӯ䅵ㅫߎ䫭䇃ⱘ䎱⾏˗䰸䴲ᑣ߫ⱘᭈԧ Ꮒᓖᑺᕜᇣˈ䖭Ͼᑣᅲ䋼ϞᇚӮֱ䆕㒭ߎ䫭䇃ⱘ㒧ᵰDŽ ঠ䞡ᑣ߫ᏂᓖՓ⫼᳔Ԑ✊ᮍ⊩ⱘপҷ䗳⥛䅵ㅫᕫࠄDŽ᳔ᐌ⫼ⱘ䎱⾏ᓎᷥᑣՓ⫼ⱘൟሔ 䰤Ѣᯊ䯈ৃ䗚ൟˈাࣙᕜ᳝䰤ⱘϾপҷൟ˗ԚᰃPAUP 4.0 ᴀϞӮ⌟䆩ᯊ䯈ৃ䗚 ൟⱘ᠔᳝ব࣪ˈࣙᣀ⫼᳔Ԑ✊ᮍ⊩Ң᭄Ё䆘Ԅᕫࠄⱘᅲ䰙ൟˈҹঞ䩜ᇍ䴲䴭ᗕ᭄ⱘ log�det䎱⾏ᓎᷥᮍ⊩᠔ᕫࠄⱘൟDŽ Ϣ᳔Ԑ✊ᮍ⊩Ⳍ↨ˈ䎱⾏ᓎᷥᮍ⊩ⱘ䅵ㅫᔎᑺᕜᇣˈԚᰃৃҹՓ⫼ᑣ߫䖯࣪ⱘⳌৠൟˈ 䖭ᰃᅗӀ᳔Џ㽕ⱘӬ⚍DŽ䖭Ͼᮍ⊩ⱘ㔎⚍ᰃሣ㬑њⳳᅲⱘ⡍ᕕヺ᭄DŽ᳔ᐌ⫼ⱘ䎱⾏ᓎᷥᮍ ⊩ᰃĀϡࡴᴗ䜡ᇍ㒘ㅫᴃᮍ⊩ā˄UPGMAˈunweighted pair group method with arithmetic mean˅ǃⳌ䚏䖲ᮍ⊩˄NJˈneighbor joining˅ᇍ䎱⾏䖯࣪ᷥⱘ䰘ࡴؐ䖯㸠Ӭ࣪ⱘᮍ ⊩ˈࣙᣀ᳔ᇣ䖯࣪ᮍ⊩˄MEˈminimum evolution˅DŽ᳝ѯᮍ⊩㹿ϡℶϔϾ㋏㒳থ㚆䕃ӊࣙᓩ ⫼ˈԚᰃՓ⫼ᯊϡϔᅮӮՓ⫼Ⳍৠⱘᣛᅮখ᭄˄˅䖯࣪ᷥӬ࣪⡍ᕕ˄↨བˈᷥᵱѸᤶ ��㾕ϟ˅DŽ ϡࡴᴗ䜡ᇍ㒘ㅫᴃᮍ⊩˄UPGMAˈunweighted pair group method with arithmetic mean˅ UPGMAᰃϔ⾡㘮㉏㗙䇈ᰃߚ㉏ᮍ⊩��ᅗᣝ✻䜡ᇍᑣ߫ⱘ᳔ⳌԐᗻ䖲䜡ᇍⱘᑇഛ ؐⱘᷛޚᇚ䖯࣪ᷥⱘᷥᵱ䖲䍋ᴹDŽᅗ䖬ϡᰃϔ⾡ϹḐⱘ䖯࣪䎱⾏ᓎᷥᮍ⊩˄Li, 1997˅DŽ া᳝ᔧᑣ߫ߚFAXᰃѢϔϾߚᄤ䩳㗙䖥ԐㄝѢॳྟⱘᑣ߫Ꮒᓖᗻⱘᯊˈ៥ӀᠡӮᳳᳯ UPGMAӮѻ⫳ϔϾᢹ᳝ⳳᅲⱘᷥᵱ䭓ᑺⱘޚ⹂ⱘᢧᠥ㒧ᵘ˄ultrametric; Swofford et al., 1996a˅DŽℷབࠡ䴶䅼䆎ⱘ䙷ḋˈᅲ䰙䯂乬ЁᕜᇥӮ䘛ࠄ䖭⾡ᚙމDŽ Ⳍ䚏䖲ᮍ⊩˄NJˈneighbor joining˅ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ9/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第九章系统发育分析 页码,10/32 相邻连接算法在距离建树中经常会用到,而不会理会使用什么样的优化标准。完全解析出的 进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续 不断地在最接近(实际上,是最孤立的)的序列对中插入树枝,而保留进化树的终端(图 9.8)。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重 复。这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更 少 Fitch� Margoliash (FM) Fi tch�: Margol i ash(FM)方法设法通过把所有可能观察到的距离相对于进化树中所有可能 的路径长度的偏差的平方极小化,将进化树中观察到的双重距离的合适度极大化 ( Fel sensei n,1997)。有一些变量,在怎样对错误进行加权的处理上不太一样。对变化的 估值并非是完全独立的,因为所有的进化树内部的树枝中存在的错误都至少被计算了两次 (Rzhetsky and Nei, 1992) 最小进化方法(ME, Minimum Evolution) 最小进化方法先使用同「M相同的方式计算出路径长度,然后根据路径长度优化出最短的进化 树;也就是说,它要求将观察到的距离相对于基于进化树的距离的偏差的平方最小化 ( Rzhetsky and Nei,1992: Swofford et al.,1996a; Fel senstein,1997)。同FM方法不 同,ME方法并不使用所有可能的双重序列距离和所有可能的相关的进化树路径长度,而是先 根据到外层节点的距离固定进化树内部节点的位置,然后根据这些观察点之间的最小计算误 差,对内部的树枝长度进行优化。于是这个方法声称它消除了FM计算的依赖性 究竟哪一个基于距离的建树程序是最好的 ME和FM似乎是最好的程序程序,它们在模拟硏究中所取得的成绩几乎相同( Hue senbeck, 1995)。ME在计算机程序中的应用越来越广泛了,包括 METREE( Rzhetsky and Nei,194) 和PAUP都在使用ME。对于蛋白质数据, PHYLIP中的FM程序提供了最多的时间可逆取代模型 但是没有对位点内部的取代速率差异进行修正。MEGA( Kumar et a.,1994)和 METRE软件 包包括一个针对蛋白质的 gamma修正,但是只有同一个原始("p�距离”)的分歧模型 (没有距离修正或者偏好修正)结合时才进行修正,这种方法只有当分歧很小时才合理 ( RZhetsky and Nei,1994)。MEGA也计算同义的和异义的位点的分离距离,但是只有当没 有取代或者碱基频率偏好的时候,以及没有对位点内部的速率差异进行修正的时候,这个方 法才合理。因此,对于绝大多数数据集而言,对核苷酸数据应用一个更加理想的模型可能会 比MEGA方法要好。 模拟研究指出,对于一个大范围的进化树形状空间, UPGMA的可操作性很差( Hue senbeck, 1995)。我们并不赞成使用这种方法,而之所以在这里会提及这个方法,是因为在现在的出 版物上经常会出现 UPGMA的应用,这一点可以由当前的出版物中出现的 UPGMA“基因进化树 证明( Hue senbeck,1995) 很显然,NJ是最快的程序,并且所产生的进化树同M进化树相比,虽不能说一样,但也已经 非常相近了( Rzhetsky and Nei,1992:Li,1997)。但是,NJ只产生一个进化树。根据数 据结构,有大量不同的进化树可能和N进化树一样好,甚至比N进化树好得多( Swofford et a.1996a)。我们中的一个(MAH)和D. Hillis(个人通讯)已经各自独立地得到了一些(虽 然很少)数据集,对于这些数据集,N给出的进化树很糟糕;但是使用PAP方法中的“最接 近( cl osest)”选项后,进行逐步加总,得到了一个较好的距离进化树( Swofford, 1997)。 特征符建树方法 file://E:wcb生物信息学(中译本)\第九章系统发育分析.htm 2005-1-18
Ⳍ䚏䖲ㅫ⊩䎱⾏ᓎᷥЁ㒣ᐌӮ⫼ࠄˈ㗠ϡӮ⧚ӮՓ⫼ҔМḋⱘӬ࣪ᷛޚDŽᅠܼ㾷ᵤߎⱘ 䖯࣪ᷥᰃ䗮䖛ᇍᅠܼ≵᳝㾷ᵤߎⱘĀ᯳ൟā䖯࣪ᷥ䖯㸠Āߚ㾷āᕫࠄⱘˈߚ㾷ⱘℹ偸ᰃ䖲㓁 ϡᮁഄ᳔䖥˄ᅲ䰙Ϟˈᰃ᳔ᄸゟⱘ˅ⱘᑣ߫ᇍЁᦦܹᷥᵱˈ㗠ֱ⬭䖯࣪ᷥⱘ㒜ッ˄ 9.8˅DŽѢᰃˈ᳔䖥ⱘᑣ߫ᇍ㹿Ꮍњˈ㗠Ā᯳ൟā䖯࣪ᷥ㹿ᬍњˈ䖭Ͼ䖛ᇚϡᮁ䞡 DŽ䖭Ͼᮍ⊩Ⳍᇍ㗠㿔ᕜᖿˈгህᰃ䇈ˈᇍѢϔϾ50Ͼᑣ߫ⱘ䖯࣪ˈᷥা䳔㽕㢹ᑆ⾦⫮㟇 ᇥDŽ Fitch�Margoliash˄FM˅ Fitch�Margoliash˄FM˅ᮍ⊩䆒⊩䗮䖛ᡞ᠔᳝ৃ㛑㾖ᆳࠄⱘ䎱⾏ⳌᇍѢ䖯࣪ᷥЁ᠔᳝ৃ㛑 ⱘ䏃ᕘ䭓ᑺⱘأᏂⱘᑇᮍᵕᇣ࣪ˈᇚ䖯࣪ᷥЁ㾖ᆳࠄⱘঠ䞡䎱⾏ⱘড়䗖ᑺᵕ࣪ ˄Felsenstein, 1997˅DŽ᳝ϔѯব䞣ˈᗢḋᇍ䫭䇃䖯㸠ࡴᴗⱘ໘⧚ϞϡϔḋDŽᇍব࣪ⱘ Ԅؐᑊ䴲ᰃᅠܼ⣀ゟⱘˈЎ᠔᳝ⱘ䖯࣪ᷥݙ䚼ⱘᷥᵱЁᄬⱘ䫭䇃䛑㟇ᇥ㹿䅵ㅫњϸ ˄Rzhetsky and Nei, 1992˅DŽ ᳔ᇣ䖯࣪ᮍ⊩˄ME,Minimum Evolution˅ ᳔ᇣ䖯࣪ᮍ⊩ܜՓ⫼ৠFMⳌৠⱘᮍᓣ䅵ㅫߎ䏃ᕘ䭓ᑺˈ✊ৢḍ䏃ᕘ䭓ᑺӬߎ᳔࣪ⷁⱘ䖯࣪ ᷥ˗гህᰃ䇈ˈᅗ㽕∖ᇚ㾖ᆳࠄⱘ䎱⾏ⳌᇍѢѢ䖯࣪ᷥⱘ䎱⾏ⱘأᏂⱘᑇᮍ᳔ᇣ࣪ ˄Rzhetsky and Nei, 1992; Swofford et al., 1996a; Felsenstein, 1997˅DŽৠFMᮍ⊩ϡ ৠˈMEᮍ⊩ᑊϡՓ⫼᠔᳝ৃ㛑ⱘঠ䞡ᑣ߫䎱⾏᠔᳝ৃ㛑ⱘⳌ݇ⱘ䖯࣪ᷥ䏃ᕘ䭓ᑺˈ㗠ᰃܜ ḍࠄሖ㡖⚍ⱘ䎱⾏ᅮ䖯࣪ᷥݙ䚼㡖⚍ⱘԡ㕂ˈ✊ৢḍ䖭ѯ㾖ᆳ⚍П䯈ⱘ᳔ᇣ䅵ㅫ䇃 Ꮒˈᇍݙ䚼ⱘᷥᵱ䭓ᑺ䖯㸠Ӭ࣪DŽѢᰃ䖭Ͼᮍ⊩ໄ⿄ᅗ⍜䰸њFM䅵ㅫⱘձ䌪ᗻDŽ おコાϔϾѢ䎱⾏ⱘᓎᷥᑣᰃ᳔དⱘ MEFMԐТᰃ᳔དⱘᑣᑣˈᅗӀᢳⷨおЁ᠔পᕫⱘ៤㒽ТⳌৠ˄Huelsenbeck, 1995˅DŽME䅵ㅫᴎᑣЁⱘᑨ⫼䍞ᴹ䍞ᑓ⊯њˈࣙᣀMETREE˄Rzhetsky and Nei, 1994˅ PAUP䛑Փ⫼MEDŽᇍѢ㲟ⱑ䋼᭄ˈPHYLIPЁⱘFMᑣᦤկњ᳔ⱘᯊ䯈ৃ䗚পҷൟˈ Ԛᰃ≵᳝ᇍԡ⚍ݙ䚼ⱘপҷ䗳⥛Ꮒᓖ䖯㸠ׂℷDŽMEGA˄Kumar et al., 1994˅METREE䕃ӊ ࣙࣙᣀϔϾ䩜ᇍ㲟ⱑ䋼ⱘgammaׂℷˈԚᰃা᳝ৠϔϾॳྟ˄“p�䎱⾏ā˅ⱘߚൟFAX ˄≵᳝䎱⾏ׂℷ㗙أདׂℷ˅㒧ড়ᯊᠡ䖯㸠ׂℷˈ䖭⾡ᮍ⊩া᳝ᔧߚFAXᕜᇣᯊᠡড়⧚ ˄Rzhetsky and Nei, 1994˅DŽMEGAг䅵ㅫৠНⱘᓖНⱘԡ⚍ⱘߚ行䎱⾏ˈԚᰃা᳝ᔧ≵ ᳝পҷ㗙⺅乥⥛أདⱘᯊˈҹঞ≵᳝ᇍԡ⚍ݙ䚼ⱘ䗳⥛Ꮒᓖ䖯㸠ׂℷⱘᯊˈ䖭Ͼᮍ ⊩ᠡড়⧚DŽℸˈᇍѢ㒱᭄᭄䲚㗠㿔ˈᇍḌ㣋䝌᭄ᑨ⫼ϔϾࡴ⧛ᛇⱘൟৃ㛑Ӯ ↨MEGAᮍ⊩㽕དDŽ ᢳⷨおᣛߎˈᇍѢϔϾ㣗ೈⱘ䖯࣪ᷥᔶ⢊ぎ䯈ˈUPGMAⱘৃ᪡ᗻᕜᏂ˄Huelsenbeck, 1995˅DŽ៥Ӏᑊϡ䌲៤Փ⫼䖭⾡ᮍ⊩ˈ㗠П᠔ҹ䖭䞠Ӯᦤঞ䖭Ͼᮍ⊩ˈᰃЎ⦄ⱘߎ ⠜⠽Ϟ㒣ᐌӮߎ⦃UPGMAⱘᑨ⫼ˈ䖭ϔ⚍ৃҹ⬅ᔧࠡⱘߎ⠜⠽Ёߎ⦃ⱘUPGMA“䖯࣪“ᷥ 䆕ᯢ˄Huelsenbeck, 1995˅DŽ ᕜᰒ✊ˈNJᰃ᳔ᖿⱘᑣˈᑊϨ᠔ѻ⫳ⱘ䖯࣪ᷥৠME䖯࣪ᷥⳌ↨ˈ㱑ϡ㛑䇈ϔḋˈԚгᏆ㒣 䴲ᐌⳌ䖥њ˄Rzhetsky and Nei, 1992; Li, 1997˅DŽԚᰃˈNJাѻ⫳ϔϾ䖯࣪ᷥDŽḍ᭄ 㒧ᵘˈ᳝䞣ϡৠⱘ䖯࣪ৃᷥ㛑NJ䖯࣪ᷥϔḋདˈ⫮㟇↨NJ䖯࣪ᷥདᕫ˄Swofford et al.1996a˅DŽ៥ӀЁⱘϔϾ˄MAH˅D.Hillis˄ϾҎ䗮䆃˅Ꮖ㒣㞾⣀ゟഄᕫࠄњϔѯ˄㱑 ✊ᕜᇥ˅᭄䲚ˈᇍѢ䖭ѯ᭄䲚ˈNJ㒭ߎⱘ䖯࣪ᷥᕜ㊳㊩˗ԚᰃՓ⫼PAUPᮍ⊩ЁⱘĀ᳔ 䖥˄closest˅ā䗝乍ৢˈ䖯㸠䗤ℹࡴᘏˈᕫࠄњϔϾ䕗དⱘ䎱⾏䖯࣪˄ᷥSwoffordˈ 1997˅DŽ ⡍ᕕヺᓎᷥᮍ⊩ бゴ㋏㒳থ㚆ߚᵤ 义ⷕˈ10/32 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?бゴ㋏㒳থ㚆ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com