正在加载图片...
第七章序列比对和数据库搜索 页码,9/28 比对的统计学显著性 对任何一个比队,我们都可以计算一个分值,但重要的是需要判定这个分值是否足够高,是 否能够提供进化同源性的证据。在解决这一问题时,对于偶然出现的最高分,有些思想很有 帮助,但是,没有一个数学理论能够描述全程比对的分值分布,其中一个能评估其重要性的 方法就是将所得的比对分值和那些同样长度和组成的随机序列进行比较 但是,对于局部比对而言,情况要好得多。正如问题总是从简单开始,人们首先注意到那些 没有多少空位得局部比对,这种比对被称为高分片段配对(HSP)。HSP通常用改进得 Smi th waterman算法或简单地使用大的空位罚分方法获得。Kar//n- A/ tsch/统计学为描述随机的 HSP分值的分布提供了数学理论,概率密度函数形式被称为极值分布,这很值得注意,因为 更普遍更一般的分布的应用可能会夸大它的重要性,把一个已知得比对分值S同预期的分布相 关联可能会计算出P值,从而给出这个分值的比对显著性的可能性。通常,P值越趋近于零, 分值越有意义 相关的变量E表示分值不低于S得可能的比对数量,而极值分布由两个参数表示,即K和,可 以得到解析解,并且对于任何打分系统以及背景频率都是固定的。比对的显著性依赖于搜索 空间的大小(就像在草堆中找针依赖于草堆的大小)。搜索空间的大小由序列长度计算出 来,但由于统计的正确性,这个长度必须由局部比对的预期长度进行校正,以免出现边缘效 应( Al tschul and gi sh,19%6),需要进行这种校正还因为在搜索空间边缘开始的比对在达 到一个有效分值之前就会超出序列的范围。 把比对局限于没有空位的基础之上,使问题大大简化,但是却脱离分子生物学的实际情况 实际上,要建立一个插入和缺失的精确模型需要空位,但如果空位相对较少,在这些空位之 间仍然可以获得高分值区域,有代表性的是可能会获得紧密相邻的HSP,在这种情况下,从总 体上去评估它的显著性是较为合理的,也许,每个片段并不显得很重要,但是几个片段同时 出现就不太像是偶然事件了。 Karlin- Al tschul加和统计学可以计算N个HSP的统计值,这个方 法的实质是把N个最佳片段的分值进行加总,从而计算事件偶然发生的可能性,其它一些论据 也被用来确认这些分值只是在片段与比对一致的情况下进行加总。虽然加总的分值分布与HSP 分值最大值有差异,仍然可以得到解析解 最后,仍然有必要对局部排队的显著性进行合理评估,其中包括了模型中的空位。正如同传 统的 Smi th- waterman比对,虽然没有先验的证据,人们仍然认为这些比对的分值也应该遵循 极值分布,但是,分布参数K和λ的值不能通过计算获得,当然,通过模型获得这些值的方法 已经被大大地发展了。 数据库中的相似性搜索 上述讨论主要集中于那些较为特别的匹配的序列,但是对于一个新发现的序列,我们无法得 知用什么序列同它进行比对,数据库相似性搜索使我们能够从数据库中存在的数十万个序列 中挑选出可能同感兴趣的序列有关联的序列,这个方法有时会导致意想不到的收获。用这种 策略获得成功的第一个例子是人们因此发现病毒肿瘤基因v-sis是细胞中编码血小板派生生长 因子的基因的一个变体形式( Dool i ttle et al.,1983; Waterfield et al.,1983)。那个时 候,序列数据库还不大,因此这个发现足以另人感到万分惊奇。然而今天如果进行数据库搜 索并且一无所获的话,那就更另人感到费解了。如同其它几个小的物种基因组一样,酵母 saccharomyces cervi si ae的基因组全序列已经被测定出来。在脊椎动物中,大量的部分基 因诸如人类和老鼠的基因都已经被测定并存入基因库( genebank)中,这也导致了表达序列 标签(EST)工程。EST片段的主要用途是在数据库搜索中,用EST片段进行cDMA克隆可以分离 出感兴趣的基因,包括其它模型生物中的同源基因。最近报导的多重内分泌腺肿瘤(MEN) 基因就和人与老鼠的多个EST片段相匹配,其中之一在MEN发表前一年就已经入库保存了 (Chandrasekharappa et al., 1997) file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18↨ᇍⱘ㒳䅵ᄺᰒ㨫ᗻ ᇍӏԩϔϾ↨䯳ˈ៥Ӏ䛑ৃҹ䅵ㅫϔϾߚˈؐԚ䞡㽕ⱘᰃ䳔㽕߸ᅮ䖭Ͼߚؐᰃ৺䎇໳催ˈᰃ ৺㛑໳ᦤկ䖯࣪ৠ⑤ᗻⱘ䆕᥂DŽ೼㾷އ䖭ϔ䯂乬ᯊˈᇍѢي✊ߎ⦃ⱘ᳔催ߚ᳝ˈѯᗱᛇᕜ᳝ ᐂࡽˈԚᰃˈ≵᳝ϔϾ᭄ᄺ⧚䆎㛑໳ᦣ䗄ܼ⿟↨ᇍⱘߚؐߚᏗˈ݊ЁϔϾ㛑䆘Ԅ݊䞡㽕ᗻⱘ ᮍ⊩ህᰃᇚ᠔ᕫⱘ↨ᇍߚ੠ؐ䙷ѯৠḋ䭓ᑺ੠㒘៤ⱘ䱣ᴎᑣ߫䖯㸠↨䕗DŽ ԚᰃˈᇍѢሔ䚼↨ᇍ㗠㿔ˈᚙމ㽕དᕫ໮DŽℷབ䯂乬ᘏᰃҢㅔऩᓔྟˈҎӀ佪ܜ⊼ᛣࠄ䙷ѯ ≵᳝໮ᇥぎԡᕫሔ䚼↨ᇍˈ䖭⾡↨ᇍ㹿⿄Ў催ߚ⠛↉䜡ᇍ˄HSP˅DŽHSP䗮ᐌ⫼ᬍ䖯ᕫSmith￾watermanㅫ⊩៪ㅔऩഄՓ⫼໻ⱘぎԡ㔮ߚᮍ⊩㦋ᕫDŽKarlin-Altschul㒳䅵ᄺЎᦣ䗄䱣ᴎⱘ HSPߚؐⱘߚᏗᦤկњ᭄ᄺ⧚䆎ˈὖ⥛ᆚᑺߑ᭄ᔶᓣ㹿⿄ЎᵕؐߚᏗˈ䖭ᕜؐᕫ⊼ᛣˈ಴Ўˈ ᳈᱂䘡᳈ϔ㠀ⱘߚᏗⱘᑨ⫼ৃ㛑Ӯ༌໻ᅗⱘ䞡㽕ᗻˈᡞϔϾᏆⶹᕫ↨ᇍߚؐSৠ乘ᳳⱘߚᏗⳌ ݇㘨ৃ㛑Ӯ䅵ㅫߎPؐˈҢ㗠㒭ߎ䖭Ͼߚؐⱘ↨ᇍᰒ㨫ᗻⱘৃ㛑ᗻDŽ䗮ᐌˈ3ؐ䍞䍟䖥Ѣ䳊ˈ ߚؐ䍞᳝ᛣНDŽ Ⳍ݇ⱘব䞣E㸼⼎ߚؐϡԢѢ6ᕫৃ㛑ⱘ↨ᇍ᭄䞣ˈ㗠ᵕؐߚᏗ⬅ϸϾখ᭄㸼⼎ˈेK੠Ȝˈৃ ҹᕫࠄ㾷ᵤ㾷ˈᑊϨᇍѢӏԩᠧߚLTD㒳ҹঞ㚠᱃乥⥛䛑ᰃ೎ᅮⱘDŽ↨ᇍⱘᰒ㨫ᗻձ䌪Ѣ᧰㋶ ぎ䯈ⱘ໻ᇣ˄ህڣ೼㤝ේЁᡒ䩜ձ䌪Ѣ㤝ේⱘ໻ᇣ˅DŽ᧰㋶ぎ䯈ⱘ໻ᇣ⬅ᑣ߫䭓ᑺ䅵ㅫߎ ᴹˈԚ⬅Ѣ㒳䅵ⱘℷ⹂ᗻˈ䖭Ͼ䭓ᑺᖙ乏⬅ሔ䚼↨ᇍⱘ乘ᳳ䭓ᑺ䖯㸠᷵ℷˈҹߎܡ⦃䖍㓬ᬜ ᑨ˄Altschul and Gish,1996˅ˈ䳔㽕䖯㸠䖭⾡᷵ℷ䖬಴Ў೼᧰㋶ぎ䯈䖍㓬ᓔྟⱘ↨ᇍ೼䖒 ࠄϔϾ᳝ᬜߚؐПࠡህӮ䍙ߎᑣ߫ⱘ㣗ೈDŽ ᡞ↨ᇍሔ䰤Ѣ≵᳝ぎԡⱘ෎⸔ПϞˈՓ䯂乬໻໻ㅔ࣪ˈԚᰃै㜅⾏ߚᄤ⫳⠽ᄺⱘᅲ䰙ᚙމDŽ ᅲ䰙Ϟˈ㽕ᓎゟϔϾᦦܹ੠㔎༅ⱘ㊒⹂῵ൟ䳔㽕ぎԡˈԚབᵰぎԡⳌᇍ䕗ᇥˈ೼䖭ѯぎԡП 䯈ҡ✊ৃҹ㦋ᕫ催ߚؐऎඳˈ᳝ҷ㸼ᗻⱘᰃৃ㛑Ӯ㦋ᕫ㋻ᆚⳌ䚏ⱘHSPˈ೼䖭⾡ᚙމϟˈҢᘏ ԧϞএ䆘Ԅᅗⱘᰒ㨫ᗻᰃ䕗Ўড়⧚ⱘˈг䆌ˈ↣Ͼ⠛↉ᑊϡᰒᕫᕜ䞡㽕ˈԚᰃ޴Ͼ⠛↉ৠᯊ ߎ⦃ህϡ໾ڣᰃي✊џӊњDŽKarlin-Altschulࡴ੠㒳䅵ᄺৃҹ䅵ㅫ1ϾHSPⱘ㒳䅵ؐˈ䖭Ͼᮍ ⊩ⱘᅲ䋼ᰃᡞ1Ͼ᳔Շ⠛↉ⱘߚؐ䖯㸠ࡴᘏˈҢ㗠䅵ㅫџӊي✊থ⫳ⱘৃ㛑ᗻˈ݊ᅗϔѯ䆎᥂ г㹿⫼ᴹ⹂䅸䖭ѯߚؐাᰃ೼⠛↉Ϣ↨ᇍϔ㟈ⱘᚙމϟ䖯㸠ࡴᘏDŽ㱑✊ࡴᘏⱘߚؐߚᏗϢHSP ߚ᳝ؐ໻᳔ؐᏂᓖˈҡ✊ৃҹᕫࠄ㾷ᵤ㾷DŽ ᳔ৢˈҡ✊᳝ᖙ㽕ᇍሔ䚼ᥦ䯳ⱘᰒ㨫ᗻ䖯㸠ড়⧚䆘Ԅˈ݊Ёࣙᣀњ῵ൟЁⱘぎԡDŽℷབৠӴ 㒳ⱘSmith-waterman↨ᇍˈ㱑✊≵᳝ܜ偠ⱘ䆕᥂ˈҎӀҡ✊䅸Ў䖭ѯ↨ᇍⱘߚؐгᑨ䆹䙉ᕾ ᵕؐߚᏗˈԚᰃˈߚᏗখ᭄.੠Ȝⱘؐϡ㛑䗮䖛䅵ㅫ㦋ᕫˈᔧ✊ˈ䗮䖛῵ൟ㦋ᕫ䖭ѯؐⱘᮍ⊩ Ꮖ㒣㹿໻໻ഄথሩњDŽ ᭄᥂ᑧЁⱘⳌԐᗻ᧰㋶ Ϟ䗄䅼䆎Џ㽕䲚ЁѢ䙷ѯ䕗Ў⡍߿ⱘऍ䜡ⱘᑣ߫ˈԚᰃᇍѢϔϾᮄথ⦄ⱘᑣ߫ˈ៥Ӏ᮴⊩ᕫ ⶹ⫼ҔМᑣ߫ৠᅗ䖯㸠↨ᇍˈ᭄᥂ᑧⳌԐᗻ᧰㋶Փ៥Ӏ㛑໳Ң᭄᥂ᑧЁᄬ೼ⱘ᭄कϛϾᑣ߫ Ёᣥ䗝ߎৃ㛑ৠᛳ݈䍷ⱘᑣ᳝߫݇㘨ⱘᑣ߫ˈ䖭Ͼᮍ⊩᳝ᯊӮᇐ㟈ᛣᛇϡࠄⱘᬊ㦋DŽ⫼䖭⾡ ㄪ⬹㦋ᕫ៤ࡳⱘ㄀ϔϾ՟ᄤᰃҎӀ಴ℸথ⦄⮙↦㚓⯸෎಴v-sisᰃ㒚㚲Ё㓪ⷕ㸔ᇣᵓ⌒⫳⫳䭓 ಴ᄤⱘ෎಴ⱘϔϾবԧᔶᓣ(Doolittle et al., 1983; Waterfield et al., 1983)DŽ䙷Ͼᯊ ׭ˈᑣ᭄߫᥂ᑧ䖬ϡ໻ˈ಴ℸ䖭Ͼথ⦄䎇ҹ঺Ҏᛳࠄϛߚ᚞༛DŽ✊㗠Ҟ໽བᵰ䖯㸠᭄᥂ᑧ᧰ ㋶ᑊϨϔ᮴᠔㦋ⱘ䆱ˈ䙷ህ᳈঺Ҏᛳࠄ䌍㾷њDŽབৠ݊ᅗ޴Ͼᇣⱘ⠽⾡෎಴㒘ϔḋˈ䝉↡ saccharomyces cerevisiaeⱘ෎಴㒘ܼᑣ߫Ꮖ㒣㹿⌟ᅮߎᴹDŽ೼㛞Ợࡼ⠽Ёˈ໻䞣ⱘ䚼ߚ෎ ಴䇌བҎ㉏੠㗕哴ⱘ෎಴䛑Ꮖ㒣㹿⌟ᅮᑊᄬܹ෎಴ᑧ˄genebank˅Ёˈ䖭гᇐ㟈њ㸼䖒ᑣ߫ ᷛㅒ˄EST˅Ꮉ⿟DŽEST⠛↉ⱘЏ㽕⫼䗨ᰃ೼᭄᥂ᑧ᧰㋶Ёˈ⫼EST⠛↉䖯㸠cDNAܟ䱚ৃҹߚ行 ߎ݈ᛳ䍷ⱘ෎಴ˈࣙᣀ݊ᅗ῵ൟ⫳⠽Ёⱘৠ⑤෎಴DŽ᳔䖥᡹ᇐⱘ໮䞡ߚݙ⊠㝎㚓⯸˄MENI˅ ෎಴ህ੠ҎϢ㗕哴ⱘ໮ϾEST⠛↉Ⳍऍ䜡ˈ݊ЁПϔ೼MENIথ㸼ࠡϔᑈህᏆ㒣ܹᑧֱᄬњ (Chandrasekharappa et al., 1997)DŽ ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ9/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有