第八章多序列比对的实际应用 页码,1/ 第八章多序列比对的实际应用 Andreas d Baxevanis Genome Technology Branch National human genome research /nsti tude Nationa nsti tutes of heal th Bethesda Maryl and 在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作 比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比 对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研 究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于 某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造 出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以 对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性 显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序 是一个很有活力的研究领域,绝大多数方法都是基于渐进比对( progress/vea/! gnment)的 概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者 更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的 序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算 法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用 的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要 的,尤其是对保守的区域 由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对 的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两 个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会 列出更详细的多序列比对的算法。 渐进比对方法 CLUSTAL W CLUSTAL算算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费 使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比 对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列 Bioinformatics: A Practical Gui de to the Anal ysis of genes and Proteins Edi ted by A D. Baxevani s and B.E. E. Ouel lette I SBN 0-471-191965. pages 172-188. Copyri ght c 1998 Wiley Li ss. Inc file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ Andreas D.Baxevanis Genome Technology Branch National Human Genome Research Institude National Institutes of Health Bethesda.Maryland ᇏᡒ㟈Ѣথ⦄ᮄ㲟ⱑⱘࡾЁˈҎӀдᛃѢᡞᮄⱘᑣ߫ৠᏆⶹࡳ㛑ⱘ㲟ⱑᑣ߫ ↨ᇍDŽ⬅Ѣ䖭ѯ↨ᇍ䗮ᐌ䛑Ꮰᳯ㛑⌟ᮄ㲟ⱑⱘࡳ㛑ˈϡㅵᅗӀᰃঠ䞡↨ᇍ䖬ᰃᑣ߫↨ ᇍˈ䛑ৃҹಲㄨ䞣ⱘ݊ᅗⱘ⫳⠽ᄺ䯂乬DŽВ՟ᴹ䇈ˈ䴶ᇍϔේ᧰䲚ⱘ↨ᇍᑣ߫ˈҎӀӮⷨ お䱤Ѣ㲟ⱑПЁⱘ㋏㒳থ⫳ⱘ݇㋏ˈҹ֓Ѣདഄ⧚㾷㲟ⱑⱘ䖯࣪DŽҎӀᑊϡাᰃⴔⴐѢ ᶤϔϾ㲟ⱑˈ㗠ᰃⷨおϔϾᆊᮣЁⱘⳌ݇㲟ⱑˈⳟⳟ䖯࣪य़⫳⠽⾽ᑣབԩ㒧ড়䍋ᴹ߯䗴 ߎᮄⱘ᳝㱑✊ϡৠԚᰃࡳ㛑Ⳍ݇ⱘ㲟ⱑDŽⷨおᅠᑣ߫↨ᇍЁⱘ催ᑺֱᅜऎඳˈ៥Ӏৃҹ ᇍ㲟ⱑ䋼ⱘᭈϾ㒧ᵘ䖯㸠乘⌟ˈᑊϨ⣰⌟䖭ѯֱᅜऎඳᇍѢ㓈ᣕϝ㓈㒧ᵘⱘ䞡㽕ᗻDŽ ᰒ✊ˈߚᵤϔ㕸Ⳍ݇㲟ⱑ䋼ᯊˈᕜ᳝ᖙ㽕њ㾷↨ᇍⱘℷ⹂ᵘ៤DŽথሩ⫼Ѣᑣ߫↨ᇍⱘᑣ ᰃϔϾᕜ᳝⌏ⱘⷨお乚ඳˈ㒱᭄ᮍ⊩䛑ᰃѢ⏤䖯↨ᇍ˄progressive alignment˅ⱘ ὖᗉDŽ⏤䖯↨ᇍⱘᗱᛇձ䌪ѢՓ⫼㗙⫼↨ᇍⱘ㲟ⱑ䋼ᑣ߫П䯈⹂ᅲᄬⱘ⫳⠽ᄺϞⱘ㗙 ޚഄ⹂䇈ᰃ㋏㒳থ⫳ᄺϞⱘⳌѦ݇㘨DŽϡৠㅫ⊩Ңϡৠᮍ䴶㾷އ䖭ϔ䯂乬ˈԚᰃᔧ↨ᇍⱘ ᑣ߫ഄ䍙䖛ϸϾᯊ˄ঠ䞡↨ᇍ˅ˈᇍѢ䅵ㅫⱘᣥህӮᕜҸҎ⫳⬣DŽᅲ䰙᪡Ёˈㅫ ⊩Ӯ䅵ㅫ䗳ᑺ㦋ᕫ᳔Շ↨ᇍП䯈ᇏ∖ᑇ㸵ˈᐌᐌӮফ䎇Ⳍ䖥ⱘ↨ᇍDŽϡㅵ᳔㒜Փ⫼ ⱘᰃҔМᮍ⊩ˈՓ⫼㗙䛑ᖙ乏ᅵ㾚㒧ᵰⱘ↨ᇍˈЎݡ⸔ϞϔѯᎹׂᬍᰃकߚᖙ㽕 ⱘˈᇸ݊ᰃᇍֱᅜⱘऎඳDŽ ⬅Ѣᴀкأ䞡Ѣᮍ⊩㗠ϡᰃॳ⧚ˈ䖭䞠া䅼䆎ϔᇣ䚼ߚ⦃៤ⱘᑣDŽ៥ӀҢϸϾᑣ߫↨ᇍ ⱘᮍ⊩ᓔྟˈϟএᰃϔ㋏߫ⱘ߽⫼㲟ⱑ䋼ᆊᮣЁᏆⶹⱘԧᰃᓣḋⱘᮍ⊩ˈ᳔ৢ䅼䆎ϸ Ͼ᳝䌴䗕ⱘᮍ⊩ˈЎ㒱᭄݀ᓔⱘㅫ⊩ϡ㛑䖒ߎࠄ⠜⠽ⱘ᭄䞣DŽᴀゴ㒧ሒ䚼ߚᇚӮ ߫ߎ䆺㒚ⱘᑣ߫↨ᇍⱘㅫ⊩DŽ ⏤䖯↨ᇍᮍ⊩ CLUSTAL W CLUSTAL Wㅫ⊩ᰃϔϾ᳔ᑓ⊯Փ⫼ⱘᑣ߫↨ᇍᑣˈӏԩЏ㽕ⱘ䅵ㅫᴎᑇৄϞ䛑ৃҹܡ䌍 Փ⫼DŽ䖭ϾᑣѢ⏤䖯↨ᇍⱘᗱᛇˈᕫࠄϔ㋏߫ᑣ߫ⱘ䕧ܹˈᇍѢ↣ϸϾᑣ߫䖯㸠ঠ䞡↨ ᇍᑊϨ䅵ㅫ㒧ᵰDŽѢ䖭ѯ↨䕗ˈ䅵ㅫᕫࠄϔϾ䎱⾏ⶽ䰉ˈডњ↣ᇍᑣ߫ Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright © 1998 Wiley – Liss. Inc. ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ1/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,2/11 的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。这个辅助 树,加权后可以证实极相近的序列,然后以双重比对极相近的序列开始,为组建比对提供基 础,然后重新比对下一个加入的比对,依次类推。如果加入的序列较多,那么毫无疑问,必 须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。在绝 大多数情况下,使用者不会在比对时加入结构信息,但是空位开放补偿利用了可以出现在a 螺旋或β-折叠末端的特殊残基以及空位罚分所偏好的残基,众所周知,这些残基更喜欢显示 这个特异性。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲 的位点扩展空位,这些空位扩展罚分计算是有位置决定的 为了介绍基于UNX平台的 CLUSTAL W的使用,考虑一下从四种不同物种来源的UA蛋白(人 类,鼠,Ⅹ enopus I nevis和果蝇)。这四种输入序列放在一个单独的文件中,作成六种可以 接受的格式中的一种,然后在UNX提示符下执行 clustal w,用户必须执行命令才会看见主菜 单 大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大 太杰 CLUSTAL W(1.60) Mul ti pl e Sequence A| i gnments*水大 大大大大大大大大大大大大大大大大大大大大大大大大大大大★大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大 1. Sequence Input From Di sc 2. Mul ti pl e Al i gnments 3. Profile/ structure al i gnments 4. Phyl ogenetic trees S. Execute a system command H. HELP X. EXIT (I eave program) Your choi ce: 1 选择菜单中的选项1( Sequence Input From Di sc)以输入要比对的序列,选择1后会出现序列 输入菜单 Sequences should al l be in 1 ti tle 6 formats accepted NBRF PIR, EMBl, Swi ssProt, Peat son(Fasta), GDE, Cl ustal, GCG MSF Enter the name of the sequence file: UIA segs 系统会提示用户有六种可以接受的格式,然后会提问输入序列的文件名,在这里序列输入文 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
ⱘ݇㋏ˈѢᰃˈѢ䚏䖥ࡴܹᮍ⊩ˈ䖭Ͼⶽ䰉㹿⫼ᴹ䅵ㅫߎϔϾ㋏㒳থ⫳䕙ࡽᷥDŽ䖭Ͼ䕙ࡽ ᷥˈࡴᴗৢৃҹ䆕ᅲᵕⳌ䖥ⱘᑣ߫ˈ✊ৢҹঠ䞡↨ᇍᵕⳌ䖥ⱘᑣ߫ᓔྟˈЎ㒘ᓎ↨ᇍᦤկ ⸔ˈ✊ৢ䞡ᮄ↨ᇍϟϔϾࡴܹⱘ↨ᇍˈձ㉏DŽབᵰࡴܹⱘᑣ߫䕗ˈ䙷М↿᮴⭥䯂ˈᖙ 乏ࡴܹぎԡҹ䗖ᑨᑣ߫ⱘᏂᓖˈԚᰃࡴܹぎԡᖙ乏ফぎԡᓔᬒ㔮ߚぎԡᠽሩ㔮ߚDŽ㒱 ᭄ᚙމϟˈՓ⫼㗙ϡӮ↨ᇍᯊࡴܹ㒧ᵘֵᙃˈԚᰃぎԡᓔᬒ㸹߽ٓ⫼њৃҹߎ⦃Į- 㶎ᮟȕᡬッⱘ⡍⅞⅟ҹঞぎԡ㔮ߚ᠔أདⱘ⅟ˈӫ᠔਼ⶹˈ䖭ѯ⅟୰ᰒ⼎ 䖭Ͼ⡍ᓖᗻDŽᏆ㒣ᄬⱘぎԡⱘᠽሩॳ߭ᕜㅔऩˈাᰃ㽕䙷ѯᵕ᳝ৃ㛑㒧ᵘЁᔶ៤ᔃ᳆ ⱘԡ⚍ᠽሩぎԡˈ䖭ѯぎԡᠽሩ㔮ߚ䅵ㅫᰃ᳝ԡ㕂އᅮⱘDŽ Ўњҟ㒡ѢUNIXᑇৄⱘCLUSTAL WⱘՓ⫼ˈ㗗㰥ϔϟҢಯ⾡ϡৠ⠽⾡ᴹ⑤ⱘUIA㲟ⱑ˄Ҏ ㉏ˈ哴ˈXenopus laevisᵰ㴛˅DŽ䖭ಯ⾡䕧ܹᑣ߫ᬒϔϾऩ⣀ⱘ᭛ӊЁˈ៤݁⾡ৃҹ ফⱘḐᓣЁⱘϔ⾡ˈ✊ৢUNIXᦤ⼎ヺϟᠻ㸠clustalwˈ⫼᠋ᖙ乏ᠻ㸠ੑҸᠡӮⳟ㾕Џ㦰 ऩ: ********************************************************************* **********CLUSTAL W(1.60) Multiple Sequence Alignments****************** ********************************************************************* 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 1 䗝ᢽ㦰ऩЁⱘ䗝乍1(Sequence Input From Disc)ҹ䕧ܹ㽕↨ᇍⱘᑣ߫ˈ䗝ᢽৢӮߎ⦃ᑣ߫ 䕧ܹ㦰ऩ: Sequences should all be in 1 title. 6 formats accepted: NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF. Enter the name of the sequence file: UIA.seqs ㋏㒳Ӯᦤ⼎⫼᠋᳝݁⾡ৃҹফⱘḐᓣˈ✊ৢӮᦤ䯂䕧ܹᑣ߫ⱘ᭛ӊৡˈ䖭䞠ᑣ߫䕧ܹ᭛ ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ2/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,3/11 件名为UA.seqs,一旦输入这个文件名,屏幕上会显示读取文件的过程,然后返回主菜单, 这时,用户可以选择选项2进行多序列比对 大大大大大大大大大大大大★大大 MULTI PLE ALI GNMENT MENU*大大大大大大大大*大大大大来 1. D0 COMPLETE MULTI PLE ALI GNMENT NOW(SI OW/Accurate 2. Produce gui de tree file onl y 3. do al i gnment usi ng ol d gui de tree file 4. Toggle Sl ow Fast pai rwi se al i gnments= SLOW 5. Pai rwi se al i gnment parameters 6. Mul tipl e al i gnment parameters 7. Reset gaps between al i gnments?= ON 8. Toggl e screen di spl ay= ON 9. Output format opti ons S. Execute a system command H. HELP or press [RETURN] to go back to mai n menu Your choi ce: 1 从这一点看,用户在执行多序列比对时有很多选择的自由,举例来说,在 Mul ti pl e A| i gnment Parameters下,用户可以实际空位开放和扩展的罚分,指出在组建辅助树时分歧 到什么程度证明可以跳过一个序列,选择一个分值矩阵( BLOSUM或PAM),并且可以选择当 个亲水残基出现(或缺失)在一个特异位点时,是否要执行特异性罚分,如果需要,要罚多 少分。在 Pai rwi se Al i gnment Parameters下,用户可以调整用于慢比对和快比对的罚分和窗 口大小。因为在这个例子中,我们没有可以用来指示我们改变比对参数的任何信息,因此只 有选择选项1(" Do compl ete mul ti pl e al i gnment now")。选择选项1后,程序会在屏幕 上显示构件辅助树的过程,然后开始真正的所序列比对 CLUSTA W结束时,会显示最终的比对结果,上述的例子的结果显示在图8.1中。在比对下方 些位点被标记为星号或圆点,这些标记分别显示这些残基在序列中是绝对或是高度保守 的。如果返回的比对出现太多的空位或是不考虑这些蛋白的任何已知信息,用户就可以再修 正参数,然后返回程序,看它是否影响最终的比对。 CLUSTAL W(1. 60)mul ti pl s sequence al i gnment hum-UlA ------MAVPETRPNHTI YI NNLNEKI KKDELKKSLYAI FSQFGQI LDI LVSRSLKMRGQ mse-UlA MATLATMPVPETRANHTI YI NNLNEKI KKDELKKSLYAL SOFGOI LDI LVSRIMKMRGQ xI a-UIA ------MSI OEVRPNNTL YI NNLNEKI KKDELKKSLYAL ESOFGOI LDELVSRNLKMRGO file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
ӊৡЎUIA.seqsˈϔᮺ䕧ܹ䖭Ͼ᭛ӊৡˈሣᐩϞӮᰒ⼎䇏প᭛ӊⱘ䖛ˈ✊ৢ䖨ಲЏ㦰ऩˈ 䖭ᯊˈ⫼᠋ৃҹ䗝ᢽ䗝乍䖯㸠ᑣ߫↨ᇍ: **************** MULTIPLE ALIGNMENT MENU ***************** 1. DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate) 2. Produce guide tree file only 3. do alignment using old guide tree file 4. Toggle Slow Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = ON 8. Toggle screen display = ON 9. Output format ooptions S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice: 1 Ң䖭ϔ⚍ⳟˈ⫼᠋ᠻ㸠ᑣ߫↨ᇍᯊ᳝ᕜ䗝ᢽⱘ㞾⬅ˈВ՟ᴹ䇈ˈMultiple Alignment Parametersϟˈ⫼᠋ৃҹᅲ䰙ぎԡᓔᬒᠽሩⱘ㔮ߚˈᣛߎ㒘ᓎ䕙ࡽᯊᷥߚFAX ࠄҔМᑺ䆕ᯢৃҹ䏇䖛ϔϾᑣ߫ˈ䗝ᢽϔϾߚؐⶽ䰉˄BLOSUMPAM˅ˈᑊϨৃҹ䗝ᢽᔧϔ Ͼ҆∈⅟ߎ˄⦃㔎༅˅ϔϾ⡍ᓖԡ⚍ᯊˈᰃ৺㽕ᠻ㸠⡍ᓖᗻ㔮ߚˈབᵰ䳔㽕ˈ㽕㔮 ᇥߚDŽPairwise Alignment Parametersϟˈ⫼᠋ৃҹ䇗ᭈ⫼Ѣ᜶↨ᇍᖿ↨ᇍⱘ㔮ߚに ষᇣDŽЎ䖭Ͼ՟ᄤЁˈ៥Ӏ≵᳝ৃҹ⫼ᴹᣛ⼎៥Ӏᬍব↨ᇍখ᭄ⱘӏԩֵᙃˈℸা ᳝䗝ᢽ䗝乍˄”Do complete multiple alignment now”˅DŽ䗝ᢽ䗝乍ৢˈᑣӮሣᐩ Ϟᰒ⼎ᵘӊ䕙ࡽᷥⱘ䖛ˈ✊ৢᓔྟⳳℷⱘ᠔ᑣ߫↨ᇍDŽ CLUSTA W㒧ᴳᯊˈӮᰒ⼎᳔㒜ⱘ↨ᇍ㒧ᵰˈϞ䗄ⱘ՟ᄤⱘ㒧ᵰᰒ⼎8.1ЁDŽ↨ᇍϟᮍˈ ϔѯԡ⚍㹿ᷛ䆄Ў᯳ো⚍ˈ䖭ѯᷛ䆄߿ߚᰒ⼎䖭ѯ⅟ᑣ߫Ёᰃ㒱ᇍᰃ催ᑺֱᅜ ⱘDŽབᵰ䖨ಲⱘ↨ᇍߎ⦃ⱘぎԡᰃϡ㗗㰥䖭ѯ㲟ⱑⱘӏԩᏆⶹֵᙃˈ⫼᠋ህৃҹݡׂ ℷখ᭄ˈ✊ৢ䖨ಲᑣˈⳟᅗᰃ৺ᕅડ᳔㒜ⱘ↨ᇍDŽ CLUSTAL W (1.60) multipls sequence alignment hum-U1A ------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ mse-U1A MATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ xla-U1A ------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQ ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ3/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,4/ ame-UIA MEMLPNQTI YI NNLNEKI KKEELKKSLYAI FSOFGQI LDI VALKTLKMRGO ★大大★大大大大大大大大大大大 大大大大大 hum-UlA AFVI FKEVSSATNALRSMOGFPFYDKPMRI QYAKTDSDI I AKMKGTEVERDRKR-EKRKP mse-UlA AFVI FKEVTSATNALRSMOGFPFYDKPMRI QYAKTDSDI I AKMKGTYVERDRKR-EKRKP xI a-UIA AFVI FKETSSATNALRSMOGFPFYDKPMRI QYSKTDSDI I AKMKGTFVERDRKRQEKRKV dme-U1A AFVI EKEI GSASNALRTMQGFPFYDKPMQL AYSKSDSDI VAKI KGTEKERPKKVKPPKPA 大大大大大大大大大大大大大大大大大大大大大大大大 大大大大大大大大大大★大大 hum-UlA KSOETPATKKAVQGGGATPVVGAVOGPVPGMPPMTOAPRI MHHMPGQPPYMPPPGMI PPP mse-UlA KSOETPAAKKAVOGGAAAPVVGAVO-PVPGMPPMPOAPRI MHHMPGOPPYMPPPGMI PPP xI a-UIA KVPEVOGVKNAMPGAALLPGVPGOMAAMQDMPGMTOAPRMMH-MAGOAPYMHHJPGMPPP dme-U1A PGTDEKKDKKKK hum-UlA GLAPGQI PPGAMPPOQLMPGOMPPAOPLSENPPNHI LFLTNLPEETNELMLSMLFNOFPG mse-UlA GLAPGQI PPGAMPPOQLMPGQMPPAOPLSENPPNHI LELTNLPEETNELMLSMLFNOFPG xI a-UlA GMAPGOMPPGGMPHGOLMPGOMAPMOPI SENPPNHI LFLTNLPEETNELMLSMLFNOFPG dme-UlA SSAENSNP------ NAQTEOPPNQI LFLTNLPEETNEMMLSMLFNOFPG hum-UlA FKEVRLVPGRHDI AFVEFDNEVOAGAARDALOGFKI TONNAMKI SFAKK mse-U1A FKEVRLVPGRHDI AFVEFDNEVOAGAARDALOGFKI TONNAMKI SFAKK xI a-UlA FKEVRLVPGRHDI AFVEFDNEVOAGAARESLOGFKI TOSNSMKI SFAKK dme-U1A FKEVRLVPNRHDI AFVEFTTELOSNAAKEALOGFKI TPTHAMKITFAKK 大大大大大大大 图8.1、以四种U1A序列为一系列的输入序列,使用 CLUSTAL W多序列比对程序后得到的比 对结果。保守性极高的残基位置由星号标记在序列下方的相应位置,保守性稍低的残基由打 点标记出来。 Mul talin file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
dme-U1A ---------MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQ * * *************.****************** . . .***** hum-U1A AFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKP mse-U1A AFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKP xla-U1A AFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKV dme-U1A AFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPA ******* **.****.***********.* *.*.****.**.***. ** .* . hum-U1A KSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMIPPP mse-U1A KSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIPPP xla-U1A KVPEVQGVKNAMPGAALLPGVPGQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHJPGMPPP dme-U1A PGTDEKKDKKKK-----------------------------------------------P . * * hum-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPG mse-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILELTNLPEETNELMLSMLFNQFPG xla-U1A GMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQFPG dme-U1A SSAENSNP-----------------NAQTEQPPNQILFLTNLPEETNEMMLSMLFNQFPG * . * . .*.***.*************.*********** hum-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK mse-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK xla-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKK dme-U1A FKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK ********.********* .*.*..**...******* ..***.**** 8.1ǃҹಯ⾡ U1A ᑣ߫Ўϔ㋏߫ⱘ䕧ܹᑣ߫ˈՓ⫼CLUSTAL Wᑣ߫↨ᇍᑣৢᕫࠄⱘ↨ ᇍ㒧ᵰDŽֱᅜᗻᵕ催ⱘ⅟ԡ㕂⬅᯳োᷛ䆄ᑣ߫ϟᮍⱘⳌᑨԡ㕂ˈֱᅜᗻԢⱘ⅟⬅ᠧ ⚍ᷛ䆄ߎᴹDŽ MultiAlin ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ4/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,5/11 Mul talin方法也是基于用一系列双重比对开始的思想,然后基于双重比对的打分值进行一个 层次的聚类。当序列都分成类后,开始进行多序列比对,计算出多序列比对中的两个序列比 对的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不在上升,此时 所序列比对也就结束了。 Mul talin可以在 I NRA Toul ouse的一个环球网点上很容易地执行,要比对的序列按照 FASTA的 格式被粘贴到一个序列输入框内,然后从一系列下拉菜单中,用户定义适当的参数,比如输 出格式,可选的输入格式,引用的分值矩阵以及空位开放和扩展罚分的分值。大多数用户只 会根据输入序列的远近关系,选择不同的分值矩阵。然后,序列被提交到服务器上,当多序 列比对返回时,会计算一个一致序列并显示在比对的下方。举例来说,如图8.1所示的用 CLUSTAL W比对的同样的序列被提交给 Mul talin服务器,接受缺省的比对参数,其结果如图 8.2所示,在一致序列中,所有序列都匹配的残基相应的位置用此残基的大写字母表示,大多 数都匹配的用小写字母表示,同样地,符号!、$、%和#分别表示保守取代,具体含义如图 8.2上方的图例。 很明显,用两种方法分别得到的比对结果并不完全一样。主要区别在于 CLUSTAL W在果蝇序列 中开放了两个长度超过10的空位,而 Mul talin只开放了一个长空位,而且, Mul talin可以得 到比 CLUSTAL W多20个完全相同残基的排队,当然,这并不以为这一种方法比另外一种方法优 越,这有要重提本书的一个不便的话题,即从输入序列的性质出发,应用不同的方法会得到 不同程度的成功。警慎的用户会选择若干个工具同时使用,并且对最终的比对结果作手工修 正以期达到最佳效果。 模体和样式 前面叙述的方法对于多序列比对极为有用,但是用户必须实现搜集好独立的输入序列,要么 通过一系列的 BLAST或其它的数据库搜索,要么在实验室里直接作出决定。但是,有太多的方 法可以获取一个单独的序列,并且基于此序列中的任何模体或样式,返回所有的蛋白质家 族,完成某个特异方法所定义的最佳比对。很多时候,这些方法所揭示的距离关系并非从例 行的标准的数据库搜索中轻易获取。在这一部分,我们讨论两种方法,都是搜索特殊数据库 以获取序列的模体和样式的,当然也是两种从最少的序列信息中进行蛋白质家族分类的强有 力的方法 Profi l escan 基于经典的头文件分析的 Gri skov方法, Profi l escan使用一种称为 pfscan的方法寻找一个蛋 白质或核酸的査询序列同一个头文件库的相似性,因此,在搜索中需要有两个头文件库:第 个是 PROSITE,一个 EXPASy数据库,通过使用模体和序列样式(诸如指纹)将生物学意义重大 的位点收集分类;第二个是Pfam,收集了蛋白质结构域家族,与其它收集方法有很大不同的 是,最初的蛋白质结构域的比对完全是有手工完成的,而不是依靠自动化的处理方法,正因 为这样,Pfam只拥有500多条款目,但这些款目的质量极好。 基于PRoS|TE和Pfam的搜索可以通过访问 Profi l escan的主页完成,她只需要一条简单的输入 序列(用文本格式),或者一个标号,比如一个SWSS-PROT 用户可以选择搜索的敏感 度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。为了说明输出的格式,我们 现在向PRoS|TE系统提交人类的热休克诱导蛋白的序列作一次搜索 normal i zed taw from to Profi l e descri pti on 355, 9801 41556pos 6-612 PF00012 HSP70 Heat shock hsp70 protein file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
MultAlinᮍ⊩гᰃѢ⫼ϔ㋏߫ঠ䞡↨ᇍᓔྟⱘᗱᛇ✊ৢѢঠ䞡↨ᇍⱘᠧߚؐ䖯㸠ϔϾߚ ሖⱘ㘮㉏DŽᔧᑣ߫䛑ߚ៤㉏ৢˈᓔྟ䖯㸠ᑣ߫↨ᇍˈ䅵ㅫߎᑣ߫↨ᇍЁⱘϸϾᑣ߫↨ ᇍⱘᮄؐˈѢ䖭ѯᮄؐˈ䞡ᮄᵘᓎϔỉᷥDŽ䖭Ͼ䖛ϡᮁ䖯㸠ˈⳈߚࠄؐϡϞछˈℸᯊ ᠔ᑣ߫↨ᇍгህ㒧ᴳњDŽ MultAlinৃҹINRA ToulouseⱘϔϾ⦃⧗㔥⚍Ϟᕜᆍᯧഄᠻ㸠ˈ㽕↨ᇍⱘᑣ߫ᣝ✻FASTAⱘ Ḑᓣ㹿㉬䌈ࠄϔϾᑣ߫䕧ܹḚݙৢ✊ˈҢϔ㋏߫ϟᢝ㦰ऩЁˈ⫼᠋ᅮН䗖ᔧⱘখ᭄ˈ↨བ䕧 ߎḐᓣˈৃ䗝ⱘ䕧ܹḐᓣˈᓩ⫼ⱘߚؐⶽ䰉ҹঞぎԡᓔᬒᠽሩ㔮ߚⱘߚؐDŽ᭄⫼᠋া Ӯḍ䕧ܹᑣ߫ⱘ䖰䖥݇㋏ˈ䗝ᢽϡৠⱘߚؐⶽ䰉DŽ✊ৢˈᑣ߫㹿ᦤѸࠄ᳡ࡵ఼Ϟˈᔧᑣ ߫↨ᇍ䖨ಲᯊˈӮ䅵ㅫϔϾϔ㟈ᑣ߫ᑊᰒ⼎↨ᇍⱘϟᮍDŽВ՟ᴹ䇈ˈབ8.1᠔⼎ⱘ⫼ CLUSTAL W↨ᇍⱘৠḋⱘᑣ߫㹿ᦤѸ㒭MultAlin᳡ࡵˈ఼ফ㔎ⳕⱘ↨ᇍখ᭄ˈ݊㒧ᵰབ 8.2᠔⼎ˈϔ㟈ᑣ߫Ёˈ᠔᳝ᑣ߫䛑ऍ䜡ⱘ⅟Ⳍᑨⱘԡ㕂⫼ℸ⅟ⱘݭᄫ↡㸼⼎ˈ ᭄䛑ऍ䜡ⱘ⫼ᇣݭᄫ↡㸼⼎ˈৠḋഄˈヺোʽǃǃ߿ߚ㸼⼎ֱᅜপҷˈԧНབ 8.2Ϟᮍⱘ՟DŽ ᕜᯢᰒˈ⫼ϸ⾡ᮍ⊩߿ߚᕫࠄⱘ↨ᇍ㒧ᵰᑊϡᅠܼϔḋDŽЏ㽕ऎ߿ѢCLUSTAL Wᵰ㴛ᑣ߫ ЁᓔᬒњϸϾ䭓ᑺ䍙䖛10ⱘぎԡˈ㗠MultAlinাᓔᬒњϔϾ䭓ぎԡˈ㗠ϨˈMultAlinৃҹᕫ ࠄ↨CLUSTAL W20ϾᅠܼⳌৠ⅟ⱘᥦ䯳ˈᔧ✊ˈ䖭ᑊϡҹЎ䖭ϔ⾡ᮍ⊩↨ϔ⾡ᮍ⊩Ӭ 䍞ˈ䖭᳝㽕䞡ᦤᴀкⱘϔϾϡ֓ⱘ䆱乬ˈेҢ䕧ܹᑣ߫ⱘᗻ䋼ߎথˈᑨ⫼ϡৠⱘᮍ⊩Ӯᕫࠄ ϡৠᑺⱘ៤ࡳDŽ䄺ᜢⱘ⫼᠋Ӯ䗝ᢽ㢹ᑆϾᎹৠᯊՓ⫼ˈᑊϨᇍ᳔㒜ⱘ↨ᇍ㒧ᵰᎹׂ ℷҹᳳ䖒ࠄ᳔ՇᬜᵰDŽ ԧḋᓣ ࠡ䴶ভ䗄ⱘᮍ⊩ᇍѢᑣ߫↨ᇍᵕЎ᳝⫼ˈԚᰃ⫼᠋ᖙ乏ᅲ⦄᧰䲚ད⣀ゟⱘ䕧ܹᑣ߫ˈ㽕М 䗮䖛ϔ㋏߫ⱘBLAST݊ᅗⱘ᭄ᑧ᧰㋶ˈ㽕Мᅲ偠ᅸ䞠ⳈއߎᅮDŽԚᰃˈ᳝ⱘᮍ ⊩ৃҹ㦋পϔϾऩ⣀ⱘᑣ߫ˈᑊϨѢℸᑣ߫Ёⱘӏԩԧḋᓣˈ䖨ಲ᠔᳝ⱘ㲟ⱑ䋼ᆊ ᮣˈᅠ៤ᶤϾ⡍ᓖᮍ⊩᠔ᅮНⱘ᳔Շ↨ᇍDŽᕜᯊˈ䖭ѯᮍ⊩᠔ᧁ⼎ⱘ䎱⾏݇㋏ᑊ䴲Ң՟ 㸠ⱘᷛޚⱘ᭄ᑧ᧰㋶Ё䕏ᯧ㦋পDŽ䖭ϔ䚼ߚˈ៥Ӏ䅼䆎ϸ⾡ᮍ⊩ˈ䛑ᰃ᧰㋶⡍⅞᭄ᑧ ҹ㦋পᑣ߫ⱘԧḋᓣⱘˈᔧ✊гᰃϸ⾡Ң᳔ᇥⱘᑣֵ߫ᙃЁ䖯㸠㲟ⱑ䋼ᆊᮣߚ㉏ⱘᔎ᳝ ⱘᮍ⊩DŽ ProfileScan Ѣ㒣ⱘ༈᭛ӊߚᵤⱘGribskovᮍ⊩,ProfileScanՓ⫼ϔ⾡⿄Ўpfscanⱘᮍ⊩ᇏᡒϔϾ㲟 ⱑ䋼Ḍ䝌ⱘᶹ䆶ᑣ߫ৠϔϾ༈᭛ӊᑧⱘⳌԐᗻℸ᧰㋶Ё䳔㽕᳝ϸϾ༈᭛ӊᑧ˖ϔ ϾᰃPROSITEˈϔϾExPASy᭄ᑧˈ䗮䖛Փ⫼ԧᑣ߫ḋᓣ˄䇌བᣛ㒍˅ᇚ⫳⠽ᄺᛣН䞡 ⱘԡ⚍ᬊ䲚ߚ㉏˗ѠϾᰃPfam ,ᬊ䲚њ㲟ⱑ䋼㒧ᵘඳᆊᮣˈϢ݊ᅗᬊ䲚ᮍ⊩᳝ᕜϡৠⱘ ᰃˈ᳔߱ⱘ㲟ⱑ䋼㒧ᵘඳⱘ↨ᇍᅠܼᰃ᳝Ꮉᅠ៤ⱘˈ㗠ϡᰃձ䴴㞾࣪ࡼⱘ໘⧚ᮍ⊩ˈℷ Ў䖭ḋˈPfamাᢹ᳝500ᴵℒⳂˈԚ䖭ѯℒⳂⱘ䋼䞣ᵕདDŽ ѢPROSITEPfamⱘ᧰㋶ৃҹ䗮䖛䆓䯂ProfileScanⱘЏ义ᅠ៤ˈཌྷা䳔㽕ϔᴵㅔऩⱘ䕧ܹ ᑣ߫˄⫼᭛ᴀḐᓣ˅ˈ㗙ϔϾᷛোˈ↨བϔϾSWISS-PROT IDDŽ⫼᠋ৃҹ䗝ᢽ᧰㋶ⱘᬣᛳ ᑺˈ䗝ᢽ䖨ಲᰒ㨫ⱘऍ䜡㗙᠔᳝ऍ䜡ˈ⫮㟇ࣙᣀ䖍⬠ⱘᚙމDŽЎњ䇈ᯢ䕧ߎⱘḐᓣˈ៥Ӏ ⦄PROSITE㋏㒳ᦤѸҎ㉏ⱘ⛁ӥܟ䇅ᇐ㲟ⱑⱘᑣ߫ϔ᧰㋶: normalized taw from to Profile | description 355,9801 41556pos 6 - 612 PF00012 | HSP70 Heat shock hsp70 protein ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ5/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,6/11 真正返回的 PROSITE条目显得并不希奇,输出里含有值得注意的分值,这个前期加工(raW 的分值就是真正由搜索时使用的打分矩阵计算出来的,更信息化的数字是 normal i zed 即N值,N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数目 本上来说,N值越大,偶然发生的命中几率就越小。举例来说,如果N值为355,偶然命中的几 率只有1.94X10-349。数字“from”和“to”只是显示出查询序列和匹配的头文件重叠的位 点。 BLOCKS BL0CKS数据库利用了块的概念,对蛋白质家族进行鉴定,而不是只依赖于单个的序列本身。 块的思想来源于更加普遍的概念&#;模体( moti f),模体通常是指一段氨基酸序列的保守的 伸展,拥有一定的蛋白质功能或者结构。当这些来源于同一家族中的蛋白质中的模体比对时 (不引入空位),其结果就是块;块就是指比对,而不是序列本身。很明显,任何一个独立 的蛋白都可以包含一个或者更多个的块,对应于它的每一个功能和结构模体。 BL0CKS数据库本身来源于PR0STE的条目。当使用一个感兴趣的序列进行BL0CKS搜索时,查询 序列就会同数据库中所有的块在任何可能的位点进行比对,对于每一个比对都会使用位点特 异分值矩阵或者PSSM进行打分。PSSM和这本书前面叙述的分值矩阵(例如 TBLOSUM62)的重大 区别在于,其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的 位点的可能性。所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的 个特异位点的几率,这在本部分的结尾就会变的十分明白。 BL0CKS搜索可以通过访问西雅图的 Fred Hutch son肿瘤研究中心的BL0CKS主页完成,这个网 点很直接,允许执行基于序列或者关键词的检索。如果用户在输入时使用了DNA序列,他就可 以指明使用哪个遗传密码,搜索哪条链。不管执行搜索的是一个序列还是一个关键词,成功 的搜索将会返回相应的块,图8.3显示了一个例子。在这个条目中(一个核内激素受体,称为 类固醇指针),头几行按顺序分别标记为D,AC和DE,给出了这个块代表的家族的缩写 BL0CKS数据库注册码和家族的详细描述;BL行给出了关于组建这个特别的块的原始序列模体 的信息:参数wdth和seqs表示 bl ock的宽度(用残基计算),以及这个块中有多少序列数 目,接下来是统计学有效性和构成长度的信息;最后是序列列表,只显示出对应于这个特殊 模体的序列部分,每一行的开头都是这个序列的SWSS-PROT注册码,第一个残基在整个序列 中的位置,然后是序列本身以及基于位点的序列权重,这个权重用100刻度,100表示序列距 离这个群体最远;注意到有些序列行中有空行:部分比对被聚集在一起,在每个聚集中,80% 的序列残基是相同的。 Most Mos 模体搜索工具(或者写作MoST),是一个UNX程序,用来进行数据库搜索以寻找保守的模 这个方法使用比对序列块(比对块, al i gnment bl ock),可以容纳任意数目N的序列, 个长L,所有序列长度必须一致,但是在目前还不能引进空位。这个比对块用来产生一个蛋白 质权重矩阵,然后对所有序列进行矩阵扫描,从目标蛋白质数据库开始搜索,对每一个长L的 片段通过加和适合的权重矩阵元素得到其分值。如果找到在统计学上显著地匹配于序列块的 序列,这些序列也会被加入到序列块中。搜索完一个循环后,权重矩阵必须重新计算,然后 重新进行搜索,这个过程反复进行,直到再也找不到统计学意义显著的匹配序列为止,这个 过程因而在数据库搜索过程中不断积累新的信息 在执行MoST时有一个可以设置的参数就是比例R,R表示预期的虚假匹配数目被预测的真实匹 配数目。因为MoST搜索预期将会收敛(就是说因为不会再找到新的序列,反复过程将会终 止),所以R值的选择十分重要。如果R值太高,搜索就会延伸而不是收敛,最后会引进目标 数据库中的所有序列,避免虚假匹配的一个方法就是逐渐增大R值,观察匹配的数量和质量, 如果可能出现延伸就放弃增大R值 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
ⳳℷ䖨ಲⱘPROSITEᴵⳂᰒᕫᑊϡᏠ༛ˈ䕧ߎ䞠᳝ؐᕫ⊼ᛣⱘߚˈؐ䖭ϾࠡᳳࡴᎹ˄raw˅ ⱘߚؐህᰃⳳℷ⬅᧰㋶ᯊՓ⫼ⱘᠧߚⶽ䰉䅵ㅫߎᴹⱘˈֵᙃ࣪ⱘ᭄ᄫᰃ“normalized”ˈ े1ؐˈ1ؐ䗮ᐌ㒭ߎњ⫼᠋ϔϾᏆⶹᇣⱘ᭄ᑧЁৃҹᇏᡒࠄⱘৃ㛑ⱘऍ䜡ⱘ᭄Ⳃˈ ᴀϞᴹ䇈ˈ1ؐ䍞ˈي✊থ⫳ⱘੑЁ⥛ህ䍞ᇣDŽВ՟ᴹ䇈ˈབᵰ1ؐЎ355ˈيੑ✊Ёⱘ ⥛া᳝1.94ɏ10-349DŽ᭄ᄫ“from”“to”াᰃᰒ⼎ߎᶹ䆶ᑣ߫ऍ䜡ⱘ༈᭛ӊ䞡ⱘԡ ⚍DŽ BLOCKS BLOCKS᭄ᑧ߽⫼њഫⱘὖᗉˈᇍ㲟ⱑ䋼ᆊᮣ䖯㸠䡈ᅮˈ㗠ϡᰃাձ䌪ѢऩϾⱘᑣ߫ᴀ䑿DŽ ഫⱘᗱᛇᴹ⑤Ѣࡴ᱂䘡ⱘὖᗉ�ԧ˄motif˅ˈԧ䗮ᐌᰃᣛϔ↉⇼䝌ᑣ߫ⱘֱᅜⱘ Ԍሩˈᢹ᳝ϔᅮⱘ㲟ⱑ䋼ࡳ㛑㗙㒧ᵘDŽᔧ䖭ѯᴹ⑤ѢৠϔᆊᮣЁⱘ㲟ⱑ䋼Ёⱘԧ↨ᇍᯊ ˄ϡᓩܹぎԡ˅ˈ݊㒧ᵰህᰃഫ˗ഫህᰃᣛ↨ᇍˈ㗠ϡᰃᑣ߫ᴀ䑿DŽᕜᯢᰒˈӏԩϔϾ⣀ゟ ⱘ㲟ⱑ䛑ৃҹࣙϔϾ㗙ϾⱘഫˈᇍᑨѢᅗⱘ↣ϔϾࡳ㛑㒧ᵘԧDŽ BLOCKS᭄ᑧᴀ䑿ᴹ⑤ѢPROSITEⱘᴵⳂDŽᔧՓ⫼ϔϾᛳ݈䍷ⱘᑣ߫䖯㸠BLOCKS᧰㋶ᯊˈᶹ䆶 ᑣ߫ህӮৠ᭄ᑧЁ᠔᳝ⱘഫӏԩৃ㛑ⱘԡ⚍䖯㸠↨ᇍˈᇍѢ↣ϔϾ↨ᇍ䛑ӮՓ⫼ԡ⚍⡍ ᓖߚؐⶽ䰉㗙PSSM䖯㸠ᠧߚDŽPSSM䖭ᴀкࠡ䴶ভ䗄ⱘߚؐⶽ䰉˄՟བBLOSUM62˅ⱘ䞡 ऎ߿Ѣˈ݊ߚؐ㗗㰥ࠄњ㒭ᅮⱘԡ⚍ᰃ৺ᢹ᳝ϔϾऍ䜡ҹঞϔϾ㒭ᅮ⇼䝌ऴഫЁⱘ ԡ⚍ⱘৃ㛑ᗻDŽ᠔᳝Ѣ䖭⾡ᔶᓣⱘᮍ⊩ⱘḌᖗᗱᛇ䛑ᰃ㾖⌟⅟ऴ↨ᇍ㲟ⱑ䋼ഫЁⱘϔ Ͼ⡍ᓖԡ⚍ⱘˈ⥛䖭ᴀ䚼ߚⱘ㒧ሒህӮবⱘकߚᯢⱑDŽ BLOCKS᧰㋶ৃҹ䗮䖛䆓䯂㽓䲙ⱘFred Hutchinson㚓⯸ⷨおЁᖗⱘBLOCKSЏ义ᅠ៤ˈ䖭Ͼ㔥 ⚍ᕜⳈˈܕ䆌ᠻ㸠Ѣᑣ߫㗙݇䬂䆡ⱘẔ㋶DŽབᵰ⫼᠋䕧ܹᯊՓ⫼њDNAᑣ߫ˈҪህৃ ҹᣛᯢՓ⫼ાϾ䘫Ӵᆚⷕˈ᧰㋶ાᴵ䫒DŽϡㅵᠻ㸠᧰㋶ⱘᰃϔϾᑣ߫䖬ᰃϔϾ݇䬂䆡ˈ៤ࡳ ⱘ᧰㋶ᇚӮ䖨ಲⳌᑨⱘഫˈ8.3ᰒ⼎њϔϾ՟ᄤDŽ䖭ϾᴵⳂЁ˄ϔϾḌݙ▔㋴ফԧˈ⿄Ў ㉏䝛ᣛ䩜˅ˈ༈㸠ᣝ乎ᑣ߿ߚᷛ䆄ЎIDˈACDEˈ㒭ߎњ䖭Ͼഫҷ㸼ⱘᆊᮣⱘ㓽ݭˈ BLOCKS᭄ᑧ⊼ݠⷕᆊᮣⱘ䆺㒚ᦣ䗄˗BL㸠㒭ߎњ݇Ѣ㒘ᓎ䖭Ͼ⡍߿ⱘഫⱘॳྟᑣ߫ԧ ⱘֵᙃ˖খ᭄widthseqs㸼⼎blockⱘᆑᑺ˄⫼⅟䅵ㅫ˅ˈҹঞ䖭ϾഫЁ᳝ᇥᑣ᭄߫ Ⳃˈϟᴹᰃ㒳䅵ᄺ᳝ᬜᗻᵘ៤䭓ᑺⱘֵᙃ˗᳔ৢᰃᑣ߫߫㸼ˈাᰒ⼎ߎᇍᑨѢ䖭Ͼ⡍⅞ ԧⱘᑣ߫䚼ߚ↣ˈϔ㸠ⱘᓔ༈䛑ᰃ䖭Ͼᑣ߫ⱘSWISS-PROT⊼ݠⷕˈϔϾ⅟ᭈϾᑣ߫ Ёⱘԡ㕂ˈ✊ৢᰃᑣ߫ᴀ䑿ҹঞѢԡ⚍ⱘᑣ߫ᴗ䞡ˈ䖭Ͼᴗ䞡⫼100ࠏᑺˈ100㸼⼎ᑣ߫䎱 ⾏䖭Ͼ㕸ԧ᳔䖰˗⊼ᛣࠄ᳝ѯᑣ߫㸠Ё᳝ぎ㸠˖䚼ߚ↨ᇍ㹿㘮䲚ϔ䍋ˈ↣Ͼ㘮䲚Ёˈ80% ⱘᑣ߫⅟ᰃⳌৠⱘDŽ MoST MoS ԧ᧰㋶Ꮉ㗙ݭMoST)ˈᰃϔϾUNIXᑣˈ⫼ᴹ䖯㸠᭄ᑧ᧰㋶ҹᇏᡒֱᅜⱘԧDŽ 䖭Ͼᮍ⊩Փ⫼↨ᇍᑣ߫ഫ˄↨ᇍഫˈalignment block˅ˈৃҹᆍ㒇ӏᛣ᭄Ⳃ1ⱘᑣ߫ˈ↣ϔ Ͼ䭓/ˈ᠔᳝ᑣ߫䭓ᑺᖙ乏ϔ㟈ˈԚᰃⳂࠡ䖬ϡ㛑ᓩ䖯ぎԡDŽ䖭Ͼ↨ᇍഫ⫼ᴹѻ⫳ϔϾ㲟ⱑ 䋼ᴗ䞡ⶽ䰉ˈ✊ৢᇍ᠔᳝ᑣ߫䖯㸠ⶽ䰉ᠿᦣˈҢⳂᷛ㲟ⱑ䋼᭄ᑧᓔྟ᧰㋶ˈᇍ↣ϔϾ䭓/ⱘ ⠛↉䗮䖛ࡴ䗖ড়ⱘᴗ䞡ⶽ䰉ܗ㋴ᕫࠄ݊ߚؐDŽབᵰᡒࠄ㒳䅵ᄺϞᰒ㨫ഄऍ䜡Ѣᑣ߫ഫⱘ ᑣ߫ˈ䖭ѯᑣ߫гӮ㹿ࡴܹࠄᑣ߫ഫЁDŽ᧰㋶ᅠϔϾᕾ⦃ৢˈᴗ䞡ⶽ䰉ᖙ乏䞡ᮄ䅵ㅫˈ✊ৢ 䞡ᮄ䖯㸠᧰㋶ˈ䖭Ͼ䖛ড䖯㸠ˈⳈݡࠄгᡒϡࠄ㒳䅵ᄺᛣНᰒ㨫ⱘऍ䜡ᑣ߫Ўℶˈ䖭Ͼ 䖛㗠᭄ᑧ᧰㋶䖛Ёϡᮁ⿃㌃ᮄⱘֵᙃDŽ ᠻ㸠MoSTᯊ᳝ϔϾৃҹ䆒㕂ⱘখ᭄ህᰃ↨՟5ˈ5㸼⼎乘ᳳⱘ㰮؛ऍ䜡᭄Ⳃ㹿乘⌟ⱘⳳᅲऍ 䜡᭄ⳂDŽЎMoST᧰㋶乘ᳳᇚӮᬊᬯ˄ህᰃ䇈ЎϡӮݡᡒࠄᮄⱘᑣ߫ˈড䖛ᇚӮ㒜 ℶ˅ˈ᠔ҹ5ؐⱘ䗝ᢽकߚ䞡㽕DŽབᵰ5ؐ催ˈ᧰㋶ህӮᓊԌ㗠ϡᰃᬊᬯˈ᳔ৢӮᓩ䖯Ⳃᷛ ᭄ᑧЁⱘ᠔᳝ᑣ߫ˈ䙓ܡ㰮؛ऍ䜡ⱘϔϾᮍ⊩ህᰃ䗤⏤5ؐˈ㾖ᆳऍ䜡ⱘ᭄䞣䋼䞣ˈ བᵰৃ㛑ߎ⦃ᓊԌህᬒᓗ5ؐDŽ ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ6/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,7/ M0ST命令行形式为 most database bl ock [method] [seg] [cutoff][#%]> outfile 在这里 database指明要搜索哪一个数据库;bock指明含有输入比对块的文件名(用 FASTA格式 存储);可选的 method参数指明了怎样计算依赖位置的权重矩阵:如果不加指明,缺省值将选 择出现一个特殊残基的可能性的 Di ri chl吐t分布,选项1引用加权平均( Gri bokoν方法),选 项2引用 Bayesi an伪记数方法,选项3引用依赖数据的伪记数模型,至于执行中如何选择,在 MoST的原始参考书中有详细描述,新用户应该先使用缺省值,检査结果的质量,然后考虑是 否改变参数;seg参数指明搜索中是否应用seg过滤算法,seg(缺省)表示开关开,-Seg表示 开关关;阈值 cutoff指明上面描述的比例R,推荐初始值选择在r0.1-r0.5:最后,使用i#%参 数将对输入块进行限制,比如,如果指定为i80%,在组中只有相同比列大于80%才被引用,这 个选项可以在出现从多个物种来源的相同序列时,有效地放置数据系统的扭曲。 图8.4显示了一个MoST输出的例子。输出文件很便利地回应了开始的命令,允许多重MoST, 个接一个地辨别。接下来是真正的块,头和尾都有一个额外的序列,标记MAX的序列被认为是 个 de facto一致序列,它是基于计算矩阵得分最高的序列,在这里,它得分为609,分值显 示于序列最末端;同样道理,标记为min的序列是最不一致的序列,得分最低,实际比对块的 序列介于两行之间,按高分到低分排列,序列左边是序列标号,右边是分值 图8.5是输出的延续,作为这个输入块的第一轮重复的结果,找到了5个新序列(比对的上 方)。在新序列的左边是这个条目的Def行的前几个特征,然后是显示的第一个残基的位置 序列本身以及序列的统计值。更进一步,原始序列(比对块中的序列)再出现,这些序列可 以反过头来使用更在Def行后的标志数字同序列块相比。数字被缩短了,但是输出文件仍然继 易显示出来,比对过程中程序已经替用户把它们用小写字母表示出来。配于块的残基很容 续,显示每一轮的计算结果,直到收敛。这个输出的一个好特点就是不匹酽 PROBE 有一个最新的比对模型程序叫做 PROBE,在某些方面, PROBE与MoST很相似,它们都运用反复 计算的策略检测较远关系的序列,但是,从本质上讲,算法的机制是不一样的,所以有必要 作进一步的讨论。 在决定哪些序列相关时, PROBE执行一个及物的搜索,如果一个双重搜索发现序列A和B是相关 的,另外一个搜索发现序列B和C是相关的,那么A和C就一定相关,即使A和C之间的双重比对 没有直接发现它们相关。通过一系列的BAST搜索,所有这样的联系都被反复演绎出来,直到 再不会发现新的序列。在这样一系列相关序列组成的集合上,将会进行一系列的比对,反复 比对,直到比对不再改善。这时,将会进行下一轮的数据库搜索,应用上一轮的最佳比对, 寻找在上一轮中被忽略的相关序列。 PROBE程序反复操作这一过程,直到搜索收敛为止。 PROBE和MoST之间的一个很重要的区别就在于 PROBE在搜索开始时只需要一个序列作为“种 ”,即使可以使用一个家族的序列,而在MoST程序中,必须输入一个预先准备好的不包含 空位的比对。因为无法保证用机器寻找到的比对比手工的比对质量要好(很多时候恰恰相 反),在进行MoST搜索时必然会携带手工计算比对时的位点偏向因素。MoST和 PROBE处理输入 的方法是不一样的,MoST一次必须处理一个比对块,而PR0BE按照反复搜索中的发现把输入序 列分成多个块,在这里,用户要决定是否维持块的完整以及块是否可以进一步分成更小的组 成单位,作出决定时最好依据它们的生物学功能。最后,MoST是一个贪婪的算法,下一轮搜 索中发现的新序列一旦加入就不会被剔除,于是一个虚假的匹配很可能在接下来的搜索中不 断蔓延,很可能引入更多的虚假匹配;而 PROBE使用一个“ jack kni fe"的程序会自动消除这 样不相关的序列,就是说,推定的虚假匹配会被从数据中取消,然后重新搜索数据库,如果 这个序列确实相关的话,它会在以后重新被加入到数据中去。 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
MoSTੑҸ㸠ᔶᓣЎ: most database block [method] [seg] [cutoff] [i#%] > outfile 䖭䞠databaseᣛᯢ㽕᧰㋶ાϔϾ᭄ᑧ˗blockᣛᯢ᳝䕧ܹ↨ᇍഫⱘ᭛ӊৡ⫼FASTAḐᓣ ᄬټৃ˗䗝ⱘmethodখ᭄ᣛᯢњᗢḋ䅵ㅫձ䌪ԡ㕂ⱘᴗ䞡ⶽ䰉˖བᵰϡࡴᣛᯢˈ㔎ⳕؐᇚ䗝 ᢽߎ⦃ϔϾ⡍⅞⅟ⱘৃ㛑ᗻⱘDirichletߚᏗˈ䗝乍ᓩ⫼ࡴᴗᑇഛ˄Gribskovᮍ⊩˅ˈ䗝 乍ᓩ⫼BayesianӾ䆄᭄ᮍ⊩ˈ䗝乍ᓩ⫼ձ䌪᭄ⱘӾ䆄᭄ൟˈ㟇Ѣᠻ㸠Ёབԩ䗝ᢽˈ MoSTⱘॳྟখ㗗кЁ᳝䆺㒚ᦣ䗄ˈᮄ⫼᠋ᑨ䆹ܜՓ⫼㔎ⳕؐˈẔᶹ㒧ᵰⱘ䋼䞣ˈ✊ৢ㗗㰥ᰃ ৺ᬍবখ᭄˗segখ᭄ᣛᯢ᧰㋶Ёᰃ৺ᑨ⫼seg䖛Ⓒㅫ⊩ˈseg˄㔎ⳕ˅㸼⼎ᓔ݇ᓔˈ-seg㸼⼎ ᓔ݇݇˗䯜ؐcutoffᣛᯢϞ䴶ᦣ䗄ⱘ↨՟5ˈ㤤߱ྟؐ䗝ᢽr0.1-r0.5˗᳔ৢˈՓ⫼i#%খ ᭄ᇚᇍ䕧ܹഫ䖯㸠䰤ࠊ↨ˈབˈབᵰᣛᅮЎi80%ˈ㒘Ёা᳝Ⳍৠ↨߫Ѣ80%ᠡ㹿ᓩ⫼ˈ䖭 Ͼ䗝乍ৃҹߎ⦃ҢϾ⠽⾡ᴹ⑤ⱘⳌৠᑣ߫ᯊˈ᳝ᬜഄᬒ㕂᭄㋏㒳ⱘᡁ᳆DŽ 8.4ᰒ⼎њϔϾMoST䕧ߎⱘ՟ᄤDŽ䕧ߎ᭛ӊᕜ߽֓ഄಲᑨњᓔྟⱘੑҸˈܕ䆌䞡MoSTˈϔ ϾϔϾഄ䕼߿DŽϟᴹᰃⳳℷⱘഫˈ༈ሒ䛑᳝ϔϾ乱ⱘᑣ߫ˈᷛ䆄MAXⱘᑣ߫㹿䅸Ўᰃ ϔϾde factoϔ㟈ᑣ߫ˈᅗᰃѢ䅵ㅫⶽ䰉ᕫߚ᳔催ⱘᑣ߫ˈ䖭䞠ˈᅗᕫߚЎ609ˈߚؐᰒ ⼎Ѣᑣ᳔߫ッ˗ৠḋ䘧⧚ˈᷛ䆄Ўminⱘᑣ߫ᰃ᳔ϡϔ㟈ⱘᑣ߫ˈᕫߚ᳔Ԣˈᅲ䰙↨ᇍഫⱘ ᑣ߫ҟѢϸ㸠П䯈ˈᣝ催ࠄߚԢߚᥦ߫ˈᑣ߫Ꮊ䖍ᰃᑣ߫ᷛোˈে䖍ᰃߚؐDŽ 8.5ᰃ䕧ߎⱘᓊ㓁ˈЎ䖭Ͼ䕧ܹഫⱘϔ䕂䞡ⱘ㒧ᵰˈᡒࠄњϾᮄᑣ߫˄↨ᇍⱘϞ ᮍ˅DŽᮄᑣ߫ⱘᎺ䖍ᰃ䖭ϾᴵⳂⱘDef㸠ⱘࠡϾ⡍ᕕˈ✊ৢᰃᰒ⼎ⱘϔϾ⅟ⱘԡ㕂ˈ ᑣ߫ᴀ䑿ҹঞᑣ߫ⱘ㒳䅵ؐDŽ䖯ϔℹˈॳྟᑣ߫˄↨ᇍഫЁⱘᑣ߫˅ߎݡˈ⦃䖭ѯᑣ߫ৃ ҹড䖛༈ᴹՓ⫼Def㸠ৢⱘᷛᖫ᭄ᄫৠᑣ߫ഫⳌ↨DŽ᭄ᄫ㹿㓽ⷁњˈԚᰃ䕧ߎ᭛ӊҡ✊㒻 㓁ˈᰒ⼎↣ϔ䕂ⱘ䅵ㅫ㒧ᵰˈⳈࠄᬊᬯDŽ䖭Ͼ䕧ߎⱘϔϾད⡍⚍ህᰃϡऍ䜡Ѣഫⱘ⅟ᕜᆍ ᯧᰒ⼎ߎᴹˈ↨ᇍ䖛ЁᑣᏆ㒣᳓⫼᠋ᡞᅗӀ⫼ᇣݭᄫ↡㸼⼎ߎᴹњDŽ. PROBE ᳝ϔϾ᳔ᮄⱘ↨ᇍൟᑣিخPROBEˈᶤѯᮍ䴶ˈPROBEϢMoSTᕜⳌԐˈᅗӀ䛑䖤⫼ড 䅵ㅫⱘㄪ⬹Ẕ⌟䕗䖰݇㋏ⱘᑣ߫ˈԚᰃˈҢᴀ䋼Ϟ䆆ˈㅫ⊩ⱘᴎࠊᰃϡϔḋⱘˈ᠔ҹ᳝ᖙ㽕 䖯ϔℹⱘ䅼䆎DŽ އᅮાѯᑣ߫Ⳍ݇ᯊˈPROBEᠻ㸠ϔϾঞ⠽ⱘ᧰㋶ˈབᵰϔϾঠ䞡᧰㋶থ⦄ᑣ߫$%ᰃⳌ݇ ⱘˈϔϾ᧰㋶থ⦄ᑣ߫%&ᰃⳌ݇ⱘˈ䙷М$&ህϔᅮⳌ݇ˈेՓ$&П䯈ⱘঠ䞡↨ᇍ ≵᳝Ⳉথ⦄ᅗӀⳌ݇DŽ䗮䖛ϔ㋏߫ⱘBLAST᧰㋶ˈ᠔᳝䖭ḋⱘ㘨㋏䛑㹿ডⓨ㒢ߎᴹˈⳈࠄ ݡϡӮথ⦄ᮄⱘᑣ߫DŽ䖭ḋϔ㋏߫Ⳍ݇ᑣ߫㒘៤ⱘ䲚ড়ϞˈᇚӮ䖯㸠ϔ㋏߫ⱘ↨ᇍˈড ↨ᇍˈⳈࠄ↨ᇍϡݡᬍDŽ䖭ᯊˈᇚӮ䖯㸠ϟϔ䕂ⱘ᭄ᑧ᧰㋶ˈᑨ⫼Ϟϔ䕂ⱘ᳔Շ↨ᇍˈ ᇏᡒϞϔ䕂Ё㹿ᗑ⬹ⱘⳌ݇ᑣ߫DŽPROBEᑣড᪡䖭ϔ䖛ˈⳈࠄ᧰㋶ᬊᬯЎℶDŽ PROBEMoSTП䯈ⱘϔϾᕜ䞡㽕ⱘऎ߿ህѢPROBE᧰㋶ᓔྟᯊা䳔㽕ϔϾᑣ߫ЎĀ⾡ ᄤāˈेՓৃҹՓ⫼ϔϾᆊᮣⱘᑣ߫ˈ㗠MoSTᑣЁˈᖙ乏䕧ܹϔϾ乘ޚܜདⱘϡࣙ ぎԡⱘ↨ᇍDŽЎ᮴⊩ֱ䆕⫼ᴎ఼ᇏᡒࠄⱘ↨ᇍ↨Ꮉⱘ↨ᇍ䋼䞣㽕ད˄ᕜᯊᙄᙄⳌ ড˅ˈ䖯㸠MoST᧰㋶ᯊᖙ✊ӮᨎᏺᎹ䅵ㅫ↨ᇍᯊⱘԡ⚍أ㋴DŽMoSTPROBE໘⧚䕧ܹ ⱘᮍ⊩ᰃϡϔḋⱘˈMoSTϔᖙ乏໘⧚ϔϾ↨ᇍഫˈ㗠PROBEᣝ✻ড᧰㋶Ёⱘথ⦄ᡞ䕧ܹᑣ ߫ߚ៤Ͼഫˈ䖭䞠ˈ⫼᠋㽕އᅮᰃ৺㓈ᣕഫⱘᅠᭈҹঞഫᰃ৺ৃҹ䖯ϔℹߚ៤ᇣⱘ㒘 ៤ऩԡˈއߎᅮᯊ᳔དձᅗӀⱘ⫳⠽ᄺࡳ㛑DŽ᳔ৢˈMoSTᰃϔϾ䋾ှⱘㅫ⊩ˈϟϔ䕂᧰ ㋶Ёথ⦄ⱘᮄᑣ߫ϔᮺࡴܹህϡӮ㹿ࠨ䰸ˈѢᰃϔϾ㰮؛ⱘऍ䜡ᕜৃ㛑ϟᴹⱘ᧰㋶Ёϡ ᮁ㫧ᓊˈᕜৃ㛑ᓩܹⱘ㰮؛ऍ䜡˗㗠PROBEՓ⫼ϔϾ“jack knife”ⱘᑣӮ㞾ࡼ⍜䰸䖭 ḋϡⳌ݇ⱘᑣ߫ˈህᰃ䇈ˈᅮⱘ㰮؛ऍ䜡Ӯ㹿Ң᭄Ёপ⍜ˈ✊ৢ䞡ᮄ᧰㋶᭄ᑧˈབᵰ 䖭Ͼᑣ߫⹂ᅲⳌ݇ⱘ䆱ˈᅗӮҹৢ䞡ᮄ㹿ࡴܹࠄ᭄ЁএDŽ ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ7/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,8/11 PROBE程序的UNX发行版本的命令行采用这个形式 probe fastafi e database -S [options]>outfile 在这里, fastafile是进行搜索的种子序列文件,采用 FASTA格式存储; database是要搜索的 目标数据库;跟在-s标志后面的数字是进行搜索的随机种子,然后是打分阈值选项,可以是 任意一个数字,再后面是返回序列的最大数目,等等。程序执行一次需要相当长的时间,但 是得到的输出结果是相当值得的。图8.6显示了一个 PROBE得到的输出文件,种子序列是 amphoterin,一种和高度流动组蛋白(HMG-1)相关的DNA-捆绑蛋白;最后找到了两个块,共 包含50多个残基,每个块都是PR0BE用统计学计算出来的最佳比对。对于每个序列,属于块部 分的序列残基数目都被显示出来,后面跟着 标记符以及这个条目的统计值。 PROBE产生 的输出文件包含残基频率信息,以及内容信息,统计信息和” j ack kni fe”程序剔除的序列 列表。 演示方法 上述的比对方法对于寻找最佳比对这一点都很严格,但是它们的输出结果的阅读质量都不是 太好,所以有必要从这些程序中得到输出结果,然后把结果输出到另外一些软件中去,使得 多序列比对的结果可读性更好一些。这些演示方法通常都会让使用者更加容易地识别所有序 列中精巧的序列样式,比通常显示的“一致序列”效果还好 MacBoxShade MacBox shade(或者简写为 MacBox),是WS/UNX应用程序 Box Shade的一个 Maci tosh版本, 它提供一个很简单的机制使得多序列比对结果形成一定的格式。 MacBox只能读 GCG MSF格式的 比对文件,所以必须用其他程序(例如 ReadSeq)把序列文件转化为它可以阅读的形式。虽然 只支持一种输入格式,但是再输出上就有较多的选项了:这包括 PostScri pt,支。虽然 PostScri pt打印机或者用 PostScri pt形式浏览;还有PCT,缺省的 Maci ntos格式,可以输入 到字处理或者图形处理软件中去。通过大量的简单对话框,用户可以指定色彩方案,给残基 记数的形式,以及与计算一致序列有关的选项。 Sims和 Groups是两个重要的对话框,控制了如何计算一致序列,两者的区别很细微但是十分 重要。Sims对话框定义了什么样的残基之间相互相似,并且关系并非相反; Groups.对话框允 许确认离散的群体,再这些群体中,所有同一个群体中的残基都认为是相同的,就是说,如 果一个群体被定义为拥有 I ysi ne, argi ni ne和 hist di ne,那么在一个比对中给定位点出现任 何一个这样的残基都会被认为是匹配的。检测这两个对话框十分重要,因为用户希望用缺省 值计算一致序列。 为了描述 MacBox的使用,一定量的组蛋白H1序列和从酵母中得到的H1经过比对,并且被转化 为MSF格式,这个MSF序列文件被 MacBox打开,并且要求程序通过普通对话框打印一致序列 还是在同一个对话框中,显示一致序列的方法被改为BLU,意思是在一个给定位点,非保守位 点用空格( bl ank)表示,保守残基用小写字母表示,相同残基用大写字母表示。要真正运行 比对程序,可以从“Doit!”下拉菜单中选择“ Di spl ay PICT",会产生如图8.7的窗口 致序列的表示法可以在普通对话框中改变成用户期望的形式。用户可以不象这里所作的根 据所有序列的相似性留下阴影的形式,而是可以指定比对中的一个单个序列,然后根据其他 序列同这个序列相似性的程度留下阴影。 对于没有 Maci tosh或者UNX机器的用户来说,原始的 BoxShade程序可以通过互联网访问,通 过下拉菜单而不是上述的对话框。当然,那样是不可能选择色彩方案或者选择如何显示一个 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
PROBEᑣⱘUNIXথ㸠⠜ᴀⱘੑҸ㸠䞛⫼䖭Ͼᔶᓣ˖ probe fastafile database –s [options] > outfile 䖭䞠ˈfastafileᰃ䖯㸠᧰㋶ⱘ⾡ᄤᑣ߫᭛ӊˈ䞛⫼FASTAḐᓣᄬټ˗databaseᰃ㽕᧰㋶ⱘ Ⳃ᭄ᷛᑧ˗䎳-sᷛᖫৢ䴶ⱘ᭄ᄫᰃ䖯㸠᧰㋶ⱘ䱣ᴎ⾡ᄤˈ✊ৢᰃᠧߚ䯜ؐ䗝乍ˈৃҹᰃ ӏᛣϔϾ᭄ᄫˈݡৢ䴶ᰃ䖨ಲᑣ߫ⱘ᳔᭄ⳂˈㄝㄝDŽᑣᠻ㸠ϔ䳔㽕Ⳍᔧ䭓ⱘᯊ䯈ˈԚ ᰃᕫࠄⱘ䕧ߎ㒧ᵰᰃⳌᔧؐᕫⱘDŽ8.6ᰒ⼎њϔϾPROBEᕫࠄⱘ䕧ߎ᭛ӊˈ⾡ᄤᑣ߫ᰃ amphoterinˈϔ⾡催ᑺ⌕ࡼ㒘㲟ⱑ˄HMG-1˅Ⳍ݇ⱘDNA-ᤚ㒥㲟ⱑ˗᳔ৢᡒࠄњϸϾഫˈ݅ ࣙ50Ͼ⅟ˈ↣Ͼഫ䛑ᰃPROBE⫼㒳䅵ᄺ䅵ㅫߎᴹⱘ᳔Շ↨ᇍDŽᇍѢ↣Ͼᑣ߫ˈሲѢഫ䚼 ߚⱘᑣ߫⅟᭄Ⳃ䛑㹿ᰒ⼎ߎᴹˈৢ䴶䎳ⴔϔϾgiᷛ䆄ヺҹঞ䖭ϾᴵⳂⱘ㒳䅵ؐDŽPROBEѻ⫳ ⱘ䕧ߎ᭛ӊࣙ1/乥⥛ֵᙃˈҹঞݙᆍֵᙃˈ㒳䅵ֵᙃ”jack knife”ᑣࠨ䰸ⱘᑣ߫ ߫㸼DŽ ⓨ⼎ᮍ⊩ Ϟ䗄ⱘ↨ᇍᮍ⊩ᇍѢᇏᡒ᳔Շ↨ᇍ䖭ϔ⚍䛑ᕜϹḐˈԚᰃᅗӀⱘ䕧ߎ㒧ᵰⱘ䯙䇏䋼䞣䛑ϡᰃ དˈ᠔ҹ᳝ᖙ㽕Ң䖭ѯᑣЁᕫࠄ䕧ߎ㒧ᵰˈ✊ৢᡞ㒧ᵰ䕧ࠄߎϔѯ䕃ӊЁএˈՓᕫ ᑣ߫↨ᇍⱘ㒧ᵰৃ䇏ᗻདϔѯDŽ䖭ѯⓨ⼎ᮍ⊩䗮ᐌ䛑Ӯ䅽Փ⫼㗙ࡴᆍᯧഄ䆚߿᠔᳝ᑣ ߫Ё㊒Ꮋⱘᑣ߫ḋᓣˈ↨䗮ᐌᰒ⼎ⱘĀϔ㟈ᑣ߫āᬜᵰ䖬དDŽ MacBoxShade MacBoxShade˄㗙ㅔݭЎMacBox˅ˈᰃVMS/UNIXᑨ⫼ᑣBoxShadeⱘϔϾMacintosh⠜ᴀˈ ᅗᦤկϔϾᕜㅔऩⱘᴎࠊՓᕫᑣ߫↨ᇍ㒧ᵰᔶ៤ϔᅮⱘḐᓣDŽMacBoxা㛑䇏GCG MSFḐᓣⱘ ↨ᇍ᭛ӊˈ᠔ҹᖙ乏⫼݊Ҫᑣ˄՟བReadSeq˅ᡞᑣ߫᭛ӊ䕀࣪Ўᅗৃҹ䯙䇏ⱘᔶᓣDŽ㱑✊ াᬃᣕϔ⾡䕧ܹḐᓣˈԚᰃݡ䕧ߎϞህ᳝䕗ⱘ䗝乍њ˖䖭ࣙᣀPostScriptˈᬃᣕ PostScriptᠧॄᴎ㗙⫼PostScriptᔶᓣ⌣㾜˗䖬᳝PICTˈ㔎ⳕⱘMacintoshḐᓣˈৃҹ䕧ܹ ࠄᄫ໘⧚㗙ᔶ໘⧚䕃ӊЁএDŽ䗮䖛䞣ⱘㅔऩᇍ䆱Ḛˈ⫼᠋ৃҹᣛᅮ㡆ᔽᮍḜˈ㒭⅟ 䆄᭄ⱘᔶᓣˈҹঞϢ䅵ㅫϔ㟈ᑣ᳝߫݇ⱘ䗝乍DŽ SimsGroupsᰃϸϾ䞡㽕ⱘᇍ䆱Ḛˈࠊњབԩ䅵ㅫϔ㟈ᑣ߫ˈϸ㗙ⱘऎ߿ᕜ㒚ᖂԚᰃकߚ 䞡㽕DŽSimsᇍ䆱ḚᅮНњҔМḋⱘ⅟П䯈ⳌѦⳌԐˈᑊϨ݇㋏ᑊ䴲Ⳍড˗Groupsᇍ䆱Ḛܕ 䆌⹂䅸⾏ᬷⱘ㕸ԧˈݡ䖭ѯ㕸ԧЁˈ᠔᳝ৠϔϾ㕸ԧЁⱘ⅟䛑䅸ЎᰃⳌৠⱘˈህᰃ䇈ˈབ ᵰϔϾ㕸ԧ㹿ᅮНЎᢹ᳝lysineˈargininehistidineˈ䙷МϔϾ↨ᇍЁ㒭ᅮԡ⚍ߎ⦃ӏ ԩϔϾ䖭ḋⱘ⅟䛑Ӯ㹿䅸Ўᰃऍ䜡ⱘDŽẔ⌟䖭ϸϾᇍ䆱Ḛकߚ䞡㽕ˈЎ⫼᠋Ꮰᳯ⫼㔎ⳕ ؐ䅵ㅫϔ㟈ᑣ߫DŽ Ўњᦣ䗄MacBoxⱘՓ⫼ˈϔᅮ䞣ⱘ㒘㲟ⱑH1ᑣ߫Ң䝉↡ЁᕫࠄⱘH1㒣䖛↨ᇍˈᑊϨ㹿䕀࣪ ЎMSFḐᓣˈ䖭ϾMSFᑣ߫᭛ӊ㹿MacBoxᠧᓔˈᑊϨ㽕∖ᑣ䗮䖛᱂䗮ᇍ䆱Ḛᠧॄϔ㟈ᑣ߫DŽ 䖬ᰃৠϔϾᇍ䆱ḚЁˈᰒ⼎ϔ㟈ᑣ߫ⱘᮍ⊩㹿ᬍЎBLUˈᛣᗱᰃϔϾ㒭ᅮԡ⚍ˈ䴲ֱᅜԡ ⚍⫼ぎḐ˄blank˅㸼⼎ˈֱᅜ⅟⫼ᇣݭᄫ↡㸼⼎ˈⳌৠ⅟⫼ݭᄫ↡㸼⼎DŽ㽕ⳳℷ䖤㸠 ↨ᇍᑣˈৃҹҢ“Do itʽāϟᢝ㦰ऩЁ䗝ᢽ“Display PICT”ˈӮѻ⫳བ8.7ⱘにষˈ ϔ㟈ᑣ߫ⱘ㸼⼎⊩ৃҹ᱂䗮ᇍ䆱ḚЁᬍব៤⫼᠋ᳳᳯⱘᔶᓣDŽ⫼᠋ৃҹϡ䈵䖭䞠᠔ⱘḍ ᠔᳝ᑣ߫ⱘⳌԐᗻ⬭ϟ䰈ᕅⱘᔶᓣˈ㗠ᰃৃҹᣛᅮ↨ᇍЁⱘϔϾऩϾᑣ߫ˈ✊ৢḍ݊Ҫ ᑣ߫ৠ䖭Ͼᑣ߫ⳌԐᗻⱘᑺ⬭ϟ䰈ᕅDŽ ᇍѢ≵᳝Macintosh㗙UNIXᴎ఼ⱘ⫼᠋ᴹ䇈ˈॳྟⱘBoxShadeᑣৃҹ䗮䖛Ѧ㘨㔥䆓䯂ˈ䗮 䖛ϟᢝ㦰ऩ㗠ϡᰃϞ䗄ⱘᇍ䆱ḚDŽᔧ✊ˈ䙷ḋᰃϡৃ㛑䗝ᢽ㡆ᔽᮍḜ㗙䗝ᢽབԩᰒ⼎ϔϾ ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ8/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,9/11 致序列了,但是可以指定一致序列基于字母还是符号 ALSCRI PT ALSCRIPT是一个基于UNX或者PC机平台的程序,它可以灵活地把多序列比对的输出结果格式 化为 PostScri p格式,然后比对就可以在 Postscri p打印机上打印或者用 PostScri pt浏览。 ALSCRIPT的输入必须是如下三种格式之一:一个块文件, CLUSTAL W格式或者GCG格式;使用 CLUS2BLC和MSF2BLC程序可以把其他格式转化为 ALSCRIPT可以阅读的格式,这两个程序都在 ALSCRIPT程序包中。 ALSCRIPT在报告比对时提供了很好的灵活性:用户可以指定字体,部分 比对的方框,选择阴影,增加文本识别,增加符号和行数以及颜色的选择。虽然 ALSCRIPT本 身不能产生或者编辑比对,但是它可以计算出一致序列并且用适当的方式显示匹配于一致序 列的残基。正确使用程序可以揭示序列中的某些特征,比如电荷分布或者序列信号。 图8.8显示了一个 ALSCRIPT命令文件格式的例子,命令文件被分解为两个逻辑部分,称为步骤 1和步骤2。步骤1(step1)命令控制了比对的总体面貌:字体型号,字体大小,记录定向以 及颜色定义等等,步骤1还给出了输入文件(BL0 CK FILE,块文件)的位置以及比对输出的写 入文件(OUT_FLE,输出文件)。步骤2(Step2)与比对的特定部分有关,比如改变同每 个序列相邻的标号,给特定的残基或者区域打上方框或阴影,给比对标上注释以及计算一致 序列。所有这些例子都显示在图8.8中。注意那些注释行(行前标记为#),它们简单地介绍 了每一个代码块的作用,这些代码都是由普通的大多数命令都使用的语法写的。跟在 B0XREG0N命令后面的四个数字显示序列中哪些区域被召集,在这里,第一个BOX_REG|ON命 令后面是63158,意思是从第三个序列的第六个残基开始到第八个序列的第十五个残基扌 上方框。写好的文件可以直接被 ALSCR|PT使用,这些文件可以从网上得到,也可以由发布的 UN|X版本自带 ALSCR|PT和 MacBox shade使用的序列例子是一样的,但是程序本质上是不一样的,报告序列也 是不一样的,图8.7和8.9的区别是很明显的。怎样评估和权衡十分容易: MacBox Shade比较容 易使用,因为所有因素都是对话框形式的,但是选项有限:而 ALSCRIPT提供了更多的输出选 项,但是正如显示的命令文件,学习怎样指定输出的格式需要一定的时间作为代价。实际 上, ALSCRIPT命令文件可以由模式组成,这些模式使用于一个比对到另一个比对,只要用户 对数字作必要的修改,这是一个很专业的产出结果。怎样选择比对格式工具依赖于用户的最 终应用需要�是要进行迅速地浏览观测还是要得到拥有出版质量的图形。 第八章中涉及到的有关课题的互联网地址: 比对方法 HTTP网址 Cal i gnment method) Clustal w http://www2.ebi.ac.uk/culstalw/ http://www.ibc.wustle.edu/ibc/msa.html Mul talin http://www.toulouseinrafr/cgi-bin/multalin.pl 模体和样式HP网址 (moti fs and file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
ϔ㟈ᑣ߫њˈԚᰃৃҹᣛᅮϔ㟈ᑣ߫Ѣᄫ↡䖬ᰃヺোDŽ ALSCRIPT ALSCRIPTᰃϔϾѢUNIX㗙PCᴎᑇৄⱘᑣˈᅗৃҹ♉⌏ഄᡞᑣ߫↨ᇍⱘ䕧ߎ㒧ᵰḐᓣ ࣪ЎPostScriptḐᓣˈ✊ৢ↨ᇍህৃҹPostScriptᠧॄᴎϞᠧॄ㗙⫼PostScript⌣㾜DŽ ALSCRIPTⱘ䕧ܹᖙ乏ᰃབϟϝ⾡ḐᓣПϔ˖ϔϾഫ᭛ӊˈCLUSTAL WḐᓣ㗙GCGḐᓣ˗Փ⫼ CLUS2BLCMSF2BLCᑣৃҹᡞ݊ҪḐᓣ䕀࣪ЎALSCRIPTৃҹ䯙䇏ⱘḐᓣˈ䖭ϸϾᑣ䛑 ALSCRIPTᑣࣙЁDŽALSCRIPTਞ↨ᇍᯊᦤկњᕜདⱘ♉⌏ᗻ˖⫼᠋ৃҹᣛᅮᄫԧˈ䚼ߚ ↨ᇍⱘᮍḚˈ䗝ᢽ䰈ᕅˈࡴ᭛ᴀ䆚߿ˈࡴヺো㸠᭄ҹঞ买㡆ⱘ䗝ᢽDŽ㱑✊ALSCRIPTᴀ 䑿ϡ㛑ѻ⫳㗙㓪䕥↨ᇍˈԚᰃᅗৃҹ䅵ㅫߎϔ㟈ᑣ߫ᑊϨ⫼䗖ᔧⱘᮍᓣᰒ⼎ऍ䜡Ѣϔ㟈ᑣ ߫ⱘ⅟DŽℷ⹂Փ⫼ᑣৃҹᧁ⼎ᑣ߫Ёⱘᶤѯ⡍ᕕˈ↨བ⬉㥋ߚᏗ㗙ᑣֵ߫োDŽ 8.8ᰒ⼎њϔϾALSCRIPTੑҸ᭛ӊḐᓣⱘ՟ᄤˈੑҸ᭛ӊ㹿ߚ㾷ЎϸϾ䘏䕥䚼ߚ鹵ˈЎℹ偸 ℹ偸DŽℹ偸˄Step1˅ੑҸࠊњ↨ᇍⱘᘏԧ䴶䉠˖ᄫԧൟোˈᄫԧᇣˈ䆄ᔩᅮҹ ঞ买㡆ᅮНㄝㄝˈℹ偸䖬㒭ߎњ䕧ܹ᭛ӊ˄BLOCK_FILE, ഫ᭛ӊ˅ⱘԡ㕂ҹঞ↨ᇍ䕧ߎⱘݭ ܹ᭛ӊ˄OUT_FILE, 䕧ߎ᭛ӊ˅DŽℹ偸2 (Step2) Ϣ↨ᇍⱘ⡍ᅮ䚼ߚ↨ˈ᳝݇བᬍবৠ↣ϔ Ͼᑣ߫Ⳍ䚏ⱘᷛোˈ㒭⡍ᅮⱘ⅟㗙ऎඳᠧϞᮍḚ䰈ᕅˈ㒭↨ᇍᷛϞ⊼䞞ҹঞ䅵ㅫϔ㟈 ᑣ߫DŽ᠔᳝䖭ѯ՟ᄤ䛑ᰒ⼎8.8ЁDŽ⊼ᛣ䙷ѯ⊼䞞㸠˄㸠ࠡᷛ䆄Ў˅ˈᅗӀㅔऩഄҟ㒡 њ↣ϔϾҷⷕഫⱘ⫼ˈ䖭ѯҷⷕ䛑ᰃ⬅᱂䗮ⱘ᭄ੑҸ䛑Փ⫼ⱘ䇁⊩ݭⱘDŽ䎳 BOX_REGIONੑҸৢ䴶ⱘಯϾ᭄ᄫᰒ⼎ᑣ߫Ёાѯऎඳ㹿ী䲚ˈ䖭䞠ˈϔϾBOX_REGIONੑ Ҹৢ䴶ᰃ6 3 15 8ˈᛣᗱᰃҢϝϾᑣ߫ⱘ݁Ͼ⅟ᓔྟࠄܿϾᑣ߫ⱘकѨϾ⅟ᠧ ϞᮍḚDŽݭདⱘ᭛ӊৃҹⳈ㹿ALSCRIPTՓ⫼ˈ䖭ѯ᭛ӊৃҹҢ㔥Ϟᕫࠄˈгৃҹ⬅থᏗⱘ UNIX⠜ᴀ㞾ᏺDŽ ALSCRIPTMacBoxShadeՓ⫼ⱘᑣ߫՟ᄤᰃϔḋⱘˈԚᰃᑣᴀ䋼Ϟᰃϡϔḋⱘˈਞᑣ߫г ᰃϡϔḋⱘˈ8.78.9ⱘऎ߿ᰃᕜᯢᰒⱘDŽᗢḋ䆘Ԅᴗ㸵कߚᆍᯧ˖MacBoxShade↨䕗ᆍ ᯧՓ⫼ˈЎ᠔᳝㋴䛑ᰃᇍ䆱ḚᔶᓣⱘˈԚᰃ䗝乍᳝䰤˗㗠ALSCRIPTᦤկњⱘ䕧ߎ䗝 乍ˈԚᰃℷབᰒ⼎ⱘੑҸ᭛ӊˈᄺдᗢḋᣛᅮ䕧ߎⱘḐᓣ䳔㽕ϔᅮⱘᯊ䯈ЎҷӋDŽᅲ䰙 ϞˈALSCRIPTੑҸ᭛ӊৃҹ⬅ᓣ㒘៤ˈ䖭ѯᓣՓ⫼ѢϔϾ↨ᇍࠄϔϾ↨ᇍˈা㽕⫼᠋ ᇍ᭄ᄫᖙ㽕ⱘׂᬍˈ䖭ᰃϔϾᕜϧϮⱘѻߎ㒧ᵰDŽᗢḋ䗝ᢽ↨ᇍḐᓣᎹձ䌪Ѣ⫼᠋ⱘ᳔ 㒜ᑨ⫼䳔㽕�ᰃ㽕䖯㸠䖙䗳ഄ⌣㾜㾖⌟䖬ᰃ㽕ᕫࠄᢹ᳝ߎ⠜䋼䞣ⱘᔶDŽ ܿゴЁ⍝ঞࠄⱘ᳝݇䇒乬ⱘѦ㘨㔥ഄഔ˖ ↨ᇍᮍ⊩ ˄alignment method˅ HTTP㔥ഔ Clustal W http://www2.ebi.ac.uk/culstalw/ MSA http://www.ibc.wustle.edu/ibc/msa.html MultAlin http://www.toulouse.inra.fr/cgi-bin/multalin.pl ԧḋᓣ (motifs and HTTP㔥ഔ ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ9/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第八章多序列比对的实际应用 页码,10 patterns) BLOCKS http://blocks.fhcrc.org MOst http://ncbi.nlm.nih.gov/pub/koonin/most/ Pfam http://www.sanGer.ac.uk/software/pfam PROSITE http://expasy.hcuge.ch/sprot/prosite.html PROBE ftp: //ncbi nl m ni h. gov/pub/neuwal d/probel. 0/ 演示方法 HTTP网址 (presentation methods) ALSCRIPT http://geoff.biop.Ox.ac.uk/manuals/alscript/alscripthtml BoX Shade http://ulrec3.uniI.ch/software/b0xformhtml MacBoxShade ftp: //ul rec3 uni I. ch/pub/boxshade/MacBoXshade 转换效用 HTTP网址 (conversi on uti li ti es) ReadSea http://dot.imgen.bcmtmcedu9331/seq util/Options/readseq. html 参考文献 i roch. A.(1997). The PROSI TE database: Its staus in 1997. Nucl. Aci ds. Res. 25 217-221 Barton. G.(1993). ALSCRIPT. a tool to format mul ti pl e sequence al i gnment. protein Ena.6.37-40 Corpet F.(1988). Mul ti pl e sequence al i gnment wi th hierarchi cal cl usteri ng Nuc|. Aci ds.Res.16.10881-10890 Gri bskov. M., McLachl an. A.., and Ei seberg D. (1987). Profi le anal ysi s: Detection file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18
খ㗗᭛⤂˖ Bairoch.A. (1997). The PROSITE database: Its staus in 1997. Nucl.Acids.Res. 25. 217-221. Barton.G. (1993). ALSCRIPT. a tool to format multiple sequence alignment. Protein Eng. 6. 37-40. Corpet.F. (1988). Multiple sequence alignment with hierarchical clustering. Nucl.Acids.Res. 16. 10881-10890. Gribskov.M.., McLachlan.A.., and Eisenberg.D. (1987). Profile analysis: Detection patterns) BLOCKS http://blocks.fhcrc.org MoST http://ncbi.nlm.nih.gov/pub/koonin/most/ Pfam http://www.sanger.ac.uk/Software/Pfam PROSITE http://expasy.hcuge.ch/sprot/prosite.html PROBE ftp://ncbi.nlm.nih.gov/pub/neuwald/probel.0/ ⓨ⼎ᮍ⊩ (presentation methods) HTTP㔥ഔ ALSCRIPT http://geoff.biop.ox.ac.uk/manuals/alscript/alscript.html BoxShade http://ulrec3.unil.ch/software/BOX_form.html MacBoxShade ftp://ulrec3.unil.ch/pub/boxshade/MacBoxshade 䕀ᤶᬜ⫼ (conversion utilities) HTTP㔥ഔ ReadSeq http://dot.imgen.bcm.tmc.edu:9331/sequtil/Options/readseq.html ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ10/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ܿゴᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com