《生物信息学》课程教学资源（中译本）第八章多序列比对的实际应用

在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。

团购合买资源类别：文库，文档格式：PDF，文档页数：11，文件大小：166.26KB

第八章多序列比对的实际应用页码,1/ 第八章多序列比对的实际应用 Andreas d Baxevanis Genome Technology Branch National human genome research /nsti tude Nationa nsti tutes of heal th Bethesda Maryl and 在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对( progress/vea/! gnment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。渐进比对方法 CLUSTAL W CLUSTAL算算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列 Bioinformatics: A Practical Gui de to the Anal ysis of genes and Proteins Edi ted by A D. Baxevani s and B.E. E. Ouel lette I SBN 0-471-191965. pages 172-188. Copyri ght c 1998 Wiley Li ss. Inc file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18

㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ Andreas D.Baxevanis Genome Technology Branch National Human Genome Research Institude National Institutes of Health Bethesda.Maryland ೼ᇏᡒ෎಴੠㟈࡯Ѣথ⦄ᮄ㲟ⱑⱘ࡯ࡾЁˈҎӀдᛃѢᡞᮄⱘᑣ߫ৠᏆⶹࡳ㛑ⱘ㲟ⱑᑣ߫԰ ↨ᇍǄ⬅Ѣ䖭ѯ↨ᇍ䗮ᐌ䛑Ꮰᳯ㛑໳᥼⌟ᮄ㲟ⱑⱘࡳ㛑ˈϡㅵᅗӀᰃঠ䞡↨ᇍ䖬ᰃ໮ᑣ߫↨ ᇍˈ䛑ৃҹಲㄨ໻䞣ⱘ݊ᅗⱘ⫳⠽ᄺ䯂乬ǄВ՟ᴹ䇈ˈ䴶ᇍϔේ᧰䲚ⱘ↨ᇍᑣ߫ˈҎӀӮⷨ お䱤৿Ѣ㲟ⱑПЁⱘ㋏㒳থ⫳ⱘ݇㋏ˈҹ֓Ѣ᳈དഄ⧚㾷㲟ⱑⱘ䖯࣪ǄҎӀᑊϡাᰃⴔⴐѢ ᶤϔϾ㲟ⱑˈ㗠ᰃⷨおϔϾᆊᮣЁⱘⳌ݇㲟ⱑˈⳟⳟ䖯࣪य़࡯⫳੠⠽⾽ᑣབԩ㒧ড়䍋ᴹ߯䗴 ߎᮄⱘ݋᳝㱑✊ϡৠԚᰃࡳ㛑Ⳍ݇ⱘ㲟ⱑǄⷨおᅠ໮ᑣ߫↨ᇍЁⱘ催ᑺֱᅜऎඳˈ៥Ӏৃҹ ᇍ㲟ⱑ䋼ⱘᭈϾ㒧ᵘ䖯㸠乘⌟ˈᑊϨ⣰⌟䖭ѯֱᅜऎඳᇍѢ㓈ᣕϝ㓈㒧ᵘⱘ䞡㽕ᗻǄ ᰒ✊ˈߚᵤϔ㕸Ⳍ݇㲟ⱑ䋼ᯊˈᕜ᳝ᖙ㽕њ㾷↨ᇍⱘℷ⹂ᵘ៤Ǆথሩ⫼Ѣ໮ᑣ߫↨ᇍⱘ⿟ᑣ ᰃϔϾᕜ᳝⌏࡯ⱘⷨお乚ඳˈ㒱໻໮᭄ᮍ⊩䛑ᰃ෎Ѣ⏤䖯↨ᇍ˄progressive alignment˅ⱘ ὖᗉǄ⏤䖯↨ᇍⱘᗱᛇձ䌪ѢՓ⫼㗙⫼԰↨ᇍⱘ㲟ⱑ䋼ᑣ߫П䯈⹂ᅲᄬ೼ⱘ⫳⠽ᄺϞⱘ៪㗙 ᳈ޚഄ⹂䇈ᰃ㋏㒳থ⫳ᄺϞⱘⳌѦ݇㘨Ǆϡৠㅫ⊩Ңϡৠᮍ䴶㾷އ䖭ϔ䯂乬ˈԚᰃᔧ↨ᇍⱘ ᑣ߫໻໻ഄ䍙䖛ϸϾᯊ˄ঠ䞡↨ᇍ˅ˈᇍѢ䅵ㅫⱘᣥ៬ህӮᕜҸҎ⫳⬣Ǆ೼ᅲ䰙᪡԰Ёˈㅫ ⊩Ӯ೼䅵ㅫ䗳ᑺ੠㦋ᕫ᳔Շ↨ᇍП䯈ᇏ∖ᑇ㸵ˈᐌᐌӮ᥹ফ䎇໳Ⳍ䖥ⱘ↨ᇍǄϡㅵ᳔㒜Փ⫼ ⱘᰃҔМᮍ⊩ˈՓ⫼㗙䛑ᖙ乏ᅵ㾚㒧ᵰⱘ↨ᇍˈ಴Ўݡ⸔෎⃵Ϟ԰ϔѯ᠟Ꮉׂᬍᰃकߚᖙ㽕 ⱘˈᇸ݊ᰃᇍֱᅜⱘऎඳǄ ⬅Ѣᴀкأ䞡Ѣᮍ⊩㗠ϡᰃॳ⧚ˈ䖭䞠া䅼䆎ϔᇣ䚼ߚ⦃៤ⱘ⿟ᑣǄ៥ӀҢϸϾ໮ᑣ߫↨ᇍ ⱘᮍ⊩ᓔྟˈ᥹ϟএᰃϔ㋏߫ⱘ߽⫼㲟ⱑ䋼ᆊᮣЁᏆⶹⱘ῵ԧ៪ᰃᓣḋⱘᮍ⊩ˈ᳔ৢ䅼䆎ϸ Ͼ݋᳝䌴䗕ⱘᮍ⊩ˈ಴Ў㒱໻໮᭄݀ᓔⱘㅫ⊩ϡ㛑䖒ߎࠄ⠜⠽ⱘ᭄䞣Ǆ೼ᴀゴ㒧ሒ䚼ߚᇚӮ ߫ߎ᳈䆺㒚ⱘ໮ᑣ߫↨ᇍⱘㅫ⊩Ǆ ⏤䖯↨ᇍᮍ⊩ CLUSTAL W CLUSTAL Wㅫ⊩ᰃϔϾ᳔ᑓ⊯Փ⫼ⱘ໮ᑣ߫↨ᇍ⿟ᑣˈ೼ӏԩЏ㽕ⱘ䅵ㅫᴎᑇৄϞ䛑ৃҹܡ䌍 Փ⫼Ǆ䖭Ͼ⿟ᑣ෎Ѣ⏤䖯↨ᇍⱘᗱᛇˈᕫࠄϔ㋏߫ᑣ߫ⱘ䕧ܹˈᇍѢ↣ϸϾᑣ߫䖯㸠ঠ䞡↨ ᇍᑊϨ䅵ㅫ㒧ᵰǄ෎Ѣ䖭ѯ↨䕗ˈ䅵ㅫᕫࠄϔϾ䎱⾏ⶽ䰉ˈড᯴њ↣ᇍᑣ߫ Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright © 1998 Wiley – Liss. Inc. ㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ1/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第八章多序列比对的实际应用页码,2/11 的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。这个辅助树,加权后可以证实极相近的序列,然后以双重比对极相近的序列开始,为组建比对提供基础,然后重新比对下一个加入的比对,依次类推。如果加入的序列较多,那么毫无疑问,必须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。在绝大多数情况下,使用者不会在比对时加入结构信息,但是空位开放补偿利用了可以出现在a 螺旋或β-折叠末端的特殊残基以及空位罚分所偏好的残基,众所周知,这些残基更喜欢显示这个特异性。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,这些空位扩展罚分计算是有位置决定的为了介绍基于UNX平台的 CLUSTAL W的使用,考虑一下从四种不同物种来源的UA蛋白(人类,鼠,Ⅹ enopus I nevis和果蝇)。这四种输入序列放在一个单独的文件中,作成六种可以接受的格式中的一种,然后在UNX提示符下执行 clustal w,用户必须执行命令才会看见主菜单大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大太杰 CLUSTAL W(1.60) Mul ti pl e Sequence A| i gnments*水大大大大大大大大大大大大大大大大大大大大大大大大大大大大★大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大大 1. Sequence Input From Di sc 2. Mul ti pl e Al i gnments 3. Profile/ structure al i gnments 4. Phyl ogenetic trees S. Execute a system command H. HELP X. EXIT (I eave program) Your choi ce: 1 选择菜单中的选项1( Sequence Input From Di sc)以输入要比对的序列,选择1后会出现序列输入菜单 Sequences should al l be in 1 ti tle 6 formats accepted NBRF PIR, EMBl, Swi ssProt, Peat son(Fasta), GDE, Cl ustal, GCG MSF Enter the name of the sequence file: UIA segs 系统会提示用户有六种可以接受的格式,然后会提问输入序列的文件名,在这里序列输入文 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18

ⱘ݇㋏ˈѢᰃˈ෎Ѣ䚏䖥ࡴܹᮍ⊩ˈ䖭Ͼⶽ䰉㹿⫼ᴹ䅵ㅫߎϔϾ㋏㒳থ⫳䕙ࡽᷥǄ䖭Ͼ䕙ࡽ ᷥˈࡴᴗৢৃҹ䆕ᅲᵕⳌ䖥ⱘᑣ߫ˈ✊ৢҹঠ䞡↨ᇍᵕⳌ䖥ⱘᑣ߫ᓔྟˈЎ㒘ᓎ↨ᇍᦤկ෎ ⸔ˈ✊ৢ䞡ᮄ↨ᇍϟϔϾࡴܹⱘ↨ᇍˈձ⃵㉏᥼Ǆབᵰࡴܹⱘᑣ߫䕗໮ˈ䙷М↿᮴⭥䯂ˈᖙ 乏ࡴܹぎԡҹ䗖ᑨᑣ߫ⱘᏂᓖˈԚᰃࡴܹぎԡᖙ乏᥹ফぎԡᓔᬒ㔮ߚ੠ぎԡᠽሩ㔮ߚǄ೼㒱 ໻໮᭄ᚙމϟˈՓ⫼㗙ϡӮ೼↨ᇍᯊࡴܹ㒧ᵘֵᙃˈԚᰃぎԡᓔᬒ㸹߽ٓ⫼њৃҹߎ೼⦃Į- 㶎ᮟ៪ȕᡬ঴᳿ッⱘ⡍⅞⅟෎ҹঞぎԡ㔮ߚ᠔أདⱘ⅟෎ˈӫ᠔਼ⶹˈ䖭ѯ⅟෎᳈୰⃶ᰒ⼎䖭Ͼ⡍ᓖᗻǄᏆ㒣ᄬ೼ⱘぎԡⱘᠽሩॳ߭ᕜㅔऩˈাᰃ㽕೼䙷ѯᵕ᳝ৃ㛑೼㒧ᵘЁᔶ៤ᔃ᳆ ⱘԡ⚍ᠽሩぎԡˈ䖭ѯぎԡᠽሩ㔮ߚ䅵ㅫᰃ᳝ԡ㕂އᅮⱘǄ Ўњҟ㒡෎ѢUNIXᑇৄⱘCLUSTAL WⱘՓ⫼ˈ㗗㰥ϔϟҢಯ⾡ϡৠ⠽⾡ᴹ⑤ⱘUIA㲟ⱑ˄Ҏ ㉏ˈ哴ˈXenopus laevis੠ᵰ㴛˅Ǆ䖭ಯ⾡䕧ܹᑣ߫ᬒ೼ϔϾऩ⣀ⱘ᭛ӊЁˈ԰៤݁⾡ৃҹ ᥹ফⱘḐᓣЁⱘϔ⾡ˈ✊ৢ೼UNIXᦤ⼎ヺϟᠻ㸠clustalwˈ⫼᠋ᖙ乏ᠻ㸠ੑҸᠡӮⳟ㾕Џ㦰 ऩ: ********************************************************************* **********CLUSTAL W(1.60) Multiple Sequence Alignments****************** ********************************************************************* 1. Sequence Input From Disc 2. Multiple Alignments 3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 1 䗝ᢽ㦰ऩЁⱘ䗝乍1(Sequence Input From Disc)ҹ䕧ܹ㽕↨ᇍⱘᑣ߫ˈ䗝ᢽৢӮߎ⦃ᑣ߫ 䕧ܹ㦰ऩ: Sequences should all be in 1 title. 6 formats accepted: NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF. Enter the name of the sequence file: UIA.seqs ㋏㒳Ӯᦤ⼎⫼᠋᳝݁⾡ৃҹ᥹ফⱘḐᓣˈ✊ৢӮᦤ䯂䕧ܹᑣ߫ⱘ᭛ӊৡˈ೼䖭䞠ᑣ߫䕧ܹ᭛ ㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ2/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第八章多序列比对的实际应用页码,3/11 件名为UA.seqs,一旦输入这个文件名,屏幕上会显示读取文件的过程,然后返回主菜单, 这时,用户可以选择选项2进行多序列比对大大大大大大大大大大大大★大大 MULTI PLE ALI GNMENT MENU*大大大大大大大大*大大大大来 1. D0 COMPLETE MULTI PLE ALI GNMENT NOW(SI OW/Accurate 2. Produce gui de tree file onl y 3. do al i gnment usi ng ol d gui de tree file 4. Toggle Sl ow Fast pai rwi se al i gnments= SLOW 5. Pai rwi se al i gnment parameters 6. Mul tipl e al i gnment parameters 7. Reset gaps between al i gnments?= ON 8. Toggl e screen di spl ay= ON 9. Output format opti ons S. Execute a system command H. HELP or press [RETURN] to go back to mai n menu Your choi ce: 1 从这一点看,用户在执行多序列比对时有很多选择的自由,举例来说,在 Mul ti pl e A| i gnment Parameters下,用户可以实际空位开放和扩展的罚分,指出在组建辅助树时分歧到什么程度证明可以跳过一个序列,选择一个分值矩阵( BLOSUM或PAM),并且可以选择当个亲水残基出现(或缺失)在一个特异位点时,是否要执行特异性罚分,如果需要,要罚多少分。在 Pai rwi se Al i gnment Parameters下,用户可以调整用于慢比对和快比对的罚分和窗口大小。因为在这个例子中,我们没有可以用来指示我们改变比对参数的任何信息,因此只有选择选项1(" Do compl ete mul ti pl e al i gnment now")。选择选项1后,程序会在屏幕上显示构件辅助树的过程,然后开始真正的所序列比对 CLUSTA W结束时,会显示最终的比对结果,上述的例子的结果显示在图8.1中。在比对下方些位点被标记为星号或圆点,这些标记分别显示这些残基在序列中是绝对或是高度保守的。如果返回的比对出现太多的空位或是不考虑这些蛋白的任何已知信息,用户就可以再修正参数,然后返回程序,看它是否影响最终的比对。 CLUSTAL W(1. 60)mul ti pl s sequence al i gnment hum-UlA ------MAVPETRPNHTI YI NNLNEKI KKDELKKSLYAI FSQFGQI LDI LVSRSLKMRGQ mse-UlA MATLATMPVPETRANHTI YI NNLNEKI KKDELKKSLYAL SOFGOI LDI LVSRIMKMRGQ xI a-UIA ------MSI OEVRPNNTL YI NNLNEKI KKDELKKSLYAL ESOFGOI LDELVSRNLKMRGO file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18

ӊৡЎUIA.seqsˈϔᮺ䕧ܹ䖭Ͼ᭛ӊৡˈሣᐩϞӮᰒ⼎䇏প᭛ӊⱘ䖛⿟ˈ✊ৢ䖨ಲЏ㦰ऩˈ 䖭ᯊˈ⫼᠋ৃҹ䗝ᢽ䗝乍䖯㸠໮ᑣ߫↨ᇍ: **************** MULTIPLE ALIGNMENT MENU ***************** 1. DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate) 2. Produce guide tree file only 3. do alignment using old guide tree file 4. Toggle Slow Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = ON 8. Toggle screen display = ON 9. Output format ooptions S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice: 1 Ң䖭ϔ⚍ⳟˈ⫼᠋೼ᠻ㸠໮ᑣ߫↨ᇍᯊ᳝ᕜ໮䗝ᢽⱘ㞾⬅ˈВ՟ᴹ䇈ˈ೼Multiple Alignment Parametersϟˈ⫼᠋ৃҹᅲ䰙ぎԡᓔᬒ੠ᠽሩⱘ㔮ߚˈᣛߎ೼㒘ᓎ䕙ࡽᯊᷥߚFAX ࠄҔМ⿟ᑺ䆕ᯢৃҹ䏇䖛ϔϾᑣ߫ˈ䗝ᢽϔϾߚؐⶽ䰉˄BLOSUM៪PAM˅ˈᑊϨৃҹ䗝ᢽᔧϔ Ͼ҆∈⅟෎ߎ៪˄⦃㔎༅˅೼ϔϾ⡍ᓖԡ⚍ᯊˈᰃ৺㽕ᠻ㸠⡍ᓖᗻ㔮ߚˈབᵰ䳔㽕ˈ㽕㔮໮ ᇥߚǄ೼Pairwise Alignment Parametersϟˈ⫼᠋ৃҹ䇗ᭈ⫼Ѣ᜶↨ᇍ੠ᖿ↨ᇍⱘ㔮ߚ੠に ষ໻ᇣǄ಴Ў೼䖭Ͼ՟ᄤЁˈ៥Ӏ≵᳝ৃҹ⫼ᴹᣛ⼎៥Ӏᬍব↨ᇍখ᭄ⱘӏԩֵᙃˈ಴ℸা ᳝䗝ᢽ䗝乍˄”Do complete multiple alignment now”˅Ǆ䗝ᢽ䗝乍ৢˈ⿟ᑣӮ೼ሣᐩ Ϟᰒ⼎ᵘӊ䕙ࡽᷥⱘ䖛⿟ˈ✊ৢᓔྟⳳℷⱘ᠔ᑣ߫↨ᇍǄ CLUSTA W㒧ᴳᯊˈӮᰒ⼎᳔㒜ⱘ↨ᇍ㒧ᵰˈϞ䗄ⱘ՟ᄤⱘ㒧ᵰᰒ⼎೼೒8.1ЁǄ೼↨ᇍϟᮍˈ ϔѯԡ⚍㹿ᷛ䆄Ў᯳ো៪೚⚍ˈ䖭ѯᷛ䆄߿ߚᰒ⼎䖭ѯ⅟෎೼ᑣ߫Ёᰃ㒱ᇍ៪ᰃ催ᑺֱᅜ ⱘǄབᵰ䖨ಲⱘ↨ᇍߎ໮໾⦃ⱘぎԡ៪ᰃϡ㗗㰥䖭ѯ㲟ⱑⱘӏԩᏆⶹֵᙃˈ⫼᠋ህৃҹݡׂ ℷখ᭄ˈ✊ৢ䖨ಲ⿟ᑣˈⳟᅗᰃ৺ᕅડ᳔㒜ⱘ↨ᇍǄ CLUSTAL W (1.60) multipls sequence alignment hum-U1A ------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ mse-U1A MATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ xla-U1A ------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQ ㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ3/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第八章多序列比对的实际应用页码,5/11 Mul talin方法也是基于用一系列双重比对开始的思想,然后基于双重比对的打分值进行一个层次的聚类。当序列都分成类后,开始进行多序列比对,计算出多序列比对中的两个序列比对的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不在上升,此时所序列比对也就结束了。 Mul talin可以在 I NRA Toul ouse的一个环球网点上很容易地执行,要比对的序列按照 FASTA的格式被粘贴到一个序列输入框内,然后从一系列下拉菜单中,用户定义适当的参数,比如输出格式,可选的输入格式,引用的分值矩阵以及空位开放和扩展罚分的分值。大多数用户只会根据输入序列的远近关系,选择不同的分值矩阵。然后,序列被提交到服务器上,当多序列比对返回时,会计算一个一致序列并显示在比对的下方。举例来说,如图8.1所示的用 CLUSTAL W比对的同样的序列被提交给 Mul talin服务器,接受缺省的比对参数,其结果如图 8.2所示,在一致序列中,所有序列都匹配的残基相应的位置用此残基的大写字母表示,大多数都匹配的用小写字母表示,同样地,符号!、$、%和#分别表示保守取代,具体含义如图 8.2上方的图例。很明显,用两种方法分别得到的比对结果并不完全一样。主要区别在于 CLUSTAL W在果蝇序列中开放了两个长度超过10的空位,而 Mul talin只开放了一个长空位,而且, Mul talin可以得到比 CLUSTAL W多20个完全相同残基的排队,当然,这并不以为这一种方法比另外一种方法优越,这有要重提本书的一个不便的话题,即从输入序列的性质出发,应用不同的方法会得到不同程度的成功。警慎的用户会选择若干个工具同时使用,并且对最终的比对结果作手工修正以期达到最佳效果。模体和样式前面叙述的方法对于多序列比对极为有用,但是用户必须实现搜集好独立的输入序列,要么通过一系列的 BLAST或其它的数据库搜索,要么在实验室里直接作出决定。但是,有太多的方法可以获取一个单独的序列,并且基于此序列中的任何模体或样式,返回所有的蛋白质家族,完成某个特异方法所定义的最佳比对。很多时候,这些方法所揭示的距离关系并非从例行的标准的数据库搜索中轻易获取。在这一部分,我们讨论两种方法,都是搜索特殊数据库以获取序列的模体和样式的,当然也是两种从最少的序列信息中进行蛋白质家族分类的强有力的方法 Profi l escan 基于经典的头文件分析的 Gri skov方法, Profi l escan使用一种称为 pfscan的方法寻找一个蛋白质或核酸的査询序列同一个头文件库的相似性,因此,在搜索中需要有两个头文件库:第个是 PROSITE,一个 EXPASy数据库,通过使用模体和序列样式(诸如指纹)将生物学意义重大的位点收集分类;第二个是Pfam,收集了蛋白质结构域家族,与其它收集方法有很大不同的是,最初的蛋白质结构域的比对完全是有手工完成的,而不是依靠自动化的处理方法,正因为这样,Pfam只拥有500多条款目,但这些款目的质量极好。基于PRoS|TE和Pfam的搜索可以通过访问 Profi l escan的主页完成,她只需要一条简单的输入序列(用文本格式),或者一个标号,比如一个SWSS-PROT 用户可以选择搜索的敏感度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。为了说明输出的格式,我们现在向PRoS|TE系统提交人类的热休克诱导蛋白的序列作一次搜索 normal i zed taw from to Profi l e descri pti on 355, 9801 41556pos 6-612 PF00012 HSP70 Heat shock hsp70 protein file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18

MultAlinᮍ⊩гᰃ෎Ѣ⫼ϔ㋏߫ঠ䞡↨ᇍᓔྟⱘᗱᛇ✊ৢ෎Ѣঠ䞡↨ᇍⱘᠧߚؐ䖯㸠ϔϾߚ ሖ⃵ⱘ㘮㉏Ǆᔧᑣ߫䛑ߚ៤㉏ৢˈᓔྟ䖯㸠໮ᑣ߫↨ᇍˈ䅵ㅫߎ໮ᑣ߫↨ᇍЁⱘϸϾᑣ߫↨ ᇍⱘᮄؐˈ෎Ѣ䖭ѯᮄؐˈ䞡ᮄᵘᓎϔỉᷥǄ䖭Ͼ䖛⿟ϡᮁ䖯㸠ˈⳈߚࠄؐϡ೼Ϟछˈℸᯊ ᠔ᑣ߫↨ᇍгህ㒧ᴳњǄ MultAlinৃҹ೼INRA ToulouseⱘϔϾ⦃⧗㔥⚍Ϟᕜᆍᯧഄᠻ㸠ˈ㽕↨ᇍⱘᑣ߫ᣝ✻FASTAⱘ Ḑᓣ㹿㉬䌈ࠄϔϾᑣ߫䕧ܹḚݙৢ✊ˈҢϔ㋏߫ϟᢝ㦰ऩЁˈ⫼᠋ᅮН䗖ᔧⱘখ᭄ˈ↨བ䕧 ߎḐᓣˈৃ䗝ⱘ䕧ܹḐᓣˈᓩ⫼ⱘߚؐⶽ䰉ҹঞぎԡᓔᬒ੠ᠽሩ㔮ߚⱘߚؐǄ໻໮᭄⫼᠋া Ӯḍ᥂䕧ܹᑣ߫ⱘ䖰䖥݇㋏ˈ䗝ᢽϡৠⱘߚؐⶽ䰉Ǆ✊ৢˈᑣ߫㹿ᦤѸࠄ᳡ࡵ఼Ϟˈᔧ໮ᑣ ߫↨ᇍ䖨ಲᯊˈӮ䅵ㅫϔϾϔ㟈ᑣ߫ᑊᰒ⼎೼↨ᇍⱘϟᮍǄВ՟ᴹ䇈ˈབ೒8.1᠔⼎ⱘ⫼ CLUSTAL W↨ᇍⱘৠḋⱘᑣ߫㹿ᦤѸ㒭MultAlin᳡ࡵ᥹ˈ఼ফ㔎ⳕⱘ↨ᇍখ᭄ˈ݊㒧ᵰབ೒ 8.2᠔⼎ˈ೼ϔ㟈ᑣ߫Ёˈ᠔᳝ᑣ߫䛑ऍ䜡ⱘ⅟෎Ⳍᑨⱘԡ㕂⫼ℸ⅟෎ⱘ໻ݭᄫ↡㸼⼎ˈ໻໮ ᭄䛑ऍ䜡ⱘ⫼ᇣݭᄫ↡㸼⼎ˈৠḋഄˈヺোʽǃǃ੠߿ߚ㸼⼎ֱᅜপҷˈ݋৿ԧНབ೒ 8.2Ϟᮍⱘ೒՟Ǆ ᕜᯢᰒˈ⫼ϸ⾡ᮍ⊩߿ߚᕫࠄⱘ↨ᇍ㒧ᵰᑊϡᅠܼϔḋǄЏ㽕ऎ߿೼ѢCLUSTAL W೼ᵰ㴛ᑣ߫ ЁᓔᬒњϸϾ䭓ᑺ䍙䖛10ⱘぎԡˈ㗠MultAlinাᓔᬒњϔϾ䭓ぎԡˈ㗠ϨˈMultAlinৃҹᕫ ࠄ↨CLUSTAL W໮20ϾᅠܼⳌৠ⅟෎ⱘᥦ䯳ˈᔧ✊ˈ䖭ᑊϡҹЎ䖭ϔ⾡ᮍ⊩↨঺໪ϔ⾡ᮍ⊩Ӭ 䍞ˈ䖭᳝㽕䞡ᦤᴀкⱘϔϾϡ֓ⱘ䆱乬ˈेҢ䕧ܹᑣ߫ⱘᗻ䋼ߎথˈᑨ⫼ϡৠⱘᮍ⊩Ӯᕫࠄ ϡৠ⿟ᑺⱘ៤ࡳǄ䄺ᜢⱘ⫼᠋Ӯ䗝ᢽ㢹ᑆϾᎹ݋ৠᯊՓ⫼ˈᑊϨᇍ᳔㒜ⱘ↨ᇍ㒧ᵰ԰᠟Ꮉׂ ℷҹᳳ䖒ࠄ᳔ՇᬜᵰǄ ῵ԧ੠ḋᓣ ࠡ䴶ভ䗄ⱘᮍ⊩ᇍѢ໮ᑣ߫↨ᇍᵕЎ᳝⫼ˈԚᰃ⫼᠋ᖙ乏ᅲ⦄᧰䲚ད⣀ゟⱘ䕧ܹᑣ߫ˈ㽕М 䗮䖛ϔ㋏߫ⱘBLAST៪݊ᅗⱘ᭄᥂ᑧ᧰㋶ˈ㽕М೼ᅲ偠ᅸ䞠Ⳉ᥹԰އߎᅮǄԚᰃˈ᳝໾໮ⱘᮍ ⊩ৃҹ㦋পϔϾऩ⣀ⱘᑣ߫ˈᑊϨ෎Ѣℸᑣ߫Ёⱘӏԩ῵ԧ៪ḋᓣˈ䖨ಲ᠔᳝ⱘ㲟ⱑ䋼ᆊ ᮣˈᅠ៤ᶤϾ⡍ᓖᮍ⊩᠔ᅮНⱘ᳔Շ↨ᇍǄᕜ໮ᯊ׭ˈ䖭ѯᮍ⊩᠔ᧁ⼎ⱘ䎱⾏݇㋏ᑊ䴲Ң՟ 㸠ⱘᷛޚⱘ᭄᥂ᑧ᧰㋶Ё䕏ᯧ㦋পǄ೼䖭ϔ䚼ߚˈ៥Ӏ䅼䆎ϸ⾡ᮍ⊩ˈ䛑ᰃ᧰㋶⡍⅞᭄᥂ᑧ ҹ㦋পᑣ߫ⱘ῵ԧ੠ḋᓣⱘˈᔧ✊гᰃϸ⾡Ң᳔ᇥⱘᑣֵ߫ᙃЁ䖯㸠㲟ⱑ䋼ᆊᮣߚ㉏ⱘᔎ᳝ ࡯ⱘᮍ⊩Ǆ ProfileScan ෎Ѣ㒣݌ⱘ༈᭛ӊߚᵤⱘGribskovᮍ⊩,ProfileScanՓ⫼ϔ⾡⿄Ўpfscanⱘᮍ⊩ᇏᡒϔϾ㲟 ⱑ䋼៪Ḍ䝌ⱘᶹ䆶ᑣ߫ৠϔϾ༈᭛ӊᑧⱘⳌԐᗻ಴ℸ೼᧰㋶Ё䳔㽕᳝ϸϾ༈᭛ӊᑧ˖㄀ϔ ϾᰃPROSITEˈϔϾExPASy᭄᥂ᑧˈ䗮䖛Փ⫼῵ԧ੠ᑣ߫ḋᓣ˄䇌བᣛ㒍˅ᇚ⫳⠽ᄺᛣН䞡໻ ⱘԡ⚍ᬊ䲚ߚ㉏˗㄀ѠϾᰃPfam ,ᬊ䲚њ㲟ⱑ䋼㒧ᵘඳᆊᮣˈϢ݊ᅗᬊ䲚ᮍ⊩᳝ᕜ໻ϡৠⱘ ᰃˈ᳔߱ⱘ㲟ⱑ䋼㒧ᵘඳⱘ↨ᇍᅠܼᰃ᳝᠟Ꮉᅠ៤ⱘˈ㗠ϡᰃձ䴴㞾࣪ࡼⱘ໘⧚ᮍ⊩ˈℷ಴ Ў䖭ḋˈPfamাᢹ᳝500໮ᴵℒⳂˈԚ䖭ѯℒⳂⱘ䋼䞣ᵕདǄ ෎ѢPROSITE੠Pfamⱘ᧰㋶ৃҹ䗮䖛䆓䯂ProfileScanⱘЏ义ᅠ៤ˈཌྷা䳔㽕ϔᴵㅔऩⱘ䕧ܹ ᑣ߫˄⫼᭛ᴀḐᓣ˅ˈ៪㗙ϔϾᷛোˈ↨བϔϾSWISS-PROT IDǄ⫼᠋ৃҹ䗝ᢽ᧰㋶ⱘᬣᛳ ᑺˈ䗝ᢽ䖨ಲᰒ㨫ⱘऍ䜡៪㗙᠔᳝ऍ䜡ˈ⫮㟇ࣙᣀ䖍⬠ⱘᚙމǄЎњ䇈ᯢ䕧ߎⱘḐᓣˈ៥Ӏ ⦄೼৥PROSITE㋏㒳ᦤѸҎ㉏ⱘ⛁ӥܟ䇅ᇐ㲟ⱑⱘᑣ߫԰ϔ⃵᧰㋶: normalized taw from to Profile | description 355,9801 41556pos 6 - 612 PF00012 | HSP70 Heat shock hsp70 protein ㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ5/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第八章多序列比对的实际应用页码,6/11 真正返回的 PROSITE条目显得并不希奇,输出里含有值得注意的分值,这个前期加工(raW 的分值就是真正由搜索时使用的打分矩阵计算出来的,更信息化的数字是 normal i zed 即N值,N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数目本上来说,N值越大,偶然发生的命中几率就越小。举例来说,如果N值为355,偶然命中的几率只有1.94X10-349。数字“from”和“to”只是显示出查询序列和匹配的头文件重叠的位点。 BLOCKS BL0CKS数据库利用了块的概念,对蛋白质家族进行鉴定,而不是只依赖于单个的序列本身。块的思想来源于更加普遍的概念&#;模体( moti f),模体通常是指一段氨基酸序列的保守的伸展,拥有一定的蛋白质功能或者结构。当这些来源于同一家族中的蛋白质中的模体比对时 (不引入空位),其结果就是块;块就是指比对,而不是序列本身。很明显,任何一个独立的蛋白都可以包含一个或者更多个的块,对应于它的每一个功能和结构模体。 BL0CKS数据库本身来源于PR0STE的条目。当使用一个感兴趣的序列进行BL0CKS搜索时,查询序列就会同数据库中所有的块在任何可能的位点进行比对,对于每一个比对都会使用位点特异分值矩阵或者PSSM进行打分。PSSM和这本书前面叙述的分值矩阵(例如 TBLOSUM62)的重大区别在于,其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的位点的可能性。所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的个特异位点的几率,这在本部分的结尾就会变的十分明白。 BL0CKS搜索可以通过访问西雅图的 Fred Hutch son肿瘤研究中心的BL0CKS主页完成,这个网点很直接,允许执行基于序列或者关键词的检索。如果用户在输入时使用了DNA序列,他就可以指明使用哪个遗传密码,搜索哪条链。不管执行搜索的是一个序列还是一个关键词,成功的搜索将会返回相应的块,图8.3显示了一个例子。在这个条目中(一个核内激素受体,称为类固醇指针),头几行按顺序分别标记为D,AC和DE,给出了这个块代表的家族的缩写 BL0CKS数据库注册码和家族的详细描述;BL行给出了关于组建这个特别的块的原始序列模体的信息:参数wdth和seqs表示 bl ock的宽度(用残基计算),以及这个块中有多少序列数目,接下来是统计学有效性和构成长度的信息;最后是序列列表,只显示出对应于这个特殊模体的序列部分,每一行的开头都是这个序列的SWSS-PROT注册码,第一个残基在整个序列中的位置,然后是序列本身以及基于位点的序列权重,这个权重用100刻度,100表示序列距离这个群体最远;注意到有些序列行中有空行:部分比对被聚集在一起,在每个聚集中,80% 的序列残基是相同的。 Most Mos 模体搜索工具(或者写作MoST),是一个UNX程序,用来进行数据库搜索以寻找保守的模这个方法使用比对序列块(比对块, al i gnment bl ock),可以容纳任意数目N的序列, 个长L,所有序列长度必须一致,但是在目前还不能引进空位。这个比对块用来产生一个蛋白质权重矩阵,然后对所有序列进行矩阵扫描,从目标蛋白质数据库开始搜索,对每一个长L的片段通过加和适合的权重矩阵元素得到其分值。如果找到在统计学上显著地匹配于序列块的序列,这些序列也会被加入到序列块中。搜索完一个循环后,权重矩阵必须重新计算,然后重新进行搜索,这个过程反复进行,直到再也找不到统计学意义显著的匹配序列为止,这个过程因而在数据库搜索过程中不断积累新的信息在执行MoST时有一个可以设置的参数就是比例R,R表示预期的虚假匹配数目被预测的真实匹配数目。因为MoST搜索预期将会收敛(就是说因为不会再找到新的序列,反复过程将会终止),所以R值的选择十分重要。如果R值太高,搜索就会延伸而不是收敛,最后会引进目标数据库中的所有序列,避免虚假匹配的一个方法就是逐渐增大R值,观察匹配的数量和质量, 如果可能出现延伸就放弃增大R值 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18

ⳳℷ䖨ಲⱘPROSITEᴵⳂᰒᕫᑊϡᏠ༛ˈ䕧ߎ䞠৿᳝ؐᕫ⊼ᛣⱘߚˈؐ䖭ϾࠡᳳࡴᎹ˄raw˅ ⱘߚؐህᰃⳳℷ⬅᧰㋶ᯊՓ⫼ⱘᠧߚⶽ䰉䅵ㅫߎᴹⱘˈ᳈ֵᙃ࣪ⱘ᭄ᄫᰃ“normalized”ˈ े1ؐˈ1ؐ䗮ᐌ㒭ߎњ⫼᠋೼ϔϾᏆⶹ໻ᇣⱘ᭄᥂ᑧЁৃҹᇏᡒࠄⱘৃ㛑ⱘऍ䜡ⱘ᭄Ⳃˈ෎ ᴀϞᴹ䇈ˈ1ؐ䍞໻ˈي✊থ⫳ⱘੑЁ޴⥛ህ䍞ᇣǄВ՟ᴹ䇈ˈབᵰ1ؐЎ355ˈيੑ✊Ёⱘ޴ ⥛া᳝1.94ɏ10-349Ǆ᭄ᄫ“from”੠“to”াᰃᰒ⼎ߎᶹ䆶ᑣ߫੠ऍ䜡ⱘ༈᭛ӊ䞡঴ⱘԡ ⚍Ǆ BLOCKS BLOCKS᭄᥂ᑧ߽⫼њഫⱘὖᗉˈᇍ㲟ⱑ䋼ᆊᮣ䖯㸠䡈ᅮˈ㗠ϡᰃাձ䌪ѢऩϾⱘᑣ߫ᴀ䑿Ǆ ഫⱘᗱᛇᴹ⑤Ѣ᳈ࡴ᱂䘡ⱘὖᗉ῵ԧ˄motif˅ˈ῵ԧ䗮ᐌᰃᣛϔ↉⇼෎䝌ᑣ߫ⱘֱᅜⱘ Ԍሩˈᢹ᳝ϔᅮⱘ㲟ⱑ䋼ࡳ㛑៪㗙㒧ᵘǄᔧ䖭ѯᴹ⑤ѢৠϔᆊᮣЁⱘ㲟ⱑ䋼Ёⱘ῵ԧ↨ᇍᯊ ˄ϡᓩܹぎԡ˅ˈ݊㒧ᵰህᰃഫ˗ഫህᰃᣛ↨ᇍˈ㗠ϡᰃᑣ߫ᴀ䑿ǄᕜᯢᰒˈӏԩϔϾ⣀ゟ ⱘ㲟ⱑ䛑ৃҹࣙ৿ϔϾ៪㗙᳈໮ϾⱘഫˈᇍᑨѢᅗⱘ↣ϔϾࡳ㛑੠㒧ᵘ῵ԧǄ BLOCKS᭄᥂ᑧᴀ䑿ᴹ⑤ѢPROSITEⱘᴵⳂǄᔧՓ⫼ϔϾᛳ݈䍷ⱘᑣ߫䖯㸠BLOCKS᧰㋶ᯊˈᶹ䆶 ᑣ߫ህӮৠ᭄᥂ᑧЁ᠔᳝ⱘഫ೼ӏԩৃ㛑ⱘԡ⚍䖯㸠↨ᇍˈᇍѢ↣ϔϾ↨ᇍ䛑ӮՓ⫼ԡ⚍⡍ ᓖߚؐⶽ䰉៪㗙PSSM䖯㸠ᠧߚǄPSSM੠䖭ᴀкࠡ䴶ভ䗄ⱘߚؐⶽ䰉˄՟བBLOSUM62˅ⱘ䞡໻ ऎ߿೼Ѣˈ݊ߚؐ㗗㰥ࠄњ೼㒭ᅮⱘԡ⚍ᰃ৺ᢹ᳝ϔϾऍ䜡ҹঞϔϾ㒭ᅮ⇼෎䝌ऴ᥂ഫЁⱘ ԡ⚍ⱘৃ㛑ᗻǄ᠔᳝෎Ѣ䖭⾡ᔶᓣⱘᮍ⊩ⱘḌᖗᗱᛇ䛑ᰃ㾖⌟⅟෎ऴ᥂↨ᇍ㲟ⱑ䋼ഫЁⱘϔ Ͼ⡍ᓖԡ⚍ⱘ޴ˈ⥛䖭೼ᴀ䚼ߚⱘ㒧ሒህӮবⱘकߚᯢⱑǄ BLOCKS᧰㋶ৃҹ䗮䖛䆓䯂㽓䲙೒ⱘFred Hutchinson㚓⯸ⷨおЁᖗⱘBLOCKSЏ义ᅠ៤ˈ䖭Ͼ㔥 ⚍ᕜⳈ᥹ˈܕ䆌ᠻ㸠෎Ѣᑣ߫៪㗙݇䬂䆡ⱘẔ㋶Ǆབᵰ⫼᠋೼䕧ܹᯊՓ⫼њDNAᑣ߫ˈҪህৃ ҹᣛᯢՓ⫼ાϾ䘫Ӵᆚⷕˈ᧰㋶ાᴵ䫒Ǆϡㅵᠻ㸠᧰㋶ⱘᰃϔϾᑣ߫䖬ᰃϔϾ݇䬂䆡ˈ៤ࡳ ⱘ᧰㋶ᇚӮ䖨ಲⳌᑨⱘഫˈ೒8.3ᰒ⼎њϔϾ՟ᄤǄ೼䖭ϾᴵⳂЁ˄ϔϾḌݙ▔㋴ফԧˈ⿄Ў ㉏೎䝛ᣛ䩜˅ˈ༈޴㸠ᣝ乎ᑣ߿ߚᷛ䆄ЎIDˈAC੠DEˈ㒭ߎњ䖭Ͼഫҷ㸼ⱘᆊᮣⱘ㓽ݭˈ BLOCKS᭄᥂ᑧ⊼ݠⷕ੠ᆊᮣⱘ䆺㒚ᦣ䗄˗BL㸠㒭ߎњ݇Ѣ㒘ᓎ䖭Ͼ⡍߿ⱘഫⱘॳྟᑣ߫῵ԧ ⱘֵᙃ˖খ᭄width੠seqs㸼⼎blockⱘᆑᑺ˄⫼⅟෎䅵ㅫ˅ˈҹঞ䖭ϾഫЁ᳝໮ᇥᑣ᭄߫ Ⳃˈ᥹ϟᴹᰃ㒳䅵ᄺ᳝ᬜᗻ੠ᵘ៤䭓ᑺⱘֵᙃ˗᳔ৢᰃᑣ߫߫㸼ˈাᰒ⼎ߎᇍᑨѢ䖭Ͼ⡍⅞ ῵ԧⱘᑣ߫䚼ߚ↣ˈϔ㸠ⱘᓔ༈䛑ᰃ䖭Ͼᑣ߫ⱘSWISS-PROT⊼ݠⷕˈ㄀ϔϾ⅟෎೼ᭈϾᑣ߫ Ёⱘԡ㕂ˈ✊ৢᰃᑣ߫ᴀ䑿ҹঞ෎Ѣԡ⚍ⱘᑣ߫ᴗ䞡ˈ䖭Ͼᴗ䞡⫼100ࠏᑺˈ100㸼⼎ᑣ߫䎱⾏䖭Ͼ㕸ԧ᳔䖰˗⊼ᛣࠄ᳝ѯᑣ߫㸠Ё᳝ぎ㸠˖䚼ߚ↨ᇍ㹿㘮䲚೼ϔ䍋ˈ೼↣Ͼ㘮䲚Ёˈ80% ⱘᑣ߫⅟෎ᰃⳌৠⱘǄ MoST MoS ῵ԧ᧰㋶Ꮉ݋៪㗙ݭ԰MoST)ˈᰃϔϾUNIX⿟ᑣˈ⫼ᴹ䖯㸠᭄᥂ᑧ᧰㋶ҹᇏᡒֱᅜⱘ῵ԧǄ 䖭Ͼᮍ⊩Փ⫼↨ᇍᑣ߫ഫ˄↨ᇍഫˈalignment block˅ˈৃҹᆍ㒇ӏᛣ᭄Ⳃ1ⱘᑣ߫ˈ↣ϔ Ͼ䭓/ˈ᠔᳝ᑣ߫䭓ᑺᖙ乏ϔ㟈ˈԚᰃ೼Ⳃࠡ䖬ϡ㛑ᓩ䖯ぎԡǄ䖭Ͼ↨ᇍഫ⫼ᴹѻ⫳ϔϾ㲟ⱑ 䋼ᴗ䞡ⶽ䰉ˈ✊ৢᇍ᠔᳝ᑣ߫䖯㸠ⶽ䰉ᠿᦣˈҢⳂᷛ㲟ⱑ䋼᭄᥂ᑧᓔྟ᧰㋶ˈᇍ↣ϔϾ䭓/ⱘ ⠛↉䗮䖛ࡴ੠䗖ড়ⱘᴗ䞡ⶽ䰉ܗ㋴ᕫࠄ݊ߚؐǄབᵰᡒࠄ೼㒳䅵ᄺϞᰒ㨫ഄऍ䜡Ѣᑣ߫ഫⱘ ᑣ߫ˈ䖭ѯᑣ߫гӮ㹿ࡴܹࠄᑣ߫ഫЁǄ᧰㋶ᅠϔϾᕾ⦃ৢˈᴗ䞡ⶽ䰉ᖙ乏䞡ᮄ䅵ㅫˈ✊ৢ 䞡ᮄ䖯㸠᧰㋶ˈ䖭Ͼ䖛⿟ড໡䖯㸠ˈⳈݡࠄгᡒϡࠄ㒳䅵ᄺᛣНᰒ㨫ⱘऍ䜡ᑣ߫Ўℶˈ䖭Ͼ 䖛⿟಴㗠೼᭄᥂ᑧ᧰㋶䖛⿟Ёϡᮁ⿃㌃ᮄⱘֵᙃǄ ೼ᠻ㸠MoSTᯊ᳝ϔϾৃҹ䆒㕂ⱘখ᭄ህᰃ↨՟5ˈ5㸼⼎乘ᳳⱘ㰮؛ऍ䜡᭄Ⳃ㹿乘⌟ⱘⳳᅲऍ 䜡᭄ⳂǄ಴ЎMoST᧰㋶乘ᳳᇚӮᬊᬯ˄ህᰃ䇈಴ЎϡӮݡᡒࠄᮄⱘᑣ߫ˈড໡䖛⿟ᇚӮ㒜 ℶ˅ˈ᠔ҹ5ؐⱘ䗝ᢽकߚ䞡㽕Ǆབᵰ5ؐ໾催ˈ᧰㋶ህӮᓊԌ㗠ϡᰃᬊᬯˈ᳔ৢӮᓩ䖯Ⳃᷛ ᭄᥂ᑧЁⱘ᠔᳝ᑣ߫ˈ䙓ܡ㰮؛ऍ䜡ⱘϔϾᮍ⊩ህᰃ䗤⏤๲໻5ؐˈ㾖ᆳऍ䜡ⱘ᭄䞣੠䋼䞣ˈ བᵰৃ㛑ߎ⦃ᓊԌህᬒᓗ๲໻5ؐǄ ㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ6/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第八章多序列比对的实际应用页码,7/ M0ST命令行形式为 most database bl ock [method] [seg] [cutoff][#%]> outfile 在这里 database指明要搜索哪一个数据库;bock指明含有输入比对块的文件名(用 FASTA格式存储);可选的 method参数指明了怎样计算依赖位置的权重矩阵:如果不加指明,缺省值将选择出现一个特殊残基的可能性的 Di ri chl吐t分布,选项1引用加权平均( Gri bokoν方法),选项2引用 Bayesi an伪记数方法,选项3引用依赖数据的伪记数模型,至于执行中如何选择,在 MoST的原始参考书中有详细描述,新用户应该先使用缺省值,检査结果的质量,然后考虑是否改变参数;seg参数指明搜索中是否应用seg过滤算法,seg(缺省)表示开关开,-Seg表示开关关;阈值 cutoff指明上面描述的比例R,推荐初始值选择在r0.1-r0.5:最后,使用i#%参数将对输入块进行限制,比如,如果指定为i80%,在组中只有相同比列大于80%才被引用,这个选项可以在出现从多个物种来源的相同序列时,有效地放置数据系统的扭曲。图8.4显示了一个MoST输出的例子。输出文件很便利地回应了开始的命令,允许多重MoST, 个接一个地辨别。接下来是真正的块,头和尾都有一个额外的序列,标记MAX的序列被认为是个 de facto一致序列,它是基于计算矩阵得分最高的序列,在这里,它得分为609,分值显示于序列最末端;同样道理,标记为min的序列是最不一致的序列,得分最低,实际比对块的序列介于两行之间,按高分到低分排列,序列左边是序列标号,右边是分值图8.5是输出的延续,作为这个输入块的第一轮重复的结果,找到了5个新序列(比对的上方)。在新序列的左边是这个条目的Def行的前几个特征,然后是显示的第一个残基的位置序列本身以及序列的统计值。更进一步,原始序列(比对块中的序列)再出现,这些序列可以反过头来使用更在Def行后的标志数字同序列块相比。数字被缩短了,但是输出文件仍然继易显示出来,比对过程中程序已经替用户把它们用小写字母表示出来。配于块的残基很容续,显示每一轮的计算结果,直到收敛。这个输出的一个好特点就是不匹酽 PROBE 有一个最新的比对模型程序叫做 PROBE,在某些方面, PROBE与MoST很相似,它们都运用反复计算的策略检测较远关系的序列,但是,从本质上讲,算法的机制是不一样的,所以有必要作进一步的讨论。在决定哪些序列相关时, PROBE执行一个及物的搜索,如果一个双重搜索发现序列A和B是相关的,另外一个搜索发现序列B和C是相关的,那么A和C就一定相关,即使A和C之间的双重比对没有直接发现它们相关。通过一系列的BAST搜索,所有这样的联系都被反复演绎出来,直到再不会发现新的序列。在这样一系列相关序列组成的集合上,将会进行一系列的比对,反复比对,直到比对不再改善。这时,将会进行下一轮的数据库搜索,应用上一轮的最佳比对, 寻找在上一轮中被忽略的相关序列。 PROBE程序反复操作这一过程,直到搜索收敛为止。 PROBE和MoST之间的一个很重要的区别就在于 PROBE在搜索开始时只需要一个序列作为“种 ”,即使可以使用一个家族的序列,而在MoST程序中,必须输入一个预先准备好的不包含空位的比对。因为无法保证用机器寻找到的比对比手工的比对质量要好(很多时候恰恰相反),在进行MoST搜索时必然会携带手工计算比对时的位点偏向因素。MoST和 PROBE处理输入的方法是不一样的,MoST一次必须处理一个比对块,而PR0BE按照反复搜索中的发现把输入序列分成多个块,在这里,用户要决定是否维持块的完整以及块是否可以进一步分成更小的组成单位,作出决定时最好依据它们的生物学功能。最后,MoST是一个贪婪的算法,下一轮搜索中发现的新序列一旦加入就不会被剔除,于是一个虚假的匹配很可能在接下来的搜索中不断蔓延,很可能引入更多的虚假匹配;而 PROBE使用一个“ jack kni fe"的程序会自动消除这样不相关的序列,就是说,推定的虚假匹配会被从数据中取消,然后重新搜索数据库,如果这个序列确实相关的话,它会在以后重新被加入到数据中去。 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18

MoSTੑҸ㸠ᔶᓣЎ: most database block [method] [seg] [cutoff] [i#%] > outfile ೼䖭䞠databaseᣛᯢ㽕᧰㋶ાϔϾ᭄᥂ᑧ˗blockᣛᯢ৿᳝䕧ܹ↨ᇍഫⱘ᭛ӊৡ⫼FASTAḐᓣ ᄬټৃ˗䗝ⱘmethodখ᭄ᣛᯢњᗢḋ䅵ㅫձ䌪ԡ㕂ⱘᴗ䞡ⶽ䰉˖བᵰϡࡴᣛᯢˈ㔎ⳕؐᇚ䗝 ᢽߎ⦃ϔϾ⡍⅞⅟෎ⱘৃ㛑ᗻⱘDirichletߚᏗˈ䗝乍ᓩ⫼ࡴᴗᑇഛ˄Gribskovᮍ⊩˅ˈ䗝乍ᓩ⫼BayesianӾ䆄᭄ᮍ⊩ˈ䗝乍ᓩ⫼ձ䌪᭄᥂ⱘӾ䆄᭄῵ൟˈ㟇Ѣᠻ㸠Ёབԩ䗝ᢽˈ೼ MoSTⱘॳྟখ㗗кЁ᳝䆺㒚ᦣ䗄ˈᮄ⫼᠋ᑨ䆹ܜՓ⫼㔎ⳕؐˈẔᶹ㒧ᵰⱘ䋼䞣ˈ✊ৢ㗗㰥ᰃ ৺ᬍবখ᭄˗segখ᭄ᣛᯢ᧰㋶Ёᰃ৺ᑨ⫼seg䖛Ⓒㅫ⊩ˈseg˄㔎ⳕ˅㸼⼎ᓔ݇ᓔˈ-seg㸼⼎ ᓔ݇݇˗䯜ؐcutoffᣛᯢϞ䴶ᦣ䗄ⱘ↨՟5ˈ᥼㤤߱ྟؐ䗝ᢽ೼r0.1-r0.5˗᳔ৢˈՓ⫼i#%খ ᭄ᇚᇍ䕧ܹഫ䖯㸠䰤ࠊ↨ˈབˈབᵰᣛᅮЎi80%ˈ೼㒘Ёা᳝Ⳍৠ↨߫໻Ѣ80%ᠡ㹿ᓩ⫼ˈ䖭 Ͼ䗝乍ৃҹ೼ߎ⦃Ң໮Ͼ⠽⾡ᴹ⑤ⱘⳌৠᑣ߫ᯊˈ᳝ᬜഄᬒ㕂᭄᥂㋏㒳ⱘᡁ᳆Ǆ ೒8.4ᰒ⼎њϔϾMoST䕧ߎⱘ՟ᄤǄ䕧ߎ᭛ӊᕜ߽֓ഄಲᑨњᓔྟⱘੑҸˈܕ䆌໮䞡MoSTˈϔ Ͼ᥹ϔϾഄ䕼߿Ǆ᥹ϟᴹᰃⳳℷⱘഫˈ༈੠ሒ䛑᳝ϔϾ乱໪ⱘᑣ߫ˈᷛ䆄MAXⱘᑣ߫㹿䅸Ўᰃ ϔϾde factoϔ㟈ᑣ߫ˈᅗᰃ෎Ѣ䅵ㅫⶽ䰉ᕫߚ᳔催ⱘᑣ߫ˈ೼䖭䞠ˈᅗᕫߚЎ609ˈߚؐᰒ ⼎Ѣᑣ᳔߫᳿ッ˗ৠḋ䘧⧚ˈᷛ䆄Ўminⱘᑣ߫ᰃ᳔ϡϔ㟈ⱘᑣ߫ˈᕫߚ᳔Ԣˈᅲ䰙↨ᇍഫⱘ ᑣ߫ҟѢϸ㸠П䯈ˈᣝ催ࠄߚԢߚᥦ߫ˈᑣ߫Ꮊ䖍ᰃᑣ߫ᷛোˈে䖍ᰃߚؐǄ ೒8.5ᰃ䕧ߎⱘᓊ㓁ˈ԰Ў䖭Ͼ䕧ܹഫⱘ㄀ϔ䕂䞡໡ⱘ㒧ᵰˈᡒࠄњϾᮄᑣ߫˄↨ᇍⱘϞ ᮍ˅Ǆ೼ᮄᑣ߫ⱘᎺ䖍ᰃ䖭ϾᴵⳂⱘDef㸠ⱘࠡ޴Ͼ⡍ᕕˈ✊ৢᰃᰒ⼎ⱘ㄀ϔϾ⅟෎ⱘԡ㕂ˈ ᑣ߫ᴀ䑿ҹঞᑣ߫ⱘ㒳䅵ؐǄ᳈䖯ϔℹˈॳྟᑣ߫˄↨ᇍഫЁⱘᑣ߫˅ߎݡˈ⦃䖭ѯᑣ߫ৃ ҹড䖛༈ᴹՓ⫼᳈೼Def㸠ৢⱘᷛᖫ᭄ᄫৠᑣ߫ഫⳌ↨Ǆ᭄ᄫ㹿㓽ⷁњˈԚᰃ䕧ߎ᭛ӊҡ✊㒻㓁ˈᰒ⼎↣ϔ䕂ⱘ䅵ㅫ㒧ᵰˈⳈࠄᬊᬯǄ䖭Ͼ䕧ߎⱘϔϾད⡍⚍ህᰃϡऍ䜡Ѣഫⱘ⅟෎ᕜᆍ ᯧᰒ⼎ߎᴹˈ↨ᇍ䖛⿟Ё⿟ᑣᏆ㒣᳓⫼᠋ᡞᅗӀ⫼ᇣݭᄫ↡㸼⼎ߎᴹњǄ. PROBE ᳝ϔϾ᳔ᮄⱘ↨ᇍ῵ൟ⿟ᑣিخPROBEˈ೼ᶤѯᮍ䴶ˈPROBEϢMoSTᕜⳌԐˈᅗӀ䛑䖤⫼ড໡ 䅵ㅫⱘㄪ⬹Ẕ⌟䕗䖰݇㋏ⱘᑣ߫ˈԚᰃˈҢᴀ䋼Ϟ䆆ˈㅫ⊩ⱘᴎࠊᰃϡϔḋⱘˈ᠔ҹ᳝ᖙ㽕 ԰䖯ϔℹⱘ䅼䆎Ǆ ೼އᅮાѯᑣ߫Ⳍ݇ᯊˈPROBEᠻ㸠ϔϾঞ⠽ⱘ᧰㋶ˈབᵰϔϾঠ䞡᧰㋶থ⦄ᑣ߫$੠%ᰃⳌ݇ ⱘˈ঺໪ϔϾ᧰㋶থ⦄ᑣ߫%੠&ᰃⳌ݇ⱘˈ䙷М$੠&ህϔᅮⳌ݇ˈेՓ$੠&П䯈ⱘঠ䞡↨ᇍ ≵᳝Ⳉ᥹থ⦄ᅗӀⳌ݇Ǆ䗮䖛ϔ㋏߫ⱘBLAST᧰㋶ˈ᠔᳝䖭ḋⱘ㘨㋏䛑㹿ড໡ⓨ㒢ߎᴹˈⳈࠄ ݡϡӮথ⦄ᮄⱘᑣ߫Ǆ೼䖭ḋϔ㋏߫Ⳍ݇ᑣ߫㒘៤ⱘ䲚ড়ϞˈᇚӮ䖯㸠ϔ㋏߫ⱘ↨ᇍˈড໡ ↨ᇍˈⳈࠄ↨ᇍϡݡᬍ୘Ǆ䖭ᯊˈᇚӮ䖯㸠ϟϔ䕂ⱘ᭄᥂ᑧ᧰㋶ˈᑨ⫼Ϟϔ䕂ⱘ᳔Շ↨ᇍˈ ᇏᡒ೼Ϟϔ䕂Ё㹿ᗑ⬹ⱘⳌ݇ᑣ߫ǄPROBE⿟ᑣড໡᪡԰䖭ϔ䖛⿟ˈⳈࠄ᧰㋶ᬊᬯЎℶǄ PROBE੠MoSTП䯈ⱘϔϾᕜ䞡㽕ⱘऎ߿ህ೼ѢPROBE೼᧰㋶ᓔྟᯊা䳔㽕ϔϾᑣ߫԰ЎĀ⾡ ᄤāˈेՓৃҹՓ⫼ϔϾᆊᮣⱘᑣ߫ˈ㗠೼MoST⿟ᑣЁˈᖙ乏䕧ܹϔϾ乘ޚܜ໛དⱘϡࣙ৿ ぎԡⱘ↨ᇍǄ಴Ў᮴⊩ֱ䆕⫼ᴎ఼ᇏᡒࠄⱘ↨ᇍ↨᠟Ꮉⱘ↨ᇍ䋼䞣㽕ད˄ᕜ໮ᯊ׭ᙄᙄⳌ ড˅ˈ೼䖯㸠MoST᧰㋶ᯊᖙ✊Ӯᨎᏺ᠟Ꮉ䅵ㅫ↨ᇍᯊⱘԡ⚍أ಴৥㋴ǄMoST੠PROBE໘⧚䕧ܹ ⱘᮍ⊩ᰃϡϔḋⱘˈMoSTϔ⃵ᖙ乏໘⧚ϔϾ↨ᇍഫˈ㗠PROBEᣝ✻ড໡᧰㋶Ёⱘথ⦄ᡞ䕧ܹᑣ ߫ߚ៤໮Ͼഫˈ೼䖭䞠ˈ⫼᠋㽕އᅮᰃ৺㓈ᣕഫⱘᅠᭈҹঞഫᰃ৺ৃҹ䖯ϔℹߚ៤᳈ᇣⱘ㒘 ៤ऩԡˈ԰އߎᅮᯊ᳔དձ᥂ᅗӀⱘ⫳⠽ᄺࡳ㛑Ǆ᳔ৢˈMoSTᰃϔϾ䋾ှⱘㅫ⊩ˈϟϔ䕂᧰ ㋶Ёথ⦄ⱘᮄᑣ߫ϔᮺࡴܹህϡӮ㹿ࠨ䰸ˈѢᰃϔϾ㰮؛ⱘऍ䜡ᕜৃ㛑೼᥹ϟᴹⱘ᧰㋶Ёϡ ᮁ㫧ᓊˈᕜৃ㛑ᓩܹ᳈໮ⱘ㰮؛ऍ䜡˗㗠PROBEՓ⫼ϔϾ“jack knife”ⱘ⿟ᑣӮ㞾ࡼ⍜䰸䖭 ḋϡⳌ݇ⱘᑣ߫ˈህᰃ䇈ˈ᥼ᅮⱘ㰮؛ऍ䜡Ӯ㹿Ң᭄᥂Ёপ⍜ˈ✊ৢ䞡ᮄ᧰㋶᭄᥂ᑧˈབᵰ 䖭Ͼᑣ߫⹂ᅲⳌ݇ⱘ䆱ˈᅗӮ೼ҹৢ䞡ᮄ㹿ࡴܹࠄ᭄᥂ЁএǄ ㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ7/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第八章多序列比对的实际应用页码,8/11 PROBE程序的UNX发行版本的命令行采用这个形式 probe fastafi e database -S [options]>outfile 在这里, fastafile是进行搜索的种子序列文件,采用 FASTA格式存储; database是要搜索的目标数据库;跟在-s标志后面的数字是进行搜索的随机种子,然后是打分阈值选项,可以是任意一个数字,再后面是返回序列的最大数目,等等。程序执行一次需要相当长的时间,但是得到的输出结果是相当值得的。图8.6显示了一个 PROBE得到的输出文件,种子序列是 amphoterin,一种和高度流动组蛋白(HMG-1)相关的DNA-捆绑蛋白;最后找到了两个块,共包含50多个残基,每个块都是PR0BE用统计学计算出来的最佳比对。对于每个序列,属于块部分的序列残基数目都被显示出来,后面跟着标记符以及这个条目的统计值。 PROBE产生的输出文件包含残基频率信息,以及内容信息,统计信息和” j ack kni fe”程序剔除的序列列表。演示方法上述的比对方法对于寻找最佳比对这一点都很严格,但是它们的输出结果的阅读质量都不是太好,所以有必要从这些程序中得到输出结果,然后把结果输出到另外一些软件中去,使得多序列比对的结果可读性更好一些。这些演示方法通常都会让使用者更加容易地识别所有序列中精巧的序列样式,比通常显示的“一致序列”效果还好 MacBoxShade MacBox shade(或者简写为 MacBox),是WS/UNX应用程序 Box Shade的一个 Maci tosh版本, 它提供一个很简单的机制使得多序列比对结果形成一定的格式。 MacBox只能读 GCG MSF格式的比对文件,所以必须用其他程序(例如 ReadSeq)把序列文件转化为它可以阅读的形式。虽然只支持一种输入格式,但是再输出上就有较多的选项了:这包括 PostScri pt,支。虽然 PostScri pt打印机或者用 PostScri pt形式浏览;还有PCT,缺省的 Maci ntos格式,可以输入到字处理或者图形处理软件中去。通过大量的简单对话框,用户可以指定色彩方案,给残基记数的形式,以及与计算一致序列有关的选项。 Sims和 Groups是两个重要的对话框,控制了如何计算一致序列,两者的区别很细微但是十分重要。Sims对话框定义了什么样的残基之间相互相似,并且关系并非相反; Groups.对话框允许确认离散的群体,再这些群体中,所有同一个群体中的残基都认为是相同的,就是说,如果一个群体被定义为拥有 I ysi ne, argi ni ne和 hist di ne,那么在一个比对中给定位点出现任何一个这样的残基都会被认为是匹配的。检测这两个对话框十分重要,因为用户希望用缺省值计算一致序列。为了描述 MacBox的使用,一定量的组蛋白H1序列和从酵母中得到的H1经过比对,并且被转化为MSF格式,这个MSF序列文件被 MacBox打开,并且要求程序通过普通对话框打印一致序列还是在同一个对话框中,显示一致序列的方法被改为BLU,意思是在一个给定位点,非保守位点用空格( bl ank)表示,保守残基用小写字母表示,相同残基用大写字母表示。要真正运行比对程序,可以从“Doit!”下拉菜单中选择“ Di spl ay PICT",会产生如图8.7的窗口致序列的表示法可以在普通对话框中改变成用户期望的形式。用户可以不象这里所作的根据所有序列的相似性留下阴影的形式,而是可以指定比对中的一个单个序列,然后根据其他序列同这个序列相似性的程度留下阴影。对于没有 Maci tosh或者UNX机器的用户来说,原始的 BoxShade程序可以通过互联网访问,通过下拉菜单而不是上述的对话框。当然,那样是不可能选择色彩方案或者选择如何显示一个 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18

PROBE⿟ᑣⱘUNIXথ㸠⠜ᴀⱘੑҸ㸠䞛⫼䖭Ͼᔶᓣ˖ probe fastafile database –s [options] > outfile ೼䖭䞠ˈfastafileᰃ䖯㸠᧰㋶ⱘ⾡ᄤᑣ߫᭛ӊˈ䞛⫼FASTAḐᓣᄬټ˗databaseᰃ㽕᧰㋶ⱘ Ⳃ᭄ᷛ᥂ᑧ˗䎳೼-sᷛᖫৢ䴶ⱘ᭄ᄫᰃ䖯㸠᧰㋶ⱘ䱣ᴎ⾡ᄤˈ✊ৢᰃᠧߚ䯜ؐ䗝乍ˈৃҹᰃ ӏᛣϔϾ᭄ᄫˈݡৢ䴶ᰃ䖨ಲᑣ߫ⱘ᳔໻᭄ⳂˈㄝㄝǄ⿟ᑣᠻ㸠ϔ⃵䳔㽕Ⳍᔧ䭓ⱘᯊ䯈ˈԚ ᰃᕫࠄⱘ䕧ߎ㒧ᵰᰃⳌᔧؐᕫⱘǄ೒8.6ᰒ⼎њϔϾPROBEᕫࠄⱘ䕧ߎ᭛ӊˈ⾡ᄤᑣ߫ᰃ amphoterinˈϔ⾡੠催ᑺ⌕ࡼ㒘㲟ⱑ˄HMG-1˅Ⳍ݇ⱘDNA-ᤚ㒥㲟ⱑ˗᳔ৢᡒࠄњϸϾഫˈ݅ ࣙ৿50໮Ͼ⅟෎ˈ↣Ͼഫ䛑ᰃPROBE⫼㒳䅵ᄺ䅵ㅫߎᴹⱘ᳔Շ↨ᇍǄᇍѢ↣Ͼᑣ߫ˈሲѢഫ䚼 ߚⱘᑣ߫⅟෎᭄Ⳃ䛑㹿ᰒ⼎ߎᴹˈৢ䴶䎳ⴔϔϾgiᷛ䆄ヺҹঞ䖭ϾᴵⳂⱘ㒳䅵ؐǄPROBEѻ⫳ ⱘ䕧ߎ᭛ӊࣙ෎1/৿乥⥛ֵᙃˈҹঞݙᆍֵᙃˈ㒳䅵ֵᙃ੠”jack knife”⿟ᑣࠨ䰸ⱘᑣ߫ ߫㸼Ǆ ⓨ⼎ᮍ⊩ Ϟ䗄ⱘ↨ᇍᮍ⊩ᇍѢᇏᡒ᳔Շ↨ᇍ䖭ϔ⚍䛑ᕜϹḐˈԚᰃᅗӀⱘ䕧ߎ㒧ᵰⱘ䯙䇏䋼䞣䛑ϡᰃ ໾དˈ᠔ҹ᳝ᖙ㽕Ң䖭ѯ⿟ᑣЁᕫࠄ䕧ߎ㒧ᵰˈ✊ৢᡞ㒧ᵰ䕧ࠄߎ໪঺ϔѯ䕃ӊЁএˈՓᕫ ໮ᑣ߫↨ᇍⱘ㒧ᵰৃ䇏ᗻ᳈དϔѯǄ䖭ѯⓨ⼎ᮍ⊩䗮ᐌ䛑Ӯ䅽Փ⫼㗙᳈ࡴᆍᯧഄ䆚߿᠔᳝ᑣ ߫Ё㊒Ꮋⱘᑣ߫ḋᓣˈ↨䗮ᐌᰒ⼎ⱘĀϔ㟈ᑣ߫āᬜᵰ䖬དǄ MacBoxShade MacBoxShade˄៪㗙ㅔݭЎMacBox˅ˈᰃVMS/UNIXᑨ⫼⿟ᑣBoxShadeⱘϔϾMacintosh⠜ᴀˈ ᅗᦤկϔϾᕜㅔऩⱘᴎࠊՓᕫ໮ᑣ߫↨ᇍ㒧ᵰᔶ៤ϔᅮⱘḐᓣǄMacBoxা㛑䇏GCG MSFḐᓣⱘ ↨ᇍ᭛ӊˈ᠔ҹᖙ乏⫼݊Ҫ⿟ᑣ˄՟བReadSeq˅ᡞᑣ߫᭛ӊ䕀࣪Ўᅗৃҹ䯙䇏ⱘᔶᓣǄ㱑✊ াᬃᣕϔ⾡䕧ܹḐᓣˈԚᰃݡ䕧ߎϞህ᳝䕗໮ⱘ䗝乍њ˖䖭ࣙᣀPostScriptˈᬃᣕ PostScriptᠧॄᴎ៪㗙⫼PostScriptᔶᓣ⌣㾜˗䖬᳝PICTˈ㔎ⳕⱘMacintoshḐᓣˈৃҹ䕧ܹ ࠄᄫ໘⧚៪㗙೒ᔶ໘⧚䕃ӊЁএǄ䗮䖛໻䞣ⱘㅔऩᇍ䆱Ḛˈ⫼᠋ৃҹᣛᅮ㡆ᔽᮍḜˈ㒭⅟෎ 䆄᭄ⱘᔶᓣˈҹঞϢ䅵ㅫϔ㟈ᑣ᳝߫݇ⱘ䗝乍Ǆ Sims੠GroupsᰃϸϾ䞡㽕ⱘᇍ䆱Ḛˈ᥻ࠊњབԩ䅵ㅫϔ㟈ᑣ߫ˈϸ㗙ⱘऎ߿ᕜ㒚ᖂԚᰃकߚ 䞡㽕ǄSimsᇍ䆱ḚᅮНњҔМḋⱘ⅟෎П䯈ⳌѦⳌԐˈᑊϨ݇㋏ᑊ䴲Ⳍড˗Groupsᇍ䆱Ḛܕ 䆌⹂䅸⾏ᬷⱘ㕸ԧˈݡ䖭ѯ㕸ԧЁˈ᠔᳝ৠϔϾ㕸ԧЁⱘ⅟෎䛑䅸ЎᰃⳌৠⱘˈህᰃ䇈ˈབ ᵰϔϾ㕸ԧ㹿ᅮНЎᢹ᳝lysineˈarginine੠histidineˈ䙷М೼ϔϾ↨ᇍЁ㒭ᅮԡ⚍ߎ⦃ӏ ԩϔϾ䖭ḋⱘ⅟෎䛑Ӯ㹿䅸Ўᰃऍ䜡ⱘǄẔ⌟䖭ϸϾᇍ䆱Ḛकߚ䞡㽕ˈ಴Ў⫼᠋Ꮰᳯ⫼㔎ⳕ ؐ䅵ㅫϔ㟈ᑣ߫Ǆ Ўњᦣ䗄MacBoxⱘՓ⫼ˈϔᅮ䞣ⱘ㒘㲟ⱑH1ᑣ߫੠Ң䝉↡ЁᕫࠄⱘH1㒣䖛↨ᇍˈᑊϨ㹿䕀࣪ ЎMSFḐᓣˈ䖭ϾMSFᑣ߫᭛ӊ㹿MacBoxᠧᓔˈᑊϨ㽕∖⿟ᑣ䗮䖛᱂䗮ᇍ䆱Ḛᠧॄϔ㟈ᑣ߫Ǆ 䖬ᰃ೼ৠϔϾᇍ䆱ḚЁˈᰒ⼎ϔ㟈ᑣ߫ⱘᮍ⊩㹿ᬍЎBLUˈᛣᗱᰃ೼ϔϾ㒭ᅮԡ⚍ˈ䴲ֱᅜԡ ⚍⫼ぎḐ˄blank˅㸼⼎ˈֱᅜ⅟෎⫼ᇣݭᄫ↡㸼⼎ˈⳌৠ⅟෎⫼໻ݭᄫ↡㸼⼎Ǆ㽕ⳳℷ䖤㸠 ↨ᇍ⿟ᑣˈৃҹҢ“Do itʽāϟᢝ㦰ऩЁ䗝ᢽ“Display PICT”ˈӮѻ⫳བ೒8.7ⱘにষˈ ϔ㟈ᑣ߫ⱘ㸼⼎⊩ৃҹ೼᱂䗮ᇍ䆱ḚЁᬍব៤⫼᠋ᳳᳯⱘᔶᓣǄ⫼᠋ৃҹϡ䈵䖭䞠᠔԰ⱘḍ ᥂᠔᳝ᑣ߫ⱘⳌԐᗻ⬭ϟ䰈ᕅⱘᔶᓣˈ㗠ᰃৃҹᣛᅮ↨ᇍЁⱘϔϾऩϾᑣ߫ˈ✊ৢḍ᥂݊Ҫ ᑣ߫ৠ䖭Ͼᑣ߫ⳌԐᗻⱘ⿟ᑺ⬭ϟ䰈ᕅǄ ᇍѢ≵᳝Macintosh៪㗙UNIXᴎ఼ⱘ⫼᠋ᴹ䇈ˈॳྟⱘBoxShade⿟ᑣৃҹ䗮䖛Ѧ㘨㔥䆓䯂ˈ䗮䖛ϟᢝ㦰ऩ㗠ϡᰃϞ䗄ⱘᇍ䆱ḚǄᔧ✊ˈ䙷ḋᰃϡৃ㛑䗝ᢽ㡆ᔽᮍḜ៪㗙䗝ᢽབԩᰒ⼎ϔϾ ㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ8/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第八章多序列比对的实际应用页码,9/11 致序列了,但是可以指定一致序列基于字母还是符号 ALSCRI PT ALSCRIPT是一个基于UNX或者PC机平台的程序,它可以灵活地把多序列比对的输出结果格式化为 PostScri p格式,然后比对就可以在 Postscri p打印机上打印或者用 PostScri pt浏览。 ALSCRIPT的输入必须是如下三种格式之一:一个块文件, CLUSTAL W格式或者GCG格式;使用 CLUS2BLC和MSF2BLC程序可以把其他格式转化为 ALSCRIPT可以阅读的格式,这两个程序都在 ALSCRIPT程序包中。 ALSCRIPT在报告比对时提供了很好的灵活性:用户可以指定字体,部分比对的方框,选择阴影,增加文本识别,增加符号和行数以及颜色的选择。虽然 ALSCRIPT本身不能产生或者编辑比对,但是它可以计算出一致序列并且用适当的方式显示匹配于一致序列的残基。正确使用程序可以揭示序列中的某些特征,比如电荷分布或者序列信号。图8.8显示了一个 ALSCRIPT命令文件格式的例子,命令文件被分解为两个逻辑部分,称为步骤 1和步骤2。步骤1(step1)命令控制了比对的总体面貌:字体型号,字体大小,记录定向以及颜色定义等等,步骤1还给出了输入文件(BL0 CK FILE,块文件)的位置以及比对输出的写入文件(OUT_FLE,输出文件)。步骤2(Step2)与比对的特定部分有关,比如改变同每个序列相邻的标号,给特定的残基或者区域打上方框或阴影,给比对标上注释以及计算一致序列。所有这些例子都显示在图8.8中。注意那些注释行(行前标记为#),它们简单地介绍了每一个代码块的作用,这些代码都是由普通的大多数命令都使用的语法写的。跟在 B0XREG0N命令后面的四个数字显示序列中哪些区域被召集,在这里,第一个BOX_REG|ON命令后面是63158,意思是从第三个序列的第六个残基开始到第八个序列的第十五个残基扌上方框。写好的文件可以直接被 ALSCR|PT使用,这些文件可以从网上得到,也可以由发布的 UN|X版本自带 ALSCR|PT和 MacBox shade使用的序列例子是一样的,但是程序本质上是不一样的,报告序列也是不一样的,图8.7和8.9的区别是很明显的。怎样评估和权衡十分容易: MacBox Shade比较容易使用,因为所有因素都是对话框形式的,但是选项有限:而 ALSCRIPT提供了更多的输出选项,但是正如显示的命令文件,学习怎样指定输出的格式需要一定的时间作为代价。实际上, ALSCRIPT命令文件可以由模式组成,这些模式使用于一个比对到另一个比对,只要用户对数字作必要的修改,这是一个很专业的产出结果。怎样选择比对格式工具依赖于用户的最终应用需要是要进行迅速地浏览观测还是要得到拥有出版质量的图形。第八章中涉及到的有关课题的互联网地址: 比对方法 HTTP网址 Cal i gnment method) Clustal w http://www2.ebi.ac.uk/culstalw/ http://www.ibc.wustle.edu/ibc/msa.html Mul talin http://www.toulouseinrafr/cgi-bin/multalin.pl 模体和样式HP网址 (moti fs and file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18

ϔ㟈ᑣ߫њˈԚᰃৃҹᣛᅮϔ㟈ᑣ߫෎Ѣᄫ↡䖬ᰃヺোǄ ALSCRIPT ALSCRIPTᰃϔϾ෎ѢUNIX៪㗙PCᴎᑇৄⱘ⿟ᑣˈᅗৃҹ♉⌏ഄᡞ໮ᑣ߫↨ᇍⱘ䕧ߎ㒧ᵰḐᓣ ࣪ЎPostScriptḐᓣˈ✊ৢ↨ᇍህৃҹ೼PostScriptᠧॄᴎϞᠧॄ៪㗙⫼PostScript⌣㾜Ǆ ALSCRIPTⱘ䕧ܹᖙ乏ᰃབϟϝ⾡ḐᓣПϔ˖ϔϾഫ᭛ӊˈCLUSTAL WḐᓣ៪㗙GCGḐᓣ˗Փ⫼ CLUS2BLC੠MSF2BLC⿟ᑣৃҹᡞ݊ҪḐᓣ䕀࣪ЎALSCRIPTৃҹ䯙䇏ⱘḐᓣˈ䖭ϸϾ⿟ᑣ䛑೼ ALSCRIPT⿟ᑣࣙЁǄALSCRIPT೼᡹ਞ↨ᇍᯊᦤկњᕜདⱘ♉⌏ᗻ˖⫼᠋ৃҹᣛᅮᄫԧˈ䚼ߚ ↨ᇍⱘᮍḚˈ䗝ᢽ䰈ᕅˈ๲ࡴ᭛ᴀ䆚߿๲ˈࡴヺো੠㸠᭄ҹঞ买㡆ⱘ䗝ᢽǄ㱑✊ALSCRIPTᴀ 䑿ϡ㛑ѻ⫳៪㗙㓪䕥↨ᇍˈԚᰃᅗৃҹ䅵ㅫߎϔ㟈ᑣ߫ᑊϨ⫼䗖ᔧⱘᮍᓣᰒ⼎ऍ䜡Ѣϔ㟈ᑣ ߫ⱘ⅟෎Ǆℷ⹂Փ⫼⿟ᑣৃҹᧁ⼎ᑣ߫Ёⱘᶤѯ⡍ᕕˈ↨བ⬉㥋ߚᏗ៪㗙ᑣֵ߫োǄ ೒8.8ᰒ⼎њϔϾALSCRIPTੑҸ᭛ӊḐᓣⱘ՟ᄤˈੑҸ᭛ӊ㹿ߚ㾷ЎϸϾ䘏䕥䚼ߚ鹵ˈЎℹ偸 ੠ℹ偸Ǆℹ偸˄Step1˅ੑҸ᥻ࠊњ↨ᇍⱘᘏԧ䴶䉠˖ᄫԧൟোˈᄫԧ໻ᇣˈ䆄ᔩᅮ৥ҹ ঞ买㡆ᅮНㄝㄝˈℹ偸䖬㒭ߎњ䕧ܹ᭛ӊ˄BLOCK_FILE, ഫ᭛ӊ˅ⱘԡ㕂ҹঞ↨ᇍ䕧ߎⱘݭ ܹ᭛ӊ˄OUT_FILE, 䕧ߎ᭛ӊ˅Ǆℹ偸2 (Step2) Ϣ↨ᇍⱘ⡍ᅮ䚼ߚ↨ˈ᳝݇བᬍবৠ↣ϔ Ͼᑣ߫Ⳍ䚏ⱘᷛোˈ㒭⡍ᅮⱘ⅟෎៪㗙ऎඳᠧϞᮍḚ៪䰈ᕅˈ㒭↨ᇍᷛϞ⊼䞞ҹঞ䅵ㅫϔ㟈 ᑣ߫Ǆ᠔᳝䖭ѯ՟ᄤ䛑ᰒ⼎೼೒8.8ЁǄ⊼ᛣ䙷ѯ⊼䞞㸠˄㸠ࠡᷛ䆄Ў˅ˈᅗӀㅔऩഄҟ㒡 њ↣ϔϾҷⷕഫⱘ԰⫼ˈ䖭ѯҷⷕ䛑ᰃ⬅᱂䗮ⱘ໻໮᭄ੑҸ䛑Փ⫼ⱘ䇁⊩ݭⱘǄ䎳೼ BOX_REGIONੑҸৢ䴶ⱘಯϾ᭄ᄫᰒ⼎ᑣ߫Ёાѯऎඳ㹿ী䲚ˈ೼䖭䞠ˈ㄀ϔϾBOX_REGIONੑ Ҹৢ䴶ᰃ6 3 15 8ˈᛣᗱᰃҢ㄀ϝϾᑣ߫ⱘ㄀݁Ͼ⅟෎ᓔྟࠄܿ㄀Ͼᑣ߫ⱘ㄀कѨϾ⅟෎ᠧ ϞᮍḚǄݭདⱘ᭛ӊৃҹⳈ᥹㹿ALSCRIPTՓ⫼ˈ䖭ѯ᭛ӊৃҹҢ㔥Ϟᕫࠄˈгৃҹ⬅থᏗⱘ UNIX⠜ᴀ㞾ᏺǄ ALSCRIPT੠MacBoxShadeՓ⫼ⱘᑣ߫՟ᄤᰃϔḋⱘˈԚᰃ⿟ᑣᴀ䋼Ϟᰃϡϔḋⱘˈ᡹ਞᑣ߫г ᰃϡϔḋⱘˈ೒8.7੠8.9ⱘऎ߿ᰃᕜᯢᰒⱘǄᗢḋ䆘Ԅ੠ᴗ㸵कߚᆍᯧ˖MacBoxShade↨䕗ᆍ ᯧՓ⫼ˈ಴Ў᠔᳝಴㋴䛑ᰃᇍ䆱ḚᔶᓣⱘˈԚᰃ䗝乍᳝䰤˗㗠ALSCRIPTᦤկњ᳈໮ⱘ䕧ߎ䗝乍ˈԚᰃℷབᰒ⼎ⱘੑҸ᭛ӊˈᄺдᗢḋᣛᅮ䕧ߎⱘḐᓣ䳔㽕ϔᅮⱘᯊ䯈԰ЎҷӋǄᅲ䰙 ϞˈALSCRIPTੑҸ᭛ӊৃҹ⬅῵ᓣ㒘៤ˈ䖭ѯ῵ᓣՓ⫼ѢϔϾ↨ᇍࠄ঺ϔϾ↨ᇍˈা㽕⫼᠋ ᇍ᭄ᄫ԰ᖙ㽕ⱘׂᬍˈ䖭ᰃϔϾᕜϧϮⱘѻߎ㒧ᵰǄᗢḋ䗝ᢽ↨ᇍḐᓣᎹ݋ձ䌪Ѣ⫼᠋ⱘ᳔ 㒜ᑨ⫼䳔㽕ᰃ㽕䖯㸠䖙䗳ഄ⌣㾜㾖⌟䖬ᰃ㽕ᕫࠄᢹ᳝ߎ⠜䋼䞣ⱘ೒ᔶǄ ㄀ܿゴЁ⍝ঞࠄⱘ᳝݇䇒乬ⱘѦ㘨㔥ഄഔ˖ ↨ᇍᮍ⊩ ˄alignment method˅ HTTP㔥ഔ Clustal W http://www2.ebi.ac.uk/culstalw/ MSA http://www.ibc.wustle.edu/ibc/msa.html MultAlin http://www.toulouse.inra.fr/cgi-bin/multalin.pl ῵ԧ੠ḋᓣ (motifs and HTTP㔥ഔ ㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ9/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击下载完整版文档（PDF格式）

共11页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录