当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

《生物信息学》课程教学资源(中译本)第七章 序列比对和数据库搜索

资源类别:文库,文档格式:PDF,文档页数:28,文件大小:255.77KB,团购合买
在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正 是研究比较了 gal pagos finches同其它一些物种的形态学特征,从而提出了自然选择学说 今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分 析,只不过更加精细,更加详尽。在这个意义上,我们从核酸以及氨基酸的层次去分析序列 的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法 是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。
点击下载完整版文档(PDF)

第七章序列比对和数据库搜索 页码,1/2 第七章:序列比对和数据库搜索 gory D. Schuler Nati onal Center for Biotechnol ogy I nformati on Nati onal Li brary of Medi ci ne. Nati onal Insti tutes of Heal th Bethesda. Maryl and 引言 在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正 是研究比较了 gal pagos finches同其它一些物种的形态学特征,从而提出了自然选择学说 今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分 析,只不过更加精细,更加详尽。在这个意义上,我们从核酸以及氨基酸的层次去分析序列 的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法 是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。在 这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将 在第八章介绍。 七十年代以来,DMA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较 的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知 序列进行比较分析已经成为他们手中一个强有力的研究手段。在过去的三十年里,即使不提 及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够 跟上序列数据库增长的步伐。今天,我们已经拥有一些小的模式物种的基因组的全序列,还 拥有人类基因序列的一些较大的样品,我们己经进入比较基因组时代,也就是说,对两个物 种进行全基因组序列比较已经不再是一个梦想。 序列比对的进化基础 进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定 二者之间是否具有同源性。值得注意的是,相似性和同源性虽然在某种程度上具有一致性, 但它们是完全不同的两个概念。相似性是指一种很直接的数量关系,比如部分相同或相似的 百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具 有共同祖先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具 有多或少的数量关系。如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具 有41%的相似性 由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上 建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实 上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的DNA,我们所能 够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括取代、插入以及 缺失。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取 代的情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序 BioinformaticS: A Practi cal Gui de to the Anal ysis of Genes and proteins Edi ted by A D. Baxevani s and B F.F. Ouel lette I SBN0-471-19196-5 pages 145-171. Copyri ghto 1998 Wiley-Liss. Inc file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

㄀ϗゴ˖ᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ Gregory D.Schuler National Center for Biotechnology Information National Library of Medicine. National Institutes of Health Bethesda. Maryland ᓩ㿔 ೼⫳⠽ᄺⱘⷨおЁ᳝ϔϾᐌ⫼ⱘᮍ⊩ህᰃ䗮䖛↨䕗ߚᵤ㦋প᳝⫼ⱘֵᙃ੠ⶹ䆚DŽ䖒ᇨ᭛ℷ ᰃⷨお↨䕗њgalapagos finchesৠ݊ᅗϔѯ⠽⾡ⱘᔶᗕᄺ⡍ᕕˈҢ㗠ᦤߎњ㞾✊䗝ᢽᄺ䇈DŽ Ҟ໽ˈ៥Ӏᇍ෎಴੠㲟ⱑ䋼ᑣ߫䖯㸠↨䕗ˈҢᴀ䋼Ϟᴹ䆆ᰃৠ䖒ᇨ᭛ϔḋˈ䖯㸠ৠḋⱘߚ ᵤˈাϡ䖛᳈ࡴ㊒㒚ˈ᳈ࡴ䆺ሑDŽ೼䖭ϾᛣНϞˈ៥ӀҢḌ䝌ҹঞ⇼෎䝌ⱘሖ⃵এߚᵤᑣ߫ ⱘⳌৠ⚍੠ϡৠ⚍ˈҹᳳ㛑໳᥼⌟ᅗӀⱘ㒧ᵘǃࡳ㛑ҹঞ䖯࣪Ϟⱘ㘨㋏DŽ᳔ᐌ⫼ⱘ↨䕗ᮍ⊩ ᰃᑣ߫↨ᇍˈᅗЎϸϾ៪᳈໮Ͼᑣ߫ⱘ⅟෎П䯈ⱘⳌѦ݇㋏ᦤկњϔϾ䴲ᐌᯢ⹂ⱘ೒䈅DŽ೼ 䖭ϔゴˈ៥Ӏা䅼䆎ϔϟঠ䞡↨ᇍˈेা↨䕗ϸϾᑣ߫ˈ㟇Ѣ䕗໮ⱘᑣ߫े໮ᑣ߫↨ᇍˈᇚ ೼㄀ܿゴҟ㒡DŽ ϗकᑈҷҹᴹˈDNA⌟ᑣᮍ⊩ⱘ亲䗳থሩˈᵕ໻ഄᓩথњᑣֵ߫ᙃ䞣ⱘᠽ๲ˈҢ㗠Փৃկ↨䕗 ⱘᑣ᭄߫䞣ਜ⦄⟚⚌ᓣ๲䭓DŽߚᄤ⫳⠽ᄺᆊᑨ䆹ᛣ䆚ࠄˈᇚ᳾ⶹᑣ߫ৠᭈϾ᭄᥂ᑧЁⱘᏆⶹ ᑣ߫䖯㸠↨䕗ߚᵤᏆ㒣៤ЎҪӀ᠟ЁϔϾᔎ᳝࡯ⱘⷨお᠟↉DŽ೼䖛এⱘϝकᑈ䞠ˈेՓϡᦤ ঞ䅵ㅫᴎⱘᑨ⫼ˈᑣ߫↨䕗ⱘ৘⾡ㅫ⊩гᏆ㒣থሩᕫ䍞ᴹ䍞䖙䗳ˈг䍞ᴹ䍞៤❳ˈᏆ㒣㛑໳ 䎳Ϟᑣ᭄߫᥂ᑧ๲䭓ⱘℹӤDŽҞ໽ˈ៥ӀᏆ㒣ᢹ᳝ϔѯᇣⱘ῵ᓣ⠽⾡ⱘ෎಴㒘ⱘܼᑣ߫ˈ䖬 ᢹ᳝Ҏ㉏෎಴ᑣ߫ⱘϔѯ䕗໻ⱘḋકˈ៥ӀᏆ㒣䖯ܹ↨䕗෎಴㒘ᯊҷˈгህᰃ䇈ˈᇍϸϾ⠽ ⾡䖯㸠ܼ෎಴㒘ᑣ߫↨䕗Ꮖ㒣ϡݡᰃϔϾṺᛇDŽ ᑣ߫↨ᇍⱘ䖯࣪⸔෎ 䖯㸠ᑣ߫↨ᇍⱘⳂⱘПϔᰃ䅽ҎӀ㛑໳߸ᮁϸϾᑣ߫П䯈ᰃ৺݋᳝䎇໳ⱘⳌԐᗻˈҢ㗠߸ᅮ Ѡ㗙П䯈ᰃ৺݋᳝ৠ⑤ᗻDŽؐᕫ⊼ᛣⱘᰃˈⳌԐᗻ੠ৠ⑤ᗻ㱑✊೼ᶤ⾡⿟ᑺϞ݋᳝ϔ㟈ᗻˈ ԚᅗӀᰃᅠܼϡৠⱘϸϾὖᗉDŽⳌԐᗻᰃᣛϔ⾡ᕜⳈ᥹ⱘ᭄䞣݇㋏ˈ↨བ䚼ߚⳌৠ៪ⳌԐⱘ ⱒߚ݊៪↨ᅗϔѯড়䗖ⱘᑺ䞣ˈ㗠ৠ⑤ᗻᰃᣛҢϔѯ᭄᥂Ё᥼ᮁߎⱘϸϾ෎಴೼䖯࣪Ϟ᳒݋ ᳝݅ৠ⼪ܜⱘ㒧䆎ˈᅗᰃ䋼ⱘ߸ᮁDŽ෎಴П䯈㽕Мৠ⑤ˈ㽕Мϡৠ⑤ˈ㒱ϡ䈵ⳌԐᗻ䙷ḋ݋ ᳝໮៪ᇥⱘ᭄䞣݇㋏DŽབ೒7.1᠔⼎ˈ↨䕗ᆊ哴੠ᇣ啭㱒ⱘৠ⑤ⱘ㛄㲟ⱑ䝊ᑣ߫ˈথ⦄ᅗӀ݋ ᳝41%ⱘⳌԐᗻDŽ ⬅Ѣফࠄⷨお䖯࣪LTD݇䖭ϔⳂⱘⱘᕅડˈ໻໮᭄↨ᇍᮍ⊩ᕜ㞾✊ഄ䛑Ꮰᳯ㛑໳೼ᶤ⾡⿟ᑺϞ ᓎゟ䍋ߚᄤ䖯࣪ⱘ῵ൟDŽ៥Ӏ䗮ᐌ䛑؛ᅮৠ⑤ᑣ߫ᰃҢᶤϔ݅ৠ⼪ܜϡᮁব࣪㗠ᴹˈԚџᅲ Ϟˈ៥Ӏ᮴⊩ᕫⶹ䖭Ͼ⼪ܜᑣ߫ࠄᑩᰃҔМḋᄤˈ䰸䴲㛑໳Ң࣪⷇Ё㦋ᕫᅗⱘDNAˈ៥Ӏ᠔㛑 ໳ࠄخⱘাᰃҢ⦄ᄬ⠽⾡Ёˈ᥶∖ⳳⳌDŽҢ⼪ܜᑣ߫ҹᴹ᠔থ⫳ⱘবࣙ࣪ᣀপҷǃᦦܹҹঞ 㔎༅DŽ೼⧚ᛇᚙމϟˈৠ⑤෎಴៪㲟ⱑ䋼ᑣ߫೼ⳌѦ↨䕗ᯊˈ⅟෎П䯈ⳌѦᇍᑨˈҢ㗠Փপ ҷⱘᚙމᕜᯢᰒഄ㸼⦄ߎᴹDŽ೼ᶤѯԡ㕂ˈϔϾᑣ߫Ёᢹ᳝ᶤѯ⅟෎㗠঺ϔϾᑣ Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins Edited by A.D.Baxevanis and B.F.F.Ouellette ISBN 0-471-19196-5.pages 145-171. Copyright© 1998 Wiley-Liss. Inc. ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ1/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第七章序列比对和数据库搜索 页码,2/28 列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对 时用连续的短线填补。如图7.1,在序列比对中,发现了5个空位 Mouse i VgGYnceeNSvPYoVSLNs-----GYHFCGGSLI NEOWVVSAGHCYK SRIOV Crayfish IVGGTDAVLGEFPYOLSFQETFLGFSFHFCGASI YNENYAI TAGHCVYGDDYENPSGLQI Mouse RlgeHNi evlegneofi NAaKl i rHPoydrKtLNnDi mLl KlSSRAVi NARvSTI septa Crayfi sh VAGELDMSVNEGSEQTLTVSKI ILHENFDYDLLDNDI SLLKLSGSLTFNNNVAPIALPAQ -S-S- Mouse ppatgtKCLi sgWgntasSgadyPdeloCldAPVlsoAKceASYPg-KI TSNMFCVGFLE Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLOKVTVPLVSDAECRDDYGADEIFDSMI CAGVPE ◇+------S Mouse ggKdsCogDSGGPWCNG----QLOGVVSWGDGCAOKNKPGVYTKVYNYVKWI KNTI AAN Crayfish GGKDSCOGDSGGPLAASDTGSTYLAGI VSWGYGCARPGYPGVYTEVSYHVDWI KANAV 图7.1、保守位点通常在功能上极为重要。对老鼠的胰蛋白酶( Swiss- Prot p07146)和小龙 虾的胰蛋白酶( Swiss- Prot p00765)作比对,相同的残基用下标线标出,在比对上方标出的 是三个二硫键(-S-S),这些二硫键中的半胱氨酸残基极为保守,打星号的残基的侧链参与 电荷传递系统,打菱形符号的活性位点的残基负责底物的特异性 在残基-残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守 性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图7.1所示,处 于活性位点的残基都是极为保守的,比如形成二硫键的半胱氨酸,参与电子传递的氨基酸残 基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重 要,另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。当我们处理非 常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的 反映,比如,muse和rat的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进 行分化而已。尽管如此,系列比对仍然是从已知获得未知的一个十分有用的方法,比如通过 比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的 某些性质。必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论 还必须经过实验验证。 当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进 化历程,从而我们判断他们会具有相似的生物学功能,但是,这个推断在成为结论之前必须 经过实验的验证。例如,ξ-晶状物是脊椎动物眼睛里晶状体基质的组成部分,根据序列相似 性的基础,它在E.coli中的同源物是代谢酶苯醌氧化还原酶(如图7.2),不管二者的共同祖 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

߫Ё㔎ᇥ䖭⾡⅟෎ˈ㸼ᯢ䖭ѯ⅟෎ᰃᦦܹࠄࠡ㗙៪ᰃҢৢ㗙Ё϶༅ⱘDŽ䖭ѯぎԡ೼ᑣ߫↨ᇍ ᯊ⫼䖲㓁ⱘⷁ㒓฿㸹DŽབ೒7.1ˈ೼ᑣ߫↨ᇍЁˈথ⦄њϾぎԡDŽ |------ S-S-------*| Mouse IVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------SRIQV Crayfish IVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI * Mouse RLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTA Crayfish VAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ |---- S-S--------| Mouse PPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLE Crayfish GHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE ƺ *|-------------S-S------------------| Mouse GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN Crayfish GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-- ೒7.1ǃֱᅜԡ⚍䗮ᐌ೼ࡳ㛑ϞᵕЎ䞡㽕DŽᇍ㗕哴ⱘ㛄㲟ⱑ䝊˄Swiss-Prot P07146˅੠ᇣ啭 㱒ⱘ㛄㲟ⱑ䝊˄Swiss-Prot P00765˅԰↨ᇍˈⳌৠⱘ⅟෎⫼ϟᷛ㒓ᷛߎ↨೼ˈᇍϞᮍᷛߎⱘ ᰃϝϾѠ⸿䬂˄-S-S˅ˈ䖭ѯѠ⸿䬂Ёⱘञ㛅⇼䝌⅟෎ᵕЎֱᅜˈᠧ᯳োⱘ⅟෎ⱘջ䫒খϢ ⬉㥋Ӵ䗦㋏㒳ˈᠧ㧅ᔶヺোⱘ⌏ᗻԡ⚍ⱘ⅟෎䋳䋷ᑩ⠽ⱘ⡍ᓖᗻDŽ ೼⅟෎⅟෎↨ᇍЁˈᕜᯢᰒˈᶤѯԡ㕂ⱘ⇼෎䝌⅟෎ⳌᇍѢ݊ᅗԡ㕂ⱘ⅟෎݋᳝䕗催ⱘֱᅜ ᗻˈ䖭Ͼֵᙃᧁ⼎њᶤѯ⅟෎ᇍѢϔϾ㲟ⱑ䋼ⱘ㒧ᵘ੠ࡳ㛑ᰃᵕЎ䞡㽕ⱘDŽབ೒7.1᠔⼎ˈ໘ Ѣ⌏ᗻԡ⚍ⱘ⅟෎䛑ᰃᵕЎֱᅜⱘˈ↨བᔶ៤Ѡ⸿䬂ⱘञ㛅⇼䝌ˈখϢ⬉ᄤӴ䗦ⱘ⇼෎䝌⅟ ෎ҹঞއᅮᑩ⠽⡍ᓖᗻⱘ⇼෎䝌⅟෎DŽ䖭ѯֱᅜⱘ⅟෎ᇍѢֱᣕ㲟ⱑⱘ㒧ᵘϢࡳ㛑䴲ᐌ䞡 㽕ˈ঺ϔᮍ䴶ˈ⬅Ѣग़৆ॳ಴ˈᶤѯֱᅜԡ㕂ᇍ㲟ⱑࡳ㛑ᑊ᮴໾໻ⱘ䞡㽕ᗻDŽᔧ៥Ӏ໘⧚䴲 ᐌⳌ䖥ⱘ⠽⾡ᯊᖙ乏कߚᇣᖗˈ಴ЎⳌԐᗻ೼ᶤѯᚙމϟ᳈໮ഄᰃग़৆ⱘড᯴㗠ϡᰃࡳ㛑ⱘ ড᯴ˈ↨བˈmouse੠ratⱘᶤѯᑣ߫݋᳝催ᑺⱘⳌԐᗻˈৃ㛑ҙҙᰃ಴Ў≵᳝䎇໳ⱘᯊ䯈䖯 㸠࣪ߚ㗠ᏆDŽሑㅵབℸˈ㋏߫↨ᇍҡ✊ᰃҢᏆⶹ㦋ᕫ᳾ⶹⱘϔϾकߚ⫼᳝ⱘᮍ⊩ˈ↨བ䗮䖛 ↨䕗ϔϾᮄⱘ㲟ⱑৠ݊ᅗᏆ㒣㒣䖛⏅ܹⷨおⱘ㲟ⱑˈৃҹ᥼ᮁ䖭Ͼ᳾ⶹ㲟ⱑⱘ㒧ᵘϢࡳ㛑ⱘ ᶤѯᗻ䋼DŽᖙ乏ᣛߎⱘᰃˈϡ㛑໳ҙҙᰃ䗮䖛↨䕗ߚᵤ䖭ϔ߸᥂ᴹᮁᅮ㒧䆎ᰃ৺ℷ⹂ˈ㒧䆎 䖬ᖙ乏㒣䖛ᅲ偠偠䆕DŽ ᔧ៥Ӏথ⦄ϸϾ෎಴៪㲟ⱑ䋼݋᚞᳝ҎⱘⳌԐᗻᯊˈ៥ӀӮ䅸ЎҪӀП䯈݋᳝ϔ↉݅ৠⱘ䖯 ࣪ग़⿟ˈҢ㗠៥Ӏ߸ᮁҪӀӮ݋᳝ⳌԐⱘ⫳⠽ᄺࡳ㛑ˈԚᰃˈ䖭Ͼ᥼ᮁ೼៤Ў㒧䆎Пࠡᖙ乏 㒣䖛ᅲ偠ⱘ偠䆕DŽ՟བˈȗ᱊⢊⠽ᰃ㛞Ợࡼ⠽ⴐ⴯䞠᱊⢊ԧ෎䋼ⱘ㒘៤䚼ߚˈḍ᥂ᑣ߫ⳌԐ ᗻⱘ෎⸔ˈᅗ೼E.coliЁⱘৠ⑤⠽ᰃҷ䇶䝊㣃䝠⇻࣪䖬ॳ䝊˄བ೒7.2˅ˈϡㅵѠ㗙ⱘ݅ৠ⼪ ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ2/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第七章序列比对和数据库搜索 页码,3/2 先如何,它们的功能在进化中已经改变了( Gonzalez et al.,1994)。这就好象火车变成了 铁路餐车,虽然对二者的外部结构的观察揭示了它们结构的历史,但是仅仅根据这一信息往 往会得出有关其功能的错误结论。当一个基因适应了一个新的功能时,保守位置通常也会发 生一些形式上的变化,比如,当蛋白具有催化功能时,活性为点的残基相当保守,而当蛋白 功能改变时,这些残基将会发生漂移。 Human-ZCr MATGOKLMRAVRVFEFGGPEVLKLRSDI AVPI PKDHOVLI KVHACGVNPVETYI RSGTYS Ecol i-OOR MATRI EFHKHGGPEVLOA-VEFTPADPAENEI OVENKAI GI NFI DTYI RSGLYP Human -ZCr RKPLLPYTPGSDVAGVI EAVGDNASAFKKGDRVETSSTI SGGYAEYALAADHTVYKLPEK Ecol i-OOR -PPSLPSGLGTEAAGI VSKVGSGVKHI KAGDRWVYAQSALGAYSSVHNI I ADKAAI LPAA 大大大★ 大大大大大 luman -ZCr LDFKOGAAI GI PYFTAYRALI HSACVKAGESVLVHGASGGVGLAACQL ARAYGLKI LGTA Ecol i-OOR I SFEOAAASFLKGLTVYYLLRKTYEI KPDEOFLFHAAAGGVGLI ACOWAKALGAKLI GTV Human-ZCr GTEEGOKI VLONGAHEVFNHREVNYI DK I KKYVGEKGI DI II EMLANVNLSKDLSLLSHG Ecol i-QOR GTAOKAQSALKAGAWQVI NYREEDLVERLKEI TGGKKVRVVYDSVGRDTWERSLDCLORR Human -ZCr GRVIVVG-SRGTI EI NPROTMAKES----SI I GVTLFSSTKEEFOQYAAALOAGMEI GWL ECol i-OOR GLMVSFGNSSGAVTGVNLGI LNOKGSLYVTRPSLOGYI TTREELTEASNELFSLIASGVI 大大大 大大★ Human -ZCr KPVI GSQ--YPLEKVAEAHENI I HGSGATGKMI LLL Ecol i-OOR KVDVAEOQKYPLKDAORAHE-I LESRATOGSSLLI P 图72、最佳全局比对:对人类晶状物( Swi ss-Prot008257)和E.col苯醌氧化还原酶 ( Swi ss-- Prot p28304)的氨基酸序列进行比对。这是一个由 CLUSTAL W程序( Hi ggi ns et a.,1996)得到的最佳全局比对结果。在比对下方,星号表示残基相同,打点表示这个残基 是保守的。 早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。全序列比就 是对序列进行全程扫描,进行比较。以上讨论的胰蛋白酶和ξ晶状物之间的比较就属于全序 列比对。具有简单的球形结构域的蛋白一般可以使用全序列比对的策略,以为所有的同源序 列尚未经过实质上的变化 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

ܜབԩˈᅗӀⱘࡳ㛑೼䖯࣪ЁᏆ㒣ᬍবњ˄Gonzalez et al.,1994˅DŽ䖭ህད䈵☿䔺ব៤њ 䪕䏃令䔺ˈ㱑✊ᇍѠ㗙ⱘ໪䚼㒧ᵘⱘ㾖ᆳᧁ⼎њᅗӀ㒧ᵘⱘग़৆ˈԚᰃҙҙḍ᥂䖭ϔֵᙃᕔ ᕔӮᕫߎ᳝݊݇ࡳ㛑ⱘ䫭䇃㒧䆎DŽᔧϔϾ෎಴䗖ᑨњϔϾᮄⱘࡳ㛑ᯊˈֱᅜԡ㕂䗮ᐌгӮথ ⫳ϔѯᔶᓣϞⱘব࣪↨ˈབˈᔧ㲟ⱑ݋᳝ࡳ࣪ڀ㛑ᯊˈ⌏ᗻЎ⚍ⱘ⅟෎Ⳍᔧֱᅜˈ㗠ᔧ㲟ⱑ ࡳ㛑ᬍবᯊˈ䖭ѯ⅟෎ᇚӮথ⫳ⓖ⿏DŽ Human-ZCr MATGQKLMRAVRVFEFGGPEVLKLRSDIAVPIPKDHQVLIKVHACGVNPVETYIRSGTYS Ecoli-QOR ------MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP . . ******. . . * …. . . * *.* ..****** * Human-ZCr RKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEK Ecoli-QOR -PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA * ** *.. **.. ** . * **** . . * *. ** Human-ZCr LDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTA Ecoli-QOR ISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV . * * ** . * * * .. .* * * * *.***** *** *.* * *..** Human-ZCr GTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHG Ecoli-QOR GTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVGRDTWERSLDCLQRR ** . . *. ** .* * ** …. * * * . .. . . . . * * . Human-ZCr GRVIVVG-SRGTIEINPROTMAKES----SIIGVTLFSSTKEEFQQYAAALQAGMEIGWL Ecoli-QOR GLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI * .. * * *.. . . . . . .*.** . . * . . * . Human-ZCr KPVIGSQ--YPLEKVAEAHENIIHGSGATGKMILLL Ecoli-QOR KVDVAEQQKYPLKDAQRAHE-ILESRATQGSSLLIP * . * *** *** *. . * .*. ೒7.2ǃ᳔Շܼሔ↨ᇍ˖ᇍҎ㉏ȗ᱊⢊⠽˄Swiss-Prot Q08257˅੠E.coli㣃䝠⇻࣪䖬ॳ䝊 ˄Swiss-Prot P28304˅ⱘ⇼෎䝌ᑣ߫䖯㸠↨ᇍDŽ䖭ᰃϔϾ⬅CLUSTAL W⿟ᑣ˄Higgins et al., 1996˅ᕫࠄⱘ᳔Շܼሔ↨ᇍ㒧ᵰDŽ೼↨ᇍϟᮍˈ᯳ো㸼⼎⅟෎Ⳍৠˈᠧ⚍㸼⼎䖭Ͼ⅟෎ ᰃֱᅜⱘDŽ ᮽᳳⱘᑣ߫↨ᇍᮍ⊩াᑨ⫼Ѣ䙷ѯ೼ܼ䭓㣗ೈ݋ݙ᳝ㅔऩⳌԐᗻⱘϔѯᑣ߫DŽܼᑣ߫↨ᇍህ ᰃᇍᑣ߫䖯㸠ܼ⿟ᠿᦣˈ䖯㸠↨䕗DŽҹϞ䅼䆎ⱘ㛄㲟ⱑ䝊੠ȗ᱊⢊⠽П䯈ⱘ↨䕗ህሲѢܼᑣ ߫↨ᇍDŽ݋᳝ㅔऩⱘ⧗ᔶ㒧ᵘඳⱘ㲟ⱑϔ㠀ৃҹՓ⫼ܼᑣ߫↨ᇍⱘㄪ⬹ˈҹЎ᠔᳝ⱘৠ⑤ᑣ ߫ᇮ᳾㒣䖛ᅲ䋼Ϟⱘব࣪ ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ3/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第七章序列比对和数据库搜索 页码,4/2 Q 蛋白质的模块性质 许多蛋白质在全程范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。图7.3 描述了这样的一个例子,如图所示的是在血凝过程中的两种蛋白的组成结构,它们是凝血因 子Ⅺl(F12)和组织型血纤蛋白溶酶原活化因子(PLAT),除了具有丝氨酸蛋白酶活性的催 化结构域,这两种蛋白还具有不同数量的其它结构域单元,包括两种纤连蛋白重复,一个类 似于上皮生长因子的结构域以及一个成为“ kringle”域的单元。这些组分可以以不同顺序反 复出现,组分形式的不同通常是由于整个外显子交换引起的。由于全程比对建立时,基因的 外显子/内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性,这是可以 理解的。在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配 的序列段,而本来这些序列段是被一些完全不相关联的残基所淹没的,因此,操作者应该明 白,如果不恰当地使用了全程比对,很可能会掩埋一些局部的相似性。设计局部比对的另外 个很明显的原因就是在比较一个拼接后的mRNA和它的基因序列时,每个外显子都应该进行 局部比对。 图7.3、血凝过程中的两中蛋白的模块结构:人类组织血纤蛋白溶酶原活化因子以及凝血因 X的模块结构的示意图。标记为 Catalytic的模块在若干种凝血蛋白中是常见的,F1和F2是 较为常见的重复模块,首先在纤连蛋白中被发现。E模块同表皮生长因子极为类似。通常称 为" Kringle domain”的模块被标记为。 点阵描述方法之所以广泛流行,其部分原因就在于它能够揭示出拥有多个局部相似性的复杂 关系,图7.4就是应用这种处理后的一个例子。图中F12和PAT蛋白质序列使用D0TER程序进 行比较(软件可见本章结尾列表),其基本思路就是把两个序列分别作为一个二维坐标系中 的两个坐标轴,在这个坐标系区域内,如果某一点所对应的横轴坐标和纵轴坐标所对应的两 条序列的残基相同,则在这个位置上打上标记点,每个点通常都表示在一些小窗口中,序列 相似性高于其它一些隔绝的区域(或者由D0TTER程序定义的隔绝区域,由不同的灰色阴影标 记)。如果两个序列在一段区域内很相似,标记点将会连成一条斜线段,将这些线段的位置 同图7.3中两个蛋白的已知的组成结构相比较是很有价值的,特别是要注意连续反复出现的结 构域的出现方式。从PLAT的 kri ngl e结构域开始水平扫描,可以发现两条线段对应于F12序列 中的两个 kringle结构域,虽然现在我们已经拥有许多更复杂更精确的方法来寻求局部相似性 (下面将会讨论),点阵描述方法仍然是一个很流行很有效的描述方法 图7.4、点阵序列比较:对人类凝血因子(F12:Swss- Prot p00748)和组织血纤蛋白溶 酶原活化因子(PLAT:SWss- Prot p00750)的氨基酸序列进行打点比较。这个图由 DOTTER程 序( Sonnhammer and durbar,19%)产生。 在点阵描述方法中,某些形式的点可能会勾勒出一定的路径,但这需要操作者通过这些信息 进行推理,另外一个图形描述方法即路径郾提供了更直接明了的比较结果,图7.5描述了PL AT和PLAU中与EGF相似的结构域之间进行比较时的比对、点阵和路径图三种方法的 关系。 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

㲟ⱑ䋼ⱘ῵ഫᗻ䋼 䆌໮㲟ⱑ䋼೼ܼ⿟㣗ೈݙᑊϡ݋᳝ⳌԐᗻˈԚैԐТᰃ⬅ӫ໮ⱘ῵ഫ㒧ᵘඳᨁᓎ㗠៤DŽ೒7.3 ᦣ䗄њ䖭ḋⱘϔϾ՟ᄤˈབ೒᠔⼎ⱘᰃ೼㸔ޱ䖛⿟Ёⱘϸ⾡㲟ⱑⱘ㒘៤㒧ᵘˈᅗӀᰃޱ㸔಴ ᄤXII˄F12˅੠㒘㒛ൟ㸔㑸㲟ⱑ⒊䝊ॳ⌏࣪಴ᄤ˄PLAT˅ˈ䰸њ݋᳝ϱ⇼䝌㲟ⱑ䝊⌏ᗻⱘڀ ࣪㒧ᵘඳˈ䖭ϸ⾡㲟ⱑ䖬݋᳝ϡৠ᭄䞣ⱘ݊ᅗ㒧ᵘඳऩܗˈࣙᣀϸ⾡㑸䖲㲟ⱑ䞡໡ˈϔϾ㉏ ԐѢϞⲂ⫳䭓಴ᄤⱘ㒧ᵘඳҹঞϔϾ៤Ў“kringle”ඳⱘऩܗDŽ䖭ѯ㒘ߚৃҹҹϡৠ乎ᑣড ໡ߎˈ⦃㒘ߚᔶᓣⱘϡৠ䗮ᐌᰃ⬅ѢᭈϾ໪ᰒᄤѸᤶᓩ䍋ⱘDŽ⬅Ѣܼ⿟↨ᇍᓎゟᯊˈ෎಴ⱘ ໪ᰒᄤݙ৿ᄤ㒧ᵘ䖬≵᳝㹿থ⦄ˈ಴ℸܼ⿟↨ᇍᑊ≵᳝乒ঞࠄϞ䗄⦄䈵ⱘ䞡㽕ᗻˈ䖭ᰃৃҹ ⧚㾷ⱘDŽ೼໻໮᭄ᚙމϟˈՓ⫼ሔ䚼↨ᇍᰃ䕗Ўড়⧚ⱘˈ䖭⾡↨ᇍᮍ⊩ৃ㛑Ӯᧁ⼎ϔѯऍ䜡 ⱘᑣ߫↉ˈ㗠ᴀᴹ䖭ѯᑣ߫↉ᰃ㹿ϔѯᅠܼϡⳌ݇㘨ⱘ⅟෎᠔⏍≵ⱘˈ಴ℸˈ᪡԰㗙ᑨ䆹ᯢ ⱑˈབᵰϡᙄᔧഄՓ⫼њܼ⿟↨ᇍˈᕜৃ㛑Ӯ᥽ඟϔѯሔ䚼ⱘⳌԐᗻDŽ䆒䅵ሔ䚼↨ᇍⱘ঺໪ ϔϾᕜᯢᰒⱘॳ಴ህᰃ೼↨䕗ϔϾᣐ᥹ৢⱘmRNA੠ᅗⱘ෎಴ᑣ߫ᯊˈ↣Ͼ໪ᰒᄤ䛑ᑨ䆹䖯㸠 ሔ䚼↨ᇍDŽ ೒7.3ǃ㸔ޱ䖛⿟ЁⱘϸЁ㲟ⱑⱘ῵ഫ㒧ᵘ˖Ҏ㉏㒘㒛㸔㑸㲟ⱑ⒊䝊ॳ⌏࣪಴ᄤҹঞޱ㸔಴ᄤ XIIⱘ῵ഫ㒧ᵘⱘ⼎ᛣ೒DŽᷛ䆄ЎCatalyticⱘ῵ഫ೼㢹ᑆ⾡ޱ㸔㲟ⱑЁᰃᐌ㾕ⱘˈF1੠F2ᰃ 䕗Ўᐌ㾕ⱘ䞡໡῵ഫˈ佪ܜ೼㑸䖲㲟ⱑЁ㹿থ⦄DŽ(῵ഫৠ㸼Ⲃ⫳䭓಴ᄤᵕЎ㉏ԐDŽ䗮ᐌ⿄ Ў”Kringle domain”ⱘ῵ഫ㹿ᷛ䆄Ў.DŽ ⚍䰉ᦣ䗄ᮍ⊩П᠔ҹᑓ⊯⌕㸠ˈ݊䚼ߚ಴ॳህ೼Ѣᅗ㛑໳ᧁ⼎ߎᢹ᳝໮Ͼሔ䚼ⳌԐᗻⱘ໡ᴖ ݇㋏ˈ೒7.4ህᰃᑨ⫼䖭⾡໘⧚ৢⱘϔϾ՟ᄤDŽ೒ЁF12੠PLAT㲟ⱑ䋼ᑣ߫Փ⫼DOTTER⿟ᑣ䖯 㸠↨䕗˄䕃ӊৃ㾕ᴀゴ㒧ሒ߫㸼˅ˈ݊෎ᴀᗱ䏃ህᰃᡞϸϾᑣ߫߿ߚ԰ЎϔϾѠ㓈തᷛ㋏Ё ⱘϸϾതᷛ䕈ˈ೼䖭Ͼതᷛ㋏ऎඳݙˈབᵰᶤϔ⚍᠔ᇍᑨⱘ῾䕈തᷛ੠㒉䕈തᷛ᠔ᇍᑨⱘϸ ᴵᑣ߫ⱘ⅟෎Ⳍৠˈ߭೼䖭Ͼԡ㕂ϞᠧϞᷛ䆄⚍ˈ↣Ͼ⚍䗮ᐌ䛑㸼⼎೼ϔѯᇣにষЁˈᑣ߫ ⳌԐᗻ催Ѣ݊ᅗϔѯ䱨㒱ⱘऎඳ˄៪㗙⬅DOTTER⿟ᑣᅮНⱘ䱨㒱ऎඳˈ⬅ϡৠⱘ♄㡆䰈ᕅᷛ 䆄˅DŽབᵰϸϾᑣ߫೼ϔ↉ऎඳݙᕜⳌԐˈᷛ䆄⚍ᇚӮ䖲៤ϔᴵ᭰㒓↉ˈᇚ䖭ѯ㒓↉ⱘԡ㕂 ৠ೒7.3ЁϸϾ㲟ⱑⱘᏆⶹⱘ㒘៤㒧ᵘⳌ↨䕗ᰃᕜ᳝Ӌؐⱘˈ⡍߿ᰃ㽕⊼ᛣ䖲㓁ড໡ߎ⦃ⱘ㒧 ᵘඳⱘߎ⦃ᮍᓣDŽҢPLATⱘkringle㒧ᵘඳᓔྟ∈ᑇᠿᦣˈৃҹথ⦄ϸᴵ㒓↉ᇍᑨѢF12ᑣ߫ ЁⱘϸϾkringle㒧ᵘඳˈ㱑✊⦄೼៥ӀᏆ㒣ᢹ᳝䆌໮᳈໡ᴖ᳈㊒⹂ⱘᮍ⊩ᴹᇏ∖ሔ䚼ⳌԐᗻ ˄ϟ䴶ᇚӮ䅼䆎˅ˈ⚍䰉ᦣ䗄ᮍ⊩ҡ✊ᰃϔϾᕜ⌕㸠ᕜ᳝ᬜⱘᦣ䗄ᮍ⊩DŽ ೒7.4ǃ⚍䰉ᑣ߫↨䕗˖ᇍҎ㉏ޱ㸔಴ᄤXII˄F12˖Swiss-Prot P00748˅੠㒘㒛㸔㑸㲟ⱑ⒊ 䝊ॳ⌏࣪಴ᄤ˄PLAT˖Swiss-Prot P00750˅ⱘ⇼෎䝌ᑣ߫䖯㸠ᠧ⚍↨䕗DŽ䖭Ͼ೒⬅DOTTER⿟ ᑣ˄Sonnhammer and durban,1996˅ѻ⫳DŽ ೼⚍䰉ᦣ䗄ᮍ⊩Ёˈᶤѯᔶᓣⱘ⚍ৃ㛑Ӯߎࢦ࣒ϔᅮⱘ䏃ᕘˈԚ䖭䳔㽕᪡԰㗙䗮䖛䖭ѯֵᙃ 䖯㸠᥼⧚ˈ঺໪ϔϾ೒ᔶᦣ䗄ᮍ⊩े䏃ᕘ೒ᦤկњ᳈Ⳉ᥹ᯢњⱘ↨䕗㒧ᵰˈ೒7.5ᦣ䗄њˬ˨ ˝˰੠ˬ˨˝˱ЁϢˡˣˢⳌԐⱘ㒧ᵘඳП䯈䖯㸠↨䕗ᯊⱘ↨ᇍǃ⚍䰉੠䏃ᕘ೒ϝ⾡ᮍ⊩ⱘ ݇㋏DŽ ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ4/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第七章序列比对和数据库搜索 页码,5/2 PLaU 90 EPKKVKDHCSKHSPCQKGGTCVNMP-SGPH-CLCPOHLTGNHCOKEK---CFE 137 PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNI HWCNCPKKFGGOHCEI DKSKTCYE 72 图7.5、点阵、路径图和比对:所有这三种视图都表示人类尿激酶血纤蛋白溶酶原活化因子 ( PLAU. Swiss- Prot pc749)和组织血纤蛋白溶酶原活化因子(PLAT: Swiss- Prot p00750) 中同EGF相似的模块的比对结果。a).整个蛋白都由D0TER程序进行比较:这里只显示了同 EOGF模块相似的较小区域的放大图;b)由 BLASTP得到的比对的路径图;.C).用普通的字符形式 显示的 BLASTP空位比对 要理解路径图,先想象一个二维格子,顶点表示序列残基之间的点(与点阵中表示残基本身 相反),沿线段上连接两个顶点的边缘对应两个序列上匹配的残基,水平和竖直线段的边缘 对应一个序列拥有而另一个序列上没有的残基,换句话说,这些边缘平台组成了比对中的空 位,全图对应了所有可能的比对中必须审视的搜索空间,这个空间中每条可能的路径都对应 于一种比对。 最佳比对方法 除了某些很不重要的问题,对于众多问题而言,比对方法多种多样,很有必要从中挑选出最 好的一个或几个方法,这就是把一种比对描述成一个路径的概念所指。许多计算机科学的问 题都可以简化为通过图表寻求最优路径(比如寻找从纽约打电话到旧金山的最有效的途 径)。为了这一目的已经确立了许多行之有效的算法,对每一种路径都有必要对其进行某种 意义上的打分,通常是对沿这一途径的每一步的增量进行加和。更精密的打分程序将在下文 叙述,在这里我们只假定相同残基加正分,有插入或缺失的残基就加负分(扣分),根据这 定义,最合适的比对方法会得到最高分,也就是我们寻找的最佳路径 今天我们所熟悉的Meed∥eman-msc算法就是针对寻求最佳序列比对这一问题所设计的动态 规划寻优策略( Need eman and Wunsch,1970)。动态规划的思想是这样的,如果一条路径终 止于最佳路径上的一点,那么这条路径本身就是起点到这个中间点的最佳路径,也就是说, 任何一个终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身。这 样,最佳路径就可以通过把各个最佳的次级路径连接而成。在基本的№ leed eman- Wunsch公式 表达中,最佳比对必然对每个序列都由始至终,就是说从搜索空间的左上角直至右下角。换 句话说,它搜索全程比对。 然而,对这种基本策略稍作修改就可以实现最佳的局部比对。这种比对的路径不需要到达搜 索图的尽头,只需要在内部开始和终结。如果某种比对的打分值不会因为增加或减少比对队 的数量而增加时,这种比对就是最佳的。这个过程依赖于打分系统的性质,就是说某种路径 的打分会在不匹配的序列段位置减少(以下叙述的打分系统合乎这个标准)。当分值降为零 时,路径的延展将会终止,一个新的路径就会应运而生。这样,我们会得到许多独立的路 径,它们以不匹配的序列段为界限而不是像在全程比对中以序列的结尾作为界限。在这些路 径中,拥有最高分的一个就是最佳的局部比对 应该意识到,寻优方法总是把最佳的比对方法表达出来,而不在意它是否具有生物学意义, 另一方面,寻求局部比对时可能会发现若干个重要的比对,因此,不能仅仅注意最佳的 个。改良的Sm/th- terman( Al tschul and eri ckson,1986; Waterman and eggert,1987)算法 把寻找K种最好的但不相互交叉的比对方式最为目标,这些思想后来都在S|M算法( Huang et 1990)的发展中得以体现。一个名叫LAG(在 FASTA程序包中)的程序提供了有用的S|M file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

c PLAU 90 EPKKVKDHCSKHSPCQKGGTCVNMP—SGPH-CLCPQHLTGNHCQKEK---CFE 137 PLAT 23 ELHQVPSNCD----CLNGGTCVSNKYFSNIHWCNCPKKFGGQHCEIDKSKTCYE 72 ೒7.5ǃ⚍䰉ǃ䏃ᕘ೒੠↨ᇍ˖᠔᳝䖭ϝ⾡㾚೒䛑㸼⼎Ҏ㉏ሓ▔䝊㸔㑸㲟ⱑ⒊䝊ॳ⌏࣪಴ᄤ ˄PLAU:Swiss-Prot P00749˅੠㒘㒛㸔㑸㲟ⱑ⒊䝊ॳ⌏࣪಴ᄤ˄PLAT:Swiss-Prot P00750˅ ЁৠEGFⳌԐⱘ῵ഫⱘ↨ᇍ㒧ᵰDŽa) .ᭈϾ㲟ⱑ䛑⬅DOTTER⿟ᑣ䖯㸠↨䕗˖䖭䞠াᰒ⼎њৠ EGF῵ഫⳌԐⱘ䕗ᇣऎඳⱘᬒ໻೒˗b)⬅BLASTPᕫࠄⱘ↨ᇍⱘ䏃ᕘ೒˗.c).⫼᱂䗮ⱘᄫヺᔶᓣ ᰒ⼎ⱘBLASTPぎԡ↨ᇍDŽ 㽕⧚㾷䏃ᕘ೒ˈܜᛇ䈵ϔϾѠ㓈Ḑᄤˈ乊⚍㸼⼎ᑣ߫⅟෎П䯈ⱘ⚍˄Ϣ⚍䰉Ё㸼⼎⅟෎ᴀ䑿 Ⳍড˅ˈ⊓㒓↉Ϟ䖲᥹ϸϾ乊⚍ⱘ䖍㓬ᇍᑨϸϾᑣ߫Ϟऍ䜡ⱘ⅟෎ˈ∈ᑇ੠オⳈ㒓↉ⱘ䖍㓬 ᇍᑨϔϾᑣ߫ᢹ᳝㗠঺ϔϾᑣ߫Ϟ≵᳝ⱘ⅟෎ˈᤶহ䆱䇈ˈ䖭ѯ䖍㓬ᑇৄ㒘៤њ↨ᇍЁⱘぎ ԡˈܼ೒ᇍᑨњ᠔᳝ৃ㛑ⱘ↨ᇍЁᖙ乏ᅵ㾚ⱘ᧰㋶ぎ䯈ˈ䖭Ͼぎ䯈Ё↣ᴵৃ㛑ⱘ䏃ᕘ䛑ᇍᑨ Ѣϔ⾡↨ᇍDŽ ᳔Շ↨ᇍᮍ⊩ 䰸њᶤѯᕜϡ䞡㽕ⱘ䯂乬ˈᇍѢӫ໮䯂乬㗠㿔ˈ↨ᇍᮍ⊩໮⾡໮ḋˈᕜ᳝ᖙ㽕ҢЁᣥ䗝ߎ᳔ དⱘϔϾ៪޴Ͼᮍ⊩ˈ䖭ህᰃᡞϔ⾡↨ᇍᦣ䗄៤ϔϾ䏃ᕘⱘὖᗉ᠔ᣛDŽ䆌໮䅵ㅫᴎ⾥ᄺⱘ䯂 乬䛑ৃҹㅔ࣪Ў䗮䖛೒㸼ᇏ∖᳔Ӭ䏃ᕘ˄↨བᇏᡒҢ㒑㑺ᠧ⬉䆱ࠄᮻ䞥ቅⱘ᳔᳝ᬜⱘ䗨 ᕘ˅DŽЎњ䖭ϔⳂⱘᏆ㒣⹂ゟњ䆌໮㸠П᳝ᬜⱘㅫ⊩ˈᇍ↣ϔ⾡䏃ᕘ䛑᳝ᖙ㽕ᇍ݊䖯㸠ᶤ⾡ ᛣНϞⱘᠧߚˈ䗮ᐌᰃᇍ⊓䖭ϔ䗨ᕘⱘ↣ϔℹⱘ๲䞣䖯㸠ࡴ੠DŽ᳈㊒ᆚⱘᠧߚ⿟ᑣᇚ೼ϟ᭛ ভ䗄ˈ೼䖭䞠៥Ӏা؛ᅮⳌৠ⅟෎ࡴℷߚ᳝ˈᦦܹ៪㔎༅ⱘ⅟෎ህࡴ䋳ߚ˄ᠷߚˈ˅ḍ᥂䖭 ϔᅮНˈ᳔ড়䗖ⱘ↨ᇍᮍ⊩Ӯᕫࠄ᳔催ߚˈгህᰃ៥Ӏᇏᡒⱘ᳔Շ䏃ᕘDŽ Ҟ໽៥Ӏ᠔❳ᙝⱘNeedleman-Wunschㅫ⊩ህᰃ䩜ᇍᇏ∖᳔Շᑣ߫↨ᇍ䖭ϔ䯂乬᠔䆒䅵ⱘࡼᗕ 㾘ߦᇏӬㄪ⬹˄Needleman and Wunsch,1970˅DŽࡼᗕ㾘ߦⱘᗱᛇᰃ䖭ḋⱘˈབᵰϔᴵ䏃ᕘ㒜 ℶѢ᳔Շ䏃ᕘϞⱘϔ⚍ˈ䙷М䖭ᴵ䏃ᕘᴀ䑿ህᰃ䍋⚍ࠄ䖭ϾЁ䯈⚍ⱘ᳔Շ䏃ᕘˈгህᰃ䇈ˈ ӏԩϔϾ㒜ℶѢ᳔Շ䏃ᕘϞⱘϔ⚍ⱘ⃵㑻䏃ᕘᖙ✊ህᰃ㒜ℶѢ䖭ϔ⚍ⱘ᳔Շ䏃ᕘᴀ䑿DŽ䖭 ḋˈ᳔Շ䏃ᕘህৃҹ䗮䖛ᡞ৘Ͼ᳔Շⱘ⃵㑻䏃ᕘ䖲᥹㗠៤DŽ೼෎ᴀⱘNeedleman-Wunsch݀ᓣ 㸼䖒Ёˈ᳔Շ↨ᇍᖙ✊ᇍ↣Ͼᑣ߫䛑⬅ྟ㟇㒜ˈህᰃ䇈Ң᧰㋶ぎ䯈ⱘᎺϞ㾦Ⳉ㟇েϟ㾦DŽᤶ হ䆱䇈ᅗ᧰㋶ܼ⿟↨ᇍDŽ ✊㗠ˈᇍ䖭⾡෎ᴀㄪ⬹⿡԰ׂᬍህৃҹᅲ⦄᳔Շⱘሔ䚼↨ᇍDŽ䖭⾡↨ᇍⱘ䏃ᕘϡ䳔㽕ࠄ䖒᧰ ㋶೒ⱘሑ༈ˈা䳔㽕೼ݙ䚼ᓔྟ੠㒜㒧DŽབᵰᶤ⾡↨ᇍⱘᠧߚؐϡӮ಴Ў๲ࡴ៪ޣᇥ↨ᇍ䯳 ⱘ᭄䞣㗠๲ࡴˈᯊ䖭⾡↨ᇍህᰃ᳔ՇⱘDŽ䖭Ͼ䖛⿟ձ䌪ѢᠧߚLTD㒳ⱘᗻ䋼ˈህᰃ䇈ᶤ⾡䏃ᕘ ⱘᠧߚӮ೼ϡऍ䜡ⱘᑣ߫↉ԡ㕂ޣᇥ˄ҹϟভ䗄ⱘᠧߚLTD㒳ড়Т䖭Ͼᷛޚ˅DŽᔧߚؐ䰡Ў䳊 ᯊˈ䏃ᕘⱘᓊሩᇚӮ㒜ℶˈϔϾᮄⱘ䏃ᕘህӮᑨ䖤㗠⫳DŽ䖭ḋˈ៥ӀӮᕫࠄ䆌໮⣀ゟⱘ䏃 ᕘˈᅗӀҹϡऍ䜡ⱘᑣ߫↉Ў⬠䰤㗠ϡᰃڣ↨⿟ܼ೼ᇍЁҹᑣ߫ⱘ㒧ሒ԰Ў⬠䰤DŽ೼䖭ѯ䏃 ᕘЁˈᢹ᳔᳝催ߚⱘϔϾህᰃ᳔Շⱘሔ䚼↨ᇍDŽ ᑨ䆹ᛣ䆚ࠄˈᇏӬᮍ⊩ᘏᰃᡞ᳔Շⱘ↨ᇍᮍ⊩㸼䖒ߎᴹˈ㗠ϡ೼ᛣᅗᰃ৺݋⫳᳝⠽ᄺᛣНˈ ঺ϔᮍ䴶ˈᇏ∖ሔ䚼↨ᇍᯊৃ㛑Ӯথ⦄㢹ᑆϾ䞡㽕ⱘ↨ᇍˈ಴ℸˈϡ㛑ҙҙ⊼ᛣ᳔Շⱘϔ ϾDŽᬍ㡃ⱘSmith-Waterman(Altschul and Erickson,1986;Waterman and Eggert,1987)ㅫ⊩ ᡞᇏᡒ.⾡᳔དⱘԚϡⳌѦѸঝⱘ↨ᇍᮍᓣ᳔ЎⳂᷛˈ䖭ѯᗱᛇৢᴹ䛑೼SIMㅫ⊩(Huang et al.,1990)ⱘথሩЁᕫҹԧ⦄DŽϔϾৡিLALIGN˄೼FASTA⿟ᑣࣙЁ˅ⱘ⿟ᑣᦤկњ᳝⫼ⱘSIM ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ5/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第七章序列比对和数据库搜索 页码,6/28 具( Pearson,1996)。对于比对多模块的蛋白质而言,寻找次优比对尤为重要。正如图7.6所 示, LALI GN程序被用来获得三个最好的局部比对(比对人类凝血因子X和因子Ⅺ1)。一个标 准的 Smi th- waterman算法只会报告出最好的一个比对,改良的算法会报告出第二和第三的比 对方式,从而显示出功能结构域 Compari son of A. fg-human. aa >f9 gi 119772 sp P00740 FA9-_HUMAN COAGULATI ON FA-461 aa B. f12-hum. aa>f12 gi 119763 sp P00748 FA12_HUMAN COAGULATI ON-615 aa usi ng protei n matri x O 35. 4% i denti ty in 254 aa overI ap; score: 358 220230240250260270 F9 OSENDETRVVGGEDAKPGOFPWOVVLNGKVDAFCGGSI VNEKWI VTAAHCVE---TGVKI F12 KSLSSMTRVVGGLVALRGAHPYI AALY-WGHSFCAGSLI APCWVLTAAHCLODRPAPEDL 370380390400410420 280290300310320330 F9 TVVAGEHNI EETEHTEOKRNVI RI I PHHNYNAAI NKYNHDI ALLELDEPL-----VLNSY F12 TWLGOERRNHSCEPCQTLAVRSYRLHEAFSPV--SYOHDLALLRLOEDADGSCALLSPY 430440450460470480 340350360370380 F9 VTPI CLADKEYTNI FLKFGSGYVSGWGRVFHKGRS-ALVLOYLRVPLVDRATCLRSTKF F12 VOPVCLPSGAARPSETTLCO-VAGWGHOFEGAEEYASFLQEAQVPFLSLERCSAPDVHG 490500510520530 390400410420430440 F9-TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS---FLTGI I SWGEECAMKGKYGIY F12 SSI LPGMLCAGFLEGGTDACOGDSGGPLVCEDOAAERRLTLQGI I SWGSGCGDRNKPGVY file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

Ꮉ݋)Pearson,1996)DŽᇍѢ↨ᇍ໮῵ഫⱘ㲟ⱑ䋼㗠㿔ˈᇏᡒ⃵Ӭ↨ᇍᇸЎ䞡㽕DŽℷབ೒7.6᠔ ⼎ˈLALIGN⿟ᑣ㹿⫼ᴹ㦋ᕫϝϾ᳔དⱘሔ䚼↨ᇍ˄↨ᇍҎ㉏ޱ㸔಴ᄤIX੠಴ᄤXII˅DŽϔϾᷛ ޚⱘSmith-watermanㅫ⊩াӮ᡹ਞߎ᳔དⱘϔϾ↨ᇍˈᬍ㡃ⱘㅫ⊩Ӯ᡹ਞߎ㄀Ѡ੠㄀ϝⱘ↨ ᇍᮍᓣˈҢ㗠ᰒ⼎ࡳߎ㛑㒧ᵘඳDŽ Comparison of: A. f9-human.aa >f9 gi|119772|sp|P00740|FA9_HUMAN COAGULATION FA -461 aa B. f12-hum.aa>f12 gi|119763|sp|P00748|FA12_HUMAN COAGULATION -615 aa using protein matrix ķ 35.4% identity in 254 aa overlap; score: 358 220 230 240 250 260 270 F9 QSFNDFTRVVGGEDAKPGQFPWQVVLNGKVDAFCGGSIVNEKWIVTAAHCVE---TGVKI .:....:::::: : .:. :. ..: ..::.::... :..:::::.. . .. F12 KSLSSMTRVVGGLVALRGAHPYIAALY-WGHSFCAGSLIAPCWVLTAAHCLQDRPAPEDL 370 380 390 400 410 420 280 290 300 310 320 330 F9 TVVAGEHNIEETEHTEQKRNVIRIIPHHNYNAAINKYNHDIALLELDEPL-----VLNSY ::: :... ... .. :. .: . :...... .:.::.::: :.: .:..: F12 TVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPV--SYQHDLALLRLQEDADGSCALLSPY 430 440 450 460 470 480 340 350 360 370 380 F9 VTPICIADKEYTNIFLKFGSGYVSGWGRVFHKGRS-ALVLQYLRVPLVDRATCLRSTKF- : :.:... . .. :.:::. :. . . : :: .::... . : .. F12 VQPVCLPSGAARPSETTLCQ—VAGWGHQFEGAEEYASFLQEAQVPFLSLERCSAPDVHG 490 500 510 520 530 390 400 410 420 430 440 F9 -TIYNNMFCAGFHEGGRDSCQGDSGGPHVTEVEGTS---FLTGIISWGEECAMKGKYGIY .: .:.:::: ::: :.:::::::: : : .... : ::::::..:. ..: :.: F12 SSILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVY ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ6/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第七章序列比对和数据库搜索 页码,7/2 540550560570580590 450 F9 TVVSRYVNWI KEKT F12 TDVAYYLAWI REHT 600610 2 34. 7% i denti ty in 49 aa overl ap; score: 120 100110120130140 F9 VDGDOCESNPCLNGGSCKDDI NSYECWCPFGFEGKNCELDVTCNI KNGR F12 LASOACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR 180190200210220 33. 3% i denti ty in 36 aa over l ap; score: 87 100110120 F9 DOCESN-PCLNGGSCKDDI NSYECWCPFGFECKNCE F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPOHLTGNHCO 100110120130 图7.6、最佳和次佳的局部比对:在使用 LALIGN对人类凝血因子1X(F9; Swi ss-Prot900740) 和凝血因子Ⅺ(F12: Swi ss- Prot f00748)进行比对时发现了三个最佳的比对结果 取代分和空位处罚 刚才描述的打分系统仅仅使用于简单的匹配/不匹配的情况,但是在比较蛋白质时,我们可以 用取代矩阵来增强弱势比对的敏感性。很显然,在相关蛋白质之间,某些氨基酸可以很容易 地相互取代而不用改变它们的生理生化性质,这些保守取代的例子包括异亮氨酸 ( i sol euci ne)和颉氨酸( valin)(体积小,疏水),丝氨酸( seri ne)和苏氨酸 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

540 550 560 570 580 590 450 F9 TVVSRYVNWIKEKT :.:. :..::.:.: F12 TDVAYYLAWIREHT 600 610 ------------------------------------ ĸ 34.7% identity in 49 aa overlap; score: 120 100 110 120 130 140 F9 VDGDQCESNPCLNGGSCKDDINSYECWCPFGFEGKNCELDVTCNIKNGR .....: .::::.::.: . . : :: :..: :..:.. . .:: F12 LASQACRTNPCLHGGRCLEVEGHRLCHCPVGYTGPFCDVDTKASCYDGR 180 190 200 210 220 ------------------------------------- Ĺ 33.3% identity in 36 aa overlap; score: 87 100 110 120 F9 DQCESN-PCLNGGSCKDDINSYECWCPFGFECKNCE :.:... :: .::.: . .. .: :: ..:..:. F12 DHCSKHSPCQKGGTCVNMPSGPHCLCPQHLTGNHCQ 100 110 120 130 -------------------------------------- ೒7.6ǃ᳔Շ੠⃵Շⱘሔ䚼↨ᇍ˖೼Փ⫼LALIGNᇍҎ㉏ޱ㸔಴ᄤIX˄F9;Swiss-Prot 900740˅ ੠ޱ㸔಴ᄤXII(F12;Swiss-Prot P00748)䖯㸠↨ᇍᯊথ⦄њϝϾ᳔Շⱘ↨ᇍ㒧ᵰDŽ পҷߚ੠ぎԡ໘㔮 ߮ᠡᦣ䗄ⱘᠧߚLTD㒳ҙҙՓ⫼Ѣㅔऩⱘऍ䜡ϡऍ䜡ⱘᚙމˈԚᰃ೼↨䕗㲟ⱑ䋼ᯊˈ៥Ӏৃҹ ⫼পҷⶽ䰉ᴹ๲ᔎᔅ࢓↨ᇍⱘᬣᛳᗻDŽᕜᰒ✊ˈ೼Ⳍ݇㲟ⱑ䋼П䯈ˈᶤѯ⇼෎䝌ৃҹᕜᆍᯧ ഄⳌѦপҷ㗠ϡ⫼ᬍবᅗӀⱘ⫳⧚⫳࣪ᗻ䋼ˈ䖭ѯֱᅜপҷⱘ՟ᄤࣙᣀᓖ҂⇼䝌 ˄isoleucine˅੠九⇼䝌˄valin˅˄ԧ⿃ᇣˈ⭣∈˅ˈϱ⇼䝌˄serine˅੠㢣⇼䝌 ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ7/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第七章序列比对和数据库搜索 页码,8/2 ( threoni n)(极性)。在计算比对分之时,相同的氨基酸打分会高于取代的氨基酸,而保 守的取代打分高于非保守变化,换句话说,设计了一系列的分值,而且,在比对非常相近的 序列(muse和rat的同源基因)以及差异极大的序列( mouse和 yeast的基因)时会设计出不 同系统的分值,考虑到这些因素,使用取代矩阵会极为有利,在这个矩阵中,任何氨基酸配 对的分值会一目了然。 第一个广泛使用的最优矩阵建立在进化的点突变模型上(PA( Dayhoff et al.,1978)。 一个PAM就是一个进化的变异单位即1%的氨基酸改变,这并不意味着经过100次PAM后,每个氨 基酸都发生变化,因为其中一些位置可能会经过多次改变,甚至可能变回到原先的氨基酸, 因此另外一些氨基酸可能不发生改变。如果这些变化是随机的,那么每一种可能的取代频率 仅仅取决于不同氨基酸的出现的频率(称为背景频率)。然而,在相关蛋白中,已经发现的 取代频率(称为目标频率)大大地倾向于那些不影响蛋白质功能的取代,换句话说,这些点 突变已经被进化所接受。 Dayhoff同合作者们第一次使用了l0g-0dd处理,在这种处理中,矩 阵中的取代分值同目标频率于背景频率的比值的自然对数成比例。为了评估目标频率,人们 用非常相近的序列(比对时不需要取代矩阵)来收集对应于一个PAM的突变频率,然后将数据 外推至250个PAM,PAM250矩阵结果如图7.7。虽然 Dayhof等人只发表了PAM250,但潜在的突 变数据可以外推至其它PAM值,产生一组矩阵,在比较差异极大的序列时,通常在较高的PAM 值处得到最佳结果,比如在PAM200到250之间,较低值的PAM矩阵一般使用于高度相似的序列 ( Al tsch,1991)。 图7.7、PAM250分值矩阵。 用同样方式建立了BOSM取代矩阵,但在评估目标频率时,应用了不同的策略,基本数据来 源于B0CKS数据库,其中包括了局部多重比对(包含较远的相关序列,同在PAM中使用较近的 相关序列相反)。虽然在这种情况下,没有进化模型,但它的优点在于可以通过直接观察获 得数据而不是通过外推获得。同PAM模型一样,也有许多编号的B0SUM矩阵,这里的编号指的 是序列可能相同的最高水平,并且同模型保持独立性。举例来说,如图7.8所示的BL0SUM的矩 阵,至少有62%的相同比例的序列被组合成一个序列,因此取代频率更加受到那些比空位变化 还大的序列的极大影响,取代矩阵在处理高度相似序列时使用高的阈值(直至 BLOSUM90), 处理差异大的序列时使用低的阈值(直至BL0SUM30) 图7.8、B0SM62分值矩阵。 为了补偿那些插入或缺失,可以在比对中引入一些空位,但不能太多,否则会使分子变得面 目全非。每引入一个断裂,比对的分值都会有所扣除,对于这些断裂有许多罚分的规则。最 常用的一个就是用一个附加的罚分比例去乘空位的长度,其中有两个参数:G(有时称为断裂 开放惩罚)和L(断裂延伸惩罚),对于一个长度为n的空位,扣分总数为GHLm,但在选择空 位参数时,在很大程度上是唯经验的,所选的分值很少会有理论上的支持。通常来说,对于G 会选择一个高分(在BL0SUM62中约为10-15),对于L会选择一个相对的低分(大约1-2),选 择这个范围是因为插入和变异是很罕见的,但当它们一旦发生,就会影响到一系列附近的残 file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

˄threonin˅˄ᵕᗻ˅DŽ೼䅵ㅫ↨ᇍߚПᯊˈⳌৠⱘ⇼෎䝌ᠧߚӮ催Ѣপҷⱘ⇼෎䝌ˈ㗠ֱ ᅜⱘপҷᠧߚ催Ѣ䴲ֱᅜব࣪ˈᤶহ䆱䇈ˈ䆒䅵њϔ㋏߫ⱘߚˈؐ㗠Ϩˈ೼↨ᇍ䴲ᐌⳌ䖥ⱘ ᑣ߫˄mouse੠ratⱘৠ⑤෎಴˅ҹঞᏂᓖᵕ໻ⱘᑣ߫˄mouse੠ yeastⱘ෎಴˅ᯊӮ䆒䅵ߎϡ ৠ㋏㒳ⱘߚˈؐ㗗㰥ࠄ䖭ѯ಴㋴ˈՓ⫼পҷⶽ䰉ӮᵕЎ᳝߽೼ˈ䖭Ͼⶽ䰉Ёˈӏԩ⇼෎䝌䜡 ᇍⱘߚؐӮϔⳂњ✊DŽ ㄀ϔϾᑓ⊯Փ⫼ⱘ᳔Ӭⶽ䰉ᓎゟ೼䖯࣪ⱘ⚍さব῵ൟϞ˄PAM˅˄Dayhoff et al.,1978˅DŽ ϔϾPAMህᰃϔϾ䖯࣪ⱘবᓖऩԡे1%ⱘ⇼෎䝌ᬍবˈ䖭ᑊϡᛣੇⴔ㒣䖛100⃵PAMৢˈ↣Ͼ⇼ ෎䝌䛑থ⫳ব࣪಴ˈЎ݊Ёϔѯԡ㕂ৃ㛑Ӯ㒣䖛໮⃵ᬍবˈ⫮㟇ৃ㛑বಲࠄॳܜⱘ⇼෎䝌ˈ ಴ℸ঺໪ϔѯ⇼෎䝌ৃ㛑ϡথ⫳ᬍবDŽབᵰ䖭ѯব࣪ᰃ䱣ᴎⱘˈ䙷М↣ϔ⾡ৃ㛑ⱘপҷ乥⥛ ҙҙপއѢϡৠ⇼෎䝌ⱘߎ⦃ⱘ乥⥛˄⿄Ў㚠᱃乥⥛˅DŽ✊㗠ˈ೼Ⳍ݇㲟ⱑЁˈᏆ㒣থ⦄ⱘ পҷ乥⥛˄⿄ЎⳂᷛ乥⥛˅໻໻ഄؒ৥Ѣ䙷ѯϡᕅડ㲟ⱑ䋼ࡳ㛑ⱘপҷˈᤶহ䆱䇈ˈ䖭ѯ⚍ さবᏆ㒣㹿䖯࣪᠔᥹ফDŽDayhoffৠড়԰㗙Ӏ㄀ϔ⃵Փ⫼њlog-odd໘⧚ˈ೼䖭⾡໘⧚Ёˈⶽ 䰉ЁⱘপҷߚؐৠⳂᷛ乥⥛Ѣ㚠᱃乥⥛ⱘ↨ؐⱘ㞾✊ᇍ᭄៤↨՟DŽЎњ䆘ԄⳂᷛ乥⥛ˈҎӀ ⫼䴲ᐌⳌ䖥ⱘᑣ߫˄↨ᇍᯊϡ䳔㽕পҷⶽ䰉˅ᴹᬊ䲚ᇍᑨѢϔϾPAMⱘさব乥⥛ˈ✊ৢᇚ᭄᥂ ໪᥼㟇250ϾPAMˈPAM250ⶽ䰉㒧ᵰབ೒7.7DŽ㱑✊DayhoffㄝҎাথ㸼њPAM250ˈԚ┰೼ⱘさ ব᭄᥂ৃҹ໪᥼㟇݊ᅗPAMؐˈѻ⫳ϔ㒘ⶽ䰉ˈ೼↨䕗Ꮒᓖᵕ໻ⱘᑣ߫ᯊˈ䗮ᐌ೼䕗催ⱘPAM ؐ໘ᕫࠄ᳔Շ㒧ᵰˈ↨བ೼PAM200ࠄ250П䯈ˈ䕗ԢؐⱘPAMⶽ䰉ϔ㠀Փ⫼Ѣ催ᑺⳌԐⱘᑣ߫ ˄Altschul,1991˅DŽ ೒7.7ǃPAM250ߚؐⶽ䰉DŽ ⫼ৠḋᮍᓣᓎゟњBLOSUMপҷⶽ䰉ˈԚ೼䆘ԄⳂᷛ乥⥛ᯊˈᑨ⫼њϡৠⱘㄪ⬹ˈ෎ᴀ᭄᥂ᴹ ⑤ѢBLOCKS᭄᥂ᑧˈ݊Ёࣙᣀњሔ䚼໮䞡↨ᇍ˄ࣙ৿䕗䖰ⱘⳌ݇ᑣ߫ˈৠ೼PAMЁՓ⫼䕗䖥ⱘ Ⳍ݇ᑣ߫Ⳍড˅DŽ㱑✊೼䖭⾡ᚙމϟˈ≵᳝䖯࣪ˈൟ῵ԚᅗⱘӬ⚍೼Ѣৃҹ䗮䖛Ⳉ᥹㾖ᆳ㦋 ᕫ᭄᥂㗠ϡᰃ䗮䖛໪᥼㦋ᕫDŽৠPAM῵ൟϔḋˈг᳝䆌໮㓪োⱘBLOSUMⶽ䰉ˈ䖭䞠ⱘ㓪োᣛⱘ ᰃᑣ߫ৃ㛑Ⳍৠⱘ᳔催∈ᑇˈᑊϨৠ῵ൟֱᣕ⣀ゟᗻDŽВ՟ᴹ䇈ˈབ೒7.8᠔⼎ⱘBLOSUMⱘⶽ 䰉ˈ㟇ᇥ᳝62%ⱘⳌৠ↨՟ⱘᑣ߫㹿㒘ড়៤ϔϾᑣ߫ˈ಴ℸপҷ乥⥛᳈ࡴফࠄ䙷ѯ↨ぎԡব࣪ 䖬໻ⱘᑣ߫ⱘᵕ໻ᕅડˈপҷⶽ䰉೼໘⧚催ᑺⳌԐᑣ߫ᯊՓ⫼催ⱘ䯜ؐ˄Ⳉ㟇BLOSUM90˅ˈ ໘⧚Ꮒᓖ໻ⱘᑣ߫ᯊՓ⫼Ԣⱘ䯜ؐ˄Ⳉ㟇BLOSUM30˅DŽ ೒7.8ǃBLOSUM62ߚؐⶽ䰉DŽ Ўњ㸹ٓ䙷ѯᦦܹ៪㔎༅ˈৃҹ೼↨ᇍЁᓩܹϔѯぎԡˈԚϡ㛑໾໮ˈ৺߭ӮՓߚᄤবᕫ䴶 Ⳃܼ䴲DŽ↣ᓩܹϔϾᮁ㺖ˈ↨ᇍⱘߚؐ䛑Ӯ᳝᠔ᠷ䰸ˈᇍѢ䖭ѯᮁ㺖᳝䆌໮㔮ߚⱘ㾘߭DŽ᳔ ᐌ⫼ⱘϔϾህᰃ⫼ϔϾ䰘ࡴⱘ㔮ߚ↨՟এЬぎԡⱘ䭓ᑺˈ݊Ё᳝ϸϾখ᭄˖*˄᳝ᯊ⿄Ўᮁ㺖 ᓔᬒᚽ㔮˅੠/˄ᮁ㺖ᓊԌᚽ㔮˅ˈᇍѢϔϾ䭓ᑺЎQⱘぎԡˈᠷߚᘏ᭄ЎG+LnˈԚ೼䗝ᢽぎ ԡখ᭄ᯊˈ೼ᕜ໻⿟ᑺϞᰃଃ㒣偠ⱘˈ᠔䗝ⱘߚؐᕜᇥӮ᳝⧚䆎ϞⱘᬃᣕDŽ䗮ᐌᴹ䇈ˈᇍѢG Ӯ䗝ᢽϔϾ催ߚ೼˄BLOSUM62Ё㑺Ў10-15˅ˈᇍѢ/Ӯ䗝ᢽϔϾⳌᇍⱘԢߚ໻˄㑺1-2˅ˈ䗝 ᢽ䖭Ͼ㣗ೈᰃ಴Ўᦦܹ੠বᓖᰃᕜ㔩㾕ⱘˈԚᔧᅗӀϔᮺথ⫳ˈህӮᕅડࠄϔ㋏߫䰘䖥ⱘ⅟ ෎DŽ ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ8/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第七章序列比对和数据库搜索 页码,9/28 比对的统计学显著性 对任何一个比队,我们都可以计算一个分值,但重要的是需要判定这个分值是否足够高,是 否能够提供进化同源性的证据。在解决这一问题时,对于偶然出现的最高分,有些思想很有 帮助,但是,没有一个数学理论能够描述全程比对的分值分布,其中一个能评估其重要性的 方法就是将所得的比对分值和那些同样长度和组成的随机序列进行比较 但是,对于局部比对而言,情况要好得多。正如问题总是从简单开始,人们首先注意到那些 没有多少空位得局部比对,这种比对被称为高分片段配对(HSP)。HSP通常用改进得 Smi th waterman算法或简单地使用大的空位罚分方法获得。Kar//n- A/ tsch/统计学为描述随机的 HSP分值的分布提供了数学理论,概率密度函数形式被称为极值分布,这很值得注意,因为 更普遍更一般的分布的应用可能会夸大它的重要性,把一个已知得比对分值S同预期的分布相 关联可能会计算出P值,从而给出这个分值的比对显著性的可能性。通常,P值越趋近于零, 分值越有意义 相关的变量E表示分值不低于S得可能的比对数量,而极值分布由两个参数表示,即K和,可 以得到解析解,并且对于任何打分系统以及背景频率都是固定的。比对的显著性依赖于搜索 空间的大小(就像在草堆中找针依赖于草堆的大小)。搜索空间的大小由序列长度计算出 来,但由于统计的正确性,这个长度必须由局部比对的预期长度进行校正,以免出现边缘效 应( Al tschul and gi sh,19%6),需要进行这种校正还因为在搜索空间边缘开始的比对在达 到一个有效分值之前就会超出序列的范围。 把比对局限于没有空位的基础之上,使问题大大简化,但是却脱离分子生物学的实际情况 实际上,要建立一个插入和缺失的精确模型需要空位,但如果空位相对较少,在这些空位之 间仍然可以获得高分值区域,有代表性的是可能会获得紧密相邻的HSP,在这种情况下,从总 体上去评估它的显著性是较为合理的,也许,每个片段并不显得很重要,但是几个片段同时 出现就不太像是偶然事件了。 Karlin- Al tschul加和统计学可以计算N个HSP的统计值,这个方 法的实质是把N个最佳片段的分值进行加总,从而计算事件偶然发生的可能性,其它一些论据 也被用来确认这些分值只是在片段与比对一致的情况下进行加总。虽然加总的分值分布与HSP 分值最大值有差异,仍然可以得到解析解 最后,仍然有必要对局部排队的显著性进行合理评估,其中包括了模型中的空位。正如同传 统的 Smi th- waterman比对,虽然没有先验的证据,人们仍然认为这些比对的分值也应该遵循 极值分布,但是,分布参数K和λ的值不能通过计算获得,当然,通过模型获得这些值的方法 已经被大大地发展了。 数据库中的相似性搜索 上述讨论主要集中于那些较为特别的匹配的序列,但是对于一个新发现的序列,我们无法得 知用什么序列同它进行比对,数据库相似性搜索使我们能够从数据库中存在的数十万个序列 中挑选出可能同感兴趣的序列有关联的序列,这个方法有时会导致意想不到的收获。用这种 策略获得成功的第一个例子是人们因此发现病毒肿瘤基因v-sis是细胞中编码血小板派生生长 因子的基因的一个变体形式( Dool i ttle et al.,1983; Waterfield et al.,1983)。那个时 候,序列数据库还不大,因此这个发现足以另人感到万分惊奇。然而今天如果进行数据库搜 索并且一无所获的话,那就更另人感到费解了。如同其它几个小的物种基因组一样,酵母 saccharomyces cervi si ae的基因组全序列已经被测定出来。在脊椎动物中,大量的部分基 因诸如人类和老鼠的基因都已经被测定并存入基因库( genebank)中,这也导致了表达序列 标签(EST)工程。EST片段的主要用途是在数据库搜索中,用EST片段进行cDMA克隆可以分离 出感兴趣的基因,包括其它模型生物中的同源基因。最近报导的多重内分泌腺肿瘤(MEN) 基因就和人与老鼠的多个EST片段相匹配,其中之一在MEN发表前一年就已经入库保存了 (Chandrasekharappa et al., 1997) file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

↨ᇍⱘ㒳䅵ᄺᰒ㨫ᗻ ᇍӏԩϔϾ↨䯳ˈ៥Ӏ䛑ৃҹ䅵ㅫϔϾߚˈؐԚ䞡㽕ⱘᰃ䳔㽕߸ᅮ䖭Ͼߚؐᰃ৺䎇໳催ˈᰃ ৺㛑໳ᦤկ䖯࣪ৠ⑤ᗻⱘ䆕᥂DŽ೼㾷އ䖭ϔ䯂乬ᯊˈᇍѢي✊ߎ⦃ⱘ᳔催ߚ᳝ˈѯᗱᛇᕜ᳝ ᐂࡽˈԚᰃˈ≵᳝ϔϾ᭄ᄺ⧚䆎㛑໳ᦣ䗄ܼ⿟↨ᇍⱘߚؐߚᏗˈ݊ЁϔϾ㛑䆘Ԅ݊䞡㽕ᗻⱘ ᮍ⊩ህᰃᇚ᠔ᕫⱘ↨ᇍߚ੠ؐ䙷ѯৠḋ䭓ᑺ੠㒘៤ⱘ䱣ᴎᑣ߫䖯㸠↨䕗DŽ ԚᰃˈᇍѢሔ䚼↨ᇍ㗠㿔ˈᚙމ㽕དᕫ໮DŽℷབ䯂乬ᘏᰃҢㅔऩᓔྟˈҎӀ佪ܜ⊼ᛣࠄ䙷ѯ ≵᳝໮ᇥぎԡᕫሔ䚼↨ᇍˈ䖭⾡↨ᇍ㹿⿄Ў催ߚ⠛↉䜡ᇍ˄HSP˅DŽHSP䗮ᐌ⫼ᬍ䖯ᕫSmith￾watermanㅫ⊩៪ㅔऩഄՓ⫼໻ⱘぎԡ㔮ߚᮍ⊩㦋ᕫDŽKarlin-Altschul㒳䅵ᄺЎᦣ䗄䱣ᴎⱘ HSPߚؐⱘߚᏗᦤկњ᭄ᄺ⧚䆎ˈὖ⥛ᆚᑺߑ᭄ᔶᓣ㹿⿄ЎᵕؐߚᏗˈ䖭ᕜؐᕫ⊼ᛣˈ಴Ўˈ ᳈᱂䘡᳈ϔ㠀ⱘߚᏗⱘᑨ⫼ৃ㛑Ӯ༌໻ᅗⱘ䞡㽕ᗻˈᡞϔϾᏆⶹᕫ↨ᇍߚؐSৠ乘ᳳⱘߚᏗⳌ ݇㘨ৃ㛑Ӯ䅵ㅫߎPؐˈҢ㗠㒭ߎ䖭Ͼߚؐⱘ↨ᇍᰒ㨫ᗻⱘৃ㛑ᗻDŽ䗮ᐌˈ3ؐ䍞䍟䖥Ѣ䳊ˈ ߚؐ䍞᳝ᛣНDŽ Ⳍ݇ⱘব䞣E㸼⼎ߚؐϡԢѢ6ᕫৃ㛑ⱘ↨ᇍ᭄䞣ˈ㗠ᵕؐߚᏗ⬅ϸϾখ᭄㸼⼎ˈेK੠Ȝˈৃ ҹᕫࠄ㾷ᵤ㾷ˈᑊϨᇍѢӏԩᠧߚLTD㒳ҹঞ㚠᱃乥⥛䛑ᰃ೎ᅮⱘDŽ↨ᇍⱘᰒ㨫ᗻձ䌪Ѣ᧰㋶ ぎ䯈ⱘ໻ᇣ˄ህڣ೼㤝ේЁᡒ䩜ձ䌪Ѣ㤝ේⱘ໻ᇣ˅DŽ᧰㋶ぎ䯈ⱘ໻ᇣ⬅ᑣ߫䭓ᑺ䅵ㅫߎ ᴹˈԚ⬅Ѣ㒳䅵ⱘℷ⹂ᗻˈ䖭Ͼ䭓ᑺᖙ乏⬅ሔ䚼↨ᇍⱘ乘ᳳ䭓ᑺ䖯㸠᷵ℷˈҹߎܡ⦃䖍㓬ᬜ ᑨ˄Altschul and Gish,1996˅ˈ䳔㽕䖯㸠䖭⾡᷵ℷ䖬಴Ў೼᧰㋶ぎ䯈䖍㓬ᓔྟⱘ↨ᇍ೼䖒 ࠄϔϾ᳝ᬜߚؐПࠡህӮ䍙ߎᑣ߫ⱘ㣗ೈDŽ ᡞ↨ᇍሔ䰤Ѣ≵᳝ぎԡⱘ෎⸔ПϞˈՓ䯂乬໻໻ㅔ࣪ˈԚᰃै㜅⾏ߚᄤ⫳⠽ᄺⱘᅲ䰙ᚙމDŽ ᅲ䰙Ϟˈ㽕ᓎゟϔϾᦦܹ੠㔎༅ⱘ㊒⹂῵ൟ䳔㽕ぎԡˈԚབᵰぎԡⳌᇍ䕗ᇥˈ೼䖭ѯぎԡП 䯈ҡ✊ৃҹ㦋ᕫ催ߚؐऎඳˈ᳝ҷ㸼ᗻⱘᰃৃ㛑Ӯ㦋ᕫ㋻ᆚⳌ䚏ⱘHSPˈ೼䖭⾡ᚙމϟˈҢᘏ ԧϞএ䆘Ԅᅗⱘᰒ㨫ᗻᰃ䕗Ўড়⧚ⱘˈг䆌ˈ↣Ͼ⠛↉ᑊϡᰒᕫᕜ䞡㽕ˈԚᰃ޴Ͼ⠛↉ৠᯊ ߎ⦃ህϡ໾ڣᰃي✊џӊњDŽKarlin-Altschulࡴ੠㒳䅵ᄺৃҹ䅵ㅫ1ϾHSPⱘ㒳䅵ؐˈ䖭Ͼᮍ ⊩ⱘᅲ䋼ᰃᡞ1Ͼ᳔Շ⠛↉ⱘߚؐ䖯㸠ࡴᘏˈҢ㗠䅵ㅫџӊي✊থ⫳ⱘৃ㛑ᗻˈ݊ᅗϔѯ䆎᥂ г㹿⫼ᴹ⹂䅸䖭ѯߚؐাᰃ೼⠛↉Ϣ↨ᇍϔ㟈ⱘᚙމϟ䖯㸠ࡴᘏDŽ㱑✊ࡴᘏⱘߚؐߚᏗϢHSP ߚ᳝ؐ໻᳔ؐᏂᓖˈҡ✊ৃҹᕫࠄ㾷ᵤ㾷DŽ ᳔ৢˈҡ✊᳝ᖙ㽕ᇍሔ䚼ᥦ䯳ⱘᰒ㨫ᗻ䖯㸠ড়⧚䆘Ԅˈ݊Ёࣙᣀњ῵ൟЁⱘぎԡDŽℷབৠӴ 㒳ⱘSmith-waterman↨ᇍˈ㱑✊≵᳝ܜ偠ⱘ䆕᥂ˈҎӀҡ✊䅸Ў䖭ѯ↨ᇍⱘߚؐгᑨ䆹䙉ᕾ ᵕؐߚᏗˈԚᰃˈߚᏗখ᭄.੠Ȝⱘؐϡ㛑䗮䖛䅵ㅫ㦋ᕫˈᔧ✊ˈ䗮䖛῵ൟ㦋ᕫ䖭ѯؐⱘᮍ⊩ Ꮖ㒣㹿໻໻ഄথሩњDŽ ᭄᥂ᑧЁⱘⳌԐᗻ᧰㋶ Ϟ䗄䅼䆎Џ㽕䲚ЁѢ䙷ѯ䕗Ў⡍߿ⱘऍ䜡ⱘᑣ߫ˈԚᰃᇍѢϔϾᮄথ⦄ⱘᑣ߫ˈ៥Ӏ᮴⊩ᕫ ⶹ⫼ҔМᑣ߫ৠᅗ䖯㸠↨ᇍˈ᭄᥂ᑧⳌԐᗻ᧰㋶Փ៥Ӏ㛑໳Ң᭄᥂ᑧЁᄬ೼ⱘ᭄कϛϾᑣ߫ Ёᣥ䗝ߎৃ㛑ৠᛳ݈䍷ⱘᑣ᳝߫݇㘨ⱘᑣ߫ˈ䖭Ͼᮍ⊩᳝ᯊӮᇐ㟈ᛣᛇϡࠄⱘᬊ㦋DŽ⫼䖭⾡ ㄪ⬹㦋ᕫ៤ࡳⱘ㄀ϔϾ՟ᄤᰃҎӀ಴ℸথ⦄⮙↦㚓⯸෎಴v-sisᰃ㒚㚲Ё㓪ⷕ㸔ᇣᵓ⌒⫳⫳䭓 ಴ᄤⱘ෎಴ⱘϔϾবԧᔶᓣ(Doolittle et al., 1983; Waterfield et al., 1983)DŽ䙷Ͼᯊ ׭ˈᑣ᭄߫᥂ᑧ䖬ϡ໻ˈ಴ℸ䖭Ͼথ⦄䎇ҹ঺Ҏᛳࠄϛߚ᚞༛DŽ✊㗠Ҟ໽བᵰ䖯㸠᭄᥂ᑧ᧰ ㋶ᑊϨϔ᮴᠔㦋ⱘ䆱ˈ䙷ህ᳈঺Ҏᛳࠄ䌍㾷њDŽབৠ݊ᅗ޴Ͼᇣⱘ⠽⾡෎಴㒘ϔḋˈ䝉↡ saccharomyces cerevisiaeⱘ෎಴㒘ܼᑣ߫Ꮖ㒣㹿⌟ᅮߎᴹDŽ೼㛞Ợࡼ⠽Ёˈ໻䞣ⱘ䚼ߚ෎ ಴䇌བҎ㉏੠㗕哴ⱘ෎಴䛑Ꮖ㒣㹿⌟ᅮᑊᄬܹ෎಴ᑧ˄genebank˅Ёˈ䖭гᇐ㟈њ㸼䖒ᑣ߫ ᷛㅒ˄EST˅Ꮉ⿟DŽEST⠛↉ⱘЏ㽕⫼䗨ᰃ೼᭄᥂ᑧ᧰㋶Ёˈ⫼EST⠛↉䖯㸠cDNAܟ䱚ৃҹߚ行 ߎ݈ᛳ䍷ⱘ෎಴ˈࣙᣀ݊ᅗ῵ൟ⫳⠽Ёⱘৠ⑤෎಴DŽ᳔䖥᡹ᇐⱘ໮䞡ߚݙ⊠㝎㚓⯸˄MENI˅ ෎಴ህ੠ҎϢ㗕哴ⱘ໮ϾEST⠛↉Ⳍऍ䜡ˈ݊ЁПϔ೼MENIথ㸼ࠡϔᑈህᏆ㒣ܹᑧֱᄬњ (Chandrasekharappa et al., 1997)DŽ ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ9/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第七章序列比对和数据库搜索 页码,10/2 在数据库搜索中,基本操作就是将查询序列和数据库中的主题序列作比对。比对结果是排列 好的 hit list,后面是一系列的单独的比对情况,以及不同的分值和统计值(如图7.9)。下 文将会详细介绍选择不同的搜索程序、序列数据库和不同的参数都会对搜索产生影响,而且 还有不同的界面,比如操作台命令、w形式和E-mai等。图7.10给出了一个使用Web界面进 行数据库搜索的例子。这种形式的一个优点就是对任何一个感兴趣的比对,全部注解和文献 应用都可以通过超文本简单方便地联接至原始的序列条目和相关的在线文献。 a The best score are: ini tn ini tI opt z-SC E(59248) gi |1706794 sp[ P49789 FHI T_HUMAN FRAGILE HI STIDI NE 996 996 1350. 4 0 gi170339sp|P49776|APh_ SCHPO B|S(5-NCLE0SM)43139539553622.8e-23 gi|1723425|sp|P49775|YD15 YEAST HYPOTHETI CAL24.8290171316428.12.9e-17 gi1724021|sp|0066| YHI T MYC TU HYPOTHETI CAL20.0178178184250.72.2e-07 qi|417124|sp|004344| HIT YEAST HITI PROTE|N(RFu159104157216.21.8e-05 gil41844|5p|P32084| YHIT SYNP7 HYPOTHETI CAL12.4139139140195.00.00028 gi|351828|sp|P47378| YHI T MYCGE HYPOTHETICAL15.6132132133183.90.0012 gil1169826|sp|P43424|GAL7 RAT GALACT0SE-1-PH0sPHA9797128169.70.0072 gi 418446 sp P32083 YHI T_MYCHR HYYPOTHETICAL 13 1 102 102 119 166.8 0. 01 gi|1708543|sp|P49773|1FK1 HUMAN PRC0TE|NK| NASE C8787118164.50.0014 gi|1724020sp|P49774| YHI T MYCLE HYPOTHETICAL17.013182117161.50.02 gi 1724019 sp[ P53795 YHI T_CAEEL HYPOTHETI CAL HI 98 116 161.5 0.02 gil70581|sp|P16436|1PK1_B0NPTE|NK| NASE C8686115160.40.023 gi 1730 003249|GAL7 MOUSE GALACT0sE-1-P0sp878712015930.027 gi|177047|sp|P42856|2B14MA|lE14 KD ZINC-B00N13279112156.30.04 gi1209081sp|P07902|GAL7_ HUMAN CALACT0SE-1-P0sH7878117154.80.048 gi|177046sp|P42855|ZB14BRAJ14KDZ|MC-B|NDN11576110154.50.05 gi|140775|sp|P26724| YHIT AZOBR HYPOTHETI CAL13.211565109152.60.064 qi|169852|spP31764|GAL7HA| N GALACTOSE-1-Posp6262104137.90.42 gil399p16550APA1 YEAST5′,5′-P-1,P-4-l10866103137.10.47 >>gi 1169826 sp P43424 GAL7_RAT GALACTOSE-1-PHOSPHATE UR(379 aa) ini tn: 97 ini t1: 97 opt: 128 Z-score: 169.7 EO: 0.0072 Smi th-Waterman score: 128: 30. 8% i denti ty in 107 aa over I ap file://E:wcb生物信息学(中译本)\第七章序列比对和数据库搜索.htm 2005-1-18

೼᭄᥂ᑧ᧰㋶Ёˈ෎ᴀ᪡԰ህᰃᇚᶹ䆶ᑣ߫੠᭄᥂ᑧЁⱘЏ乬ᑣ߫԰↨ᇍDŽ↨ᇍ㒧ᵰᰃᥦ߫ དⱘhit listˈৢ䴶ᰃϔ㋏߫ⱘऩ⣀ⱘ↨ᇍᚙމˈҹঞϡৠⱘߚ੠ؐ㒳䅵ؐ˄བ೒7.9˅DŽϟ ᭛ᇚӮ䆺㒚ҟ㒡䗝ᢽϡৠⱘ᧰㋶⿟ᑣǃᑣ᭄߫᥂ᑧ੠ϡৠⱘখ᭄䛑Ӯᇍ᧰㋶ѻ⫳ᕅડˈ㗠Ϩ 䖬᳝ϡৠⱘ⬠䴶ˈ↨བ᪡԰ৄੑҸǃWWWᔶᓣ੠E-mailㄝDŽ೒7.10㒭ߎњϔϾՓ⫼Web⬠䴶䖯 㸠᭄᥂ᑧ᧰㋶ⱘ՟ᄤDŽ䖭⾡ᔶᓣⱘϔϾӬ⚍ህᰃᇍӏԩϔϾᛳ݈䍷ⱘ↨ᇍˈܼ䚼⊼㾷੠᭛⤂ ᑨ⫼䛑ৃҹ䗮䖛䍙᭛ᴀㅔऩᮍ֓ഄ㘨᥹㟇ॳྟⱘᑣ߫ᴵⳂ੠Ⳍ݇ⱘ೼㒓᭛⤂DŽ a The best score are: initn initl opt z-sc E(59248) gi|1706794|sp|P49789|FHIT_HUMAN FRAGILE HISTIDINE 996 996 996 1350.4 0 gi|1703339|sp|P49776|APH1_SCHPO BIS(5’-NUCLEOSYL) 431 395 395 536.2 2.8e-23 gi|1723425|sp|P49775|YD15_YEAST HYPOTHETICAL 24.8 290 171 316 428.1 2.9e-17 gi|1724021|sp|Q11066|YHIT_MYCTU HYPOTHETICAL 20.0 178 178 184 250.7 2.2e-07 gi|417124|sp|Q04344|HIT_YEAST HIT1 PROTEIN (ORF U 159 104 157 216.2 1.8e-05 gi|418447|sp|P32084|YHIT_SYNP7 HYPOTHETICAL 12.4 139 139 140 195.0 0.00028 gi|1351828|sp|P47378|YHIT_MYCGE HYPOTHETICAL 15.6 132 132 133 183.9 0.0012 Æ gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHA 97 97 128 169.7 0.0072 gi|418446|sp|P32083|YHIT_MYCHR HYYPOTHETICAL 13.1 102 102 119 166.8 0.01 gi|1708543|sp|P49773|IPK1_HUMAN PROTEIN KINASE C 87 87 118 164.5 0.0014 gi|1724020|sp|P49774|YHIT_MYCLE HYPOTHETICAL 17.0 131 82 117 161.5 0.02 gi|1724019|sp|P53795|YHIT_CAEEL HYPOTHETICAL HIT- 98 98 116 161.5 0.02 gi|1170581|sp|P16436|IPK1_BOVIN PROTEIN KINASE C 86 86 115 160.4 0.023 gi|1730188|sp|Q03249|GAL7_MOUSE GALACTOSE-1-PHOSP 87 87 120 159.3 0.027 gi|1177047|sp|P42856|ZB14_MAIZE 14 KD ZINC-BIODIN 132 79 112 156.3 0.04 gi|1209081|sp|P07902|GAL7_HUMAN CALACTOSE-1-PHOSPH 78 78 117 154.8 0.048 gi|1177046|sp|P42855|ZB14_BRAJU 14 KD ZINC-BINDIN 115 76 110 154.5 0.05 gi|140775|sp|P26724|YHIT_AZOBR HYPOTHETICAL 13.2 115 65 109 152.6 0.064 gi|1169852|sp|P31764|GAL7_HAEIN GALACTOSE-1-PHOSP 62 62 104 137.9 0.42 gi|113999|sp|P16550|APA1_YEAST 5’,5’’’-P-1,P-4-TE 108 66 103 137.1 0.47 b >>gi|1169826|sp|P43424|GAL7_RAT GALACTOSE-1-PHOSPHATE UR (379 aa) initn: 97 init1: 97 opt: 128 z-score: 169.7 E(): 0.0072 Smith-Waterman score: 128; 30.8% identity in 107 aa overlap ㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶ 义ⷕˈ10/28 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϗゴᑣ߫↨ᇍ੠᭄᥂ᑧ᧰㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共28页,试读已结束,阅读完整版请下载
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有