《生物信息学》课程教学资源（中译本）第十一章利用蛋白质序列的预测方法

本书对数据库的讨论及前几章中提供的信息都说明,当前各种公共数据库中的序列信息的数量正急剧增加。与我们已知的核酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸序列中的开放阅读框转换而来,都包含有决定其结构功能的内在信息。可惜用实验方法获取这些信息的速度远远赶不上单纯序列数据产生的速度。象圆二色谱、旋光色散、X光晶体衍射和核磁共振都是确定结构特征的强有力技术,但它们的实现需要大量时间,并对技术和技巧都有很高要求。

团购合买资源类别：文库，文档格式：PDF，文档页数：20，文件大小：239.24KB

利用蛋白质序列的预测方法页码,1/20 利用蛋白质序列的预测方法 Andreas d. baxevanis Genome Technology Branch Nationa/ Human Genome Research /nsti tute National /nsti tutes of hea/ th Bethesda. Mry/ and David landsman Nationa/ Center fro biotechnol ogy Informai ton omputati ona/ Biology Branch National Li brary of Medicine National /nsti tute of heal th Bethsda. Maryl and 本书对数据库的讨论及前几章中提供的信息都说明,当前各种公共数据库中的序列信息的数量正急剧增加。与我们已知的核酸序列一样,所有蛋白质序列,无论是直接测得还是由核酸序列中的开放阅读框转换而来,都包含有决定其结构功能的内在信息。可惜用实验方法获取这些信息的速度远远赶不上单纯序列数据产生的速度。象圆二色谱、旋光色散、X光晶体衍射和核磁共振都是确定结构特征的强有力技术,但它们的实现需要大量时间,并对技术和技巧都有很高要求。对比蛋白质序列和结构数据库的容量可知两类信息之间差距已十分明显,到写这本书时,有428,814个条目在冗余的蛋白质序列库(n),而PDB库中仅有5017个条目为缩小这一差距所做的尝试都围绕于“预测的方法”。这些序列条目能在缺少生物化学数据的情况下提供关于蛋白质性质的见解。方法大多并不依赖于双序列或多序列的比对。核酸序列所包含的四种核苷酸在化学上性质相似(但不相同),与之不同的是,构成蛋白质的20种氨基酸残基由于化学构造上差别很大, 因而在结构和功能上存在更大多样性。任一残基对蛋白质的整体物理性质都会产生影响,因为这些残基本身就是酸性或者碱性的。因而在蛋白质结构域中每种残基对构成不同类型结构都存在偏向。当然,这些属性就是生物化学的核心原理之一“序列决定构象”的基础 ( Anfi nsen等,1961)。在谈及这种或那种预测技术之前要预先说明的是,无论用哪种方法,这些结果都是预测。不同的方法,采用了不同的算法,可能产生相同或不同的结果。但有一点很重要:弄清楚某种方法的原理,而不是仅把算法当作一个“黑箱”。因为一种方法可能对特定实例很合适,而对另一个则完全不对。虽然如此,存在一种强大合作的潜力:正确应用这些预测技术,参照 file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

ᴀкᇍ᭄᥂ᑧⱘ䅼䆎ঞࠡ޴ゴЁᦤկⱘֵᙃ䛑䇈ᯢˈᔧࠡ৘⾡᭄݀݅᥂ᑧЁⱘᑣֵ߫ᙃⱘ᭄ 䞣ℷᗹ࠻๲ࡴǄϢ៥ӀᏆⶹⱘḌ䝌ᑣ߫ϔḋˈ᠔᳝㲟ⱑ䋼ᑣ߫ˈ᮴䆎ᰃⳈ᥹⌟ᕫ䖬ᰃ⬅Ḍ䝌 ᑣ߫Ёⱘᓔᬒ䯙䇏Ḛ䕀ᤶ㗠ᴹˈ䛑᳝ࣙ৿އᅮ݊㒧ᵘࡳ㛑ⱘݙֵ೼ᙃǄৃᚰ⫼ᅲ偠ᮍ⊩㦋প 䖭ѯֵᙃⱘ䗳ᑺ䖰䖰䍊ϡϞऩ㒃ᑣ᭄߫᥂ѻ⫳ⱘ䗳ᑺǄ䈵೚Ѡ㡆䈅ǃᮟܝ㡆ᬷǃ;ܝԧ᱊㸡ᇘ ੠Ḍ⺕݅ᤃ䛑ᰃ⹂ᅮ㒧ᵘ⡍ᕕⱘᔎ᳝࡯ᡔᴃˈԚᅗӀⱘᅲ⦄䳔㽕໻䞣ᯊ䯈ˈᑊᇍᡔᴃ੠ᡔᎻ 䛑᳝ᕜ催㽕∖Ǆᇍ↨㲟ⱑ䋼ᑣ߫੠㒧ᵘ᭄᥂ᑧⱘᆍ䞣ৃⶹϸ㉏ֵᙃП䯈Ꮒ䎱Ꮖकߚᯢᰒˈࠄ ݭ䖭ᴀкᯊˈ᳝428,814ϾᴵⳂ೼ݫԭⱘ㲟ⱑ䋼ᑣ߫ᑧ˄nr˅ˈ㗠PDBᑧЁҙ᳝5017ϾᴵⳂ1Ǆ Ў㓽ᇣ䖭ϔᏂ䎱᠔خⱘᇱ䆩䛑ೈ㒩ѢĀ乘⌟ⱘᮍ⊩āǄ䖭ѯᑣ߫ᴵⳂ㛑೼㔎ᇥ⫳⠽࣪ᄺ᭄᥂ ⱘᚙމϟᦤկ݇Ѣ㲟ⱑ䋼ᗻ䋼ⱘ㾕㾷Ǆ ᴀゴⱘ⛺⚍ᰃҢᑣ߫ᴀ䑿Ё㦋প⫳⠽ᄺথ⦄ⱘ䅵ㅫᡔᴃˈϢࠡ޴ゴЁⱘᡔᴃϡৠП໘Ѣ䖭ѯ ᮍ⊩໻໮ᑊϡձ䌪Ѣঠᑣ߫៪໮ᑣ߫ⱘ↨ᇍǄḌ䝌ᑣ߫᠔ࣙ৿ⱘಯ⾡Ḍ㣋䝌೼࣪ᄺϞᗻ䋼Ⳍ Ԑ˄ԚϡⳌৠ˅ˈϢПϡৠⱘᰃˈᵘ៤㲟ⱑ䋼ⱘ20⾡⇼෎䝌⅟෎⬅Ѣ࣪ᄺᵘ䗴ϞᏂ߿ᕜ໻ˈ ಴㗠೼㒧ᵘ੠ࡳ㛑Ϟᄬ೼᳈໻໮ḋᗻǄӏϔ⅟෎ᇍ㲟ⱑ䋼ⱘᭈԧ⠽⧚ᗻ䋼䛑Ӯѻ⫳ᕅડˈ಴ Ў䖭ѯ⅟෎ᴀ䑿ህᰃ䝌ᗻ៪㗙⺅ᗻⱘǄ಴㗠೼㲟ⱑ䋼㒧ᵘඳЁ↣⾡⅟෎ᇍᵘ៤ϡৠ㉏ൟ㒧ᵘ 䛑ᄬ೼أ৥Ǆᔧ✊ˈ䖭ѯሲᗻህᰃ⫳⠽࣪ᄺⱘḌᖗॳ⧚ПϔĀᑣ߫އᅮᵘ䈵āⱘ෎⸔ ˄Anfinsenㄝˈ1961˅Ǆ ೼䇜ঞ䖭⾡៪䙷⾡乘⌟ᡔᴃПࠡ㽕乘ܜ䇈ᯢⱘᰃˈ᮴䆎⫼ા⾡ᮍ⊩ˈ䖭ѯ㒧ᵰ䛑ᰃ乘⌟Ǆϡ ৠⱘᮍ⊩ˈ䞛⫼њϡৠⱘㅫ⊩ˈৃ㛑ѻ⫳Ⳍৠ៪ϡৠⱘ㒧ᵰǄԚ᳝ϔ⚍ᕜ䞡㽕˖ᓘ⏙Ἦᶤ⾡ ᮍ⊩ⱘॳ⧚ˈ㗠ϡᰃҙᡞㅫ⊩ᔧ԰ϔϾĀ咥ㆅāǄ಴Ўϔ⾡ᮍ⊩ৃ㛑ᇍ⡍ᅮᅲ՟ᕜড়䗖ˈ㗠 ᇍ঺ϔϾ߭ᅠܼϡᇍǄ㱑✊བℸˈᄬ೼ϔ⾡ᔎ໻ড়԰ⱘ┰࡯˖ℷ⹂ᑨ⫼䖭ѯ乘⌟ᡔᴃˈখ✻ 11 ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ Andreas D. Baxevanis Genome Technology Branch National Human Genome Research Institute National Institutes of Health Bethesda. Mryland David Landsman National Center fro Biotechnology Informaiton Computational Biology Branch National Library of Medicine National Institute of Health Bethsda. Maryland ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ1/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

利用蛋白质序列的预测方法页码,2/2 以主要的生化数据,就能提供有关蛋白质结构与功能的有价值信息。 1. Gen Bank发布编号100.0,1997年4月15日;PDB为1997年3月13日之数据。基于组成的蛋白质辨识人们早已熟知了20种氨基酸中每一个的物理和化学性质,并以此开发了许多有用的计算工具用于确认未知蛋白(或反过来分析已知蛋白)。其中的大部分可通过在 Geneva大学医院和 Geneva大学的 EXPASy服务(Appe等,1994)来获得。 EXPASy工具的应用有两个焦点:既分析和确认由二维凝胶电泳分离得到的未知蛋白,也预测已知蛋白的基本性质。这些工具利用了 S硎IsSs-PRoT数据库中的有效注解来进行预测。既然这类计算对电泳分析有用,它们也能在其它实验领域中有所帮助,尤其是对色谱和沉降分析。在这里及以下内容中,包含在 EXPASy中的工具都会标明,但由此而来的讨论也包括了许多由其他小组开发提供的有用程序。本章末列出了与本章中所提及的工具有关的因特网资源 AACompl dent AACompSi m(EXPASy) 与把氨基酸序列在SW|Ss-PROT库中搜索不同, AACompl dent工具利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白( Wilkins等,19%6)。对于输入部分,该程序需要蛋白质的氨基酸组成,等电点p和分子量(如果知道),正确的物种分类及特别的关键词。此外,用户还需在六种氨基酸“组合”中作出选择,这影响到分析如何进行。例如,某种“组合”会把残基Asp/Asn(D/N)和Gln/Gu(O/E)组合成Ax(B)和Gx(Z);或者某种残基会在分析中被完全除去。对数据库中的每一个蛋白序列,算法会对其氨基酸组成与所查询的氨基酸组成的差异打分由电子邮件返回的结果被组织成三级列表:第一张列表中的蛋白都基于特定的物种分类而不考虑p和分子量;第二张列表包含了不考虑物种分类、p和分子量的全体蛋白:第三张列表中的蛋白不但基于特定物种分类,并且将p|和分子量也考虑在内。虽然计算所得结果各不相同,但零分表明了该序列与提出的组成完全相符 Compl dent的一个变种, AAComp Si m提供类似的分析,但与前者以实验所得的氨基酸组成为依据进行搜索不同,后者使用SWSS-PROT中的序列为依据( Wi I kins等,1996)。利用 Compute pl/硎(见下)所得的不同数值可以计算出理论等电点和分子量。有报道称,氨基酸组成在物种之间是十分保守的( Corde等,1995),并且通过分析氨基酸的组成,研究者能从低于25%序列相似性的蛋白之间发现弱相似性( Hobohm和 Sander,1995)。因此,在 “传统的”数据库搜索基础上辅以组成分析,能为蛋白质之间关系提供更多见解 PROPSEARCH pR0 OPSEARCH与 AACompSi m一样,也利用蛋白的氨基酸组成来检测蛋白质之间的微弱联系。据该软件开发者称这一技术能轻易发现同一蛋白质家族的成员( Hobohm和 Sander,1995)。但这技术比 AACompSi m更加强壮:它使用了144种不同的物化属性来进行分析,其中包括分子量、巨大残基的含量、平均疏水性和平均电荷等。这些属性的集合被称作“査询向量”,并将其与数据库(SMSS-PR0T和PR)中的每个序列预先计算好的向量进行比较。拥有这样一个预先计算好的“向量数据库”大大节约了每次查询所需的时间。 PROPSEARCH的Web服务所需的输入是查询序列本身,其输出的一个实例为图11.1。这里作为查询序列的是人自身抗原N0R-90的序列。结果由距离分值分成几段,该分值代表了查询序列与由 PROPSEARCH找到的新序列之间的相似性程度,从而属于同一家族,因此通常表明具有相似的功能。10分或更低表明两种蛋白相似的可能性大于87%。低于8.7分将相似性可信度提高到 94%,而低于7.5分则达到99.6%。分析图11.1的结果可见,NOR-90与一些核转录因子、蛋白 file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

ҹЏ㽕ⱘ⫳᭄࣪᥂ˈህ㛑ᦤկ᳝݇㲟ⱑ䋼㒧ᵘϢࡳ㛑ⱘ᳝ӋֵؐᙃǄ 1. GenBankথᏗ㓪ো100.0ˈ1997ᑈ᳜15᮹˗PDBЎ1997ᑈ᳜13᮹П᭄᥂Ǆ ෎Ѣ㒘៤ⱘ㲟ⱑ䋼䕼䆚 ҎӀᮽᏆ❳ⶹњ20⾡⇼෎䝌Ё↣ϔϾⱘ⠽⧚੠࣪ᄺᗻ䋼ᑊҹℸᓔথњ䆌໮᳝⫼ⱘ䅵ㅫᎹ݋⫼ Ѣ⹂䅸᳾ⶹ㲟ⱑ˄៪ড䖛ᴹߚᵤᏆⶹ㲟ⱑ˅Ǆ݊Ёⱘ໻䚼ߚৃ䗮䖛೼Geneva໻ᄺए䰶੠ Geneva໻ᄺⱘExPASy᳡ࡵ˄Appelㄝˈ1994˅ᴹ㦋ᕫǄExPASyᎹ݋ⱘᑨ⫼᳝ϸϾ⛺⚍˖᮶ߚᵤ ੠⹂䅸⬅Ѡ㓈ޱ㛊⬉⋇ߚ行ᕫࠄⱘ᳾ⶹ㲟ⱑˈг乘⌟Ꮖⶹ㲟ⱑⱘ෎ᴀᗻ䋼Ǆ䖭ѯᎹ߽݋⫼њ SWISS-PROT᭄᥂ᑧЁⱘ᳝ᬜ⊼㾷ᴹ䖯㸠乘⌟Ǆ᮶✊䖭㉏䅵ㅫᇍ⬉⋇ߚᵤ᳝⫼ˈᅗӀг㛑೼݊ ᅗᅲ偠乚ඳЁ᳝᠔ᐂࡽˈᇸ݊ᰃᇍ㡆䈅੠≝䰡ߚᵤǄ೼䖭䞠ঞҹϟݙᆍЁˈࣙ೼৿ExPASyЁ ⱘᎹ݋䛑ӮᷛᯢˈԚ⬅ℸ㗠ᴹⱘ䅼䆎гࣙᣀњ䆌໮⬅݊Ҫᇣ㒘ᓔথᦤկⱘ᳝⫼⿟ᑣǄᴀゴ᳿ ߫ߎњϢᴀゴЁ᠔ᦤঞⱘᎹ݋᳝݇ⱘ಴⡍㔥䌘⑤Ǆ AACompIdentϢAACompSim˄ExPASy˅ Ϣᡞ⇼෎䝌ᑣ߫೼SWISS-PROTᑧЁ᧰㋶ϡৠˈAACompIdentᎹ߽݋᳾⫼ⶹ㲟ⱑⱘ⇼෎䝌㒘៤এ ⹂䅸݋᳝Ⳍৠ㒘៤ⱘᏆⶹ㲟ⱑ˄Wilkinsㄝˈ1996˅ǄᇍѢ䕧ܹ䚼ߚˈ䆹⿟ᑣ䳔㽕㲟ⱑ䋼ⱘ⇼ ෎䝌㒘៤ˈㄝ⬉⚍pI੠ߚᄤ䞣˄བᵰⶹ䘧˅ˈℷ⹂ⱘ⠽⾡ߚ㉏ঞ⡍߿ⱘ݇䬂䆡Ǆℸ໪ˈ⫼᠋ 䖬䳔೼݁⾡⇼෎䝌Ā㒘ড়āЁ԰ߎ䗝ᢽˈ䖭ᕅડߚࠄᵤབԩ䖯㸠Ǆ՟བˈᶤ⾡Ā㒘ড়āӮᡞ ⅟෎Asp/Asn˄D/N˅੠Gln/Glu˄Q/E˅㒘ড়៤Asx˄%˅੠Glx˄=˅˗៪㗙ᶤ⾡⅟෎Ӯ೼ߚᵤ Ё㹿ᅠܼ䰸এǄ ᇍ᭄᥂ᑧЁⱘ↣ϔϾ㲟ⱑᑣ߫ˈㅫ⊩Ӯᇍ݊⇼෎䝌㒘៤Ϣ᠔ᶹ䆶ⱘ⇼෎䝌㒘៤ⱘᏂᓖᠧߚǄ ⬅⬉ᄤ䚂ӊ䖨ಲⱘ㒧ᵰ㹿㒘㒛៤ϝ㑻߫㸼˖㄀ϔᓴ߫㸼Ёⱘ㲟ⱑ䛑෎Ѣ⡍ᅮⱘ⠽⾡ߚ㉏㗠ϡ 㗗㰥pI੠ߚᄤ䞣˗㄀Ѡᓴ߫㸼ࣙ৿њϡ㗗㰥⠽⾡ߚ㉏ǃpI੠ߚᄤ䞣ⱘܼԧ㲟ⱑ˗㄀ϝᓴ߫㸼 Ёⱘ㲟ⱑϡԚ෎Ѣ⡍ᅮ⠽⾡ߚ㉏ˈᑊϨᇚpI੠ߚᄤ䞣г㗗㰥೼ݙǄ㱑✊䅵ㅫ᠔ᕫ㒧ᵰ৘ϡⳌ ৠˈԚ䳊ߚ㸼ᯢњ䆹ᑣ߫Ϣᦤߎⱘ㒘៤ᅠܼⳌヺǄ AACompIdentⱘϔϾব⾡ˈAACompSimᦤկ㉏ԐⱘߚᵤˈԚϢࠡ㗙ҹᅲ偠᠔ᕫⱘ⇼෎䝌㒘៤Ў ձ᥂䖯㸠᧰㋶ϡৠˈৢ㗙Փ⫼SWISS-PROTЁⱘᑣ߫Ўձ᥂˄Wilkinsㄝˈ1996˅Ǆ߽⫼ Compute pI/MW˄㾕ϟ˅᠔ᕫⱘϡৠ᭄ؐৃҹ䅵ㅫߎ⧛䆎ㄝ⬉⚍੠ߚᄤ䞣Ǆ᳝᡹䘧⿄ˈ⇼෎䝌㒘៤೼⠽⾡П䯈ᰃकߚֱᅜⱘ˄Cordwellㄝˈ1995˅ˈᑊϨ䗮䖛ߚᵤ⇼෎䝌ⱘ㒘៤ˈⷨお㗙㛑ҢԢѢ25ˁᑣ߫ⳌԐᗻⱘ㲟ⱑП䯈থ⦄ᔅⳌԐᗻ˄Hobohm੠Sanderˈ1995˅Ǆ಴ℸˈ೼ ĀӴ㒳ⱘā᭄᥂ᑧ᧰㋶෎⸔Ϟ䕙ҹ㒘៤ߚᵤˈ㛑Ў㲟ⱑ䋼П䯈݇㋏ᦤկ᳈໮㾕㾷Ǆ PROPSEARCH PROPSEARCHϢAACompSimϔḋˈг߽⫼㲟ⱑⱘ⇼෎䝌㒘៤ᴹẔ⌟㲟ⱑ䋼П䯈ⱘᖂᔅ㘨㋏Ǆ᥂䆹䕃ӊᓔথ㗙⿄䖭ϔᡔᴃ㛑䕏ᯧথ⦄ৠϔ㲟ⱑ䋼ᆊᮣⱘ៤ਬ˄Hobohm੠Sanderˈ1995˅ǄԚ䖭 ϔᡔᴃ↨AACompSim᳈ࡴᔎໂ˖ᅗՓ⫼њ144⾡ϡৠⱘ⠽࣪ሲᗻᴹ䖯㸠ߚᵤˈ݊Ёࣙᣀߚᄤ 䞣ǃᎼ໻⅟෎ⱘ৿䞣ǃᑇഛ⭣∈ᗻ੠ᑇഛ⬉㥋ㄝǄ䖭ѯሲᗻⱘ䲚ড়㹿⿄԰Āᶹ䆶৥䞣āˈᑊ ᇚ݊Ϣ᭄᥂ᑧ˄SWISS-PROT੠PIR˅Ёⱘ↣Ͼᑣ߫乘ܜ䅵ㅫདⱘ৥䞣䖯㸠↨䕗Ǆᢹ᳝䖭ḋϔϾ 乘ܜ䅵ㅫདⱘĀ৥䞣᭄᥂ᑧā໻໻㡖㑺њ↣⃵ᶹ䆶᠔䳔ⱘᯊ䯈Ǆ PROPSEARCHⱘWeb᳡ࡵ᠔䳔ⱘ䕧ܹᰃᶹ䆶ᑣ߫ᴀ䑿ˈ݊䕧ߎⱘϔϾᅲ՟Ў೒11.1Ǆ䖭䞠԰Ўᶹ 䆶ᑣ߫ⱘᰃҎ㞾䑿ᡫॳNOR-90ⱘᑣ߫Ǆ㒧ᵰ⬅䎱⾏ߚؐߚ៤޴ˈ0⁄3䆹ߚؐҷ㸼њᶹ䆶ᑣ߫Ϣ ⬅PROPSEARCHᡒࠄⱘᮄᑣ߫П䯈ⱘⳌԐᗻ⿟ᑺˈҢ㗠ሲѢৠϔᆊᮣˈ಴ℸ䗮ᐌ㸼ᯢ݋᳝ⳌԐ ⱘࡳ㛑Ǆ10ߚ᳈៪Ԣ㸼ᯢϸ⾡㲟ⱑⳌԐⱘৃ㛑ᗻ໻Ѣ87ˁǄԢѢ8.7ߚᇚⳌԐᗻৃֵᑺᦤ催ࠄ 94ˁˈ㗠ԢѢ7.5ߚ߭䖒ࠄ99.6ˁǄߚᵤ೒11.1ⱘ㒧ᵰৃ㾕ˈNOR-90ϢϔѯḌ䕀ᔩ಴ᄤǃ㲟ⱑ ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ2/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

利用蛋白质序列的预测方法页码,3/20 微酶、一个 reti nobl stoma结合蛋白、肌动蛋白结合蛋白 radi xin和推测是一种GTP酶靶蛋白的RaBP1等蛋白相似。既然这些蛋白的功能各自不同,它们并不都是想要的结果;然而,其中许多是DNA的结合蛋白,这就暗示一种可能是在不同功能区中都采用了的十分相似的结构域。至少进行一次 BLASTP搜索对确认结果和识别关键性残基是十分必要的。 Fragment search: OFF(POS1 and POS2 are begi n and end of sequence) Rank ID DIST LEN2 POS1 POS2 pl DE >p1s181930.00727 1. 33 autoanti gen NOR-90-human ubf1 human1.36‖764 764 5.62 NUCLEOLAR TRANSCRI PTI ON FACTOR 1(UPSTREA ubf1 mouse‖1.40765 7655.55 NUCLEOLAR TRANSCRI PTI ON FACTOR 1(UPSTRE ubf1_rat.57764 17645. 61 NUCLEOLAR TRANSCRI PTI ON FACTOR 1(UPSTREA 456 ubf1 xenl a 3. 95 677 16775.79 NUCLEOLAR TRANSCRI PTI ON FACTOR 1(UPSTREA ubf2 xenl a4.18‖701 17016.05 NUCLEOLAR TRANSCRI PTION FACTOR 2(UPSTREA >p1:s5527.72606 6066.63 hypotheti cal protein YPRO18w-yeast(Sa >p1: i50463849 17725. 71 protei n ki nase -chi cken p1: h540248 83 768 17685. 27 protei n ki nase(EC 2. 1. 37) cdc2-rel atec p1:b540248.87777 7775. 27 protei n ki nase(EC 2. 7.1.37) cdc2-rel ated p1:g540248.9076 17665. 21 protein ki nase (EC 2.7.1.37)cdc2-rel ated 12 >p1:a558179.00‖783 17835. 19 cycl i n-dependent kinase 130-PI TSLRE-mc >p1540491177 7775. 30 protein ki nase(EC 2. 7.1.37)cdc2-rel ated >p1: e54024911779 7795. 42 protei n ki nase(EC 2. 7. 1. 37)cdc2-rel atec 15984. 78HYPOTHETI CAL 69.5 KD PROTEI N C22G705 IN 1:562449‖9 1. 78 hypothetical protein SPAC22G705 >f1:i58390‖9.45‖920 9205.00 reti nobl stoma bi ndi ng protein 1 isoform >p1: $631939.58590 5906 15 hypotheti cal protein YNL227c- yeast(S 19 ynw7-yeast9.58590 15906. 15HYPOTHETI CAL 68.8 KD PROTEIN IN URE2-SSU >p1:s496349.74‖899 899 4.79 hypothetical protein YML093W-yeast(Sa ymj3_yeast 9. 74899 18994 79 HYPOTHETI CAL 103. 0 KD PROTEIN IN RAD10-PF adi_human 9. 76 583 1583‖6.33‖ RADI N radi_pig9.81‖583 5836. RADI XIN(MOESIN B) >f1;i7883‖9.83‖866 18664. 77 reti nobl astoma bi ndi ng protein 1 i soform file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

▔䝊ǃϔϾretinoblastoma㒧ড়㲟ⱑǃ㙠ࡼ㲟ⱑ㒧ড়㲟ⱑradixin੠᥼⌟ᰃϔ⾡GTP䝊䵊㲟ⱑ ⱘRalBP1ㄝ㲟ⱑⳌԐǄ᮶✊䖭ѯ㲟ⱑⱘࡳ㛑৘㞾ϡৠˈᅗӀᑊϡ䛑ᰃᛇ㽕ⱘ㒧ᵰ˗✊㗠ˈ݊ Ё䆌໮ᰃDNAⱘ㒧ড়㲟ⱑˈ䖭ህᱫ⼎ϔ⾡ৃ㛑ᰃ೼ϡৠࡳ㛑ऎЁ䛑䞛⫼њⱘकߚⳌԐⱘ㒧ᵘ ඳǄ㟇ᇥ䖯㸠ϔ⃵BLASTP᧰㋶ᇍ⹂䅸㒧ᵰ੠䆚߿݇䬂ᗻ⅟෎ᰃकߚᖙ㽕ⱘǄ Fragment search: OFF (POS1 and POS2 are begin and end of sequence) Rank ID DIST LEN2 POS1 POS2 pI DE 1 >p1;s18193 0.00 727 1 727 5.33 autoantigen NOR-90 – human 2 ubf1_human 1.36 764 1 764 5.62 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF 3 ubf1_mouse 1.40 765 1 765 5.55 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF 4 ubf1_rat 1.57 764 1 764 5.61 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF 5 ubf1_xenla 3.95 677 1 677 5.79 NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF 6 ubf2_xenla 4.18 701 1 701 6.05 NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPSTREAM BINDING FACTOR 2) (UBF 7 >p1;s57552 7.72 606 1 606 6.63 hypothetical protein YPR018w – yeast (Saccharomyces cerevisiae) 8 >p1;i50463 8.49 772 1 772 5.71 protein kinase – chicken 9 >p1;h54024 8.83 768 1 768 5.27 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2 10 >p1;b54024 8.87 777 1 777 5.27 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2 11 >p1;g54024 8.90 766 1 766 5.21 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2 12 >p1;a55817 9.00 783 1 783 5.19 cyclin-dependent kinase 130-PITSLRE – mouse 13 >p1;f54024 9.11 777 1 777 5.30 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2 14 >p1;e54024 9.11 779 1 779 5.42 protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2 15 yaa5_schpo 9.45 598 1 598 4.78 HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 IN CHROMOSOME I. 16 >p1;s62449 9.45 598 1 598 4.78 hypothetical protein SPAC22G7.05 – fission yeast (Schizosaccharomyces pombe) 17 >f1;i58390 9.45 920 1 920 5.00 retinoblastoma binding protein 1 isoform I 18 >p1;s63193 9.58 590 1 590 6.15 hypothetical protein YNL227c – yeast (Saccharomyces cerevisiae) 19 ynw7_yeast 9.58 590 1 590 6.15 HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 INTERGENIC REGION. 20 >p1;s49634 9.74 899 1 899 4.79 hypothetical protein YML093w – yeast (Saccharomyces cerevisiae) 21 ymj3_yeast 9.74 899 1 899 4.79 HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 INTERGENIC REGION. 22 radi_human 9.76 583 1 583 6.33 RADIXIN. 23 radi_pig 9.81 583 1 583 6.21 RADIXIN (MOESIN B). 24 >f1;i78883 9.83 866 1 866 4.77 retinoblastoma binding protein 1 isoform II ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ3/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

利用蛋白质序列的预测方法页码,4/20 >pl:b429979.87754 1 5. 17 reti nobl astoma-associ ated protein 2-hl 1:a574679.91 16475.74‖Ra1BP1-rat 图11.1基于氨基酸组成的 PROPSEARCH数据搜索。输入序列是人自身抗原NR-90。为简洁起见,除去了解释性材料和一张与整个目标数据库距离打分的直方图。表中的列给出的是根据距离得分排列的顺序、SMSS-PR0T或PIR标识、距离得分、査询序列与该序列重叠的长度、重叠的位置(从P0S1到P0S2)、计算出的p,以及对该序列的描述 MOWSE 分子量搜索( Mol ecul ar Wei ght Search, MOWSE)算法利用了通过质谱(MS)技术获得的信息( Pappi n等,1993)。利用完整蛋白质的分子量及其被特定蛋白酶消化后产物的分子量, 种未知蛋白质能被准确无误地确认,给出由若干实验才能决定的结果。由于未知蛋白无需再全部或部分测序,这一方法显著地减少了实验时间 MOWSE的输入是一个纯文本文件,包含一张实验测定的肽段列表,分子量范围在0.7到4.0Kda 之间。计算过程基于在OW非冗余蛋白质序列库( Aki gg等,1988)中包含的信息。打分基于在一定分子量范围内蛋白中一个片段分子量出现的次数。输出的结果是得分最佳的30个蛋白的列表,包括它们在0唰中的条目名称,相符肽段序列,和其它统计信息。模拟研究得出在使用5个或更少输入肽段分子量时,准确率为99%。该搜索服务可通过向 mowseedaresburg.a.k发送电子邮件实现。为获得更多关于查询格式的细节信息,可以相该地址发送电子邮件,并在消息正文中写上“help”这个词基于序列的物理性质 Compute pl/M(ExPASy) Compute pl/M是计算输入序列等电点和分子量的工具。对pl的确定基于早期研究中将蛋白质从由中性到酸性变性条件下迁移过程中所获得的pK值( Bel l gvi st等,1993)。因此,该作者警告用户,对于碱性蛋白质所得到的p值可能不准确。分子量的计算是把序列中每个氨基酸的同位素平均分子量加在一起,再加上一个水分子的分子量。用户可以把序列整理为 FASTA 格式,或提供 SWISS-PR0T标识,或者是可唯一确定的添加号。若用户提供了序列,该工具会自动计算全序列的p和分子量:若用户提供的是SWSS-PROT标识,程序会显示该条目的描述和物种记录;如果用户给出了一段序列片段范围则计算将在该片段上进行,而不是针对整个序列 Pepti deMass (ExPASy) Pepti deMass工具针对肽段谱图分析实验,用于确定蛋白质在与特定蛋白酶或化学试剂作用下的内切产物( Wi Akins等,1997)。通过 Pepti deMass可以预测水解结果的酶和试剂包括:胰蛋白酶( trypsi n)、糜蛋白酶( chymotrypsin n)、LysC、溴化氰、ArgC、AspN和GlUC(双羧酯或磷酸酯)。半胱氨酸和甲硫氨酸可在计算产物肽段前加以修饰。若用户提供的是SMSS PROT标识,而不单是一段序列, Pepti deMass还能利用 SWI SS-PROT库中标注中的信息协助计算。例如,除去信号序列,后在剪切之前引入已知的翻译后修饰。输出结果会列成表格,其中将给出输入蛋白的p和分子量,然后是SWSS-PROT中关于变种的分子量、位点、修饰后变种的信息,最后是肽片段的序列 TGREASE file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

೒11.1෎Ѣ⇼෎䝌㒘៤ⱘPROPSEARCH᭄᥂᧰㋶Ǆ䕧ܹᑣ߫ᰃҎ㞾䑿ᡫॳNOR-90ǄЎㅔ⋕䍋㾕ˈ䰸এњ㾷䞞ᗻᴤ᭭੠ϔᓴϢᭈϾⳂ᭄ᷛ᥂ᑧ䎱⾏ᠧߚⱘⳈᮍ೒Ǆ㸼Ёⱘ߫㒭ߎⱘᰃḍ᥂ 䎱⾏ᕫߚᥦ߫ⱘ乎ᑣǃSWISS-PROT៪PIRᷛ䆚ǃ䎱⾏ᕫߚǃᶹ䆶ᑣ߫Ϣ䆹ᑣ߫䞡঴ⱘ䭓ᑺǃ䞡 ঴ⱘԡ㕂˄ҢPOS1ࠄPOS2˅ǃ䅵ㅫߎⱘpIˈҹঞᇍ䆹ᑣ߫ⱘᦣ䗄Ǆ MOWSE ߚᄤ䞣᧰㋶˄Molecular Weight SearchˈMOWSE˅ㅫ⊩߽⫼њ䗮䖛䋼䈅˄MS˅ᡔᴃ㦋ᕫⱘֵ ᙃ˄Pappinㄝˈ1993˅Ǆ߽⫼ᅠᭈ㲟ⱑ䋼ⱘߚᄤ䞣ঞ݊㹿⡍ᅮ㲟ⱑ䝊⍜࣪ৢѻ⠽ⱘߚᄤ䞣ˈ ϔ⾡᳾ⶹ㲟ⱑ䋼㛑㹿ޚ⹂᮴䇃ഄ⹂䅸ˈ㒭ߎ⬅㢹ᑆᅲ偠ᠡ㛑އᅮⱘ㒧ᵰǄ⬅Ѣ᳾ⶹ㲟ⱑ᮴䳔 ݡܼ䚼៪䚼ߚ⌟ᑣˈ䖭ϔᮍ⊩ᰒ㨫ഄޣᇥњᅲ偠ᯊ䯈Ǆ MOWSEⱘ䕧ܹᰃϔϾ㒃᭛ᴀ᭛ӊˈࣙ৿ϔᓴᅲ偠⌟ᅮⱘ㚑↉߫㸼ˈߚᄤ䞣㣗ೈ೼0.7ࠄ4.0Kda П䯈Ǆ䅵ㅫ䖛⿟෎Ѣ೼OWL䴲ݫԭ㲟ⱑ䋼ᑣ߫ᑧ˄Akriggㄝˈ1988˅Ёࣙ৿ⱘֵᙃǄᠧߚ෎Ѣ ೼ϔᅮߚᄤ䞣㣗ೈݙ㲟ⱑЁϔϾ⠛↉ߚᄤ䞣ߎ⦃ⱘ⃵᭄Ǆ䕧ߎⱘ㒧ᵰᰃᕫߚ᳔Շⱘ30Ͼ㲟ⱑ ⱘ߫㸼ˈࣙᣀᅗӀ೼OWLЁⱘᴵⳂৡ⿄ˈⳌヺ㚑↉ᑣ߫ˈ੠݊ᅗ㒳䅵ֵᙃǄ῵ᢳⷨおᕫߎ೼Փ ⫼Ͼ៪᳈ᇥ䕧ܹ㚑↉ߚᄤ䞣ᯊˈޚ⥛⹂Ў99ˁǄ䆹᧰㋶᳡ࡵৃ䗮䖛৥ mowse@daresburg.ac.ukথ䗕⬉ᄤ䚂ӊᅲ⦄ǄЎ㦋ᕫ᳈໮݇Ѣᶹ䆶Ḑᓣⱘ㒚㡖ֵᙃˈৃҹⳌ䆹 ഄഔথ䗕⬉ᄤ䚂ӊˈᑊ೼⍜ᙃℷ᭛ЁݭϞ“help”䖭Ͼ䆡Ǆ ෎Ѣᑣ߫ⱘ⠽⧚ᗻ䋼 Compute pI/MW˄ExPASy˅ Compute pI/MWᰃ䅵ㅫ䕧ܹᑣ߫ㄝ⬉⚍੠ߚᄤ䞣ⱘᎹ݋ǄᇍpIⱘ⹂ᅮ෎ѢᮽᳳⷨおЁᇚ㲟ⱑ䋼 Ң⬅Ёᗻࠄ䝌ᗻবᗻᴵӊϟ䖕⿏䖛⿟Ё᠔㦋ᕫⱘpKؐ˄Bjellqvistㄝˈ1993˅Ǆ಴ℸˈ䆹԰ 㗙䄺ਞ⫼᠋ˈᇍѢ⺅ᗻ㲟ⱑ䋼᠔ᕫࠄⱘpIؐৃ㛑ϡޚ⹂Ǆߚᄤ䞣ⱘ䅵ㅫᰃᡞᑣ߫Ё↣Ͼ⇼෎ 䝌ⱘৠԡ㋴ᑇഛߚᄤ䞣ࡴ೼ϔ䍋ˈࡴݡϞϔϾ∈ߚᄤⱘߚᄤ䞣Ǆ⫼᠋ৃҹᡞᑣ߫ᭈ⧚ЎFASTA Ḑᓣˈ៪ᦤկSWISS-PROTᷛ䆚ˈ៪㗙ᰃৃଃϔ⹂ᅮⱘ⏏ࡴোǄ㢹⫼᠋ᦤկњᑣ߫ˈ䆹Ꮉ݋Ӯ 㞾ࡼ䅵ㅫܼᑣ߫ⱘpI੠ߚᄤ䞣˗㢹⫼᠋ᦤկⱘᰃSWISS-PROTᷛ䆚ˈ⿟ᑣӮᰒ⼎䆹ᴵⳂⱘᦣ䗄 ੠⠽⾡䆄ᔩ˗བᵰ⫼᠋㒭ߎњϔ↉ᑣ߫⠛↉㣗ೈ߭䅵ㅫᇚ೼䆹⠛↉Ϟ䖯㸠ˈ㗠ϡᰃ䩜ᇍᭈϾ ᑣ߫Ǆ PeptideMass˄ExPASy˅ PeptideMassᎹ݋䩜ᇍ㚑↉䈅೒ߚᵤᅲ偠ˈ⫼Ѣ⹂ᅮ㲟ⱑ䋼೼Ϣ⡍ᅮ㲟ⱑ䝊៪࣪ᄺ䆩ࠖ԰⫼ϟ ⱘߛݙѻ⠽˄Wilkinsㄝˈ1997˅Ǆ䗮䖛PeptideMassৃҹ乘⌟∈㾷㒧ᵰⱘ䝊੠䆩ࠖࣙᣀ˖㛄㲟ⱑ䝊˄trypsin˅ǃ㊰㲟ⱑ䝊˄chymotrypsin˅ǃLysCǃ⒈࣪∃ǃArgCǃAspN੠GluC˄ঠ㕻䝃៪⻋䝌䝃˅Ǆञ㛅⇼䝌੠⬆⸿⇼䝌ৃ೼䅵ㅫѻ⠽㚑↉ࠡࡴҹׂ佄Ǆ㢹⫼᠋ᦤկⱘᰃSWISSPROTᷛ䆚ˈ㗠ϡऩᰃϔ↉ᑣ߫ˈPeptideMass䖬㛑߽⫼SWISS-PROTᑧЁᷛ⊼Ёⱘֵᙃणࡽ䅵 ㅫǄ՟བˈ䰸এֵোᑣ߫ˈৢ೼ߛ࠾ПࠡᓩܹᏆⶹⱘ㗏䆥ৢׂ佄Ǆ䕧ߎ㒧ᵰӮ߫៤㸼Ḑˈ݊ Ёᇚ㒭ߎ䕧ܹ㲟ⱑⱘpI੠ߚᄤ䞣ˈ✊ৢᰃSWISS-PROTЁ݇Ѣব⾡ⱘߚᄤ䞣ǃԡ⚍ǃׂ佄ৢব ⾡ⱘֵᙃˈ᳔ৢᰃ㚑⠛↉ⱘᑣ߫Ǆ TGREASE 25 >p1;b42997 9.87 754 1 754 5.17 retinoblastoma-associated protein 2 – human 26 >p1;a57467 9.91 647 1 647 5.74 Ra1BP1 – rat ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ4/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

利用蛋白质序列的预测方法页码,5/20 GREASE是沿蛋白质序列长度计算其疏水性的工具(Kyte和 Doolittle,1982)。“疏水性是每种氨基酸所固有的特性,即氨基酸远离周围水分子,将自己包埋进蛋白质核心的相对趋势。这一趋势加上空间立体条件和其它一些因素决定了一个蛋白质最终折叠成的三维空间构象。因此, TGREASE对预测球状蛋白内埋区以及判断待定跨膜序列等方面都有应用。 TGREASE 属于 FASTA系列程序之一,可以从Ⅵirini a大学得到,并可以作为独立程序在Mc或Dos系统下运行。疏水性预测的方法依赖于疏水性的衡量尺度,这里每个氨基酸根据其一系列的物理特性(例如,溶解性、跨越水一汽相时产生的自由能等),被赋予一个数值以代表其疏水性。具有更高正值的氨基酸具有更大的疏水性;而具有更低负值的氨基酸则更加亲水。然后,沿蛋白质序列的疏水性的移动平均值,或者称为亲/疏水性索引被计算出来。窗口的宽度是可以调整的,这里推荐7-11残基的窗口宽度以获得更多的信息和更少的噪声干扰。最后把结果绘制成亲/疏水性一残基序号的线形图。图11.2是用人的白介素8受体B作的 TGREASE图。图中的峰与实际跨膜区段的位置虽然不完全一致,但二者的相关性已经相当明显。要注意的是这种方法不仅仅预测跨膜区段,还预测所有的疏水区。专门用来检测跨膜区段的方法将在后面专门讨图112 TGREASE所作Kytt- Dool ttl!e疏水性分析结果。输入序列是人高亲和白介素8受体B, 使用了缺省的窗口长度。图中底部的粗横线是手工加上的,代表了 SWISS-PR0T中标注的该蛋白1L-8R-B(P25025)中的七个跨膜区段的位置 SAPS 蛋白质序列统计分析方法( Statisti cal Anal ysis of Protein Sequences,SAPS)用于给出关于查询序列的广泛的统计信息( Brende等,1992 个蛋白序列通过Web界面提交给 SAPS,服务器会返回一大堆关于该蛋白的物理和化学性质的信息,这些都是仅仅通过序列本身就可以分析出来的。输出的结果最先是按种类对氨基酸的统计计数;随后是电荷分布分析,包括正/负电荷聚集区的位置,高度带电和不带电区段,以及电荷的传播和模式等;最后的部分给出了高疏水性和跨膜区段、重复结构和多重态、以及周期性分析。二级结构和折叠类分析新发现的蛋白质或未知功能的基因产物的第一步是用 BLAST或其它工具在公共数据库中进行相似性搜索。然而,这种搜索可能无法找到一个已知相符蛋白质;即使能得到一个统计显著的相符蛋白质,也很可能在序列记录中没有任何关于其二级结构的信息,而这些信息对设计合理的生物化学实验十分重要。虽然没有“已知”的信息,但仍然有办法预测出序列折叠成α螺旋或β叠片的性能。这些方法依赖于对大量实验测定三维结构的蛋白质的观察和分析在讨论技术本身之前,有必要简要回顾一下二级结构和折叠类。前面已经提及,许多氨基酸具有疏水性的侧链,而主链或称骨架是亲水性的。肽链通过构成离散的二级结构元件来平衡这两种相反的作用力。这在1951年由 Li nus Paul i ng及其合作者提出( Paul i ng和 Corey, 1951)。α螺旋是一种用来起瓶塞的钻头一样的螺旋结构,由主链构成螺旋的骨架,侧链从螺旋向外伸出。骨架是通过各个氨基酸上的C0基团与C末端方向+4个氨基酸(n+4)的№H基团形成的氢键来保持稳定的,这样就形成了结实的棒状结构。一些残基比其它残基更易形成 α螺旋:丙氨酸、谷氨酸、亮氨酸和甲硫氨酸经常在α螺旋中岀现;而脯氨酸、甘氨酸、酪氨酸和丝氨酸一般不会在α螺旋中岀现。通常认为,脯氨酸是螺旋破坏者,这是由于它的环状结构中断了n+4氢键的形成 file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

TGREASEᰃ⊓㲟ⱑ䋼ᑣ߫䭓ᑺ䅵ㅫ݊⭣∈ᗻⱘᎹ݋˄Kyte੠Doolittleˈ1982˅ǄĀ⭣∈ᗻ” ᰃ↣⾡⇼෎䝌᠔೎᳝ⱘ⡍ᗻˈे⇼෎䝌䖰⾏਼ೈ∈ߚᄤˈᇚ㞾Ꮕࣙඟ䖯㲟ⱑ䋼ḌᖗⱘⳌᇍ䍟 ࢓Ǆ䖭ϔ䍟ࡴ࢓Ϟぎ䯈ゟԧᴵӊ੠݊ᅗϔѯ಴㋴އᅮњϔϾ㲟ⱑ䋼᳔㒜ᡬ঴៤ⱘϝ㓈ぎ䯈ᵘ 䈵Ǆ಴ℸˈTGREASEᇍ乘⌟⧗⢊㲟ⱑݙඟऎҹঞ߸ᮁᕙᅮ䎼㝰ᑣ߫ㄝᮍ䴶䛑᳝ᑨ⫼ǄTGREASE ሲѢFASTA㋏߫⿟ᑣПϔˈৃҹҢVirginia໻ᄺᕫࠄˈᑊৃҹ԰Ў⣀ゟ⿟ᑣ೼Mac៪Dos㋏㒳ϟ 䖤㸠Ǆ ⭣∈ᗻ乘⌟ⱘᮍ⊩ձ䌪Ѣ⭣∈ᗻⱘ㸵䞣ሎᑺˈ䖭䞠↣Ͼ⇼෎䝌ḍ᥂݊ϔ㋏߫ⱘ⠽⧚⡍ᗻ˄՟ བˈ⒊㾷ᗻǃ䎼䍞∈ˉ≑Ⳍᯊѻ⫳ⱘ㞾⬅㛑ㄝ˅ˈ㹿䌟ќϔϾ᭄ؐҹҷ㸼݊⭣∈ᗻǄ݋᳈᳝ 催ℷؐⱘ⇼෎䝌݋໻᳈᳝ⱘ⭣∈ᗻ˗㗠݋᳈᳝Ԣ䋳ؐⱘ⇼෎䝌߭᳈ࡴ∋҆Ǆ✊ৢˈ⊓㲟ⱑ䋼 ᑣ߫ⱘ⭣∈ᗻⱘ⿏ࡼᑇഛؐˈ៪㗙⿄Ў҆⭣∈ᗻ㋶ᓩ㹿䅵ㅫߎᴹǄにষⱘᆑᑺᰃৃҹ䇗ᭈ ⱘˈ䖭䞠᥼㤤ˉ11⅟෎ⱘにষᆑᑺҹ㦋ᕫ᳈໮ⱘֵᙃ੠᳈ᇥⱘాໄᑆᡄǄ᳔ৢᡞ㒧ᵰ㒬ࠊ៤ ҆⭣∈ᗻˉ⅟෎ᑣোⱘ㒓ᔶ೒Ǆ೒11.2ᰃ⫼Ҏⱘⱑҟ㋴ফԧ%԰ⱘTGREASE೒Ǆ೒ЁⱘዄϢ ᅲ䰙䎼㝰ऎ↉ⱘԡ㕂㱑✊ϡᅠܼϔ㟈ˈԚѠ㗙ⱘⳌ݇ᗻᏆ㒣ⳌᔧᯢᰒǄ㽕⊼ᛣⱘᰃ䖭⾡ᮍ⊩ ϡҙҙ乘⌟䎼㝰ऎ↉ˈ䖬乘⌟᠔᳝ⱘ⭣∈ऎǄϧ䮼⫼ᴹẔ⌟䎼㝰ऎ↉ⱘᮍ⊩ᇚ೼ৢ䴶ϧ䮼䅼䆎Ǆ ……………… ೒11.2 TGREASE᠔԰Kytt-Doolittle⭣∈ᗻߚᵤ㒧ᵰǄ䕧ܹᑣ߫ᰃҎ催҆੠ⱑҟ㋴ফԧ%ˈ Փ⫼њ㔎ⳕⱘにষ䭓ᑺǄ೒Ёᑩ䚼ⱘ㉫῾㒓ᰃ᠟ᎹࡴϞⱘˈҷ㸼њSWISS-PROTЁᷛ⊼ⱘ䆹㲟 ⱑ1L-8R-B˄P25025˅ЁⱘϗϾ䎼㝰ऎ↉ⱘԡ㕂Ǆ SAPS 㲟ⱑ䋼ᑣ߫㒳䅵ߚᵤᮍ⊩˄Statistical Analysis of Protein SequencesˈSAPS˅⫼Ѣ㒭ߎ ݇Ѣᶹ䆶ᑣ߫ⱘᑓ⊯ⱘ㒳䅵ֵᙃ˄Brendelㄝˈ1992˅ǄᔧϔϾ㲟ⱑᑣ߫䗮䖛Web⬠䴶ᦤѸ㒭 SAPSˈ᳡ࡵ఼Ӯ䖨ಲϔ໻ේ݇Ѣ䆹㲟ⱑⱘ⠽⧚੠࣪ᄺᗻ䋼ⱘֵᙃˈ䖭ѯ䛑ᰃҙҙ䗮䖛ᑣ߫ᴀ 䑿ህৃҹߚᵤߎᴹⱘǄ䕧ߎⱘ㒧ᵰ᳔ܜᰃᣝ⾡㉏ᇍ⇼෎䝌ⱘ㒳䅵䅵᭄˗䱣ৢᰃ⬉㥋ߚᏗߚ ᵤˈࣙᣀℷ䋳⬉㥋㘮䲚ऎⱘԡ㕂ˈ催ᑺᏺ⬉੠ϡᏺ⬉ऎ↉ˈҹঞ⬉㥋ⱘӴ᪁੠῵ᓣㄝ˗᳔ৢ ⱘ䚼ߚ㒭ߎњ催⭣∈ᗻ੠䎼㝰ऎ↉ǃ䞡໡㒧ᵘ੠໮䞡ᗕǃҹঞ਼ᳳᗻߚᵤǄ Ѡ㑻㒧ᵘ੠ᡬ঴㉏ ߚᵤᮄথ⦄ⱘ㲟ⱑ䋼៪᳾ⶹࡳ㛑ⱘ෎಴ѻ⠽ⱘ㄀ϔℹᰃ⫼BLAST៪݊ᅗᎹ݋݅݀೼᭄᥂ᑧЁ䖯㸠ⳌԐᗻ᧰㋶Ǆ✊㗠ˈ䖭⾡᧰㋶ৃ㛑᮴⊩ᡒࠄϔϾᏆⶹⳌヺ㲟ⱑ䋼˗ेՓ㛑ᕫࠄϔϾ㒳䅵ᰒ 㨫ⱘⳌヺ㲟ⱑ䋼ˈгᕜৃ㛑೼ᑣ߫䆄ᔩЁ≵᳝ӏԩ݇Ѣ݊Ѡ㑻㒧ᵘⱘֵᙃˈ㗠䖭ѯֵᙃᇍ䆒䅵ড়⧚ⱘ⫳⠽࣪ᄺᅲ偠कߚ䞡㽕Ǆ㱑✊≵᳝ĀᏆⶹāⱘֵᙃˈԚҡ✊᳝ࡲ⫣乘⌟ߎᑣ߫ᡬ঴ ៤D 㶎ᮟ៪E ঴⠛ⱘᗻ㛑Ǆ䖭ѯᮍ⊩ձ䌪Ѣᇍ໻䞣ᅲ偠⌟ᅮϝ㓈㒧ᵘⱘ㲟ⱑ䋼ⱘ㾖ᆳ੠ߚ ᵤǄ ೼䅼䆎ᡔᴃᴀ䑿Пࠡˈ᳝ᖙ㽕ㅔ㽕ಲ乒ϔϟѠ㑻㒧ᵘ੠ᡬ঴㉏Ǆࠡ䴶Ꮖ㒣ᦤঞˈ䆌໮⇼෎䝌 ݋∋⭣᳝ᗻⱘջ䫒ˈ㗠Џ䫒៪⿄偼ᶊᰃ҆∈ᗻⱘǄ㚑䫒䗮䖛ᵘ៤⾏ᬷⱘѠ㑻㒧ᵘܗӊᴹᑇ㸵䖭ϸ⾡Ⳍডⱘ԰⫼࡯Ǆ䖭೼1951ᑈ⬅Linus Paulingঞ݊ড়԰㗙ᦤߎ˄Pauling੠Coreyˈ 1951˅ǄD 㶎ᮟᰃϔ⾡⫼ᴹ䍋⫊าⱘ䪏༈ϔḋⱘ㶎ᮟ㒧ᵘˈ⬅Џ䫒ᵘ៤㶎ᮟⱘ偼ᶊˈջ䫒Ң 㶎ᮟ৥໪ԌߎǄ偼ᶊᰃ䗮䖛৘Ͼ⇼෎䝌ϞⱘCO෎ಶϢ&᳿ッᮍ৥ˇϾ⇼෎䝌˄Qˇ˅ⱘNH෎ ಶᔶ៤ⱘ⇶䬂ᴹֱᣕ〇ᅮⱘˈ䖭ḋህᔶ៤њ㒧ᅲⱘẦ⢊㒧ᵘǄϔѯ⅟෎↨݊ᅗ⅟෎᳈ᯧᔶ៤ D㶎ᮟ˖ϭ⇼䝌ǃ䈋⇼䝌ǃ҂⇼䝌੠⬆⸿⇼䝌㒣ᐌ೼D㶎ᮟЁߎ˗⦃㗠㜃⇼䝌ǃ⫬⇼䝌ǃ䜾 ⇼䝌੠ϱ⇼䝌ϔ㠀ϡӮ೼D 㶎ᮟЁߎ⦃Ǆ䗮ᐌ䅸Ўˈ㜃⇼䝌ᰃ㶎ᮟ⸈ണ㗙ˈ䖭ᰃ⬅Ѣᅗⱘ⦃ ⢊㒧ᵘЁᮁњQˇ⇶䬂ⱘᔶ៤Ǆ ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ5/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

利用蛋白质序列的预测方法页码,6/20 与α螺旋相比,β链是一种更舒展的结构。与α螺旋在二级结构单元内部形成氢键不同键形成于两条或多条相邻的β链之间。多条β链间通过这种氢键作用使整个结构形成β折叠片。这些折叠片可以是平行的,也可以是反平行的,这取决于各β链中N末端和C末端的取向。一个β折叠片的变种是β拐角,多肽链构成发卡状的急转弯,并形成反平行β叠片。 1976年Leⅵtt和 Chothi a根据蛋白质中二级结构元件的排列顺序提出了一个分类系统( Levi tt 和 Chothi a,1976)。非常简单,一个α结构基本由α螺旋构成:一个β结构主要由β链构成。肌红蛋白是典型的全由α螺旋构成的蛋白质,因而属于α结构类( Takano,1977)。质体蓝素是β类的好例子,其中8条β链间的氢键的模式形成了一个紧密的桶状结构(Guss和 Freeman,1983)。组合折叠类α邝β是由交替出现的β链和α螺旋构成的。黄素氧还蛋白是 α邝β蛋白的一个好例子,其中β链构成中心的β折叠,周围由α螺旋包围( Burnett等, 1974) 在以下讨论中,有一个术语会经常出现:神经网络。它赋予了计算过程“学习”的能力以模仿人类的学习,而大多数计算程序都延着固有的顺序盲目地执行指令。神经网络技术在如二级结构预测这种分析模式和趋势的问题中有广泛的应用。每个神经网络都包含一个输入层和个输出层。在二级结构预测的应用中,输入层是序列带来的信息,输出层是每个特定氨基酸形成特定二级结构的几率。实际的学习过程发生在位于输入层和输出层之间的一个或多个隐含层中。学习的实现需要向网络提供一组训练数据集。这里,一组合适的训练集是已测出结构的蛋白质数据库。网络会加工这些信息去寻找氨基酸序列与之以特定上下文关系所形成结构之间的微弱联系。神经网络在二级结构预测中的应用更具体的讨论可见 Kneller等 (1990)的文献。 nnpredict nnpredi ct算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型(Knel!er 等,1990)。在预测时,服务器使用 FASTA格式的文件,其中有单字符或三字符的序列以及蛋白质的折叠类(α、β或α邝β)。残基被分为几类,如α螺旋(H)、β链(E)或其它 (一)。若对给定残基未给出预测,则会标上问号(?),这说明无法作出可信的分配。若没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式据报道,对于最佳实例的预测, nnpredi ct的准确率超过了65% 序列通过向 nnpredicteceleste.ucsf.eo发送电子邮件提交给 nnpredi ct。以黄素氧还蛋白为例,电子邮件的格式为 opti on: a/b >fl avodoxi n- Anacystis ni dul ans AKI GLFYGTOTGVTQTI AESI QQEFGGESI VDLNDI ANADASKLNAYDYLI I GCPTWNVGELOSDWEGIY DDLDSVNFOGKKVAYEGAGDOVGYSDNFQDAMGI LEEKI SSLGSQTVGYWPI EGYDENESKAVRNNQFVG LAI DEDNOPDLTKNRI KTWSQLKSEFGL 0 pti on行标明蛋白质的折叠类:n用于无折叠类,a为α,b为β,a/b为α/β。每个电子邮件只能提交一个序列,服务器返回的结果经整理见图11.3 Predi ctProtei n file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

ϢD㶎ᮟⳌ↨ˈE䫒ᰃϔ⾡᳈㟦ሩⱘ㒧ᵘǄϢD㶎ᮟ೼Ѡ㑻㒧ᵘऩݙܗ䚼ᔶ៤⇶䬂ϡৠˈ⇶ 䬂ᔶ៤Ѣϸᴵ៪໮ᴵⳌ䚏ⱘE䫒П䯈Ǆ໮ᴵE䫒䯈䗮䖛䖭⾡⇶䬂԰⫼ՓᭈϾ㒧ᵘᔶ៤Eᡬ঴ ⠛Ǆ䖭ѯᡬ঴⠛ৃҹᰃᑇ㸠ⱘˈгৃҹᰃডᑇ㸠ⱘˈ䖭পއѢ৘E 䫒Ё1᳿ッ੠&᳿ッⱘপ ৥ǄϔϾEᡬ঴⠛ⱘব⾡ᰃEᢤ㾦ˈ໮㚑䫒ᵘ៤থव⢊ⱘᗹ䕀ᔃˈᑊᔶ៤ডᑇ㸠E঴⠛Ǆ 1976ᑈLevitt੠Chothiaḍ᥂㲟ⱑ䋼ЁѠ㑻㒧ᵘܗӊⱘᥦ߫乎ᑣᦤߎњϔϾߚ㉏㋏㒳˄Levitt ੠Chothiaˈ1976˅Ǆ䴲ᐌㅔऩˈϔϾD 㒧ᵘ෎ᴀ⬅D 㶎ᮟᵘ៤˗ϔϾE 㒧ᵘЏ㽕⬅E䫒ᵘ ៤Ǆ㙠㑶㲟ⱑᰃ݌ൟⱘܼ⬅D㶎ᮟᵘ៤ⱘ㲟ⱑ䋼ˈ಴㗠ሲѢD㒧ᵘ㉏˄Takanoˈ1977˅Ǆ䋼 ԧ㪱㋴ᰃE ㉏ⱘད՟ᄤˈ݊ЁᴵE 䫒䯈ⱘ⇶䬂ⱘ῵ᓣᔶ៤њϔϾ㋻ᆚⱘṊ⢊㒧ᵘ˄Guss੠ Freemanˈ1983˅Ǆ㒘ড়ᡬ঴㉏D /Eᰃ⬅Ѹ᳓ߎ⦃ⱘE䫒੠D㶎ᮟᵘ៤ⱘǄ咘㋴⇻䖬㲟ⱑᰃ D /E 㲟ⱑⱘϔϾད՟ᄤˈ݊ЁE 䫒ᵘ៤ЁᖗⱘE ᡬ঴ˈ਼ೈ⬅D 㶎ᮟࣙೈ˄Burnettㄝˈ 1974˅Ǆ ೼ҹϟ䅼䆎Ёˈ᳝ϔϾᴃ䇁Ӯ㒣ᐌߎ干˖⦃㒣㔥㒰Ǆᅗ䌟ќњ䅵ㅫ䖛⿟Āᄺдāⱘ㛑࡯ҹ῵ ӓҎ㉏ⱘᄺдˈ㗠໻໮᭄䅵ㅫ⿟ᑣ䛑ᓊⴔ೎᳝ⱘ乎ᑣⳆⳂഄᠻ㸠ᣛҸǄ⼲㒣㔥㒰ᡔᴃ೼བѠ 㑻㒧ᵘ乘⌟䖭⾡ߚᵤ῵ᓣ੠䍟࢓ⱘ䯂乬Ё᳝ᑓ⊯ⱘᑨ⫼Ǆ↣Ͼ⼲㒣㔥㒰䛑ࣙ৿ϔϾ䕧ܹሖ੠ ϔϾ䕧ߎሖǄ೼Ѡ㑻㒧ᵘ乘⌟ⱘᑨ⫼Ёˈ䕧ܹሖᰃᑣ߫ᏺᴹⱘֵᙃˈ䕧ߎሖᰃ↣Ͼ⡍ᅮ⇼෎ 䝌ᔶ៤⡍ᅮѠ㑻㒧ᵘⱘ޴⥛Ǆᅲ䰙ⱘᄺд䖛⿟থ⫳೼ԡѢ䕧ܹሖ੠䕧ߎሖП䯈ⱘϔϾ៪໮Ͼ 䱤৿ሖЁǄᄺдⱘᅲ⦄䳔㽕৥㔥㒰ᦤկϔ㒘䆁㒗᭄᥂䲚Ǆ䖭䞠ˈϔ㒘ড়䗖ⱘ䆁㒗䲚ᰃᏆ⌟ߎ 㒧ᵘⱘ㲟ⱑ䋼᭄᥂ᑧǄ㔥㒰ӮࡴᎹ䖭ѯֵᙃএᇏᡒ⇼෎䝌ᑣ߫ϢПҹ⡍ᅮϞϟ᭛݇㋏᠔ᔶ៤ 㒧ᵘП䯈ⱘᖂᔅ㘨㋏Ǆ⼲㒣㔥㒰೼Ѡ㑻㒧ᵘ乘⌟Ёⱘᑨ⫼᳈݋ԧⱘ䅼䆎ৃ㾕Knellerㄝ ˄1990˅ⱘ᭛⤂Ǆ nnpredict nnpredictㅫ⊩Փ⫼њϔϾঠሖǃࠡ作⼲㒣㔥㒰এ㒭↣Ͼ⇼෎䝌ߚ䜡乘⌟ⱘ㉏ൟ˄Kneller ㄝˈ1990˅Ǆ೼乘⌟ᯊˈ᳡ࡵ఼Փ⫼FASTAḐᓣⱘ᭛ӊˈ݊Ё᳝ऩᄫヺ៪ϝᄫヺⱘᑣ߫ҹঞ㲟 ⱑ䋼ⱘᡬ঴㉏˄D ǃE ៪D /E ˅Ǆ⅟෎㹿ߚЎ޴㉏ˈབD 㶎ᮟ˄+˅ǃE 䫒˄(˅៪݊ᅗ ˄ˉ˅Ǆ㢹ᇍ㒭ᅮ⅟෎᳾㒭ߎ乘⌟ˈ߭ӮᷛϞ䯂ো˄˛˅ˈ䖭䇈ᯢ᮴⊩԰ߎֵৃⱘߚ䜡Ǆ㢹 ≵᳝݇Ѣᡬ঴㉏ⱘֵᙃˈ乘⌟г㛑೼ϡᅮᡬ঴㉏ⱘᚙމϟ䖯㸠ˈ㗠Ϩ䖭ᰃ㔎ⳕⱘᎹ԰ᮍᓣǄ ᥂᡹䘧ˈᇍѢ᳔Շᅲ՟ⱘ乘⌟ˈnnpredictⱘޚ⥛⹂䍙䖛њ65ˁǄ ᑣ߫䗮䖛৥nnpredict@celeste.ucsf.eduথ䗕⬉ᄤ䚂ӊᦤѸ㒭nnpredictǄҹ咘㋴⇻䖬㲟ⱑЎ ՟ˈ⬉ᄤ䚂ӊⱘḐᓣЎ˖ option: a/b >flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASKLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL Option㸠ᷛᯢ㲟ⱑ䋼ⱘᡬ঴㉏˖Q⫼Ѣ᮴ᡬ঴㉏ˈDЎD ˈEЎE ˈa/bЎD /EǄ↣Ͼ⬉ᄤ䚂 ӊা㛑ᦤѸϔϾᑣ߫ˈ᳡ࡵ఼䖨ಲⱘ㒧ᵰ㒣ᭈ⧚㾕೒11.3Ǆ PredictProtein ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ6/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

利用蛋白质序列的预测方法页码,7 Predi ctProtei n(Rost等,1994)在预测中应用了略为不同的方法。首先,蛋白质序列被作为查询序列在SwSS-PR0T库中搜索相似的序列。当相似的序列被找到后,一个名为 MaxHom的算法被用来进行一次基于特征简图的多序列比对( Sander和 Schnei der,1991)。 MaxHom用迭代的方法来构造比对:当第一次搜索SWSS-PROT后,所有找到的序列与查询序列进行比对, 并构造出一个比对后的特征简图。然后,这个简图又被用来在SWSS-PR0T中搜索新的相似序列。由 MaxHom产生的多序列比对随后被置入一个神经网络,用一套称为PHD(Rost,1996)的方法进行预测。PHD这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型,它还对序列上每个位点的预测可信度给予统计分析。该方法的平均准确率超过72%:最佳残基预测准确率达90%以上。向 predi ctprotei n@emb/-hcde/berg.ce发送的输入序列电子邮件为以下格式: Joe Buzzcut Nati onal Human genome Research insti tute nih buzzcutebal dguys org fl avodoxi n- Anacystis ni dul ans AKI GLFYGTQTGVTQTI AESI QQEFGGESI VDLNDI ANADASDLNAYDYLI I GCPTWNVGELOSDWEGIY DDLDSVNFOGKKVAYEGAGDOVGYSDNFODAMGI LEEKI SSLGSOTVGYWPI EGYDENESKAVRNNOFVG LAI DEDNOPDLTKNRI KTWVSQLKSEFGL 在名字、从属关系和地址行之后,#号向服务器表明随后是一个单字符序列。序列基本上是 FASTA格式,但其中不允许有空格,传统的〉号由#号代替,序列之后也不许有其它东西输出结果内容很多并包含大量有关信息。其中有 MaxHom搜索结果,并包括多序列比对的结果,它可以用于例如基于特征简图的搜索或物种谱系分析等进一步研究。如果提交的序列在PDB库中有已知同源蛋白,则其PDB标识号也会输出返回。随后是方法本身信息,最后是实际预测结果。与 nnpredi ct不同, Predi ctProtei n还返回每个位点的“预测可信度索引”,范围从0到9,9具有最高的可信度,也就是说该位点所分配的二级结构类型是正确的。对特定例子该程序返回的预测结果,以及与其它预测方法的比较整理后见图11.3。 SSPRED 与 Predi ctProtei n相似,EMBL的二级结构预测方法( Mehta等,1995)先在数据库中搜索序列的相似蛋白,构建多序列比对,然后进行预测。该方法在比对时,特别注意非保守位点的替换,并利用比对结果作为初始预测结果。初始预测结果经过滤除去那些简单不合理的结果单元,这些包括长度不合理的单元或是一种结构类型打断了一串另一种类型(例如,预测为 HHEH,就应变成HH)。所有的α螺旋应至少4个残基长,所有的β链应至少3个残基同样以黄素氧还蛋白为例,以下是提交给 sspredaemb/- hei de/berg.∂e的作 SSPRED搜索邮件格式 SEQUENCE TITLE fi avodoxi n- Anacystis ni dul ans file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

PredictProtein˄Rostㄝˈ1994˅೼乘⌟Ёᑨ⫼њ⬹Ўϡৠⱘᮍ⊩Ǆ佪ܜˈ㲟ⱑ䋼ᑣ߫㹿԰ Ўᶹ䆶ᑣ߫೼SWISS-PROTᑧЁ᧰㋶ⳌԐⱘᑣ߫ǄᔧⳌԐⱘᑣ߫㹿ᡒࠄˈৢϔϾৡЎMaxHomⱘ ㅫ⊩㹿⫼ᴹ䖯㸠ϔ⃵෎Ѣ⡍ᕕㅔ೒ⱘ໮ᑣ߫↨ᇍ˄Sander੠Schneiderˈ1991˅ǄMaxHom⫼䗁 ҷⱘᮍ⊩ᴹᵘ䗴↨ᇍ˖ᔧ㄀ϔ⃵᧰㋶SWISS-PROTৢˈ᠔᳝ᡒࠄⱘᑣ߫Ϣᶹ䆶ᑣ߫䖯㸠↨ᇍˈ ᑊᵘ䗴ߎϔϾ↨ᇍৢⱘ⡍ᕕㅔ೒Ǆ✊ৢˈ䖭Ͼㅔ೒জ㹿⫼ᴹ೼SWISS-PROTЁ᧰㋶ᮄⱘⳌԐᑣ ߫Ǆ⬅MaxHomѻ⫳ⱘ໮ᑣ߫↨ᇍ䱣ৢ㹿㕂ܹϔϾ⼲㒣㔥㒰ˈ⫼ϔ༫⿄ЎPHD˄Rostˈ1996˅ⱘ ᮍ⊩䖯㸠乘⌟ǄPHD䖭ϔ༫Ѡ㑻㒧ᵘ乘⌟ᮍ⊩ϡҙҙ㒭↣Ͼ⅟෎ߚ䜡ϔϾѠ㑻㒧ᵘ㉏ൟˈᅗ䖬 ᇍᑣ߫Ϟ↣Ͼԡ⚍ⱘ乘⌟ৃֵᑺ㒭ќ㒳䅵ߚᵤǄ䆹ᮍ⊩ⱘᑇഛޚ⥛⹂䍙䖛72ˁ˖᳔Շ⅟෎乘䖒90ˁҹϞǄ⹂⥛ޚ⌟ ৥predictprotein@embl-hcidelberg.deথ䗕ⱘ䕧ܹᑣ߫⬉ᄤ䚂ӊЎҹϟḐᓣ˖ Joe Buzzcut National Human Genome Research Institute, NIH buzzcut@baldguys.org # flavodoxin - Anacystis nidulans AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL ೼ৡᄫǃҢሲ݇㋏੠ഄഔ㸠Пৢˈো৥᳡ࡵ఼㸼ᯢ䱣ৢᰃϔϾऩᄫヺᑣ߫Ǆᑣ߫෎ᴀϞᰃ FASTAḐᓣˈԚ݊Ёϡܕ䆌᳝ぎḐˈӴ㒳ⱘ!ো⬅োҷ᳓ˈᑣ߫Пৢгϡ䆌᳝݊ᅗϰ㽓Ǆ 䕧ߎ㒧ᵰݙᆍᕜ໮ᑊࣙ໻৿䞣ֵ᳝݇ᙃǄ݊Ё᳝MaxHom᧰㋶㒧ᵰˈᑊࣙᣀ໮ᑣ߫↨ᇍⱘ㒧 ᵰˈᅗৃҹ⫼Ѣ՟བ෎Ѣ⡍ᕕㅔ೒ⱘ᧰㋶៪⠽⾡䈅㋏ߚᵤㄝ䖯ϔℹⷨおǄབᵰ ᦤѸⱘᑣ߫ ೼PDBᑧЁ᳝Ꮖⶹৠ⑤㲟ⱑˈ߭݊PDBᷛ䆚োгӮ䕧ߎ䖨ಲǄ䱣ৢᰃᮍ⊩ᴀ䑿ֵᙃˈ᳔ৢᰃᅲ 䰙乘⌟㒧ᵰǄϢnnpredictϡৠˈPredictProtein䖬䖨ಲ↣Ͼԡ⚍ⱘĀ乘⌟ৃֵᑺ㋶ᓩāˈ㣗 ೈҢࠄˈ݋᳔᳝催ⱘৃֵᑺˈгህᰃ䇈䆹ԡ⚍᠔ߚ䜡ⱘѠ㑻㒧ᵘ㉏ൟᰃℷ⹂ⱘǄᇍ⡍ᅮ՟ ᄤ䆹⿟ᑣ䖨ಲⱘ乘⌟㒧ᵰˈҹঞϢ݊ᅗ乘⌟ᮍ⊩ⱘ↨䕗ᭈ⧚ৢ㾕೒11.3Ǆ SSPRED ϢPredictProteinⳌԐˈEMBLⱘѠ㑻㒧ᵘ乘⌟ᮍ⊩˄Mehtaㄝˈ1995˅ܜ೼᭄᥂ᑧЁ᧰㋶ᑣ߫ ⱘⳌԐ㲟ⱑˈᵘᓎ໮ᑣ߫↨ᇍˈ✊ৢ䖯㸠乘⌟Ǆ䆹ᮍ⊩೼↨ᇍᯊˈ⡍߿⊼ᛣ䴲ֱᅜԡ⚍ⱘ᳓ ᤶˈᑊ߽↨⫼ᇍ㒧ᵰ԰Ў߱ྟ乘⌟㒧ᵰǄ߱ྟ乘⌟㒧ᵰ㒣䖛Ⓒ䰸এ䙷ѯㅔऩϡড়⧚ⱘ㒧ᵰऩ ܗˈ䖭ѯࣙᣀ䭓ᑺϡড়⧚ⱘऩܗ៪ᰃϔ⾡㒧ᵘ㉏ൟᠧᮁњϔІ঺ϔ⾡㉏ൟ˄՟བˈ乘⌟Ў HHHEHHˈህᑨব៤HHHHHH˅Ǆ᠔᳝ⱘD 㶎ᮟᑨ㟇ᇥϾ⅟෎䭓ˈ᠔᳝ⱘE 䫒ᑨ㟇ᇥϾ⅟෎ 䭓Ǆ ৠḋҹ咘㋴⇻䖬㲟ⱑЎ՟ˈҹϟᰃᦤѸ㒭sspred@embl-heidelberg.deⱘ԰SSPRED᧰㋶䚂ӊḐ ᓣ˖ SEQUENCE TITLE flavodoxin - Anacystis nidulans ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ7/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

利用蛋白质序列的预测方法页码,8 bLOSUM 62 ALI GN 50 INDEL 10 Z SCORE 7.0 SEO KI GLFYGTOTGVTQTIAESI OQEFGGESIVDLNDI ANADASDLNAYDYLI I GCPTWNVGELOSDWEGIY DDLDSVNFOGEKVAYFGAGDOVGYSDNFQDAMGI LEEKI SSLGSQTVGYWPI EGYDFNESKAVRNNOFVG Al DEdNOPDLTKNRI KTWVSQLKSEFGL END 关键词 SEQUENCE提示服务器有一个单序列被提交上来。TTLE行允许包含关于输入序列的一些评语,并会在返回结果中出现。BL0SUM62命令指示 SSPRED在作比对打分时使用该矩阵。PAM 矩阵和BL0SM矩阵都是可以选用的,而缺省的设置是PAM120。NDEL10是空位罚分值。用户可以不管这一行而让 SSPRED基于所用的打分矩阵预测合适的缺省值。降低 I NDEL值使空位插入提高或降低BLIZ搜索的敏感度。最后,序列要加上特定起始关键字SEQ和结束关键字END。在分析结束后,用户将得到包含一系列输出文件的电子邮件。其中包括在预测中用到的BLTZ 产生的多序列比对的结果,以及最终预测的结果。电子邮件中还包括最初预测结果及过滤后的结果。前面的序列实例的 SSPRED最终预测结果与其它方法的比较见图11.3 SOPMA 位于法国里昂的CNRS( Centre Nati onal de I a recherche Sci enti fi que)使用独特的方法进行蛋白质二级结构预测。它不是用一种,而是5种相互独立的方法进行预测,并将结果汇集整理成致预测结果”。这5种方法包括: Garnier- Gi brat- Robson(GOR)方法 ( Garnier等,1996)、 Levi n同源预测方法( Levi n等,1986)、双重预测方法( Del eage和 Roux,1987)、作为前面 Predi ctProtei n一部分的PHD方法和CNRS自己的 SOPMA方法 ( Geourj oni和 Del eage,195)。简单的说, SOPMA这种自优化的预测方法建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对査询序列进行二级结构预测使用这种方法可以将序列本身作为电子邮件提交给 del eageai bcp.fr,用 SOPMA作为邮件主题,或使用S0PMA的Web界面。各种作为一部分的预测结果以及“一致预测结果”都见图 11.3。各种方法的比较根据图11.3,可以明显看出所有的方法在预测二级结构方面完成得相对较好,但都不完美。选黄素氧还蛋白作为测试的实例是因为它具有相对复杂的结构:它有6个α螺旋和5个β叠片,属于α邝β折叠类。有一些分配结果在各种方法中是一致的:如各种方法都很好地找到了β1、β3、β4和α5。但有些方法把某些二级结构单元彻底漏掉了(如 nnpredi ct漏掉了α file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

BLOSUM 62 ALIGN 50 INDEL 10 Z_SCORE 7.0 SEQ AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY DDLDSVNFQGEKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG LAIDEDNQPDLTKNRIKTWVSQLKSEFGL END ݇䬂䆡SEQUENCEᦤ⼎᳡ࡵ఼᳝ϔϾऩᑣ߫㹿ᦤѸϞᴹǄTITLE㸠ܕ䆌ࣙ݇৿Ѣ䕧ܹᑣ߫ⱘϔѯ 䆘䇁ˈᑊӮ೼䖨ಲ㒧ᵰЁߎ⦃ǄBLOSUM 62ੑҸᣛ⼎SSPRED೼԰↨ᇍᠧߚᯊՓ⫼䆹ⶽ䰉ǄPAM ⶽ䰉੠BLOSUMⶽ䰉䛑ᰃৃҹ䗝⫼ⱘˈ㗠㔎ⳕⱘ䆒㕂ᰃPAM 120ǄINDEL 10ᰃぎԡ㔮ߚؐǄ⫼᠋ ৃҹϡㅵ䖭ϔ㸠㗠䅽SSPRED෎Ѣ᠔⫼ⱘᠧߚⶽ䰉乘⌟ড়䗖ⱘ㔎ⳕؐǄ䰡ԢINDELؐՓぎԡᦦܹ ᳈ৃ᥹ফǄALIGN 50ᣛ⼎᳡ࡵ⫼఼50Ͼ᳔Շ↨ᇍ䖯㸠Ѡ㑻㒧ᵘ乘⌟ǄZ_SCORE 7.0㸠ܕ䆌⫼᠋ ᦤ催៪䰡ԢBLITZ᧰㋶ⱘᬣᛳᑺǄ᳔ৢˈᑣ߫㽕ࡴϞ⡍ᅮ䍋ྟ݇䬂ᄫSEQ੠㒧ᴳ݇䬂ᄫENDǄ ೼ߚᵤ㒧ᴳৢˈ⫼᠋ᇚᕫࣙࠄ৿ϔ㋏߫䕧ߎ᭛ӊⱘ⬉ᄤ䚂ӊǄ݊Ёࣙᣀ೼乘⌟Ё⫼ࠄⱘBLITZ ѻ⫳ⱘ໮ᑣ߫↨ᇍⱘ㒧ᵰˈҹঞ᳔㒜乘⌟ⱘ㒧ᵰǄ⬉ᄤ䚂ӊЁ䖬ࣙᣀ᳔߱乘⌟㒧ᵰঞ䖛Ⓒৢ ⱘ㒧ᵰǄࠡ䴶ⱘᑣ߫ᅲ՟ⱘSSPRED᳔㒜乘⌟㒧ᵰϢ݊ᅗᮍ⊩ⱘ↨䕗㾕೒11.3Ǆ SOPMA ԡѢ⊩೑䞠ᯖⱘCNRS˄Centre National de la Recherche Scientifique˅Փ⫼⣀⡍ⱘᮍ⊩ 䖯㸠㲟ⱑ䋼Ѡ㑻㒧ᵘ乘⌟Ǆᅗϡᰃ⫼ϔ⾡ˈ㗠ᰃ⾡ⳌѦ⣀ゟⱘᮍ⊩䖯㸠乘⌟ˈᑊᇚ㒧ᵰ∛䲚 ᭈ⧚៤ϔϾĀϔ㟈乘⌟㒧ᵰāǄ䖭⾡ᮍ⊩ࣙᣀ˖Garnier-Gibrat-Robson˄GOR˅ᮍ⊩ ˄Garnierㄝˈ1996˅ǃLevinৠ⑤乘⌟ᮍ⊩˄Levinㄝˈ1986˅ǃঠ䞡乘⌟ᮍ⊩˄Deléage੠ Rouxˈ1987˅ǃ԰Ўࠡ䴶PredictProteinϔ䚼ߚⱘPHDᮍ⊩੠CNRS㞾ᏅⱘSOPMAᮍ⊩ ˄Geourjon੠Déleageˈ1995˅Ǆㅔऩⱘ䇈ˈSOPMA䖭⾡㞾Ӭ࣪ⱘ乘⌟ᮍ⊩ᓎゟњᏆⶹѠ㑻㒧 ᵘᑣ߫ⱘ⃵㑻᭄᥂ᑧˈᑧЁⱘ↣Ͼ㲟ⱑ䋼䛑㒣䖛෎ѢⳌԐᗻⱘѠ㑻㒧ᵘ乘⌟Ǆ✊ৢ⫼⃵㑻ᑧ Ёᕫࠄⱘֵᙃএᇍᶹ䆶ᑣ߫䖯㸠Ѡ㑻㒧ᵘ乘⌟Ǆ Փ⫼䖭⾡ᮍ⊩ৃҹᇚᑣ߫ᴀ䑿԰Ў⬉ᄤ䚂ӊᦤѸ㒭deleage@ibcp.frˈ⫼SOPMA԰Ў䚂ӊЏ 乬ˈ៪Փ⫼SOPMAⱘWeb⬠䴶Ǆ৘⾡԰Ўϔ䚼ߚⱘ乘⌟㒧ᵰҹঞĀϔ㟈乘⌟㒧ᵰā䛑㾕೒ 11.3Ǆ ৘⾡ᮍ⊩ⱘ↨䕗 ḍ᥂೒11.3ˈৃҹᯢᰒⳟߎ᠔᳝ⱘᮍ⊩೼乘⌟Ѡ㑻㒧ᵘᮍ䴶ᅠ៤ᕫⳌᇍ䕗དˈԚ䛑ϡᅠ㕢Ǆ 䗝咘㋴⇻䖬㲟ⱑ԰Ў⌟䆩ⱘᅲ՟ᰃ಴Ўᅗ݋᳝Ⳍᇍ໡ᴖⱘ㒧ᵘ˖ᅗ᳝ϾD 㶎ᮟ੠ϾE ঴ ⠛ˈሲѢD /E ᡬ঴㉏Ǆ᳝ϔѯߚ䜡㒧ᵰ೼৘⾡ᮍ⊩Ёᰃϔ㟈ⱘ˖བ৘⾡ᮍ⊩䛑ᕜདഄᡒࠄ њE 1ǃE 3ǃE 4੠D 5ǄԚ᳝ѯᮍ⊩ᡞᶤѯѠ㑻㒧ᵘऩܗᕏᑩⓣᥝњ˄བnnpredictⓣᥝњD ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ8/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

利用蛋白质序列的预测方法页码,9/20 2、α3和α4),而有些预测方法所得的结果缺乏生物学意义(如双重预测方法在β4,认为螺旋、叠片和拐角一个接一个交替出现)。 PredictProtein方法正确找到了所有的二级结构单元,并在多处准确识别了二级结构元件的长度,在整体上预测表现最佳。但并非说明其它方法没用或不够好,因为在其它某些实例中无疑会有某种方法表现更好。由于没有更多信息可用来判断哪种方法最好,最好是把序列提交给多个服务器,将结果汇集整理,通过人为的比较来判断哪些预测结果成立或不成立。(在图11.3中显示的CNRS一致序列就属于这一类尝试,但一致序列也不是完全正确的。)虽然这一方法中并未包含某种对预测方法失败保险的预测,但由这些预测的确增强了结果了可信度。图11.3各种二级结构预测方法的比较。作为查询序列的黄素氧还蛋白( fl ayodoxi n)是一种 α邝β蛋白,其序列排在第一行。对每个预测,H代表α螺旋,E代表β链,T代表β拐角,其它位点都认为是无规卷曲。所采用的各预测方法列在其结果的左侧,其详细描述见正文。图的最下一行是由PDB文件中的黄素氧还蛋白(10FV, Smi th等,1983)所得的二级结构分布特殊结构或结构特征就象α螺旋和β叠片的位置可以较为准确地预测出来,其它特定的结构或结构特征,如卷曲螺旋和跨膜区也可以预测出来。但这类预测的方法没有二级结构预测方法多,主要是由于这些结构或结构特征的折叠规律尚不十分清楚。尽管如此,若査询序列在已知结构数据库中能搜索到相似蛋白,则预测的准确度可能很高。卷曲螺旋 CoLS算法将査询序列在一个由已知包含卷曲螺旋蛋白结构的数据库中进行搜索( Lupas等, 1991)。程序也将査询序列与包含球状蛋白序列的PDB次级库进行比较,并根据两个库搜索得分的不同决定输入序列形成卷曲螺旋的概率。C0LS可以下载到WAX^WMS系统上使用,通过简单的Web界面使用则更方便程序要求序列数据为GCG或 FASTA格式,一次可以提交一条或多条序列。除了序列,用户还能在两种打分矩阵中选择一种:MTK是根据肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩阵;或MT吣K,是根据肌球蛋白、原肌球蛋白、中间纤维类蛋白I 桥粒蛋白和角蛋白得到的打分矩阵。程序作者引述了两种矩阵的适用特点:MK更适合检测双链结构,而MI吣K适合其它情形。用户还能启动一个选项给予每个卷曲a和d位置上残基(通常为亲水性)相同的权重。如果CoLS在无权重和有权重情况下得到的结果相差很大,则可能表明存在正错误。程序的作者警告说c0LS是用来检测与溶液接触的左手性卷曲螺旋的,对于包埋的或右手性卷曲螺旋则可能检测不到。若一个序列被提交到服务器,程序会整理出一张预测结果图,显示沿着序列各个部分形成卷曲螺旋的倾向性个基于 Maci toshi系统的应用程序—- Maestri pe使用了 Lupas的 COILS的预测方法,能输出较简单的预测结果( Kni ght,1994)。 MaeStri pe要求输入文件为 FASTA、PR或其它普遍文件格式,并象C0ILS一样产生一个图形文件,包含形成卷曲螺旋的概率,以及用柱状图显示七连体重复模式的连续性。下面是以GCN4为例,由 Maestri pe得到的统计结果文件的一部分。 8989L5a0.7604480.000047 9090D5b0.7604480.000047 9191D5c0.7604480.000047 file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

ǃD 3੠D 4˅ˈ㗠᳝ѯ乘⌟ᮍ⊩᠔ᕫⱘ㒧ᵰ㔎У⫳⠽ᄺᛣН˄བঠ䞡乘⌟ᮍ⊩೼E 4ˈ䅸Ў 㶎ᮟǃ঴⠛੠ᢤ㾦ϔϾ᥹ϔϾѸ᳓ߎ˅⦃ǄPredictProteinᮍ⊩ℷ⹂ᡒࠄњ᠔᳝ⱘѠ㑻㒧ᵘ ऩܗˈᑊ೼໮໘ޚ⹂䆚߿њѠ㑻㒧ᵘܗӊⱘ䭓ᑺˈ೼ᭈԧϞ乘⌟㸼⦄᳔ՇǄԚᑊ䴲䇈ᯢ݊ᅗ ᮍ⊩≵⫼៪ϡ໳དˈ಴Ў೼݊ᅗᶤѯᅲ՟Ё᮴⭥Ӯ᳝ᶤ⾡ᮍ⊩㸼⦄᳈དǄ⬅Ѣ≵᳝᳈໮ֵᙃ ৃ⫼ᴹ߸ᮁા⾡ᮍ⊩᳔དˈ᳔དᰃᡞᑣ߫ᦤѸ㒭໮Ͼ᳡ࡵˈ఼ᇚ㒧ᵰ∛䲚ᭈ⧚ˈ䗮䖛ҎЎⱘ ↨䕗ᴹ߸ᮁાѯ乘⌟㒧ᵰ៤ゟ៪ϡ៤ゟǄ˄೼೒11.3Ёᰒ⼎ⱘCNRSϔ㟈ᑣ߫ህሲѢ䖭ϔ㉏ᇱ 䆩ˈԚϔ㟈ᑣ߫гϡᰃᅠܼℷ⹂ⱘǄ˅㱑✊䖭ϔᮍ⊩Ёᑊ᳾ࣙ৿ᶤ⾡ᇍ乘⌟ᮍ⊩༅䋹ֱ䰽ⱘ 乘⌟ˈԚ⬅䖭ѯ乘⌟ⱘ⹂๲ᔎњ㒧ᵰњৃֵᑺǄ ……………… ೒11.3৘⾡Ѡ㑻㒧ᵘ乘⌟ᮍ⊩ⱘ↨䕗Ǆ԰Ўᶹ䆶ᑣ߫ⱘ咘㋴⇻䖬㲟ⱑ˄flavodoxin˅ᰃϔ⾡ D /E㲟ⱑˈ݊ᑣ߫ᥦ೼㄀ϔ㸠Ǆᇍ↣Ͼ乘⌟ˈ+ҷ㸼D㶎ᮟˈ(ҷ㸼E䫒ˈ7ҷ㸼Eᢤ㾦ˈ݊ ᅗԡ⚍䛑䅸Ўᰃ᮴㾘ो᳆Ǆ᠔䞛⫼ⱘ৘乘⌟ᮍ⊩߫೼݊㒧ᵰⱘᎺջˈ݊䆺㒚ᦣ䗄㾕ℷ᭛Ǆ೒ ⱘ᳔ϟϔ㸠ᰃ⬅PDB᭛ӊЁⱘ咘㋴⇻䖬㲟ⱑ˄1OFVˈSmithㄝˈ1983˅᠔ᕫⱘѠ㑻㒧ᵘߚᏗǄ ⡍⅞㒧ᵘ៪㒧ᵘ⡍ᕕ ህ䈵D 㶎ᮟ੠E ঴⠛ⱘԡ㕂ৃҹ䕗Ўޚഄ⹂乘⌟ߎᴹˈ݊ᅗ⡍ᅮⱘ㒧ᵘ៪㒧ᵘ⡍ᕕˈབो᳆ 㶎ᮟ੠䎼㝰ऎгৃҹ乘⌟ߎᴹǄԚ䖭㉏乘⌟ⱘᮍ⊩≵᳝Ѡ㑻㒧ᵘ乘⌟ᮍ⊩໮ˈЏ㽕ᰃ⬅Ѣ䖭 ѯ㒧ᵘ៪㒧ᵘ⡍ᕕⱘᡬ঴㾘ᕟᇮϡकߚ⏙ἮǄሑㅵབℸˈ㢹ᶹ䆶ᑣ߫೼Ꮖⶹ㒧ᵘ᭄᥂ᑧЁ㛑 ᧰㋶ࠄⳌԐ㲟ⱑˈ߭乘⌟ⱘޚ⹂ᑺৃ㛑ᕜ催Ǆ ो᳆㶎ᮟ COILSㅫ⊩ᇚᶹ䆶ᑣ߫೼ϔϾ⬅Ꮖⶹࣙ৿ो᳆㶎ᮟ㲟ⱑ㒧ᵘⱘ᭄᥂ᑧЁ䖯㸠᧰㋶˄Lupasㄝˈ 1991˅Ǆ⿟ᑣгᇚᶹ䆶ᑣ߫Ϣࣙ⧗৿⢊㲟ⱑᑣ߫ⱘPDB⃵㑻ᑧ䖯㸠↨䕗ˈᑊḍ᥂ϸϾᑧ᧰㋶ᕫ ߚⱘϡৠއᅮ䕧ܹᑣ߫ᔶ៤ो᳆㶎ᮟⱘὖ⥛ǄCOILSৃҹϟ䕑ࠄVAX/VMS㋏㒳ϞՓ⫼ˈ䗮䖛ㅔ ऩⱘWeb⬠䴶Փ⫼߭᳈ᮍ֓Ǆ ⿟ᑣ㽕∖ᑣ᭄߫᥂ЎGCG៪FASTAḐᓣˈϔ⃵ৃҹᦤѸϔᴵ៪໮ᴵᑣ߫Ǆ䰸њᑣ߫ˈ⫼᠋䖬㛑 ೼ϸ⾡ᠧߚⶽ䰉Ё䗝ᢽϔ⾡˖MTKᰃḍ᥂㙠⧗㲟ⱑǃॳ㙠⧗㲟ⱑ੠㾦㲟ⱑᑣ߫ᕫࠄⱘᠧߚⶽ 䰉˗៪MTIDKˈᰃḍ᥂㙠⧗㲟ⱑǃॳ㙠⧗㲟ⱑǃЁ䯈㑸㓈㉏㲟ⱑĉčǃḹ㉦㲟ⱑ੠㾦㲟ⱑᕫ ࠄⱘᠧߚⶽ䰉Ǆ⿟ᑣ԰㗙ᓩ䗄њϸ⾡ⶽ䰉ⱘ䗖⫼⡍⚍˖MTK᳈䗖ড়Ẕ⌟ঠ䫒㒧ᵘˈ㗠MTIDK䗖 ড়݊ᅗᚙᔶǄ⫼᠋䖬㛑ਃࡼϔϾ䗝乍㒭ќ↣Ͼो᳆D੠Gԡ㕂Ϟ⅟෎˄䗮ᐌЎ҆∈ᗻ˅Ⳍৠⱘ ᴗ䞡ǄབᵰCOILS೼᮴ᴗ䞡੠᳝ᴗ䞡ᚙމϟᕫࠄⱘ㒧ᵰⳌᏂᕜ໻ˈ߭ৃ㛑㸼ᯢᄬ೼ℷ䫭䇃Ǆ⿟ ᑣⱘ԰㗙䄺ਞ䇈COILSᰃ⫼ᴹẔ⌟Ϣ⒊⎆᥹㾺ⱘᎺ᠟ᗻो᳆㶎ᮟⱘˈᇍѢࣙඟⱘ៪ে᠟ᗻो᳆ 㶎ᮟ߭ৃ㛑Ẕ⌟ϡࠄǄ㢹ϔϾᑣ߫㹿ᦤѸࠄ᳡ࡵ⿟ˈ఼ᑣӮᭈ⧚ߎϔᓴ乘⌟㒧ᵰ೒ˈᰒ⼎⊓ ⴔᑣ߫৘Ͼ䚼ߚᔶ៤ो᳆㶎ᮟⱘؒ৥ᗻǄ ϔϾ෎ѢMacintoshi㋏㒳ⱘᑨ⫼⿟ᑣ̣̣MacStripeՓ⫼њLupasⱘCOILSⱘ乘⌟ᮍ⊩ˈ㛑䕧ߎ 䕗ㅔऩⱘ乘⌟㒧ᵰ˄Knightˈ1994˅ǄMacStripe㽕∖䕧ܹ᭛ӊЎFASTAǃPIR៪݊ᅗ᱂䘡᭛ӊ Ḑᓣˈᑊ䈵COILSϔḋѻ⫳ϔϾ೒ᔶ᭛ӊˈࣙ৿ᔶ៤ो᳆㶎ᮟⱘὖ⥛ˈҹঞ⫼᷅⢊೒ᰒ⼎ϗ䖲 ԧ䞡໡῵ᓣⱘ䖲㓁ᗻǄϟ䴶ᰃҹGCN4Ў՟ˈ⬅MacStripeᕫࠄⱘ㒳䅵㒧ᵰ᭛ӊⱘϔ䚼ߚǄ 89 89 L 5 a 0.760448 0.000047 90 90 D 5 b 0.760448 0.000047 91 91 D 5 c 0.760448 0.000047 ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ9/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

利用蛋白质序列的预测方法页码,10/20 9292A5d0.7604480.000047 93.93V5e0.7604480.000047 9494V5f0.7604480.000047 9595E5g0.7604280.00047 9696S5a0.7604480.00047 9797F5b0.7604480.000047 9898F5c0.7743000.000058 9999s5d0.8121610.000101 100100S5e0.8121610.000101 101101S5f0.8121610.000101 1021025g0.8121610.000101 从左到右各列分别代表残基序号(显示两次)、氨基酸种类、七连体框架和残基在七连体中的位置(a-b-C-d-e-f-g)、 Lupas得分和 Lupas概率。在这个例子中,注意到第五列,我们能清楚看岀七连体重复模式。分析整个GCN4序列结果表明七连体重复模式得到良好维持,只在某些区域有所分离。既然统计结果不能忽略不计,其结果能更容易地说明七连体重复模式是否明显存在。也可以从C0LS得到类似的输出,但不是通过Web服务器,而是在合适的Unx计算机上安装一个C语言编写的程序,这一步对许多用户而言是做不到的。跨膜区域前面曾讨论过的kyte- Doolittle的 TGREASE算法能有效地检测高疏水性的区域,但它并不是专门用来预测跨膜区域的,因为水溶性球状蛋白的内埋区也是基本为疏水性的。我们先来看种专门预测跨膜区的方法: TMpred,它依靠一个跨膜蛋白数据库 Tmbase( Hofmann和 Stoffel,1993)。 Tmbase来源与 Swiss-Prot库,并包含了每个序列的一些附加信息:跨膜结构区域的数量、跨膜结构域的位置及其侧翼序列的情况。 Tmpred利用这些信息并与若干加权矩阵结合来进行预测。 Tmpred的web界面十分简明。用户将单字符序列输入查询序列文本框,并可以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。输岀结果包含四个部分:可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及代表相同结果的图。如果用G蛋白耦联受体(P51684)作查询序列,将会得到下面的模型 2 possi bl e model s consi dered, only si gni fi cant TM segments used >STRONGLY prefered model N-termi nus outsi de 7 strong transmembrane hel i ces, total score: 14196 from to l ength score ori entati on file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18

92 92 A 5 d 0.760448 0.000047 93. 93 V 5 e 0.760448 0.000047 94 94 V 5 f 0.760448 0.000047 95 95 E 5 g 0.760448 0.000047 96 96 S 5 a 0.760448 0.000047 97 97 F 5 b 0.760448 0.000047 98 98 F 5 c 0.774300 0.000058 99 99 S 5 d 0.812161 0.000101 100 100 S 5 e 0.812161 0.000101 101 101 S 5 f 0.812161 0.000101 102 102 T 5 g 0.812161 0.000101 ҢᎺࠄে৘߫߿ߚҷ㸼⅟෎ᑣো˄ᰒ⼎ϸ⃵˅ǃ⇼෎䝌⾡㉏ǃϗ䖲ԧḚᶊ੠⅟෎೼ϗ䖲ԧЁ ⱘԡ㕂˄a-b-c-d-e-f-g˅ǃLupasᕫߚ੠Lupasὖ⥛Ǆ೼䖭Ͼ՟ᄤЁˈ⊼ᛣࠄ㄀Ѩ߫ˈ៥Ӏ㛑 ⏙Ἦⳟߎϗ䖲ԧ䞡໡῵ᓣǄߚᵤᭈϾGCN4ᑣ߫㒧ᵰ㸼ᯢϗ䖲ԧ䞡໡῵ᓣᕫࠄ㡃ད㓈ᣕˈা೼ ᶤѯऎඳ᳝᠔ߚ行Ǆ᮶✊㒳䅵㒧ᵰϡ㛑ᗑ⬹ϡ䅵ˈ݊㒧ᵰ㛑᳈ᆍᯧഄ䇈ᯢϗ䖲ԧ䞡໡῵ᓣᰃ ৺ᯢᰒᄬ೼ǄгৃҹҢCOILSᕫࠄ㉏Ԑⱘ䕧ߎˈԚϡᰃ䗮䖛Web᳡ࡵˈ఼㗠ᰃ೼ড়䗖ⱘUnix䅵 ㅫᴎϞᅝ㺙ϔϾ&䇁㿔㓪ݭⱘ⿟ᑣˈ䖭ϔℹᇍ䆌໮⫼᠋㗠㿔ᰃخϡࠄⱘǄ 䎼㝰ऎඳ ࠡ䴶᳒䅼䆎䖛ⱘKyte-DoolittleⱘTGREASEㅫ⊩㛑᳝ᬜഄẔ⌟催⭣∈ᗻⱘऎඳˈԚᅗᑊϡᰃϧ 䮼⫼ᴹ乘⌟䎼㝰ऎඳⱘˈ಴Ў∈⒊ᗻ⧗⢊㲟ⱑⱘݙඟऎгᰃ෎ᴀЎ⭣∈ᗻⱘǄ៥Ӏܜᴹⳟϔ ⾡ϧ䮼乘⌟䎼㝰ऎⱘᮍ⊩˖TMpredˈᅗձ䴴ϔϾ䎼㝰㲟ⱑ᭄᥂ᑧTmbase˄Hofmann੠ Stoffelˈ1993˅ǄTmbaseᴹ⑤ϢSwiss-Protᑧˈᑊࣙ৿њ↣Ͼᑣ߫ⱘϔѯ䰘ࡴֵᙃ˖䎼㝰㒧 ᵘऎඳⱘ᭄䞣ǃ䎼㝰㒧ᵘඳⱘԡ㕂ঞ݊ջ㗐ᑣ߫ⱘᚙމǄTmpred߽⫼䖭ѯֵᙃᑊϢ㢹ᑆࡴᴗ ⶽ䰉㒧ড়ᴹ䖯㸠乘⌟Ǆ TmpredⱘWeb⬠䴶कߚㅔᯢǄ⫼᠋ᇚऩᄫヺᑣ߫䕧ܹᶹ䆶ᑣ߫᭛ᴀḚˈᑊৃҹᣛᅮ乘⌟ᯊ䞛⫼ ⱘ䎼㝰㶎ᮟ⭣∈ऎⱘ᳔ᇣ䭓ᑺ੠᳔໻䭓ᑺǄ䕧ߎ㒧ᵰࣙ৿ಯϾ䚼ߚৃ˖㛑ⱘ䎼㝰㶎ᮟऎǃⳌ ݇ᗻ߫㸼ǃᓎ䆂ⱘ䎼㝰ᢧᠥ῵ൟҹঞҷ㸼Ⳍৠ㒧ᵰⱘ೒Ǆབᵰ⫼*㲟ⱑ㗺㘨ফԧ˄P51684˅԰ ᶹ䆶ᑣ߫ˈᇚӮᕫࠄϟ䴶ⱘ῵ൟ˖ 2 possible models considered, only significant TM segments used -----> STRONGLY prefered model: N-terminus outside 7 strong transmembrane helices, total score : 14196 # from to length score orientation ㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ10/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击下载完整版文档（PDF格式）

共20页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录