利用蛋白质序列的预测方法 页码,2/2 以主要的生化数据,就能提供有关蛋白质结构与功能的有价值信息。 1. Gen Bank发布编号100.0,1997年4月15日;PDB为1997年3月13日之数据。 基于组成的蛋白质辨识 人们早已熟知了20种氨基酸中每一个的物理和化学性质,并以此开发了许多有用的计算工具用 于确认未知蛋白(或反过来分析已知蛋白)。其中的大部分可通过在 Geneva大学医院和 Geneva大学的 EXPASy服务(Appe等,1994)来获得。 EXPASy工具的应用有两个焦点:既分析 和确认由二维凝胶电泳分离得到的未知蛋白,也预测已知蛋白的基本性质。这些工具利用了 S硎IsSs-PRoT数据库中的有效注解来进行预测。既然这类计算对电泳分析有用,它们也能在其 它实验领域中有所帮助,尤其是对色谱和沉降分析。在这里及以下内容中,包含在 EXPASy中 的工具都会标明,但由此而来的讨论也包括了许多由其他小组开发提供的有用程序。本章末 列出了与本章中所提及的工具有关的因特网资源 AACompl dent AACompSi m(EXPASy) 与把氨基酸序列在SW|Ss-PROT库中搜索不同, AACompl dent工具利用未知蛋白的氨基酸组成去 确认具有相同组成的已知蛋白( Wilkins等,19%6)。对于输入部分,该程序需要蛋白质的氨 基酸组成,等电点p和分子量(如果知道),正确的物种分类及特别的关键词。此外,用户 还需在六种氨基酸“组合”中作出选择,这影响到分析如何进行。例如,某种“组合”会把 残基Asp/Asn(D/N)和Gln/Gu(O/E)组合成Ax(B)和Gx(Z);或者某种残基会在分析 中被完全除去。 对数据库中的每一个蛋白序列,算法会对其氨基酸组成与所查询的氨基酸组成的差异打分 由电子邮件返回的结果被组织成三级列表:第一张列表中的蛋白都基于特定的物种分类而不 考虑p和分子量;第二张列表包含了不考虑物种分类、p和分子量的全体蛋白:第三张列表 中的蛋白不但基于特定物种分类,并且将p|和分子量也考虑在内。虽然计算所得结果各不相 同,但零分表明了该序列与提出的组成完全相符 Compl dent的一个变种, AAComp Si m提供类似的分析,但与前者以实验所得的氨基酸组成为 依据进行搜索不同,后者使用SWSS-PROT中的序列为依据( Wi I kins等,1996)。利用 Compute pl/硎(见下)所得的不同数值可以计算出理论等电点和分子量。有报道称,氨基酸 组成在物种之间是十分保守的( Corde等,1995),并且通过分析氨基酸的组成,研究者 能从低于25%序列相似性的蛋白之间发现弱相似性( Hobohm和 Sander,1995)。因此,在 “传统的”数据库搜索基础上辅以组成分析,能为蛋白质之间关系提供更多见解 PROPSEARCH pR0 OPSEARCH与 AACompSi m一样,也利用蛋白的氨基酸组成来检测蛋白质之间的微弱联系。据该 软件开发者称这一技术能轻易发现同一蛋白质家族的成员( Hobohm和 Sander,1995)。但这 技术比 AACompSi m更加强壮:它使用了144种不同的物化属性来进行分析,其中包括分子 量、巨大残基的含量、平均疏水性和平均电荷等。这些属性的集合被称作“査询向量”,并 将其与数据库(SMSS-PR0T和PR)中的每个序列预先计算好的向量进行比较。拥有这样一个 预先计算好的“向量数据库”大大节约了每次查询所需的时间。 PROPSEARCH的Web服务所需的输入是查询序列本身,其输出的一个实例为图11.1。这里作为查 询序列的是人自身抗原N0R-90的序列。结果由距离分值分成几段,该分值代表了查询序列与 由 PROPSEARCH找到的新序列之间的相似性程度,从而属于同一家族,因此通常表明具有相似 的功能。10分或更低表明两种蛋白相似的可能性大于87%。低于8.7分将相似性可信度提高到 94%,而低于7.5分则达到99.6%。分析图11.1的结果可见,NOR-90与一些核转录因子、蛋白 file://E:wcb生物信息学(中译本)\第十一章利用蛋白质序列的预测方 2005-1-18ҹЏ㽕ⱘ⫳᭄࣪ˈህ㛑ᦤկ᳝݇㲟ⱑ䋼㒧ᵘϢࡳ㛑ⱘ᳝ӋֵؐᙃDŽ 1. GenBankথᏗ㓪ো100.0ˈ1997ᑈ᳜15᮹˗PDBЎ1997ᑈ᳜13᮹П᭄DŽ Ѣ㒘៤ⱘ㲟ⱑ䋼䕼䆚 ҎӀᮽᏆ❳ⶹњ20⾡⇼䝌Ё↣ϔϾⱘ⠽⧚࣪ᄺᗻ䋼ᑊҹℸᓔথњ䆌᳝⫼ⱘ䅵ㅫᎹ⫼ Ѣ⹂䅸ⶹ㲟ⱑ˄ড䖛ᴹߚᵤᏆⶹ㲟ⱑ˅DŽ݊Ёⱘ䚼ߚৃ䗮䖛Genevaᄺए䰶 GenevaᄺⱘExPASy᳡ࡵ˄Appelㄝˈ1994˅ᴹ㦋ᕫDŽExPASyᎹⱘᑨ⫼᳝ϸϾ⛺⚍˖᮶ߚᵤ ⹂䅸⬅Ѡ㓈ޱ㛊⬉⋇ߚ行ᕫࠄⱘⶹ㲟ⱑˈг乘⌟Ꮖⶹ㲟ⱑⱘᴀᗻ䋼DŽ䖭ѯᎹ߽⫼њ SWISS-PROT᭄ᑧЁⱘ᳝ᬜ⊼㾷ᴹ䖯㸠乘⌟DŽ᮶✊䖭㉏䅵ㅫᇍ⬉⋇ߚᵤ᳝⫼ˈᅗӀг㛑݊ ᅗᅲ偠乚ඳЁ᳝᠔ᐂࡽˈᇸ݊ᰃᇍ㡆䈅≝䰡ߚᵤDŽ䖭䞠ঞҹϟݙᆍЁˈࣙExPASyЁ ⱘᎹ䛑ӮᷛᯢˈԚ⬅ℸ㗠ᴹⱘ䅼䆎гࣙᣀњ䆌⬅݊Ҫᇣ㒘ᓔথᦤկⱘ᳝⫼ᑣDŽᴀゴ ߫ߎњϢᴀゴЁ᠔ᦤঞⱘᎹ᳝݇ⱘ⡍㔥䌘⑤DŽ AACompIdentϢAACompSim˄ExPASy˅ Ϣᡞ⇼䝌ᑣ߫SWISS-PROTᑧЁ᧰㋶ϡৠˈAACompIdentᎹ߽⫼ⶹ㲟ⱑⱘ⇼䝌㒘៤এ ⹂䅸᳝Ⳍৠ㒘៤ⱘᏆⶹ㲟ⱑ˄Wilkinsㄝˈ1996˅DŽᇍѢ䕧ܹ䚼ߚˈ䆹ᑣ䳔㽕㲟ⱑ䋼ⱘ⇼ 䝌㒘៤ˈㄝ⬉⚍pIߚᄤ䞣˄བᵰⶹ䘧˅ˈℷ⹂ⱘ⠽⾡ߚ㉏ঞ⡍߿ⱘ݇䬂䆡DŽℸˈ⫼᠋ 䖬䳔݁⾡⇼䝌Ā㒘ড়āЁߎ䗝ᢽˈ䖭ᕅડߚࠄᵤབԩ䖯㸠DŽ՟བˈᶤ⾡Ā㒘ড়āӮᡞ ⅟Asp/Asn˄D/N˅Gln/Glu˄Q/E˅㒘ড়៤Asx˄%˅Glx˄=˅˗㗙ᶤ⾡⅟Ӯߚᵤ Ё㹿ᅠܼ䰸এDŽ ᇍ᭄ᑧЁⱘ↣ϔϾ㲟ⱑᑣ߫ˈㅫ⊩Ӯᇍ݊⇼䝌㒘៤Ϣ᠔ᶹ䆶ⱘ⇼䝌㒘៤ⱘᏂᓖᠧߚDŽ ⬅⬉ᄤ䚂ӊ䖨ಲⱘ㒧ᵰ㹿㒘㒛៤ϝ㑻߫㸼˖ϔᓴ߫㸼Ёⱘ㲟ⱑ䛑Ѣ⡍ᅮⱘ⠽⾡ߚ㉏㗠ϡ 㗗㰥pIߚᄤ䞣˗Ѡᓴ߫㸼ࣙњϡ㗗㰥⠽⾡ߚ㉏ǃpIߚᄤ䞣ⱘܼԧ㲟ⱑ˗ϝᓴ߫㸼 Ёⱘ㲟ⱑϡԚѢ⡍ᅮ⠽⾡ߚ㉏ˈᑊϨᇚpIߚᄤ䞣г㗗㰥ݙDŽ㱑✊䅵ㅫ᠔ᕫ㒧ᵰϡⳌ ৠˈԚ䳊ߚ㸼ᯢњ䆹ᑣ߫Ϣᦤߎⱘ㒘៤ᅠܼⳌヺDŽ AACompIdentⱘϔϾব⾡ˈAACompSimᦤկ㉏ԐⱘߚᵤˈԚϢࠡ㗙ҹᅲ偠᠔ᕫⱘ⇼䝌㒘៤Ў ձ䖯㸠᧰㋶ϡৠˈৢ㗙Փ⫼SWISS-PROTЁⱘᑣ߫Ўձ˄Wilkinsㄝˈ1996˅DŽ߽⫼ Compute pI/MW˄㾕ϟ˅᠔ᕫⱘϡৠ᭄ؐৃҹ䅵ㅫߎ⧛䆎ㄝ⬉⚍ߚᄤ䞣DŽ᳝䘧⿄ˈ⇼䝌 㒘៤⠽⾡П䯈ᰃकߚֱᅜⱘ˄Cordwellㄝˈ1995˅ˈᑊϨ䗮䖛ߚᵤ⇼䝌ⱘ㒘៤ˈⷨお㗙 㛑ҢԢѢ25ˁᑣ߫ⳌԐᗻⱘ㲟ⱑП䯈থ⦄ᔅⳌԐᗻ˄HobohmSanderˈ1995˅DŽℸˈ ĀӴ㒳ⱘā᭄ᑧ᧰㋶⸔Ϟ䕙ҹ㒘៤ߚᵤˈ㛑Ў㲟ⱑ䋼П䯈݇㋏ᦤկ㾕㾷DŽ PROPSEARCH PROPSEARCHϢAACompSimϔḋˈг߽⫼㲟ⱑⱘ⇼䝌㒘៤ᴹẔ⌟㲟ⱑ䋼П䯈ⱘᖂᔅ㘨㋏DŽ䆹 䕃ӊᓔথ㗙⿄䖭ϔᡔᴃ㛑䕏ᯧথ⦄ৠϔ㲟ⱑ䋼ᆊᮣⱘ៤ਬ˄HobohmSanderˈ1995˅DŽԚ䖭 ϔᡔᴃ↨AACompSimࡴᔎໂ˖ᅗՓ⫼њ144⾡ϡৠⱘ⠽࣪ሲᗻᴹ䖯㸠ߚᵤˈ݊Ёࣙᣀߚᄤ 䞣ǃᎼ⅟ⱘ䞣ǃᑇഛ⭣∈ᗻᑇഛ⬉㥋ㄝDŽ䖭ѯሲᗻⱘ䲚ড়㹿⿄Āᶹ䆶䞣āˈᑊ ᇚ݊Ϣ᭄ᑧ˄SWISS-PROTPIR˅Ёⱘ↣Ͼᑣ߫乘ܜ䅵ㅫདⱘ䞣䖯㸠↨䕗DŽᢹ᳝䖭ḋϔϾ 乘ܜ䅵ㅫདⱘĀ䞣᭄ᑧā㡖㑺њ↣ᶹ䆶᠔䳔ⱘᯊ䯈DŽ PROPSEARCHⱘWeb᳡ࡵ᠔䳔ⱘ䕧ܹᰃᶹ䆶ᑣ߫ᴀ䑿ˈ݊䕧ߎⱘϔϾᅲ՟Ў11.1DŽ䖭䞠Ўᶹ 䆶ᑣ߫ⱘᰃҎ㞾䑿ᡫॳNOR-90ⱘᑣ߫DŽ㒧ᵰ⬅䎱⾏ߚؐߚ៤ˈ0⁄3䆹ߚؐҷ㸼њᶹ䆶ᑣ߫Ϣ ⬅PROPSEARCHᡒࠄⱘᮄᑣ߫П䯈ⱘⳌԐᗻᑺˈҢ㗠ሲѢৠϔᆊᮣˈℸ䗮ᐌ㸼ᯢ᳝ⳌԐ ⱘࡳ㛑DŽ10ߚԢ㸼ᯢϸ⾡㲟ⱑⳌԐⱘৃ㛑ᗻѢ87ˁDŽԢѢ8.7ߚᇚⳌԐᗻৃֵᑺᦤ催ࠄ 94ˁˈ㗠ԢѢ7.5ߚ߭䖒ࠄ99.6ˁDŽߚᵤ11.1ⱘ㒧ᵰৃ㾕ˈNOR-90ϢϔѯḌ䕀ᔩᄤǃ㲟ⱑ कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ2/20 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कϔゴ߽⫼㲟ⱑ䋼ᑣ߫ⱘ乘⌟ᮍ... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com