正在加载图片...
第八章多序列比对的实际应用 页码,6/11 真正返回的 PROSITE条目显得并不希奇,输出里含有值得注意的分值,这个前期加工(raW 的分值就是真正由搜索时使用的打分矩阵计算出来的,更信息化的数字是 normal i zed 即N值,N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数目 本上来说,N值越大,偶然发生的命中几率就越小。举例来说,如果N值为355,偶然命中的几 率只有1.94X10-349。数字“from”和“to”只是显示出查询序列和匹配的头文件重叠的位 点。 BLOCKS BL0CKS数据库利用了块的概念,对蛋白质家族进行鉴定,而不是只依赖于单个的序列本身。 块的思想来源于更加普遍的概念&#;模体( moti f),模体通常是指一段氨基酸序列的保守的 伸展,拥有一定的蛋白质功能或者结构。当这些来源于同一家族中的蛋白质中的模体比对时 (不引入空位),其结果就是块;块就是指比对,而不是序列本身。很明显,任何一个独立 的蛋白都可以包含一个或者更多个的块,对应于它的每一个功能和结构模体。 BL0CKS数据库本身来源于PR0STE的条目。当使用一个感兴趣的序列进行BL0CKS搜索时,查询 序列就会同数据库中所有的块在任何可能的位点进行比对,对于每一个比对都会使用位点特 异分值矩阵或者PSSM进行打分。PSSM和这本书前面叙述的分值矩阵(例如 TBLOSUM62)的重大 区别在于,其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的 位点的可能性。所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的 个特异位点的几率,这在本部分的结尾就会变的十分明白。 BL0CKS搜索可以通过访问西雅图的 Fred Hutch son肿瘤研究中心的BL0CKS主页完成,这个网 点很直接,允许执行基于序列或者关键词的检索。如果用户在输入时使用了DNA序列,他就可 以指明使用哪个遗传密码,搜索哪条链。不管执行搜索的是一个序列还是一个关键词,成功 的搜索将会返回相应的块,图8.3显示了一个例子。在这个条目中(一个核内激素受体,称为 类固醇指针),头几行按顺序分别标记为D,AC和DE,给出了这个块代表的家族的缩写 BL0CKS数据库注册码和家族的详细描述;BL行给出了关于组建这个特别的块的原始序列模体 的信息:参数wdth和seqs表示 bl ock的宽度(用残基计算),以及这个块中有多少序列数 目,接下来是统计学有效性和构成长度的信息;最后是序列列表,只显示出对应于这个特殊 模体的序列部分,每一行的开头都是这个序列的SWSS-PROT注册码,第一个残基在整个序列 中的位置,然后是序列本身以及基于位点的序列权重,这个权重用100刻度,100表示序列距 离这个群体最远;注意到有些序列行中有空行:部分比对被聚集在一起,在每个聚集中,80% 的序列残基是相同的。 Most Mos 模体搜索工具(或者写作MoST),是一个UNX程序,用来进行数据库搜索以寻找保守的模 这个方法使用比对序列块(比对块, al i gnment bl ock),可以容纳任意数目N的序列, 个长L,所有序列长度必须一致,但是在目前还不能引进空位。这个比对块用来产生一个蛋白 质权重矩阵,然后对所有序列进行矩阵扫描,从目标蛋白质数据库开始搜索,对每一个长L的 片段通过加和适合的权重矩阵元素得到其分值。如果找到在统计学上显著地匹配于序列块的 序列,这些序列也会被加入到序列块中。搜索完一个循环后,权重矩阵必须重新计算,然后 重新进行搜索,这个过程反复进行,直到再也找不到统计学意义显著的匹配序列为止,这个 过程因而在数据库搜索过程中不断积累新的信息 在执行MoST时有一个可以设置的参数就是比例R,R表示预期的虚假匹配数目被预测的真实匹 配数目。因为MoST搜索预期将会收敛(就是说因为不会再找到新的序列,反复过程将会终 止),所以R值的选择十分重要。如果R值太高,搜索就会延伸而不是收敛,最后会引进目标 数据库中的所有序列,避免虚假匹配的一个方法就是逐渐增大R值,观察匹配的数量和质量, 如果可能出现延伸就放弃增大R值 file://E:wcb生物信息学(中译本)\第八章多序列比对的实际应用.htm 2005-1-18ⳳℷ䖨ಲⱘPROSITEᴵⳂᰒᕫᑊϡᏠ༛ˈ䕧ߎ䞠৿᳝ؐᕫ⊼ᛣⱘߚˈؐ䖭ϾࠡᳳࡴᎹ˄raw˅ ⱘߚؐህᰃⳳℷ⬅᧰㋶ᯊՓ⫼ⱘᠧߚⶽ䰉䅵ㅫߎᴹⱘˈ᳈ֵᙃ࣪ⱘ᭄ᄫᰃ“normalized”ˈ े1ؐˈ1ؐ䗮ᐌ㒭ߎњ⫼᠋೼ϔϾᏆⶹ໻ᇣⱘ᭄᥂ᑧЁৃҹᇏᡒࠄⱘৃ㛑ⱘऍ䜡ⱘ᭄Ⳃˈ෎ ᴀϞᴹ䇈ˈ1ؐ䍞໻ˈي✊থ⫳ⱘੑЁ޴⥛ህ䍞ᇣDŽВ՟ᴹ䇈ˈབᵰ1ؐЎ355ˈيੑ✊Ёⱘ޴ ⥛া᳝1.94ɏ10-349DŽ᭄ᄫ“from”੠“to”াᰃᰒ⼎ߎᶹ䆶ᑣ߫੠ऍ䜡ⱘ༈᭛ӊ䞡঴ⱘԡ ⚍DŽ BLOCKS BLOCKS᭄᥂ᑧ߽⫼њഫⱘὖᗉˈᇍ㲟ⱑ䋼ᆊᮣ䖯㸠䡈ᅮˈ㗠ϡᰃাձ䌪ѢऩϾⱘᑣ߫ᴀ䑿DŽ ഫⱘᗱᛇᴹ⑤Ѣ᳈ࡴ᱂䘡ⱘὖᗉ�῵ԧ˄motif˅ˈ῵ԧ䗮ᐌᰃᣛϔ↉⇼෎䝌ᑣ߫ⱘֱᅜⱘ Ԍሩˈᢹ᳝ϔᅮⱘ㲟ⱑ䋼ࡳ㛑៪㗙㒧ᵘDŽᔧ䖭ѯᴹ⑤ѢৠϔᆊᮣЁⱘ㲟ⱑ䋼Ёⱘ῵ԧ↨ᇍᯊ ˄ϡᓩܹぎԡ˅ˈ݊㒧ᵰህᰃഫ˗ഫህᰃᣛ↨ᇍˈ㗠ϡᰃᑣ߫ᴀ䑿DŽᕜᯢᰒˈӏԩϔϾ⣀ゟ ⱘ㲟ⱑ䛑ৃҹࣙ৿ϔϾ៪㗙᳈໮ϾⱘഫˈᇍᑨѢᅗⱘ↣ϔϾࡳ㛑੠㒧ᵘ῵ԧDŽ BLOCKS᭄᥂ᑧᴀ䑿ᴹ⑤ѢPROSITEⱘᴵⳂDŽᔧՓ⫼ϔϾᛳ݈䍷ⱘᑣ߫䖯㸠BLOCKS᧰㋶ᯊˈᶹ䆶 ᑣ߫ህӮৠ᭄᥂ᑧЁ᠔᳝ⱘഫ೼ӏԩৃ㛑ⱘԡ⚍䖯㸠↨ᇍˈᇍѢ↣ϔϾ↨ᇍ䛑ӮՓ⫼ԡ⚍⡍ ᓖߚؐⶽ䰉៪㗙PSSM䖯㸠ᠧߚDŽPSSM੠䖭ᴀкࠡ䴶ভ䗄ⱘߚؐⶽ䰉˄՟བBLOSUM62˅ⱘ䞡໻ ऎ߿೼Ѣˈ݊ߚؐ㗗㰥ࠄњ೼㒭ᅮⱘԡ⚍ᰃ৺ᢹ᳝ϔϾऍ䜡ҹঞϔϾ㒭ᅮ⇼෎䝌ऴ᥂ഫЁⱘ ԡ⚍ⱘৃ㛑ᗻDŽ᠔᳝෎Ѣ䖭⾡ᔶᓣⱘᮍ⊩ⱘḌᖗᗱᛇ䛑ᰃ㾖⌟⅟෎ऴ᥂↨ᇍ㲟ⱑ䋼ഫЁⱘϔ Ͼ⡍ᓖԡ⚍ⱘ޴ˈ⥛䖭೼ᴀ䚼ߚⱘ㒧ሒህӮবⱘकߚᯢⱑDŽ BLOCKS᧰㋶ৃҹ䗮䖛䆓䯂㽓䲙೒ⱘFred Hutchinson㚓⯸ⷨおЁᖗⱘBLOCKSЏ义ᅠ៤ˈ䖭Ͼ㔥 ⚍ᕜⳈ᥹ˈܕ䆌ᠻ㸠෎Ѣᑣ߫៪㗙݇䬂䆡ⱘẔ㋶DŽབᵰ⫼᠋೼䕧ܹᯊՓ⫼њDNAᑣ߫ˈҪህৃ ҹᣛᯢՓ⫼ાϾ䘫Ӵᆚⷕˈ᧰㋶ાᴵ䫒DŽϡㅵᠻ㸠᧰㋶ⱘᰃϔϾᑣ߫䖬ᰃϔϾ݇䬂䆡ˈ៤ࡳ ⱘ᧰㋶ᇚӮ䖨ಲⳌᑨⱘഫˈ೒8.3ᰒ⼎њϔϾ՟ᄤDŽ೼䖭ϾᴵⳂЁ˄ϔϾḌݙ▔㋴ফԧˈ⿄Ў ㉏೎䝛ᣛ䩜˅ˈ༈޴㸠ᣝ乎ᑣ߿ߚᷛ䆄ЎIDˈAC੠DEˈ㒭ߎњ䖭Ͼഫҷ㸼ⱘᆊᮣⱘ㓽ݭˈ BLOCKS᭄᥂ᑧ⊼ݠⷕ੠ᆊᮣⱘ䆺㒚ᦣ䗄˗BL㸠㒭ߎњ݇Ѣ㒘ᓎ䖭Ͼ⡍߿ⱘഫⱘॳྟᑣ߫῵ԧ ⱘֵᙃ˖খ᭄width੠seqs㸼⼎blockⱘᆑᑺ˄⫼⅟෎䅵ㅫ˅ˈҹঞ䖭ϾഫЁ᳝໮ᇥᑣ᭄߫ Ⳃˈ᥹ϟᴹᰃ㒳䅵ᄺ᳝ᬜᗻ੠ᵘ៤䭓ᑺⱘֵᙃ˗᳔ৢᰃᑣ߫߫㸼ˈাᰒ⼎ߎᇍᑨѢ䖭Ͼ⡍⅞ ῵ԧⱘᑣ߫䚼ߚ↣ˈϔ㸠ⱘᓔ༈䛑ᰃ䖭Ͼᑣ߫ⱘSWISS-PROT⊼ݠⷕˈ㄀ϔϾ⅟෎೼ᭈϾᑣ߫ Ёⱘԡ㕂ˈ✊ৢᰃᑣ߫ᴀ䑿ҹঞ෎Ѣԡ⚍ⱘᑣ߫ᴗ䞡ˈ䖭Ͼᴗ䞡⫼100ࠏᑺˈ100㸼⼎ᑣ߫䎱 ⾏䖭Ͼ㕸ԧ᳔䖰˗⊼ᛣࠄ᳝ѯᑣ߫㸠Ё᳝ぎ㸠˖䚼ߚ↨ᇍ㹿㘮䲚೼ϔ䍋ˈ೼↣Ͼ㘮䲚Ёˈ80% ⱘᑣ߫⅟෎ᰃⳌৠⱘDŽ MoST MoS ῵ԧ᧰㋶Ꮉ݋៪ 㗙ݭ԰MoST)ˈᰃϔϾUNIX⿟ᑣˈ⫼ᴹ䖯㸠᭄᥂ᑧ᧰㋶ҹᇏᡒֱᅜⱘ῵ԧDŽ 䖭Ͼᮍ⊩Փ⫼↨ᇍᑣ߫ഫ˄↨ᇍഫˈalignment block˅ˈৃҹᆍ㒇ӏᛣ᭄Ⳃ1ⱘᑣ߫ˈ↣ϔ Ͼ䭓/ˈ᠔᳝ᑣ߫䭓ᑺᖙ乏ϔ㟈ˈԚᰃ೼Ⳃࠡ䖬ϡ㛑ᓩ䖯ぎԡDŽ䖭Ͼ↨ᇍഫ⫼ᴹѻ⫳ϔϾ㲟ⱑ 䋼ᴗ䞡ⶽ䰉ˈ✊ৢᇍ᠔᳝ᑣ߫䖯㸠ⶽ䰉ᠿᦣˈҢⳂᷛ㲟ⱑ䋼᭄᥂ᑧᓔྟ᧰㋶ˈᇍ↣ϔϾ䭓/ⱘ ⠛↉䗮䖛ࡴ੠䗖ড়ⱘᴗ䞡ⶽ䰉ܗ㋴ᕫࠄ݊ߚؐDŽབᵰᡒࠄ೼㒳䅵ᄺϞᰒ㨫ഄऍ䜡Ѣᑣ߫ഫⱘ ᑣ߫ˈ䖭ѯᑣ߫гӮ㹿ࡴܹࠄᑣ߫ഫЁDŽ᧰㋶ᅠϔϾᕾ⦃ৢˈᴗ䞡ⶽ䰉ᖙ乏䞡ᮄ䅵ㅫˈ✊ৢ 䞡ᮄ䖯㸠᧰㋶ˈ䖭Ͼ䖛⿟ড໡䖯㸠ˈⳈݡࠄгᡒϡࠄ㒳䅵ᄺᛣНᰒ㨫ⱘऍ䜡ᑣ߫Ўℶˈ䖭Ͼ 䖛⿟಴㗠೼᭄᥂ᑧ᧰㋶䖛⿟Ёϡᮁ⿃㌃ᮄⱘֵᙃDŽ ೼ᠻ㸠MoSTᯊ᳝ϔϾৃҹ䆒㕂ⱘখ᭄ህᰃ↨՟5ˈ5㸼⼎乘ᳳⱘ㰮؛ऍ䜡᭄Ⳃ㹿乘⌟ⱘⳳᅲऍ 䜡᭄ⳂDŽ಴ЎMoST᧰㋶乘ᳳᇚӮᬊᬯ˄ህᰃ䇈಴ЎϡӮݡᡒࠄᮄⱘᑣ߫ˈড໡䖛⿟ᇚӮ㒜 ℶ˅ˈ᠔ҹ5ؐⱘ䗝ᢽकߚ䞡㽕DŽབᵰ5ؐ໾催ˈ᧰㋶ህӮᓊԌ㗠ϡᰃᬊᬯˈ᳔ৢӮᓩ䖯Ⳃᷛ ᭄᥂ᑧЁⱘ᠔᳝ᑣ߫ˈ䙓ܡ㰮؛ऍ䜡ⱘϔϾᮍ⊩ህᰃ䗤⏤๲໻5ؐˈ㾖ᆳऍ䜡ⱘ᭄䞣੠䋼䞣ˈ བᵰৃ㛑ߎ⦃ᓊԌህᬒᓗ๲໻5ؐDŽ ㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼ 义ⷕˈ6/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ܿゴ໮ᑣ߫↨ᇍⱘᅲ䰙ᑨ⫼.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有