第十章利用核酸序列的预测方法 页码,1/16 10 利用核酸序列的预测方法 James W. Fickett Smi thk/ine beecham pharmaceuti cals King of Pruss a. Pennsy/ vania 这一章讨论的是解释DNA序列的方法,这些方法主要依赖于功能模式的检测,而不是与其它单 个序列的比较。这些方法中的绝大部分意在先寻找并遮蔽重复的和低复杂性的序列,再寻找 基因以及与其相关的调控区域。在针对单个序列的集中调查分析,以及为可能的基因、整个 基因组或相应较大区域建立初步清单的快速扫描过程中,这些方法都发挥了主要作用。由于 算法开发迅速,没有一种工具能完成全部有关的序列分析功能。因此,有必要将序列提呈给 多个不同的软件包加以分析,以利用最佳的计算机技术。为使这一过程效率更高,本章为 前常用的工具提供了简明的使用指导。一些有用的资料还能从 Wenti an Li编辑的在线书目 (见本章末“书目..”中所列资源中的URL地址)和参考文献中的相关综述中找到: Gel fand (1995), Cl averie(1996), Fickett和 Gui go(1996), Snyder和 Stormo(1996),以及 Gui go (1997) 这一章是这样安排的:首先,是对基本概念框架的描述,以将各不同工具安排在合适的位置 上;然后,是对主要的计算工具的评述,对每种工具,既讨论了其内在逻辑思想,也给出程 序应用的范例。当前的诸多工具虽很实用,但绝非完全可靠。例如,当前的发展中存在的一 个缺陷是许多序列分析软件开发者对功能域原型的描述来自DDBJ/EMBL/( Gen Bank等国际序列数 据库中对相应功能域的描述,然而这些数据库中的描述本身的部分却可以来源于序列的分 析,这样就导致了循环。在应用中,每种分析方法各自的优势和不足都该特别留意。一些最 常用的和可以从互联网上获得的计算工具列于章末。 框架 一个全面的基因搜寻方案,无论是由单个复合程序实现还是通过使用多个专门程序来实现, 以下的基本信息都是适用的。首先,搜寻基因的证据由多处收集而来: 一张标出重复序列位置的图谱表明了该处调控区域和编码蛋白质的区域不太可能岀现。 与其它基因或基因产物有序列相似性是外显子的强有力证据。 一段序列上存在着统计的规则性,表示为显著的“密码子偏好”是蛋白编码区最明显的 标志之 与模板模式相符可能指出DNA上功能性位点的位置。这类分析可以基于很简单的模式 (例如,众所周知的“ Tata box”和剪接点的保守序列)或基于相当复杂的推理(例 如,在后面将提到的启动子搜寻算法中)。 然后,全部收集到的信息汇总整理成总体上尽可能连贯的谱图。用于汇总整理阶段的准则属 于基本常识:例如,由“密码子偏好”分析出的外显子边界可能为了有一个更好的剪接位点 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
䖭ϔゴ䅼䆎ⱘᰃ㾷䞞DNAᑣ߫ⱘᮍ⊩ˈ䖭ѯᮍ⊩Џ㽕ձ䌪Ѣࡳ㛑ᓣⱘẔ⌟ˈ㗠ϡᰃϢ݊ᅗऩ Ͼᑣ߫ⱘ↨䕗DŽ䖭ѯᮍ⊩Ёⱘ㒱䚼ߚᛣܜᇏᡒᑊ䙂㬑䞡ⱘԢᴖᗻⱘᑣ߫ˈݡᇏᡒ ҹঞϢ݊Ⳍ݇ⱘ䇗ऎඳDŽ䩜ᇍऩϾᑣ߫ⱘ䲚Ё䇗ᶹߚᵤˈҹঞЎৃ㛑ⱘǃᭈϾ 㒘Ⳍᑨ䕗ऎඳᓎゟ߱ℹ⏙ऩⱘᖿ䗳ᠿᦣ䖛Ёˈ䖭ѯᮍ⊩䛑থњЏ㽕⫼DŽ⬅Ѣ ㅫ⊩ᓔথ䖙䗳ˈ≵᳝ϔ⾡Ꮉ㛑ᅠ៤ܼ䚼᳝݇ⱘᑣ߫ߚᵤࡳ㛑DŽℸˈ᳝ᖙ㽕ᇚᑣ߫ᦤਜ㒭 Ͼϡৠⱘ䕃ӊࡴࣙҹߚᵤˈҹ᳔߽⫼Շⱘ䅵ㅫᴎᡔᴃDŽЎՓ䖭ϔ䖛ᬜ⥛催ˈᴀゴЎᔧ ࠡᐌ⫼ⱘᎹᦤկњㅔᯢⱘՓ⫼ᣛᇐDŽϔѯ᳝⫼ⱘ䌘᭭䖬㛑ҢWentian Li㓪䕥ⱘ㒓кⳂ ˄㾕ᴀゴĀкⳂ…”Ё᠔߫䌘⑤ЁⱘURLഄഔ˅খ㗗᭛⤂ЁⱘⳌ݇㓐䗄Ёᡒࠄ˖Gelfand ˄1995˅ˈClaverie˄1996˅ˈFickettGuigó˄1996˅ˈSnyderStormo˄1996˅ˈҹঞ Guigó˄1997˅DŽ 䖭ϔゴᰃ䖭ḋᅝᥦⱘ˖佪ܜˈᰃᇍᴀὖᗉḚᶊⱘᦣ䗄ˈҹᇚϡৠᎹᅝᥦড়䗖ⱘԡ㕂 Ϟ˗✊ৢˈᰃᇍЏ㽕ⱘ䅵ㅫᎹⱘ䆘䗄ˈᇍ↣⾡Ꮉˈ᮶䅼䆎њ݊ݙ䘏䕥ᗱᛇˈг㒭ߎ ᑣᑨ⫼ⱘ㣗՟DŽᔧࠡⱘ䇌Ꮉ㱑ᕜᅲ⫼ˈԚ㒱䴲ᅠܼৃ䴴DŽ՟བˈᔧࠡⱘথሩЁᄬⱘϔ Ͼ㔎䱋ᰃ䆌ᑣ߫ߚᵤ䕃ӊᓔথ㗙ᇍࡳ㛑ඳॳൟⱘᦣ䗄ᴹ㞾DDBJ/EMBL/GenBankㄝ䰙ᑣ᭄߫ ᑧЁᇍⳌᑨࡳ㛑ඳⱘᦣ䗄ˈ✊㗠䖭ѯ᭄ᑧЁⱘᦣ䗄ᴀ䑿ⱘ䚼ߚৃैҹᴹ⑤Ѣᑣ߫ⱘߚ ᵤˈ䖭ḋህᇐ㟈њᕾ⦃DŽᑨ⫼Ёˈ↣⾡ߚᵤᮍ⊩㞾ⱘӬϡ䎇䛑䆹⡍߿⬭ᛣDŽϔѯ᳔ ᐌ⫼ⱘৃҹҢѦ㘨㔥Ϟ㦋ᕫⱘ䅵ㅫᎹ߫ѢゴDŽ Ḛᶊ ϔϾܼ䴶ⱘ᧰ᇏᮍḜˈ᮴䆎ᰃ⬅ऩϾড়ᑣᅲ⦄䖬ᰃ䗮䖛Փ⫼Ͼϧ䮼ᑣᴹᅲ⦄ˈ ҹϟⱘᴀֵᙃ䛑ᰃ䗖⫼ⱘDŽ佪ܜ᧰ˈᇏⱘ䆕⬅໘ᬊ䲚㗠ᴹ˖ z ϔᓴᷛߎ䞡ᑣ߫ԡ㕂ⱘ䈅㸼ᯢњ䆹໘䇗ऎඳ㓪ⷕ㲟ⱑ䋼ⱘऎඳϡৃ㛑ߎ⦃DŽ z Ϣ݊ᅗѻ⠽᳝ᑣ߫ⳌԐᗻᰃᰒᄤⱘᔎ᳝䆕DŽ z ϔ↉ᑣ߫Ϟᄬⴔ㒳䅵ⱘ㾘߭ᗻˈ㸼⼎Ўᰒ㨫ⱘĀᆚⷕᄤأདāᰃ㲟ⱑ㓪ⷕऎ᳔ᯢᰒⱘ ᷛᖫПϔDŽ z ϢᵓᓣⳌヺৃ㛑ᣛߎDNAϞࡳ㛑ᗻԡ⚍ⱘԡ㕂DŽ䖭㉏ߚᵤৃҹѢᕜㅔऩⱘᓣ ˄՟བˈӫ᠔਼ⶹⱘ“TATA box”࠾⚍ⱘֱᅜᑣ߫˅ѢⳌᔧᴖⱘ⧚˄՟ བˈৢ䴶ᇚᦤࠄⱘਃࡼᄤ᧰ᇏㅫ⊩Ё˅DŽ ✊ৢˈܼ䚼ᬊ䲚ࠄⱘֵᙃ∛ᘏᭈ⧚៤ᘏԧϞሑৃ㛑䖲䌃ⱘ䈅DŽ⫼Ѣ∛ᘏᭈ⧚䰊↉ⱘޚ߭ሲ Ѣᴀᐌ䆚˖՟བˈ⬅Āᆚⷕᄤأདāߚᵤߎⱘᰒᄤ䖍⬠ৃ㛑Ўњ᳝ϔϾདⱘ࠾ԡ⚍ 10 ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ James W. Fickett SmithKline Beecham Pharmaceuticals King of Prussia. Pennsylvania कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ1/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,2/16 而进行轻微调整;在存在与已知蛋白序列的相似性时,序列的“密码子偏好”性也会更受重 视 对于特定的质询,诸多基因辨识程序中仅有少数可能与之相关。在构建一个方案时,一些主 要问题是值得注意的:(1)对真核生物序列,遮蔽重复序列应先于其它分析过程;(2)大 多程序都有特定生物物种适用性;(3)许多程序只能特定适用于基因组DNA数据或者只适用 于CDNA的数据;(4)序列的长度也是一个重要因素。例如,用鸟枪法测序得到的单个序列片 段很少能用设计为在序列中搜寻整个基因的老式程序加以分析 遮蔽重复序列 在进行任何真核生物序列的基因辨识分析之前,最好把散布和简单的重复序列找出来并从序列 中除去。虽然这些重复序列可能正好覆盖了由RNA聚合酶Ⅱ转录的部分区域,它们几乎不会覆 盖启动子和外显子编码区。这样,这些重复序列的定位能为其它基因特征的定位提供重要的 反面信息。重复序列还常常会搅乱其它分析,特别是在数据库搜索中 对于偶尔分析一个序列而言,基于电子邮件或Web网页的服务器就足够了。 CENSOR( Jurka 等,1996)与 Reper tAsker( Smi th,1996)就是这种能提供标识和遮蔽散布和简单重复序列 的服务器。可以通过电子邮件,或用Ww界面实现(地址见章末列表)。图10.1显示的是一个 有CENS0R进行重复序列分析和遮蔽的例子 对于大量分析工作而言,在本地安装分析软件就更有效和必要。显然,本地分析也大大增强 了保密性。从因特网上可以得到 XBLAST( Cl averi e,19%6)(不要与 BLASTX混淆)的源程 序。许多重复序列能从由J.Jka收集的 Repbase中得到。J.M. Cl averi e也在 XBLAST软件中包含 了一组收集整理的Au序列。对本地安装软件,把克隆载体序列加入收集的重复序列中也很有 用,以便使在进行分析时,把克隆载体也一并遮蔽 HUMCKMM1 HUMCKMM1 ggatcct tcctccttggcctcccaaagtgctgggat tacaggtgtgagccactgcacctg gcctattacccttctcaggctctggagtccatccttctgctctgtctccctcagttcaat tgttttttgttttttgttttttttttagacacagtctcgctctgtcaccaaggctggagt gcagcagtgcgatcacagctcaccgcagcctcacctcccaggctcaagtgatcctcccat ctcggcctctgagtagctgagactataggtgtgtccacatgtccggctaatttttgtatt tttag tagagacagggt ttcaccgcgttggccagggtggtcttgaactcctgagctcaag caatcctcctgcctcagcctccttgttttgatttttagatcccacaaataacttgtgatg tttgtctttctatacctggttcatttaacattttctttttcttttcttttcttttttttt ttttttgtgagactgagtcttgctctgtcactcaggctggagggcaatggtgcatctcag file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
㗠䖯㸠䕏ᖂ䇗ᭈ˗ᄬϢᏆⶹ㲟ⱑᑣ߫ⱘⳌԐᗻᯊˈᑣ߫ⱘĀᆚⷕᄤأདāᗻгӮফ䞡 㾚DŽ ᇍѢ⡍ᅮⱘ䋼䆶ˈ䇌䕼䆚ᑣЁҙ᳝ᇥ᭄ৃ㛑ϢПⳌ݇DŽᵘᓎϔϾᮍḜᯊˈϔѯЏ 㽕䯂乬ᰃؐᕫ⊼ᛣⱘ˖˄˅ᇍⳳḌ⫳⠽ᑣ߫ˈ䙂㬑䞡ᑣ߫ᑨܜѢ݊ᅗߚᵤ䖛˗˄˅ ᑣ䛑᳝⡍ᅮ⫳⠽⠽⾡䗖⫼ᗻ˗˄˅䆌ᑣা㛑⡍ᅮ䗖⫼Ѣ㒘DNA᭄㗙া䗖⫼ ѢcDNAⱘ᭄˗˄˅ᑣ߫ⱘ䭓ᑺгᰃϔϾ䞡㽕㋴DŽ՟བˈ⫼右ᵾ⊩⌟ᑣᕫࠄⱘऩϾᑣ߫⠛ ↉ᕜᇥ㛑⫼䆒䅵Ўᑣ߫Ё᧰ᇏᭈϾⱘ㗕ᓣᑣࡴҹߚᵤDŽ 䙂㬑䞡ᑣ߫ 䖯㸠ӏԩⳳḌ⫳⠽ᑣ߫ⱘ䕼䆚ߚᵤП᳔ࠡདᡞᬷᏗㅔऩⱘ䞡ᑣ߫ᡒߎᴹᑊҢᑣ߫ Ё䰸এDŽ㱑✊䖭ѯ䞡ᑣ߫ৃ㛑ℷད㽚Ⲫњ⬅RNA㘮ড়䝊Ċ䕀ᔩⱘ䚼ߚऎඳˈᅗӀТϡӮ㽚 Ⲫਃࡼᄤᰒᄤ㓪ⷕऎDŽ䖭ḋˈ䖭ѯ䞡ᑣ߫ⱘᅮԡ㛑Ў݊ᅗ⡍ᕕⱘᅮԡᦤկ䞡㽕ⱘ ড䴶ֵᙃDŽ䞡ᑣ߫䖬ᐌᐌӮ᧙х݊ᅗߚᵤˈ⡍߿ᰃ᭄ᑧ᧰㋶ЁDŽ ᇍѢيᇨߚᵤϔϾᑣ߫㗠㿔ˈѢ⬉ᄤ䚂ӊWeb㔥义ⱘ᳡ࡵ఼ህ䎇њDŽCENSOR˄Jurka ㄝˈ1996˅ϢRepertMasker˄Smithˈ1996˅ህᰃ䖭⾡㛑ᦤկᷛ䆚䙂㬑ᬷᏗㅔऩ䞡ᑣ߫ ⱘ᳡ࡵ఼DŽৃҹ䗮䖛⬉ᄤ䚂ӊˈ⫼WWW⬠䴶ᅲ⦄˄ഄഔ㾕ゴ߫㸼˅DŽ10.1ᰒ⼎ⱘᰃϔϾ ᳝CENSOR䖯㸠䞡ᑣ߫ߚᵤ䙂㬑ⱘ՟ᄤDŽ ᇍѢ䞣ߚᵤᎹ㗠㿔ˈᴀഄᅝ㺙ߚᵤ䕃ӊህ᳝ᬜᖙ㽕DŽᰒ✊ˈᴀഄߚᵤгᔎ њֱᆚᗻDŽҢ⡍㔥ϞৃҹᕫࠄXBLAST˄Claverieˈ1996˅˄ϡ㽕ϢBLASTX⏋⎚˅ⱘ⑤ ᑣDŽ䆌䞡ᑣ߫㛑Ң⬅J.Jukaᬊ䲚ⱘRepbaseЁᕫࠄDŽJ.M.ClaverieгXBLAST䕃ӊЁࣙ њϔ㒘ᬊ䲚ᭈ⧚ⱘAluᑣ߫DŽᇍᴀഄᅝ㺙䕃ӊˈᡞܟ䱚䕑ԧᑣ߫ࡴܹᬊ䲚ⱘ䞡ᑣ߫Ёгᕜ᳝ ⫼ˈҹ֓Փ䖯㸠ߚᵤᯊˈᡞܟ䱚䕑ԧгϔᑊ䙂㬑DŽ (a) ; HUMCKMM1 HUMCKMM1 ggatccttcctccttggcctcccaaagtgctgggattacaggtgtgagccactgcacctg gcctattacccttctcaggctctggagtccatccttctgctctgtctccctcagttcaat tgttttttgttttttgttttttttttagacacagtctcgctctgtcaccaaggctggagt gcagcagtgcgatcacagctcaccgcagcctcacctcccaggctcaagtgatcctcccat ctcggcctctgagtagctgagactataggtgtgtccacatgtccggctaatttttgtatt tttagtagagacagggtttcaccgcgttggccagggtggtcttgaactcctgagctcaag caatcctcctgcctcagcctccttgttttgatttttagatcccacaaataacttgtgatg tttgtctttctatacctggttcatttaacattttctttttcttttcttttcttttttttt ttttttgtgagactgagtcttgctctgtcactcaggctggagggcaatggtgcatctcag कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ2/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,3/16 ctcactgcaacctccacctcctaggttcaagcaattct tatgcctcagcctcctggctag ctgggat tacaggcgtgtgtcaccatgccaggctaatttttgtacttttagtagagatgg ggtt tcaccatgttggccaggctggtcttgaactcctggcctcaagtgatccacccgcct ccgcctctgcctcccaaagtgctgggat tacgggcctgagccactgtgcccggcccatct aacattttcactgtcaatcacaatgggat taaaactcctcccacagcccctagggaccal humckmm1 2 63 Alu-Jb 1 62 C humckmm1 67 119 L1MA2697751 C humckmm1 138 382 Al u-Jb 42 290C humckmm1 383 449 L1MA2 623 696C humckmm1 451 480(TTTTC)5 33 d humckmm1 481 775 Alu-Sz 1 290 C humckmm1 humckmm1 humckmm1 GXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTATXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTTGTTTTTTGTTTTTTGTXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
ctcactgcaacctccacctcctaggttcaagcaattcttatgcctcagcctcctggctag ctgggattacaggcgtgtgtcaccatgccaggctaatttttgtacttttagtagagatgg ggtttcaccatgttggccaggctggtcttgaactcctggcctcaagtgatccacccgcct ccgcctctgcctcccaaagtgctgggattacgggcctgagccactgtgcccggcccatct aacattttcactgtcaatcacaatgggattaaaactcctcccacagcccctagggacca1 (b) humckmm1 2 63 Alu-Jb 1 62 c humckmm1 67 119 L1MA2 697 751 c humckmm1 138 382 Alu-Jb 42 290 c humckmm1 383 449 L1MA2 623 696 c humckmm1 451 480 (TTTTC) 5 33 d humckmm1 481 775 Alu-Sz 1 290 c (c) ; humckmm1 ;humckmm1 humckmm1 GXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTATXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTTGTTTTTTGTTTTTTGTXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ3/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,4/16 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCAT 图10.1由CENS0R实现的重复序列分析:(a)输入序列,(b)由 CENSOR产生的特征列表,以 及(c)遮蔽了重复序列后的输出序列。 数据库搜索 搜寻已知同源体可能是最古老和最为广泛认识的编码蛋白的新基因的辨识方法(例如, Doolittle, 1986: Gi shFIStates, 1993: Robi son, 1994: Cl averi e, 1996: Gel fand -, 996),对于编码 SnRNA和rRNA的新基因也是这样。这类搜索仅依靠进化上的关系,因而广泛 适用。数据库搜索技术已在第七章中有所详述。这一部分仅评述它们在基因搜寻中的应用 完整的基因搜寻服务正开始把数据库搜索包含进来成为分析的一部分。然而,在某些情况 下,数据库搜索这一步还需要用户分开完成。对编码蛋白的基因而言,将序列以六种可能的 阅读框架翻译岀来,并把结果分别作为氨基酸序列和功能性Mtif数据库的搜索对象,这通常 是获取重要匹配序列最佳的第一步。一旦一个同源序列被找到, Procrustes( Gel fand等, 1996)可被用来找出已知基因产物与新基因之间最优的比对方式 找到同源产物的一大好处显然在于该基因的一些生物学性质可以马上被弄明白,但这里有两 点警告。首先,由相似性作出的注解可能会导致错误的传播(Bork,1996)。其次,新发现 的蛋白中大约只有一半能在已有数据库中找到同源者,并且这一比例看起来增长极为缓慢 Green等(1993)发现:(1)全体蛋白质中的大多数古保留片段(或称ACR,简单定义为蛋白 序列中表现高度良好同源性的部分)都已经被发现并能在当前的数据库中找到:(2)大约新 发现基因中的20%-50%包含至少一个数据库中已有描述的ACR;并且(3)很少表达的基因 比中等或高度表达的基因更缺乏包含ACR序列的可能。 种直接的核酸序列数据库搜索也很有用。在EST(部分cDNA序列)数据库中可能包含着全部 基因中大多数的碎片( Aaronson等,1996; Hillier等,1996)。因此它们是为多数基因部分 定位的重要资源。但这在为基因结构定界时能起多大作用尚不清楚。众所周知,核酸库搜索 是定位rRNA和 SnRNA的好方法(虽然假基因仍是个问题)。这种搜索在定位调控序列时也会有 用( Duret和 Bucher,1997)。 密码子偏好的检测 大多数计算识别编码蛋白质的基因的方法都着重于识别由于密码子使用时的偏好而产生的有 些弥散的编码区规则性。将密码子出现频率简单列表是所谓“编码测度”( codi ng measure)的一种,即指一种以计算出一个数或一个数列表用于总结这种规律性的规则。许多 “编码测度”规则都已被提出。其中,大约最有信息提取价值的包括:双密码子计数(即指 连续两个密码子对出现频率计数);一些直接量度周期性(这里的“周期性”指同一核苷酸 在相距3,6,9,…,bp位置上多次出现的趋势)的方法;均一性对复杂性的量测(如长同聚 区段计数);以及开放可读框架的出现( Fickett和Tung,1992)。 很多编码区检测程序主要是把一个或几个“编码测度”组合起来,(使用例如概率论原理, 多变量统计中的判别分析技术,或者人工智能领域的神经网方法)构成一个数,称作一个判 别式。例如,这种组合构成了有名的GRAL程序(Ⅺ等,1994)的基础。一般判别式在一个 滑动窗口”(即定长连续的子序列)中计算出来,并且将结果作成曲线(图10.2)。 为从编码测度判别式中获得更显著信息,需要获得有关大量碱基构成顺序的规律。更具体而 言,以下标准由 Fi ckett和rung(1992)建立:(1)将 GenBank库分解成连续108bp的窗口片 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA1 10.1⬅CENSORᅲ⦄ⱘ䞡ᑣ߫ߚᵤ˖˄D˅䕧ܹᑣ߫ˈ˄E˅⬅CENSORѻ⫳ⱘ⡍ᕕ߫㸼ˈҹ ঞ˄F˅䙂㬑њ䞡ᑣ߫ৢⱘ䕧ߎᑣ߫DŽ ᭄ᑧ᧰㋶ ᧰ᇏᏆⶹৠ⑤ԧৃ㛑ᰃ᳔স㗕᳔Ўᑓ⊯䅸䆚ⱘ㓪ⷕ㲟ⱑⱘᮄⱘ䕼䆚ᮍ⊩˄՟བˈ Doolittleˈ1986˗GishStatesˈ1993˗Robisonㄝˈ1994˗Claverieˈ1996˗Gelfandㄝˈ 1996˅ˈᇍѢ㓪ⷕsnRNArRNAⱘᮄгᰃ䖭ḋDŽ䖭㉏᧰㋶ҙձ䴴䖯࣪Ϟⱘ݇㋏ˈ㗠ᑓ⊯ 䗖⫼DŽ᭄ᑧ᧰㋶ᡔᴃᏆϗゴЁ᳝᠔䆺䗄DŽ䖭ϔ䚼ߚҙ䆘䗄ᅗӀ᧰ᇏЁⱘᑨ⫼DŽ ᅠᭈⱘ᧰ᇏ᳡ࡵℷᓔྟᡞ᭄ᑧ᧰㋶ࣙ䖯ᴹ៤Ўߚᵤⱘϔ䚼ߚDŽ✊㗠ˈᶤѯᚙމ ϟˈ᭄ᑧ᧰㋶䖭ϔℹ䖬䳔㽕⫼᠋ߚᓔᅠ៤DŽᇍ㓪ⷕ㲟ⱑⱘ㗠㿔ˈᇚᑣ߫ҹ݁⾡ৃ㛑ⱘ 䯙䇏Ḛᶊ㗏䆥ߎᴹˈᑊᡞ㒧ᵰ߿ߚЎ⇼䝌ᑣ߫ࡳ㛑ᗻMotif᭄ᑧⱘ᧰㋶ᇍ䈵ˈ䖭䗮ᐌ ᰃ㦋প䞡㽕ऍ䜡ᑣ᳔߫ՇⱘϔℹDŽϔᮺϔϾৠ⑤ᑣ߫㹿ᡒࠄˈProcrustes˄Gelfandㄝˈ 1996˅ৃ㹿⫼ᴹᡒߎᏆⶹѻ⠽ϢᮄП䯈᳔Ӭⱘ↨ᇍᮍᓣDŽ ᡒࠄৠ⑤ѻ⠽ⱘϔད໘ᰒ✊Ѣ䆹ⱘϔѯ⫳⠽ᄺᗻ䋼ৃҹ偀Ϟ㹿ᓘᯢⱑˈԚ䖭䞠᳝ϸ ⚍䄺ਞDŽ佪ܜ⬅ˈⳌԐᗻߎⱘ⊼㾷ৃ㛑Ӯᇐ㟈䫭䇃ⱘӴ᪁˄Borkˈ1996˅DŽ݊ˈᮄথ⦄ ⱘ㲟ⱑЁ㑺া᳝ϔञ㛑Ꮖ᭄᳝ᑧЁᡒࠄৠ⑤㗙ˈᑊϨ䖭ϔ↨՟ⳟ䍋ᴹ䭓ᵕЎ㓧᜶DŽ Greenㄝ˄1993˅থ⦄˖˄˅ܼԧ㲟ⱑ䋼Ёⱘ᭄সֱ⬭⠛↉˄⿄ACRˈㅔऩᅮНЎ㲟ⱑ ᑣ߫Ё㸼⦄催ᑺ㡃དৠ⑤ᗻⱘ䚼ߚ˅䛑Ꮖ㒣㹿থ⦄ᑊ㛑ᔧࠡⱘ᭄ᑧЁᡒࠄ˅˄˗㑺ᮄ থ⦄Ёⱘ20ˁˉ50ˁࣙ㟇ᇥϔϾ᭄ᑧЁᏆ᳝ᦣ䗄ⱘACR˗ᑊϨ˄˅ᕜᇥ㸼䖒ⱘ ↨Ёㄝ催ᑺ㸼䖒ⱘ㔎УࣙACRᑣ߫ⱘৃ㛑DŽ ϔ⾡ⳈⱘḌ䝌ᑣ᭄߫ᑧ᧰㋶гᕜ᳝⫼DŽEST˄䚼ߚcDNAᑣ߫˅᭄ᑧЁৃ㛑ࣙⴔܼ䚼 Ё᭄ⱘ⠛˄Aaronsonㄝˈ1996˗Hillierㄝˈ1996˅DŽℸᅗӀᰃЎ᭄䚼ߚ ᅮԡⱘ䞡㽕䌘⑤DŽԚ䖭Ў㒧ᵘᅮ⬠ᯊ㛑䍋⫼ᇮϡ⏙ἮDŽӫ᠔਼ⶹˈḌ䝌ᑧ᧰㋶ ᰃᅮԡrRNAsnRNAⱘདᮍ⊩˄㱑✊؛ҡᰃϾ䯂乬˅DŽ䖭⾡᧰㋶ᅮԡ䇗ᑣ߫ᯊгӮ᳝ ⫼˄DuretBucherˈ1997˅DŽ ᆚⷕᄤأདⱘẔ⌟ ᭄䅵ㅫ䆚߿㓪ⷕ㲟ⱑ䋼ⱘⱘᮍ⊩䛑ⴔ䞡Ѣ䆚߿⬅ѢᆚⷕᄤՓ⫼ᯊⱘأད㗠ѻ⫳ⱘ᳝ ѯᓹᬷⱘ㓪ⷕऎ㾘߭ᗻDŽᇚᆚⷕᄤߎ⦃乥⥛ㅔऩ߫㸼ᰃ᠔䇧Ā㓪ⷕ⌟ᑺā˄coding measure˅ⱘϔ⾡ˈेᣛϔ⾡ҹ䅵ㅫߎϔϾ᭄ϔϾ᭄߫㸼⫼Ѣᘏ㒧䖭⾡㾘ᕟᗻⱘ㾘߭DŽ䆌 Ā㓪ⷕ⌟ᑺā㾘߭䛑Ꮖ㹿ᦤߎDŽ݊Ёˈ㑺᳔ֵ᳝ᙃᦤপӋؐⱘࣙᣀ˖ঠᆚⷕᄤ䅵᭄˄ेᣛ 䖲㓁ϸϾᆚⷕᄤᇍߎ⦃乥⥛䅵᭄˅˗ϔѯⳈ䞣ᑺ਼ᳳᗻ˄䖭䞠ⱘĀ਼ᳳᗻāᣛৠϔḌ㣋䝌 Ⳍ䎱ˈˈˈĂˈbpԡ㕂Ϟߎ⦃ⱘ䍟˅ⱘᮍ⊩˗ഛϔᗻᇍᴖᗻⱘ䞣⌟˄བ䭓ৠ㘮 ऎ↉䅵᭄˅˗ҹঞᓔᬒৃ䇏Ḛᶊⱘߎ˄⦃FickettTungˈ1992˅DŽ ᕜ㓪ⷕऎẔ⌟ᑣЏ㽕ᰃᡞϔϾϾĀ㓪ⷕ⌟ᑺā㒘ড়䍋ᴹˈ˄Փ⫼՟བὖ⥛䆎ॳ⧚ˈ ব䞣㒳䅵Ёⱘ߸ߚ߿ᵤᡔᴃˈ㗙ҎᎹᱎ㛑乚ඳⱘ⼲㒣㔥ᮍ⊩˅ᵘ៤ϔϾ᭄ˈ⿄ϔϾ߸ ߿ᓣDŽ՟བˈ䖭⾡㒘ড়ᵘ៤њ᳝ৡⱘGRAILᑣ˄Xuㄝˈ1994˅ⱘ⸔DŽϔ㠀߸߿ᓣϔϾ Ā⒥ࡼにষā˄ेᅮ䭓䖲㓁ⱘᄤᑣ߫˅Ё䅵ㅫߎᴹˈᑊϨᇚ㒧ᵰ៤᳆㒓˄10.2˅DŽ ЎҢ㓪ⷕ⌟ᑺ߸߿ᓣЁ㦋ᕫᰒ㨫ֵᙃˈ䳔㽕㦋ᕫ᳝݇䞣⺅ᵘ៤乎ᑣⱘ㾘ᕟDŽԧ㗠 㿔ˈҹϟᷛޚ⬅FickettTung˄1992˅ᓎゟ˖˄˅ᇚGenBankᑧߚ㾷៤䖲㓁108bpⱘにষ⠛ कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ4/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,5/16 段;(2)只有那些完全是编码区或完全不是编码区的片段被保留下来;(3)一半的窗口片 段用来设定如上所述四种测度线性组合成判别式所用的参数;(4)另一半用于检验判别式预 测的准确性。硏究得到了88%的预测准确性。因而编码测度给岀了一个较低分辨率的编码区 边界的图谱。然而,编码测度还可以合理应用于不完整的序列(例如,由鸟枪测序工程获得 的几百bp长的一个序列),并且这是一个重要的优点 许多编码测度程序是适用专门物种的,所以使用者要仔细确定该服务开发和测试用的是各类 物种中的哪一些 图10.2由 GenMark(一个通过电子邮件服务的编码区识别工具)得到的部分输出样例。 GenMark包含七个DA的概率模型,分别由编码区的六种阅读框和非编码区计数而来。该程序 计算出DNA上每个窗口是非编码区、或某种阅读框架的编码区的概率, 探査DNA中的功能性位点 编码测度与细胞识别和表达基因的方法大概基本上不同(虽然见 Knudsen和 Brunak,1997)。 如果我们能识别表达系统与核酸相互作用的位点,例如转录因子结合位点与内含子/外显子的 接头位点,这将对基因识别大有启发(并可能提高精度) 种归纳出这些位点位置(一般,基因识别算法开发者称之为“信号”)的方法是给出所谓 共有序列”,它是由特定的结合位点比对后得到各位置最常出现的碱基构成。共有序列是 很好的助记工具,但一般在用于从假位点中判别真正位点时还不太可靠,这部分是因为它没 包含各位点上其它三种碱基出现的可能性。许多算法采用能给出更佳判别的复杂技术。其中 种根据物理化学原理的技术是位置权重矩阵(Pw)技术。信号的各位置上每种可能出现的 核苷酸都分配一个分数。对一个特定序列,把它看作可能出现的信号,将各位置的相应分数 加和后给出该序列作为潜在位点的得分。一些情况下,这些分数大约与控制蛋白(核糖核蛋 白)的结合能成正比(见 Stormo,1990与 Von Hi ppe,1994的综述) 有一些研究(例如, Barri ck等,1994)表明PMM在估测单个特定结合位点时表现较好。然而 不幸的是,单独用PM来识别普通真核基因表达系统的复杂成分(例如,剪接位点和启动子序 列)时进获得艰难而有限的成果。主要问题可能在于上下文特异的表达机制和复合结合分子 之间的协作。 启动子 直到最近才能确定真核基因组序列大到足以包含许多基因。数据成为基因搜寻程序的新问 题:要从多基因中准确分割一组外显子。启动子是提供这一生物学功能的富含信息的信号序 列。计算机识别启动子(近有 Fi cket和 Hatzi georgi ou,1997的综述)部分以其能推进基因 识别而十分重要。很多复杂程序依赖于实验室提供的转录因子结合特性,和一些对启动子结 构的描述。但这些描述看上去并未抓住转录起始中的一些重要特性,并且也许令人吃惊的 是,主要依赖于简单寡核苷酸频率计数的程序表现也差不多。启动子识别仍是一个重大扒 战,在前面引用的综述中,用包含24个新确认的转录起始点的18个序列测试了当前的程序 这些程序最多找出了一半的启动子,假阳性率约为每千个碱基中一个。 内含子剪接位点 许多不同物种的研究小组汇集了剪接位点的PwM( Senapathy等,1990),这些可能是多物种 分析能得到的最重要资源。可惜PM分析剪接位点时特异性很低,主要由于存在多剪接机制 (一些对近期发现的回顾见 Ni son,19%6),以及调控下的交替剪接( McKeown,1992)。 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
↉˗˄˅া᳝䙷ѯᅠܼᰃ㓪ⷕऎᅠܼϡᰃ㓪ⷕऎⱘ⠛↉㹿ֱ⬭ϟᴹ˗˄˅ϔञⱘにষ⠛ ↉⫼ᴹ䆒ᅮབϞ᠔䗄ಯ⾡⌟ᑺ㒓ᗻ㒘ড়៤߸߿ᓣ᠔⫼ⱘখ᭄˗˄˅ϔञ⫼ѢẔ偠߸߿ᓣ乘 ⌟ⱘޚ⹂ᗻDŽⷨおᕫࠄњ88ˁⱘ乘⌟ޚ⹂ᗻDŽ㗠㓪ⷕ⌟ᑺ㒭ߎњϔϾ䕗Ԣߚ䕼⥛ⱘ㓪ⷕऎ 䖍⬠ⱘ䈅DŽ✊㗠ˈ㓪ⷕ⌟ᑺ䖬ৃҹড়⧚ᑨ⫼Ѣϡᅠᭈⱘᑣ߫˄՟བˈ⬅右ᵾ⌟ᑣᎹ㦋ᕫ ⱘⱒbp䭓ⱘϔϾᑣ߫˅ˈᑊϨ䖭ᰃϔϾ䞡㽕ⱘӬ⚍DŽ 䆌㓪ⷕ⌟ᑺᑣᰃ䗖⫼ϧ䮼⠽⾡ⱘˈ᠔ҹՓ⫼㗙㽕Ҩ㒚⹂ᅮ䆹᳡ࡵᓔথ⌟䆩⫼ⱘᰃ㉏ ⠽⾡ЁⱘાϔѯDŽ ……………… 10.2⬅GenMark˄ϔϾ䗮䖛⬉ᄤ䚂ӊ᳡ࡵⱘ㓪ⷕऎ䆚߿Ꮉ˅ᕫࠄⱘ䚼ߚ䕧ߎḋ՟DŽ GenMarkࣙϗϾDNAⱘὖ⥛ൟˈ߿ߚ⬅㓪ⷕऎⱘ݁⾡䯙䇏Ḛ䴲㓪ⷕऎ䅵᭄㗠ᴹDŽ䆹ᑣ 䅵ㅫߎDNAϞ↣Ͼにষᰃ䴲㓪ⷕऎǃᶤ⾡䯙䇏Ḛᶊⱘ㓪ⷕऎⱘὖ⥛DŽ ᶹDNAЁⱘࡳ㛑ᗻԡ⚍ 㓪ⷕ⌟ᑺϢ㒚㚲䆚߿㸼䖒ⱘᮍ⊩ὖᴀϞϡৠ˄㱑✊㾕KnudsenBrunakˈ1997˅DŽ བᵰ៥Ӏ㛑䆚߿㸼䖒㋏㒳ϢḌ䝌ⳌѦ⫼ⱘԡ⚍ˈ՟བ䕀ᔩᄤ㒧ড়ԡ⚍Ϣݙᄤᰒᄤⱘ ༈ԡ⚍ˈ䖭ᇚᇍ䆚߿᳝ਃথ˄ᑊৃ㛑ᦤ催㊒ᑺ˅DŽ ϔ⾡ᔦ㒇ߎ䖭ѯԡ⚍ԡ㕂˄ϔ㠀ˈ䆚߿ㅫ⊩ᓔথ㗙⿄ПЎĀֵোā˅ⱘᮍ⊩ᰃ㒭ߎ᠔䇧 Ā᳝݅ᑣ߫āˈᅗᰃ⬅⡍ᅮⱘ㒧ড়ԡ⚍↨ᇍৢᕫࠄԡ㕂᳔ᐌߎ⦃ⱘ⺅ᵘ៤DŽ᳝݅ᑣ߫ᰃ ᕜདⱘࡽ䆄ᎹˈԚϔ㠀⫼ѢҢ؛ԡ⚍Ё߸߿ⳳℷԡ⚍ᯊ䖬ϡৃ䴴ˈ䖭䚼ߚᰃЎᅗ≵ ࣙԡ⚍Ϟ݊ᅗϝ⾡⺅ߎ⦃ⱘৃ㛑ᗻDŽ䆌ㅫ⊩䞛⫼㛑㒭ߎՇ߸߿ⱘᴖᡔᴃDŽ݊Ё ϔ⾡ḍ⠽⧚࣪ᄺॳ⧚ⱘᡔᴃᰃԡ㕂ᴗ䞡ⶽ䰉˄PWH˅ᡔᴃDŽֵোⱘԡ㕂Ϟ↣⾡ৃ㛑ߎ⦃ⱘ Ḍ㣋䝌䛑ߚ䜡ϔϾߚ᭄DŽᇍϔϾ⡍ᅮᑣ߫ˈᡞᅗⳟৃ㛑ߎ⦃ⱘֵোˈᇚԡ㕂ⱘⳌᑨߚ᭄ ࡴৢ㒭ߎ䆹ᑣ߫Ў┰ԡ⚍ⱘᕫߚDŽϔѯᚙމϟˈ䖭ѯߚ᭄㑺Ϣࠊ㲟ⱑ˄Ḍ㊪Ḍ㲟 ⱑ˅ⱘ㒧ড়㛑៤ℷ↨˄㾕Stormoˈ1990ϢVon Hippelˈ1994ⱘ㓐䗄˅DŽ ᳝ϔѯⷨお˄՟བˈBarrickㄝˈ1994˅㸼ᯢPWMԄ⌟ऩϾ⡍ᅮ㒧ড়ԡ⚍ᯊ㸼⦄䕗དDŽ✊㗠 ϡᑌⱘᰃˈऩ⣀⫼PWMᴹ䆚߿᱂䗮ⳳḌ㸼䖒㋏㒳ⱘᴖ៤ߚ˄՟བˈ࠾ԡ⚍ਃࡼᄤᑣ ߫˅ᯊ䖯㦋ᕫ㡄䲒㗠᳝䰤ⱘ៤ᵰDŽЏ㽕䯂乬ৃ㛑ѢϞϟ᭛⡍ᓖⱘ㸼䖒ᴎࠊড়㒧ড়ߚᄤ П䯈ⱘणDŽ ਃࡼᄤ Ⳉࠄ᳔䖥ᠡ㛑⹂ᅮⳳḌ㒘ᑣ߫ࠄ䎇ҹࣙ䆌DŽ᭄៤Ў᧰ᇏᑣⱘᮄ䯂 乬˖㽕ҢЁޚ⹂ࡆߚϔ㒘ᰒᄤDŽਃࡼᄤᰃᦤկ䖭ϔ⫳⠽ᄺࡳ㛑ⱘᆠֵᙃⱘֵোᑣ ߫DŽ䅵ㅫᴎ䆚߿ਃࡼᄤ˄䖥᳝FickettHatzigeorgiouˈ1997ⱘ㓐䗄˅䚼ߚҹ݊㛑䖯 䆚߿㗠कߚ䞡㽕DŽᕜᴖᑣձ䌪Ѣᅲ偠ᅸᦤկⱘ䕀ᔩᄤ㒧ড়⡍ᗻˈϔѯᇍਃࡼᄤ㒧 ᵘⱘᦣ䗄DŽԚ䖭ѯᦣ䗄ⳟϞএᑊᡧԣ䕀ᔩ䍋ྟЁⱘϔѯ䞡㽕⡍ᗻˈᑊϨг䆌ҸҎৗⱘ ᰃˈЏ㽕ձ䌪ѢㅔऩᆵḌ㣋䝌乥⥛䅵᭄ⱘᑣ㸼⦄гᏂϡDŽਃࡼᄤ䆚߿ҡᰃϔϾ䞡ᣥ ˈࠡ䴶ᓩ⫼ⱘ㓐䗄Ёˈ⫼ࣙ24Ͼᮄ⹂䅸ⱘ䕀ᔩ䍋ྟ⚍ⱘ18Ͼᑣ߫⌟䆩њᔧࠡⱘᑣDŽ 䖭ѯᑣ᳔ᡒߎњϔञⱘਃࡼᄤˈ؛䰇ᗻ⥛㑺Ў↣गϾ⺅ЁϔϾDŽ ⚍ԡ࠾ᄤݙ 䆌ϡৠ⠽⾡ⱘⷨおᇣ㒘∛䲚њ࠾ԡ⚍ⱘPWM˄Senapathyㄝˈ1990˅ˈ䖭ѯৃ㛑ᰃ⠽⾡ ߚᵤ㛑ᕫࠄⱘ᳔䞡㽕䌘⑤DŽৃᚰPWMߚᵤ࠾ԡ⚍ᯊ⡍ᓖᗻᕜԢˈЏ㽕⬅Ѣᄬ࠾ᴎࠊ ˄ϔѯᇍ䖥ᳳথ⦄ⱘಲ乒㾕Nilsonˈ1996˅ˈҹঞ䇗ϟⱘѸ᳓࠾˄NcKeownˈ1992˅DŽ कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ5/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,6/16 (事实上,由于大多交替剪接在数据库中未被提及,完整评估算法精度很困难。)作为复合 基因搜寻程序一部分的 GENSCAN, Burgen和 Karlin(1997)将剪接位点归为不同的类,并使用 判决树(例如, Brei man等,1984)将PM应用于树的每一叶上。这种方法显著提高了精度 许多复合的基因识别服务程序(见下)提供分离的剪接点预测(例如, FGENEH/D/NA程序中 的H/D/ N/ASPL成分, Sol ovyev和 Sal amoy,1997)。此外, Brunak等(1991)提供独立的剪接 点预测程序№ euGene(见章末列表),将剪接点本身信息与对两侧编码的评估结合起来。 翻译起始位点 对于真核生物,如果转录起始点已知,并且没有内含子打断5′非翻译区的话, Kozak规则 ( Kozak,19%6)可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开 放阅读框中找正确的起始密码子仍很困难。这种情况里,由于多顺反操纵子的存在,启动子 定位虽有用,但不象在真核生物中起关键作用。对原核生物,关键是核糖体结合点的可靠定 位。这一目的可以由多个程序提供解决,见 Gel Fand(1995)综述 终止信号 多腺苷化和翻译终止信号看上去没有基因起始信号那么重要,但这些信号也能帮助划分基因 的范围。例子可见 Kondrakhin等(1994), Wahl e和 Keller(1996), Dal phi n等(1997), 以及 Sol ovyevi和 Sal amoy(1997)等对此的陈述 复合的基因语法分析 第一代计算机辅助基因识别程序主要处理识别基因的分离特征一一例如,单独识别剪接位 点,或者只识别不涉及信号的编码区的规则性。但比方说如果一个剪接位点将一段编码区 断,那它就能帮助检测时在一边寻找编码区,而在另一边找非编码区。这说明综合考虑待定 特征的整体一致性能显著提高预测的精度。例如,60%的50bp以下长度的外显子在以前的 GRAL电子邮件服务程序中会被遗漏,但在加上一个简单的剪接和框架逻辑分析后就能够被检 测出来( Einstein等,1992)。 复合的基因搜寻程序先搜索信号序列并作编码区分析(有时也作同源序列搜索)。然后,对 相应打分函数进行优化,以确定外显子并给出与手头上所有数据看上去最一致的一些可能的 基因结构。不断提高精度和使用的便利是推动这些程序不断发展的重要动力。 现在能得到许多这样的复合算法(表10.1),至少在一些情况下它们能给出关于基因结构的 些好意见。图10.3显示了用 GENSCAN(遮蔽重复序列之后)分析人类磷酸丙酮酸水合酶基因 (HSEN03;添加号X56832)的结果。 在 Fi ckett和Gugo(19)文献中能找到用其它一些程序分析这个基因的结果。为了对比, 这里是 Gen Bank对这个基因的注解 CDs join(1579.1663,2540.2635,2796..2854,3016..3085,3455.3588,4820.5042 5153..5350,5688 6318..6426,6576..6634,6723.6792) 表10.2将结果列为更易于阅读的方式。 这些程序(在这一新技术领域的第一代中)的主要局限性在于:(1)复合的算法目前只适用 少数物种;(2)所有的程序(除了 GENSCAN)在输入序列中包含多基因或者部分基因时,所 预测的外显子仍可靠,但所预测的基因结构就不一定了;(3)由于尚不完全清楚的原因,预 测精度可能比原先想象的低得多,尤其是对新发现的基因。( Burst和 Gui go,1996,用百来 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
˄џᅲϞˈ⬅ѢѸ᳓࠾᭄ᑧЁ㹿ᦤঞˈᅠᭈ䆘Ԅㅫ⊩㊒ᑺᕜೄ䲒DŽ˅Ўড় ᧰ᇏᑣϔ䚼ߚⱘGENSCANˈBurgenKarlin˄1997˅ᇚ࠾ԡ⚍ᔦЎϡৠⱘ㉏ˈᑊՓ⫼ ߸އ˄ᷥ՟བˈBreimanㄝˈ1984˅ᇚPWMᑨ⫼Ѣᷥⱘ↣ϔϞDŽ䖭⾡ᮍ⊩ᰒ㨫ᦤ催њ㊒ᑺDŽ 䆌ড়ⱘ䆚߿᳡ࡵᑣ˄㾕ϟ˅ᦤկߚ行ⱘ࠾⚍乘⌟˄՟བˈFGENEH/D/N/AᑣЁ ⱘH/D/N/ASPL៤ߚˈSolovyevSalamovˈ1997˅DŽℸˈBrunakㄝ˄1991˅ᦤկ⣀ゟⱘ࠾ ⚍乘⌟ᑣNetGene˄㾕ゴ߫㸼˅ˈᇚ࠾⚍ᴀ䑿ֵᙃϢᇍϸջ㓪ⷕⱘ䆘Ԅ㒧ড়䍋ᴹDŽ 㗏䆥䍋ྟԡ⚍ ᇍѢⳳḌ⫳⠽ˈབᵰ䕀ᔩ䍋ྟ⚍ᏆⶹˈᑊϨ≵᳝ݙᄤᠧᮁ5'䴲㗏䆥ऎⱘ䆱ˈKozak㾘߭ ˄Kozakˈ1996˅ৃҹ᭄ᚙމϟᅮԡ䍋ྟᆚⷕᄤDŽॳḌ⫳⠽ϔ㠀≵᳝࠾䖛ˈԚᓔ ᬒ䯙䇏ḚЁᡒℷ⹂ⱘ䍋ྟᆚⷕᄤҡᕜೄ䲒DŽ䖭⾡ᚙމ䞠ˈ⬅Ѣ乎ড᪡㒉ᄤⱘᄬˈਃࡼᄤ ᅮԡ㱑᳝⫼ˈԚϡ䈵ⳳḌ⫳⠽Ё䍋݇䬂⫼DŽᇍॳḌ⫳⠽ˈ݇䬂ᰃḌ㊪ԧ㒧ড়⚍ⱘৃ䴴ᅮ ԡDŽ䖭ϔⳂⱘৃҹ⬅Ͼᑣᦤկ㾷އˈ㾕GelFand˄1995˅㓐䗄DŽ 㒜ℶֵো 㝎㣋࣪㗏䆥㒜ℶֵোⳟϞএ≵᳝䍋ྟֵো䙷М䞡㽕ˈԚ䖭ѯֵোг㛑ᐂߚߦࡽ ⱘ㣗ೈDŽ՟ᄤৃ㾕Kondrakhinㄝ˄1994˅ˈWahleKeller˄1996˅ˈDalphinㄝ˄1997˅ˈ ҹঞSolovyevSalamov˄1997˅ㄝᇍℸⱘ䰜䗄DŽ ড়ⱘ䇁⊩ߚᵤ ϔҷ䅵ㅫᴎ䕙ࡽ䆚߿ᑣЏ㽕໘⧚䆚߿ⱘߚ行⡍ᕕ̣̣՟བˈऩ⣀䆚࠾߿ԡ ⚍ˈ㗙া䆚߿ϡ⍝ঞֵোⱘ㓪ⷕऎⱘ㾘߭ᗻDŽԚ↨ᮍ䇈བᵰϔϾ࠾ԡ⚍ᇚϔ↉㓪ⷕऎ䱨 ᮁˈ䙷ᅗህ㛑ᐂࡽẔ⌟ᯊϔ䖍ᇏᡒ㓪ⷕऎˈ㗠ϔ䖍ᡒ䴲㓪ⷕऎDŽ䖭䇈ᯢ㓐ড়㗗㰥ᕙᅮ ⡍ᕕⱘᭈԧϔ㟈ᗻ㛑ᰒ㨫ᦤ催乘⌟ⱘ㊒ᑺDŽ՟བˈ60ˁⱘ50bpҹϟ䭓ᑺⱘᰒᄤҹࠡⱘ GRAIL⬉ᄤ䚂ӊ᳡ࡵᑣЁӮ㹿䘫ⓣˈԚࡴϞϔϾㅔऩⱘ࠾Ḛᶊ䘏䕥ߚᵤৢህ㛑㹿Ẕ ⌟ߎᴹ˄Einsteinㄝˈ1992˅DŽ ড়ⱘ᧰ᇏᑣܜ᧰㋶ֵোᑣ߫ᑊ㓪ⷕऎߚᵤ˄᳝ᯊгৠ⑤ᑣ߫᧰㋶˅DŽ✊ৢˈᇍ Ⳍᑨᠧߑߚ᭄䖯㸠Ӭ࣪ˈҹ⹂ᅮᰒᄤᑊ㒭ߎϢ༈Ϟ᠔᭄᳝ⳟϞএ᳔ϔ㟈ⱘϔѯৃ㛑ⱘ 㒧ᵘDŽϡᮁᦤ催㊒ᑺՓ⫼ⱘ߽֓ᰃࡼ䖭ѯᑣϡᮁথሩⱘ䞡㽕ࡼDŽ ⦄㛑ᕫࠄ䆌䖭ḋⱘড়ㅫ⊩˄㸼10.1˅ˈ㟇ᇥϔѯᚙމϟᅗӀ㛑㒭ߎ݇Ѣ㒧ᵘⱘ ϔѯདᛣ㾕DŽ10.3ᰒ⼎њ⫼GENSCAN˄䙂㬑䞡ᑣ߫Пৢ˅ߚᵤҎ㉏⻋䝌ϭ䝂䝌∈ড়䝊 ˄HSENO3˗⏏ࡴোX56832˅ⱘ㒧ᵰDŽ FickettGuigó˄1996˅᭛⤂Ё㛑ᡒࠄ݊⫼ᅗϔѯᑣߚᵤ䖭Ͼⱘ㒧ᵰDŽЎњᇍ↨ˈ 䖭䞠ᰃGenBankᇍ䖭Ͼⱘ⊼㾷˖ CDS join (1579..1663, 2540..2635, 2796..2854, 3016..3085, 3455..3588, 4820..5042, 5153..5350, 5688..5889, 6318..6426, 6576..6634, 6723..6792) 㸼10.2ᇚ㒧ᵰ߫ЎᯧѢ䯙䇏ⱘᮍᓣDŽ 䖭ѯᑣ˄䖭ϔᮄᡔᴃ乚ඳⱘϔҷЁ˅ⱘЏ㽕ሔ䰤ᗻѢ˖˄˅ড়ⱘㅫ⊩Ⳃࠡা䗖⫼ ᇥ᭄⠽⾡˗˄˅᠔᳝ⱘᑣ˄䰸њGENSCAN˅䕧ܹᑣ߫Ёࣙ㗙䚼ߚˈᯊ᠔ 乘⌟ⱘᰒᄤҡৃ䴴ˈԚ᠔乘⌟ⱘ㒧ᵘህϡϔᅮњ˗˄˅⬅Ѣᇮϡᅠܼ⏙Ἦⱘॳˈ乘 ⌟㊒ᑺৃ㛑↨ॳܜᛇ䈵ⱘԢᕫˈᇸ݊ᰃᇍᮄথ⦄ⱘDŽ˄BursetGuigóˈ1996ˈ⫼ⱒᴹ कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ6/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,7/16 简单实例来标定了能得到的程序,结果无一能正确预测出多于一半的外显子);(4)大多 复合算法都明显对测序错误十分敏感( Burst和 Gui go,1996);以及(5)象交替剪接、重 叠基因和启动子结构这样的基因语法结构仍超出当前程序的处理能力。 既然这些程序中没有一个十全十美,它们都覆盖了一些不同算法,都在迅速进步,因此强烈 建议分析每个序列时采用3到4个不同程序,并仔细对比其结果。如果某个工具会经常用到, 就值得用大量已知结果的序列对其进行测试,以便对算法适用性有所了解。 表10.1因特网上的编码蛋白基因识别工具 Servi ce Organi sm(s) EcoParse Krogh et al. (1994) Escherichi a coli e-maI I: ecopa FGENEH/D/N/Y/A Sol ovyev and Mammal i an, Drosophila e-mail:ana/」 al amoy (1997) CDSB (1997) nematode, yeast, pl ant, and bacteri a httpdefra GeneI d Gui go et al.(1992)Vertebrate e-mai l: genei GeneMark Borodovsky and Many i ndi vi dual speci es e-mai I genen Mcl ni nch(1993) http://intrc GeneParser Snyder and Stormo Human http://beag (1995) Genie Kul p et al.(1996)Human http://www-f GenLang Dong and Searls Di cotyl edons, Drosophila,vertebrates e-mai l: gen/a (1994) http://cbi/ GENSCAN Burge and Karl in Vertebrate, Caenorhabdi tis, mai ze, Arabidopsis e-mai l: genso (1997) http://gnon EnvI ew Mi I anesi et al. Human, mouse, Di ptera http://www.i (1993) GRAI L/GAP/ Xu et al.(1994) Human e-mai l: grail XGRAIL http://avalc MZEF Zhang(1997) Human, mouse, Arabi dopsis, fi ssi on yeast http://www.c Procrustes Gel fand et al http://www-f (1996) Predi cted ger nes/exons Gn. Ex Type S. Begi n.. End. Len Fr Ph I/Ac Do/T CodRg P....Tscr file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
Ͼㅔऩᅲ՟ᴹᷛᅮњ㛑ᕫࠄⱘᑣˈ㒧ᵰ᮴ϔ㛑ℷ⹂乘⌟ߎѢϔञⱘᰒᄤ˅˗˄˅ ড়ㅫ⊩䛑ᯢᰒᇍ⌟ᑣ䫭䇃कߚᬣᛳ˄BursetGuigóˈ1996˅˗ҹঞ˄˅䈵Ѹ᳓࠾ǃ䞡 ਃࡼᄤ㒧ᵘ䖭ḋⱘ䇁⊩㒧ᵘҡ䍙ߎᔧࠡᑣⱘ໘⧚㛑DŽ ᮶✊䖭ѯᑣЁ≵᳝ϔϾकܼक㕢ˈᅗӀ䛑㽚Ⲫњϔѯϡৠㅫ⊩ˈ䛑䖙䗳䖯ℹˈℸᔎ⚜ ᓎ䆂ߚᵤ↣Ͼᑣ߫ᯊ䞛⫼ࠄϾϡৠᑣˈᑊҨ㒚ᇍ↨݊㒧ᵰDŽབᵰᶤϾᎹӮ㒣ᐌ⫼ࠄˈ ህؐᕫ⫼䞣Ꮖⶹ㒧ᵰⱘᑣ߫ᇍ݊䖯㸠⌟䆩ˈҹ֓ᇍㅫ⊩䗖⫼ᗻ᳝᠔њ㾷DŽ 㸼10.1⡍㔥Ϟⱘ㓪ⷕ㲟ⱑ䆚߿Ꮉ Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr.. Service Ref. Organism(s) EcoParse Krogh et al.(1994) Escherichia coli e-mail:ecoparse@cse.ucsc.edu FGENEH/D/N/Y/A Solovyev and Salamov(1997) Mammalian,Drosophila. e-mail:analysis@theory.bchs.uh.edu CDSB (1997) nematode,yeast,plant,and bacteria http://defrag.bcm.tmc.edu:9503/ltp.html GeneID Guigo et al.(1992) Vertebrate e-mail:geneid@darwin.bu.edu GeneMark Borodovsky and Mclninch(1993) Many individual species e-mail:genemark@ford.gatech.edu http://intron.biology.gatech.edu/~genmark GeneParser Snyder and Stormo (1995) Human http://beagle.colorado.edu/~eesnyder/GeneParser.html Genie Kulp et al.(1996) Human http://www-hgc.lbl.gov/inf/genie.html GenLang Dong and Searls (1994) Dicotyledons,Drosophila,vertebrates e-mail:genlang@cbil.humgen.upenn.edu http://cbil.humgen.upenn.edu/~sdong/genlang_home.html GENSCAN Burge and Karlin (1997) Vertebrate,Caenorhabditis,maize,Arabidopsis e-mail:genscan@gnomic.stanford.edu http://gnomic.stanford.edu/~chris/GENSCANW.html GenView Milanesi et al. (1993) Human,mouse,Diptera http://www.itba.mi.cnr.it/webgene GRAIL/GAP/ Xu et al.(1994) Human e-mail:grail@ornl.gov XGRAIL http://avalon.epm.ornl.gov/gallery.html MZEF Zhang(1997) Human,mouse,Arabidopsis,fission yeast http://www.cshl.org/geneginder Procrustes Gelfand et al. (1996) Any http://www-hto.usc.edu/software/procrustes कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ7/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,8/16 1.01Init+157916638501114541310.74113.24 1.02ntr+25402635960011001340.6986.38 1.03|ntr+3455358813402101811360.99915.07 1.04|ntr+482050422231185564320.99837.93 1.05ntr+515353501980073813710.99934.74 1.06Intr+568858892021153693780.97931.27 1.07ntr+63186426109016280200.843-0.61 1.08ntr+65766634592210577510.8883.87 1.09Temm+6723679270016354980.7851.61 1.10PyA+6853685861.05 Predi cted pepti de sequence(s) >gi GENSCAN_predi cted_pepti de_1 391_aa MAMOK I FAREI LDSRGNPTVEVDLHTAKGRFRAAVPSGASTGI YEALELRDGDKGRYLGK AKFGANAI LGVSLAVCKAGAAEKGVPLYRHI ADLAGNPDLI LPVPAFNVI NGGSHAGNKL AMOEFMI LPVGASSFKEAMRI GAEVYHHLKGVI KAKYGKDATNVGDEGGFAPNI LENNEA LELLKTAI QAAGYPDKWVI GMDVAASEFYRNGKYDLDFKSPDDPARHI TGEKLGELYKSF I KNYPWVSI EDPFDODDWATWTSFLSGVNI QI VGDDLTVTNPKRI AOAVEKKACNCLLLK VNOI GSVTESI OACKLAOSNGWGVMVSHRSGETEDTFI ADLVVGLCTGQI KTGAPCRSER LAKYNQLMRI EEALGDKAI FAGRKFRNPKAK Col umn Descri pti on Gn. Ex gene number, exon number (for reference) Type Ini t=Ini ti al exon ntr =Internal exon Term Termi nal exonSngl=Si ngl e-exon gene Prom= Promoter Pl yA- pol y-a si gnal file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ 1.01 Init + 1579 1663 85 0 1 114 54 131 0.741 13.24 1.02 Intr + 2540 2635 96 0 0 1 100 134 0.698 6.38 1.03 Intr + 3455 3588 134 0 2 101 81 136 0.999 15.07 1.04 Intr + 4820 5042 223 1 1 85 56 432 0.998 37.93 1.05 Intr + 5153 5350 198 0 0 73 81 371 0.999 34.74 1.06 Intr + 5688 5889 202 1 1 53 69 378 0.979 31.27 1.07 Intr + 6318 6426 109 0 1 62 80 20 0.843 -0.61 1.08 Intr + 6576 6634 59 2 2 105 77 51 0.888 3.87 1.09 Term + 6723 6792 70 0 1 63 54 98 0.785 1.61 1.10 PlyA + 6853 6858 6 1.05 Predicted peptide sequence(s): >gi|GENSCAN_predicted_peptide_1|391_aa MAMQKIFAREILDSRGNPTVEVDLHTAKGRFRAAVPSGASTGIYEALELRDGDKGRYLGK AKFGANAILGVSLAVCKAGAAEKGVPLYRHIADLAGNPDLILPVPAFNVINGGSHAGNKL AMQEFMILPVGASSFKEAMRIGAEVYHHLKGVIKAKYGKDATNVGDEGGFAPNILENNEA LELLKTAIQAAGYPDKVVIGMDVAASEFYRNGKYDLDFKSPDDPARHITGEKLGELYKSF IKNYPVVSIEDPFDQDDWATWTSFLSGVNIQIVGDDLTVTNPKRIAQAVEKKACNCLLLK VNQIGSVTESIQACKLAQSNGWGVMVSHRSGETEDTFIADLVVGLCTGQIKTGAPCRSER LAKYNQLMRIEEALGDKAIFAGRKFRNPKAK Column Description ------ ------------------------------------------------------------- Gn.Ex gene number, exon number (for reference) Type Init = Initial exonIntr = Internal exon Term = Terminal exonSngl = Single-exon gene Prom = PromoterPlyA - poly-A signal कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ8/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,9/16 DNA strand (*=input strand;-=opposi te strand Begi n begi nni ng of exon or si gnal (numbered on input strand) End end point of exon or si gnal (numbered on input strand) Len I ength of exon or si gnal(bp) Fr readi ng frame (a codon ending at x is in frame f x modul o 3) Ph net phase of exon (exon I ength modulo 3) 1/Ac ini tiati on si gnal or acceptor spl ice si te score(x 10) Do/T donor spl ice si te or termi nati on si gnal score (X 10) CodRq coding regi on score (x 10) P probabi l i ty of exon (sum over al I parses contai ni ng exon) Tscr exon score(depends on I ength, B/AC, Do/T and CodRg scores) 图10.3 GENSCAN分析样例的输出结果,详见正文。 表10.2对比预测结果和基因注解 Predi cted exons Annotated exons 15791663 15791663 25402635 25402635 27962854 30163085 34553588 34553588 48205042 48205042 51535350 51535350 56885889 56885889 63186426 63186426 65766634 65766634 67236792 67236792 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
S DNA strand (* = input strand; - = opposite strand) Begin beginning of exon or signal (numbered on input strand) End end point of exon or signal (numbered on input strand) Len length of exon or signal (bp) Fr reading frame (a codon ending at x is in frame f x modulo 3) Ph net phase of exon (exon length modulo 3) I/Ac initiation signal or acceptor splice site score (x 10) Do/T donor splice site or termination signal score (x 10) CodRq coding region score (x 10) P probability of exon (sum over all parses containing exon) Tscr exon score (depends on length, B/Ac, Do/T and CodRg scores) 10.3 GENSCANߚᵤḋ՟ⱘ䕧ߎ㒧ᵰˈ䆺㾕ℷ᭛DŽ 㸼10.2ᇍ↨乘⌟㒧ᵰ⊼㾷 Predicted Exons Annotated Exons 1579 1663 1579 1663 2540 2635 2540 2635 2796 2854 3016 3085 3455 3588 3455 3588 4820 5042 4820 5042 5153 5350 5153 5350 5688 5889 5688 5889 6318 6426 6318 6426 6576 6634 6576 6634 6723 6792 6723 6792 कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ9/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十章利用核酸序列的预测方法 页码,10/16 Q 搜寻tRNA基因 VA基因的识别要易于识别编码蛋白的基因,部分是由于po启动子结构简单以及tRNA 级结构的保守性。在 tRNAscan-SE(Loe和Edy,1997)中,结合了多个早期程序,基本上解 决了tRNA基因识别的问题。Lowe和Eddy发现,将依赖于二级结构检查和保守启动子元件的PWM 检测的 tRNAscan( Fi chant和 Burks,1991)的预测结果,与依赖于转录控制元件分析的 Pavesi等(1994)的算法加以合并后,超过99%的真tRNA基因都能被识别出来。这种混和的 预测结果列表中还包含了超过50%的假阳性。一种很好的选择性算法, COVELS(Eddy和 luri n,1994)发现能除去列表中几乎全部的错误。整个结果就是一种据报道称能识别9% 的真tRNA基因,并在每个基因组中少于一个假阳性的方法。 tRNAscan-SE的服务和软件均可得 到(见章末列表)。图10.4给出了一个例子的输出结果。 Sequence tRNA Bounds tRNA Anti Intron Bounds Cove Name tRNA Begi n End Type Codon Begi n End Score Your-seg 1 2348 2420 Val TAC 0 76.52 Your-seq 2 2440 2512 Thr TGT.70 Your-seq 3 2522 2594 Lys TIT 0 84. 24 Your-seq426272698GyGC0075.46 Your -seg 5 2709 2794 Leu taa00 62.99 Your-seq 6 2803 2876 Arg ACG0 0 71.02 Your-seq 7 2900 2973 Pro TGG0 0 79. 67 Your-seq829973069A|aTGC0071.25 Your-seq 9 4841 4914 Ile gat 0 84. 04 图10.4 tRNAscan-SE对样例的输出结果。样例序列是SA5SRR,添加号L36472,源于 Staphy! ococcus aureus。其tRNA基因预测结果与DBJ/EMBL/ Gen Bank中的注解完全一致。 未来的展望 在不久前,普通用户很难得到最好的技术工具。随着大量因特网服务能方便得到,以及通过 一个单纯界面就能不断提供服务的Ww网页,这种情况得以好转。虽然如此,一个用户想使用 整套合适的算法,就得要愿意将数据提交给一大堆程序;此外,还要把数据通过因特网送 出去(若涉及隐私则是个难题),或者只有请一个程序员来获取和安装相应程序。在大规模 测序中,就必须发明出一种方法,自动将序列提交给各个程序,并将所有结果整理清楚后交 给最终用户。如果有一种工具组合的体系框架,允许群体中任一个成员独立进行开发,又能 让只受过相对简单编程训练的工作者能将这些程序组合成一组适用于专门实验室需要的解决 方案,这将成为一个很有意义的进步。这种体系框架应基于电子邮件或 Worl d wi de Web 一个新的动人的发展是试图把当前对转录调节机制的知识融于软件,以通过计算分析为基因 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18
᧰ᇏtRNA ᇍtRNAⱘ䆚߿㽕ᯧѢ䆚߿㓪ⷕ㲟ⱑⱘ䚼ߚᰃ⬅Ѣpolċਃࡼᄤ㒧ᵘㅔऩҹঞtRNAѠ 㑻㒧ᵘⱘֱᅜᗻDŽtRNAscan-SE˄LoweEddyˈ1997˅Ёˈ㒧ড়њϾᮽᳳᑣˈᴀϞ㾷 އњtRNA䆚߿ⱘ䯂乬DŽLoweEddyথ⦄ˈᇚձ䌪ѢѠ㑻㒧ᵘẔᶹֱᅜਃࡼᄤܗӊⱘPWM Ẕ⌟ⱘtRNAscan˄FichantBurksˈ1991˅ⱘ乘⌟㒧ᵰˈϢձ䌪Ѣ䕀ᔩܗࠊӊߚᵤⱘ Pavesiㄝ˄1994˅ⱘㅫ⊩ࡴҹড়ᑊৢˈ䍙䖛99ˁⱘⳳtRNA䛑㛑㹿䆚ߎ߿ᴹDŽ䖭⾡⏋ⱘ 乘⌟㒧ᵰ߫㸼Ё䖬ࣙњ䍙䖛50ˁⱘ؛䰇ᗻDŽϔ⾡ᕜདⱘ䗝ᢽᗻㅫ⊩ˈCOVELS˄Eddy Durbinˈ1994˅থ⦄㛑䰸এ߫㸼ЁТܼ䚼ⱘ䫭䇃DŽᭈϾ㒧ᵰህᰃϔ⾡䘧⿄㛑䆚߿99ˁ ⱘⳳtRNAˈᑊ↣Ͼ㒘ЁᇥѢϔϾ؛䰇ᗻⱘᮍ⊩DŽtRNAscan-SEⱘ᳡ࡵ䕃ӊഛৃᕫ ࠄ˄㾕ゴ߫㸼˅DŽ10.4㒭ߎњϔϾ՟ᄤⱘ䕧ߎ㒧ᵰDŽ Sequence tRNA Bounds tRNA Anti Intron Bounds Cove Name tRNA # Begin End Type Codon Begin End Score -------- ------ ----- --- ---- ----- ----- ----- ----- Your-seq 1 2348 2420 Val TAC 0 0 76.52 Your-seq 2 2440 2512 Thr TGT 0 0 77.70 Your-seq 3 2522 2594 Lys TTT 0 0 84.24 Your-seq 4 2627 2698 Gly GCC 0 0 75.46 Your-seq 5 2709 2794 Leu TAA 0 0 62.99 Your-seq 6 2803 2876 Arg ACG 0 0 71.02 Your-seq 7 2900 2973 Pro TGG 0 0 79.67 Your-seq 8 2997 3069 Ala TGC 0 0 71.25 Your-seq 9 4841 4914 Ile GAT 0 0 84.04 10.4 tRNAscan-SEᇍḋ՟ⱘ䕧ߎ㒧ᵰDŽḋ՟ᑣ߫ᰃSA5SRRˈ⏏ࡴোL36472ˈ⑤Ѣ Staphylococcus aureusDŽ݊tRNA乘⌟㒧ᵰϢDDBJ/EMBL/GenBankЁⱘ⊼㾷ᅠܼϔ㟈DŽ ᴹⱘሩᳯ ϡЙࠡˈ᱂䗮⫼᠋ᕜ䲒ᕫࠄ᳔དⱘᡔᴃᎹDŽ䱣ⴔ䞣⡍㔥᳡ࡵ㛑ᮍ֓ᕫࠄˈҹঞ䗮䖛 ϔϾऩ㒃⬠䴶ህ㛑ϡᮁᦤկ᳡ࡵⱘWWW㔥义ˈ䖭⾡ᚙމᕫҹད䕀DŽ㱑✊བℸˈϔϾ⫼᠋ᛇՓ⫼ ϔᭈ༫ড়䗖ⱘㅫ⊩ˈህᕫ㽕ᜓᛣᇚ᭄ᦤѸ㒭ϔේᑣ˗ℸˈ䖬㽕ᡞ᭄䗮䖛⡍㔥䗕 ߎএ˄㢹⍝ঞ䱤⾕߭ᰃϾ䲒乬˅ˈ㗙া᳝䇋ϔϾᑣਬᴹ㦋পᅝ㺙ⳌᑨᑣDŽ㾘 ⌟ᑣЁˈህᖙ乏থᯢߎϔ⾡ᮍ⊩ˈ㞾ࡼᇚᑣ߫ᦤѸ㒭Ͼᑣˈᑊᇚ᠔᳝㒧ᵰᭈ⧚⏙ἮৢѸ 㒭᳔㒜⫼᠋DŽབᵰ᳝ϔ⾡Ꮉ㒘ড়ⱘԧ㋏Ḛᶊˈܕ䆌㕸ԧЁӏϔϾ៤ਬ⣀ゟ䖯㸠ᓔথˈজ㛑 䅽াফ䖛Ⳍᇍㅔऩ㓪䆁㒗ⱘᎹ㗙㛑ᇚ䖭ѯᑣ㒘ড়៤ϔ㒘䗖⫼Ѣϧ䮼ᅲ偠ᅸ䳔㽕ⱘ㾷އ ᮍḜˈ䖭ᇚ៤ЎϔϾᕜ᳝ᛣНⱘ䖯ℹDŽ䖭⾡ԧ㋏ḚᶊᑨѢ⬉ᄤ䚂ӊWorld Wide WebDŽ ϔϾᮄⱘࡼҎⱘথሩᰃ䆩ᡞᔧࠡᇍ䕀ᔩ䇗㡖ᴎࠊⱘⶹ䆚㵡Ѣ䕃ӊˈҹ䗮䖛䅵ㅫߚᵤЎ कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ10/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com