《生物信息学》课程教学资源（中译本）第十章利用核酸序列的预测方法.pdf_大学文库

第十章利用核酸序列的预测方法页码,1/16 10 利用核酸序列的预测方法 James W. Fickett Smi thk/ine beecham pharmaceuti cals King of Pruss a. Pennsy/ vania 这一章讨论的是解释DNA序列的方法,这些方法主要依赖于功能模式的检测,而不是与其它单个序列的比较。这些方法中的绝大部分意在先寻找并遮蔽重复的和低复杂性的序列,再寻找基因以及与其相关的调控区域。在针对单个序列的集中调查分析,以及为可能的基因、整个基因组或相应较大区域建立初步清单的快速扫描过程中,这些方法都发挥了主要作用。由于算法开发迅速,没有一种工具能完成全部有关的序列分析功能。因此,有必要将序列提呈给多个不同的软件包加以分析,以利用最佳的计算机技术。为使这一过程效率更高,本章为前常用的工具提供了简明的使用指导。一些有用的资料还能从 Wenti an Li编辑的在线书目 (见本章末“书目..”中所列资源中的URL地址)和参考文献中的相关综述中找到: Gel fand (1995), Cl averie(1996), Fickett和 Gui go(1996), Snyder和 Stormo(1996),以及 Gui go (1997) 这一章是这样安排的:首先,是对基本概念框架的描述,以将各不同工具安排在合适的位置上;然后,是对主要的计算工具的评述,对每种工具,既讨论了其内在逻辑思想,也给出程序应用的范例。当前的诸多工具虽很实用,但绝非完全可靠。例如,当前的发展中存在的一个缺陷是许多序列分析软件开发者对功能域原型的描述来自DDBJ/EMBL/( Gen Bank等国际序列数据库中对相应功能域的描述,然而这些数据库中的描述本身的部分却可以来源于序列的分析,这样就导致了循环。在应用中,每种分析方法各自的优势和不足都该特别留意。一些最常用的和可以从互联网上获得的计算工具列于章末。框架一个全面的基因搜寻方案,无论是由单个复合程序实现还是通过使用多个专门程序来实现, 以下的基本信息都是适用的。首先,搜寻基因的证据由多处收集而来: 一张标出重复序列位置的图谱表明了该处调控区域和编码蛋白质的区域不太可能岀现。与其它基因或基因产物有序列相似性是外显子的强有力证据。一段序列上存在着统计的规则性,表示为显著的“密码子偏好”是蛋白编码区最明显的标志之与模板模式相符可能指出DNA上功能性位点的位置。这类分析可以基于很简单的模式 (例如,众所周知的“ Tata box”和剪接点的保守序列)或基于相当复杂的推理(例如,在后面将提到的启动子搜寻算法中)。然后,全部收集到的信息汇总整理成总体上尽可能连贯的谱图。用于汇总整理阶段的准则属于基本常识:例如,由“密码子偏好”分析出的外显子边界可能为了有一个更好的剪接位点 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18

䖭ϔゴ䅼䆎ⱘᰃ㾷䞞DNAᑣ߫ⱘᮍ⊩ˈ䖭ѯᮍ⊩Џ㽕ձ䌪Ѣࡳ㛑῵ᓣⱘẔ⌟ˈ㗠ϡᰃϢ݊ᅗऩ Ͼᑣ߫ⱘ↨䕗Ǆ䖭ѯᮍ⊩Ёⱘ㒱໻䚼ߚᛣ೼ܜᇏᡒᑊ䙂㬑䞡໡ⱘ੠Ԣ໡ᴖᗻⱘᑣ߫ˈݡᇏᡒ ෎಴ҹঞϢ݊Ⳍ݇ⱘ䇗᥻ऎඳǄ೼䩜ᇍऩϾᑣ߫ⱘ䲚Ё䇗ᶹߚᵤˈҹঞЎৃ㛑ⱘ෎಴ǃᭈϾ ෎಴㒘៪Ⳍᑨ䕗໻ऎඳᓎゟ߱ℹ⏙ऩⱘᖿ䗳ᠿᦣ䖛⿟Ёˈ䖭ѯᮍ⊩䛑থ᣹њЏ㽕԰⫼Ǆ⬅Ѣ ㅫ⊩ᓔথ䖙䗳ˈ≵᳝ϔ⾡Ꮉ݋㛑ᅠ៤ܼ䚼᳝݇ⱘᑣ߫ߚᵤࡳ㛑Ǆ಴ℸˈ᳝ᖙ㽕ᇚᑣ߫ᦤਜ㒭 ໮Ͼϡৠⱘ䕃ӊࡴࣙҹߚᵤˈҹ᳔߽⫼Շⱘ䅵ㅫᴎᡔᴃǄЎՓ䖭ϔ䖛⿟ᬜ⥛᳈催ˈᴀゴЎᔧ ࠡᐌ⫼ⱘᎹ݋ᦤկњㅔᯢⱘՓ⫼ᣛᇐǄϔѯ᳝⫼ⱘ䌘᭭䖬㛑ҢWentian Li㓪䕥ⱘ೼㒓кⳂ ˄㾕ᴀゴ᳿ĀкⳂ…”Ё᠔߫䌘⑤ЁⱘURLഄഔ˅੠খ㗗᭛⤂ЁⱘⳌ݇㓐䗄Ёᡒࠄ˖Gelfand ˄1995˅ˈClaverie˄1996˅ˈFickett੠Guigó˄1996˅ˈSnyder੠Stormo˄1996˅ˈҹঞ Guigó˄1997˅Ǆ 䖭ϔゴᰃ䖭ḋᅝᥦⱘ˖佪ܜˈᰃᇍ෎ᴀὖᗉḚᶊⱘᦣ䗄ˈҹᇚ৘ϡৠᎹ݋ᅝᥦ೼ড়䗖ⱘԡ㕂 Ϟ˗✊ৢˈᰃᇍЏ㽕ⱘ䅵ㅫᎹ݋ⱘ䆘䗄ˈᇍ↣⾡Ꮉ݋ˈ᮶䅼䆎њ݊ݙ೼䘏䕥ᗱᛇˈг㒭ߎ⿟ ᑣᑨ⫼ⱘ㣗՟Ǆᔧࠡⱘ䇌໮Ꮉ݋㱑ᕜᅲ⫼ˈԚ㒱䴲ᅠܼৃ䴴Ǆ՟བˈᔧࠡⱘথሩЁᄬ೼ⱘϔ Ͼ㔎䱋ᰃ䆌໮ᑣ߫ߚᵤ䕃ӊᓔথ㗙ᇍࡳ㛑ඳॳൟⱘᦣ䗄ᴹ㞾DDBJ/EMBL/GenBankㄝ೑䰙ᑣ᭄߫ ᥂ᑧЁᇍⳌᑨࡳ㛑ඳⱘᦣ䗄ˈ✊㗠䖭ѯ᭄᥂ᑧЁⱘᦣ䗄ᴀ䑿ⱘ䚼ߚৃैҹᴹ⑤Ѣᑣ߫ⱘߚ ᵤˈ䖭ḋህᇐ㟈њᕾ⦃Ǆ೼ᑨ⫼Ёˈ↣⾡ߚᵤᮍ⊩৘㞾ⱘӬ࢓੠ϡ䎇䛑䆹⡍߿⬭ᛣǄϔѯ᳔ ᐌ⫼ⱘ੠ৃҹҢѦ㘨㔥Ϟ㦋ᕫⱘ䅵ㅫᎹ݋߫Ѣゴ᳿Ǆ Ḛᶊ ϔϾܼ䴶ⱘ෎಴᧰ᇏᮍḜˈ᮴䆎ᰃ⬅ऩϾ໡ড়⿟ᑣᅲ⦄䖬ᰃ䗮䖛Փ⫼໮Ͼϧ䮼⿟ᑣᴹᅲ⦄ˈ ҹϟⱘ෎ᴀֵᙃ䛑ᰃ䗖⫼ⱘǄ佪ܜ᧰ˈᇏ෎಴ⱘ䆕᥂⬅໮໘ᬊ䲚㗠ᴹ˖ z ϔᓴᷛߎ䞡໡ᑣ߫ԡ㕂ⱘ೒䈅㸼ᯢњ䆹໘䇗᥻ऎඳ੠㓪ⷕ㲟ⱑ䋼ⱘऎඳϡ໾ৃ㛑ߎ⦃Ǆ z Ϣ݊ᅗ෎಴៪෎಴ѻ⠽᳝ᑣ߫ⳌԐᗻᰃ໪ᰒᄤⱘᔎ᳝࡯䆕᥂Ǆ z ϔ↉ᑣ߫Ϟᄬ೼ⴔ㒳䅵ⱘ㾘߭ᗻˈ㸼⼎Ўᰒ㨫ⱘĀᆚⷕᄤأདāᰃ㲟ⱑ㓪ⷕऎ᳔ᯢᰒⱘ ᷛᖫПϔǄ z Ϣ῵ᵓ῵ᓣⳌヺৃ㛑ᣛߎDNAϞࡳ㛑ᗻԡ⚍ⱘԡ㕂Ǆ䖭㉏ߚᵤৃҹ෎Ѣᕜㅔऩⱘ῵ᓣ ˄՟བˈӫ᠔਼ⶹⱘ“TATA box”੠࠾⚍᥹ⱘֱᅜᑣ߫˅៪෎ѢⳌᔧ໡ᴖⱘ᥼⧚˄՟ བˈ೼ৢ䴶ᇚᦤࠄⱘਃࡼᄤ᧰ᇏㅫ⊩Ё˅Ǆ ✊ৢˈܼ䚼ᬊ䲚ࠄⱘֵᙃ∛ᘏᭈ⧚៤ᘏԧϞሑৃ㛑䖲䌃ⱘ䈅೒Ǆ⫼Ѣ∛ᘏᭈ⧚䰊↉ⱘޚ߭ሲ Ѣ෎ᴀᐌ䆚˖՟བˈ⬅Āᆚⷕᄤأདāߚᵤߎⱘ໪ᰒᄤ䖍⬠ৃ㛑Ўњ᳝ϔϾ᳈དⱘ࠾᥹ԡ⚍ 10 ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ James W. Fickett SmithKline Beecham Pharmaceuticals King of Prussia. Pennsylvania ㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ1/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十章利用核酸序列的预测方法页码,2/16 而进行轻微调整;在存在与已知蛋白序列的相似性时,序列的“密码子偏好”性也会更受重视对于特定的质询,诸多基因辨识程序中仅有少数可能与之相关。在构建一个方案时,一些主要问题是值得注意的:(1)对真核生物序列,遮蔽重复序列应先于其它分析过程;(2)大多程序都有特定生物物种适用性;(3)许多程序只能特定适用于基因组DNA数据或者只适用于CDNA的数据;(4)序列的长度也是一个重要因素。例如,用鸟枪法测序得到的单个序列片段很少能用设计为在序列中搜寻整个基因的老式程序加以分析遮蔽重复序列在进行任何真核生物序列的基因辨识分析之前,最好把散布和简单的重复序列找出来并从序列中除去。虽然这些重复序列可能正好覆盖了由RNA聚合酶Ⅱ转录的部分区域,它们几乎不会覆盖启动子和外显子编码区。这样,这些重复序列的定位能为其它基因特征的定位提供重要的反面信息。重复序列还常常会搅乱其它分析,特别是在数据库搜索中对于偶尔分析一个序列而言,基于电子邮件或Web网页的服务器就足够了。 CENSOR( Jurka 等,1996)与 Reper tAsker( Smi th,1996)就是这种能提供标识和遮蔽散布和简单重复序列的服务器。可以通过电子邮件,或用Ww界面实现(地址见章末列表)。图10.1显示的是一个有CENS0R进行重复序列分析和遮蔽的例子对于大量分析工作而言,在本地安装分析软件就更有效和必要。显然,本地分析也大大增强了保密性。从因特网上可以得到 XBLAST( Cl averi e,19%6)(不要与 BLASTX混淆)的源程序。许多重复序列能从由J.Jka收集的 Repbase中得到。J.M. Cl averi e也在 XBLAST软件中包含了一组收集整理的Au序列。对本地安装软件,把克隆载体序列加入收集的重复序列中也很有用,以便使在进行分析时,把克隆载体也一并遮蔽 HUMCKMM1 HUMCKMM1 ggatcct tcctccttggcctcccaaagtgctgggat tacaggtgtgagccactgcacctg gcctattacccttctcaggctctggagtccatccttctgctctgtctccctcagttcaat tgttttttgttttttgttttttttttagacacagtctcgctctgtcaccaaggctggagt gcagcagtgcgatcacagctcaccgcagcctcacctcccaggctcaagtgatcctcccat ctcggcctctgagtagctgagactataggtgtgtccacatgtccggctaatttttgtatt tttag tagagacagggt ttcaccgcgttggccagggtggtcttgaactcctgagctcaag caatcctcctgcctcagcctccttgttttgatttttagatcccacaaataacttgtgatg tttgtctttctatacctggttcatttaacattttctttttcttttcttttcttttttttt ttttttgtgagactgagtcttgctctgtcactcaggctggagggcaatggtgcatctcag file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18

㗠䖯㸠䕏ᖂ䇗ᭈ˗೼ᄬ೼ϢᏆⶹ㲟ⱑᑣ߫ⱘⳌԐᗻᯊˈᑣ߫ⱘĀᆚⷕᄤأདāᗻгӮ᳈ফ䞡㾚Ǆ ᇍѢ⡍ᅮⱘ䋼䆶ˈ䇌໮෎಴䕼䆚⿟ᑣЁҙ᳝ᇥ᭄ৃ㛑ϢПⳌ݇Ǆ೼ᵘᓎϔϾᮍḜᯊˈϔѯЏ 㽕䯂乬ᰃؐᕫ⊼ᛣⱘ˖˄˅ᇍⳳḌ⫳⠽ᑣ߫ˈ䙂㬑䞡໡ᑣ߫ᑨܜѢ݊ᅗߚᵤ䖛⿟˗˄˅໻ ໮⿟ᑣ䛑᳝⡍ᅮ⫳⠽⠽⾡䗖⫼ᗻ˗˄˅䆌໮⿟ᑣা㛑⡍ᅮ䗖⫼Ѣ෎಴㒘DNA᭄᥂៪㗙া䗖⫼ ѢcDNAⱘ᭄᥂˗˄˅ᑣ߫ⱘ䭓ᑺгᰃϔϾ䞡㽕಴㋴Ǆ՟བˈ⫼右ᵾ⊩⌟ᑣᕫࠄⱘऩϾᑣ߫⠛ ↉ᕜᇥ㛑⫼䆒䅵Ў೼ᑣ߫Ё᧰ᇏᭈϾ෎಴ⱘ㗕ᓣ⿟ᑣࡴҹߚᵤǄ 䙂㬑䞡໡ᑣ߫ ೼䖯㸠ӏԩⳳḌ⫳⠽ᑣ߫ⱘ෎಴䕼䆚ߚᵤП᳔ࠡདᡞᬷᏗ੠ㅔऩⱘ䞡໡ᑣ߫ᡒߎᴹᑊҢᑣ߫ Ё䰸এǄ㱑✊䖭ѯ䞡໡ᑣ߫ৃ㛑ℷད㽚Ⲫњ⬅RNA㘮ড়䝊Ċ䕀ᔩⱘ䚼ߚऎඳˈᅗӀ޴ТϡӮ㽚 Ⲫਃࡼᄤ੠໪ᰒᄤ㓪ⷕऎǄ䖭ḋˈ䖭ѯ䞡໡ᑣ߫ⱘᅮԡ㛑Ў݊ᅗ෎಴⡍ᕕⱘᅮԡᦤկ䞡㽕ⱘ ড䴶ֵᙃǄ䞡໡ᑣ߫䖬ᐌᐌӮ᧙х݊ᅗߚᵤˈ⡍߿ᰃ೼᭄᥂ᑧ᧰㋶ЁǄ ᇍѢيᇨߚᵤϔϾᑣ߫㗠㿔ˈ෎Ѣ⬉ᄤ䚂ӊ៪Web㔥义ⱘ᳡ࡵ఼ህ䎇໳њǄCENSOR˄Jurka ㄝˈ1996˅ϢRepertMasker˄Smithˈ1996˅ህᰃ䖭⾡㛑ᦤկᷛ䆚੠䙂㬑ᬷᏗ੠ㅔऩ䞡໡ᑣ߫ ⱘ᳡ࡵ఼Ǆৃҹ䗮䖛⬉ᄤ䚂ӊˈ៪⫼WWW⬠䴶ᅲ⦄˄ഄഔ㾕ゴ᳿߫㸼˅Ǆ೒10.1ᰒ⼎ⱘᰃϔϾ ᳝CENSOR䖯㸠䞡໡ᑣ߫ߚᵤ੠䙂㬑ⱘ՟ᄤǄ ᇍѢ໻䞣ߚᵤᎹ԰㗠㿔ˈ೼ᴀഄᅝ㺙ߚᵤ䕃ӊህ᳈᳝ᬜ੠ᖙ㽕Ǆᰒ✊ˈᴀഄߚᵤг໻໻๲ᔎ њֱᆚᗻǄҢ಴⡍㔥ϞৃҹᕫࠄXBLAST˄Claverieˈ1996˅˄ϡ㽕ϢBLASTX⏋⎚˅ⱘ⑤⿟ ᑣǄ䆌໮䞡໡ᑣ߫㛑Ң⬅J.Jukaᬊ䲚ⱘRepbaseЁᕫࠄǄJ.M.Claverieг೼XBLAST䕃ӊЁࣙ৿ њϔ㒘ᬊ䲚ᭈ⧚ⱘAluᑣ߫Ǆᇍᴀഄᅝ㺙䕃ӊˈᡞܟ䱚䕑ԧᑣ߫ࡴܹᬊ䲚ⱘ䞡໡ᑣ߫Ёгᕜ᳝ ⫼ˈҹ֓Փ೼䖯㸠ߚᵤᯊˈᡞܟ䱚䕑ԧгϔᑊ䙂㬑Ǆ (a) ; HUMCKMM1 HUMCKMM1 ggatccttcctccttggcctcccaaagtgctgggattacaggtgtgagccactgcacctg gcctattacccttctcaggctctggagtccatccttctgctctgtctccctcagttcaat tgttttttgttttttgttttttttttagacacagtctcgctctgtcaccaaggctggagt gcagcagtgcgatcacagctcaccgcagcctcacctcccaggctcaagtgatcctcccat ctcggcctctgagtagctgagactataggtgtgtccacatgtccggctaatttttgtatt tttagtagagacagggtttcaccgcgttggccagggtggtcttgaactcctgagctcaag caatcctcctgcctcagcctccttgttttgatttttagatcccacaaataacttgtgatg tttgtctttctatacctggttcatttaacattttctttttcttttcttttcttttttttt ttttttgtgagactgagtcttgctctgtcactcaggctggagggcaatggtgcatctcag ㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ2/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十章利用核酸序列的预测方法页码,4/16 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCAT 图10.1由CENS0R实现的重复序列分析:(a)输入序列,(b)由 CENSOR产生的特征列表,以及(c)遮蔽了重复序列后的输出序列。数据库搜索搜寻已知同源体可能是最古老和最为广泛认识的编码蛋白的新基因的辨识方法(例如, Doolittle, 1986: Gi shFIStates, 1993: Robi son, 1994: Cl averi e, 1996: Gel fand -, 996),对于编码 SnRNA和rRNA的新基因也是这样。这类搜索仅依靠进化上的关系,因而广泛适用。数据库搜索技术已在第七章中有所详述。这一部分仅评述它们在基因搜寻中的应用完整的基因搜寻服务正开始把数据库搜索包含进来成为分析的一部分。然而,在某些情况下,数据库搜索这一步还需要用户分开完成。对编码蛋白的基因而言,将序列以六种可能的阅读框架翻译岀来,并把结果分别作为氨基酸序列和功能性Mtif数据库的搜索对象,这通常是获取重要匹配序列最佳的第一步。一旦一个同源序列被找到, Procrustes( Gel fand等, 1996)可被用来找出已知基因产物与新基因之间最优的比对方式找到同源产物的一大好处显然在于该基因的一些生物学性质可以马上被弄明白,但这里有两点警告。首先,由相似性作出的注解可能会导致错误的传播(Bork,1996)。其次,新发现的蛋白中大约只有一半能在已有数据库中找到同源者,并且这一比例看起来增长极为缓慢 Green等(1993)发现:(1)全体蛋白质中的大多数古保留片段(或称ACR,简单定义为蛋白序列中表现高度良好同源性的部分)都已经被发现并能在当前的数据库中找到:(2)大约新发现基因中的20%-50%包含至少一个数据库中已有描述的ACR;并且(3)很少表达的基因比中等或高度表达的基因更缺乏包含ACR序列的可能。种直接的核酸序列数据库搜索也很有用。在EST(部分cDNA序列)数据库中可能包含着全部基因中大多数的碎片( Aaronson等,1996; Hillier等,1996)。因此它们是为多数基因部分定位的重要资源。但这在为基因结构定界时能起多大作用尚不清楚。众所周知,核酸库搜索是定位rRNA和 SnRNA的好方法(虽然假基因仍是个问题)。这种搜索在定位调控序列时也会有用( Duret和 Bucher,1997)。密码子偏好的检测大多数计算识别编码蛋白质的基因的方法都着重于识别由于密码子使用时的偏好而产生的有些弥散的编码区规则性。将密码子出现频率简单列表是所谓“编码测度”( codi ng measure)的一种,即指一种以计算出一个数或一个数列表用于总结这种规律性的规则。许多 “编码测度”规则都已被提出。其中,大约最有信息提取价值的包括:双密码子计数(即指连续两个密码子对出现频率计数);一些直接量度周期性(这里的“周期性”指同一核苷酸在相距3,6,9,…,bp位置上多次出现的趋势)的方法;均一性对复杂性的量测(如长同聚区段计数);以及开放可读框架的出现( Fickett和Tung,1992)。很多编码区检测程序主要是把一个或几个“编码测度”组合起来,(使用例如概率论原理, 多变量统计中的判别分析技术,或者人工智能领域的神经网方法)构成一个数,称作一个判别式。例如,这种组合构成了有名的GRAL程序(Ⅺ等,1994)的基础。一般判别式在一个滑动窗口”(即定长连续的子序列)中计算出来,并且将结果作成曲线(图10.2)。为从编码测度判别式中获得更显著信息,需要获得有关大量碱基构成顺序的规律。更具体而言,以下标准由 Fi ckett和rung(1992)建立:(1)将 GenBank库分解成连续108bp的窗口片 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18

XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA1 ೒10.1⬅CENSORᅲ⦄ⱘ䞡໡ᑣ߫ߚᵤ˖˄D˅䕧ܹᑣ߫ˈ˄E˅⬅CENSORѻ⫳ⱘ⡍ᕕ߫㸼ˈҹ ঞ˄F˅䙂㬑њ䞡໡ᑣ߫ৢⱘ䕧ߎᑣ߫Ǆ ᭄᥂ᑧ᧰㋶ ᧰ᇏᏆⶹৠ⑤ԧৃ㛑ᰃ᳔স㗕੠᳔Ўᑓ⊯䅸䆚ⱘ㓪ⷕ㲟ⱑⱘᮄ෎಴ⱘ䕼䆚ᮍ⊩˄՟བˈ Doolittleˈ1986˗Gish੠Statesˈ1993˗Robisonㄝˈ1994˗Claverieˈ1996˗Gelfandㄝˈ 1996˅ˈᇍѢ㓪ⷕsnRNA੠rRNAⱘᮄ෎಴гᰃ䖭ḋǄ䖭㉏᧰㋶ҙձ䴴䖯࣪Ϟⱘ݇㋏ˈ಴㗠ᑓ⊯ 䗖⫼Ǆ᭄᥂ᑧ᧰㋶ᡔᴃᏆ೼㄀ϗゴЁ᳝᠔䆺䗄Ǆ䖭ϔ䚼ߚҙ䆘䗄ᅗӀ೼෎಴᧰ᇏЁⱘᑨ⫼Ǆ ᅠᭈⱘ෎಴᧰ᇏ᳡ࡵℷᓔྟᡞ᭄᥂ᑧ᧰㋶ࣙ৿䖯ᴹ៤Ўߚᵤⱘϔ䚼ߚǄ✊㗠ˈ೼ᶤѯᚙމ ϟˈ᭄᥂ᑧ᧰㋶䖭ϔℹ䖬䳔㽕⫼᠋ߚᓔᅠ៤Ǆᇍ㓪ⷕ㲟ⱑⱘ෎಴㗠㿔ˈᇚᑣ߫ҹ݁⾡ৃ㛑ⱘ 䯙䇏Ḛᶊ㗏䆥ߎᴹˈᑊᡞ㒧ᵰ߿ߚ԰Ў⇼෎䝌ᑣ߫੠ࡳ㛑ᗻMotif᭄᥂ᑧⱘ᧰㋶ᇍ䈵ˈ䖭䗮ᐌ ᰃ㦋প䞡㽕ऍ䜡ᑣ᳔߫Շⱘ㄀ϔℹǄϔᮺϔϾৠ⑤ᑣ߫㹿ᡒࠄˈProcrustes˄Gelfandㄝˈ 1996˅ৃ㹿⫼ᴹᡒߎᏆⶹ෎಴ѻ⠽Ϣᮄ෎಴П䯈᳔Ӭⱘ↨ᇍᮍᓣǄ ᡒࠄৠ⑤ѻ⠽ⱘϔ໻ད໘ᰒ✊೼Ѣ䆹෎಴ⱘϔѯ⫳⠽ᄺᗻ䋼ৃҹ偀Ϟ㹿ᓘᯢⱑˈԚ䖭䞠᳝ϸ ⚍䄺ਞǄ佪ܜ⬅ˈⳌԐᗻ԰ߎⱘ⊼㾷ৃ㛑Ӯᇐ㟈䫭䇃ⱘӴ᪁˄Borkˈ1996˅Ǆ݊⃵ˈᮄথ⦄ ⱘ㲟ⱑЁ໻㑺া᳝ϔञ㛑೼Ꮖ᭄᳝᥂ᑧЁᡒࠄৠ⑤㗙ˈᑊϨ䖭ϔ↨՟ⳟ䍋ᴹ๲䭓ᵕЎ㓧᜶Ǆ Greenㄝ˄1993˅থ⦄˖˄˅ܼԧ㲟ⱑ䋼Ёⱘ໻໮᭄সֱ⬭⠛↉˄៪⿄ACRˈㅔऩᅮНЎ㲟ⱑ ᑣ߫Ё㸼⦄催ᑺ㡃དৠ⑤ᗻⱘ䚼ߚ˅䛑Ꮖ㒣㹿থ⦄ᑊ㛑೼ᔧࠡⱘ᭄᥂ᑧЁᡒࠄ໻˅˄˗㑺ᮄ থ⦄෎಴Ёⱘ20ˁˉ50ˁࣙ৿㟇ᇥϔϾ᭄᥂ᑧЁᏆ᳝ᦣ䗄ⱘACR˗ᑊϨ˄˅ᕜᇥ㸼䖒ⱘ෎಴ ↨Ёㄝ៪催ᑺ㸼䖒ⱘ෎಴᳈㔎Уࣙ৿ACRᑣ߫ⱘৃ㛑Ǆ ϔ⾡Ⳉ᥹ⱘḌ䝌ᑣ᭄߫᥂ᑧ᧰㋶гᕜ᳝⫼Ǆ೼EST˄䚼ߚcDNAᑣ߫˅᭄᥂ᑧЁৃ㛑ࣙ৿ⴔܼ䚼 ෎಴Ё໻໮᭄ⱘ⹢⠛˄Aaronsonㄝˈ1996˗Hillierㄝˈ1996˅Ǆ಴ℸᅗӀᰃЎ໮᭄෎಴䚼ߚ ᅮԡⱘ䞡㽕䌘⑤ǄԚ䖭೼Ў෎಴㒧ᵘᅮ⬠ᯊ㛑䍋໮໻԰⫼ᇮϡ⏙ἮǄӫ᠔਼ⶹˈḌ䝌ᑧ᧰㋶ ᰃᅮԡrRNA੠snRNAⱘདᮍ⊩˄㱑✊؛಴෎ҡᰃϾ䯂乬˅Ǆ䖭⾡᧰㋶೼ᅮԡ䇗᥻ᑣ߫ᯊгӮ᳝ ⫼˄Duret੠Bucherˈ1997˅Ǆ ᆚⷕᄤأདⱘẔ⌟ ໻໮᭄䅵ㅫ䆚߿㓪ⷕ㲟ⱑ䋼ⱘ෎಴ⱘᮍ⊩䛑ⴔ䞡Ѣ䆚߿⬅ѢᆚⷕᄤՓ⫼ᯊⱘأད㗠ѻ⫳ⱘ᳝ ѯᓹᬷⱘ㓪ⷕऎ㾘߭ᗻǄᇚᆚⷕᄤߎ⦃乥⥛ㅔऩ߫㸼ᰃ᠔䇧Ā㓪ⷕ⌟ᑺā˄coding measure˅ⱘϔ⾡ˈेᣛϔ⾡ҹ䅵ㅫߎϔϾ᭄៪ϔϾ᭄߫㸼⫼Ѣᘏ㒧䖭⾡㾘ᕟᗻⱘ㾘߭Ǆ䆌໮ Ā㓪ⷕ⌟ᑺā㾘߭䛑Ꮖ㹿ᦤߎǄ݊Ёˈ໻㑺᳔ֵ᳝ᙃᦤপӋؐⱘࣙᣀ˖ঠᆚⷕᄤ䅵᭄˄ेᣛ 䖲㓁ϸϾᆚⷕᄤᇍߎ⦃乥⥛䅵᭄˅˗ϔѯⳈ᥹䞣ᑺ਼ᳳᗻ˄䖭䞠ⱘĀ਼ᳳᗻāᣛৠϔḌ㣋䝌 ೼Ⳍ䎱ˈˈˈĂˈbpԡ㕂Ϟ໮⃵ߎ⦃ⱘ䍟࢓˅ⱘᮍ⊩˗ഛϔᗻᇍ໡ᴖᗻⱘ䞣⌟˄བ䭓ৠ㘮 ऎ↉䅵᭄˅˗ҹঞᓔᬒৃ䇏Ḛᶊⱘߎ˄⦃Fickett੠Tungˈ1992˅Ǆ ᕜ໮㓪ⷕऎẔ⌟⿟ᑣЏ㽕ᰃᡞϔϾ៪޴ϾĀ㓪ⷕ⌟ᑺā㒘ড়䍋ᴹˈ˄Փ⫼՟བὖ⥛䆎ॳ⧚ˈ ໮ব䞣㒳䅵Ёⱘ߸ߚ߿ᵤᡔᴃˈ៪㗙ҎᎹᱎ㛑乚ඳⱘ⼲㒣㔥ᮍ⊩˅ᵘ៤ϔϾ᭄ˈ⿄԰ϔϾ߸ ߿ᓣǄ՟བˈ䖭⾡㒘ড়ᵘ៤њ᳝ৡⱘGRAIL⿟ᑣ˄Xuㄝˈ1994˅ⱘ෎⸔Ǆϔ㠀߸߿ᓣ೼ϔϾ Ā⒥ࡼにষā˄ेᅮ䭓䖲㓁ⱘᄤᑣ߫˅Ё䅵ㅫߎᴹˈᑊϨᇚ㒧ᵰ԰៤᳆㒓˄೒10.2˅Ǆ ЎҢ㓪ⷕ⌟ᑺ߸߿ᓣЁ㦋ᕫ᳈ᰒ㨫ֵᙃˈ䳔㽕㦋ᕫ᳝݇໻䞣⺅෎ᵘ៤乎ᑣⱘ㾘ᕟǄ᳈݋ԧ㗠㿔ˈҹϟᷛޚ⬅Fickett੠Tung˄1992˅ᓎゟ˖˄˅ᇚGenBankᑧߚ㾷៤䖲㓁108bpⱘにষ⠛ ㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ4/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十章利用核酸序列的预测方法页码,5/16 段;(2)只有那些完全是编码区或完全不是编码区的片段被保留下来;(3)一半的窗口片段用来设定如上所述四种测度线性组合成判别式所用的参数;(4)另一半用于检验判别式预测的准确性。硏究得到了88%的预测准确性。因而编码测度给岀了一个较低分辨率的编码区边界的图谱。然而,编码测度还可以合理应用于不完整的序列(例如,由鸟枪测序工程获得的几百bp长的一个序列),并且这是一个重要的优点许多编码测度程序是适用专门物种的,所以使用者要仔细确定该服务开发和测试用的是各类物种中的哪一些图10.2由 GenMark(一个通过电子邮件服务的编码区识别工具)得到的部分输出样例。 GenMark包含七个DA的概率模型,分别由编码区的六种阅读框和非编码区计数而来。该程序计算出DNA上每个窗口是非编码区、或某种阅读框架的编码区的概率, 探査DNA中的功能性位点编码测度与细胞识别和表达基因的方法大概基本上不同(虽然见 Knudsen和 Brunak,1997)。如果我们能识别表达系统与核酸相互作用的位点,例如转录因子结合位点与内含子/外显子的接头位点,这将对基因识别大有启发(并可能提高精度) 种归纳出这些位点位置(一般,基因识别算法开发者称之为“信号”)的方法是给出所谓共有序列”,它是由特定的结合位点比对后得到各位置最常出现的碱基构成。共有序列是很好的助记工具,但一般在用于从假位点中判别真正位点时还不太可靠,这部分是因为它没包含各位点上其它三种碱基出现的可能性。许多算法采用能给出更佳判别的复杂技术。其中种根据物理化学原理的技术是位置权重矩阵(Pw)技术。信号的各位置上每种可能出现的核苷酸都分配一个分数。对一个特定序列,把它看作可能出现的信号,将各位置的相应分数加和后给出该序列作为潜在位点的得分。一些情况下,这些分数大约与控制蛋白(核糖核蛋白)的结合能成正比(见 Stormo,1990与 Von Hi ppe,1994的综述) 有一些研究(例如, Barri ck等,1994)表明PMM在估测单个特定结合位点时表现较好。然而不幸的是,单独用PM来识别普通真核基因表达系统的复杂成分(例如,剪接位点和启动子序列)时进获得艰难而有限的成果。主要问题可能在于上下文特异的表达机制和复合结合分子之间的协作。启动子直到最近才能确定真核基因组序列大到足以包含许多基因。数据成为基因搜寻程序的新问题:要从多基因中准确分割一组外显子。启动子是提供这一生物学功能的富含信息的信号序列。计算机识别启动子(近有 Fi cket和 Hatzi georgi ou,1997的综述)部分以其能推进基因识别而十分重要。很多复杂程序依赖于实验室提供的转录因子结合特性,和一些对启动子结构的描述。但这些描述看上去并未抓住转录起始中的一些重要特性,并且也许令人吃惊的是,主要依赖于简单寡核苷酸频率计数的程序表现也差不多。启动子识别仍是一个重大扒战,在前面引用的综述中,用包含24个新确认的转录起始点的18个序列测试了当前的程序这些程序最多找出了一半的启动子,假阳性率约为每千个碱基中一个。内含子剪接位点许多不同物种的研究小组汇集了剪接位点的PwM( Senapathy等,1990),这些可能是多物种分析能得到的最重要资源。可惜PM分析剪接位点时特异性很低,主要由于存在多剪接机制 (一些对近期发现的回顾见 Ni son,19%6),以及调控下的交替剪接( McKeown,1992)。 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18

↉˗˄˅া᳝䙷ѯᅠܼᰃ㓪ⷕऎ៪ᅠܼϡᰃ㓪ⷕऎⱘ⠛↉㹿ֱ⬭ϟᴹ˗˄˅ϔञⱘにষ⠛ ↉⫼ᴹ䆒ᅮབϞ᠔䗄ಯ⾡⌟ᑺ㒓ᗻ㒘ড়៤߸߿ᓣ᠔⫼ⱘখ᭄˗˄˅঺ϔञ⫼ѢẔ偠߸߿ᓣ乘 ⌟ⱘޚ⹂ᗻǄⷨおᕫࠄњ88ˁⱘ乘⌟ޚ⹂ᗻǄ಴㗠㓪ⷕ⌟ᑺ㒭ߎњϔϾ䕗Ԣߚ䕼⥛ⱘ㓪ⷕऎ 䖍⬠ⱘ೒䈅Ǆ✊㗠ˈ㓪ⷕ⌟ᑺ䖬ৃҹড়⧚ᑨ⫼Ѣϡᅠᭈⱘᑣ߫˄՟བˈ⬅右ᵾ⌟ᑣᎹ⿟㦋ᕫ ⱘ޴ⱒbp䭓ⱘϔϾᑣ߫˅ˈᑊϨ䖭ᰃϔϾ䞡㽕ⱘӬ⚍Ǆ 䆌໮㓪ⷕ⌟ᑺ⿟ᑣᰃ䗖⫼ϧ䮼⠽⾡ⱘˈ᠔ҹՓ⫼㗙㽕Ҩ㒚⹂ᅮ䆹᳡ࡵᓔথ੠⌟䆩⫼ⱘᰃ৘㉏ ⠽⾡ЁⱘાϔѯǄ ……………… ೒10.2⬅GenMark˄ϔϾ䗮䖛⬉ᄤ䚂ӊ᳡ࡵⱘ㓪ⷕऎ䆚߿Ꮉ݋˅ᕫࠄⱘ䚼ߚ䕧ߎḋ՟Ǆ GenMarkࣙ৿ϗϾDNAⱘὖ⥛῵ൟˈ߿ߚ⬅㓪ⷕऎⱘ݁⾡䯙䇏Ḛ੠䴲㓪ⷕऎ䅵᭄㗠ᴹǄ䆹⿟ᑣ 䅵ㅫߎDNAϞ↣Ͼにষᰃ䴲㓪ⷕऎǃ៪ᶤ⾡䯙䇏Ḛᶊⱘ㓪ⷕऎⱘὖ⥛Ǆ ᥶ᶹDNAЁⱘࡳ㛑ᗻԡ⚍ 㓪ⷕ⌟ᑺϢ㒚㚲䆚߿੠㸼䖒෎಴ⱘᮍ⊩໻ὖ෎ᴀϞϡৠ˄㱑✊㾕Knudsen੠Brunakˈ1997˅Ǆ བᵰ៥Ӏ㛑䆚߿㸼䖒㋏㒳ϢḌ䝌ⳌѦ԰⫼ⱘԡ⚍ˈ՟བ䕀ᔩ಴ᄤ㒧ড়ԡ⚍Ϣݙ৿ᄤ໪ᰒᄤⱘ ᥹༈ԡ⚍ˈ䖭ᇚᇍ෎಴䆚߿᳝໻ਃথ˄ᑊৃ㛑ᦤ催㊒ᑺ˅Ǆ ϔ⾡ᔦ㒇ߎ䖭ѯԡ⚍ԡ㕂˄ϔ㠀ˈ෎಴䆚߿ㅫ⊩ᓔথ㗙⿄ПЎĀֵোā˅ⱘᮍ⊩ᰃ㒭ߎ᠔䇧 Ā᳝݅ᑣ߫āˈᅗᰃ⬅⡍ᅮⱘ㒧ড়ԡ⚍↨ᇍৢᕫࠄ৘ԡ㕂᳔ᐌߎ⦃ⱘ⺅෎ᵘ៤Ǆ᳝݅ᑣ߫ᰃ ᕜདⱘࡽ䆄Ꮉ݋ˈԚϔ㠀೼⫼ѢҢ؛ԡ⚍Ё߸߿ⳳℷԡ⚍ᯊ䖬ϡ໾ৃ䴴ˈ䖭䚼ߚᰃ಴Ўᅗ≵ ࣙ৘৿ԡ⚍Ϟ݊ᅗϝ⾡⺅෎ߎ⦃ⱘৃ㛑ᗻǄ䆌໮ㅫ⊩䞛⫼㛑㒭ߎ᳈Շ߸߿ⱘ໡ᴖᡔᴃǄ݊Ё ϔ⾡ḍ᥂⠽⧚࣪ᄺॳ⧚ⱘᡔᴃᰃԡ㕂ᴗ䞡ⶽ䰉˄PWH˅ᡔᴃǄֵোⱘ৘ԡ㕂Ϟ↣⾡ৃ㛑ߎ⦃ⱘ Ḍ㣋䝌䛑ߚ䜡ϔϾߚ᭄ǄᇍϔϾ⡍ᅮᑣ߫ˈᡞᅗⳟ԰ৃ㛑ߎ⦃ⱘֵোˈᇚ৘ԡ㕂ⱘⳌᑨߚ᭄ ࡴৢ੠㒭ߎ䆹ᑣ߫԰Ў┰೼ԡ⚍ⱘᕫߚǄϔѯᚙމϟˈ䖭ѯߚ᭄໻㑺Ϣ᥻ࠊ㲟ⱑ˄Ḍ㊪Ḍ㲟 ⱑ˅ⱘ㒧ড়㛑៤ℷ↨˄㾕Stormoˈ1990ϢVon Hippelˈ1994ⱘ㓐䗄˅Ǆ ᳝ϔѯⷨお˄՟བˈBarrickㄝˈ1994˅㸼ᯢPWM೼Ԅ⌟ऩϾ⡍ᅮ㒧ড়ԡ⚍ᯊ㸼⦄䕗དǄ✊㗠 ϡᑌⱘᰃˈऩ⣀⫼PWMᴹ䆚߿᱂䗮ⳳḌ෎಴㸼䖒㋏㒳ⱘ໡ᴖ៤ߚ˄՟བˈ࠾᥹ԡ⚍੠ਃࡼᄤᑣ ߫˅ᯊ䖯㦋ᕫ㡄䲒㗠᳝䰤ⱘ៤ᵰǄЏ㽕䯂乬ৃ㛑೼ѢϞϟ᭛⡍ᓖⱘ㸼䖒ᴎࠊ໡੠ড়㒧ড়ߚᄤ П䯈ⱘण԰Ǆ ਃࡼᄤ Ⳉࠄ᳔䖥ᠡ㛑⹂ᅮⳳḌ෎಴㒘ᑣ߫໻ࠄ䎇ҹࣙ৿䆌໮෎಴Ǆ᭄᥂៤Ў෎಴᧰ᇏ⿟ᑣⱘᮄ䯂乬˖㽕Ң໮෎಴Ёޚ⹂ࡆߚϔ㒘໪ᰒᄤǄਃࡼᄤᰃᦤկ䖭ϔ⫳⠽ᄺࡳ㛑ⱘᆠ৿ֵᙃⱘֵোᑣ ߫Ǆ䅵ㅫᴎ䆚߿ਃࡼᄤ˄䖥᳝Fickett੠Hatzigeorgiouˈ1997ⱘ㓐䗄˅䚼ߚҹ݊㛑᥼䖯෎಴ 䆚߿㗠कߚ䞡㽕Ǆᕜ໮໡ᴖ⿟ᑣձ䌪Ѣᅲ偠ᅸᦤկⱘ䕀ᔩ಴ᄤ㒧ড়⡍ᗻˈ੠ϔѯᇍਃࡼᄤ㒧 ᵘⱘᦣ䗄ǄԚ䖭ѯᦣ䗄ⳟϞএᑊ᳾ᡧԣ䕀ᔩ䍋ྟЁⱘϔѯ䞡㽕⡍ᗻˈᑊϨг䆌ҸҎৗ᚞ⱘ ᰃˈЏ㽕ձ䌪ѢㅔऩᆵḌ㣋䝌乥⥛䅵᭄ⱘ⿟ᑣ㸼⦄гᏂϡ໮Ǆਃࡼᄤ䆚߿ҡᰃϔϾ䞡໻ᣥ ៬ˈ೼ࠡ䴶ᓩ⫼ⱘ㓐䗄Ёˈ⫼ࣙ৿24Ͼᮄ⹂䅸ⱘ䕀ᔩ䍋ྟ⚍ⱘ18Ͼᑣ߫⌟䆩њᔧࠡⱘ⿟ᑣǄ 䖭ѯ⿟ᑣ᳔໮ᡒߎњϔञⱘਃࡼᄤˈ؛䰇ᗻ⥛㑺Ў↣गϾ⺅෎ЁϔϾǄ ⚍ԡ᥹࠾ᄤ৿ݙ 䆌໮ϡৠ⠽⾡ⱘⷨおᇣ㒘∛䲚њ࠾᥹ԡ⚍ⱘPWM˄Senapathyㄝˈ1990˅ˈ䖭ѯৃ㛑ᰃ໮⠽⾡ ߚᵤ㛑ᕫࠄⱘ᳔䞡㽕䌘⑤ǄৃᚰPWMߚᵤ࠾᥹ԡ⚍ᯊ⡍ᓖᗻᕜԢˈЏ㽕⬅Ѣᄬ೼໮࠾᥹ᴎࠊ ˄ϔѯᇍ䖥ᳳথ⦄ⱘಲ乒㾕Nilsonˈ1996˅ˈҹঞ䇗᥻ϟⱘѸ᳓࠾˄᥹NcKeownˈ1992˅Ǆ ㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ5/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十章利用核酸序列的预测方法页码,6/16 (事实上,由于大多交替剪接在数据库中未被提及,完整评估算法精度很困难。)作为复合基因搜寻程序一部分的 GENSCAN, Burgen和 Karlin(1997)将剪接位点归为不同的类,并使用判决树(例如, Brei man等,1984)将PM应用于树的每一叶上。这种方法显著提高了精度许多复合的基因识别服务程序(见下)提供分离的剪接点预测(例如, FGENEH/D/NA程序中的H/D/ N/ASPL成分, Sol ovyev和 Sal amoy,1997)。此外, Brunak等(1991)提供独立的剪接点预测程序№ euGene(见章末列表),将剪接点本身信息与对两侧编码的评估结合起来。翻译起始位点对于真核生物,如果转录起始点已知,并且没有内含子打断5′非翻译区的话, Kozak规则 ( Kozak,19%6)可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开放阅读框中找正确的起始密码子仍很困难。这种情况里,由于多顺反操纵子的存在,启动子定位虽有用,但不象在真核生物中起关键作用。对原核生物,关键是核糖体结合点的可靠定位。这一目的可以由多个程序提供解决,见 Gel Fand(1995)综述终止信号多腺苷化和翻译终止信号看上去没有基因起始信号那么重要,但这些信号也能帮助划分基因的范围。例子可见 Kondrakhin等(1994), Wahl e和 Keller(1996), Dal phi n等(1997), 以及 Sol ovyevi和 Sal amoy(1997)等对此的陈述复合的基因语法分析第一代计算机辅助基因识别程序主要处理识别基因的分离特征一一例如,单独识别剪接位点,或者只识别不涉及信号的编码区的规则性。但比方说如果一个剪接位点将一段编码区断,那它就能帮助检测时在一边寻找编码区,而在另一边找非编码区。这说明综合考虑待定特征的整体一致性能显著提高预测的精度。例如,60%的50bp以下长度的外显子在以前的 GRAL电子邮件服务程序中会被遗漏,但在加上一个简单的剪接和框架逻辑分析后就能够被检测出来( Einstein等,1992)。复合的基因搜寻程序先搜索信号序列并作编码区分析(有时也作同源序列搜索)。然后,对相应打分函数进行优化,以确定外显子并给出与手头上所有数据看上去最一致的一些可能的基因结构。不断提高精度和使用的便利是推动这些程序不断发展的重要动力。现在能得到许多这样的复合算法(表10.1),至少在一些情况下它们能给出关于基因结构的些好意见。图10.3显示了用 GENSCAN(遮蔽重复序列之后)分析人类磷酸丙酮酸水合酶基因 (HSEN03;添加号X56832)的结果。在 Fi ckett和Gugo(19)文献中能找到用其它一些程序分析这个基因的结果。为了对比, 这里是 Gen Bank对这个基因的注解 CDs join(1579.1663,2540.2635,2796..2854,3016..3085,3455.3588,4820.5042 5153..5350,5688 6318..6426,6576..6634,6723.6792) 表10.2将结果列为更易于阅读的方式。这些程序(在这一新技术领域的第一代中)的主要局限性在于:(1)复合的算法目前只适用少数物种;(2)所有的程序(除了 GENSCAN)在输入序列中包含多基因或者部分基因时,所预测的外显子仍可靠,但所预测的基因结构就不一定了;(3)由于尚不完全清楚的原因,预测精度可能比原先想象的低得多,尤其是对新发现的基因。( Burst和 Gui go,1996,用百来 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18

˄џᅲϞˈ⬅Ѣ໻໮Ѹ᳓࠾೼᥹᭄᥂ᑧЁ᳾㹿ᦤঞˈᅠᭈ䆘Ԅㅫ⊩㊒ᑺᕜೄ䲒Ǆ˅԰Ў໡ড় ෎಴᧰ᇏ⿟ᑣϔ䚼ߚⱘGENSCANˈBurgen੠Karlin˄1997˅ᇚ࠾᥹ԡ⚍ᔦЎϡৠⱘ㉏ˈᑊՓ⫼ ߸އ˄ᷥ՟བˈBreimanㄝˈ1984˅ᇚPWMᑨ⫼Ѣᷥⱘ↣ϔ৊ϞǄ䖭⾡ᮍ⊩ᰒ㨫ᦤ催њ㊒ᑺǄ 䆌໮໡ড়ⱘ෎಴䆚߿᳡ࡵ⿟ᑣ˄㾕ϟ˅ᦤկߚ行ⱘ࠾⚍᥹乘⌟˄՟བˈFGENEH/D/N/A⿟ᑣЁ ⱘH/D/N/ASPL៤ߚˈSolovyev੠Salamovˈ1997˅Ǆℸ໪ˈBrunakㄝ˄1991˅ᦤկ⣀ゟⱘ࠾᥹ ⚍乘⌟⿟ᑣNetGene˄㾕ゴ᳿߫㸼˅ˈᇚ࠾⚍᥹ᴀ䑿ֵᙃϢᇍϸջ㓪ⷕⱘ䆘Ԅ㒧ড়䍋ᴹǄ 㗏䆥䍋ྟԡ⚍ ᇍѢⳳḌ⫳⠽ˈབᵰ䕀ᔩ䍋ྟ⚍ᏆⶹˈᑊϨ≵᳝ݙ৿ᄤᠧᮁ5'䴲㗏䆥ऎⱘ䆱ˈKozak㾘߭ ˄Kozakˈ1996˅ৃҹ೼໻໮᭄ᚙމϟᅮԡ䍋ྟᆚⷕᄤǄॳḌ⫳⠽ϔ㠀≵᳝࠾᥹䖛⿟ˈԚ೼ᓔ ᬒ䯙䇏ḚЁᡒℷ⹂ⱘ䍋ྟᆚⷕᄤҡᕜೄ䲒Ǆ䖭⾡ᚙމ䞠ˈ⬅Ѣ໮乎ড᪡㒉ᄤⱘᄬ೼ˈਃࡼᄤ ᅮԡ㱑᳝⫼ˈԚϡ䈵೼ⳳḌ⫳⠽Ё䍋݇䬂԰⫼ǄᇍॳḌ⫳⠽ˈ݇䬂ᰃḌ㊪ԧ㒧ড়⚍ⱘৃ䴴ᅮ ԡǄ䖭ϔⳂⱘৃҹ⬅໮Ͼ⿟ᑣᦤկ㾷އˈ㾕GelFand˄1995˅㓐䗄Ǆ 㒜ℶֵো ໮㝎㣋࣪੠㗏䆥㒜ℶֵোⳟϞএ≵᳝෎಴䍋ྟֵো䙷М䞡㽕ˈԚ䖭ѯֵোг㛑ᐂߚߦࡽ಴෎ ⱘ㣗ೈǄ՟ᄤৃ㾕Kondrakhinㄝ˄1994˅ˈWahle੠Keller˄1996˅ˈDalphinㄝ˄1997˅ˈ ҹঞSolovyev੠Salamov˄1997˅ㄝᇍℸⱘ䰜䗄Ǆ ໡ড়ⱘ෎಴䇁⊩ߚᵤ ㄀ϔҷ䅵ㅫᴎ䕙ࡽ಴෎䆚߿⿟ᑣЏ㽕໘⧚䆚߿಴෎ⱘߚ行⡍ᕕ̣̣՟བˈऩ⣀䆚࠾߿᥹ԡ ⚍ˈ៪㗙া䆚߿ϡ⍝ঞֵোⱘ㓪ⷕऎⱘ㾘߭ᗻǄԚ↨ᮍ䇈བᵰϔϾ࠾᥹ԡ⚍ᇚϔ↉㓪ⷕऎ䱨 ᮁˈ䙷ᅗህ㛑ᐂࡽẔ⌟ᯊ೼ϔ䖍ᇏᡒ㓪ⷕऎˈ㗠೼঺ϔ䖍ᡒ䴲㓪ⷕऎǄ䖭䇈ᯢ㓐ড়㗗㰥ᕙᅮ ⡍ᕕⱘᭈԧϔ㟈ᗻ㛑ᰒ㨫ᦤ催乘⌟ⱘ㊒ᑺǄ՟བˈ60ˁⱘ50bpҹϟ䭓ᑺⱘ໪ᰒᄤ೼ҹࠡⱘ GRAIL⬉ᄤ䚂ӊ᳡ࡵ⿟ᑣЁӮ㹿䘫ⓣˈԚ೼ࡴϞϔϾㅔऩⱘ࠾੠᥹Ḛᶊ䘏䕥ߚᵤৢህ㛑໳㹿Ẕ ⌟ߎᴹ˄Einsteinㄝˈ1992˅Ǆ ໡ড়ⱘ෎಴᧰ᇏ⿟ᑣܜ᧰㋶ֵোᑣ߫ᑊ԰㓪ⷕऎߚᵤ˄᳝ᯊг԰ৠ⑤ᑣ߫᧰㋶˅Ǆ✊ৢˈᇍ Ⳍᑨᠧߑߚ᭄䖯㸠Ӭ࣪ˈҹ⹂ᅮ໪ᰒᄤᑊ㒭ߎϢ᠟༈Ϟ᠔᭄᳝᥂ⳟϞএ᳔ϔ㟈ⱘϔѯৃ㛑ⱘ ෎಴㒧ᵘǄϡᮁᦤ催㊒ᑺ੠Փ⫼ⱘ߽֓ᰃ᥼ࡼ䖭ѯ⿟ᑣϡᮁথሩⱘ䞡㽕࡯ࡼǄ ⦄೼㛑ᕫࠄ䆌໮䖭ḋⱘ໡ড়ㅫ⊩˄㸼10.1˅ˈ㟇ᇥ೼ϔѯᚙމϟᅗӀ㛑㒭ߎ݇Ѣ෎಴㒧ᵘⱘ ϔѯདᛣ㾕Ǆ೒10.3ᰒ⼎њ⫼GENSCAN˄䙂㬑䞡໡ᑣ߫Пৢ˅ߚᵤҎ㉏⻋䝌ϭ䝂䝌∈ড়䝊෎಴ ˄HSENO3˗⏏ࡴোX56832˅ⱘ㒧ᵰǄ ೼Fickett੠Guigó˄1996˅᭛⤂Ё㛑ᡒࠄ݊⫼ᅗϔѯ⿟ᑣߚᵤ䖭Ͼ෎಴ⱘ㒧ᵰǄЎњᇍ↨ˈ 䖭䞠ᰃGenBankᇍ䖭Ͼ෎಴ⱘ⊼㾷˖ CDS join (1579..1663, 2540..2635, 2796..2854, 3016..3085, 3455..3588, 4820..5042, 5153..5350, 5688..5889, 6318..6426, 6576..6634, 6723..6792) 㸼10.2ᇚ㒧ᵰ߫Ў᳈ᯧѢ䯙䇏ⱘᮍᓣǄ 䖭ѯ⿟ᑣ˄೼䖭ϔᮄᡔᴃ乚ඳⱘ㄀ϔҷЁ˅ⱘЏ㽕ሔ䰤ᗻ೼Ѣ˖˄˅໡ড়ⱘㅫ⊩Ⳃࠡা䗖⫼ ᇥ᭄⠽⾡˗˄˅᠔᳝ⱘ⿟ᑣ˄䰸њGENSCAN˅೼䕧ܹᑣ߫Ёࣙ៪಴෎໮৿㗙䚼ߚˈᯊ಴෎᠔ 乘⌟ⱘ໪ᰒᄤҡৃ䴴ˈԚ᠔乘⌟ⱘ෎಴㒧ᵘህϡϔᅮњ˗˄˅⬅Ѣᇮϡᅠܼ⏙Ἦⱘॳ಴ˈ乘 ⌟㊒ᑺৃ㛑↨ॳܜᛇ䈵ⱘԢᕫ໮ˈᇸ݊ᰃᇍᮄথ⦄ⱘ෎಴Ǆ˄Burset੠Guigóˈ1996ˈ⫼ⱒᴹ ㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ6/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

Ͼㅔऩᅲ՟ᴹᷛᅮњ㛑ᕫࠄⱘ⿟ᑣˈ㒧ᵰ᮴ϔ㛑ℷ⹂乘⌟ߎ໮Ѣϔञⱘ໪ᰒᄤ˅˗˄˅໻໮ ໡ড়ㅫ⊩䛑ᯢᰒᇍ⌟ᑣ䫭䇃कߚᬣᛳ˄Burset੠Guigóˈ1996˅˗ҹঞ˄˅䈵Ѹ᳓࠾᥹ǃ䞡 ঴෎಴੠ਃࡼᄤ㒧ᵘ䖭ḋⱘ෎಴䇁⊩㒧ᵘҡ䍙ߎᔧࠡ⿟ᑣⱘ໘⧚㛑࡯Ǆ ᮶✊䖭ѯ⿟ᑣЁ≵᳝ϔϾकܼक㕢ˈᅗӀ䛑㽚Ⲫњϔѯϡৠㅫ⊩ˈ䛑೼䖙䗳䖯ℹˈ಴ℸᔎ⚜ ᓎ䆂ߚᵤ↣Ͼᑣ߫ᯊ䞛⫼ࠄϾϡৠ⿟ᑣˈᑊҨ㒚ᇍ↨݊㒧ᵰǄབᵰᶤϾᎹ݋Ӯ㒣ᐌ⫼ࠄˈ ህؐᕫ⫼໻䞣Ꮖⶹ㒧ᵰⱘᑣ߫ᇍ݊䖯㸠⌟䆩ˈҹ֓ᇍㅫ⊩䗖⫼ᗻ᳝᠔њ㾷Ǆ 㸼10.1಴⡍㔥Ϟⱘ㓪ⷕ㲟ⱑ෎಴䆚߿Ꮉ݋ Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr.. Service Ref. Organism(s) EcoParse Krogh et al.(1994) Escherichia coli e-mail:ecoparse@cse.ucsc.edu FGENEH/D/N/Y/A Solovyev and Salamov(1997) Mammalian,Drosophila. e-mail:analysis@theory.bchs.uh.edu CDSB (1997) nematode,yeast,plant,and bacteria http://defrag.bcm.tmc.edu:9503/ltp.html GeneID Guigo et al.(1992) Vertebrate e-mail:geneid@darwin.bu.edu GeneMark Borodovsky and Mclninch(1993) Many individual species e-mail:genemark@ford.gatech.edu http://intron.biology.gatech.edu/~genmark GeneParser Snyder and Stormo (1995) Human http://beagle.colorado.edu/~eesnyder/GeneParser.html Genie Kulp et al.(1996) Human http://www-hgc.lbl.gov/inf/genie.html GenLang Dong and Searls (1994) Dicotyledons,Drosophila,vertebrates e-mail:genlang@cbil.humgen.upenn.edu http://cbil.humgen.upenn.edu/~sdong/genlang_home.html GENSCAN Burge and Karlin (1997) Vertebrate,Caenorhabditis,maize,Arabidopsis e-mail:genscan@gnomic.stanford.edu http://gnomic.stanford.edu/~chris/GENSCANW.html GenView Milanesi et al. (1993) Human,mouse,Diptera http://www.itba.mi.cnr.it/webgene GRAIL/GAP/ Xu et al.(1994) Human e-mail:grail@ornl.gov XGRAIL http://avalon.epm.ornl.gov/gallery.html MZEF Zhang(1997) Human,mouse,Arabidopsis,fission yeast http://www.cshl.org/geneginder Procrustes Gelfand et al. (1996) Any http://www-hto.usc.edu/software/procrustes ㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ7/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十章利用核酸序列的预测方法页码,10/16 Q 搜寻tRNA基因 VA基因的识别要易于识别编码蛋白的基因,部分是由于po启动子结构简单以及tRNA 级结构的保守性。在 tRNAscan-SE(Loe和Edy,1997)中,结合了多个早期程序,基本上解决了tRNA基因识别的问题。Lowe和Eddy发现,将依赖于二级结构检查和保守启动子元件的PWM 检测的 tRNAscan( Fi chant和 Burks,1991)的预测结果,与依赖于转录控制元件分析的 Pavesi等(1994)的算法加以合并后,超过99%的真tRNA基因都能被识别出来。这种混和的预测结果列表中还包含了超过50%的假阳性。一种很好的选择性算法, COVELS(Eddy和 luri n,1994)发现能除去列表中几乎全部的错误。整个结果就是一种据报道称能识别9% 的真tRNA基因,并在每个基因组中少于一个假阳性的方法。 tRNAscan-SE的服务和软件均可得到(见章末列表)。图10.4给出了一个例子的输出结果。 Sequence tRNA Bounds tRNA Anti Intron Bounds Cove Name tRNA Begi n End Type Codon Begi n End Score Your-seg 1 2348 2420 Val TAC 0 76.52 Your-seq 2 2440 2512 Thr TGT.70 Your-seq 3 2522 2594 Lys TIT 0 84. 24 Your-seq426272698GyGC0075.46 Your -seg 5 2709 2794 Leu taa00 62.99 Your-seq 6 2803 2876 Arg ACG0 0 71.02 Your-seq 7 2900 2973 Pro TGG0 0 79. 67 Your-seq829973069A|aTGC0071.25 Your-seq 9 4841 4914 Ile gat 0 84. 04 图10.4 tRNAscan-SE对样例的输出结果。样例序列是SA5SRR,添加号L36472,源于 Staphy! ococcus aureus。其tRNA基因预测结果与DBJ/EMBL/ Gen Bank中的注解完全一致。未来的展望在不久前,普通用户很难得到最好的技术工具。随着大量因特网服务能方便得到,以及通过一个单纯界面就能不断提供服务的Ww网页,这种情况得以好转。虽然如此,一个用户想使用整套合适的算法,就得要愿意将数据提交给一大堆程序;此外,还要把数据通过因特网送出去(若涉及隐私则是个难题),或者只有请一个程序员来获取和安装相应程序。在大规模测序中,就必须发明出一种方法,自动将序列提交给各个程序,并将所有结果整理清楚后交给最终用户。如果有一种工具组合的体系框架,允许群体中任一个成员独立进行开发,又能让只受过相对简单编程训练的工作者能将这些程序组合成一组适用于专门实验室需要的解决方案,这将成为一个很有意义的进步。这种体系框架应基于电子邮件或 Worl d wi de Web 一个新的动人的发展是试图把当前对转录调节机制的知识融于软件,以通过计算分析为基因 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18

᧰ᇏtRNA෎಴ ᇍtRNA෎಴ⱘ䆚߿㽕ᯧѢ䆚߿㓪ⷕ㲟ⱑⱘ෎಴䚼ߚᰃ⬅Ѣpolċਃࡼᄤ㒧ᵘㅔऩҹঞtRNAѠ 㑻㒧ᵘⱘֱᅜᗻǄ೼tRNAscan-SE˄Lowe੠Eddyˈ1997˅Ёˈ㒧ড়њ໮Ͼᮽᳳ⿟ᑣˈ෎ᴀϞ㾷 އњtRNA෎಴䆚߿ⱘ䯂乬ǄLowe੠Eddyথ⦄ˈᇚձ䌪ѢѠ㑻㒧ᵘẔᶹ੠ֱᅜਃࡼᄤܗӊⱘPWM Ẕ⌟ⱘtRNAscan˄Fichant੠Burksˈ1991˅ⱘ乘⌟㒧ᵰˈϢձ䌪Ѣ䕀ᔩ᥻ܗࠊӊߚᵤⱘ Pavesiㄝ˄1994˅ⱘㅫ⊩ࡴҹড়ᑊৢˈ䍙䖛99ˁⱘⳳtRNA෎಴䛑㛑㹿䆚ߎ߿ᴹǄ䖭⾡⏋੠ⱘ 乘⌟㒧ᵰ߫㸼Ё䖬ࣙ৿њ䍙䖛50ˁⱘ؛䰇ᗻǄϔ⾡ᕜདⱘ䗝ᢽᗻㅫ⊩ˈCOVELS˄Eddy੠ Durbinˈ1994˅থ⦄㛑䰸এ߫㸼Ё޴Тܼ䚼ⱘ䫭䇃ǄᭈϾ㒧ᵰህᰃϔ⾡᥂᡹䘧⿄㛑䆚߿99ˁ ⱘⳳtRNA෎಴ˈᑊ೼↣Ͼ෎಴㒘ЁᇥѢϔϾ؛䰇ᗻⱘᮍ⊩ǄtRNAscan-SEⱘ᳡ࡵ੠䕃ӊഛৃᕫ ࠄ˄㾕ゴ᳿߫㸼˅Ǆ೒10.4㒭ߎњϔϾ՟ᄤⱘ䕧ߎ㒧ᵰǄ Sequence tRNA Bounds tRNA Anti Intron Bounds Cove Name tRNA # Begin End Type Codon Begin End Score -------- ------ ----- --- ---- ----- ----- ----- ----- Your-seq 1 2348 2420 Val TAC 0 0 76.52 Your-seq 2 2440 2512 Thr TGT 0 0 77.70 Your-seq 3 2522 2594 Lys TTT 0 0 84.24 Your-seq 4 2627 2698 Gly GCC 0 0 75.46 Your-seq 5 2709 2794 Leu TAA 0 0 62.99 Your-seq 6 2803 2876 Arg ACG 0 0 71.02 Your-seq 7 2900 2973 Pro TGG 0 0 79.67 Your-seq 8 2997 3069 Ala TGC 0 0 71.25 Your-seq 9 4841 4914 Ile GAT 0 0 84.04 ೒10.4 tRNAscan-SEᇍḋ՟ⱘ䕧ߎ㒧ᵰǄḋ՟ᑣ߫ᰃSA5SRRˈ⏏ࡴোL36472ˈ⑤Ѣ Staphylococcus aureusǄ݊tRNA෎಴乘⌟㒧ᵰϢDDBJ/EMBL/GenBankЁⱘ⊼㾷ᅠܼϔ㟈Ǆ ᳾ᴹⱘሩᳯ ೼ϡЙࠡˈ᱂䗮⫼᠋ᕜ䲒ᕫࠄ᳔དⱘᡔᴃᎹ݋Ǆ䱣ⴔ໻䞣಴⡍㔥᳡ࡵ㛑ᮍ֓ᕫࠄˈҹঞ䗮䖛 ϔϾऩ㒃⬠䴶ህ㛑ϡᮁᦤկ᳡ࡵⱘWWW㔥义ˈ䖭⾡ᚙމᕫҹད䕀Ǆ㱑✊བℸˈϔϾ⫼᠋ᛇՓ⫼ ϔᭈ༫ড়䗖ⱘㅫ⊩ˈህᕫ㽕ᜓᛣᇚ᭄᥂ᦤѸ㒭ϔ໻ේ⿟ᑣ˗ℸ໪ˈ䖬㽕ᡞ᭄᥂䗮䖛಴⡍㔥䗕 ߎএ˄㢹⍝ঞ䱤⾕߭ᰃϾ䲒乬˅ˈ៪㗙া᳝䇋ϔϾ⿟ᑣਬᴹ㦋প੠ᅝ㺙Ⳍᑨ⿟ᑣǄ೼໻㾘῵ ⌟ᑣЁˈህᖙ乏থᯢߎϔ⾡ᮍ⊩ˈ㞾ࡼᇚᑣ߫ᦤѸ㒭৘Ͼ⿟ᑣˈᑊᇚ᠔᳝㒧ᵰᭈ⧚⏙ἮৢѸ 㒭᳔㒜⫼᠋Ǆབᵰ᳝ϔ⾡Ꮉ݋㒘ড়ⱘԧ㋏Ḛᶊˈܕ䆌㕸ԧЁӏϔϾ៤ਬ⣀ゟ䖯㸠ᓔথˈজ㛑䅽াফ䖛Ⳍᇍㅔऩ㓪⿟䆁㒗ⱘᎹ԰㗙㛑ᇚ䖭ѯ⿟ᑣ㒘ড়៤ϔ㒘䗖⫼Ѣϧ䮼ᅲ偠ᅸ䳔㽕ⱘ㾷އ ᮍḜˈ䖭ᇚ៤ЎϔϾᕜ᳝ᛣНⱘ䖯ℹǄ䖭⾡ԧ㋏Ḛᶊᑨ෎Ѣ⬉ᄤ䚂ӊ៪World Wide WebǄ ϔϾᮄⱘࡼҎⱘথሩᰃ䆩೒ᡞᔧࠡᇍ䕀ᔩ䇗㡖ᴎࠊⱘⶹ䆚㵡Ѣ䕃ӊˈҹ䗮䖛䅵ㅫߚᵤЎ෎಴ ㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ10/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

《生物信息学》课程教学资源（中译本）第十章 利用核酸序列的预测方法

《生物信息学》课程教学资源（中译本）第十章利用核酸序列的预测方法