第十章利用核酸序列的预测方法 页码,1/16 10 利用核酸序列的预测方法 James W. Fickett Smi thk/ine beecham pharmaceuti cals King of Pruss a. Pennsy/ vania 这一章讨论的是解释DNA序列的方法,这些方法主要依赖于功能模式的检测,而不是与其它单 个序列的比较。这些方法中的绝大部分意在先寻找并遮蔽重复的和低复杂性的序列,再寻找 基因以及与其相关的调控区域。在针对单个序列的集中调查分析,以及为可能的基因、整个 基因组或相应较大区域建立初步清单的快速扫描过程中,这些方法都发挥了主要作用。由于 算法开发迅速,没有一种工具能完成全部有关的序列分析功能。因此,有必要将序列提呈给 多个不同的软件包加以分析,以利用最佳的计算机技术。为使这一过程效率更高,本章为 前常用的工具提供了简明的使用指导。一些有用的资料还能从 Wenti an Li编辑的在线书目 (见本章末“书目..”中所列资源中的URL地址)和参考文献中的相关综述中找到: Gel fand (1995), Cl averie(1996), Fickett和 Gui go(1996), Snyder和 Stormo(1996),以及 Gui go (1997) 这一章是这样安排的:首先,是对基本概念框架的描述,以将各不同工具安排在合适的位置 上;然后,是对主要的计算工具的评述,对每种工具,既讨论了其内在逻辑思想,也给出程 序应用的范例。当前的诸多工具虽很实用,但绝非完全可靠。例如,当前的发展中存在的一 个缺陷是许多序列分析软件开发者对功能域原型的描述来自DDBJ/EMBL/( Gen Bank等国际序列数 据库中对相应功能域的描述,然而这些数据库中的描述本身的部分却可以来源于序列的分 析,这样就导致了循环。在应用中,每种分析方法各自的优势和不足都该特别留意。一些最 常用的和可以从互联网上获得的计算工具列于章末。 框架 一个全面的基因搜寻方案,无论是由单个复合程序实现还是通过使用多个专门程序来实现, 以下的基本信息都是适用的。首先,搜寻基因的证据由多处收集而来: 一张标出重复序列位置的图谱表明了该处调控区域和编码蛋白质的区域不太可能岀现。 与其它基因或基因产物有序列相似性是外显子的强有力证据。 一段序列上存在着统计的规则性,表示为显著的“密码子偏好”是蛋白编码区最明显的 标志之 与模板模式相符可能指出DNA上功能性位点的位置。这类分析可以基于很简单的模式 (例如,众所周知的“ Tata box”和剪接点的保守序列)或基于相当复杂的推理(例 如,在后面将提到的启动子搜寻算法中)。 然后,全部收集到的信息汇总整理成总体上尽可能连贯的谱图。用于汇总整理阶段的准则属 于基本常识:例如,由“密码子偏好”分析出的外显子边界可能为了有一个更好的剪接位点 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18䖭ϔゴ䅼䆎ⱘᰃ㾷䞞DNAᑣ߫ⱘᮍ⊩ˈ䖭ѯᮍ⊩Џ㽕ձ䌪Ѣࡳ㛑ᓣⱘẔ⌟ˈ㗠ϡᰃϢ݊ᅗऩ Ͼᑣ߫ⱘ↨䕗DŽ䖭ѯᮍ⊩Ёⱘ㒱䚼ߚᛣܜᇏᡒᑊ䙂㬑䞡ⱘԢᴖᗻⱘᑣ߫ˈݡᇏᡒ ҹঞϢ݊Ⳍ݇ⱘ䇗ऎඳDŽ䩜ᇍऩϾᑣ߫ⱘ䲚Ё䇗ᶹߚᵤˈҹঞЎৃ㛑ⱘǃᭈϾ 㒘Ⳍᑨ䕗ऎඳᓎゟ߱ℹ⏙ऩⱘᖿ䗳ᠿᦣ䖛Ёˈ䖭ѯᮍ⊩䛑থњЏ㽕⫼DŽ⬅Ѣ ㅫ⊩ᓔথ䖙䗳ˈ≵᳝ϔ⾡Ꮉ㛑ᅠ៤ܼ䚼᳝݇ⱘᑣ߫ߚᵤࡳ㛑DŽℸˈ᳝ᖙ㽕ᇚᑣ߫ᦤਜ㒭 Ͼϡৠⱘ䕃ӊࡴࣙҹߚᵤˈҹ᳔߽⫼Շⱘ䅵ㅫᴎᡔᴃDŽЎՓ䖭ϔ䖛ᬜ⥛催ˈᴀゴЎᔧ ࠡᐌ⫼ⱘᎹᦤկњㅔᯢⱘՓ⫼ᣛᇐDŽϔѯ᳝⫼ⱘ䌘᭭䖬㛑ҢWentian Li㓪䕥ⱘ㒓кⳂ ˄㾕ᴀゴĀкⳂ…”Ё᠔߫䌘⑤ЁⱘURLഄഔ˅খ㗗᭛⤂ЁⱘⳌ݇㓐䗄Ёᡒࠄ˖Gelfand ˄1995˅ˈClaverie˄1996˅ˈFickettGuigó˄1996˅ˈSnyderStormo˄1996˅ˈҹঞ Guigó˄1997˅DŽ 䖭ϔゴᰃ䖭ḋᅝᥦⱘ˖佪ܜˈᰃᇍᴀὖᗉḚᶊⱘᦣ䗄ˈҹᇚϡৠᎹᅝᥦড়䗖ⱘԡ㕂 Ϟ˗✊ৢˈᰃᇍЏ㽕ⱘ䅵ㅫᎹⱘ䆘䗄ˈᇍ↣⾡Ꮉˈ᮶䅼䆎њ݊ݙ䘏䕥ᗱᛇˈг㒭ߎ ᑣᑨ⫼ⱘ㣗՟DŽᔧࠡⱘ䇌Ꮉ㱑ᕜᅲ⫼ˈԚ㒱䴲ᅠܼৃ䴴DŽ՟བˈᔧࠡⱘথሩЁᄬⱘϔ Ͼ㔎䱋ᰃ䆌ᑣ߫ߚᵤ䕃ӊᓔথ㗙ᇍࡳ㛑ඳॳൟⱘᦣ䗄ᴹ㞾DDBJ/EMBL/GenBankㄝ䰙ᑣ᭄߫ ᑧЁᇍⳌᑨࡳ㛑ඳⱘᦣ䗄ˈ✊㗠䖭ѯ᭄ᑧЁⱘᦣ䗄ᴀ䑿ⱘ䚼ߚৃैҹᴹ⑤Ѣᑣ߫ⱘߚ ᵤˈ䖭ḋህᇐ㟈њᕾ⦃DŽᑨ⫼Ёˈ↣⾡ߚᵤᮍ⊩㞾ⱘӬϡ䎇䛑䆹⡍߿⬭ᛣDŽϔѯ᳔ ᐌ⫼ⱘৃҹҢѦ㘨㔥Ϟ㦋ᕫⱘ䅵ㅫᎹ߫ѢゴDŽ Ḛᶊ ϔϾܼ䴶ⱘ᧰ᇏᮍḜˈ᮴䆎ᰃ⬅ऩϾড়ᑣᅲ⦄䖬ᰃ䗮䖛Փ⫼Ͼϧ䮼ᑣᴹᅲ⦄ˈ ҹϟⱘᴀֵᙃ䛑ᰃ䗖⫼ⱘDŽ佪ܜ᧰ˈᇏⱘ䆕⬅໘ᬊ䲚㗠ᴹ˖ z ϔᓴᷛߎ䞡ᑣ߫ԡ㕂ⱘ䈅㸼ᯢњ䆹໘䇗ऎඳ㓪ⷕ㲟ⱑ䋼ⱘऎඳϡৃ㛑ߎ⦃DŽ z Ϣ݊ᅗѻ⠽᳝ᑣ߫ⳌԐᗻᰃᰒᄤⱘᔎ᳝䆕DŽ z ϔ↉ᑣ߫Ϟᄬⴔ㒳䅵ⱘ㾘߭ᗻˈ㸼⼎Ўᰒ㨫ⱘĀᆚⷕᄤأདāᰃ㲟ⱑ㓪ⷕऎ᳔ᯢᰒⱘ ᷛᖫПϔDŽ z ϢᵓᓣⳌヺৃ㛑ᣛߎDNAϞࡳ㛑ᗻԡ⚍ⱘԡ㕂DŽ䖭㉏ߚᵤৃҹѢᕜㅔऩⱘᓣ ˄՟བˈӫ᠔਼ⶹⱘ“TATA box”࠾⚍ⱘֱᅜᑣ߫˅ѢⳌᔧᴖⱘ⧚˄՟ བˈৢ䴶ᇚᦤࠄⱘਃࡼᄤ᧰ᇏㅫ⊩Ё˅DŽ ✊ৢˈܼ䚼ᬊ䲚ࠄⱘֵᙃ∛ᘏᭈ⧚៤ᘏԧϞሑৃ㛑䖲䌃ⱘ䈅DŽ⫼Ѣ∛ᘏᭈ⧚䰊↉ⱘޚ߭ሲ Ѣᴀᐌ䆚˖՟བˈ⬅Āᆚⷕᄤأདāߚᵤߎⱘᰒᄤ䖍⬠ৃ㛑Ўњ᳝ϔϾདⱘ࠾ԡ⚍ 10 ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ James W. Fickett SmithKline Beecham Pharmaceuticals King of Prussia. Pennsylvania कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ1/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com