第十章利用核酸序列的预测方法 页码,5/16 段;(2)只有那些完全是编码区或完全不是编码区的片段被保留下来;(3)一半的窗口片 段用来设定如上所述四种测度线性组合成判别式所用的参数;(4)另一半用于检验判别式预 测的准确性。硏究得到了88%的预测准确性。因而编码测度给岀了一个较低分辨率的编码区 边界的图谱。然而,编码测度还可以合理应用于不完整的序列(例如,由鸟枪测序工程获得 的几百bp长的一个序列),并且这是一个重要的优点 许多编码测度程序是适用专门物种的,所以使用者要仔细确定该服务开发和测试用的是各类 物种中的哪一些 图10.2由 GenMark(一个通过电子邮件服务的编码区识别工具)得到的部分输出样例。 GenMark包含七个DA的概率模型,分别由编码区的六种阅读框和非编码区计数而来。该程序 计算出DNA上每个窗口是非编码区、或某种阅读框架的编码区的概率, 探査DNA中的功能性位点 编码测度与细胞识别和表达基因的方法大概基本上不同(虽然见 Knudsen和 Brunak,1997)。 如果我们能识别表达系统与核酸相互作用的位点,例如转录因子结合位点与内含子/外显子的 接头位点,这将对基因识别大有启发(并可能提高精度) 种归纳出这些位点位置(一般,基因识别算法开发者称之为“信号”)的方法是给出所谓 共有序列”,它是由特定的结合位点比对后得到各位置最常出现的碱基构成。共有序列是 很好的助记工具,但一般在用于从假位点中判别真正位点时还不太可靠,这部分是因为它没 包含各位点上其它三种碱基出现的可能性。许多算法采用能给出更佳判别的复杂技术。其中 种根据物理化学原理的技术是位置权重矩阵(Pw)技术。信号的各位置上每种可能出现的 核苷酸都分配一个分数。对一个特定序列,把它看作可能出现的信号,将各位置的相应分数 加和后给出该序列作为潜在位点的得分。一些情况下,这些分数大约与控制蛋白(核糖核蛋 白)的结合能成正比(见 Stormo,1990与 Von Hi ppe,1994的综述) 有一些研究(例如, Barri ck等,1994)表明PMM在估测单个特定结合位点时表现较好。然而 不幸的是,单独用PM来识别普通真核基因表达系统的复杂成分(例如,剪接位点和启动子序 列)时进获得艰难而有限的成果。主要问题可能在于上下文特异的表达机制和复合结合分子 之间的协作。 启动子 直到最近才能确定真核基因组序列大到足以包含许多基因。数据成为基因搜寻程序的新问 题:要从多基因中准确分割一组外显子。启动子是提供这一生物学功能的富含信息的信号序 列。计算机识别启动子(近有 Fi cket和 Hatzi georgi ou,1997的综述)部分以其能推进基因 识别而十分重要。很多复杂程序依赖于实验室提供的转录因子结合特性,和一些对启动子结 构的描述。但这些描述看上去并未抓住转录起始中的一些重要特性,并且也许令人吃惊的 是,主要依赖于简单寡核苷酸频率计数的程序表现也差不多。启动子识别仍是一个重大扒 战,在前面引用的综述中,用包含24个新确认的转录起始点的18个序列测试了当前的程序 这些程序最多找出了一半的启动子,假阳性率约为每千个碱基中一个。 内含子剪接位点 许多不同物种的研究小组汇集了剪接位点的PwM( Senapathy等,1990),这些可能是多物种 分析能得到的最重要资源。可惜PM分析剪接位点时特异性很低,主要由于存在多剪接机制 (一些对近期发现的回顾见 Ni son,19%6),以及调控下的交替剪接( McKeown,1992)。 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18↉˗˄˅া᳝䙷ѯᅠܼᰃ㓪ⷕऎᅠܼϡᰃ㓪ⷕऎⱘ⠛↉㹿ֱ⬭ϟᴹ˗˄˅ϔञⱘにষ⠛ ↉⫼ᴹ䆒ᅮབϞ᠔䗄ಯ⾡⌟ᑺ㒓ᗻ㒘ড়៤߸߿ᓣ᠔⫼ⱘখ᭄˗˄˅ϔञ⫼ѢẔ偠߸߿ᓣ乘 ⌟ⱘޚ⹂ᗻDŽⷨおᕫࠄњ88ˁⱘ乘⌟ޚ⹂ᗻDŽ㗠㓪ⷕ⌟ᑺ㒭ߎњϔϾ䕗Ԣߚ䕼⥛ⱘ㓪ⷕऎ 䖍⬠ⱘ䈅DŽ✊㗠ˈ㓪ⷕ⌟ᑺ䖬ৃҹড়⧚ᑨ⫼Ѣϡᅠᭈⱘᑣ߫˄՟བˈ⬅右ᵾ⌟ᑣᎹ㦋ᕫ ⱘⱒbp䭓ⱘϔϾᑣ߫˅ˈᑊϨ䖭ᰃϔϾ䞡㽕ⱘӬ⚍DŽ 䆌㓪ⷕ⌟ᑺᑣᰃ䗖⫼ϧ䮼⠽⾡ⱘˈ᠔ҹՓ⫼㗙㽕Ҩ㒚⹂ᅮ䆹᳡ࡵᓔথ⌟䆩⫼ⱘᰃ㉏ ⠽⾡ЁⱘાϔѯDŽ ……………… 10.2⬅GenMark˄ϔϾ䗮䖛⬉ᄤ䚂ӊ᳡ࡵⱘ㓪ⷕऎ䆚߿Ꮉ˅ᕫࠄⱘ䚼ߚ䕧ߎḋ՟DŽ GenMarkࣙϗϾDNAⱘὖ⥛ൟˈ߿ߚ⬅㓪ⷕऎⱘ݁⾡䯙䇏Ḛ䴲㓪ⷕऎ䅵᭄㗠ᴹDŽ䆹ᑣ 䅵ㅫߎDNAϞ↣Ͼにষᰃ䴲㓪ⷕऎǃᶤ⾡䯙䇏Ḛᶊⱘ㓪ⷕऎⱘὖ⥛DŽ ᶹDNAЁⱘࡳ㛑ᗻԡ⚍ 㓪ⷕ⌟ᑺϢ㒚㚲䆚߿㸼䖒ⱘᮍ⊩ὖᴀϞϡৠ˄㱑✊㾕KnudsenBrunakˈ1997˅DŽ བᵰ៥Ӏ㛑䆚߿㸼䖒㋏㒳ϢḌ䝌ⳌѦ⫼ⱘԡ⚍ˈ՟བ䕀ᔩᄤ㒧ড়ԡ⚍Ϣݙᄤᰒᄤⱘ ༈ԡ⚍ˈ䖭ᇚᇍ䆚߿᳝ਃথ˄ᑊৃ㛑ᦤ催㊒ᑺ˅DŽ ϔ⾡ᔦ㒇ߎ䖭ѯԡ⚍ԡ㕂˄ϔ㠀ˈ䆚߿ㅫ⊩ᓔথ㗙⿄ПЎĀֵোā˅ⱘᮍ⊩ᰃ㒭ߎ᠔䇧 Ā᳝݅ᑣ߫āˈᅗᰃ⬅⡍ᅮⱘ㒧ড়ԡ⚍↨ᇍৢᕫࠄԡ㕂᳔ᐌߎ⦃ⱘ⺅ᵘ៤DŽ᳝݅ᑣ߫ᰃ ᕜདⱘࡽ䆄ᎹˈԚϔ㠀⫼ѢҢ؛ԡ⚍Ё߸߿ⳳℷԡ⚍ᯊ䖬ϡৃ䴴ˈ䖭䚼ߚᰃЎᅗ≵ ࣙԡ⚍Ϟ݊ᅗϝ⾡⺅ߎ⦃ⱘৃ㛑ᗻDŽ䆌ㅫ⊩䞛⫼㛑㒭ߎՇ߸߿ⱘᴖᡔᴃDŽ݊Ё ϔ⾡ḍ⠽⧚࣪ᄺॳ⧚ⱘᡔᴃᰃԡ㕂ᴗ䞡ⶽ䰉˄PWH˅ᡔᴃDŽֵোⱘԡ㕂Ϟ↣⾡ৃ㛑ߎ⦃ⱘ Ḍ㣋䝌䛑ߚ䜡ϔϾߚ᭄DŽᇍϔϾ⡍ᅮᑣ߫ˈᡞᅗⳟৃ㛑ߎ⦃ⱘֵোˈᇚԡ㕂ⱘⳌᑨߚ᭄ ࡴৢ㒭ߎ䆹ᑣ߫Ў┰ԡ⚍ⱘᕫߚDŽϔѯᚙމϟˈ䖭ѯߚ᭄㑺Ϣࠊ㲟ⱑ˄Ḍ㊪Ḍ㲟 ⱑ˅ⱘ㒧ড়㛑៤ℷ↨˄㾕Stormoˈ1990ϢVon Hippelˈ1994ⱘ㓐䗄˅DŽ ᳝ϔѯⷨお˄՟བˈBarrickㄝˈ1994˅㸼ᯢPWMԄ⌟ऩϾ⡍ᅮ㒧ড়ԡ⚍ᯊ㸼⦄䕗དDŽ✊㗠 ϡᑌⱘᰃˈऩ⣀⫼PWMᴹ䆚߿᱂䗮ⳳḌ㸼䖒㋏㒳ⱘᴖ៤ߚ˄՟བˈ࠾ԡ⚍ਃࡼᄤᑣ ߫˅ᯊ䖯㦋ᕫ㡄䲒㗠᳝䰤ⱘ៤ᵰDŽЏ㽕䯂乬ৃ㛑ѢϞϟ᭛⡍ᓖⱘ㸼䖒ᴎࠊড়㒧ড়ߚᄤ П䯈ⱘणDŽ ਃࡼᄤ Ⳉࠄ᳔䖥ᠡ㛑⹂ᅮⳳḌ㒘ᑣ߫ࠄ䎇ҹࣙ䆌DŽ᭄៤Ў᧰ᇏᑣⱘᮄ䯂 乬˖㽕ҢЁޚ⹂ࡆߚϔ㒘ᰒᄤDŽਃࡼᄤᰃᦤկ䖭ϔ⫳⠽ᄺࡳ㛑ⱘᆠֵᙃⱘֵোᑣ ߫DŽ䅵ㅫᴎ䆚߿ਃࡼᄤ˄䖥᳝FickettHatzigeorgiouˈ1997ⱘ㓐䗄˅䚼ߚҹ݊㛑䖯 䆚߿㗠कߚ䞡㽕DŽᕜᴖᑣձ䌪Ѣᅲ偠ᅸᦤկⱘ䕀ᔩᄤ㒧ড়⡍ᗻˈϔѯᇍਃࡼᄤ㒧 ᵘⱘᦣ䗄DŽԚ䖭ѯᦣ䗄ⳟϞএᑊᡧԣ䕀ᔩ䍋ྟЁⱘϔѯ䞡㽕⡍ᗻˈᑊϨг䆌ҸҎৗⱘ ᰃˈЏ㽕ձ䌪ѢㅔऩᆵḌ㣋䝌乥⥛䅵᭄ⱘᑣ㸼⦄гᏂϡDŽਃࡼᄤ䆚߿ҡᰃϔϾ䞡ᣥ ˈࠡ䴶ᓩ⫼ⱘ㓐䗄Ёˈ⫼ࣙ24Ͼᮄ⹂䅸ⱘ䕀ᔩ䍋ྟ⚍ⱘ18Ͼᑣ߫⌟䆩њᔧࠡⱘᑣDŽ 䖭ѯᑣ᳔ᡒߎњϔञⱘਃࡼᄤˈ؛䰇ᗻ⥛㑺Ў↣गϾ⺅ЁϔϾDŽ ⚍ԡ࠾ᄤݙ 䆌ϡৠ⠽⾡ⱘⷨおᇣ㒘∛䲚њ࠾ԡ⚍ⱘPWM˄Senapathyㄝˈ1990˅ˈ䖭ѯৃ㛑ᰃ⠽⾡ ߚᵤ㛑ᕫࠄⱘ᳔䞡㽕䌘⑤DŽৃᚰPWMߚᵤ࠾ԡ⚍ᯊ⡍ᓖᗻᕜԢˈЏ㽕⬅Ѣᄬ࠾ᴎࠊ ˄ϔѯᇍ䖥ᳳথ⦄ⱘಲ乒㾕Nilsonˈ1996˅ˈҹঞ䇗ϟⱘѸ᳓࠾˄NcKeownˈ1992˅DŽ कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ5/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com