第十章利用核酸序列的预测方法 页码,6/16 (事实上,由于大多交替剪接在数据库中未被提及,完整评估算法精度很困难。)作为复合 基因搜寻程序一部分的 GENSCAN, Burgen和 Karlin(1997)将剪接位点归为不同的类,并使用 判决树(例如, Brei man等,1984)将PM应用于树的每一叶上。这种方法显著提高了精度 许多复合的基因识别服务程序(见下)提供分离的剪接点预测(例如, FGENEH/D/NA程序中 的H/D/ N/ASPL成分, Sol ovyev和 Sal amoy,1997)。此外, Brunak等(1991)提供独立的剪接 点预测程序№ euGene(见章末列表),将剪接点本身信息与对两侧编码的评估结合起来。 翻译起始位点 对于真核生物,如果转录起始点已知,并且没有内含子打断5′非翻译区的话, Kozak规则 ( Kozak,19%6)可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开 放阅读框中找正确的起始密码子仍很困难。这种情况里,由于多顺反操纵子的存在,启动子 定位虽有用,但不象在真核生物中起关键作用。对原核生物,关键是核糖体结合点的可靠定 位。这一目的可以由多个程序提供解决,见 Gel Fand(1995)综述 终止信号 多腺苷化和翻译终止信号看上去没有基因起始信号那么重要,但这些信号也能帮助划分基因 的范围。例子可见 Kondrakhin等(1994), Wahl e和 Keller(1996), Dal phi n等(1997), 以及 Sol ovyevi和 Sal amoy(1997)等对此的陈述 复合的基因语法分析 第一代计算机辅助基因识别程序主要处理识别基因的分离特征一一例如,单独识别剪接位 点,或者只识别不涉及信号的编码区的规则性。但比方说如果一个剪接位点将一段编码区 断,那它就能帮助检测时在一边寻找编码区,而在另一边找非编码区。这说明综合考虑待定 特征的整体一致性能显著提高预测的精度。例如,60%的50bp以下长度的外显子在以前的 GRAL电子邮件服务程序中会被遗漏,但在加上一个简单的剪接和框架逻辑分析后就能够被检 测出来( Einstein等,1992)。 复合的基因搜寻程序先搜索信号序列并作编码区分析(有时也作同源序列搜索)。然后,对 相应打分函数进行优化,以确定外显子并给出与手头上所有数据看上去最一致的一些可能的 基因结构。不断提高精度和使用的便利是推动这些程序不断发展的重要动力。 现在能得到许多这样的复合算法(表10.1),至少在一些情况下它们能给出关于基因结构的 些好意见。图10.3显示了用 GENSCAN(遮蔽重复序列之后)分析人类磷酸丙酮酸水合酶基因 (HSEN03;添加号X56832)的结果。 在 Fi ckett和Gugo(19)文献中能找到用其它一些程序分析这个基因的结果。为了对比, 这里是 Gen Bank对这个基因的注解 CDs join(1579.1663,2540.2635,2796..2854,3016..3085,3455.3588,4820.5042 5153..5350,5688 6318..6426,6576..6634,6723.6792) 表10.2将结果列为更易于阅读的方式。 这些程序(在这一新技术领域的第一代中)的主要局限性在于:(1)复合的算法目前只适用 少数物种;(2)所有的程序(除了 GENSCAN)在输入序列中包含多基因或者部分基因时,所 预测的外显子仍可靠,但所预测的基因结构就不一定了;(3)由于尚不完全清楚的原因,预 测精度可能比原先想象的低得多,尤其是对新发现的基因。( Burst和 Gui go,1996,用百来 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18˄џᅲϞˈ⬅ѢѸ᳓࠾᭄ᑧЁ㹿ᦤঞˈᅠᭈ䆘Ԅㅫ⊩㊒ᑺᕜೄ䲒DŽ˅Ўড় ᧰ᇏᑣϔ䚼ߚⱘGENSCANˈBurgenKarlin˄1997˅ᇚ࠾ԡ⚍ᔦЎϡৠⱘ㉏ˈᑊՓ⫼ ߸އ˄ᷥ՟བˈBreimanㄝˈ1984˅ᇚPWMᑨ⫼Ѣᷥⱘ↣ϔϞDŽ䖭⾡ᮍ⊩ᰒ㨫ᦤ催њ㊒ᑺDŽ 䆌ড়ⱘ䆚߿᳡ࡵᑣ˄㾕ϟ˅ᦤկߚ行ⱘ࠾⚍乘⌟˄՟བˈFGENEH/D/N/AᑣЁ ⱘH/D/N/ASPL៤ߚˈSolovyevSalamovˈ1997˅DŽℸˈBrunakㄝ˄1991˅ᦤկ⣀ゟⱘ࠾ ⚍乘⌟ᑣNetGene˄㾕ゴ߫㸼˅ˈᇚ࠾⚍ᴀ䑿ֵᙃϢᇍϸջ㓪ⷕⱘ䆘Ԅ㒧ড়䍋ᴹDŽ 㗏䆥䍋ྟԡ⚍ ᇍѢⳳḌ⫳⠽ˈབᵰ䕀ᔩ䍋ྟ⚍ᏆⶹˈᑊϨ≵᳝ݙᄤᠧᮁ5'䴲㗏䆥ऎⱘ䆱ˈKozak㾘߭ ˄Kozakˈ1996˅ৃҹ᭄ᚙމϟᅮԡ䍋ྟᆚⷕᄤDŽॳḌ⫳⠽ϔ㠀≵᳝࠾䖛ˈԚᓔ ᬒ䯙䇏ḚЁᡒℷ⹂ⱘ䍋ྟᆚⷕᄤҡᕜೄ䲒DŽ䖭⾡ᚙމ䞠ˈ⬅Ѣ乎ড᪡㒉ᄤⱘᄬˈਃࡼᄤ ᅮԡ㱑᳝⫼ˈԚϡ䈵ⳳḌ⫳⠽Ё䍋݇䬂⫼DŽᇍॳḌ⫳⠽ˈ݇䬂ᰃḌ㊪ԧ㒧ড়⚍ⱘৃ䴴ᅮ ԡDŽ䖭ϔⳂⱘৃҹ⬅Ͼᑣᦤկ㾷އˈ㾕GelFand˄1995˅㓐䗄DŽ 㒜ℶֵো 㝎㣋࣪㗏䆥㒜ℶֵোⳟϞএ≵᳝䍋ྟֵো䙷М䞡㽕ˈԚ䖭ѯֵোг㛑ᐂߚߦࡽ ⱘ㣗ೈDŽ՟ᄤৃ㾕Kondrakhinㄝ˄1994˅ˈWahleKeller˄1996˅ˈDalphinㄝ˄1997˅ˈ ҹঞSolovyevSalamov˄1997˅ㄝᇍℸⱘ䰜䗄DŽ ড়ⱘ䇁⊩ߚᵤ ϔҷ䅵ㅫᴎ䕙ࡽ䆚߿ᑣЏ㽕໘⧚䆚߿ⱘߚ行⡍ᕕ̣̣՟བˈऩ⣀䆚࠾߿ԡ ⚍ˈ㗙া䆚߿ϡ⍝ঞֵোⱘ㓪ⷕऎⱘ㾘߭ᗻDŽԚ↨ᮍ䇈བᵰϔϾ࠾ԡ⚍ᇚϔ↉㓪ⷕऎ䱨 ᮁˈ䙷ᅗህ㛑ᐂࡽẔ⌟ᯊϔ䖍ᇏᡒ㓪ⷕऎˈ㗠ϔ䖍ᡒ䴲㓪ⷕऎDŽ䖭䇈ᯢ㓐ড়㗗㰥ᕙᅮ ⡍ᕕⱘᭈԧϔ㟈ᗻ㛑ᰒ㨫ᦤ催乘⌟ⱘ㊒ᑺDŽ՟བˈ60ˁⱘ50bpҹϟ䭓ᑺⱘᰒᄤҹࠡⱘ GRAIL⬉ᄤ䚂ӊ᳡ࡵᑣЁӮ㹿䘫ⓣˈԚࡴϞϔϾㅔऩⱘ࠾Ḛᶊ䘏䕥ߚᵤৢህ㛑㹿Ẕ ⌟ߎᴹ˄Einsteinㄝˈ1992˅DŽ ড়ⱘ᧰ᇏᑣܜ᧰㋶ֵোᑣ߫ᑊ㓪ⷕऎߚᵤ˄᳝ᯊгৠ⑤ᑣ߫᧰㋶˅DŽ✊ৢˈᇍ Ⳍᑨᠧߑߚ᭄䖯㸠Ӭ࣪ˈҹ⹂ᅮᰒᄤᑊ㒭ߎϢ༈Ϟ᠔᭄᳝ⳟϞএ᳔ϔ㟈ⱘϔѯৃ㛑ⱘ 㒧ᵘDŽϡᮁᦤ催㊒ᑺՓ⫼ⱘ߽֓ᰃࡼ䖭ѯᑣϡᮁথሩⱘ䞡㽕ࡼDŽ ⦄㛑ᕫࠄ䆌䖭ḋⱘড়ㅫ⊩˄㸼10.1˅ˈ㟇ᇥϔѯᚙމϟᅗӀ㛑㒭ߎ݇Ѣ㒧ᵘⱘ ϔѯདᛣ㾕DŽ10.3ᰒ⼎њ⫼GENSCAN˄䙂㬑䞡ᑣ߫Пৢ˅ߚᵤҎ㉏⻋䝌ϭ䝂䝌∈ড়䝊 ˄HSENO3˗⏏ࡴোX56832˅ⱘ㒧ᵰDŽ FickettGuigó˄1996˅᭛⤂Ё㛑ᡒࠄ݊⫼ᅗϔѯᑣߚᵤ䖭Ͼⱘ㒧ᵰDŽЎњᇍ↨ˈ 䖭䞠ᰃGenBankᇍ䖭Ͼⱘ⊼㾷˖ CDS join (1579..1663, 2540..2635, 2796..2854, 3016..3085, 3455..3588, 4820..5042, 5153..5350, 5688..5889, 6318..6426, 6576..6634, 6723..6792) 㸼10.2ᇚ㒧ᵰ߫ЎᯧѢ䯙䇏ⱘᮍᓣDŽ 䖭ѯᑣ˄䖭ϔᮄᡔᴃ乚ඳⱘϔҷЁ˅ⱘЏ㽕ሔ䰤ᗻѢ˖˄˅ড়ⱘㅫ⊩Ⳃࠡা䗖⫼ ᇥ᭄⠽⾡˗˄˅᠔᳝ⱘᑣ˄䰸њGENSCAN˅䕧ܹᑣ߫Ёࣙ㗙䚼ߚˈᯊ᠔ 乘⌟ⱘᰒᄤҡৃ䴴ˈԚ᠔乘⌟ⱘ㒧ᵘህϡϔᅮњ˗˄˅⬅Ѣᇮϡᅠܼ⏙Ἦⱘॳˈ乘 ⌟㊒ᑺৃ㛑↨ॳܜᛇ䈵ⱘԢᕫˈᇸ݊ᰃᇍᮄথ⦄ⱘDŽ˄BursetGuigóˈ1996ˈ⫼ⱒᴹ कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ6/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com