第十章利用核酸序列的预测方法 页码,4/16 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCAT 图10.1由CENS0R实现的重复序列分析:(a)输入序列,(b)由 CENSOR产生的特征列表,以 及(c)遮蔽了重复序列后的输出序列。 数据库搜索 搜寻已知同源体可能是最古老和最为广泛认识的编码蛋白的新基因的辨识方法(例如, Doolittle, 1986: Gi shFIStates, 1993: Robi son, 1994: Cl averi e, 1996: Gel fand -, 996),对于编码 SnRNA和rRNA的新基因也是这样。这类搜索仅依靠进化上的关系,因而广泛 适用。数据库搜索技术已在第七章中有所详述。这一部分仅评述它们在基因搜寻中的应用 完整的基因搜寻服务正开始把数据库搜索包含进来成为分析的一部分。然而,在某些情况 下,数据库搜索这一步还需要用户分开完成。对编码蛋白的基因而言,将序列以六种可能的 阅读框架翻译岀来,并把结果分别作为氨基酸序列和功能性Mtif数据库的搜索对象,这通常 是获取重要匹配序列最佳的第一步。一旦一个同源序列被找到, Procrustes( Gel fand等, 1996)可被用来找出已知基因产物与新基因之间最优的比对方式 找到同源产物的一大好处显然在于该基因的一些生物学性质可以马上被弄明白,但这里有两 点警告。首先,由相似性作出的注解可能会导致错误的传播(Bork,1996)。其次,新发现 的蛋白中大约只有一半能在已有数据库中找到同源者,并且这一比例看起来增长极为缓慢 Green等(1993)发现:(1)全体蛋白质中的大多数古保留片段(或称ACR,简单定义为蛋白 序列中表现高度良好同源性的部分)都已经被发现并能在当前的数据库中找到:(2)大约新 发现基因中的20%-50%包含至少一个数据库中已有描述的ACR;并且(3)很少表达的基因 比中等或高度表达的基因更缺乏包含ACR序列的可能。 种直接的核酸序列数据库搜索也很有用。在EST(部分cDNA序列)数据库中可能包含着全部 基因中大多数的碎片( Aaronson等,1996; Hillier等,1996)。因此它们是为多数基因部分 定位的重要资源。但这在为基因结构定界时能起多大作用尚不清楚。众所周知,核酸库搜索 是定位rRNA和 SnRNA的好方法(虽然假基因仍是个问题)。这种搜索在定位调控序列时也会有 用( Duret和 Bucher,1997)。 密码子偏好的检测 大多数计算识别编码蛋白质的基因的方法都着重于识别由于密码子使用时的偏好而产生的有 些弥散的编码区规则性。将密码子出现频率简单列表是所谓“编码测度”( codi ng measure)的一种,即指一种以计算出一个数或一个数列表用于总结这种规律性的规则。许多 “编码测度”规则都已被提出。其中,大约最有信息提取价值的包括:双密码子计数(即指 连续两个密码子对出现频率计数);一些直接量度周期性(这里的“周期性”指同一核苷酸 在相距3,6,9,…,bp位置上多次出现的趋势)的方法;均一性对复杂性的量测(如长同聚 区段计数);以及开放可读框架的出现( Fickett和Tung,1992)。 很多编码区检测程序主要是把一个或几个“编码测度”组合起来,(使用例如概率论原理, 多变量统计中的判别分析技术,或者人工智能领域的神经网方法)构成一个数,称作一个判 别式。例如,这种组合构成了有名的GRAL程序(Ⅺ等,1994)的基础。一般判别式在一个 滑动窗口”(即定长连续的子序列)中计算出来,并且将结果作成曲线(图10.2)。 为从编码测度判别式中获得更显著信息,需要获得有关大量碱基构成顺序的规律。更具体而 言,以下标准由 Fi ckett和rung(1992)建立:(1)将 GenBank库分解成连续108bp的窗口片 file://E:wcb生物信息学(中译本)\第十章利用核酸序列的预测方法.htm2005-1-18XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA1 10.1⬅CENSORᅲ⦄ⱘ䞡ᑣ߫ߚᵤ˖˄D˅䕧ܹᑣ߫ˈ˄E˅⬅CENSORѻ⫳ⱘ⡍ᕕ߫㸼ˈҹ ঞ˄F˅䙂㬑њ䞡ᑣ߫ৢⱘ䕧ߎᑣ߫DŽ ᭄ᑧ᧰㋶ ᧰ᇏᏆⶹৠ⑤ԧৃ㛑ᰃ᳔স㗕᳔Ўᑓ⊯䅸䆚ⱘ㓪ⷕ㲟ⱑⱘᮄⱘ䕼䆚ᮍ⊩˄՟བˈ Doolittleˈ1986˗GishStatesˈ1993˗Robisonㄝˈ1994˗Claverieˈ1996˗Gelfandㄝˈ 1996˅ˈᇍѢ㓪ⷕsnRNArRNAⱘᮄгᰃ䖭ḋDŽ䖭㉏᧰㋶ҙձ䴴䖯࣪Ϟⱘ݇㋏ˈ㗠ᑓ⊯ 䗖⫼DŽ᭄ᑧ᧰㋶ᡔᴃᏆϗゴЁ᳝᠔䆺䗄DŽ䖭ϔ䚼ߚҙ䆘䗄ᅗӀ᧰ᇏЁⱘᑨ⫼DŽ ᅠᭈⱘ᧰ᇏ᳡ࡵℷᓔྟᡞ᭄ᑧ᧰㋶ࣙ䖯ᴹ៤Ўߚᵤⱘϔ䚼ߚDŽ✊㗠ˈᶤѯᚙމ ϟˈ᭄ᑧ᧰㋶䖭ϔℹ䖬䳔㽕⫼᠋ߚᓔᅠ៤DŽᇍ㓪ⷕ㲟ⱑⱘ㗠㿔ˈᇚᑣ߫ҹ݁⾡ৃ㛑ⱘ 䯙䇏Ḛᶊ㗏䆥ߎᴹˈᑊᡞ㒧ᵰ߿ߚЎ⇼䝌ᑣ߫ࡳ㛑ᗻMotif᭄ᑧⱘ᧰㋶ᇍ䈵ˈ䖭䗮ᐌ ᰃ㦋প䞡㽕ऍ䜡ᑣ᳔߫ՇⱘϔℹDŽϔᮺϔϾৠ⑤ᑣ߫㹿ᡒࠄˈProcrustes˄Gelfandㄝˈ 1996˅ৃ㹿⫼ᴹᡒߎᏆⶹѻ⠽ϢᮄП䯈᳔Ӭⱘ↨ᇍᮍᓣDŽ ᡒࠄৠ⑤ѻ⠽ⱘϔད໘ᰒ✊Ѣ䆹ⱘϔѯ⫳⠽ᄺᗻ䋼ৃҹ偀Ϟ㹿ᓘᯢⱑˈԚ䖭䞠᳝ϸ ⚍䄺ਞDŽ佪ܜ⬅ˈⳌԐᗻߎⱘ⊼㾷ৃ㛑Ӯᇐ㟈䫭䇃ⱘӴ᪁˄Borkˈ1996˅DŽ݊ˈᮄথ⦄ ⱘ㲟ⱑЁ㑺া᳝ϔञ㛑Ꮖ᭄᳝ᑧЁᡒࠄৠ⑤㗙ˈᑊϨ䖭ϔ↨՟ⳟ䍋ᴹ䭓ᵕЎ㓧᜶DŽ Greenㄝ˄1993˅থ⦄˖˄˅ܼԧ㲟ⱑ䋼Ёⱘ᭄সֱ⬭⠛↉˄⿄ACRˈㅔऩᅮНЎ㲟ⱑ ᑣ߫Ё㸼⦄催ᑺ㡃དৠ⑤ᗻⱘ䚼ߚ˅䛑Ꮖ㒣㹿থ⦄ᑊ㛑ᔧࠡⱘ᭄ᑧЁᡒࠄ˅˄˗㑺ᮄ থ⦄Ёⱘ20ˁˉ50ˁࣙ㟇ᇥϔϾ᭄ᑧЁᏆ᳝ᦣ䗄ⱘACR˗ᑊϨ˄˅ᕜᇥ㸼䖒ⱘ ↨Ёㄝ催ᑺ㸼䖒ⱘ㔎УࣙACRᑣ߫ⱘৃ㛑DŽ ϔ⾡ⳈⱘḌ䝌ᑣ᭄߫ᑧ᧰㋶гᕜ᳝⫼DŽEST˄䚼ߚcDNAᑣ߫˅᭄ᑧЁৃ㛑ࣙⴔܼ䚼 Ё᭄ⱘ⠛˄Aaronsonㄝˈ1996˗Hillierㄝˈ1996˅DŽℸᅗӀᰃЎ᭄䚼ߚ ᅮԡⱘ䞡㽕䌘⑤DŽԚ䖭Ў㒧ᵘᅮ⬠ᯊ㛑䍋⫼ᇮϡ⏙ἮDŽӫ᠔਼ⶹˈḌ䝌ᑧ᧰㋶ ᰃᅮԡrRNAsnRNAⱘདᮍ⊩˄㱑✊؛ҡᰃϾ䯂乬˅DŽ䖭⾡᧰㋶ᅮԡ䇗ᑣ߫ᯊгӮ᳝ ⫼˄DuretBucherˈ1997˅DŽ ᆚⷕᄤأདⱘẔ⌟ ᭄䅵ㅫ䆚߿㓪ⷕ㲟ⱑ䋼ⱘⱘᮍ⊩䛑ⴔ䞡Ѣ䆚߿⬅ѢᆚⷕᄤՓ⫼ᯊⱘأད㗠ѻ⫳ⱘ᳝ ѯᓹᬷⱘ㓪ⷕऎ㾘߭ᗻDŽᇚᆚⷕᄤߎ⦃乥⥛ㅔऩ߫㸼ᰃ᠔䇧Ā㓪ⷕ⌟ᑺā˄coding measure˅ⱘϔ⾡ˈेᣛϔ⾡ҹ䅵ㅫߎϔϾ᭄ϔϾ᭄߫㸼⫼Ѣᘏ㒧䖭⾡㾘ᕟᗻⱘ㾘߭DŽ䆌 Ā㓪ⷕ⌟ᑺā㾘߭䛑Ꮖ㹿ᦤߎDŽ݊Ёˈ㑺᳔ֵ᳝ᙃᦤপӋؐⱘࣙᣀ˖ঠᆚⷕᄤ䅵᭄˄ेᣛ 䖲㓁ϸϾᆚⷕᄤᇍߎ⦃乥⥛䅵᭄˅˗ϔѯⳈ䞣ᑺ਼ᳳᗻ˄䖭䞠ⱘĀ਼ᳳᗻāᣛৠϔḌ㣋䝌 Ⳍ䎱ˈˈˈĂˈbpԡ㕂Ϟߎ⦃ⱘ䍟˅ⱘᮍ⊩˗ഛϔᗻᇍᴖᗻⱘ䞣⌟˄བ䭓ৠ㘮 ऎ↉䅵᭄˅˗ҹঞᓔᬒৃ䇏Ḛᶊⱘߎ˄⦃FickettTungˈ1992˅DŽ ᕜ㓪ⷕऎẔ⌟ᑣЏ㽕ᰃᡞϔϾϾĀ㓪ⷕ⌟ᑺā㒘ড়䍋ᴹˈ˄Փ⫼՟བὖ⥛䆎ॳ⧚ˈ ব䞣㒳䅵Ёⱘ߸ߚ߿ᵤᡔᴃˈ㗙ҎᎹᱎ㛑乚ඳⱘ⼲㒣㔥ᮍ⊩˅ᵘ៤ϔϾ᭄ˈ⿄ϔϾ߸ ߿ᓣDŽ՟བˈ䖭⾡㒘ড়ᵘ៤њ᳝ৡⱘGRAILᑣ˄Xuㄝˈ1994˅ⱘ⸔DŽϔ㠀߸߿ᓣϔϾ Ā⒥ࡼにষā˄ेᅮ䭓䖲㓁ⱘᄤᑣ߫˅Ё䅵ㅫߎᴹˈᑊϨᇚ㒧ᵰ៤᳆㒓˄10.2˅DŽ ЎҢ㓪ⷕ⌟ᑺ߸߿ᓣЁ㦋ᕫᰒ㨫ֵᙃˈ䳔㽕㦋ᕫ᳝݇䞣⺅ᵘ៤乎ᑣⱘ㾘ᕟDŽԧ㗠 㿔ˈҹϟᷛޚ⬅FickettTung˄1992˅ᓎゟ˖˄˅ᇚGenBankᑧߚ㾷៤䖲㓁108bpⱘにষ⠛ कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩ 义ⷕˈ4/16 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कゴ߽⫼Ḍ䝌ᑣ߫ⱘ乘⌟ᮍ⊩.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com