第六章NCB数据模型 页码,11/15 Q 序列的注释属性 序列注释是对序列注释的一个自包含包裹,或是指向特定序列的特定位置的信息。它可能包 含一个特征表,一类序列比对或一类序列的图表 多序列注释可以放在生物序列或生物序列集合中。每个生物注释可以有特殊的属性。例如 Power blast( Zhang and Madden,1997)创造了包含序列比对的序列注释,每个序列注释是 基于使用的 BLaST程序(例如 BLASTN, BLASTX)命名。个体块的比对在 Enrez和 Sequi n中可以 看到。 由于序列注释的组成有对序列的特定参考,因此序列注释可以单独存在或和其他科学家互 换;它不需要存在于具体的序列记录上。(另一方面,描述的范围依靠于包裹的位置。)因 此关于生物序列的信息可以创造,交换以及独立于生物序列的比较。这是序列注释和NCB|数 据模型的一个重要特性。 序列特征 序列特征(Seq-feat)是一块通过一或两个序列位置(Seq-locs)清楚附在生物序列区域的 结构数据。序列数据自己本身是可以包含一般的信息。例如,它有能指示一些特征的标志。 这些特征包括是否是部分(超过了生物序列末尾)、是否有一个生物的例外(解释为什么基 因序列的密码子没有按预期的翻译成氨基酸的编辑RNA)、是否该特征是由实验决定的(例 如,信使RNA隔离于假定的编码区) 一个特征经常有位置。Seq-loc指示了作用蛋白质序列的位置。编码区经常以ATG开始,以终 止子结束。如果分布位点是在一个基因序列上,而且信使RNA有连接出现,则位点可以有多于 个中间物。(为防止其它连接产生了分离的编码区特征,对每个离散的分子种类有一个多 中介Seq-oc) 特征可以是有选择的产生作用。对一个编码区Seq-loc的产物指向相应的蛋白质序列。这是使 数据模型能单独地保持核酸和蛋白质序列的连接,而且有每个序列对分子适当的注释。基因 序列中信使RNA的特征可能含有反映后翻译RNA的信使RNA序列。该特征包含有唯一对应该特征 的信息。例如CDS特征有遗传编码区和阅读框架,同时信使RMA特征有翻译氨基酸的信息 折衷设计完全调整了特征要求的组成。如果一个特殊的特征需要一个特定的域而其它域不会 受到影响。一种新的特征类型即使一个复杂的特征类型可以被加入,其它特征不受影响。用 于显示特征在序列上位置的软件只需要考虑对通用特征的位置。 尽管DDBJ/ EMBL/Gen Bank特征表允许很多特征(见第2章),NCB数据模型对待一些特殊特征 和其他特征相同。特别一些特征直接对分子生物学的中心原理建模,可以被用于连接记录和 用计算机揭示新信息。这些特征将在下面进行讨论。 基因 个基因有自己的特征。过去它仅仅是其他特征的修饰。基因的特征指明了含有可测表示的 基因的位置即核酸序列可遗传区域。这中表示可能能从许多基因的组成(包括编码区,推动 子,增强子和终止子等)里获得。基因的特征是指大约能覆盖被大家所认为是基因的核酸 区。当然这种模糊的概念有简单性,它对高层次基因视角(如遗传映射)适合的相当好。在 大规模的基因测序中,当生物学家只想知道“ⅹyz″基因而不是整个染色体时,模糊概念很有 实际用途。基因特征对基因数据库(能得到基因更详细的信息)可能也有交叉参考作用。 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18ᑣ߫ⱘ⊼䞞ሲᗻ ᑣ߫⊼䞞ᰃᇍᑣ߫⊼䞞ⱘϔϾ㞾ࣙࣙ㻍ˈᰃᣛ⡍ᅮᑣ߫ⱘ⡍ᅮԡ㕂ⱘֵᙃDŽᅗৃ㛑ࣙ ϔϾ⡍ᕕ㸼ˈϔ㉏ᑣ߫↨ᇍϔ㉏ᑣ߫ⱘ㸼DŽ ᑣ߫⊼䞞ৃҹᬒ⫳⠽ᑣ߫⫳⠽ᑣ߫䲚ড়ЁDŽ↣Ͼ⫳⠽⊼䞞ৃҹ᳝⡍⅞ⱘሲᗻDŽ՟བ PowerBLAST˄Zhang and Maddenˈ1997˅߯䗴њࣙᑣ߫↨ᇍⱘᑣ߫⊼䞞ˈ↣Ͼᑣ߫⊼䞞ᰃ ѢՓ⫼ⱘBLASTᑣ˄՟བBLASTNˈBLASTX˅ੑৡDŽϾԧഫⱘ↨ᇍEnrezSequinЁৃҹ ⳟࠄDŽ ⬅Ѣᑣ߫⊼䞞ⱘ㒘៤᳝ᇍᑣ߫ⱘ⡍ᅮখ㗗ˈℸᑣ߫⊼䞞ৃҹऩ⣀ᄬ݊Ҫ⾥ᄺᆊѦ ᤶ˗ᅗϡ䳔㽕ᄬѢԧⱘᑣ߫䆄ᔩϞDŽ˄ϔᮍ䴶ˈᦣ䗄ⱘ㣗ೈձ䴴Ѣࣙ㻍ⱘԡ㕂DŽ˅ ℸ݇Ѣ⫳⠽ᑣ߫ⱘֵᙃৃҹ߯䗴ˈѸᤶҹঞ⣀ゟѢ⫳⠽ᑣ߫ⱘ↨䕗DŽ䖭ᰃᑣ߫⊼䞞NCBI᭄ ൟⱘϔϾ䞡㽕⡍ᗻDŽ ᑣ߫⡍ᕕ ᑣ߫⡍ᕕ˄Seq-feat˅ᰃϔഫ䗮䖛ϔϸϾᑣ߫ԡ㕂˄Seq-locs˅⏙Ἦ䰘⫳⠽ᑣ߫ऎඳⱘ 㒧ᵘ᭄DŽᑣ᭄߫㞾Ꮕᴀ䑿ᰃৃҹࣙϔ㠀ⱘֵᙃDŽ՟བˈᅗ᳝㛑ᣛ⼎ϔѯ⡍ᕕⱘᷛᖫDŽ 䖭ѯ⡍ᕕࣙᣀᰃ৺ᰃ䚼ߚ˄䍙䖛њ⫳⠽ᑣ߫ሒ˅ǃᰃ৺᳝ϔϾ⫳⠽ⱘ՟˄㾷䞞ЎҔМ ᑣ߫ⱘᆚⷕᄤ≵᳝ᣝ乘ᳳⱘ㗏䆥៤⇼䝌ⱘ㓪䕥RNA˅ǃᰃ৺䆹⡍ᕕᰃ⬅ᅲ偠އᅮⱘ˄՟ བˈֵՓRNA䱨⾏Ѣ؛ᅮⱘ㓪ⷕऎ˅DŽ ϔϾ⡍ᕕ㒣ᐌ᳝ԡ㕂DŽSeq-locᣛ⼎њ⫼㲟ⱑ䋼ᑣ߫ⱘԡ㕂DŽ㓪ⷕऎ㒣ᐌҹATGᓔྟˈҹ㒜 ℶᄤ㒧ᴳDŽབᵰߚᏗԡ⚍ᰃϔϾᑣ߫Ϟˈ㗠ϨֵՓRNA᳝䖲ߎ߭ˈ⦃ԡ⚍ৃҹ᳝Ѣ ϔϾЁ䯈⠽DŽ˄Ў䰆ℶ݊ᅗ䖲ѻ⫳њߚ行ⱘ㓪ⷕऎ⡍ᕕˈᇍ↣Ͼ⾏ᬷⱘߚᄤ⾡㉏᳝ϔϾ ЁҟSeq-loc˅ ⡍ᕕৃҹᰃ᳝䗝ᢽⱘѻ⫳⫼DŽᇍϔϾ㓪ⷕऎSeq-locⱘѻ⠽ᣛⳌᑨⱘ㲟ⱑ䋼ᑣ߫DŽ䖭ᰃՓ ᭄ൟ㛑ऩ⣀ഄֱᣕḌ䝌㲟ⱑ䋼ᑣ߫ⱘ䖲ˈ㗠Ϩ᳝↣Ͼᑣ߫ᇍߚᄤ䗖ᔧⱘ⊼䞞DŽ ᑣ߫ЁֵՓRNAⱘ⡍ᕕৃ㛑᳝ডৢ㗏䆥RNAⱘֵՓRNAᑣ߫DŽ䆹⡍ᕕ᳝ࣙଃϔᇍᑨ䆹⡍ᕕ ⱘֵᙃDŽ՟བCDS⡍ᕕ᳝䘫Ӵ㓪ⷕऎ䯙䇏ḚᶊˈৠᯊֵՓRNA⡍ᕕ᳝㗏䆥⇼䝌ⱘֵᙃDŽ ᡬ㹋䆒䅵ᅠܼ䇗ᭈњ⡍ᕕ㽕∖ⱘ㒘៤DŽབᵰϔϾ⡍⅞ⱘ⡍ᕕ䳔㽕ϔϾ⡍ᅮⱘඳ㗠݊ᅗඳϡӮ ফࠄᕅડDŽϔ⾡ᮄⱘ⡍ᕕ㉏ൟेՓϔϾᴖⱘ⡍ᕕ㉏ൟৃҹ㹿ࡴ݊ˈܹᅗ⡍ᕕϡফᕅડDŽ⫼ Ѣᰒ⼎⡍ᕕᑣ߫Ϟԡ㕂ⱘ䕃ӊা䳔㽕㗗㰥ᇍ䗮⫼⡍ᕕⱘԡ㕂DŽ ሑㅵDDBJ/EMBL/GenBank⡍ᕕ㸼ܕ䆌ᕜ⡍ᕕ˄㾕ゴ˅ˈNCBI᭄ൟᇍᕙϔѯ⡍⅞⡍ᕕ ݊Ҫ⡍ᕕⳌৠDŽ⡍߿ϔѯ⡍ᕕⳈᇍߚᄤ⫳⠽ᄺⱘЁᖗॳ⧚ᓎˈৃҹ㹿⫼Ѣ䖲䆄ᔩ ⫼䅵ㅫᴎᧁ⼎ᮄֵᙃDŽ䖭ѯ⡍ᕕᇚϟ䴶䖯㸠䅼䆎DŽ ϔϾ᳝㞾Ꮕⱘ⡍ᕕDŽ䖛এᅗҙҙᰃ݊Ҫ⡍ᕕⱘׂ佄DŽⱘ⡍ᕕᣛᯢњ᳝ৃ⌟㸼⼎ⱘ ⱘԡ㕂ेḌ䝌ᑣ߫ৃ䘫ӴऎඳDŽ䖭Ё㸼⼎ৃ㛑㛑Ң䆌ⱘ㒘៤˄ࣙᣀ㓪ⷕऎˈࡼ ᄤˈᔎᄤ㒜ℶᄤㄝ˅䞠㦋ᕫDŽⱘ⡍ᕕᰃᣛ㑺㛑㽚Ⲫ㹿ᆊ᠔䅸ЎᰃⱘḌ䝌 ऎDŽᔧ✊䖭⾡㊞ⱘὖᗉ᳝ㅔऩᗻˈᅗᇍ催ሖ㾚㾦˄བ䘫Ӵᇘ˅䗖ড়ⱘⳌᔧདDŽ 㾘ⱘ⌟ᑣЁˈᔧ⫳⠽ᄺᆊাᛇⶹ䘧“xyz”㗠ϡᰃᭈϾᶧ㡆ԧᯊˈ㊞ὖᗉᕜ᳝ ᅲ䰙⫼䗨DŽ⡍ᕕᇍ᭄ᑧ˄㛑ᕫࠄ䆺㒚ⱘֵᙃ˅ৃ㛑г᳝Ѹঝখ㗗⫼DŽ RNA ݁ゴ NCBI᭄ൟ 义ⷕˈ11/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com