第六章NCB数据模型 页码,1/15 第六章NCB数据模型 前言数据模型 什么是数据模型 生物学家大都熟悉用动物模型来研究人体疾病。尽管人体疾病有可能在动物中找不到完全相 同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的 数据来推断人体的疾病过程。通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆 臂,可以得到描述肌肉骨骼运动的数学模型。这样的模型可以对更多复杂的生物系统进行有 意义的预测和检验。显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟 的自然现象的预测和理解就更有意义。 八年前,№CB介绍了一种新的序列相关信息模型。这种新模型使基于Eηtrez系统的完整数据 库 Gen Bank的建立以及相应的软件得到快速的发展。该模型具有如下优点:它能轻而易举的从 已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第 5章)。该模型的优点对生物学家使用 Entrez有很大的帮助。但是很少有生物学家了解该模型 的基础。当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank数 据,且模型本身更好理解的实际数据模型。这一章不深入讨论细节,只介绍一些实用的索引 及NCB模型所起的作用 模型的一些例子 Gen Bank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编 码蛋白质的DNA序列。限定符/ transl ati on="MLLY"描述了将CDS特征翻译成的氨基酸顺序。 其它的DNA特征(例如mat-肽)有时被 Gen Bani数据应用来描述未命名蛋白质(部分 由/ transl ati on描述)的切分产物,但这不是一种令人满意的解决方法。相反,大多数蛋白 质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是 间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基 酸对应关系)。 NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。翻译的过程是由两种序列间的关系决 定而不是由一种对另一种的解释确定。和蛋白质相关的注解(例如肽切分产物)是由蛋白质 序列特征直接注释。这样,用 BLAST或其他序列搜索工具去分析由CDS特征得到蛋白质序列就 变容易了,尽管返回基因时可能会丢失精确的中间联系。一组DNA序列和由它翻译的蛋白质被 称为核酸一蛋白质组,它是NCB|为使用这些数据的中间数据。 Gen Bank数据格式只是人类可读 的一种特殊数据形式。它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以DNA为 中心的视角)。 Entrez的目标是更直接的反映数据的低层结构。由 BLAST实现的从 Gen Bank到 蛋白质序列的翻译实际上是从蛋白质一核酸组得到蛋白质序列。 Part真: LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995 DEFINI TI ON Rattus norvegi cus kappa opi oi d receptor gene, exon 1 and 2. ACCESSI ON U17993 NDg727256 KEYWORDS SegmEnT 1 of 3 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
݁ゴ NCBI᭄ൟ ࠡ㿔᭄ൟ ҔМᰃ᭄ൟ ⫳⠽ᄺᆊ䛑❳ᙝ⫼ࡼ⠽ൟᴹⷨおҎԧ⮒⮙DŽሑㅵҎԧ⮒⮙᳝ৃ㛑ࡼ⠽ЁᡒϡࠄᅠܼⳌ ৠⱘᔶᓣˈԚᶤ⾡ࡼ⠽⮒⮙Ҏԧ⮒⮙᳝Ⳍᔧⱘ㉏Ԑᗻ䋼Փ៥ӀৃҹҢࡼ⠽⮒⮙Ё㦋ᕫⱘ ᭄ᴹᮁҎԧⱘ⮒⮙䖛DŽ䗮䖛ᇚ㙠㙝ᛇ䈵៤ᔍㇻ∈य़⌏าⱘ㒘ড়ˈᇚ偼傐ᛇ䈵៤ᴴᴚ 㞖ˈৃҹᕫࠄᦣ䗄㙠㙝偼傐䖤ࡼⱘ᭄ᄺൟDŽ䖭ḋⱘൟৃҹᇍᴖⱘ⫳⠽㋏㒳䖯㸠᳝ ᛣНⱘ乘⌟Ẕ偠DŽᰒ✊ˈབᵰൟϢᦣ䗄ⱘᅲ䰙⦄䈵ৃҹࡴ䖥㊒㟈ˈ߭ᅗᇍ᠔ᢳ ⱘ㞾✊⦄䈵ⱘ乘⌟⧚㾷ህ᳝ᛣНDŽ ܿᑈࠡˈNCBIҟ㒡њϔ⾡ᮄⱘᑣ߫Ⳍֵ݇ᙃൟDŽ䖭⾡ᮄൟՓѢEntrez㋏㒳ⱘᅠᭈ᭄ ᑧGenBankⱘᓎゟҹঞⳌᑨⱘ䕃ӊᕫࠄᖿ䗳ⱘথሩDŽ䆹ൟ᳝བϟӬ⚍˖ᅗ㛑䕏㗠ᯧВⱘҢ Ꮖ݀Ꮧⱘ䇈ᯢⱘDNAᑣ߫ᇘࠄ㓪ⷕ㲟ⱑˈࠄⱘᶧ㡆ԧ䆒䅵ˈࠄϝ㓈㲟ⱑ䋼ⱘ㒧ᵘ˄㾕 ゴ˅DŽ䆹ൟⱘӬ⚍ᇍ⫳⠽ᄺᆊՓ⫼Entrez᳝ᕜⱘᐂࡽDŽԚᰃᕜᇥ᳝⫳⠽ᄺᆊњ㾷䆹ൟ ⱘ⸔DŽᔧֵᙃবᕫ䍞ᴹ䍞Єᆠˈ䍞ᴹ䍞ᴖⱘᚙމϟˈߎ⦃њᕜヺড় GenBank᭄ ˈϨൟᴀ䑿ད⧚㾷ⱘᅲ䰙᭄ൟDŽ䖭ϔゴϡ⏅ܹ䅼䆎㒚㡖ˈাҟ㒡ϔѯᅲ⫼ⱘ㋶ᓩ ঞNCBIൟ᠔䍋ⱘ⫼DŽ ൟⱘϔѯ՟ᄤ GenBank᭄ᰃҹDNAЎЁᖗ㾦ᑺⱘ᭄ਞ˄㾕ゴ˅ˈгህᰃҹCDS⡍ᕕЎҷ㸼ⱘϔ↉㓪 ⷕ㲟ⱑ䋼ⱘDNAᑣ߫DŽ䰤ᅮヺ/translation="MLLYY"ᦣ䗄њᇚCDS⡍ᕕ㗏䆥៤ⱘ⇼䝌乎ᑣDŽ ݊ᅗⱘDNA⡍ᕕ˄՟བmat-㚑˅᳝ᯊ㹿GenBank᭄ᑨ⫼ᴹᦣ䗄ੑৡ㲟ⱑ䋼˄䚼ߚ ⬅/translationᦣ䗄˅ⱘߚߛѻ⠽ˈԚ䖭ϡᰃϔ⾡ҸҎ⒵ᛣⱘ㾷އᮍ⊩DŽⳌডˈ᭄㲟ⱑ 䋼ᑣ᭄߫ᑧҹ㲟ⱑ䋼ЎЁᖗ㾦ᑺˈ䖭ḋৃ㛑ᅠܼ༅ᥝ݊Ϣ㓪ⷕП䯈ⱘ㘨㋏ˈ㗙াᰃ 䯈ⱘ⫼ᑣ߫ো㸼⼎݊㘨㋏˄䖭ᑊϡᦤկޚ⹂ⱘᇍさবߚᵤ᳝䞡㽕⫼ⱘᆚⷕᄤ--⇼ 䝌ᇍᑨ݇㋏˅DŽ NCBI᭄ൟⳈᵘ䗴њࣙDNA㲟ⱑ䋼ᑣ߫ⱘൟDŽ㗏䆥ⱘ䖛ᰃ⬅ϸ⾡ᑣ߫䯈ⱘ݇㋏އ ᅮ㗠ϡᰃ⬅ϔ⾡ᇍϔ⾡ⱘ㾷䞞⹂ᅮDŽ㲟ⱑ䋼Ⳍ݇ⱘ⊼㾷˄՟བ㚑ߚߛѻ⠽˅ᰃ⬅㲟ⱑ䋼 ᑣ߫⡍ᕕⳈ⊼䞞DŽ䖭ḋˈ⫼BLAST݊Ҫᑣ߫᧰㋶Ꮉএߚᵤ⬅CDS⡍ᕕᕫࠄ㲟ⱑ䋼ᑣ߫ህ বᆍᯧњˈሑㅵ䖨ಲᯊৃ㛑Ӯ϶༅㊒⹂ⱘЁ䯈㘨㋏DŽϔ㒘DNAᑣ߫⬅ᅗ㗏䆥ⱘ㲟ⱑ䋼㹿 ⿄ЎḌ䝌ü㲟ⱑ䋼㒘ˈᅗᰃNCBIЎՓ⫼䖭ѯ᭄ⱘЁ䯈᭄DŽGenBank᭄ḐᓣাᰃҎ㉏ৃ䇏 ⱘϔ⾡⡍⅞᭄ᔶᓣDŽᅗ༅এњ᳝㘨㋏ⱘᑣ߫䲚ড়ˈ㗠צ䗔ಲ↨䕗❳ᙝⱘ䙷⾡ᑣ߫˄ҹDNAЎ Ёᖗⱘ㾚㾦˅DŽEntrezⱘⳂᷛᰃⳈⱘড᭄ⱘԢሖ㒧ᵘDŽ⬅BLASTᅲ⦄ⱘҢGenBankࠄ 㲟ⱑ䋼ᑣ߫ⱘ㗏䆥ᅲ䰙ϞᰃҢ㲟ⱑ䋼üḌ䝌㒘ᕫࠄ㲟ⱑ䋼ᑣ߫DŽ Part A: LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 1 and 2. ACCESSION U17993 NID g727256 KEYWORDS . SEGMENT 1 of 3 ݁ゴ NCBI᭄ൟ 义ⷕˈ1/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,2/15 LOCUS RNKOR2 658bp DNA ROD 25-MA-1995 DEFINI TI ON Rat tus norvegi cus kappa opi oi d receptor gene, exon 3 ACCESSION U17994 NDq727257 KEYWORD SegmEnT 2 of 3 LOCUS RNKOR3 4048bp DNA ROD 25-MA-1995 DEFINI TION Rat tus norvegi cus kappa opi oi d receptor gene, exon 4 and compl ete cds. ACCESSION U17995 NDg727258 KEYMORD SegmenT 3 of 3 Part B LOCUS RNKOR 6463bp DNA ROD 25-MA-1995 DEFINI TI ON Rat tus norvegi cus kappa opi oi d receptor gene ACCESSION Z2123456 NDg2182225 KEYMORD ORGANI SM Rattus norvegi cus ukauyotae: mi tochondrial eukaryotes: Metazoa: Chordata: Vertebrata: Eutheria; Rodenti a: Sci urognathi: Myomorpha; Muri dae Murinae Rattus REFERENCE 1(base 1 to 1757) AUTHORS Yakovl ev, A.G., Krueger, K.E. and Faden, A. I TITLE Structure and expressi on of a rat kappa opi oi d receptor gene JOURNAL J. Bi ol. Chem. 270, 641-6424(1995) MEDLINE 95204422 PUBMED 7896774 REFERENCE 2(bases 1 to 1757) file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
… LOCUS RNKOR2 658bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 3. ACCESSION U17994 NID g727257 KEYWORDS . SEGMENT 2 of 3 … LOCUS RNKOR3 4048bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 4 and complete cds. ACCESSION U17995 NID g727258 KEYWORDS . SEGMENT 3 of 3 Part B: LOCUS RNKOR 6463bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene. ACCESSION ZZ123456 NID g2182225 KEYWORDS . SOURCE Norway rat. ORGANISM Rattus norvegicus Eukauyotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; Eutheria; Rodentia; Sciurognathi; Myomorpha; Muridae; Murinae; Rattus. REFERENCE 1 (base 1 to 1757) AUTHORS Yakovlev, A.G., Krueger, K.E. and Faden,A.I. TITLE Structure and expression of a rat kappa opioid receptor gene JOURNAL J. Biol. Chem.270, 641-6424(1995) MEDLINE 95204422 PUBMED 7896774 REFERENCE 2 (bases 1 to 1757) ݁ゴ NCBI᭄ൟ 义ⷕˈ2/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,3/15 HORS Yakovl ev, A.G. TITLE Di rect Submi ssi on JOURNAL Submi tted(02-DEC1994)Al exander G. Yakovl ev, Georgetown Uni versi ty School of Medi ci ne, Neurol ogy, 3900 Reservoi r Rd Washi ngton, DC 20007, USA FEATURES LocationQuali fiers Source 1..1757 /organi sm= Rattus norvegi cus /strai n= Sprague-Dawley /sex=" maile CoNTIG join(U17993:1.1757.gap(200,U17994:1..658.93p0.U17995:1..4048) 图6.1A:从 Gen Bank中一条记录的部分。 GenBank格式仅仅指出了记录是有顺序的序列的一部 分;它不提供关于其他部分是什么或它们之间如何联系的。完整的该记录见 http://www.ncbi.nlm.nih.gov/htbin-post/entrez/query? uid=2182225&form=6&db=&Dopt= B:新的C0N中片段代表,新的 Gen Bank格式的延续,容许片段记录之间建立联系, CONTIG行可 以包含单个序列,已知长度的间隔,未知长度的间隔。尽管这种格式中没有特征及序列,但 每个组成成分仍以传统格式表达 Gen Bank格式也隐藏了一些DNA序列的多序列性。例如一般意义上,一个基因的三个外显子是 有顺序的,或是被侧面的非编码区或DNA内含子密集包围着,而内含子的整个长度是没有被测 序的。这时候在 Gen Bank的数据中会有三条记录,每一个对应一个外显子。没有一个特征能清 楚地代表该编码区完整的序列顺序(三个外显子是有一定的顺序并被一定长度的未翻译的DNA 序列隔断)。在 Gen Ban格式中,这时会有 SEGMENT行指出第一个记录是 SEGMENT10f3、第 个记录是 SEGMENT20f3、第三个记录是 SEGMENT30f3,但这仅告诉使用者这是一些没 有确定顺序的片段(图6.1A)。从整个 Gen Bank角度来看,使用一种被称为L0CUS的算法将无 序片段正确定位,组合在一起的片段使用相同的起始字母,以不同的数字结尾,例如 RNKOR1, RNKOR2, RNKOR3。显然当L0CUS名字中包含其它与该序列不相关的干扰时,这种复杂 的安排会遇到问题。况且还没有一个序列记录包含了全部的片段,也没有任何方法可以描述 片段之间的距离。因为在EMB|序列数据库中根本没有分割片段的信息,所以任何从这种形式 派生出来的记录都缺乏一些基本的信息。 NCBI数据模型定义了一种直接代表片段的格式,被成为“片段序列”。其包含的元素不是A, G,C,T,而是由怎样从其它序列构造的方法组成。所以以上面的例子为例,片段序列将包 含: RNKOR1-200bp间隔- RNKOR2-未知长度的间隔- RNKOR3。该片段序列和其他记录一样有自己 的名称(RNK0R)、序列号、特征、位点和注解。通常我们将这种形式的存储方式称为包含 RNKOR1、 RNKOR2、RNK0R3、所有中间联系和特征的序列 RNKOR片段集。当 Gen Bank以核酸-蛋白 质组形式发行时,片段集被分成多条记录,片段集就消失了。然而从 Entrez图的视角看片段 集,片段集象一条线将它的组分连接在一起。DDBJ/EMBL/ GenBank最近同意了一种方法用于代 表构造结构,它将被放在新的C0N分割中(图6.1B) 不同于 Gen Bank格式,NCB|片段序列不要求片段间有间隙,事实上片段可以重叠。这使得片段 序列适合用于代表诸如细菌基因的长序列,这恰恰就是 Entrez基因分离细菌基因和其它诸如 酵母等全染色体基因中所做的。NCB|软件工具包(0 stel l,1996:见本章末尾的内部资源) file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
AUTHORS Yakovlev,A.G. TITLE Direct Submission JOURNAL Submitted(02-DEC_1994) Alexander G. Yakovlev, Georgetown University School of Medicine, Neurology, 3900 Reservoir Rd., Washington, DC 20007, USA FEATURES Location/Qualifiers Source 1..1757 /organism=”Rattus norvegicus” /strain=”Sprague-Dawley” /sex=”maile” CONTIG join(U17993:1..1757,gap(200),U17994:1..658,gap(),U17995:1..4048) 6.1 A˖ҢGenBankЁϔᴵ䆄ᔩⱘ䚼ߚDŽGenBankḐᓣҙҙᣛߎњ䆄ᔩᰃ᳝乎ᑣⱘᑣ߫ⱘϔ䚼 ߚ˗ᅗϡᦤկ݇Ѣ݊Ҫ䚼ߚᰃҔМᅗӀП䯈བԩ㘨㋏ⱘDŽᅠᭈⱘ䆹䆄ᔩ㾕 http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query? uid=2182225&form=6&db=n&Dopt=g %˖ᮄⱘCONЁ⠛↉ҷ㸼ˈᮄⱘGenBankḐᓣⱘᓊ㓁ˈᆍ䆌⠛↉䆄ᔩП䯈ᓎゟ㘨㋏ˈCONTIG㸠ৃ ҹࣙऩϾᑣ߫ˈᏆⶹ䭓ᑺⱘ䯈䱨ˈⶹ䭓ᑺⱘ䯈䱨DŽሑㅵ䖭⾡ḐᓣЁ≵᳝⡍ᕕঞᑣ߫ˈԚ ↣Ͼ㒘៤៤ߚҡҹӴ㒳Ḑᓣ㸼䖒DŽ GenBankḐᓣг䱤㮣њϔѯDNAᑣ߫ⱘᑣ߫ᗻDŽ՟བϔ㠀ᛣНϞˈϔϾⱘϝϾᰒᄤᰃ ᳝乎ᑣⱘˈᰃ㹿ջ䴶ⱘ䴲㓪ⷕऎDNAݙᄤᆚ䲚ࣙೈⴔˈ㗠ݙᄤⱘᭈϾ䭓ᑺᰃ≵᳝㹿⌟ ᑣⱘDŽ䖭ᯊGenBankⱘ᭄ЁӮ᳝ϝᴵ䆄ᔩˈ↣ϔϾᇍᑨϔϾᰒᄤDŽ≵᳝ϔϾ⡍ᕕ㛑⏙ Ἦഄҷ㸼䆹㓪ⷕऎᅠᭈⱘᑣ߫乎ᑣ˄ϝϾᰒᄤᰃ᳝ϔᅮⱘ乎ᑣᑊ㹿ϔᅮ䭓ᑺⱘ㗏䆥ⱘDNA ᑣ߫䱨ᮁ˅DŽGenBankḐᓣЁˈ䖭ᯊӮ᳝SEGMENT㸠ᣛߎϔϾ䆄ᔩᰃSEGMENT 1 of 3ǃ ѠϾ䆄ᔩᰃSEGMENT 2 of 3ǃϝϾ䆄ᔩᰃSEGMENT 3 of 3ˈԚ䖭ҙਞ䆝Փ⫼㗙䖭ᰃϔѯ≵ ᳝⹂ᅮ乎ᑣⱘ⠛↉˄6.1A˅DŽҢᭈϾGenBank㾦ᑺᴹⳟˈՓ⫼ϔ⾡㹿⿄ЎLOCUSⱘㅫ⊩ᇚ᮴ ᑣ⠛↉ℷ⹂ᅮԡˈ㒘ড়ϔ䍋ⱘ⠛↉Փ⫼Ⳍৠⱘ䍋ྟᄫ↡ˈҹϡৠⱘ᭄ᄫ㒧ሒˈ՟བ RNKOR1ˈRNKOR2ˈRNKOR3DŽᰒ✊ᔧLOCUSৡᄫЁࣙ݊ᅗϢ䆹ᑣ߫ϡⳌ݇ⱘᑆᡄᯊˈ䖭⾡ᴖ ⱘᅝᥦӮ䘛ࠄ䯂乬DŽމϨ䖬≵᳝ϔϾᑣ߫䆄ᔩࣙњܼ䚼ⱘ⠛↉ˈг≵᳝ӏԩᮍ⊩ৃҹᦣ䗄 ⠛↉П䯈ⱘ䎱⾏DŽЎEMBIᑣ᭄߫ᑧЁḍᴀ≵᳝ࡆߚ⠛↉ⱘֵᙃˈ᠔ҹӏԩҢ䖭⾡ᔶᓣ ⌒⫳ߎᴹⱘ䆄ᔩ䛑㔎УϔѯᴀⱘֵᙃDŽ NCBI᭄ൟᅮНњϔ⾡Ⳉҷ㸼⠛↉ⱘḐᓣˈ㹿៤ЎĀ⠛↉ᑣ߫āDŽ݊ࣙⱘܗ㋴ϡᰃ$ˈ *ˈ&ˈ7ˈ㗠ᰃ⬅ᗢḋҢ݊ᅗᑣ߫ᵘ䗴ⱘᮍ⊩㒘៤DŽ᠔ҹҹϞ䴶ⱘ՟ᄤЎ՟ˈ⠛↉ᑣ߫ᇚࣙ ˖RNKOR1-200bp䯈䱨-RNKOR2-ⶹ䭓ᑺⱘ䯈䱨-RNKOR3DŽ䆹⠛↉ᑣ߫݊Ҫ䆄ᔩϔḋ᳝㞾Ꮕ ⱘৡ⿄˄RNKOR˅ǃᑣ߫োǃ⡍ᕕǃԡ⚍⊼㾷DŽ䗮ᐌ៥Ӏᇚ䖭⾡ᔶᓣⱘᄬټᮍᓣ⿄Ўࣙ RNKOR1ǃRNKOR2ǃRNKOR3ǃ᠔᳝Ё䯈㘨㋏⡍ᕕⱘᑣ߫RNKOR⠛↉䲚DŽᔧGenBankҹḌ䝌㲟ⱑ 䋼㒘ᔶᓣথ㸠ᯊˈ⠛↉䲚㹿ߚ៤ᴵ䆄ᔩˈ⠛↉䲚ህ⍜༅њDŽ✊㗠ҢEntrezⱘ㾚㾦ⳟ⠛↉ 䲚ˈ⠛↉䲚䈵ϔᴵ㒓ᇚᅗⱘ㒘ߚ䖲ϔ䍋DŽDDBJ/EMBL/GenBank᳔䖥ৠᛣњϔ⾡ᮍ⊩⫼Ѣҷ 㸼ᵘ䗴㒧ᵘˈᅗᇚ㹿ᬒᮄⱘCONࡆߚЁ˄6.1B˅DŽ ϡৠѢGenBankḐᓣˈNCBI⠛↉ᑣ߫ϡ㽕∖⠛↉䯈᳝䯈䱭ˈџᅲϞ⠛↉ৃҹ䞡DŽ䖭Փᕫ⠛↉ ᑣ߫䗖ড়⫼Ѣҷ㸼䇌བ㒚㦠ⱘ䭓ᑣ߫ˈ䖭ᙄᙄህᰃEntrezߚ行㒚㦠݊ᅗ䇌བ 䝉↡ㄝܼᶧ㡆ԧЁ᠔خⱘDŽNCBI䕃ӊᎹࣙ˄Ostellˈ1996˖㾕ᴀゴሒⱘݙ䚼䌘⑤˅ ݁ゴ NCBI᭄ൟ 义ⷕˈ3/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,4/15 包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。这 为图象视角、 GenBank结构视角、 FASTA视角或对离散数据进行全染色体分析提供了可能。这 种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。在越来越大的区域 进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上 处理的思想是完全不现实的。 ASN.1处理方法 NCB数据模型经常被提到或和° NCBI ASN.1″或“ASN.1数据模型”混淆。 Abstract Syntax Notati on1(ASN.1)是国际标准组织(1S0)的标准之一,是为描述结构数据和保障允许各 计算机和各种软件之间交换结构和内容可靠翻译数据。说一个数据模型是用ASN.1写的就象 个计算机程序是用C或F0 RTRAN写的,指明了语言而不是指程序本身。从特殊的以DNA为中心的 视角来看,熟悉的 Gen Bank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的 数据关系的描述。从这个简单的形式看,我们创造了一系列的人可读的格式如 Entrez, Gen Bank和 BLAST数据库。没有这些一般意义上的格式的存在, Entrez(见第5章)中相邻或连 接关系的存在是不可能的。这一章是关于NCB|数据的结构和内容以及它作为生物药学数据库 和工具的作用。关于这个任务和格式的ASN.1选择参见0 stell,1995 定义方式 我们已经对NCB数据模型所定义的序列举了几个例子,可以看出NCB数据类型相比 Gen Bank更 加丰富、描述更加清晰。该模型的重点是它的细节问题,我们在下面将它进行展开。在这里 我们简单地介绍一下该模型大致的理论和基本原理 将数据输入计算机的目的有两个:重现和发现。重现是基本的能够找回它原来的本身。尽管 这很重要,但如果能比找回本身得到更多的信息,也就是说能从信息中得到发现,这当然是 更有价值的。从识别数据库中完全不相关的两条数据中发现它们之间的关系,或者对数据进 行新角度的分析计算,科学家能从中得到发现。强调NCBl数据模型就是为了促进这种发现, 从而定义了能描述信息间的联系和适合计算的数据模型。 对这种模型的第二个考虑是稳定性。NCB是美国国家机构而不是由个人赞助的,因此成员对 支持生物信息的努力有长远的考虑。NCB提供了大规模的能支持科学研究几十年的信息系 统。就所有关于生物药学方面的人士所知,在近几十年内,可能会有许多概念性和技术上的 革命,所以NCB必须适应这些新的观点,适应对软件和数据新的要求。所以我们尽量选用基 本观察或数据点的主要数据元素,不考虑解释的核心和这些元素的命名(这些都很可能会发 生变化)。 综合考虑上述原因,NCB|有四个核心元素:文献出处,DNA序列,蛋白质序列和三维结构。另 外两个项目(分类和基因图)更具解释性,但是不管怎样,它们和组织和联系方面一样重要 所以NCB在这个领域内建立了一个相当大的基础 出版物 出版物是科学研究的核心。科学信息从这里进行检査、评价、传播和永久的记录。出版物可 以说是活的连接实际中不同结构或内容域的数据库的桥梁(例如某序列数据库中的一条记录 和基因库中的某条记录可能出自同一篇文章)。它们被当作联系实际数据库的无价之宝 (“我读了关于这条记录的文章,现在我想看看这个数据”)。 出版物也是功能的基本注释和实际数据库的上下文,也许是最好的注释。原因之一是实际数 据库有能有效使用该数据库的结构,但缺乏足够的代表性能继续进行完整的生物的、实验的 或某记录的历史上下文。另一方面,发表的文章仅仅受语言的限制,比实际数据库中的记录 更包含了更完整和详细的描述信息。根据发表文章的内容,作者被科学同僚评价,而不是根 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
ࣙњ᧰䲚᭄ⱘࡳ㛑ˈࣙᣀᑣ߫⡍ᕕˈ㞾ࡼᇚᇣⱘϾԧ⠛↉䞡ᮄᇘࠄܼᶧ㡆ԧϞDŽ䖭 Ў䈵㾚㾦ǃGenBank㒧ᵘ㾚㾦ǃFASTA㾚㾦ᇍ⾏ᬷ᭄䖯㸠ܼᶧ㡆ԧߚᵤᦤկњৃ㛑DŽ䖭 ⾡ḍੑҸ㣗ೈऎඳݙ㒘㺙⠛↉ⱘ㛑Ꮖ㒣㒚㦠Ё᳝᠔ᑨ⫼DŽ䍞ᴹ䍞ⱘऎඳ 䖯㸠ᣐ㗙䆌ϡৠ㒘ᣐᯊ㒘㺙ੑҸᇚ䍞ᴹ䍞䞡㽕ˈ㗠Ϩ䖭⾡Ѣ㾘ऩ⠛↉⸔Ϟ ໘⧚ⱘᗱᛇᰃᅠܼϡ⦄ᅲⱘDŽ ASN.1໘⧚ᮍ⊩ NCBI᭄ൟ㒣ᐌ㹿ᦤࠄ”NCBI ASN.1”“ASN.1᭄ൟā⏋⎚DŽAbstract Syntax Notation 1˄ASN.1˅ᰃ䰙ᷛޚ㒘㒛˄ISO˅ⱘᷛޚПϔˈᰃЎᦣ䗄㒧ᵘ᭄ֱ䱰ܕ䆌 䅵ㅫᴎ⾡䕃ӊП䯈Ѹᤶ㒧ᵘݙᆍৃ䴴㗏䆥᭄DŽ䇈ϔϾ᭄ൟᰃ⫼ASN.1ݭⱘህ䈵ϔ Ͼ䅵ㅫᴎᑣᰃ⫼&FORTRANݭⱘˈᣛᯢњ䇁㿔㗠ϡᰃᣛᑣᴀ䑿DŽҢ⡍⅞ⱘҹDNAЎЁᖗⱘ 㾚㾦ᴹⳟˈ❳ᙝⱘGenBankḐᓣᅲ䰙ᰃⱘ㒭Ҏ䇏ⱘˈ㗠ASN.1ᰃЎ䅵ㅫᴎ䇏ⱘˈᑊϨ᳝ᴖⱘ ᭄݇㋏ⱘᦣ䗄DŽҢ䖭Ͼㅔऩⱘᔶᓣⳟˈ៥Ӏ߯䗴њϔ㋏߫ⱘҎৃ䇏ⱘḐᓣབEntrezˈ GenBankBLAST᭄ᑧDŽ≵᳝䖭ѯϔ㠀ᛣНϞⱘḐᓣⱘᄬˈEntrez˄㾕ゴ˅ЁⳌ䚏䖲 ݇㋏ⱘᄬᰃϡৃ㛑ⱘDŽ䖭ϔゴᰃ݇ѢNCBI᭄ⱘ㒧ᵘݙᆍҹঞᅗЎ⫳⠽㥃ᄺ᭄ᑧ Ꮉⱘ⫼DŽ݇Ѣ䖭ϾӏࡵḐᓣⱘASN.1䗝ᢽখ㾕Ostellˈ1995DŽ ᅮНᮍᓣ ៥ӀᏆ㒣ᇍNCBI᭄ൟ᠔ᅮНⱘᑣ߫ВњϾ՟ᄤˈৃҹⳟߎNCBI᭄㉏ൟⳌ↨GenBank ࡴЄᆠǃᦣ䗄ࡴ⏙᱄DŽ䆹ൟⱘ䞡⚍ᰃᅗⱘ㒚㡖䯂乬ˈ៥Ӏϟ䴶ᇚᅗ䖯㸠ሩᓔDŽ䖭䞠 ៥Ӏㅔऩഄҟ㒡ϔϟ䆹ൟ㟈ⱘ⧚䆎ᴀॳ⧚DŽ ᇚ᭄䕧ܹ䅵ㅫᴎⱘⳂⱘ᳝ϸϾ˖䞡⦄থ⦄DŽ䞡⦄ᰃᴀⱘ㛑ᡒಲᅗॳᴹⱘᴀ䑿DŽሑㅵ 䖭ᕜ䞡㽕ˈԚབᵰ㛑↨ᡒಲᴀ䑿ᕫࠄⱘֵᙃˈгህᰃ䇈㛑ҢֵᙃЁᕫࠄথ⦄ˈ䖭ᔧ✊ᰃ ᳝ӋؐⱘDŽҢ䆚߿᭄ᑧЁᅠܼϡⳌ݇ⱘϸᴵ᭄Ёথ⦄ᅗӀП䯈ⱘ݇㋏ˈ㗙ᇍ᭄䖯 㸠ᮄ㾦ᑺⱘߚᵤ䅵ㅫˈ⾥ᄺᆊ㛑ҢЁᕫࠄথ⦄DŽᔎ䇗NCBI᭄ൟህᰃЎњ֗䖯䖭⾡থ⦄ˈ Ң㗠ᅮНњ㛑ᦣ䗄ֵᙃ䯈ⱘ㘨㋏䗖ড়䅵ㅫⱘ᭄ൟDŽ ᇍ䖭⾡ൟⱘѠϾ㗗㰥ᰃ〇ᅮᗻDŽNCBIᰃ㕢ᆊᴎᵘ㗠ϡᰃ⬅ϾҎ䌲ࡽⱘˈℸ៤ਬᇍ ᬃᣕ⫳⠽ֵᙃⱘࡾ᳝䭓䖰ⱘ㗗㰥DŽNCBIᦤկњ㾘ⱘ㛑ᬃᣕ⾥ᄺⷨおकᑈⱘֵᙃ㋏ 㒳DŽህ᠔᳝݇Ѣ⫳⠽㥃ᄺᮍ䴶ⱘҎ᠔ⶹˈ䖥कᑈݙৃˈ㛑Ӯ᳝䆌ὖᗉᗻᡔᴃϞⱘ 䴽ੑˈ᠔ҹNCBIᖙ乏䗖ᑨ䖭ѯᮄⱘ㾖⚍ˈ䗖ᑨᇍ䕃ӊ᭄ᮄⱘ㽕∖DŽ᠔ҹ៥Ӏሑ䞣䗝⫼ ᴀ㾖ᆳ᭄⚍ⱘЏ㽕᭄ܗ㋴ˈϡ㗗㰥㾷䞞ⱘḌᖗ䖭ѯܗ㋴ⱘੑৡ˄䖭ѯ䛑ᕜৃ㛑Ӯথ ⫳ব࣪˅DŽ 㓐ড়㗗㰥Ϟ䗄ॳˈNCBI᳝ಯϾḌᖗܗ㋴˖᭛⤂ߎ໘ˈDNAᑣ߫ˈ㲟ⱑ䋼ᑣ߫ϝ㓈㒧ᵘDŽ ϸϾ乍Ⳃ˄ߚ㉏˅㾷䞞ᗻˈԚᰃϡㅵᗢḋˈᅗӀ㒘㒛㘨㋏ᮍ䴶ϔḋ䞡㽕 ᠔ҹNCBI䖭Ͼ乚ඳݙᓎゟњϔϾⳌᔧⱘ⸔DŽ ⠜⠽ߎ ߎ⠜⠽ᰃ⾥ᄺⷨおⱘḌᖗDŽ⾥ᄺֵᙃҢ䖭䞠䖯㸠Ẕᶹǃ䆘ӋǃӴ᪁∌Йⱘ䆄ᔩDŽߎ⠜⠽ৃ ҹ䇈ᰃ⌏ⱘ䖲ᅲ䰙Ёϡৠ㒧ᵘݙᆍඳⱘ᭄ᑧⱘḹṕ˄՟བᶤᑣ᭄߫ᑧЁⱘϔᴵ䆄ᔩ ᑧЁⱘᶤᴵ䆄ᔩৃ㛑ߎ㞾ৠϔ㆛᭛ゴ˅DŽᅗӀ㹿ᔧ㘨㋏ᅲ䰙᭄ᑧⱘ᮴ӋПᅱ ˄Ā៥䇏њ݇Ѣ䖭ᴵ䆄ᔩⱘ᭛ゴˈ⦄៥ᛇⳟⳟ䖭Ͼ᭄ā˅DŽ ߎ⠜⠽гᰃࡳ㛑ⱘᴀ⊼䞞ᅲ䰙᭄ᑧⱘϞϟ᭛ˈг䆌ᰃ᳔དⱘ⊼䞞DŽॳПϔᰃᅲ䰙᭄ ᑧ᳝㛑᳝ᬜՓ⫼䆹᭄ᑧⱘ㒧ᵘˈԚ㔎У䎇ⱘҷ㸼ᗻ㛑㒻㓁䖯㸠ᅠᭈⱘ⫳⠽ⱘǃᅲ偠ⱘ ᶤ䆄ᔩⱘग़Ϟϟ᭛DŽϔᮍ䴶ˈথ㸼ⱘ᭛ゴҙҙফ䇁㿔ⱘ䰤ࠊ↨ˈᅲ䰙᭄ᑧЁⱘ䆄ᔩ ࣙњᅠᭈ䆺㒚ⱘᦣ䗄ֵᙃDŽḍথ㸼᭛ゴⱘݙᆍˈ㗙㹿⾥ᄺৠڮ䆘Ӌˈ㗠ϡᰃḍ ݁ゴ NCBI᭄ൟ 义ⷕˈ4/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,5/15 据数据库中的记录。即使由于要追求更好的目的,科学家在继续工作,即使关于它们的知识 在增长而数据库保持静态的。很少有繁忙的科学家会有兴趣去学习数据库系统,并能保持个 人记录能及时更新。 NCB有一系列进行中的项目能保证 GenBank记录的高可靠性,提供便利和强大的记录更新工 具,以及与科学家日常工作习惯相应的有用数据。不管怎样,与出版物保持可靠的联系能保 证及时对数据库记录进行最丰富的注解。 般来说,实际的数据库并没有对引用的形式和内容进行详细的分析,因此不同数据库之 间,引用的质量、格式和内容等有很大的出入。我们认识到和出版物相互联系的重要性,认 识到科学知识相对文献的动态性以及NCBI的优势(因为NCBI是国际健康组织的国际医药图书 馆的一部分),我们认为仔细和完整的工作是一项有意义的工作,尽管很多专业人士告诫说 这是一项艰巨的任务。以下是一些数据库的说明,可供对NCB有兴趣的科学家和使用者参 考,完整的说明需要另外一章。 作者 在不同的数据库中作者的姓名是有不同的格式的:只有姓、姓和首字母、姓-逗号-首字母 姓/名,名首字母和全称姓的作者、带有和不带有称谓(如Ph.D)或尾缀(Jr.,1)。一些 文献数据库(如 MEDLINE)可能仅用一个固定的数字代表作者。尽管这只是不便于读者阅读, 但这对数据库系统产生了严重的问题,就象 Entrez那样,只能提供按作者姓搜索的简单功 能。由于这个原因,该说明提供了两种可选择的作者姓名代表格式,一个是简单的字符串形 式,另一个是包含姓、名和其它等的结构域。当数据直接被送到NCB|或作者姓名有固定格式 的其它数据库(如 MEDLINE)时使用结构形式。当该形式不能破译是则仍然被看成为字符串形 式,但这时复现受到限制,但至少还是能用其他的方法复现出一些数据的。 即使是结构形式的作者姓名也必须支持多样性,这是因为一些文献只给首字母,而另一些只 给名和中间名。这时要强调两点:第一点,NCB数据格式是为了适合于我们直接阅读以及能 和现存数据相一致;第二点,在一个特殊的资源被转化时软件开发者必须了解该格式的意 义。一般说来,NCB尽量使数据形式满足统一格式,但可能也会使其它的性能下降。 作者的社会关系(如作者的工作地点等)就更加复杂了。至于作者姓名对于支持结构形式和 字符串形式也还有一些问题。然而,即使对那些有统一格式作者姓名的文献来源,也不能将 社会关系分解成结构形式。而且,也有很多作者是属于相同的机构或一个作者参与了几个机 构。NCBI数据模型支持以上情况。尽管在写本文时, MEDLI NEI或 Gen Bank只支持前一种格式, 而两种格式都出现在出版物上。 文章 最常见的生物科学的文献标题是期刊文献,所以对于生物数据库的引用格式缺省为期刊文 献。然而,文章也可能出现在书、手稿以及电子期刊上,数据模型应该能引用书、期刊或手 稿。文章出处占有一个域,其它域用于存储其它的能唯一确定其在书、期刊或手稿中的有用 信息,如文章的作者(对应与书的作者或编辑者)、文章的标题、页码等等 那些能辨识文章出处的域以及对数据库使用者有用的能识别相同文章的域是完全不同的 NCBI出处比对服务(见本章末)使用出处域来区分定位文献的出处,这个比对过程包含能同 时配合相同的期刊名、年份、文章的首页以及文章作者的姓。其他的信息(例如文章标题 页数、全部页数、作者名单)仅用于观看而对输入来源不起作用。作为出处的数据模型要容 许最小信息集能作用,和 MEDLINE比对后,被从 MEDLINE中得到的完整的域所替代,从而满足 科学研究精确的需要。 专利权 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
᭄ᑧЁⱘ䆄ᔩDŽेՓ⬅Ѣ㽕䗑∖དⱘⳂⱘˈ⾥ᄺᆊ㒻㓁ᎹˈेՓ݇ѢᅗӀⱘⶹ䆚 䭓㗠᭄ᑧֱᣕ䴭ᗕⱘDŽᕜᇥ᳝㐕ᖭⱘ⾥ᄺᆊӮ᳝݈䍷এᄺд᭄ᑧ㋏㒳ˈᑊ㛑ֱᣕϾ Ҏ䆄ᔩ㛑ঞᯊᮄDŽ NCBI᳝ϔ㋏߫䖯㸠Ёⱘ乍Ⳃ㛑ֱ䆕GenBank䆄ᔩⱘ催ৃ䴴ᗻˈᦤկ߽֓ᔎⱘ䆄ᔩᮄᎹ ˈҹঞϢ⾥ᄺᆊ᮹ᐌᎹдᛃⳌᑨⱘ᳝⫼᭄DŽϡㅵᗢḋˈϢߎ⠜⠽ֱᣕৃ䴴ⱘ㘨㋏㛑ֱ 䆕ঞᯊᇍ᭄ᑧ䆄ᔩ䖯㸠᳔Єᆠⱘ⊼㾷DŽ ϔ㠀ᴹ䇈ˈᅲ䰙ⱘ᭄ᑧᑊ≵᳝ᇍᓩ⫼ⱘᔶᓣݙᆍ䖯㸠䆺㒚ⱘߚᵤˈℸϡৠ᭄ᑧП 䯈ˈᓩ⫼ⱘ䋼䞣ǃḐᓣݙᆍㄝ᳝ᕜⱘߎܹDŽ៥Ӏ䅸䆚ࠄߎ⠜⠽ⳌѦ㘨㋏ⱘ䞡㽕ᗻˈ䅸 䆚ࠄ里ᄺⶹ䆚Ⳍᇍ᭛⤂ⱘࡼᗕᗻҹঞNCBIⱘӬ˄ЎNCBIᰃ䰙عᒋ㒘㒛ⱘ䰙ए㥃к 佚ⱘϔ䚼ߚˈ˅៥Ӏ䅸ЎҨ㒚ᅠᭈⱘᎹᰃϔ乍᳝ᛣНⱘᎹˈሑㅵᕜϧϮҎਞ䆿䇈 䖭ᰃϔ乍㡄ᎼⱘӏࡵDŽҹϟᰃϔѯ᭄ᑧⱘ䇈ᯢˈৃկᇍNCBI᳝݈䍷ⱘ⾥ᄺᆊՓ⫼㗙খ 㗗ˈᅠᭈⱘ䇈ᯢ䳔㽕ϔゴDŽ 㗙 ϡৠⱘ᭄ᑧЁ㗙ⱘྦྷৡᰃ᳝ϡৠⱘḐᓣⱘ˖া᳝ྦྷǃྦྷ佪ᄫ↡ǃྦྷ䗫ো佪ᄫ↡ǃ ྦྷৡˈৡ佪ᄫ↡ܼ⿄ྦྷⱘ㗙ǃᏺ᳝ϡᏺ᳝⿄䇧˄བPh.D˅ሒ㓔˄Jr.ˈIII˅DŽϔѯ ᭛⤂᭄ᑧ˄བMEDLINE˅ৃ㛑ҙ⫼ϔϾᅮⱘ᭄ᄫҷ㸼㗙DŽሑㅵ䖭াᰃϡ֓Ѣ䇏㗙䯙䇏ˈ Ԛ䖭ᇍ᭄ᑧ㋏㒳ѻ⫳њϹ䞡ⱘ䯂乬ˈህ䈵Entrez䙷ḋˈা㛑ᦤկᣝ㗙ྦྷ᧰㋶ⱘㅔऩࡳ 㛑DŽ⬅Ѣ䖭Ͼॳˈ䆹䇈ᯢᦤկњϸ⾡ৃ䗝ᢽⱘ㗙ྦྷৡҷ㸼ḐᓣˈϔϾᰃㅔऩⱘᄫヺІᔶ ᓣˈϔϾᰃࣙྦྷǃৡ݊ᅗㄝⱘ㒧ᵘඳDŽᔧ᭄Ⳉ㹿䗕ࠄNCBI㗙ྦྷৡ᳝ᅮḐᓣ ⱘ݊ᅗ᭄ᑧ˄བMEDLINE˅ᯊՓ⫼㒧ᵘᔶᓣDŽᔧ䆹ᔶᓣϡ㛑⸈䆥ᰃ߭ҡ✊㹿ⳟ៤ЎᄫヺІᔶ ᓣˈԚ䖭ᯊ⦄ফࠄ䰤ࠊˈԚ㟇ᇥ䖬ᰃ㛑⫼݊Ҫⱘᮍ⊩⦄ߎϔѯ᭄ⱘDŽ ेՓᰃ㒧ᵘᔶᓣⱘ㗙ྦྷৡгᖙ乏ᬃᣕḋᗻˈ䖭ᰃЎϔѯ᭛⤂া㒭佪ᄫ↡ˈ㗠ϔѯা 㒭ৡЁ䯈ৡDŽ䖭ᯊ㽕ᔎ䇗ϸ⚍˖ϔ⚍ˈNCBI᭄ḐᓣᰃЎњ䗖ড়Ѣ៥ӀⳈ䯙䇏ҹঞ㛑 ⦄ᄬ᭄Ⳍϔ㟈˗Ѡ⚍ˈϔϾ⡍⅞ⱘ䌘⑤㹿䕀࣪ᯊ䕃ӊᓔথ㗙ᖙ乏њ㾷䆹Ḑᓣⱘᛣ НDŽϔ㠀䇈ᴹˈNCBIሑ䞣Փ᭄ᔶᓣ⒵䎇㒳ϔḐᓣˈԚৃ㛑гӮՓ݊ᅗⱘᗻ㛑ϟ䰡DŽ 㗙ⱘ⼒Ӯ݇㋏˄བ㗙ⱘᎹഄ⚍ㄝ˅ህࡴᴖњDŽ㟇Ѣ㗙ྦྷৡᇍѢᬃᣕ㒧ᵘᔶᓣ ᄫヺІᔶᓣг䖬᳝ϔѯ䯂乬DŽ✊㗠ˈेՓᇍ䙷ѯ᳝㒳ϔḐᓣ㗙ྦྷৡⱘ᭛⤂ᴹ⑤ˈгϡ㛑ᇚ ⼒Ӯ݇㋏ߚ㾷៤㒧ᵘᔶᓣDŽ㗠Ϩˈг᳝ᕜ㗙ᰃሲѢⳌৠⱘᴎᵘϔϾ㗙খϢњϾᴎ ᵘDŽNCBI᭄ൟᬃᣕҹϞᚙމDŽሑㅵݭᴀ᭛ᯊˈMEDLINEGenBankাᬃᣕࠡϔ⾡Ḑᓣˈ 㗠ϸ⾡Ḑᓣ䛑ߎ⦃ߎ⠜⠽ϞDŽ ᭛ゴ ᳔ᐌ㾕ⱘ⫳⠽⾥ᄺⱘ᭛⤂ᷛ乬ᰃᳳߞ᭛⤂ˈ᠔ҹᇍѢ⫳⠽᭄ᑧⱘᓩ⫼Ḑᓣ㔎ⳕЎᳳߞ᭛ ⤂DŽ✊㗠ˈ᭛ゴгৃ㛑ߎ⦃кǃ〓ҹঞ⬉ᄤᳳߞϞˈ᭄ൟᑨ䆹㛑ᓩ⫼кǃᳳߞ 〓DŽ᭛ゴߎ໘ऴ᳝ϔϾඳˈ݊ᅗඳ⫼Ѣᄬټ݊ᅗⱘ㛑ଃϔ⹂ᅮ݊кǃᳳߞ〓Ёⱘ᳝⫼ ֵᙃˈབ᭛ゴⱘ㗙˄ᇍᑨϢкⱘ㗙㓪䕥㗙˅ǃ᭛ゴⱘᷛ乬ǃ义ⷕㄝㄝDŽ 䙷ѯ㛑䕼䆚᭛ゴߎ໘ⱘඳҹঞᇍ᭄ᑧՓ⫼㗙᳝⫼ⱘ㛑䆚߿Ⳍৠ᭛ゴⱘඳᰃᅠܼϡৠⱘDŽ NCBIߎ໘↨ᇍ᳡ࡵ˄㾕ᴀゴ˅Փ⫼ߎ໘ඳᴹऎߚᅮԡ᭛⤂ⱘߎ໘ˈ䖭Ͼ↨ᇍ䖛ࣙ㛑ৠ ᯊ䜡ড়Ⳍৠⱘᳳߞৡǃᑈӑǃ᭛ゴⱘ佪义ҹঞ᭛ゴ㗙ⱘྦྷDŽ݊Ҫⱘֵᙃ˄՟བ᭛ゴᷛ乬ǃ 义᭄ǃܼ䚼义᭄ǃ㗙ৡऩ˅ҙ⫼Ѣ㾖ⳟ㗠ᇍ䕧ܹᴹ⑤ϡ䍋⫼DŽЎߎ໘ⱘ᭄ൟ㽕ᆍ 䆌᳔ᇣֵᙃ䲚㛑⫼ˈMEDLINE↨ᇍৢˈ㹿ҢMEDLINEЁᕫࠄⱘᅠᭈⱘඳ᠔᳓ҷˈҢ㗠⒵䎇 ⾥ᄺⷨお㊒⹂ⱘ䳔㽕DŽ ϧ߽ᴗ ݁ゴ NCBI᭄ൟ 义ⷕˈ5/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,6/15 随着专利的出现,我们需要将专利而不是文章当作文献条目进行引用。NCB支持由美国专利 局合作的完整的专利引用顺序。实际上,专利说明书倾向于限制科学的作用,理由如下: 专利是合法的文献而不是科学的文献,它的目的是支持专利的声明和存在,而不是完全描述 生物的过程。这是为在律师办公室的情况,不是为做研究的科学家。所以存在的说明书只是 解释专利中的一些方面,而不是文章的核心。只要不是基因的专利,组织信息、生物特征位 点等等根本不可能出现。不管怎样大多数出现在专利说明书中的序列也以一些更有用的格式 (对科学家)出现在公共数据库中。 从NCB的观点, Gen Bank列出专利说明中的序列的目的是能复现序列本身(通过相似性比 较),用以定位和某序列相关的专利。这种情况下要实现合法的确定,我们必须检査专利的 全文。要评价生物序列,人们必须定位专利中没有包含的信息。这里的联系是序列和专利号 之间的联系。其它在专利定位中使用的域是诸如专利名称和发明者的姓名等 引用电子数据 和 Gen bank类似,这是一类相对新的包含了数据提交数据库的方法的方案,这也是一种形式但 又和一般期刊不完全相同的出版物。在一般情况下,文章的出版需要经过相当长的时间,而 且从来没有数据库的积累会赶在发表之前,因此数据的积累会有一定的间隔。提交的数据由 于是一种形式的出版物可能包含了在本记录中工作过的科学家的姓名,这和真正出版物列出 的名单可能不一致。大多数情况下提交数据给数据库的科学家是提交数据的作者,但也不完 全是,特别是大序列中心。最终NCB提出了也引用修改的记录,在记录的修改栏里做简单的 注释,注释记录的变化,所有的提交数据都在记录中保存留下编辑的历史记录。 MEDLI NE和 PubMed ul ds 旦文章的出处和 MEDLINE中的匹配,最简单和最可靠的方法去找到该篇文章的方法是 MEDLINE唯一辨识器(MD),这是一个简单的整数。NCB|提供了许多服务去使用MU|D来恢复 出处和从MUD获得摘要、将数据和文章联系起来或者提供WW的网上连接 最近根据和 MEDLINE以及许多出版者的协定,NCB提出了 PubMed。和直接由出版者提供类似, PubMed包含了所有的 MEDLI NE,而且 PubMed还包含了最近出版的文章,还包括了一些由于它们 的主题原因将永远不能在 MEDLI NE中出现的文章。这时,NCB提出了一种新的文章辨识器叫 PubMed辨识器(PM|D)。出现在 MEDLI NE中的文章将同时有PMD和MUD。只出现在 PubMed中的 文章则只有PMD。PMD和MuD提供了相同的目的是提供一种简单可靠的和出处的连接或一种 方法建立网上热连接。NCB|现在正将所有的服务转向使用PM|D。 NCBI数据模型存储了大部分的出处,即所谓的出版等价物,是由一系列的出处等价物组成, 复,因为辨识器提供了一个可靠的记录的出处的联系或是说索引。 Seq-ldS:序列标识 NCB|数据模型定义了一类对象,被称为序列辨识器( Seql d)。需要这类对象是因为NCB合成 了许多用不同方法命名的数据源并且这些名字具有不同的含义。例如一个简单的情况:PIR, SⅧISs-PRoT和核甘酸序列数据库都使用有类似格式的序列号,光说"A10234″是不能唯一地 从所有这些数据库集合中找到序列记录的。我们必须区别从SMSs-P0RT和从PR中的A10234。 (DDBJ/EMBL/ GenBank核酸数据库共用一套序列号,所以从EMBL中的A12345和从 Gen Bank中的 A12345是相同的。)这些形式也可能是不相同的,因此当序列数据库处理仅考虑包含一序列 的一条记录时,PDB记录只有一个简单的结构,该结构有可能包含不只一个序列。所以PDB的 Seql d包含了分子名称和链状|D去标识一个唯一的序列。下面一部分就叙述通常使用的几种 Seql d的格式以及使用。 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
䱣ⴔϧ߽ⱘߎˈ⦃៥Ӏ䳔㽕ᇚϧ߽㗠ϡᰃ᭛ゴᔧ᭛⤂ᴵⳂ䖯㸠ᓩ⫼DŽNCBIᬃᣕ⬅㕢ϧ߽ ሔড়ⱘᅠᭈⱘϧ߽ᓩ⫼乎ᑣDŽᅲ䰙Ϟˈϧ߽䇈ᯢкؒѢ䰤ࠊ里ᄺⱘ⫼ˈ⧚⬅བϟ˖ ϧ߽ᰃড়⊩ⱘ᭛⤂㗠ϡᰃ⾥ᄺⱘ᭛⤂ˈᅗⱘⳂⱘᰃᬃᣕϧ߽ⱘໄᯢᄬˈ㗠ϡᰃᅠܼᦣ䗄 ⫳⠽ⱘ䖛DŽ䖭ᰃЎᕟᏜࡲ݀ᅸⱘᚙމˈϡᰃЎخⷨおⱘ⾥ᄺᆊDŽ᠔ҹᄬⱘ䇈ᯢкাᰃ 㾷䞞ϧ߽Ёⱘϔѯᮍ䴶ˈ㗠ϡᰃ᭛ゴⱘḌᖗDŽা㽕ϡᰃⱘϧ߽ˈ㒘㒛ֵᙃǃ⫳⠽⡍ᕕԡ ⚍ㄝㄝḍᴀϡৃ㛑ߎ⦃DŽϡㅵᗢḋ᭄ߎ⦃ϧ߽䇈ᯢкЁⱘᑣ߫гҹϔѯ᳝⫼ⱘḐᓣ ˄ᇍ⾥ᄺᆊ˅ߎ݅݀⦃᭄ᑧЁDŽ ҢNCBIⱘ㾖⚍ˈGenBank߫ߎϧ߽䇈ᯢЁⱘᑣ߫ⱘⳂⱘᰃ㛑⦄ᑣ߫ᴀ䑿˄䗮䖛ⳌԐᗻ↨ 䕗˅ˈ⫼ҹᅮԡᶤᑣ߫Ⳍ݇ⱘϧ߽DŽ䖭⾡ᚙމϟ㽕ᅲ⦄ড়⊩ⱘ⹂ᅮˈ៥Ӏᖙ乏Ẕᶹϧ߽ⱘ ܼ᭛DŽ㽕䆘Ӌ⫳⠽ᑣ߫ˈҎӀᖙ乏ᅮԡϧ߽Ё≵᳝ࣙⱘֵᙃDŽ䖭䞠ⱘ㘨㋏ᰃᑣ߫ϧ߽ো П䯈ⱘ㘨㋏DŽ݊ᅗϧ߽ᅮԡЁՓ⫼ⱘඳᰃ䇌བϧ߽ৡ⿄থᯢ㗙ⱘྦྷৡㄝDŽ ᓩ⫼⬉ᄤ᭄ GenBank㉏Ԑˈ䖭ᰃϔ㉏Ⳍᇍᮄⱘࣙњ᭄ᦤѸ᭄ᑧⱘᮍ⊩ⱘᮍḜˈ䖭гᰃϔ⾡ᔶᓣԚ জϔ㠀ᳳߞϡᅠܼⳌৠⱘߎ⠜⠽DŽϔ㠀ᚙމϟˈ᭛ゴⱘߎ⠜䳔㽕㒣䖛Ⳍᔧ䭓ⱘᯊ䯈ˈ㗠 ϨҢᴹ≵᭄᳝ᑧⱘ⿃㌃Ӯ䍊থ㸼Пࠡˈℸ᭄ⱘ⿃㌃Ӯ᳝ϔᅮⱘ䯈䱨DŽᦤѸⱘ᭄⬅ Ѣᰃϔ⾡ᔶᓣⱘߎ⠜⠽ৃ㛑ࣙњᴀ䆄ᔩЁᎹ䖛ⱘ⾥ᄺᆊⱘྦྷৡˈ䖭ⳳℷߎ⠜⠽߫ߎ ⱘৡऩৃ㛑ϡϔ㟈DŽ᭄ᚙމϟᦤѸ᭄㒭᭄ᑧⱘ⾥ᄺᆊᰃᦤѸ᭄ⱘ㗙ˈԚгϡᅠ ܼᰃˈ⡍߿ᰃᑣ߫ЁᖗDŽ᳔㒜NCBIᦤߎњгᓩ⫼ׂᬍⱘ䆄ᔩˈ䆄ᔩⱘׂᬍᷣ䞠خㅔऩⱘ ⊼䞞ˈ⊼䞞䆄ᔩⱘব࣪ˈ᠔᳝ⱘᦤѸ᭄䛑䆄ᔩЁֱᄬ⬭ϟ㓪䕥ⱘग़䆄ᔩDŽ MEDLINEPubMed UIDs ϔᮺ᭛ゴⱘߎ໘MEDLINEЁⱘऍ䜡ˈ᳔ㅔऩ᳔ৃ䴴ⱘᮍ⊩এᡒࠄ䆹㆛᭛ゴⱘᮍ⊩ᰃ MEDLINEଃϔ䕼䆚఼˄MUID˅ˈ䖭ᰃϔϾㅔऩⱘᭈ᭄DŽNCBIᦤկњ䆌᳡ࡵএՓ⫼MUIDᴹᘶ ߎ໘ҢMUID㦋ᕫᨬ㽕ǃᇚ᭄᭛ゴ㘨㋏䍋ᴹ㗙ᦤկWWWⱘ㔥Ϟ䖲DŽ ᳔䖥ḍMEDLINEҹঞ䆌ߎ⠜㗙ⱘणᅮˈNCBIᦤߎњPubMedDŽⳈ⬅ߎ⠜㗙ᦤկ㉏Ԑˈ PubMedࣙњ᠔᳝ⱘMEDLINEˈ㗠ϨPubMed䖬ࣙњ᳔䖥ߎ⠜ⱘ᭛ゴˈ䖬ࣙᣀњϔѯ⬅ѢᅗӀ ⱘЏ乬ॳᇚ∌䖰ϡ㛑MEDLINEЁߎ⦃ⱘ᭛ゴDŽ䖭ᯊˈNCBIᦤߎњϔ⾡ᮄⱘ᭛ゴ䕼䆚఼ি PubMed䕼䆚఼˄PMID˅DŽߎ⦃MEDLINEЁⱘ᭛ゴᇚৠᯊ᳝PMIDMUIDDŽাߎ⦃PubMedЁⱘ ᭛ゴ߭া᳝PMIDDŽPMIDMUIDᦤկњⳌৠⱘⳂⱘᰃᦤկϔ⾡ㅔऩৃ䴴ⱘߎ໘ⱘ䖲ϔ⾡ ᮍ⊩ᓎゟ㔥Ϟ⛁䖲DŽNCBI⦄ℷᇚ᠔᳝ⱘ᳡ࡵ䕀Փ⫼PMIDDŽ NCBI᭄ൟᄬټњ䚼ߚⱘߎ໘ˈे᠔䇧ⱘߎ⠜ㄝӋ⠽ˈᰃ⬅ϔ㋏߫ⱘߎ໘ㄝӋ⠽㒘៤ˈ ࣙᣀৃ䴴ⱘ䕼䆚఼˄PMIDMUID˅ߎ໘ᴀ䑿DŽߎ໘ḐᓣⱘᄬՓᕫϡ⫼Ң᭄ᑧЁ⡍߿ᘶ ˈЎ䕼䆚఼ᦤկњϔϾৃ䴴ⱘ䆄ᔩⱘߎ໘ⱘ㘨㋏ᰃ䇈㋶ᓩDŽ Seq-IdS˖ᑣ߫ᷛ䆚 NCBI᭄ൟᅮНњϔ㉏ᇍ䈵ˈ㹿⿄Ўᑣ߫䕼䆚఼˄SeqId˅DŽ䳔㽕䖭㉏ᇍ䈵ᰃЎNCBIড়៤ њ䆌⫼ϡৠᮍ⊩ੑৡⱘ᭄⑤ᑊϨ䖭ѯৡᄫ᳝ϡৠⱘНDŽ՟བϔϾㅔऩⱘᚙމ˖PIRˈ SWISS-PROTḌ⫬䝌ᑣ᭄߫ᑧ䛑Փ⫼᳝㉏ԐḐᓣⱘᑣ߫োˈܝ䇈“A10234”ᰃϡ㛑ଃϔഄ Ң᠔᳝䖭ѯ᭄ᑧ䲚ড়Ёᡒࠄᑣ߫䆄ᔩⱘDŽ៥Ӏᖙ乏ऎ߿ҢSWISS-PORTҢPIRЁⱘA10234DŽ ˄DDBJ/EMBL/GenBankḌ䝌᭄ᑧ݅⫼ϔ༫ᑣ߫োˈ᠔ҹҢEMBLЁⱘA12345ҢGenBankЁⱘ A12345ᰃⳌৠⱘDŽ˅䖭ѯᔶᓣгৃ㛑ᰃϡⳌৠⱘˈℸᔧᑣ᭄߫ᑧ໘⧚ҙ㗗㰥ࣙϔᑣ߫ ⱘϔᴵ䆄ᔩᯊˈPDB䆄ᔩা᳝ϔϾㅔऩⱘ㒧ᵘˈ䆹㒧ᵘ᳝ৃ㛑ࣙϡাϔϾᑣ߫DŽ᠔ҹPDBⱘ SeqIdࣙњߚᄤৡ⿄䫒⢊IDএᷛ䆚ϔϾଃϔⱘᑣ߫DŽϟ䴶ϔ䚼ߚህভ䗄䗮ᐌՓ⫼ⱘ辵 SeqIdⱘḐᓣҹঞՓ⫼DŽ ݁ゴ NCBI᭄ൟ 义ⷕˈ6/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,7/15 L0CUS名称 L0CUS出现在 Gen Bank中的L0CUS行以及DBJ记录( EMBLE的1D行)是 Gen Bank中最初的辨识器 就象基因L0CUS名称一样,它兼有唯一辨识器、功能记忆以及序列的组织源等功能。由于 L0CUS行是有固定的格式,L0CUS的名称限制在少于或等于10个数字或大写字母。在 Gen Bank 中,名字的前三个字母是组织码,剩下的字母是基因码(如: HUMHBE代表人体β-球蛋白区 域)。然而,当该区域的功能和原先设想的功能不同时,L0CUS中的基因码会发生变化。这种 不稳定性显然是复现中的一个问题。另一个问题是 Gen Bank中的序列和组织随时间呈几何指数 增长,这使得发明或修改记忆名称是不可能的。基于以上几点使得L0CUS名称在 GenBank中不 再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。 序列号 由于使用L0CUS(或1D)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者 们(DDBJ/EMBL/ Gen Bank)引入了序列号。开始时它不具有生物意义是为了保证其相对的稳定 性。它是由一个大写字母和五个数字组成。(新的序列号是由两个大写字母和六个数字组 成。)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。 序列号是对L0CUS/D号的改进,但实际使用中,问题和不足是显然的。例如,当序列对于时 间是稳定时,许多使用者发现用相同的序列号复现出的序列并不总是相同的。这是因为序列 号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了1000bp)的时 候,序列号不变(只是相同记录的升级版)。如果我们分析起始序列和记录序列U0000的第 100个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第100个位置上 序列号出现在 GenBank的 ACCESS|ON行上。该行的第一个序列号称为基本序列号,它是复现该 记录的关键,大部分记录只有这个序列号。第二级序列号是为了给该记录提供历史信息。例 如如果U00001和U00002是同一个记录的不同版本,则U00002将成为一个新记录的基本序列 号,U0000是二级序列号。在实际的标准中U0000记录将从 Gen Bank中删除因为旧的记录已经 过时,二级序列号将取代旧的成为用户需要复现的记录。这时应该标注二级序列号不是指同 对象,所以用户应仔细检查它们的注释。(数据库的不同,甚至是同一数据库的不同时 间)使用二级序列号也有自己的问题,这是因为没有足够的信息去确定怎样发生和为什么会 发生。但不管怎样,序列号仍然是DBJ/ EMBL/Gen Bank记录恢复中最可控最稳定的方法。 G|号 1992年NCB开始对所有 Entrez中的序列使用基因信息号(gi),其中包含从 DDBJ/EMBL/ Gen Bank中的核酸序列、根据CDS特征翻译的蛋白质序列以及从SWSS-PROT、PIR、 PRE、PDB、专利以及其它得到的蛋白质序列等。Gi是由原数据库提供的另外的 Seql d。尽管由 于原数据库的不同Seqd的形式和意义不同,但gi在意义和形式上对不同源数据库是相同的 在形式上,它只是简单的整数(所以有时被称为G号)。它只是一些特定序列的辨识器。假 定一个序列加入 Gen Bank,给定序列号U00001。当该序列在NCB所内部处理时,它加入所谓的 D数据库。1D确认以前从未见过U0001就给它一个g号54。当提交器通过改变出处修改记 录时,U00001又加入1D。ID认出该记录出现过,恢复原先的U00001和新记录进行比较,如果 完全相同,则给该记录g号54:如果不相同,即使只有一对碱基不同,则给新gi号88。然而 因为原数据库的意义,新序列仍保持序列号U001。这时1D标识旧记录(gi54)的替换时 间,并将它加入历史指示它被gi88的记录替代。1D也加入历史gi88指出它替代了gi54 Gi号有三种主要功能 1.提供了从多源数据库序列间的简单标志 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
LOCUSৡ⿄ LOCUSߎ⦃GenBankЁⱘLOCUS㸠ҹঞDDBJ䆄ᔩ˄EMBLEⱘID㸠˅ᰃGenBankЁ᳔߱ⱘ䕼䆚఼DŽ ህ䈵LOCUSৡ⿄ϔḋˈᅗݐ᳝ଃϔ䕼䆚఼ǃࡳ㛑䆄ᖚҹঞᑣ߫ⱘ㒘㒛⑤ㄝࡳ㛑DŽ⬅Ѣ LOCUS㸠ᰃ᳝ᅮⱘḐᓣˈLOCUSⱘৡ⿄䰤ࠊᇥѢㄝѢ10Ͼ᭄ᄫݭᄫ↡DŽGenBank ЁˈৡᄫⱘࠡϝϾᄫ↡ᰃ㒘㒛ⷕˈ࠽ϟⱘᄫ↡ᰃⷕ˄བ˖HUMHBBҷ㸼ҎԧE -⧗㲟ⱑऎ ඳ˅DŽ✊㗠ˈᔧ䆹ऎඳⱘࡳ㛑ॳܜ䆒ᛇⱘࡳ㛑ϡৠᯊˈLOCUSЁⱘⷕӮথ⫳ব࣪DŽ䖭⾡ ϡ〇ᅮᗻᰒ✊ᰃ⦄ЁⱘϔϾ䯂乬DŽϔϾ䯂乬ᰃGenBankЁⱘᑣ߫㒘㒛䱣ᯊ䯈ਜԩᣛ᭄ 䭓ˈ䖭Փᕫথᯢׂᬍ䆄ᖚৡ⿄ᰃϡৃ㛑ⱘDŽѢҹϞ⚍ՓᕫLOCUSৡ⿄GenBankЁϡ ݡЎ᳝⫼ⱘৡ⿄ˈሑㅵᅗᇚ∌䖰ᄬ᭄ⱘ佪㸠ˈ䖭াᰃЎњҹᕔⱘ᭄ḐᓣݐᆍDŽ ᑣ߫ো ⬅ѢՓ⫼LOCUS˄ID˅ৡ⿄ЎᇍḌ䝌ᑣ߫ଃϔ䕼䆚఼ⱘೄ䲒ˈ䰙Ḍ䝌ᑣ᭄߫ᑧড়㗙 Ӏ˄DDBJ/EMBL/GenBank˅ᓩܹњᑣ߫োDŽᓔྟᯊᅗϡ⫳᳝⠽ᛣНᰃЎњֱ䆕݊Ⳍᇍⱘ〇ᅮ ᗻDŽᅗᰃ⬅ϔϾݭᄫ↡ѨϾ᭄ᄫ㒘៤DŽ˄ᮄⱘᑣ߫োᰃ⬅ϸϾݭᄫ↡݁Ͼ᭄ᄫ㒘 ៤DŽ˅佪ᄫ↡ᰃЎњߚ䜡ࠄϡৠⱘ᭄ᑧҹ֓ᑣ߫োᇍѢϡৠⱘ᭄ᑧᰃଃϔⱘDŽ ᑣ߫োᰃᇍLOCUS/IDোⱘᬍ䖯ˈԚᅲ䰙Փ⫼Ёˈ䯂乬ϡ䎇ᰃᰒ✊ⱘDŽ՟བˈᔧᑣ߫ᇍѢᯊ 䯈ᰃ〇ᅮᯊˈ䆌Փ⫼㗙থ⦄⫼Ⳍৠⱘᑣ߫ো⦄ߎⱘᑣ߫ᑊϡᘏᰃⳌৠⱘDŽ䖭ᰃЎᑣ߫ োᷛᯢњᭈϾ᭄ᑧⱘ䆄ᔩˈϔᮺ䆄ᔩ㹿ׂᬍњ˄㗙䇈Ңᓔྟ䚼ߚᦦܹњ1000bp˅ⱘᯊ ˈᑣ߫োϡব˄াᰃⳌৠ䆄ᔩⱘछ㑻⠜˅DŽབᵰ៥Ӏߚᵤ䍋ྟᑣ߫䆄ᔩᑣ߫U00001ⱘ 100Ͼԡ㕂؛䆒ᰃϢ㲟ⱑ䋼Ⳍ݇ⱘԡ⚍ˈछ㑻ৢϔϾᅠܼϡৠⱘᑣ߫ᇚ100Ͼԡ㕂ϞDŽ ᑣ߫োߎ⦃GenBankⱘACCESSION㸠ϞDŽ䆹㸠ⱘϔϾᑣ߫ো⿄Ўᴀᑣ߫োˈᅗᰃ⦄䆹 䆄ᔩⱘ݇䬂ˈ䚼ߚ䆄ᔩা᳝䖭Ͼᑣ߫োDŽѠ㑻ᑣ߫োᰃЎњ㒭䆹䆄ᔩᦤկग़ֵᙃDŽ՟ བབᵰU00001U00002ᰃৠϔϾ䆄ᔩⱘϡৠ⠜ᴀˈ߭U00002ᇚ៤ЎϔϾᮄ䆄ᔩⱘᴀᑣ߫ োˈU00001ᰃѠ㑻ᑣ߫োDŽᅲ䰙ⱘᷛޚЁU00001䆄ᔩᇚҢGenBankЁߴ䰸Ўᮻⱘ䆄ᔩᏆ㒣 䖛ᯊˈѠ㑻ᑣ߫োᇚপҷᮻⱘ៤Ў⫼᠋䳔㽕⦄ⱘ䆄ᔩDŽ䖭ᯊᑨ䆹ᷛ⊼Ѡ㑻ᑣ߫োϡᰃᣛৠ ϔᇍ䈵ˈ᠔ҹ⫼᠋ᑨҨ㒚ẔᶹᅗӀⱘ⊼䞞DŽ˄᭄ᑧⱘϡৠˈ⫮㟇ᰃৠϔ᭄ᑧⱘϡৠᯊ 䯈˅Փ⫼Ѡ㑻ᑣ߫োг᳝㞾Ꮕⱘ䯂乬ˈ䖭ᰃЎ≵᳝䎇ⱘֵᙃএ⹂ᅮᗢḋথ⫳ЎҔМӮ থ⫳DŽԚϡㅵᗢḋˈᑣ߫োҡ✊ᰃDDBJ/EMBL/GenBank䆄ᔩᘶЁ᳔ৃ᳔〇ᅮⱘᮍ⊩DŽ Giো 1992ᑈNCBIᓔྟᇍ᠔᳝EntrezЁⱘᑣ߫Փ⫼ֵᙃো˄gi˅ˈ݊ЁࣙҢ DDBJ/EMBL/GenBankЁⱘḌ䝌ᑣ߫ǃḍCDS⡍ᕕ㗏䆥ⱘ㲟ⱑ䋼ᑣ߫ҹঞҢSWISS-PROTǃPIRǃ PREǃPDBǃϧ߽ҹঞ݊ᅗᕫࠄⱘ㲟ⱑ䋼ᑣ߫ㄝDŽGiᰃ⬅ॳ᭄ᑧᦤկⱘⱘSeqIdDŽሑㅵ⬅ Ѣॳ᭄ᑧⱘϡৠSeqIdⱘᔶᓣᛣНϡৠˈԚgiᛣНᔶᓣϞᇍϡৠ⑤᭄ᑧᰃⳌৠⱘDŽ ᔶᓣϞˈᅗাᰃㅔऩⱘᭈ᭄˄᠔ҹ᳝ᯊ㹿⿄ЎGIো˅DŽᅗাᰃϔѯ⡍ᅮᑣ߫ⱘ䕼䆚఼DŽ؛ ᅮϔϾᑣ߫ࡴܹGenBankˈ㒭ᅮᑣ߫োU00001DŽᔧ䆹ᑣ߫NCBI᠔ݙ䚼໘⧚ᯊˈᅗࡴܹ᠔䇧ⱘ ID᭄ᑧDŽID⹂䅸ҹࠡҢ㾕䖛U00001ˈህ㒭ᅗϔϾgiো54DŽᔧᦤѸ఼䗮䖛ᬍবߎ໘ׂᬍ䆄 ᔩᯊˈU00001জࡴܹIDDŽID䅸ߎ䆹䆄ᔩߎ⦃䖛ˈᘶॳܜⱘU00001ᮄ䆄ᔩ䖯㸠↨䕗ˈབᵰ ᅠܼⳌৠˈ߭㒭䆹䆄ᔩgiো54˗བᵰϡⳌৠˈेՓা᳝ϔᇍ⺅ϡৠˈ߭㒭ᮄgiো88DŽ✊㗠 Ўॳ᭄ᑧⱘᛣНˈᮄᑣ߫ҡֱᣕᑣ߫োU00001DŽ䖭ᯊIDᷛ䆚ᮻ䆄ᔩ˄gi54˅ⱘ᳓ᤶᯊ 䯈ˈᑊᇚᅗࡴܹग़ᣛ⼎ᅗ㹿gi88ⱘ䆄ᔩ᳓ҷDŽIDгࡴܹग़gi88ᣛߎᅗ᳓ҷњgi54DŽ Giো᳝ϝ⾡Џ㽕ࡳ㛑˖ 1. ᦤկњҢ⑤᭄ᑧᑣ߫䯈ⱘㅔऩᷛᖫ˗ ݁ゴ NCBI᭄ൟ 义ⷕˈ7/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,8/15 Q 2.提供了指示特别序列的标志。任何分析g54存储分析的人可以肯定只要U0000gi54 它就是有效的 3.它是稳定且可恢复的。NCB|保持每个gi号的最新版本。由于历史在记录中存在,任何发 现g54不再是 Gen Bank的一部分的人仍然可以通过MCB的1D复现该记录,通过查看历史 可以看到它被g8替代。检查gi54和gi88可以确定它们的关系,研究人员可以映射以前 的分析到gi88或者重新分析数据。由于gi54在D中总是存在的,这使得我们可以随时分 析时局而不仅限于 Gen Bank发行时间 基于上述原因,从计算 Entrez序列邻居到确定新序列的处理或 BLAST数据库的产生所有 NCB|的内部处理序列都是基于gi号。 NI D/PI DS Gen Bank中的ND和PD指示了核酸的gi号和记录的蛋白质序列。补充这个是使希望能在一个平 台上计算序列的科学家能利用稳定的qi号去追踪序列。正象前面提到的,使用g号而不是用 序列号将保持使用有效,即使记录的序列以后发生变化(例如,5′端) 在写本文时,又出现了一种新的 Seql d(序列版本,见下文),它是被用于选择的序列辨识 器。一旦这种转变完成,可能ND和P|D号将不再出现在数据格式中,尽管使用g号的分析将 继续有效。而且,初始数据将出现在NCB准备与 GenBank数据平行的ASN.1文件中。 序列版本组合辨识器 最近,国际核酸序列数据库联合会(DDBJ,EMBL和 Gen Bank)同意引入一种更好的辨识器。这 种辨识器是组合了序列(标明特定的序列记录)和版本号(根据序列本身变化)。这种 Seql d 被期望成为理想的引用序列的方法。 使用者将仍能够仅仅基于序列号就能复现记录而不需要特殊的版本号。这种情况下,将得到 该记录的最新版本,这也是 Entrez和其它复现程序现在所作的工作 分析数据库数据的科学家(例如将所有脱水酒精序列用一种特定分类方法中分离)和希望他 们的结论保持有效的科学家希望能参考序列号和版本号。某序列的子序列(例如在研究基因 的规则的5′延长端)被调整后,将导致版本号的增加。由于同时引用序列号和版本号,使得 复现出同一记录,原始分析将保持有效。 同时引用序列号和版本号将使马虎的使用者认识到在分析作完后序列可能已经发生了变化。 而且根据版本号可以轻易的知道一个序列被修改的次数。由于序列版本辨识器的优先权,现 已存在的NDs和PDs(简单使用gi号)将被去除 蛋白质序列的序列号 联合会也同意给蛋白质序列记录分配序列版本号。以前,除了使用qi号,很难可靠地引用给 定编码区翻译后的产品。这限制了 BLAST结果的使用。例如,这些序列将和提交给蛋白质数据 库的蛋白质序列有相同的状态,并且它们有和对应核酸序列优先的连接权。 一般的 Seql d 般的Seqd是指被基因中心和其他组织当作标识序列的一种辩识基因所使用的。其中一些序 列可能永远也不会出现在公共数据库中,或者是最终被提交的初级数据。例如,在 Entrez基 因分离的人体染色体的记录包含了除序列组成的多种物理和基因映射关系。物理映射是由不 同组织提供的,是用一般的 Seql d标识组织的。 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
2. ᦤկњᣛ⼎⡍߿ᑣ߫ⱘᷛᖫDŽӏԩߚᵤgi54ᄬߚټᵤⱘҎৃҹ㚃ᅮা㽕U00001᳝gi54ˈ ᅗህᰃ᳝ᬜⱘ˗ 3. ᅗᰃ〇ᅮϨৃᘶⱘDŽNCBIֱᣕ↣Ͼgiোⱘ᳔ᮄ⠜ᴀDŽ⬅Ѣग़䆄ᔩЁᄬˈӏԩথ ⦄gi54ϡݡᰃGenBankⱘϔ䚼ߚⱘҎҡ✊ৃҹ䗮䖛NCBIⱘID⦄䆹䆄ᔩˈ䗮䖛ᶹⳟग़ ৃҹⳟࠄᅗ㹿gi88᳓ҷDŽẔᶹgi54gi88ৃҹ⹂ᅮᅗӀⱘ݇㋏ˈⷨおҎਬৃҹᇘҹࠡ ⱘߚᵤࠄgi88㗙䞡ᮄߚᵤ᭄DŽ⬅Ѣgi54IDЁᘏᰃᄬⱘˈ䖭Փᕫ៥Ӏৃҹ䱣ᯊߚ ᵤᯊሔ㗠ϡҙ䰤ѢGenBankথ㸠ᯊ䯈DŽ ѢϞ䗄ॳˈҢ䅵ㅫEntrezᑣ߫䚏ሙࠄ⹂ᅮᮄᑣ߫ⱘ໘⧚BLAST᭄ᑧⱘѻ⫳᠔᳝ NCBIⱘݙ䚼໘⧚ᑣ߫䛑ᰃѢgiোDŽ NID/PIDs GenBankЁⱘNIDPIDᣛ⼎њḌ䝌ⱘgiো䆄ᔩⱘ㲟ⱑ䋼ᑣ߫DŽ㸹ܙ䖭ϾᰃՓᏠᳯ㛑ϔϾᑇ ৄϞ䅵ㅫᑣ߫ⱘ⾥ᄺᆊ㛑߽⫼〇ᅮⱘgiোএ䗑䏾ᑣ߫DŽℷ䈵ࠡ䴶ᦤࠄⱘˈՓ⫼giো㗠ϡᰃ⫼ ᑣ߫োᇚֱᣕՓ⫼᳝ᬜˈेՓ䆄ᔩⱘᑣ߫ҹৢথ⫳ব࣪˄՟བˈ5’ッ˅DŽ ݭᴀ᭛ᯊˈজߎ⦃њϔ⾡ᮄⱘSeqId˄ᑣ߫⠜ᴀˈ㾕ϟ᭛˅ˈᅗᰃ㹿⫼Ѣ䗝ᢽⱘᑣ߫䕼䆚 ఼DŽϔᮺ䖭⾡䕀বᅠ៤ˈৃ㛑NIDPIDোᇚϡߎݡ⦃᭄ḐᓣЁˈሑㅵՓ⫼giোⱘߚᵤᇚ 㒻㓁᳝ᬜDŽ㗠Ϩˈ߱ྟ᭄ᇚߎ⦃NCBIޚϢGenBank᭄ᑇ㸠ⱘASN.1᭛ӊЁDŽ ᑣ߫⠜ᴀ㒘ড়䕼䆚఼ ᳔䖥ˈ䰙Ḍ䝌ᑣ᭄߫ᑧ㘨ড়Ӯ˄DDBJˈEMBLGenBank˅ৠᛣᓩܹϔ⾡དⱘ䕼䆚఼DŽ䖭 ⾡䕼䆚఼ᰃ㒘ড়њᑣ߫˄ᷛᯢ⡍ᅮⱘᑣ߫䆄ᔩ˅⠜ᴀো˄ḍᑣ߫ᴀ䑿ব࣪˅DŽ䖭⾡SeqId 㹿ᳳᳯ៤Ў⧚ᛇⱘᓩ⫼ᑣ߫ⱘᮍ⊩DŽ Փ⫼㗙ᇚҡ㛑ҙҙѢᑣ߫োህ㛑⦄䆄ᔩ㗠ϡ䳔㽕⡍⅞ⱘ⠜ᴀোDŽ䖭⾡ᚙމϟˈᇚᕫࠄ 䆹䆄ᔩⱘ᳔ᮄ⠜ᴀˈ䖭гᰃEntrez݊ᅗ⦄ᑣ⦄᠔ⱘᎹDŽ ߚᵤ᭄ᑧ᭄ⱘ⾥ᄺᆊ˄՟བᇚ᠔᳝㜅∈䜦㊒ᑣ߫⫼ϔ⾡⡍ᅮߚ㉏ᮍ⊩Ёߚ˅行ᏠᳯҪ Ӏⱘ㒧䆎ֱᣕ᳝ᬜⱘ⾥ᄺᆊᏠᳯ㛑খ㗗ᑣ߫ো⠜ᴀোDŽᶤᑣ߫ⱘᄤᑣ߫˄՟བⷨお ⱘ㾘߭ⱘ5’ᓊ䭓ッ˅㹿䇗ᭈৢˈᇚᇐ㟈⠜ᴀোⱘࡴDŽ⬅Ѣৠᯊᓩ⫼ᑣ߫ো⠜ᴀোˈՓᕫ ⦄ߎৠϔ䆄ᔩˈॳྟߚᵤᇚֱᣕ᳝ᬜDŽ ৠᯊᓩ⫼ᑣ߫ো⠜ᴀোᇚՓ偀㰢ⱘՓ⫼㗙䅸䆚ࠄߚᵤᅠৢᑣ߫ৃ㛑Ꮖ㒣থ⫳њব࣪DŽ 㗠Ϩḍ⠜ᴀোৃҹ䕏ᯧⱘⶹ䘧ϔϾᑣ߫㹿ׂᬍⱘ᭄DŽ⬅Ѣᑣ߫⠜ᴀ䕼䆚఼ⱘӬܜᴗˈ⦄ ᏆᄬⱘNIDsPIDs˄ㅔऩՓ⫼giো˅ᇚ㹿এ䰸DŽ 㲟ⱑ䋼ᑣ߫ⱘᑣ߫ো 㘨ড়Ӯгৠᛣ㒭㲟ⱑ䋼ᑣ߫䆄ᔩߚ䜡ᑣ߫⠜ᴀোDŽҹࠡˈ䰸њՓ⫼giোˈᕜ䲒ৃ䴴ഄᓩ⫼㒭 ᅮ㓪ⷕऎ㗏䆥ৢⱘѻકDŽ䖭䰤ࠊњBLAST㒧ᵰⱘՓ⫼DŽ՟བˈ䖭ѯᑣ߫ᇚᦤѸ㒭㲟ⱑ䋼᭄ ᑧⱘ㲟ⱑ䋼ᑣ᳝߫Ⳍৠⱘ⢊ᗕˈᑊϨᅗӀ᳝ᇍᑨḌ䝌ᑣ߫Ӭܜⱘ䖲ᴗDŽ ϔ㠀ⱘSeqId ϔ㠀ⱘSeqIdᰃᣛ㹿Ёᖗ݊Ҫ㒘㒛ᔧᷛ䆚ᑣ߫ⱘϔ⾡䕽䆚᠔Փ⫼ⱘDŽ݊Ёϔѯᑣ ߫ৃ㛑∌䖰гϡӮߎ݅݀⦃᭄ᑧЁˈ㗙ᰃ᳔㒜㹿ᦤѸⱘ߱㑻᭄DŽ՟བˈEntrez ߚ行ⱘҎԧᶧ㡆ԧⱘ䆄ᔩࣙњ䰸ᑣ߫㒘៤ⱘ⾡⠽⧚ᇘ݇㋏DŽ⠽⧚ᇘᰃ⬅ϡ ৠ㒘㒛ᦤկⱘˈᰃ⫼ϔ㠀ⱘSeqIdᷛ䆚㒘㒛ⱘDŽ ݁ゴ NCBI᭄ൟ 义ⷕˈ8/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,9/15 Q 局部的Seqd 局部的序列辨识器最突出地被使用在数据提交的工具 Sequi n中(见第14章)。每个序列仅当 完整的被提交公共数据库处理后,才能最终得到一个序列号和一个g号。提交过程中, Sequi n分配一个局部辨识器给每个序列。就象许多NCB提供的软件工具一样要求序列辨识 器,局部的1D允许使用这些工具而不需要先提交到公共数据库。 B|0SEQ:生物序列 Bi oseg即生物序列是NCB|数据模型的中心元素。它包括一个简单的连续的核酸分子或蛋白质 分子,它定义了一个线性完整的协调系统。生物序列必须至少有一个序列辨识器( Seql d)。 它包含了分子(DNA,RNA和蛋白质)的物理类型的信息,也有一些注释信息(例如指示特定 生物序列的特定区域的生物特征)。它还有描述信息(例如该分子是从某个组织中获得的, 这描述了整个生物序列)。 然而,生物序列不需要分子的完整序列。它可能是一个分开的序列,例如外显子序列,而不 是所有内含子序列。或者它可能是只有一点标识的基因或物理映射。 序列是相同的 即使实际序列没有完全确定,所有生物序列有一个整数值的完整协调系统。所以对物理映射 或对高分割基因的外显子来说,标识和外显子之间的距离只有从一群胶体中得到。所以当 个完整的序列染色体的协调关系已经精确了解后,那些基因和物理映射是最佳的推测,即和 实际关系的错误概率最小。 不管怎样,任何生物信息都能被注释以相同的信息。例如一个基因特征可以被放在DNA序列的 个区域内,或者是物理映射的某个位置。该映射和序列可以根据共同的基因特征归为 类。这大大简化了能展示这些表面上不相关的数据的软件的编写任务。 序列是不相同的 尽管相同的协调系统有很多优点,不同的生物序列类所代表的方式不同。最一般的类(见图 6.2)简单介绍如下。 实际生物序列 在实际生物序列中我们知道分子类型,可能是它的长度和拓扑结构(例如线性,环状),但 不是实际的序列。它可以代表基因分子(只有外显子序列已经确定)的内含子。长度可能只 能从一群胶体的薮量得到。 原始生物序列 这是大多数人想的序列,一串简单连续的碱基和残基是已知的。因此长度是已知的,序列中 它应该和碱基或残基的数量配合 高散的生物序列 离散的生物序列不包含原始生物序列,但其他生物序列的辨识器。这可以被用于代表只有外 显子已知的基因序列。离散生物序列中的部分将是代表外显子的原生物序列和代表内含子的 实生物序列。 离散生物序列也被用于NCBI来代表整个染色体。这就是 Entrez基因分离的方法(见图6.3) file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
ሔ䚼ⱘSeqId ሔ䚼ⱘᑣ߫䕼䆚᳔఼さߎഄ㹿Փ⫼᭄ᦤѸⱘᎹSequinЁ˄㾕14ゴ˅DŽ↣Ͼᑣ߫ҙᔧ ᅠᭈⱘ㹿ᦤѸ᭄݀݅ᑧ໘⧚ৢˈᠡ㛑᳔㒜ᕫࠄϔϾᑣ߫োϔϾgiোDŽᦤѸ䖛Ёˈ Sequinߚ䜡ϔϾሔ䚼䕼䆚఼㒭↣Ͼᑣ߫DŽህ䈵䆌NCBIᦤկⱘ䕃ӊᎹϔḋ㽕∖ᑣ߫䕼䆚 ఼ˈሔ䚼ⱘIDܕ䆌Փ⫼䖭ѯᎹ㗠ϡ䳔㽕ܜᦤѸࠄ᭄݅݀ᑧDŽ BIOSEQ˖⫳⠽ᑣ߫ Bioseqे⫳⠽ᑣ߫ᰃNCBI᭄ൟⱘЁᖗܗ㋴DŽᅗࣙᣀϔϾㅔऩⱘ䖲㓁ⱘḌ䝌ߚᄤ㲟ⱑ䋼 ߚᄤˈᅗᅮНњϔϾ㒓ᗻᅠᭈⱘण䇗㋏㒳DŽ⫳⠽ᑣ߫ᖙ乏㟇ᇥ᳝ϔϾᑣ߫䕼䆚఼˄SeqId˅DŽ ᅗࣙњߚᄤ˄DNAˈRNA㲟ⱑ䋼˅ⱘ⠽⧚㉏ൟⱘֵᙃˈг᳝ϔѯ⊼䞞ֵᙃ˄՟བᣛ⼎⡍ᅮ ⫳⠽ᑣ߫ⱘ⡍ᅮऎඳⱘ⫳⠽⡍ᕕ˅DŽᅗ䖬᳝ᦣ䗄ֵᙃ˄՟བ䆹ߚᄤᰃҢᶤϾ㒘㒛Ё㦋ᕫⱘˈ 䖭ᦣ䗄њᭈϾ⫳⠽ᑣ߫˅DŽ ✊㗠ˈ⫳⠽ᑣ߫ϡ䳔㽕ߚᄤⱘᅠᭈᑣ߫DŽᅗৃ㛑ᰃϔϾߚᓔⱘᑣ߫ˈ՟བᰒᄤᑣ߫ˈ㗠ϡ ᰃ᠔᳝ݙᄤᑣ߫DŽ㗙ᅗৃ㛑ᰃা᳝ϔ⚍ᷛ䆚ⱘ⠽⧚ᇘDŽ ᑣ߫ᰃⳌৠⱘ ेՓᅲ䰙ᑣ߫≵᳝ᅠܼ⹂ᅮˈ᠔᳝⫳⠽ᑣ᳝߫ϔϾᭈ᭄ؐⱘᅠᭈण䇗㋏㒳DŽ᠔ҹᇍ⠽⧚ᇘ ᇍ催ࡆߚⱘᰒᄤᴹ䇈ˈᷛ䆚ᰒᄤП䯈ⱘ䎱⾏া᳝Ңϔ㕸㛊ԧЁᕫࠄDŽ᠔ҹᔧϔ Ͼᅠᭈⱘᑣ߫ᶧ㡆ԧⱘण䇗݇㋏Ꮖ㒣㊒⹂њ㾷ৢˈ䙷ѯ⠽⧚ᇘᰃ᳔Շⱘ⌟ˈे ᅲ䰙݇㋏ⱘ䫭䇃ὖ⥛᳔ᇣDŽ ϡㅵᗢḋˈӏԩ⫳⠽ֵᙃ䛑㛑㹿⊼䞞ҹⳌৠⱘֵᙃDŽ՟བϔϾ⡍ᕕৃҹ㹿ᬒDNAᑣ߫ⱘ ϔϾऎඳݙˈ㗙ᰃ⠽⧚ᇘⱘᶤϾԡ㕂DŽ䆹ᇘᑣ߫ৃҹḍ݅ৠⱘ⡍ᕕᔦЎϔ ㉏DŽ䖭ㅔ࣪њ㛑ሩ⼎䖭ѯ㸼䴶ϞϡⳌ݇ⱘ᭄ⱘ䕃ӊⱘ㓪ݭӏࡵDŽ ᑣ߫ᰃϡⳌৠⱘ ሑㅵⳌৠⱘण䇗㋏㒳᳝ᕜӬ⚍ˈϡৠⱘ⫳⠽ᑣ߫㉏᠔ҷ㸼ⱘᮍᓣϡৠDŽ᳔ϔ㠀ⱘ㉏˄㾕 6.2˅ㅔऩҟ㒡བϟDŽ ᅲ䰙⫳⠽ᑣ߫ ᅲ䰙⫳⠽ᑣ߫Ё៥Ӏⶹ䘧ߚᄤ㉏ൟˈৃ㛑ᰃᅗⱘ䭓ᑺᢧᠥ㒧ᵘ˄՟བ㒓ᗻˈ⦃⢊˅ˈԚ ϡᰃᅲ䰙ⱘᑣ߫DŽᅗৃҹҷ㸼ߚᄤ˄া᳝ᰒᄤᑣ߫Ꮖ㒣⹂ᅮ˅ⱘݙᄤDŽ䭓ᑺৃ㛑া 㛑Ңϔ㕸㛊ԧⱘ᭄䞣ᕫࠄDŽ ॳྟ⫳⠽ᑣ߫ 䖭ᰃ᭄Ҏᛇⱘᑣ߫ˈϔІㅔऩ䖲㓁ⱘ⺅⅟ᰃᏆⶹⱘDŽℸ䭓ᑺᰃᏆⶹⱘˈᑣ߫Ё ᅗᑨ䆹⺅⅟ⱘ᭄䞣䜡ড়DŽ ⾏ᬷⱘ⫳⠽ᑣ߫ ⾏ᬷⱘ⫳⠽ᑣ߫ϡࣙ⫳ྟॳ⠽ᑣ߫ˈԚ݊Ҫ⫳⠽ᑣ߫ⱘ䕼䆚఼DŽ䖭ৃҹ㹿⫼Ѣҷ㸼া᳝ ᰒᄤᏆⶹⱘᑣ߫DŽ⾏ᬷ⫳⠽ᑣ߫Ёⱘ䚼ߚᇚᰃҷ㸼ᰒᄤⱘॳ⫳⠽ᑣ߫ҷ㸼ݙᄤⱘ ᅲ⫳⠽ᑣ߫DŽ ⾏ᬷ⫳⠽ᑣ߫г㹿⫼ѢNCBIᴹҷ㸼ᭈϾᶧ㡆ԧDŽ䖭ህᰃEntrezߚ行ⱘᮍ⊩˄㾕6.3˅DŽ ݁ゴ NCBI᭄ൟ 义ⷕˈ9/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第六章NCB数据模型 页码,10/15 这时,所有的部分都可能是原生物序列(许多情况的记录都已经存在于 Gen Bank中)。可能在 连接部分有重叠。 De/ta生物序列 elta生物序列是用于代表从不同的基因序列中心得到的未完高产量基因序列(HTGS)。即使 有未知的生物序列子区域存在,使用 Del ta序列而不是离散序列是指对整个序列只需一个序列 辨识器。也就是说即使数据库中存在早期的版本,Deta序列保持着相同的序列号(见本章末 尾 映射生物序列 映射生物序列用于代表遗传和物理的映射关系,和实生物序列类似都包含有分子结构可能是 拓扑结构以及真实分子长度粗糙估计的长度信息。这个信息只提供协调系统以每个生物序列 的属性。对一个遗传映射给定协调系统我们可以根据遗传证据估计基因的位置。和原生物序 列的数据是碱基和残基类似,作用基因特征表是映射生物序列的主要数据。 BI0 SEOSETS:序列集合 生物序列经常储存在相关序列的上下文中。例如核酸序列和它编码的蛋白质序列自然属于一 类。NCB数据模型为这个目的提供了序列集合。 序列集合有一系列描述。将生物序列进行压缩时,需要对集合中每个序列进行描述。将出版 物和生物原信息结合在一起是比较方便的安排,这些生物原信息是期望对所有序列的但经常 在序列集合中出现相同。例如,DNA和蛋白质序列都是从同一组织中获得的,所以该描述信息 应该用于该集合,同样也适用于出版物 最一般的序列集合如下。 核酸--蛋白质集合 核酸-蛋白质集合包含核酸和一个或多个蛋白质,它是最经常由 Sequel n数据提交产生的集合。 序列的组成是通过描述从核酸到蛋白质的翻译过程的编码区(CDS)的特征来联系的。传统的 核酸和蛋白质数据库中这些记录可能用交叉参考来指明这种联系。核酸-蛋白质集合将二者放 在一起使得这种联系更加清楚。它也允许用于所有序列的描述信息的同时存在(例如组织或 出处) 数量、种类的研究 序列提交的一个主要的类是以人口或种类研究的形式出现。这些研究包括同种类(数量研 究)或不同种类(种类研究)一定数量的个体相同基因的比对。序列比对可能从以下的序列 比对中得到。若基因编码了某个蛋白质,则数量或种类的序列集合可能也是一个核酸-蛋白质 集合。 其它的生物序列集合 Seg集合包含了一个离散的生物序列和一个部分生物集合,反过来部分生物集合有包含了被离 散生物序列引用的原生物序列(这可能组成了核酸-蛋白质集合的核酸部分)。 Equi v生物序列集合被用于 Entrez基因分离,以维持生物序列的多平衡。例如,人体染色体有 一个或多个不同种类的遗传、物理映射。不同生物序列之间的比对是基于对一般人员的注释 (见第12章和图12.4)。 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18
䖭ᯊˈ᠔᳝ⱘ䚼ߚ䛑ৃ㛑ᰃॳ⫳⠽ᑣ߫˄䆌ᚙމⱘ䆄ᔩ䛑Ꮖ㒣ᄬѢGenBankЁ˅DŽৃ㛑 䖲䚼ߚ᳝䞡DŽ Delta⫳⠽ᑣ߫ Delta⫳⠽ᑣ߫ᰃ⫼Ѣҷ㸼Ңϡৠⱘᑣ߫Ёᖗᕫࠄⱘᅠ催ѻ䞣ᑣ߫˄HTGS˅DŽेՓ ᳝ⶹⱘ⫳⠽ᑣ߫ᄤऎඳᄬˈՓ⫼Deltaᑣ߫㗠ϡᰃ⾏ᬷᑣ߫ᰃᣛᇍᭈϾᑣ߫া䳔ϔϾᑣ߫ 䕼䆚఼DŽгህᰃ䇈ेՓ᭄ᑧЁᄬᮽᳳⱘ⠜ᴀˈDeltaᑣֱ߫ᣕⴔⳌৠⱘᑣ߫ো˄㾕ᴀゴ ሒ˅DŽ ᇘ⫳⠽ᑣ߫ ᇘ⫳⠽ᑣ߫⫼Ѣҷ㸼䘫Ӵ⠽⧚ⱘᇘ݇㋏ˈᅲ⫳⠽ᑣ߫㉏Ԑ䛑᳝ࣙߚᄤ㒧ᵘৃ㛑ᰃ ᢧᠥ㒧ᵘҹঞⳳᅲߚᄤ䭓ᑺ㉫㊭Ԅ䅵ⱘ䭓ᑺֵᙃDŽ䖭Ͼֵᙃাᦤկण䇗㋏㒳ҹ↣Ͼ⫳⠽ᑣ߫ ⱘሲᗻDŽᇍϔϾ䘫Ӵᇘ㒭ᅮण䇗㋏㒳៥Ӏৃҹḍ䘫Ӵ䆕Ԅ䅵ⱘԡ㕂DŽॳ⫳⠽ᑣ ߫ⱘ᭄ᰃ⺅⅟㉏Ԑˈ⫼⡍ᕕ㸼ᰃᇘ⫳⠽ᑣ߫ⱘЏ㽕᭄DŽ BIOSEQSETS˖ᑣ߫䲚ড় ⫳⠽ᑣ߫㒣ᐌټᄬⳌ݇ᑣ߫ⱘϞϟ᭛ЁDŽ՟བḌ䝌ᑣ߫ᅗ㓪ⷕⱘ㲟ⱑ䋼ᑣ߫㞾✊ሲѢϔ ㉏DŽNCBI᭄ൟЎ䖭ϾⳂⱘᦤկњᑣ߫䲚ড়DŽ ᑣ߫䲚ড়᳝ϔ㋏߫ᦣ䗄DŽᇚ⫳⠽ᑣ߫䖯㸠य़㓽ᯊˈ䳔㽕ᇍ䲚ড়Ё↣Ͼᑣ߫䖯㸠ᦣ䗄DŽᇚߎ⠜ ⠽⫳⠽ॳֵᙃ㒧ড়ϔ䍋ᰃ↨䕗ᮍ֓ⱘᅝᥦˈ䖭ѯ⫳⠽ॳֵᙃᰃᳳᳯᇍ᠔᳝ᑣ߫ⱘԚ㒣ᐌ ᑣ߫䲚ড়Ёߎ⦃ⳌৠDŽ՟བˈDNA㲟ⱑ䋼ᑣ߫䛑ᰃҢৠϔ㒘㒛Ё㦋ᕫⱘˈ᠔ҹ䆹ᦣ䗄ֵᙃ ᑨ䆹⫼Ѣ䆹䲚ড়ˈৠḋг䗖⫼Ѣߎ⠜⠽DŽ ᳔ϔ㠀ⱘᑣ߫䲚ড়བϟDŽ Ḍ䝌--㲟ⱑ䋼䲚ড় Ḍ䝌㲟ⱑ䋼䲚ড়ࣙḌ䝌ϔϾϾ㲟ⱑ䋼ˈᅗᰃ᳔㒣ᐌ⬅SequIn᭄ᦤѸѻ⫳ⱘ䲚ড়DŽ ᑣ߫ⱘ㒘៤ᰃ䗮䖛ᦣ䗄ҢḌ䝌ࠄ㲟ⱑ䋼ⱘ㗏䆥䖛ⱘ㓪ⷕऎ˄CDS˅ⱘ⡍ᕕᴹ㘨㋏ⱘDŽӴ㒳ⱘ Ḍ䝌㲟ⱑ䋼᭄ᑧЁ䖭ѯ䆄ᔩৃ㛑⫼Ѹঝখ㗗ᴹᣛᯢ䖭⾡㘨㋏DŽḌ䝌㲟ⱑ䋼䲚ড়ᇚѠ㗙ᬒ ϔ䍋Փᕫ䖭⾡㘨㋏ࡴ⏙ἮDŽᅗгܕ䆌⫼Ѣ᠔᳝ᑣ߫ⱘᦣ䗄ֵᙃⱘৠᯊᄬ˄՟བ㒘㒛 ߎ໘˅DŽ ᭄䞣ǃ⾡㉏ⱘⷨお ᑣ߫ᦤѸⱘϔϾЏ㽕ⱘ㉏ᰃҹҎষ⾡㉏ⷨおⱘᔶᓣߎ⦃DŽ䖭ѯⷨおࣙᣀৠ⾡㉏˄᭄䞣ⷨ お˅ϡৠ⾡㉏˄⾡㉏ⷨお˅ϔᅮ᭄䞣ⱘϾԧⳌৠⱘ↨ᇍDŽᑣ߫↨ᇍৃ㛑Ңҹϟⱘᑣ߫ ↨ᇍЁᕫࠄDŽ㢹㓪ⷕњᶤϾ㲟ⱑ䋼ˈ᭄߭䞣⾡㉏ⱘᑣ߫䲚ড়ৃ㛑гᰃϔϾḌ䝌㲟ⱑ䋼 䲚ড়DŽ ݊ᅗⱘ⫳⠽ᑣ߫䲚ড় Seg䲚ড়ࣙњϔϾ⾏ᬷⱘ⫳⠽ᑣ߫ϔϾ䚼ߚ⫳⠽䲚ড়ˈড䖛ᴹ䚼ߚ⫳⠽䲚ড়᳝ࣙњ㹿⾏ ᬷ⫳⠽ᑣ߫ᓩ⫼ⱘॳ⫳⠽ᑣ߫˄䖭ৃ㛑㒘៤њḌ䝌㲟ⱑ䋼䲚ড়ⱘḌ䝌䚼ߚ˅DŽ Equiv⫳⠽ᑣ߫䲚ড়㹿⫼ѢEntrezߚˈ行ҹ㓈ᣕ⫳⠽ᑣ߫ⱘᑇ㸵DŽ՟བˈҎԧᶧ㡆ԧ᳝ ϔϾϾϡৠ⾡㉏ⱘ䘫Ӵǃ⠽⧚ᇘDŽϡৠ⫳⠽ᑣ߫П䯈ⱘ↨ᇍᰃѢᇍϔ㠀Ҏਬⱘ⊼䞞 ˄㾕12ゴ12.4˅DŽ ݁ゴ NCBI᭄ൟ 义ⷕˈ10/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com