《生物信息学》课程教学资源（中译本）第六章 NCBI数据模型

生物学家大都熟悉用动物模型来研究人体疾病。尽管人体疾病有可能在动物中找不到完全相同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的数据来推断人体的疾病过程。通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆臂,可以得到描述肌肉骨骼运动的数学模型。这样的模型可以对更多复杂的生物系统进行有意义的预测和检验。

团购合买资源类别：文库，文档格式：PDF，文档页数：15，文件大小：193.98KB

第六章NCB数据模型页码,1/15 第六章NCB数据模型前言数据模型什么是数据模型生物学家大都熟悉用动物模型来研究人体疾病。尽管人体疾病有可能在动物中找不到完全相同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的数据来推断人体的疾病过程。通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆臂,可以得到描述肌肉骨骼运动的数学模型。这样的模型可以对更多复杂的生物系统进行有意义的预测和检验。显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟的自然现象的预测和理解就更有意义。八年前,№CB介绍了一种新的序列相关信息模型。这种新模型使基于Eηtrez系统的完整数据库 Gen Bank的建立以及相应的软件得到快速的发展。该模型具有如下优点:它能轻而易举的从已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第 5章)。该模型的优点对生物学家使用 Entrez有很大的帮助。但是很少有生物学家了解该模型的基础。当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank数据,且模型本身更好理解的实际数据模型。这一章不深入讨论细节,只介绍一些实用的索引及NCB模型所起的作用模型的一些例子 Gen Bank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编码蛋白质的DNA序列。限定符/ transl ati on="MLLY"描述了将CDS特征翻译成的氨基酸顺序。其它的DNA特征(例如mat-肽)有时被 Gen Bani数据应用来描述未命名蛋白质(部分由/ transl ati on描述)的切分产物,但这不是一种令人满意的解决方法。相反,大多数蛋白质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基酸对应关系)。 NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。翻译的过程是由两种序列间的关系决定而不是由一种对另一种的解释确定。和蛋白质相关的注解(例如肽切分产物)是由蛋白质序列特征直接注释。这样,用 BLAST或其他序列搜索工具去分析由CDS特征得到蛋白质序列就变容易了,尽管返回基因时可能会丢失精确的中间联系。一组DNA序列和由它翻译的蛋白质被称为核酸一蛋白质组,它是NCB|为使用这些数据的中间数据。 Gen Bank数据格式只是人类可读的一种特殊数据形式。它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以DNA为中心的视角)。 Entrez的目标是更直接的反映数据的低层结构。由 BLAST实现的从 Gen Bank到蛋白质序列的翻译实际上是从蛋白质一核酸组得到蛋白质序列。 Part真: LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995 DEFINI TI ON Rattus norvegi cus kappa opi oi d receptor gene, exon 1 and 2. ACCESSI ON U17993 NDg727256 KEYWORDS SegmEnT 1 of 3 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18

㄀݁ゴ NCBI᭄᥂῵ൟ ࠡ㿔᭄᥂῵ൟ ҔМᰃ᭄᥂῵ൟ ⫳⠽ᄺᆊ໻䛑❳ᙝ⫼ࡼ⠽῵ൟᴹⷨおҎԧ⮒⮙ǄሑㅵҎԧ⮒⮙᳝ৃ㛑೼ࡼ⠽ЁᡒϡࠄᅠܼⳌ ৠⱘᔶᓣˈԚᶤ⾡ࡼ⠽⮒⮙੠Ҏԧ⮒⮙᳝Ⳍᔧ໮ⱘ㉏Ԑᗻ䋼Փ៥ӀৃҹҢࡼ⠽⮒⮙Ё㦋ᕫⱘ ᭄᥂ᴹ᥼ᮁҎԧⱘ⮒⮙䖛⿟Ǆ䗮䖛ᇚ㙠㙝ᛇ䈵៤ᔍㇻ੠∈य़⌏าⱘ㒘ড়ˈᇚ偼傐ᛇ䈵៤ᴴᴚ 㞖ˈৃҹᕫࠄᦣ䗄㙠㙝偼傐䖤ࡼⱘ᭄ᄺ῵ൟǄ䖭ḋⱘ῵ൟৃҹᇍ᳈໮໡ᴖⱘ⫳⠽㋏㒳䖯㸠᳝ ᛣНⱘ乘⌟੠Ẕ偠Ǆᰒ✊ˈབᵰ῵ൟϢᦣ䗄ⱘᅲ䰙⦄䈵ৃҹ᳈ࡴ᥹䖥៪㊒㟈ˈ߭ᅗᇍ᠔῵ᢳ ⱘ㞾✊⦄䈵ⱘ乘⌟੠⧚㾷ህ᳈᳝ᛣНǄ ܿᑈࠡˈNCBIҟ㒡њϔ⾡ᮄⱘᑣ߫Ⳍֵ݇ᙃ῵ൟǄ䖭⾡ᮄ῵ൟՓ෎ѢEntrez㋏㒳ⱘᅠᭈ᭄᥂ ᑧGenBankⱘᓎゟҹঞⳌᑨⱘ䕃ӊᕫࠄᖿ䗳ⱘথሩǄ䆹῵ൟ݋᳝བϟӬ⚍˖ᅗ㛑䕏㗠ᯧВⱘҢ Ꮖ݀Ꮧⱘ䇈ᯢⱘDNAᑣ߫᯴ᇘࠄ㓪ⷕ㲟ⱑˈࠄ಴෎ⱘᶧ㡆ԧ䆒䅵ˈࠄϝ㓈㲟ⱑ䋼ⱘ㒧ᵘ˄㾕㄀ゴ˅Ǆ䆹῵ൟⱘӬ⚍ᇍ⫳⠽ᄺᆊՓ⫼Entrez᳝ᕜ໻ⱘᐂࡽǄԚᰃᕜᇥ᳝⫳⠽ᄺᆊњ㾷䆹῵ൟ ⱘ෎⸔Ǆᔧ෎಴ֵᙃবᕫ䍞ᴹ䍞Єᆠˈ䍞ᴹ䍞໡ᴖⱘᚙމϟˈߎ⦃њᕜ໮ヺড় GenBank᭄ ᥂ˈϨ῵ൟᴀ䑿᳈ད⧚㾷ⱘᅲ䰙᭄᥂῵ൟǄ䖭ϔゴϡ⏅ܹ䅼䆎㒚㡖ˈাҟ㒡ϔѯᅲ⫼ⱘ㋶ᓩ ঞNCBI῵ൟ᠔䍋ⱘ԰⫼Ǆ ῵ൟⱘϔѯ՟ᄤ GenBank᭄᥂ᰃҹDNAЎЁᖗ㾦ᑺⱘ᭄᥂᡹ਞ˄㾕㄀ゴ˅ˈгህᰃҹCDS⡍ᕕЎҷ㸼ⱘϔ↉㓪 ⷕ㲟ⱑ䋼ⱘDNAᑣ߫Ǆ䰤ᅮヺ/translation="MLLYY"ᦣ䗄њᇚCDS⡍ᕕ㗏䆥៤ⱘ⇼෎䝌乎ᑣǄ ݊ᅗⱘDNA⡍ᕕ˄՟བmat-㚑˅᳝ᯊ㹿GenBank᭄᥂ᑨ⫼ᴹᦣ䗄᳾ੑৡ㲟ⱑ䋼˄䚼ߚ ⬅/translationᦣ䗄˅ⱘߚߛѻ⠽ˈԚ䖭ϡᰃϔ⾡ҸҎ⒵ᛣⱘ㾷އᮍ⊩ǄⳌডˈ໻໮᭄㲟ⱑ 䋼ᑣ᭄߫᥂ᑧҹ㲟ⱑ䋼ЎЁᖗ㾦ᑺˈ䖭ḋৃ㛑ᅠܼ༅ᥝ݊Ϣ㓪ⷕ෎಴П䯈ⱘ㘨㋏ˈ៪㗙াᰃ 䯈᥹ⱘ⫼ᑣ߫ো㸼⼎݊㘨㋏˄䖭ᑊϡᦤկޚ⹂ⱘᇍ෎಴さবߚᵤ᳝䞡㽕԰⫼ⱘᆚⷕᄤ--⇼෎ 䝌ᇍᑨ݇㋏˅Ǆ NCBI᭄᥂῵ൟⳈ᥹ᵘ䗴њࣙ৿DNA੠㲟ⱑ䋼ᑣ߫ⱘ῵ൟǄ㗏䆥ⱘ䖛⿟ᰃ⬅ϸ⾡ᑣ߫䯈ⱘ݇㋏އ ᅮ㗠ϡᰃ⬅ϔ⾡ᇍ঺ϔ⾡ⱘ㾷䞞⹂ᅮǄ੠㲟ⱑ䋼Ⳍ݇ⱘ⊼㾷˄՟བ㚑ߚߛѻ⠽˅ᰃ⬅㲟ⱑ䋼 ᑣ߫⡍ᕕⳈ᥹⊼䞞Ǆ䖭ḋˈ⫼BLAST៪݊Ҫᑣ߫᧰㋶Ꮉ݋এߚᵤ⬅CDS⡍ᕕᕫࠄ㲟ⱑ䋼ᑣ߫ህ বᆍᯧњˈሑㅵ䖨ಲ෎಴ᯊৃ㛑Ӯ϶༅㊒⹂ⱘЁ䯈㘨㋏Ǆϔ㒘DNAᑣ߫੠⬅ᅗ㗏䆥ⱘ㲟ⱑ䋼㹿⿄ЎḌ䝌ü㲟ⱑ䋼㒘ˈᅗᰃNCBIЎՓ⫼䖭ѯ᭄᥂ⱘЁ䯈᭄᥂ǄGenBank᭄᥂ḐᓣাᰃҎ㉏ৃ䇏 ⱘϔ⾡⡍⅞᭄᥂ᔶᓣǄᅗ༅এњ᳝㘨㋏ⱘᑣ߫䲚ড়ˈ㗠צ䗔ಲ↨䕗❳ᙝⱘ䙷⾡ᑣ߫˄ҹDNAЎ Ёᖗⱘ㾚㾦˅ǄEntrezⱘⳂᷛᰃ᳈Ⳉ᥹ⱘড᯴᭄᥂ⱘԢሖ㒧ᵘǄ⬅BLASTᅲ⦄ⱘҢGenBankࠄ 㲟ⱑ䋼ᑣ߫ⱘ㗏䆥ᅲ䰙ϞᰃҢ㲟ⱑ䋼üḌ䝌㒘ᕫࠄ㲟ⱑ䋼ᑣ߫Ǆ Part A: LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 1 and 2. ACCESSION U17993 NID g727256 KEYWORDS . SEGMENT 1 of 3 ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ1/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第六章NCB数据模型页码,3/15 HORS Yakovl ev, A.G. TITLE Di rect Submi ssi on JOURNAL Submi tted(02-DEC1994)Al exander G. Yakovl ev, Georgetown Uni versi ty School of Medi ci ne, Neurol ogy, 3900 Reservoi r Rd Washi ngton, DC 20007, USA FEATURES LocationQuali fiers Source 1..1757 /organi sm= Rattus norvegi cus /strai n= Sprague-Dawley /sex=" maile CoNTIG join(U17993:1.1757.gap(200,U17994:1..658.93p0.U17995:1..4048) 图6.1A:从 Gen Bank中一条记录的部分。 GenBank格式仅仅指出了记录是有顺序的序列的一部分;它不提供关于其他部分是什么或它们之间如何联系的。完整的该记录见 http://www.ncbi.nlm.nih.gov/htbin-post/entrez/query? uid=2182225&form=6&db=&Dopt= B:新的C0N中片段代表,新的 Gen Bank格式的延续,容许片段记录之间建立联系, CONTIG行可以包含单个序列,已知长度的间隔,未知长度的间隔。尽管这种格式中没有特征及序列,但每个组成成分仍以传统格式表达 Gen Bank格式也隐藏了一些DNA序列的多序列性。例如一般意义上,一个基因的三个外显子是有顺序的,或是被侧面的非编码区或DNA内含子密集包围着,而内含子的整个长度是没有被测序的。这时候在 Gen Bank的数据中会有三条记录,每一个对应一个外显子。没有一个特征能清楚地代表该编码区完整的序列顺序(三个外显子是有一定的顺序并被一定长度的未翻译的DNA 序列隔断)。在 Gen Ban格式中,这时会有 SEGMENT行指出第一个记录是 SEGMENT10f3、第个记录是 SEGMENT20f3、第三个记录是 SEGMENT30f3,但这仅告诉使用者这是一些没有确定顺序的片段(图6.1A)。从整个 Gen Bank角度来看,使用一种被称为L0CUS的算法将无序片段正确定位,组合在一起的片段使用相同的起始字母,以不同的数字结尾,例如 RNKOR1, RNKOR2, RNKOR3。显然当L0CUS名字中包含其它与该序列不相关的干扰时,这种复杂的安排会遇到问题。况且还没有一个序列记录包含了全部的片段,也没有任何方法可以描述片段之间的距离。因为在EMB|序列数据库中根本没有分割片段的信息,所以任何从这种形式派生出来的记录都缺乏一些基本的信息。 NCBI数据模型定义了一种直接代表片段的格式,被成为“片段序列”。其包含的元素不是A, G,C,T,而是由怎样从其它序列构造的方法组成。所以以上面的例子为例,片段序列将包含: RNKOR1-200bp间隔- RNKOR2-未知长度的间隔- RNKOR3。该片段序列和其他记录一样有自己的名称(RNK0R)、序列号、特征、位点和注解。通常我们将这种形式的存储方式称为包含 RNKOR1、 RNKOR2、RNK0R3、所有中间联系和特征的序列 RNKOR片段集。当 Gen Bank以核酸-蛋白质组形式发行时,片段集被分成多条记录,片段集就消失了。然而从 Entrez图的视角看片段集,片段集象一条线将它的组分连接在一起。DDBJ/EMBL/ GenBank最近同意了一种方法用于代表构造结构,它将被放在新的C0N分割中(图6.1B) 不同于 Gen Bank格式,NCB|片段序列不要求片段间有间隙,事实上片段可以重叠。这使得片段序列适合用于代表诸如细菌基因的长序列,这恰恰就是 Entrez基因分离细菌基因和其它诸如酵母等全染色体基因中所做的。NCB|软件工具包(0 stel l,1996:见本章末尾的内部资源) file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18

AUTHORS Yakovlev,A.G. TITLE Direct Submission JOURNAL Submitted(02-DEC_1994) Alexander G. Yakovlev, Georgetown University School of Medicine, Neurology, 3900 Reservoir Rd., Washington, DC 20007, USA FEATURES Location/Qualifiers Source 1..1757 /organism=”Rattus norvegicus” /strain=”Sprague-Dawley” /sex=”maile” CONTIG join(U17993:1..1757,gap(200),U17994:1..658,gap(),U17995:1..4048) ೒6.1 A˖ҢGenBankЁϔᴵ䆄ᔩⱘ䚼ߚǄGenBankḐᓣҙҙᣛߎњ䆄ᔩᰃ᳝乎ᑣⱘᑣ߫ⱘϔ䚼 ߚ˗ᅗϡᦤկ݇Ѣ݊Ҫ䚼ߚᰃҔМ៪ᅗӀП䯈བԩ㘨㋏ⱘǄᅠᭈⱘ䆹䆄ᔩ㾕 http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query? uid=2182225&form=6&db=n&Dopt=g %˖ᮄⱘCONЁ⠛↉ҷ㸼ˈᮄⱘGenBankḐᓣⱘᓊ㓁ˈᆍ䆌⠛↉䆄ᔩП䯈ᓎゟ㘨㋏ˈCONTIG㸠ৃ ҹࣙ৿ऩϾᑣ߫ˈᏆⶹ䭓ᑺⱘ䯈䱨ˈ᳾ⶹ䭓ᑺⱘ䯈䱨Ǆሑㅵ䖭⾡ḐᓣЁ≵᳝⡍ᕕঞᑣ߫ˈԚ ↣Ͼ㒘៤៤ߚҡҹӴ㒳Ḑᓣ㸼䖒Ǆ GenBankḐᓣг䱤㮣њϔѯDNAᑣ߫ⱘ໮ᑣ߫ᗻǄ՟བϔ㠀ᛣНϞˈϔϾ෎಴ⱘϝϾ໪ᰒᄤᰃ ᳝乎ᑣⱘˈ៪ᰃ㹿ջ䴶ⱘ䴲㓪ⷕऎ៪DNAݙ৿ᄤᆚ䲚ࣙೈⴔˈ㗠ݙ৿ᄤⱘᭈϾ䭓ᑺᰃ≵᳝㹿⌟ ᑣⱘǄ䖭ᯊ׭೼GenBankⱘ᭄᥂ЁӮ᳝ϝᴵ䆄ᔩˈ↣ϔϾᇍᑨϔϾ໪ᰒᄤǄ≵᳝ϔϾ⡍ᕕ㛑⏙ Ἦഄҷ㸼䆹㓪ⷕऎᅠᭈⱘᑣ߫乎ᑣ˄ϝϾ໪ᰒᄤᰃ᳝ϔᅮⱘ乎ᑣᑊ㹿ϔᅮ䭓ᑺⱘ᳾㗏䆥ⱘDNA ᑣ߫䱨ᮁ˅Ǆ೼GenBankḐᓣЁˈ䖭ᯊӮ᳝SEGMENT㸠ᣛߎ㄀ϔϾ䆄ᔩᰃSEGMENT 1 of 3ǃ㄀ ѠϾ䆄ᔩᰃSEGMENT 2 of 3ǃ㄀ϝϾ䆄ᔩᰃSEGMENT 3 of 3ˈԚ䖭ҙਞ䆝Փ⫼㗙䖭ᰃϔѯ≵ ᳝⹂ᅮ乎ᑣⱘ⠛↉˄೒6.1A˅ǄҢᭈϾGenBank㾦ᑺᴹⳟˈՓ⫼ϔ⾡㹿⿄ЎLOCUSⱘㅫ⊩ᇚ᮴ ᑣ⠛↉ℷ⹂ᅮԡˈ㒘ড়೼ϔ䍋ⱘ⠛↉Փ⫼Ⳍৠⱘ䍋ྟᄫ↡ˈҹϡৠⱘ᭄ᄫ㒧ሒˈ՟བ RNKOR1ˈRNKOR2ˈRNKOR3Ǆᰒ✊ᔧLOCUSৡᄫЁࣙ݊৿ᅗϢ䆹ᑣ߫ϡⳌ݇ⱘᑆᡄᯊˈ䖭⾡໡ᴖ ⱘᅝᥦӮ䘛ࠄ䯂乬ǄމϨ䖬≵᳝ϔϾᑣ߫䆄ᔩࣙ৿њܼ䚼ⱘ⠛↉ˈг≵᳝ӏԩᮍ⊩ৃҹᦣ䗄 ⠛↉П䯈ⱘ䎱⾏Ǆ಴Ў೼EMBIᑣ᭄߫᥂ᑧЁḍᴀ≵᳝ࡆߚ⠛↉ⱘֵᙃˈ᠔ҹӏԩҢ䖭⾡ᔶᓣ ⌒⫳ߎᴹⱘ䆄ᔩ䛑㔎Уϔѯ෎ᴀⱘֵᙃǄ NCBI᭄᥂῵ൟᅮНњϔ⾡Ⳉ᥹ҷ㸼⠛↉ⱘḐᓣˈ㹿៤ЎĀ⠛↉ᑣ߫āǄ݊ࣙ৿ⱘܗ㋴ϡᰃ$ˈ *ˈ&ˈ7ˈ㗠ᰃ⬅ᗢḋҢ݊ᅗᑣ߫ᵘ䗴ⱘᮍ⊩㒘៤Ǆ᠔ҹҹϞ䴶ⱘ՟ᄤЎ՟ˈ⠛↉ᑣ߫ᇚࣙ ৿˖RNKOR1-200bp䯈䱨-RNKOR2-᳾ⶹ䭓ᑺⱘ䯈䱨-RNKOR3Ǆ䆹⠛↉ᑣ߫੠݊Ҫ䆄ᔩϔḋ᳝㞾Ꮕ ⱘৡ⿄˄RNKOR˅ǃᑣ߫োǃ⡍ᕕǃԡ⚍੠⊼㾷Ǆ䗮ᐌ៥Ӏᇚ䖭⾡ᔶᓣⱘᄬټᮍᓣ⿄Ўࣙ৿ RNKOR1ǃRNKOR2ǃRNKOR3ǃ᠔᳝Ё䯈㘨㋏੠⡍ᕕⱘᑣ߫RNKOR⠛↉䲚ǄᔧGenBankҹḌ䝌㲟ⱑ 䋼㒘ᔶᓣথ㸠ᯊˈ⠛↉䲚㹿ߚ៤໮ᴵ䆄ᔩˈ⠛↉䲚ህ⍜༅њǄ✊㗠ҢEntrez೒ⱘ㾚㾦ⳟ⠛↉ 䲚ˈ⠛↉䲚䈵ϔᴵ㒓ᇚᅗⱘ㒘ߚ䖲᥹೼ϔ䍋ǄDDBJ/EMBL/GenBank᳔䖥ৠᛣњϔ⾡ᮍ⊩⫼Ѣҷ 㸼ᵘ䗴㒧ᵘˈᅗᇚ㹿ᬒ೼ᮄⱘCONࡆߚЁ˄೒6.1B˅Ǆ ϡৠѢGenBankḐᓣˈNCBI⠛↉ᑣ߫ϡ㽕∖⠛↉䯈᳝䯈䱭ˈџᅲϞ⠛↉ৃҹ䞡঴Ǆ䖭Փᕫ⠛↉ ᑣ߫䗖ড়⫼Ѣҷ㸼䇌བ㒚㦠෎಴ⱘ䭓ᑣ߫ˈ䖭ᙄᙄህᰃEntrez෎಴ߚ行㒚㦠෎಴੠݊ᅗ䇌བ 䝉↡ㄝܼᶧ㡆ԧ෎಴Ё᠔خⱘǄNCBI䕃ӊᎹࣙ݋˄Ostellˈ1996˖㾕ᴀゴ᳿ሒⱘݙ䚼䌘⑤˅ ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ3/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第六章NCB数据模型页码,4/15 包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。这为图象视角、 GenBank结构视角、 FASTA视角或对离散数据进行全染色体分析提供了可能。这种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。在越来越大的区域进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上处理的思想是完全不现实的。 ASN.1处理方法 NCB数据模型经常被提到或和° NCBI ASN.1″或“ASN.1数据模型”混淆。 Abstract Syntax Notati on1(ASN.1)是国际标准组织(1S0)的标准之一,是为描述结构数据和保障允许各计算机和各种软件之间交换结构和内容可靠翻译数据。说一个数据模型是用ASN.1写的就象个计算机程序是用C或F0 RTRAN写的,指明了语言而不是指程序本身。从特殊的以DNA为中心的视角来看,熟悉的 Gen Bank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的数据关系的描述。从这个简单的形式看,我们创造了一系列的人可读的格式如 Entrez, Gen Bank和 BLAST数据库。没有这些一般意义上的格式的存在, Entrez(见第5章)中相邻或连接关系的存在是不可能的。这一章是关于NCB|数据的结构和内容以及它作为生物药学数据库和工具的作用。关于这个任务和格式的ASN.1选择参见0 stell,1995 定义方式我们已经对NCB数据模型所定义的序列举了几个例子,可以看出NCB数据类型相比 Gen Bank更加丰富、描述更加清晰。该模型的重点是它的细节问题,我们在下面将它进行展开。在这里我们简单地介绍一下该模型大致的理论和基本原理将数据输入计算机的目的有两个:重现和发现。重现是基本的能够找回它原来的本身。尽管这很重要,但如果能比找回本身得到更多的信息,也就是说能从信息中得到发现,这当然是更有价值的。从识别数据库中完全不相关的两条数据中发现它们之间的关系,或者对数据进行新角度的分析计算,科学家能从中得到发现。强调NCBl数据模型就是为了促进这种发现, 从而定义了能描述信息间的联系和适合计算的数据模型。对这种模型的第二个考虑是稳定性。NCB是美国国家机构而不是由个人赞助的,因此成员对支持生物信息的努力有长远的考虑。NCB提供了大规模的能支持科学研究几十年的信息系统。就所有关于生物药学方面的人士所知,在近几十年内,可能会有许多概念性和技术上的革命,所以NCB必须适应这些新的观点,适应对软件和数据新的要求。所以我们尽量选用基本观察或数据点的主要数据元素,不考虑解释的核心和这些元素的命名(这些都很可能会发生变化)。综合考虑上述原因,NCB|有四个核心元素:文献出处,DNA序列,蛋白质序列和三维结构。另外两个项目(分类和基因图)更具解释性,但是不管怎样,它们和组织和联系方面一样重要所以NCB在这个领域内建立了一个相当大的基础出版物出版物是科学研究的核心。科学信息从这里进行检査、评价、传播和永久的记录。出版物可以说是活的连接实际中不同结构或内容域的数据库的桥梁(例如某序列数据库中的一条记录和基因库中的某条记录可能出自同一篇文章)。它们被当作联系实际数据库的无价之宝 (“我读了关于这条记录的文章,现在我想看看这个数据”)。出版物也是功能的基本注释和实际数据库的上下文,也许是最好的注释。原因之一是实际数据库有能有效使用该数据库的结构,但缺乏足够的代表性能继续进行完整的生物的、实验的或某记录的历史上下文。另一方面,发表的文章仅仅受语言的限制,比实际数据库中的记录更包含了更完整和详细的描述信息。根据发表文章的内容,作者被科学同僚评价,而不是根 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18

ࣙ৿њ᧰䲚᭄᥂ⱘࡳ㛑ˈࣙᣀᑣ߫੠⡍ᕕˈ㞾ࡼᇚᇣⱘϾԧ⠛↉䞡ᮄ᯴ᇘࠄܼᶧ㡆ԧϞǄ䖭 Ў೒䈵㾚㾦ǃGenBank㒧ᵘ㾚㾦ǃFASTA㾚㾦៪ᇍ⾏ᬷ᭄᥂䖯㸠ܼᶧ㡆ԧߚᵤᦤկњৃ㛑Ǆ䖭⾡ḍ᥂ੑҸ೼໻㣗ೈऎඳݙ㒘㺙⠛↉ⱘ㛑࡯Ꮖ㒣೼㒚㦠෎಴Ё᳝᠔ᑨ⫼Ǆ೼䍞ᴹ䍞໻ⱘऎඳ 䖯㸠ᣐ᥹៪㗙䆌໮ϡৠ㒘ᣐ᥹ᯊ㒘㺙ੑҸᇚ䍞ᴹ䍞䞡㽕ˈ㗠Ϩ䖭⾡෎Ѣ໻㾘῵ऩ⠛↉෎⸔Ϟ ໘⧚ⱘᗱᛇᰃᅠܼϡ⦄ᅲⱘǄ ASN.1໘⧚ᮍ⊩ NCBI᭄᥂῵ൟ㒣ᐌ㹿ᦤࠄ”੠៪NCBI ASN.1”៪“ASN.1᭄᥂῵ൟā⏋⎚ǄAbstract Syntax Notation 1˄ASN.1˅ᰃ೑䰙ᷛޚ㒘㒛˄ISO˅ⱘᷛޚПϔˈᰃЎᦣ䗄㒧ᵘ᭄᥂੠ֱ䱰ܕ䆌৘ 䅵ㅫᴎ੠৘⾡䕃ӊП䯈Ѹᤶ㒧ᵘ੠ݙᆍৃ䴴㗏䆥᭄᥂Ǆ䇈ϔϾ᭄᥂῵ൟᰃ⫼ASN.1ݭⱘህ䈵ϔ Ͼ䅵ㅫᴎ⿟ᑣᰃ⫼&៪FORTRANݭⱘˈᣛᯢњ䇁㿔㗠ϡᰃᣛ⿟ᑣᴀ䑿ǄҢ⡍⅞ⱘҹDNAЎЁᖗⱘ 㾚㾦ᴹⳟˈ❳ᙝⱘGenBankḐᓣᅲ䰙ᰃⱘ㒭Ҏ䇏ⱘˈ㗠ASN.1ᰃЎ䅵ㅫᴎ䇏ⱘˈᑊϨ᳝໡ᴖⱘ ᭄᥂݇㋏ⱘᦣ䗄ǄҢ䖭Ͼㅔऩⱘᔶᓣⳟˈ៥Ӏ߯䗴њϔ㋏߫ⱘҎৃ䇏ⱘḐᓣབEntrezˈ GenBank੠BLAST᭄᥂ᑧǄ≵᳝䖭ѯϔ㠀ᛣНϞⱘḐᓣⱘᄬ೼ˈEntrez˄㾕㄀ゴ˅ЁⳌ䚏៪䖲 ᥹݇㋏ⱘᄬ೼ᰃϡৃ㛑ⱘǄ䖭ϔゴᰃ݇ѢNCBI᭄᥂ⱘ㒧ᵘ੠ݙᆍҹঞᅗ԰Ў⫳⠽㥃ᄺ᭄᥂ᑧ ੠Ꮉ݋ⱘ԰⫼Ǆ݇Ѣ䖭Ͼӏࡵ੠ḐᓣⱘASN.1䗝ᢽখ㾕Ostellˈ1995Ǆ ᅮНᮍᓣ ៥ӀᏆ㒣ᇍNCBI᭄᥂῵ൟ᠔ᅮНⱘᑣ߫Вњ޴Ͼ՟ᄤˈৃҹⳟߎNCBI᭄᥂㉏ൟⳌ↨GenBank᳈ ࡴЄᆠǃᦣ䗄᳈ࡴ⏙᱄Ǆ䆹῵ൟⱘ䞡⚍ᰃᅗⱘ㒚㡖䯂乬ˈ៥Ӏ೼ϟ䴶ᇚᅗ䖯㸠ሩᓔǄ೼䖭䞠 ៥Ӏㅔऩഄҟ㒡ϔϟ䆹῵ൟ໻㟈ⱘ⧚䆎੠෎ᴀॳ⧚Ǆ ᇚ᭄᥂䕧ܹ䅵ㅫᴎⱘⳂⱘ᳝ϸϾ˖䞡⦄੠থ⦄Ǆ䞡⦄ᰃ෎ᴀⱘ㛑໳ᡒಲᅗॳᴹⱘᴀ䑿Ǆሑㅵ 䖭ᕜ䞡㽕ˈԚབᵰ㛑↨ᡒಲᴀ䑿ᕫࠄ໮᳈ⱘֵᙃˈгህᰃ䇈㛑ҢֵᙃЁᕫࠄথ⦄ˈ䖭ᔧ✊ᰃ ᳈᳝ӋؐⱘǄҢ䆚߿᭄᥂ᑧЁᅠܼϡⳌ݇ⱘϸᴵ᭄᥂Ёথ⦄ᅗӀП䯈ⱘ݇㋏ˈ៪㗙ᇍ᭄᥂䖯㸠ᮄ㾦ᑺⱘߚᵤ䅵ㅫˈ⾥ᄺᆊ㛑ҢЁᕫࠄথ⦄Ǆᔎ䇗NCBI᭄᥂῵ൟህᰃЎњ֗䖯䖭⾡থ⦄ˈ Ң㗠ᅮНњ㛑ᦣ䗄ֵᙃ䯈ⱘ㘨㋏੠䗖ড়䅵ㅫⱘ᭄᥂῵ൟǄ ᇍ䖭⾡῵ൟⱘ㄀ѠϾ㗗㰥ᰃ〇ᅮᗻǄNCBIᰃ㕢೑೑ᆊᴎᵘ㗠ϡᰃ⬅ϾҎ䌲ࡽⱘˈ಴ℸ៤ਬᇍ ᬃᣕ⫳⠽ֵᙃⱘ࡯ࡾ᳝䭓䖰ⱘ㗗㰥ǄNCBIᦤկњ໻㾘῵ⱘ㛑ᬃᣕ⾥ᄺⷨお޴कᑈⱘֵᙃ㋏㒳Ǆህ᠔᳝݇Ѣ⫳⠽㥃ᄺᮍ䴶ⱘҎ຿᠔ⶹˈ೼䖥޴कᑈݙৃˈ㛑Ӯ᳝䆌໮ὖᗉᗻ੠ᡔᴃϞⱘ 䴽ੑˈ᠔ҹNCBIᖙ乏䗖ᑨ䖭ѯᮄⱘ㾖⚍ˈ䗖ᑨᇍ䕃ӊ੠᭄᥂ᮄⱘ㽕∖Ǆ᠔ҹ៥Ӏሑ䞣䗝⫼෎ ᴀ㾖ᆳ៪᭄᥂⚍ⱘЏ㽕᭄᥂ܗ㋴ˈϡ㗗㰥㾷䞞ⱘḌᖗ੠䖭ѯܗ㋴ⱘੑৡ˄䖭ѯ䛑ᕜৃ㛑Ӯথ ⫳ব࣪˅Ǆ 㓐ড়㗗㰥Ϟ䗄ॳ಴ˈNCBI᳝ಯϾḌᖗܗ㋴˖᭛⤂ߎ໘ˈDNAᑣ߫ˈ㲟ⱑ䋼ᑣ߫੠ϝ㓈㒧ᵘǄ঺ ໪ϸϾ乍Ⳃ˄ߚ㉏੠෎಴೒˅᳈݋㾷䞞ᗻˈԚᰃϡㅵᗢḋˈᅗӀ੠㒘㒛੠㘨㋏ᮍ䴶ϔḋ䞡㽕 ᠔ҹNCBI೼䖭Ͼ乚ඳݙᓎゟњϔϾⳌᔧ໻ⱘ෎⸔Ǆ ⠜⠽ߎ ߎ⠜⠽ᰃ⾥ᄺⷨおⱘḌᖗǄ⾥ᄺֵᙃҢ䖭䞠䖯㸠Ẕᶹǃ䆘ӋǃӴ᪁੠∌Йⱘ䆄ᔩǄߎ⠜⠽ৃ ҹ䇈ᰃ⌏ⱘ䖲᥹ᅲ䰙Ёϡৠ㒧ᵘ៪ݙᆍඳⱘ᭄᥂ᑧⱘḹṕ˄՟བᶤᑣ᭄߫᥂ᑧЁⱘϔᴵ䆄ᔩ ੠෎಴ᑧЁⱘᶤᴵ䆄ᔩৃ㛑ߎ㞾ৠϔ㆛᭛ゴ˅ǄᅗӀ㹿ᔧ԰㘨㋏ᅲ䰙᭄᥂ᑧⱘ᮴ӋПᅱ ˄Ā៥䇏њ݇Ѣ䖭ᴵ䆄ᔩⱘ᭛ゴˈ⦄೼៥ᛇⳟⳟ䖭Ͼ᭄᥂ā˅Ǆ ߎ⠜⠽гᰃࡳ㛑ⱘ෎ᴀ⊼䞞੠ᅲ䰙᭄᥂ᑧⱘϞϟ᭛ˈг䆌ᰃ᳔དⱘ⊼䞞Ǆॳ಴Пϔᰃᅲ䰙᭄ ᥂ᑧ᳝㛑᳝ᬜՓ⫼䆹᭄᥂ᑧⱘ㒧ᵘˈԚ㔎У䎇໳ⱘҷ㸼ᗻ㛑㒻㓁䖯㸠ᅠᭈⱘ⫳⠽ⱘǃᅲ偠ⱘ ៪ᶤ䆄ᔩⱘग़৆Ϟϟ᭛Ǆ঺ϔᮍ䴶ˈথ㸼ⱘ᭛ゴҙҙফ䇁㿔ⱘ䰤ࠊ↨ˈᅲ䰙᭄᥂ᑧЁⱘ䆄ᔩ ᳈ࣙ৿њ᳈ᅠᭈ੠䆺㒚ⱘᦣ䗄ֵᙃǄḍ᥂থ㸼᭛ゴⱘݙᆍˈ԰㗙㹿⾥ᄺৠڮ䆘Ӌˈ㗠ϡᰃḍ ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ4/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第六章NCB数据模型页码,5/15 据数据库中的记录。即使由于要追求更好的目的,科学家在继续工作,即使关于它们的知识在增长而数据库保持静态的。很少有繁忙的科学家会有兴趣去学习数据库系统,并能保持个人记录能及时更新。 NCB有一系列进行中的项目能保证 GenBank记录的高可靠性,提供便利和强大的记录更新工具,以及与科学家日常工作习惯相应的有用数据。不管怎样,与出版物保持可靠的联系能保证及时对数据库记录进行最丰富的注解。般来说,实际的数据库并没有对引用的形式和内容进行详细的分析,因此不同数据库之间,引用的质量、格式和内容等有很大的出入。我们认识到和出版物相互联系的重要性,认识到科学知识相对文献的动态性以及NCBI的优势(因为NCBI是国际健康组织的国际医药图书馆的一部分),我们认为仔细和完整的工作是一项有意义的工作,尽管很多专业人士告诫说这是一项艰巨的任务。以下是一些数据库的说明,可供对NCB有兴趣的科学家和使用者参考,完整的说明需要另外一章。作者在不同的数据库中作者的姓名是有不同的格式的:只有姓、姓和首字母、姓-逗号-首字母姓/名,名首字母和全称姓的作者、带有和不带有称谓(如Ph.D)或尾缀(Jr.,1)。一些文献数据库(如 MEDLINE)可能仅用一个固定的数字代表作者。尽管这只是不便于读者阅读, 但这对数据库系统产生了严重的问题,就象 Entrez那样,只能提供按作者姓搜索的简单功能。由于这个原因,该说明提供了两种可选择的作者姓名代表格式,一个是简单的字符串形式,另一个是包含姓、名和其它等的结构域。当数据直接被送到NCB|或作者姓名有固定格式的其它数据库(如 MEDLINE)时使用结构形式。当该形式不能破译是则仍然被看成为字符串形式,但这时复现受到限制,但至少还是能用其他的方法复现出一些数据的。即使是结构形式的作者姓名也必须支持多样性,这是因为一些文献只给首字母,而另一些只给名和中间名。这时要强调两点:第一点,NCB数据格式是为了适合于我们直接阅读以及能和现存数据相一致;第二点,在一个特殊的资源被转化时软件开发者必须了解该格式的意义。一般说来,NCB尽量使数据形式满足统一格式,但可能也会使其它的性能下降。作者的社会关系(如作者的工作地点等)就更加复杂了。至于作者姓名对于支持结构形式和字符串形式也还有一些问题。然而,即使对那些有统一格式作者姓名的文献来源,也不能将社会关系分解成结构形式。而且,也有很多作者是属于相同的机构或一个作者参与了几个机构。NCBI数据模型支持以上情况。尽管在写本文时, MEDLI NEI或 Gen Bank只支持前一种格式, 而两种格式都出现在出版物上。文章最常见的生物科学的文献标题是期刊文献,所以对于生物数据库的引用格式缺省为期刊文献。然而,文章也可能出现在书、手稿以及电子期刊上,数据模型应该能引用书、期刊或手稿。文章出处占有一个域,其它域用于存储其它的能唯一确定其在书、期刊或手稿中的有用信息,如文章的作者(对应与书的作者或编辑者)、文章的标题、页码等等那些能辨识文章出处的域以及对数据库使用者有用的能识别相同文章的域是完全不同的 NCBI出处比对服务(见本章末)使用出处域来区分定位文献的出处,这个比对过程包含能同时配合相同的期刊名、年份、文章的首页以及文章作者的姓。其他的信息(例如文章标题页数、全部页数、作者名单)仅用于观看而对输入来源不起作用。作为出处的数据模型要容许最小信息集能作用,和 MEDLINE比对后,被从 MEDLINE中得到的完整的域所替代,从而满足科学研究精确的需要。专利权 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18

᥂᭄᥂ᑧЁⱘ䆄ᔩǄेՓ⬅Ѣ㽕䗑∖᳈དⱘⳂⱘˈ⾥ᄺᆊ೼㒻㓁Ꮉ԰ˈेՓ݇ѢᅗӀⱘⶹ䆚 ೼๲䭓㗠᭄᥂ᑧֱᣕ䴭ᗕⱘǄᕜᇥ᳝㐕ᖭⱘ⾥ᄺᆊӮ᳝݈䍷এᄺд᭄᥂ᑧ㋏㒳ˈᑊ㛑ֱᣕϾ Ҏ䆄ᔩ㛑ঞᯊ᳈ᮄǄ NCBI᳝ϔ㋏߫䖯㸠Ёⱘ乍Ⳃ㛑ֱ䆕GenBank䆄ᔩⱘ催ৃ䴴ᗻˈᦤկ߽֓੠ᔎ໻ⱘ䆄ᔩ᳈ᮄᎹ ݋ˈҹঞϢ⾥ᄺᆊ᮹ᐌᎹ԰дᛃⳌᑨⱘ᳝⫼᭄᥂ǄϡㅵᗢḋˈϢߎ⠜⠽ֱᣕৃ䴴ⱘ㘨㋏㛑ֱ 䆕ঞᯊᇍ᭄᥂ᑧ䆄ᔩ䖯㸠᳔Єᆠⱘ⊼㾷Ǆ ϔ㠀ᴹ䇈ˈᅲ䰙ⱘ᭄᥂ᑧᑊ≵᳝ᇍᓩ⫼ⱘᔶᓣ੠ݙᆍ䖯㸠䆺㒚ⱘߚᵤˈ಴ℸϡৠ᭄᥂ᑧП 䯈ˈᓩ⫼ⱘ䋼䞣ǃḐᓣ੠ݙᆍㄝ᳝ᕜ໻ⱘߎܹǄ៥Ӏ䅸䆚ࠄ੠ߎ⠜⠽ⳌѦ㘨㋏ⱘ䞡㽕ᗻˈ䅸䆚ࠄ里ᄺⶹ䆚Ⳍᇍ᭛⤂ⱘࡼᗕᗻҹঞNCBIⱘӬ࢓಴˄ЎNCBIᰃ೑䰙عᒋ㒘㒛ⱘ೑䰙ए㥃೒к 佚ⱘϔ䚼ߚˈ˅៥Ӏ䅸ЎҨ㒚੠ᅠᭈⱘᎹ԰ᰃϔ乍᳝ᛣНⱘᎹ԰ˈሑㅵᕜ໮ϧϮҎ຿ਞ䆿䇈䖭ᰃϔ乍㡄ᎼⱘӏࡵǄҹϟᰃϔѯ᭄᥂ᑧⱘ䇈ᯢˈৃկᇍNCBI᳝݈䍷ⱘ⾥ᄺᆊ੠Փ⫼㗙খ 㗗ˈᅠᭈⱘ䇈ᯢ䳔㽕঺໪ϔゴǄ ԰㗙 ೼ϡৠⱘ᭄᥂ᑧЁ԰㗙ⱘྦྷৡᰃ᳝ϡৠⱘḐᓣⱘ˖া᳝ྦྷǃྦྷ੠佪ᄫ↡ǃྦྷ䗫ো佪ᄫ↡ǃ ྦྷৡˈৡ佪ᄫ↡੠ܼ⿄ྦྷⱘ԰㗙ǃᏺ᳝੠ϡᏺ᳝⿄䇧˄བPh.D˅៪ሒ㓔˄Jr.ˈIII˅Ǆϔѯ ᭛⤂᭄᥂ᑧ˄བMEDLINE˅ৃ㛑ҙ⫼ϔϾ೎ᅮⱘ᭄ᄫҷ㸼԰㗙Ǆሑㅵ䖭াᰃϡ֓Ѣ䇏㗙䯙䇏ˈ Ԛ䖭ᇍ᭄᥂ᑧ㋏㒳ѻ⫳њϹ䞡ⱘ䯂乬ˈህ䈵Entrez䙷ḋˈা㛑ᦤկᣝ԰㗙ྦྷ᧰㋶ⱘㅔऩࡳ 㛑Ǆ⬅Ѣ䖭Ͼॳ಴ˈ䆹䇈ᯢᦤկњϸ⾡ৃ䗝ᢽⱘ԰㗙ྦྷৡҷ㸼ḐᓣˈϔϾᰃㅔऩⱘᄫヺІᔶ ᓣˈ঺ϔϾᰃࣙྦྷ৿ǃৡ੠݊ᅗㄝⱘ㒧ᵘඳǄᔧ᭄᥂Ⳉ᥹㹿䗕ࠄNCBI៪԰㗙ྦྷৡ᳝೎ᅮḐᓣ ⱘ݊ᅗ᭄᥂ᑧ˄བMEDLINE˅ᯊՓ⫼㒧ᵘᔶᓣǄᔧ䆹ᔶᓣϡ㛑⸈䆥ᰃ߭ҡ✊㹿ⳟ៤ЎᄫヺІᔶ ᓣˈԚ䖭ᯊ໡⦄ফࠄ䰤ࠊˈԚ㟇ᇥ䖬ᰃ㛑⫼݊Ҫⱘᮍ⊩໡⦄ߎϔѯ᭄᥂ⱘǄ ेՓᰃ㒧ᵘᔶᓣⱘ԰㗙ྦྷৡгᖙ乏ᬃᣕ໮ḋᗻˈ䖭ᰃ಴Ўϔѯ᭛⤂া㒭佪ᄫ↡ˈ㗠঺ϔѯা 㒭ৡ੠Ё䯈ৡǄ䖭ᯊ㽕ᔎ䇗ϸ⚍˖㄀ϔ⚍ˈNCBI᭄᥂ḐᓣᰃЎњ䗖ড়Ѣ៥ӀⳈ᥹䯙䇏ҹঞ㛑 ੠⦄ᄬ᭄᥂Ⳍϔ㟈˗㄀Ѡ⚍ˈ೼ϔϾ⡍⅞ⱘ䌘⑤㹿䕀࣪ᯊ䕃ӊᓔথ㗙ᖙ乏њ㾷䆹Ḑᓣⱘᛣ НǄϔ㠀䇈ᴹˈNCBIሑ䞣Փ᭄᥂ᔶᓣ⒵䎇㒳ϔḐᓣˈԚৃ㛑гӮՓ݊ᅗⱘᗻ㛑ϟ䰡Ǆ ԰㗙ⱘ⼒Ӯ݇㋏˄བ԰㗙ⱘᎹ԰ഄ⚍ㄝ˅ህ᳈ࡴ໡ᴖњǄ㟇Ѣ԰㗙ྦྷৡᇍѢᬃᣕ㒧ᵘᔶᓣ੠ ᄫヺІᔶᓣг䖬᳝ϔѯ䯂乬Ǆ✊㗠ˈेՓᇍ䙷ѯ᳝㒳ϔḐᓣ԰㗙ྦྷৡⱘ᭛⤂ᴹ⑤ˈгϡ㛑ᇚ ⼒Ӯ݇㋏ߚ㾷៤㒧ᵘᔶᓣǄ㗠Ϩˈг᳝ᕜ໮԰㗙ᰃሲѢⳌৠⱘᴎᵘ៪ϔϾ԰㗙খϢњ޴Ͼᴎ ᵘǄNCBI᭄᥂῵ൟᬃᣕҹϞᚙމǄሑㅵ೼ݭᴀ᭛ᯊˈMEDLINE៪GenBankাᬃᣕࠡϔ⾡Ḑᓣˈ 㗠ϸ⾡Ḑᓣ䛑ߎ೼⦃ߎ⠜⠽ϞǄ ᭛ゴ ᳔ᐌ㾕ⱘ⫳⠽⾥ᄺⱘ᭛⤂ᷛ乬ᰃᳳߞ᭛⤂ˈ᠔ҹᇍѢ⫳⠽᭄᥂ᑧⱘᓩ⫼Ḑᓣ㔎ⳕЎᳳߞ᭛ ⤂Ǆ✊㗠ˈ᭛ゴгৃ㛑ߎ೼⦃кǃ᠟〓ҹঞ⬉ᄤᳳߞϞˈ᭄᥂῵ൟᑨ䆹㛑ᓩ⫼кǃᳳߞ᠟៪ 〓Ǆ᭛ゴߎ໘ऴ᳝ϔϾඳˈ݊ᅗඳ⫼Ѣᄬټ݊ᅗⱘ㛑ଃϔ⹂ᅮ݊೼кǃᳳߞ〓᠟៪Ёⱘ᳝⫼ ֵᙃˈབ᭛ゴⱘ԰㗙˄ᇍᑨϢкⱘ԰㗙៪㓪䕥㗙˅ǃ᭛ゴⱘᷛ乬ǃ义ⷕㄝㄝǄ 䙷ѯ㛑䕼䆚᭛ゴߎ໘ⱘඳҹঞᇍ᭄᥂ᑧՓ⫼㗙᳝⫼ⱘ㛑䆚߿Ⳍৠ᭛ゴⱘඳᰃᅠܼϡৠⱘǄ NCBIߎ໘↨ᇍ᳡ࡵ˄㾕ᴀゴ᳿˅Փ⫼ߎ໘ඳᴹऎߚᅮԡ᭛⤂ⱘߎ໘ˈ䖭Ͼ↨ᇍ䖛⿟ࣙ৿㛑ৠ ᯊ䜡ড়Ⳍৠⱘᳳߞৡǃᑈӑǃ᭛ゴⱘ佪义ҹঞ᭛ゴ԰㗙ⱘྦྷǄ݊Ҫⱘֵᙃ˄՟བ᭛ゴᷛ乬ǃ 义᭄ǃܼ䚼义᭄ǃ԰㗙ৡऩ˅ҙ⫼Ѣ㾖ⳟ㗠ᇍ䕧ܹᴹ⑤ϡ䍋԰⫼Ǆ԰Ўߎ໘ⱘ᭄᥂῵ൟ㽕ᆍ 䆌᳔ᇣֵᙃ䲚㛑԰⫼ˈ੠MEDLINE↨ᇍৢˈ㹿ҢMEDLINEЁᕫࠄⱘᅠᭈⱘඳ᠔᳓ҷˈҢ㗠⒵䎇⾥ᄺⷨお㊒⹂ⱘ䳔㽕Ǆ ϧ߽ᴗ ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ5/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第六章NCB数据模型页码,6/15 随着专利的出现,我们需要将专利而不是文章当作文献条目进行引用。NCB支持由美国专利局合作的完整的专利引用顺序。实际上,专利说明书倾向于限制科学的作用,理由如下: 专利是合法的文献而不是科学的文献,它的目的是支持专利的声明和存在,而不是完全描述生物的过程。这是为在律师办公室的情况,不是为做研究的科学家。所以存在的说明书只是解释专利中的一些方面,而不是文章的核心。只要不是基因的专利,组织信息、生物特征位点等等根本不可能出现。不管怎样大多数出现在专利说明书中的序列也以一些更有用的格式 (对科学家)出现在公共数据库中。从NCB的观点, Gen Bank列出专利说明中的序列的目的是能复现序列本身(通过相似性比较),用以定位和某序列相关的专利。这种情况下要实现合法的确定,我们必须检査专利的全文。要评价生物序列,人们必须定位专利中没有包含的信息。这里的联系是序列和专利号之间的联系。其它在专利定位中使用的域是诸如专利名称和发明者的姓名等引用电子数据和 Gen bank类似,这是一类相对新的包含了数据提交数据库的方法的方案,这也是一种形式但又和一般期刊不完全相同的出版物。在一般情况下,文章的出版需要经过相当长的时间,而且从来没有数据库的积累会赶在发表之前,因此数据的积累会有一定的间隔。提交的数据由于是一种形式的出版物可能包含了在本记录中工作过的科学家的姓名,这和真正出版物列出的名单可能不一致。大多数情况下提交数据给数据库的科学家是提交数据的作者,但也不完全是,特别是大序列中心。最终NCB提出了也引用修改的记录,在记录的修改栏里做简单的注释,注释记录的变化,所有的提交数据都在记录中保存留下编辑的历史记录。 MEDLI NE和 PubMed ul ds 旦文章的出处和 MEDLINE中的匹配,最简单和最可靠的方法去找到该篇文章的方法是 MEDLINE唯一辨识器(MD),这是一个简单的整数。NCB|提供了许多服务去使用MU|D来恢复出处和从MUD获得摘要、将数据和文章联系起来或者提供WW的网上连接最近根据和 MEDLINE以及许多出版者的协定,NCB提出了 PubMed。和直接由出版者提供类似, PubMed包含了所有的 MEDLI NE,而且 PubMed还包含了最近出版的文章,还包括了一些由于它们的主题原因将永远不能在 MEDLI NE中出现的文章。这时,NCB提出了一种新的文章辨识器叫 PubMed辨识器(PM|D)。出现在 MEDLI NE中的文章将同时有PMD和MUD。只出现在 PubMed中的文章则只有PMD。PMD和MuD提供了相同的目的是提供一种简单可靠的和出处的连接或一种方法建立网上热连接。NCB|现在正将所有的服务转向使用PM|D。 NCBI数据模型存储了大部分的出处,即所谓的出版等价物,是由一系列的出处等价物组成, 复,因为辨识器提供了一个可靠的记录的出处的联系或是说索引。 Seq-ldS:序列标识 NCB|数据模型定义了一类对象,被称为序列辨识器( Seql d)。需要这类对象是因为NCB合成了许多用不同方法命名的数据源并且这些名字具有不同的含义。例如一个简单的情况:PIR, SⅧISs-PRoT和核甘酸序列数据库都使用有类似格式的序列号,光说"A10234″是不能唯一地从所有这些数据库集合中找到序列记录的。我们必须区别从SMSs-P0RT和从PR中的A10234。 (DDBJ/EMBL/ GenBank核酸数据库共用一套序列号,所以从EMBL中的A12345和从 Gen Bank中的 A12345是相同的。)这些形式也可能是不相同的,因此当序列数据库处理仅考虑包含一序列的一条记录时,PDB记录只有一个简单的结构,该结构有可能包含不只一个序列。所以PDB的 Seql d包含了分子名称和链状|D去标识一个唯一的序列。下面一部分就叙述通常使用的几种 Seql d的格式以及使用。 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18

䱣ⴔϧ߽ⱘߎˈ⦃៥Ӏ䳔㽕ᇚϧ߽㗠ϡᰃ᭛ゴᔧ԰᭛⤂ᴵⳂ䖯㸠ᓩ⫼ǄNCBIᬃᣕ⬅㕢೑ϧ߽ ሔড়԰ⱘᅠᭈⱘϧ߽ᓩ⫼乎ᑣǄᅲ䰙Ϟˈϧ߽䇈ᯢкؒ৥Ѣ䰤ࠊ里ᄺⱘ԰⫼ˈ⧚⬅བϟ˖ ϧ߽ᰃড়⊩ⱘ᭛⤂㗠ϡᰃ⾥ᄺⱘ᭛⤂ˈᅗⱘⳂⱘᰃᬃᣕϧ߽ⱘໄᯢ੠ᄬ೼ˈ㗠ϡᰃᅠܼᦣ䗄 ⫳⠽ⱘ䖛⿟Ǆ䖭ᰃЎ೼ᕟᏜࡲ݀ᅸⱘᚙމˈϡᰃЎخⷨおⱘ⾥ᄺᆊǄ᠔ҹᄬ೼ⱘ䇈ᯢкাᰃ 㾷䞞ϧ߽Ёⱘϔѯᮍ䴶ˈ㗠ϡᰃ᭛ゴⱘḌᖗǄা㽕ϡᰃ෎಴ⱘϧ߽ˈ㒘㒛ֵᙃǃ⫳⠽⡍ᕕԡ ⚍ㄝㄝḍᴀϡৃ㛑ߎ⦃Ǆϡㅵᗢḋ໻໮᭄ߎ೼⦃ϧ߽䇈ᯢкЁⱘᑣ߫гҹϔѯ᳈᳝⫼ⱘḐᓣ ˄ᇍ⾥ᄺᆊ˅ߎ݅݀೼⦃᭄᥂ᑧЁǄ ҢNCBIⱘ㾖⚍ˈGenBank߫ߎϧ߽䇈ᯢЁⱘᑣ߫ⱘⳂⱘᰃ㛑໡⦄ᑣ߫ᴀ䑿˄䗮䖛ⳌԐᗻ↨ 䕗˅ˈ⫼ҹᅮԡ੠ᶤᑣ߫Ⳍ݇ⱘϧ߽Ǆ䖭⾡ᚙމϟ㽕ᅲ⦄ড়⊩ⱘ⹂ᅮˈ៥Ӏᖙ乏Ẕᶹϧ߽ⱘ ܼ᭛Ǆ㽕䆘Ӌ⫳⠽ᑣ߫ˈҎӀᖙ乏ᅮԡϧ߽Ё≵᳝ࣙ৿ⱘֵᙃǄ䖭䞠ⱘ㘨㋏ᰃᑣ߫੠ϧ߽ো П䯈ⱘ㘨㋏Ǆ݊ᅗ೼ϧ߽ᅮԡЁՓ⫼ⱘඳᰃ䇌བϧ߽ৡ⿄੠থᯢ㗙ⱘྦྷৡㄝǄ ᓩ⫼⬉ᄤ᭄᥂ ੠GenBank㉏Ԑˈ䖭ᰃϔ㉏Ⳍᇍᮄⱘࣙ৿њ᭄᥂ᦤѸ᭄᥂ᑧⱘᮍ⊩ⱘᮍḜˈ䖭гᰃϔ⾡ᔶᓣԚ জ੠ϔ㠀ᳳߞϡᅠܼⳌৠⱘߎ⠜⠽Ǆ೼ϔ㠀ᚙމϟˈ᭛ゴⱘߎ⠜䳔㽕㒣䖛Ⳍᔧ䭓ⱘᯊ䯈ˈ㗠 ϨҢᴹ≵᭄᳝᥂ᑧⱘ⿃㌃Ӯ䍊೼থ㸼Пࠡˈ಴ℸ᭄᥂ⱘ⿃㌃Ӯ᳝ϔᅮⱘ䯈䱨ǄᦤѸⱘ᭄᥂⬅ Ѣᰃϔ⾡ᔶᓣⱘߎ⠜⠽ৃ㛑ࣙ৿њ೼ᴀ䆄ᔩЁᎹ԰䖛ⱘ⾥ᄺᆊⱘྦྷৡˈ䖭੠ⳳℷߎ⠜⠽߫ߎ ⱘৡऩৃ㛑ϡϔ㟈Ǆ໻໮᭄ᚙމϟᦤѸ᭄᥂㒭᭄᥂ᑧⱘ⾥ᄺᆊᰃᦤѸ᭄᥂ⱘ԰㗙ˈԚгϡᅠ ܼᰃˈ⡍߿ᰃ໻ᑣ߫ЁᖗǄ᳔㒜NCBIᦤߎњгᓩ⫼ׂᬍⱘ䆄ᔩˈ೼䆄ᔩⱘׂᬍᷣ䞠خㅔऩⱘ ⊼䞞ˈ⊼䞞䆄ᔩⱘব࣪ˈ᠔᳝ⱘᦤѸ᭄᥂䛑೼䆄ᔩЁֱᄬ⬭ϟ㓪䕥ⱘग़৆䆄ᔩǄ MEDLINE੠PubMed UIDs ϔᮺ᭛ゴⱘߎ໘੠MEDLINEЁⱘऍ䜡ˈ᳔ㅔऩ੠᳔ৃ䴴ⱘᮍ⊩এᡒࠄ䆹㆛᭛ゴⱘᮍ⊩ᰃ MEDLINEଃϔ䕼䆚఼˄MUID˅ˈ䖭ᰃϔϾㅔऩⱘᭈ᭄ǄNCBIᦤկњ䆌໮᳡ࡵএՓ⫼MUIDᴹᘶ໡ ߎ໘੠ҢMUID㦋ᕫᨬ㽕ǃᇚ᭄᥂੠᭛ゴ㘨㋏䍋ᴹ៪㗙ᦤկWWWⱘ㔥Ϟ䖲᥹Ǆ ᳔䖥ḍ᥂੠MEDLINEҹঞ䆌໮ߎ⠜㗙ⱘणᅮˈNCBIᦤߎњPubMedǄ੠Ⳉ᥹⬅ߎ⠜㗙ᦤկ㉏Ԑˈ PubMedࣙ৿њ᠔᳝ⱘMEDLINEˈ㗠ϨPubMed䖬ࣙ৿њ᳔䖥ߎ⠜ⱘ᭛ゴˈ䖬ࣙᣀњϔѯ⬅ѢᅗӀ ⱘЏ乬ॳ಴ᇚ∌䖰ϡ㛑೼MEDLINEЁߎ⦃ⱘ᭛ゴǄ䖭ᯊˈNCBIᦤߎњϔ⾡ᮄⱘ᭛ゴ䕼䆚఼ি PubMed䕼䆚఼˄PMID˅Ǆߎ೼⦃MEDLINEЁⱘ᭛ゴᇚৠᯊ᳝PMID੠MUIDǄাߎ೼⦃PubMedЁⱘ ᭛ゴ߭া᳝PMIDǄPMID੠MUIDᦤկњⳌৠⱘⳂⱘᰃᦤկϔ⾡ㅔऩৃ䴴ⱘ੠ߎ໘ⱘ䖲᥹៪ϔ⾡ ᮍ⊩ᓎゟ㔥Ϟ⛁䖲᥹ǄNCBI⦄೼ℷᇚ᠔᳝ⱘ᳡ࡵ䕀৥Փ⫼PMIDǄ NCBI᭄᥂῵ൟᄬټњ໻䚼ߚⱘߎ໘ˈे᠔䇧ⱘߎ⠜ㄝӋ⠽ˈᰃ⬅ϔ㋏߫ⱘߎ໘ㄝӋ⠽㒘៤ˈ ࣙᣀৃ䴴ⱘ䕼䆚఼˄PMID៪MUID˅੠ߎ໘ᴀ䑿Ǆߎ໘Ḑᓣⱘᄬ೼Փᕫϡ⫼Ң᭄᥂ᑧЁ⡍߿ᘶ ໡ˈ಴Ў䕼䆚఼ᦤկњϔϾৃ䴴ⱘ䆄ᔩⱘߎ໘ⱘ㘨㋏៪ᰃ䇈㋶ᓩǄ Seq-IdS˖ᑣ߫ᷛ䆚 NCBI᭄᥂῵ൟᅮНњϔ㉏ᇍ䈵ˈ㹿⿄Ўᑣ߫䕼䆚఼˄SeqId˅Ǆ䳔㽕䖭㉏ᇍ䈵ᰃ಴ЎNCBIড়៤ њ䆌໮⫼ϡৠᮍ⊩ੑৡⱘ᭄᥂⑤ᑊϨ䖭ѯৡᄫ݋᳝ϡৠⱘ৿НǄ՟བϔϾㅔऩⱘᚙމ˖PIRˈ SWISS-PROT੠Ḍ⫬䝌ᑣ᭄߫᥂ᑧ䛑Փ⫼᳝㉏ԐḐᓣⱘᑣ߫োˈܝ䇈“A10234”ᰃϡ㛑ଃϔഄ Ң᠔᳝䖭ѯ᭄᥂ᑧ䲚ড়Ёᡒࠄᑣ߫䆄ᔩⱘǄ៥Ӏᖙ乏ऎ߿ҢSWISS-PORT੠ҢPIRЁⱘA10234Ǆ ˄DDBJ/EMBL/GenBankḌ䝌᭄᥂ᑧ݅⫼ϔ༫ᑣ߫োˈ᠔ҹҢEMBLЁⱘA12345੠ҢGenBankЁⱘ A12345ᰃⳌৠⱘǄ˅䖭ѯᔶᓣгৃ㛑ᰃϡⳌৠⱘˈ಴ℸᔧᑣ᭄߫᥂ᑧ໘⧚ҙ㗗㰥ࣙ৿ϔᑣ߫ ⱘϔᴵ䆄ᔩᯊˈPDB䆄ᔩা᳝ϔϾㅔऩⱘ㒧ᵘˈ䆹㒧ᵘ᳝ৃ㛑ࣙ৿ϡাϔϾᑣ߫Ǆ᠔ҹPDBⱘ SeqIdࣙ৿њߚᄤৡ⿄੠䫒⢊IDএᷛ䆚ϔϾଃϔⱘᑣ߫Ǆϟ䴶ϔ䚼ߚህভ䗄䗮ᐌՓ⫼ⱘ޴辵 SeqIdⱘḐᓣҹঞՓ⫼Ǆ ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ6/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第六章NCB数据模型页码,7/15 L0CUS名称 L0CUS出现在 Gen Bank中的L0CUS行以及DBJ记录( EMBLE的1D行)是 Gen Bank中最初的辨识器就象基因L0CUS名称一样,它兼有唯一辨识器、功能记忆以及序列的组织源等功能。由于 L0CUS行是有固定的格式,L0CUS的名称限制在少于或等于10个数字或大写字母。在 Gen Bank 中,名字的前三个字母是组织码,剩下的字母是基因码(如: HUMHBE代表人体β-球蛋白区域)。然而,当该区域的功能和原先设想的功能不同时,L0CUS中的基因码会发生变化。这种不稳定性显然是复现中的一个问题。另一个问题是 Gen Bank中的序列和组织随时间呈几何指数增长,这使得发明或修改记忆名称是不可能的。基于以上几点使得L0CUS名称在 GenBank中不再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。序列号由于使用L0CUS(或1D)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们(DDBJ/EMBL/ Gen Bank)引入了序列号。开始时它不具有生物意义是为了保证其相对的稳定性。它是由一个大写字母和五个数字组成。(新的序列号是由两个大写字母和六个数字组成。)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。序列号是对L0CUS/D号的改进,但实际使用中,问题和不足是显然的。例如,当序列对于时间是稳定时,许多使用者发现用相同的序列号复现出的序列并不总是相同的。这是因为序列号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了1000bp)的时候,序列号不变(只是相同记录的升级版)。如果我们分析起始序列和记录序列U0000的第 100个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第100个位置上序列号出现在 GenBank的 ACCESS|ON行上。该行的第一个序列号称为基本序列号,它是复现该记录的关键,大部分记录只有这个序列号。第二级序列号是为了给该记录提供历史信息。例如如果U00001和U00002是同一个记录的不同版本,则U00002将成为一个新记录的基本序列号,U0000是二级序列号。在实际的标准中U0000记录将从 Gen Bank中删除因为旧的记录已经过时,二级序列号将取代旧的成为用户需要复现的记录。这时应该标注二级序列号不是指同对象,所以用户应仔细检查它们的注释。(数据库的不同,甚至是同一数据库的不同时间)使用二级序列号也有自己的问题,这是因为没有足够的信息去确定怎样发生和为什么会发生。但不管怎样,序列号仍然是DBJ/ EMBL/Gen Bank记录恢复中最可控最稳定的方法。 G|号 1992年NCB开始对所有 Entrez中的序列使用基因信息号(gi),其中包含从 DDBJ/EMBL/ Gen Bank中的核酸序列、根据CDS特征翻译的蛋白质序列以及从SWSS-PROT、PIR、 PRE、PDB、专利以及其它得到的蛋白质序列等。Gi是由原数据库提供的另外的 Seql d。尽管由于原数据库的不同Seqd的形式和意义不同,但gi在意义和形式上对不同源数据库是相同的在形式上,它只是简单的整数(所以有时被称为G号)。它只是一些特定序列的辨识器。假定一个序列加入 Gen Bank,给定序列号U00001。当该序列在NCB所内部处理时,它加入所谓的 D数据库。1D确认以前从未见过U0001就给它一个g号54。当提交器通过改变出处修改记录时,U00001又加入1D。ID认出该记录出现过,恢复原先的U00001和新记录进行比较,如果完全相同,则给该记录g号54:如果不相同,即使只有一对碱基不同,则给新gi号88。然而因为原数据库的意义,新序列仍保持序列号U001。这时1D标识旧记录(gi54)的替换时间,并将它加入历史指示它被gi88的记录替代。1D也加入历史gi88指出它替代了gi54 Gi号有三种主要功能 1.提供了从多源数据库序列间的简单标志 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18

LOCUSৡ⿄ LOCUSߎ೼⦃GenBankЁⱘLOCUS㸠ҹঞDDBJ䆄ᔩ˄EMBLEⱘID㸠˅ᰃGenBankЁ᳔߱ⱘ䕼䆚఼Ǆ ህ䈵෎಴LOCUSৡ⿄ϔḋˈᅗݐ᳝ଃϔ䕼䆚఼ǃࡳ㛑䆄ᖚҹঞᑣ߫ⱘ㒘㒛⑤ㄝࡳ㛑Ǆ⬅Ѣ LOCUS㸠ᰃ᳝೎ᅮⱘḐᓣˈLOCUSⱘৡ⿄䰤ࠊ೼ᇥѢ៪ㄝѢ10Ͼ᭄ᄫ៪໻ݭᄫ↡Ǆ೼GenBank ЁˈৡᄫⱘࠡϝϾᄫ↡ᰃ㒘㒛ⷕˈ࠽ϟⱘᄫ↡ᰃ෎಴ⷕ˄བ˖HUMHBBҷ㸼ҎԧE -⧗㲟ⱑऎ ඳ˅Ǆ✊㗠ˈᔧ䆹ऎඳⱘࡳ㛑੠ॳܜ䆒ᛇⱘࡳ㛑ϡৠᯊˈLOCUSЁⱘ෎಴ⷕӮথ⫳ব࣪Ǆ䖭⾡ ϡ〇ᅮᗻᰒ✊ᰃ໡⦄ЁⱘϔϾ䯂乬Ǆ঺ϔϾ䯂乬ᰃGenBankЁⱘᑣ߫੠㒘㒛䱣ᯊ䯈ਜ޴ԩᣛ᭄ ๲䭓ˈ䖭Փᕫথᯢ៪ׂᬍ䆄ᖚৡ⿄ᰃϡৃ㛑ⱘǄ෎ѢҹϞ޴⚍ՓᕫLOCUSৡ⿄೼GenBankЁϡ ݡ԰Ў᳝⫼ⱘৡ⿄ˈሑㅵᅗᇚ∌䖰ᄬ೼೼᭄᥂ⱘ佪㸠ˈ䖭াᰃЎњ੠ҹᕔⱘ᭄᥂ḐᓣݐᆍǄ ᑣ߫ো ⬅ѢՓ⫼LOCUS˄៪ID˅ৡ⿄԰ЎᇍḌ䝌ᑣ߫ଃϔ䕼䆚఼ⱘೄ䲒ˈ೑䰙Ḍ䝌ᑣ᭄߫᥂ᑧড়԰㗙 Ӏ˄DDBJ/EMBL/GenBank˅ᓩܹњᑣ߫োǄᓔྟᯊᅗϡ݋⫳᳝⠽ᛣНᰃЎњֱ䆕݊Ⳍᇍⱘ〇ᅮ ᗻǄᅗᰃ⬅ϔϾ໻ݭᄫ↡੠ѨϾ᭄ᄫ㒘៤Ǆ˄ᮄⱘᑣ߫োᰃ⬅ϸϾ໻ݭᄫ↡੠݁Ͼ᭄ᄫ㒘 ៤Ǆ˅佪ᄫ↡ᰃЎњߚ䜡ࠄϡৠⱘ᭄᥂ᑧҹ֓ᑣ߫োᇍѢϡৠⱘ᭄᥂ᑧᰃଃϔⱘǄ ᑣ߫োᰃᇍLOCUS/IDোⱘᬍ䖯ˈԚᅲ䰙Փ⫼Ёˈ䯂乬੠ϡ䎇ᰃᰒ✊ⱘǄ՟བˈᔧᑣ߫ᇍѢᯊ 䯈ᰃ〇ᅮᯊˈ䆌໮Փ⫼㗙থ⦄⫼Ⳍৠⱘᑣ߫ো໡⦄ߎⱘᑣ߫ᑊϡᘏᰃⳌৠⱘǄ䖭ᰃ಴Ўᑣ߫ োᷛᯢњᭈϾ᭄᥂ᑧⱘ䆄ᔩˈϔᮺ䆄ᔩ㹿ׂᬍњ˄៪㗙䇈Ңᓔྟ䚼ߚᦦܹњ1000bp˅ⱘᯊ ׭ˈᑣ߫োϡব˄াᰃⳌৠ䆄ᔩⱘछ㑻⠜˅Ǆབᵰ៥Ӏߚᵤ䍋ྟᑣ߫੠䆄ᔩᑣ߫U00001ⱘ㄀ 100Ͼԡ㕂؛䆒ᰃϢ㲟ⱑ䋼Ⳍ݇ⱘԡ⚍ˈछ㑻ৢϔϾᅠܼϡৠⱘᑣ߫ᇚ೼㄀100Ͼԡ㕂ϞǄ ᑣ߫োߎ೼⦃GenBankⱘACCESSION㸠ϞǄ䆹㸠ⱘ㄀ϔϾᑣ߫ো⿄Ў෎ᴀᑣ߫োˈᅗᰃ໡⦄䆹䆄ᔩⱘ݇䬂ˈ໻䚼ߚ䆄ᔩা᳝䖭Ͼᑣ߫োǄ㄀Ѡ㑻ᑣ߫োᰃЎњ㒭䆹䆄ᔩᦤկग़৆ֵᙃǄ՟ བབᵰU00001੠U00002ᰃৠϔϾ䆄ᔩⱘϡৠ⠜ᴀˈ߭U00002ᇚ៤ЎϔϾᮄ䆄ᔩⱘ෎ᴀᑣ߫ োˈU00001ᰃѠ㑻ᑣ߫োǄ೼ᅲ䰙ⱘᷛޚЁU00001䆄ᔩᇚҢGenBankЁߴ䰸಴Ўᮻⱘ䆄ᔩᏆ㒣䖛ᯊˈѠ㑻ᑣ߫োᇚপҷᮻⱘ៤Ў⫼᠋䳔㽕໡⦄ⱘ䆄ᔩǄ䖭ᯊᑨ䆹ᷛ⊼Ѡ㑻ᑣ߫োϡᰃᣛৠ ϔᇍ䈵ˈ᠔ҹ⫼᠋ᑨҨ㒚ẔᶹᅗӀⱘ⊼䞞Ǆ˄᭄᥂ᑧⱘϡৠˈ⫮㟇ᰃৠϔ᭄᥂ᑧⱘϡৠᯊ 䯈˅Փ⫼Ѡ㑻ᑣ߫োг᳝㞾Ꮕⱘ䯂乬ˈ䖭ᰃ಴Ў≵᳝䎇໳ⱘֵᙃএ⹂ᅮᗢḋথ⫳੠ЎҔМӮ থ⫳ǄԚϡㅵᗢḋˈᑣ߫োҡ✊ᰃDDBJ/EMBL/GenBank䆄ᔩᘶ໡Ё᳔ৃ᥻᳔〇ᅮⱘᮍ⊩Ǆ Giো 1992ᑈNCBIᓔྟᇍ᠔᳝EntrezЁⱘᑣ߫Փ⫼෎಴ֵᙃো˄gi˅ˈ݊Ёࣙ৿Ң DDBJ/EMBL/GenBankЁⱘḌ䝌ᑣ߫ǃḍ᥂CDS⡍ᕕ㗏䆥ⱘ㲟ⱑ䋼ᑣ߫ҹঞҢSWISS-PROTǃPIRǃ PREǃPDBǃϧ߽ҹঞ݊ᅗᕫࠄⱘ㲟ⱑ䋼ᑣ߫ㄝǄGiᰃ⬅ॳ᭄᥂ᑧᦤկⱘ঺໪ⱘSeqIdǄሑㅵ⬅ Ѣॳ᭄᥂ᑧⱘϡৠSeqIdⱘᔶᓣ੠ᛣНϡৠˈԚgi೼ᛣН੠ᔶᓣϞᇍϡৠ⑤᭄᥂ᑧᰃⳌৠⱘǄ ೼ᔶᓣϞˈᅗাᰃㅔऩⱘᭈ᭄˄᠔ҹ᳝ᯊ㹿⿄ЎGIো˅Ǆᅗাᰃϔѯ⡍ᅮᑣ߫ⱘ䕼䆚఼Ǆ؛ ᅮϔϾᑣ߫ࡴܹGenBankˈ㒭ᅮᑣ߫োU00001Ǆᔧ䆹ᑣ߫೼NCBI᠔ݙ䚼໘⧚ᯊˈᅗࡴܹ᠔䇧ⱘ ID᭄᥂ᑧǄID⹂䅸ҹࠡҢ᳾㾕䖛U00001ˈህ㒭ᅗϔϾgiো54ǄᔧᦤѸ఼䗮䖛ᬍবߎ໘ׂᬍ䆄 ᔩᯊˈU00001জࡴܹIDǄID䅸ߎ䆹䆄ᔩߎ⦃䖛ˈᘶ໡ॳܜⱘU00001੠ᮄ䆄ᔩ䖯㸠↨䕗ˈབᵰ ᅠܼⳌৠˈ߭㒭䆹䆄ᔩgiো54˗བᵰϡⳌৠˈेՓা᳝ϔᇍ⺅෎ϡৠˈ߭㒭ᮄgiো88Ǆ✊㗠 ಴Ўॳ᭄᥂ᑧⱘᛣНˈᮄᑣ߫ҡֱᣕᑣ߫োU00001Ǆ䖭ᯊIDᷛ䆚ᮻ䆄ᔩ˄gi54˅ⱘ᳓ᤶᯊ 䯈ˈᑊᇚᅗࡴܹग़৆ᣛ⼎ᅗ㹿gi88ⱘ䆄ᔩ᳓ҷǄIDгࡴܹग़৆gi88ᣛߎᅗ᳓ҷњgi54Ǆ Giো᳝ϝ⾡Џ㽕ࡳ㛑˖ 1. ᦤկњҢ໮⑤᭄᥂ᑧᑣ߫䯈ⱘㅔऩᷛᖫ˗ ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ7/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第六章NCB数据模型页码,8/15 Q 2.提供了指示特别序列的标志。任何分析g54存储分析的人可以肯定只要U0000gi54 它就是有效的 3.它是稳定且可恢复的。NCB|保持每个gi号的最新版本。由于历史在记录中存在,任何发现g54不再是 Gen Bank的一部分的人仍然可以通过MCB的1D复现该记录,通过查看历史可以看到它被g8替代。检查gi54和gi88可以确定它们的关系,研究人员可以映射以前的分析到gi88或者重新分析数据。由于gi54在D中总是存在的,这使得我们可以随时分析时局而不仅限于 Gen Bank发行时间基于上述原因,从计算 Entrez序列邻居到确定新序列的处理或 BLAST数据库的产生所有 NCB|的内部处理序列都是基于gi号。 NI D/PI DS Gen Bank中的ND和PD指示了核酸的gi号和记录的蛋白质序列。补充这个是使希望能在一个平台上计算序列的科学家能利用稳定的qi号去追踪序列。正象前面提到的,使用g号而不是用序列号将保持使用有效,即使记录的序列以后发生变化(例如,5′端) 在写本文时,又出现了一种新的 Seql d(序列版本,见下文),它是被用于选择的序列辨识器。一旦这种转变完成,可能ND和P|D号将不再出现在数据格式中,尽管使用g号的分析将继续有效。而且,初始数据将出现在NCB准备与 GenBank数据平行的ASN.1文件中。序列版本组合辨识器最近,国际核酸序列数据库联合会(DDBJ,EMBL和 Gen Bank)同意引入一种更好的辨识器。这种辨识器是组合了序列(标明特定的序列记录)和版本号(根据序列本身变化)。这种 Seql d 被期望成为理想的引用序列的方法。使用者将仍能够仅仅基于序列号就能复现记录而不需要特殊的版本号。这种情况下,将得到该记录的最新版本,这也是 Entrez和其它复现程序现在所作的工作分析数据库数据的科学家(例如将所有脱水酒精序列用一种特定分类方法中分离)和希望他们的结论保持有效的科学家希望能参考序列号和版本号。某序列的子序列(例如在研究基因的规则的5′延长端)被调整后,将导致版本号的增加。由于同时引用序列号和版本号,使得复现出同一记录,原始分析将保持有效。同时引用序列号和版本号将使马虎的使用者认识到在分析作完后序列可能已经发生了变化。而且根据版本号可以轻易的知道一个序列被修改的次数。由于序列版本辨识器的优先权,现已存在的NDs和PDs(简单使用gi号)将被去除蛋白质序列的序列号联合会也同意给蛋白质序列记录分配序列版本号。以前,除了使用qi号,很难可靠地引用给定编码区翻译后的产品。这限制了 BLAST结果的使用。例如,这些序列将和提交给蛋白质数据库的蛋白质序列有相同的状态,并且它们有和对应核酸序列优先的连接权。一般的 Seql d 般的Seqd是指被基因中心和其他组织当作标识序列的一种辩识基因所使用的。其中一些序列可能永远也不会出现在公共数据库中,或者是最终被提交的初级数据。例如,在 Entrez基因分离的人体染色体的记录包含了除序列组成的多种物理和基因映射关系。物理映射是由不同组织提供的,是用一般的 Seql d标识组织的。 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18

2. ᦤկњᣛ⼎⡍߿ᑣ߫ⱘᷛᖫǄӏԩߚᵤgi54ᄬߚټᵤⱘҎৃҹ㚃ᅮা㽕U00001᳝gi54ˈ ᅗህᰃ᳝ᬜⱘ˗ 3. ᅗᰃ〇ᅮϨৃᘶ໡ⱘǄNCBIֱᣕ↣Ͼgiোⱘ᳔ᮄ⠜ᴀǄ⬅Ѣग़৆೼䆄ᔩЁᄬ೼ˈӏԩথ ⦄gi54ϡݡᰃGenBankⱘϔ䚼ߚⱘҎҡ✊ৃҹ䗮䖛NCBIⱘID໡⦄䆹䆄ᔩˈ䗮䖛ᶹⳟग़৆ ৃҹⳟࠄᅗ㹿gi88᳓ҷǄẔᶹgi54੠gi88ৃҹ⹂ᅮᅗӀⱘ݇㋏ˈⷨおҎਬৃҹ᯴ᇘҹࠡ ⱘߚᵤࠄgi88៪㗙䞡ᮄߚᵤ᭄᥂Ǆ⬅Ѣgi54೼IDЁᘏᰃᄬ೼ⱘˈ䖭Փᕫ៥Ӏৃҹ䱣ᯊߚ ᵤᯊሔ㗠ϡҙ䰤ѢGenBankথ㸠ᯊ䯈Ǆ ෎ѢϞ䗄ॳ಴ˈҢ䅵ㅫEntrezᑣ߫䚏ሙࠄ⹂ᅮᮄᑣ߫ⱘ໘⧚៪BLAST᭄᥂ᑧⱘѻ⫳᠔᳝ NCBIⱘݙ䚼໘⧚ᑣ߫䛑ᰃ෎ѢgiোǄ NID/PIDs GenBankЁⱘNID੠PIDᣛ⼎њḌ䝌ⱘgiো੠䆄ᔩⱘ㲟ⱑ䋼ᑣ߫Ǆ㸹ܙ䖭ϾᰃՓᏠᳯ㛑೼ϔϾᑇ ৄϞ䅵ㅫᑣ߫ⱘ⾥ᄺᆊ㛑߽⫼〇ᅮⱘgiোএ䗑䏾ᑣ߫Ǆℷ䈵ࠡ䴶ᦤࠄⱘˈՓ⫼giো㗠ϡᰃ⫼ ᑣ߫োᇚֱᣕՓ⫼᳝ᬜˈेՓ䆄ᔩⱘᑣ߫ҹৢথ⫳ব࣪˄՟བˈ5’ッ˅Ǆ ೼ݭᴀ᭛ᯊˈজߎ⦃њϔ⾡ᮄⱘSeqId˄ᑣ߫⠜ᴀˈ㾕ϟ᭛˅ˈᅗᰃ㹿⫼Ѣ䗝ᢽⱘᑣ߫䕼䆚 ఼Ǆϔᮺ䖭⾡䕀বᅠ៤ˈৃ㛑NID੠PIDোᇚϡߎݡ೼⦃᭄᥂ḐᓣЁˈሑㅵՓ⫼giোⱘߚᵤᇚ 㒻㓁᳝ᬜǄ㗠Ϩˈ߱ྟ᭄᥂ᇚߎ೼⦃NCBIޚ໛ϢGenBank᭄᥂ᑇ㸠ⱘASN.1᭛ӊЁǄ ᑣ߫⠜ᴀ㒘ড়䕼䆚఼ ᳔䖥ˈ೑䰙Ḍ䝌ᑣ᭄߫᥂ᑧ㘨ড়Ӯ˄DDBJˈEMBL੠GenBank˅ৠᛣᓩܹϔ⾡᳈དⱘ䕼䆚఼Ǆ䖭⾡䕼䆚఼ᰃ㒘ড়њᑣ߫˄ᷛᯢ⡍ᅮⱘᑣ߫䆄ᔩ˅੠⠜ᴀো˄ḍ᥂ᑣ߫ᴀ䑿ব࣪˅Ǆ䖭⾡SeqId 㹿ᳳᳯ៤Ў⧚ᛇⱘᓩ⫼ᑣ߫ⱘᮍ⊩Ǆ Փ⫼㗙ᇚҡ㛑໳ҙҙ෎Ѣᑣ߫োህ㛑໡⦄䆄ᔩ㗠ϡ䳔㽕⡍⅞ⱘ⠜ᴀোǄ䖭⾡ᚙމϟˈᇚᕫࠄ 䆹䆄ᔩⱘ᳔ᮄ⠜ᴀˈ䖭гᰃEntrez੠݊ᅗ໡⦄⿟ᑣ⦄೼᠔԰ⱘᎹ԰Ǆ ߚᵤ᭄᥂ᑧ᭄᥂ⱘ⾥ᄺᆊ˄՟བᇚ᠔᳝㜅∈䜦㊒ᑣ߫⫼ϔ⾡⡍ᅮߚ㉏ᮍ⊩Ёߚ੠˅行ᏠᳯҪ Ӏⱘ㒧䆎ֱᣕ᳝ᬜⱘ⾥ᄺᆊᏠᳯ㛑খ㗗ᑣ߫ো੠⠜ᴀোǄᶤᑣ߫ⱘᄤᑣ߫˄՟བ೼ⷨお෎಴ ⱘ㾘߭ⱘ5’ᓊ䭓ッ˅㹿䇗ᭈৢˈᇚᇐ㟈⠜ᴀোⱘ๲ࡴǄ⬅Ѣৠᯊᓩ⫼ᑣ߫ো੠⠜ᴀোˈՓᕫ ໡⦄ߎৠϔ䆄ᔩˈॳྟߚᵤᇚֱᣕ᳝ᬜǄ ৠᯊᓩ⫼ᑣ߫ো੠⠜ᴀোᇚՓ偀㰢ⱘՓ⫼㗙䅸䆚ࠄ೼ߚᵤ԰ᅠৢᑣ߫ৃ㛑Ꮖ㒣থ⫳њব࣪Ǆ 㗠Ϩḍ᥂⠜ᴀোৃҹ䕏ᯧⱘⶹ䘧ϔϾᑣ߫㹿ׂᬍⱘ⃵᭄Ǆ⬅Ѣᑣ߫⠜ᴀ䕼䆚఼ⱘӬܜᴗˈ⦄ Ꮖᄬ೼ⱘNIDs੠PIDs˄ㅔऩՓ⫼giো˅ᇚ㹿এ䰸Ǆ 㲟ⱑ䋼ᑣ߫ⱘᑣ߫ো 㘨ড়Ӯгৠᛣ㒭㲟ⱑ䋼ᑣ߫䆄ᔩߚ䜡ᑣ߫⠜ᴀোǄҹࠡˈ䰸њՓ⫼giোˈᕜ䲒ৃ䴴ഄᓩ⫼㒭 ᅮ㓪ⷕऎ㗏䆥ৢⱘѻકǄ䖭䰤ࠊњBLAST㒧ᵰⱘՓ⫼Ǆ՟བˈ䖭ѯᑣ߫ᇚ੠ᦤѸ㒭㲟ⱑ䋼᭄᥂ ᑧⱘ㲟ⱑ䋼ᑣ᳝߫Ⳍৠⱘ⢊ᗕˈᑊϨᅗӀ᳝੠ᇍᑨḌ䝌ᑣ߫Ӭܜⱘ䖲᥹ᴗǄ ϔ㠀ⱘSeqId ϔ㠀ⱘSeqIdᰃᣛ㹿෎಴Ёᖗ੠݊Ҫ㒘㒛ᔧ԰ᷛ䆚ᑣ߫ⱘϔ⾡䕽䆚෎಴᠔Փ⫼ⱘǄ݊Ёϔѯᑣ ߫ৃ㛑∌䖰гϡӮߎ݅݀೼⦃᭄᥂ᑧЁˈ៪㗙ᰃ᳔㒜㹿ᦤѸⱘ߱㑻᭄᥂Ǆ՟བˈ೼Entrez෎ ಴ߚ行ⱘҎԧᶧ㡆ԧⱘ䆄ᔩࣙ৿њ䰸ᑣ߫㒘៤ⱘ໮⾡⠽⧚੠෎಴᯴ᇘ݇㋏Ǆ⠽⧚᯴ᇘᰃ⬅ϡ ৠ㒘㒛ᦤկⱘˈᰃ⫼ϔ㠀ⱘSeqIdᷛ䆚㒘㒛ⱘǄ ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ8/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第六章NCB数据模型页码,9/15 Q 局部的Seqd 局部的序列辨识器最突出地被使用在数据提交的工具 Sequi n中(见第14章)。每个序列仅当完整的被提交公共数据库处理后,才能最终得到一个序列号和一个g号。提交过程中, Sequi n分配一个局部辨识器给每个序列。就象许多NCB提供的软件工具一样要求序列辨识器,局部的1D允许使用这些工具而不需要先提交到公共数据库。 B|0SEQ:生物序列 Bi oseg即生物序列是NCB|数据模型的中心元素。它包括一个简单的连续的核酸分子或蛋白质分子,它定义了一个线性完整的协调系统。生物序列必须至少有一个序列辨识器( Seql d)。它包含了分子(DNA,RNA和蛋白质)的物理类型的信息,也有一些注释信息(例如指示特定生物序列的特定区域的生物特征)。它还有描述信息(例如该分子是从某个组织中获得的, 这描述了整个生物序列)。然而,生物序列不需要分子的完整序列。它可能是一个分开的序列,例如外显子序列,而不是所有内含子序列。或者它可能是只有一点标识的基因或物理映射。序列是相同的即使实际序列没有完全确定,所有生物序列有一个整数值的完整协调系统。所以对物理映射或对高分割基因的外显子来说,标识和外显子之间的距离只有从一群胶体中得到。所以当个完整的序列染色体的协调关系已经精确了解后,那些基因和物理映射是最佳的推测,即和实际关系的错误概率最小。不管怎样,任何生物信息都能被注释以相同的信息。例如一个基因特征可以被放在DNA序列的个区域内,或者是物理映射的某个位置。该映射和序列可以根据共同的基因特征归为类。这大大简化了能展示这些表面上不相关的数据的软件的编写任务。序列是不相同的尽管相同的协调系统有很多优点,不同的生物序列类所代表的方式不同。最一般的类(见图 6.2)简单介绍如下。实际生物序列在实际生物序列中我们知道分子类型,可能是它的长度和拓扑结构(例如线性,环状),但不是实际的序列。它可以代表基因分子(只有外显子序列已经确定)的内含子。长度可能只能从一群胶体的薮量得到。原始生物序列这是大多数人想的序列,一串简单连续的碱基和残基是已知的。因此长度是已知的,序列中它应该和碱基或残基的数量配合高散的生物序列离散的生物序列不包含原始生物序列,但其他生物序列的辨识器。这可以被用于代表只有外显子已知的基因序列。离散生物序列中的部分将是代表外显子的原生物序列和代表内含子的实生物序列。离散生物序列也被用于NCBI来代表整个染色体。这就是 Entrez基因分离的方法(见图6.3) file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18

ሔ䚼ⱘSeqId ሔ䚼ⱘᑣ߫䕼䆚᳔఼さߎഄ㹿Փ⫼೼᭄᥂ᦤѸⱘᎹ݋SequinЁ˄㾕㄀14ゴ˅Ǆ↣Ͼᑣ߫ҙᔧ ᅠᭈⱘ㹿ᦤѸ᭄݀݅᥂ᑧ໘⧚ৢˈᠡ㛑᳔㒜ᕫࠄϔϾᑣ߫ো੠ϔϾgiোǄᦤѸ䖛⿟Ёˈ Sequinߚ䜡ϔϾሔ䚼䕼䆚఼㒭↣Ͼᑣ߫Ǆህ䈵䆌໮NCBIᦤկⱘ䕃ӊᎹ݋ϔḋ㽕∖ᑣ߫䕼䆚 ఼ˈሔ䚼ⱘIDܕ䆌Փ⫼䖭ѯᎹ݋㗠ϡ䳔㽕ܜᦤѸࠄ᭄݅݀᥂ᑧǄ BIOSEQ˖⫳⠽ᑣ߫ Bioseqे⫳⠽ᑣ߫ᰃNCBI᭄᥂῵ൟⱘЁᖗܗ㋴ǄᅗࣙᣀϔϾㅔऩⱘ䖲㓁ⱘḌ䝌ߚᄤ៪㲟ⱑ䋼 ߚᄤˈᅗᅮНњϔϾ㒓ᗻᅠᭈⱘण䇗㋏㒳Ǆ⫳⠽ᑣ߫ᖙ乏㟇ᇥ᳝ϔϾᑣ߫䕼䆚఼˄SeqId˅Ǆ ᅗࣙ৿њߚᄤ˄DNAˈRNA੠㲟ⱑ䋼˅ⱘ⠽⧚㉏ൟⱘֵᙃˈг᳝ϔѯ⊼䞞ֵᙃ˄՟བᣛ⼎⡍ᅮ ⫳⠽ᑣ߫ⱘ⡍ᅮऎඳⱘ⫳⠽⡍ᕕ˅Ǆᅗ䖬᳝ᦣ䗄ֵᙃ˄՟བ䆹ߚᄤᰃҢᶤϾ㒘㒛Ё㦋ᕫⱘˈ 䖭ᦣ䗄њᭈϾ⫳⠽ᑣ߫˅Ǆ ✊㗠ˈ⫳⠽ᑣ߫ϡ䳔㽕ߚᄤⱘᅠᭈᑣ߫Ǆᅗৃ㛑ᰃϔϾߚᓔⱘᑣ߫ˈ՟བ໪ᰒᄤᑣ߫ˈ㗠ϡ ᰃ᠔᳝ݙ৿ᄤᑣ߫Ǆ៪㗙ᅗৃ㛑ᰃা᳝ϔ⚍ᷛ䆚ⱘ෎಴៪⠽⧚᯴ᇘǄ ᑣ߫ᰃⳌৠⱘ ेՓᅲ䰙ᑣ߫≵᳝ᅠܼ⹂ᅮˈ᠔᳝⫳⠽ᑣ᳝߫ϔϾᭈ᭄ؐⱘᅠᭈण䇗㋏㒳Ǆ᠔ҹᇍ⠽⧚᯴ᇘ ៪ᇍ催ࡆߚ಴෎ⱘ໪ᰒᄤᴹ䇈ˈᷛ䆚੠໪ᰒᄤП䯈ⱘ䎱⾏া᳝Ңϔ㕸㛊ԧЁᕫࠄǄ᠔ҹᔧϔ Ͼᅠᭈⱘᑣ߫ᶧ㡆ԧⱘण䇗݇㋏Ꮖ㒣㊒⹂њ㾷ৢˈ䙷ѯ෎಴੠⠽⧚᯴ᇘᰃ᳔Շⱘ᥼⌟ˈे੠ ᅲ䰙݇㋏ⱘ䫭䇃ὖ⥛᳔ᇣǄ ϡㅵᗢḋˈӏԩ⫳⠽ֵᙃ䛑㛑㹿⊼䞞ҹⳌৠⱘֵᙃǄ՟བϔϾ෎಴⡍ᕕৃҹ㹿ᬒ೼DNAᑣ߫ⱘ ϔϾऎඳݙ៪ˈ㗙ᰃ⠽⧚᯴ᇘⱘᶤϾԡ㕂Ǆ䆹᯴ᇘ੠ᑣ߫ৃҹḍ᥂݅ৠⱘ෎಴⡍ᕕᔦЎϔ ㉏Ǆ䖭໻໻ㅔ࣪њ㛑ሩ⼎䖭ѯ㸼䴶ϞϡⳌ݇ⱘ᭄᥂ⱘ䕃ӊⱘ㓪ݭӏࡵǄ ᑣ߫ᰃϡⳌৠⱘ ሑㅵⳌৠⱘण䇗㋏㒳᳝ᕜ໮Ӭ⚍ˈϡৠⱘ⫳⠽ᑣ߫㉏᠔ҷ㸼ⱘᮍᓣϡৠǄ᳔ϔ㠀ⱘ㉏˄㾕೒ 6.2˅ㅔऩҟ㒡བϟǄ ᅲ䰙⫳⠽ᑣ߫ ೼ᅲ䰙⫳⠽ᑣ߫Ё៥Ӏⶹ䘧ߚᄤ㉏ൟˈৃ㛑ᰃᅗⱘ䭓ᑺ੠ᢧᠥ㒧ᵘ˄՟བ㒓ᗻˈ⦃⢊˅ˈԚ ϡᰃᅲ䰙ⱘᑣ߫Ǆᅗৃҹҷ㸼෎಴ߚᄤ˄া᳝໪ᰒᄤᑣ߫Ꮖ㒣⹂ᅮ˅ⱘݙ৿ᄤǄ䭓ᑺৃ㛑া 㛑Ңϔ㕸㛊ԧⱘ᭄䞣ᕫࠄǄ ॳྟ⫳⠽ᑣ߫ 䖭ᰃ໻໮᭄Ҏᛇⱘᑣ߫ˈϔІㅔऩ䖲㓁ⱘ⺅෎੠⅟෎ᰃᏆⶹⱘǄ಴ℸ䭓ᑺᰃᏆⶹⱘˈᑣ߫Ё ᅗᑨ䆹੠⺅෎៪⅟෎ⱘ᭄䞣䜡ড়Ǆ ⾏ᬷⱘ⫳⠽ᑣ߫ ⾏ᬷⱘ⫳⠽ᑣ߫ϡࣙ⫳ྟॳ৿⠽ᑣ߫ˈԚ݊Ҫ⫳⠽ᑣ߫ⱘ䕼䆚఼Ǆ䖭ৃҹ㹿⫼Ѣҷ㸼া᳝໪ ᰒᄤᏆⶹⱘ෎಴ᑣ߫Ǆ⾏ᬷ⫳⠽ᑣ߫Ёⱘ䚼ߚᇚᰃҷ㸼໪ᰒᄤⱘॳ⫳⠽ᑣ߫੠ҷ㸼ݙ৿ᄤⱘ ᅲ⫳⠽ᑣ߫Ǆ ⾏ᬷ⫳⠽ᑣ߫г㹿⫼ѢNCBIᴹҷ㸼ᭈϾᶧ㡆ԧǄ䖭ህᰃEntrez෎಴ߚ行ⱘᮍ⊩˄㾕೒6.3˅Ǆ ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ9/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第六章NCB数据模型页码,10/15 这时,所有的部分都可能是原生物序列(许多情况的记录都已经存在于 Gen Bank中)。可能在连接部分有重叠。 De/ta生物序列 elta生物序列是用于代表从不同的基因序列中心得到的未完高产量基因序列(HTGS)。即使有未知的生物序列子区域存在,使用 Del ta序列而不是离散序列是指对整个序列只需一个序列辨识器。也就是说即使数据库中存在早期的版本,Deta序列保持着相同的序列号(见本章末尾映射生物序列映射生物序列用于代表遗传和物理的映射关系,和实生物序列类似都包含有分子结构可能是拓扑结构以及真实分子长度粗糙估计的长度信息。这个信息只提供协调系统以每个生物序列的属性。对一个遗传映射给定协调系统我们可以根据遗传证据估计基因的位置。和原生物序列的数据是碱基和残基类似,作用基因特征表是映射生物序列的主要数据。 BI0 SEOSETS:序列集合生物序列经常储存在相关序列的上下文中。例如核酸序列和它编码的蛋白质序列自然属于一类。NCB数据模型为这个目的提供了序列集合。序列集合有一系列描述。将生物序列进行压缩时,需要对集合中每个序列进行描述。将出版物和生物原信息结合在一起是比较方便的安排,这些生物原信息是期望对所有序列的但经常在序列集合中出现相同。例如,DNA和蛋白质序列都是从同一组织中获得的,所以该描述信息应该用于该集合,同样也适用于出版物最一般的序列集合如下。核酸--蛋白质集合核酸-蛋白质集合包含核酸和一个或多个蛋白质,它是最经常由 Sequel n数据提交产生的集合。序列的组成是通过描述从核酸到蛋白质的翻译过程的编码区(CDS)的特征来联系的。传统的核酸和蛋白质数据库中这些记录可能用交叉参考来指明这种联系。核酸-蛋白质集合将二者放在一起使得这种联系更加清楚。它也允许用于所有序列的描述信息的同时存在(例如组织或出处) 数量、种类的研究序列提交的一个主要的类是以人口或种类研究的形式出现。这些研究包括同种类(数量研究)或不同种类(种类研究)一定数量的个体相同基因的比对。序列比对可能从以下的序列比对中得到。若基因编码了某个蛋白质,则数量或种类的序列集合可能也是一个核酸-蛋白质集合。其它的生物序列集合 Seg集合包含了一个离散的生物序列和一个部分生物集合,反过来部分生物集合有包含了被离散生物序列引用的原生物序列(这可能组成了核酸-蛋白质集合的核酸部分)。 Equi v生物序列集合被用于 Entrez基因分离,以维持生物序列的多平衡。例如,人体染色体有一个或多个不同种类的遗传、物理映射。不同生物序列之间的比对是基于对一般人员的注释 (见第12章和图12.4)。 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18

䖭ᯊˈ᠔᳝ⱘ䚼ߚ䛑ৃ㛑ᰃॳ⫳⠽ᑣ߫˄䆌໮ᚙމⱘ䆄ᔩ䛑Ꮖ㒣ᄬ೼ѢGenBankЁ˅Ǆৃ㛑೼ 䖲᥹䚼ߚ᳝䞡঴Ǆ Delta⫳⠽ᑣ߫ Delta⫳⠽ᑣ߫ᰃ⫼Ѣҷ㸼Ңϡৠⱘ෎಴ᑣ߫Ёᖗᕫࠄⱘ᳾ᅠ催ѻ䞣෎಴ᑣ߫˄HTGS˅ǄेՓ ᳝᳾ⶹⱘ⫳⠽ᑣ߫ᄤऎඳᄬ೼ˈՓ⫼Deltaᑣ߫㗠ϡᰃ⾏ᬷᑣ߫ᰃᣛᇍᭈϾᑣ߫া䳔ϔϾᑣ߫ 䕼䆚఼Ǆгህᰃ䇈ेՓ᭄᥂ᑧЁᄬ೼ᮽᳳⱘ⠜ᴀˈDeltaᑣֱ߫ᣕⴔⳌৠⱘᑣ߫ো˄㾕ᴀゴ᳿ ሒ˅Ǆ ᯴ᇘ⫳⠽ᑣ߫ ᯴ᇘ⫳⠽ᑣ߫⫼Ѣҷ㸼䘫Ӵ੠⠽⧚ⱘ᯴ᇘ݇㋏ˈ੠ᅲ⫳⠽ᑣ߫㉏Ԑ䛑᳝ࣙ৿ߚᄤ㒧ᵘৃ㛑ᰃ ᢧᠥ㒧ᵘҹঞⳳᅲߚᄤ䭓ᑺ㉫㊭Ԅ䅵ⱘ䭓ᑺֵᙃǄ䖭Ͼֵᙃাᦤկण䇗㋏㒳ҹ↣Ͼ⫳⠽ᑣ߫ ⱘሲᗻǄᇍϔϾ䘫Ӵ᯴ᇘ㒭ᅮण䇗㋏㒳៥Ӏৃҹḍ᥂䘫Ӵ䆕᥂Ԅ䅵෎಴ⱘԡ㕂Ǆ੠ॳ⫳⠽ᑣ ߫ⱘ᭄᥂ᰃ⺅෎੠⅟෎㉏Ԑˈ԰⫼෎಴⡍ᕕ㸼ᰃ᯴ᇘ⫳⠽ᑣ߫ⱘЏ㽕᭄᥂Ǆ BIOSEQSETS˖ᑣ߫䲚ড় ⫳⠽ᑣ߫㒣ᐌټᄬ೼Ⳍ݇ᑣ߫ⱘϞϟ᭛ЁǄ՟བḌ䝌ᑣ߫੠ᅗ㓪ⷕⱘ㲟ⱑ䋼ᑣ߫㞾✊ሲѢϔ ㉏ǄNCBI᭄᥂῵ൟЎ䖭ϾⳂⱘᦤկњᑣ߫䲚ড়Ǆ ᑣ߫䲚ড়᳝ϔ㋏߫ᦣ䗄Ǆᇚ⫳⠽ᑣ߫䖯㸠य़㓽ᯊˈ䳔㽕ᇍ䲚ড়Ё↣Ͼᑣ߫䖯㸠ᦣ䗄Ǆᇚߎ⠜ ⠽੠⫳⠽ॳֵᙃ㒧ড়೼ϔ䍋ᰃ↨䕗ᮍ֓ⱘᅝᥦˈ䖭ѯ⫳⠽ॳֵᙃᰃᳳᳯᇍ᠔᳝ᑣ߫ⱘԚ㒣ᐌ ೼ᑣ߫䲚ড়Ёߎ⦃ⳌৠǄ՟བˈDNA੠㲟ⱑ䋼ᑣ߫䛑ᰃҢৠϔ㒘㒛Ё㦋ᕫⱘˈ᠔ҹ䆹ᦣ䗄ֵᙃ ᑨ䆹⫼Ѣ䆹䲚ড়ˈৠḋг䗖⫼Ѣߎ⠜⠽Ǆ ᳔ϔ㠀ⱘᑣ߫䲚ড়བϟǄ Ḍ䝌--㲟ⱑ䋼䲚ড় Ḍ䝌㲟ⱑ䋼䲚ড়ࣙ৿Ḍ䝌੠ϔϾ៪໮Ͼ㲟ⱑ䋼ˈᅗᰃ᳔㒣ᐌ⬅SequIn᭄᥂ᦤѸѻ⫳ⱘ䲚ড়Ǆ ᑣ߫ⱘ㒘៤ᰃ䗮䖛ᦣ䗄ҢḌ䝌ࠄ㲟ⱑ䋼ⱘ㗏䆥䖛⿟ⱘ㓪ⷕऎ˄CDS˅ⱘ⡍ᕕᴹ㘨㋏ⱘǄӴ㒳ⱘ Ḍ䝌੠㲟ⱑ䋼᭄᥂ᑧЁ䖭ѯ䆄ᔩৃ㛑⫼Ѹঝখ㗗ᴹᣛᯢ䖭⾡㘨㋏ǄḌ䝌㲟ⱑ䋼䲚ড়ᇚѠ㗙ᬒ ೼ϔ䍋Փᕫ䖭⾡㘨㋏᳈ࡴ⏙ἮǄᅗгܕ䆌⫼Ѣ᠔᳝ᑣ߫ⱘᦣ䗄ֵᙃⱘৠᯊᄬ೼˄՟བ㒘㒛៪ ߎ໘˅Ǆ ᭄䞣ǃ⾡㉏ⱘⷨお ᑣ߫ᦤѸⱘϔϾЏ㽕ⱘ㉏ᰃҹҎষ៪⾡㉏ⷨおⱘᔶᓣߎ⦃Ǆ䖭ѯⷨおࣙᣀৠ⾡㉏˄᭄䞣ⷨ お˅៪ϡৠ⾡㉏˄⾡㉏ⷨお˅ϔᅮ᭄䞣ⱘϾԧⳌৠ෎಴ⱘ↨ᇍǄᑣ߫↨ᇍৃ㛑Ңҹϟⱘᑣ߫ ↨ᇍЁᕫࠄǄ㢹෎಴㓪ⷕњᶤϾ㲟ⱑ䋼ˈ᭄߭䞣៪⾡㉏ⱘᑣ߫䲚ড়ৃ㛑гᰃϔϾḌ䝌㲟ⱑ䋼䲚ড়Ǆ ݊ᅗⱘ⫳⠽ᑣ߫䲚ড় Seg䲚ড়ࣙ৿њϔϾ⾏ᬷⱘ⫳⠽ᑣ߫੠ϔϾ䚼ߚ⫳⠽䲚ড়ˈড䖛ᴹ䚼ߚ⫳⠽䲚ড়᳝ࣙ৿њ㹿⾏ ᬷ⫳⠽ᑣ߫ᓩ⫼ⱘॳ⫳⠽ᑣ߫˄䖭ৃ㛑㒘៤њḌ䝌㲟ⱑ䋼䲚ড়ⱘḌ䝌䚼ߚ˅Ǆ Equiv⫳⠽ᑣ߫䲚ড়㹿⫼ѢEntrez෎಴ߚˈ行ҹ㓈ᣕ⫳⠽ᑣ߫ⱘ໮ᑇ㸵Ǆ՟བˈҎԧᶧ㡆ԧ᳝ ϔϾ៪໮Ͼϡৠ⾡㉏ⱘ䘫Ӵǃ⠽⧚᯴ᇘǄϡৠ⫳⠽ᑣ߫П䯈ⱘ↨ᇍᰃ෎Ѣᇍϔ㠀Ҏਬⱘ⊼䞞 ˄㾕㄀12ゴ੠೒12.4˅Ǆ ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ10/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击下载完整版文档（PDF格式）

共15页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录