第六章NCB数据模型 页码,1/15 第六章NCB数据模型 前言数据模型 什么是数据模型 生物学家大都熟悉用动物模型来研究人体疾病。尽管人体疾病有可能在动物中找不到完全相 同的形式,但某种动物疾病和人体疾病有相当多的类似性质使我们可以从动物疾病中获得的 数据来推断人体的疾病过程。通过将肌肉想象成弹簧和水压活塞的组合,将骨骼想象成杠杆 臂,可以得到描述肌肉骨骼运动的数学模型。这样的模型可以对更多复杂的生物系统进行有 意义的预测和检验。显然,如果模型与描述的实际现象可以更加接近或精致,则它对所模拟 的自然现象的预测和理解就更有意义。 八年前,№CB介绍了一种新的序列相关信息模型。这种新模型使基于Eηtrez系统的完整数据 库 Gen Bank的建立以及相应的软件得到快速的发展。该模型具有如下优点:它能轻而易举的从 已公布的说明的DNA序列映射到编码蛋白,到基因的染色体设计,到三维蛋白质的结构(见第 5章)。该模型的优点对生物学家使用 Entrez有很大的帮助。但是很少有生物学家了解该模型 的基础。当基因信息变得越来越丰富,越来越复杂的情况下,出现了很多符合 GenBank数 据,且模型本身更好理解的实际数据模型。这一章不深入讨论细节,只介绍一些实用的索引 及NCB模型所起的作用 模型的一些例子 Gen Bank数据是以DNA为中心角度的数据报告(见第2章),也就是以CDS特征为代表的一段编 码蛋白质的DNA序列。限定符/ transl ati on="MLLY"描述了将CDS特征翻译成的氨基酸顺序。 其它的DNA特征(例如mat-肽)有时被 Gen Bani数据应用来描述未命名蛋白质(部分 由/ transl ati on描述)的切分产物,但这不是一种令人满意的解决方法。相反,大多数蛋白 质序列数据库以蛋白质为中心角度,这样可能完全失掉其与编码基因之间的联系,或者只是 间接的用序列号表示其联系(这并不提供准确的对基因突变分析有重要作用的密码子--氨基 酸对应关系)。 NCBI数据模型直接构造了包含DNA和蛋白质序列的模型。翻译的过程是由两种序列间的关系决 定而不是由一种对另一种的解释确定。和蛋白质相关的注解(例如肽切分产物)是由蛋白质 序列特征直接注释。这样,用 BLAST或其他序列搜索工具去分析由CDS特征得到蛋白质序列就 变容易了,尽管返回基因时可能会丢失精确的中间联系。一组DNA序列和由它翻译的蛋白质被 称为核酸一蛋白质组,它是NCB|为使用这些数据的中间数据。 Gen Bank数据格式只是人类可读 的一种特殊数据形式。它失去了有联系的序列集合,而倒退回比较熟悉的那种序列(以DNA为 中心的视角)。 Entrez的目标是更直接的反映数据的低层结构。由 BLAST实现的从 Gen Bank到 蛋白质序列的翻译实际上是从蛋白质一核酸组得到蛋白质序列。 Part真: LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995 DEFINI TI ON Rattus norvegi cus kappa opi oi d receptor gene, exon 1 and 2. ACCESSI ON U17993 NDg727256 KEYWORDS SegmEnT 1 of 3 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18݁ゴ NCBI᭄ൟ ࠡ㿔᭄ൟ ҔМᰃ᭄ൟ ⫳⠽ᄺᆊ䛑❳ᙝ⫼ࡼ⠽ൟᴹⷨおҎԧ⮒⮙DŽሑㅵҎԧ⮒⮙᳝ৃ㛑ࡼ⠽ЁᡒϡࠄᅠܼⳌ ৠⱘᔶᓣˈԚᶤ⾡ࡼ⠽⮒⮙Ҏԧ⮒⮙᳝Ⳍᔧⱘ㉏Ԑᗻ䋼Փ៥ӀৃҹҢࡼ⠽⮒⮙Ё㦋ᕫⱘ ᭄ᴹᮁҎԧⱘ⮒⮙䖛DŽ䗮䖛ᇚ㙠㙝ᛇ䈵៤ᔍㇻ∈य़⌏าⱘ㒘ড়ˈᇚ偼傐ᛇ䈵៤ᴴᴚ 㞖ˈৃҹᕫࠄᦣ䗄㙠㙝偼傐䖤ࡼⱘ᭄ᄺൟDŽ䖭ḋⱘൟৃҹᇍᴖⱘ⫳⠽㋏㒳䖯㸠᳝ ᛣНⱘ乘⌟Ẕ偠DŽᰒ✊ˈབᵰൟϢᦣ䗄ⱘᅲ䰙⦄䈵ৃҹࡴ䖥㊒㟈ˈ߭ᅗᇍ᠔ᢳ ⱘ㞾✊⦄䈵ⱘ乘⌟⧚㾷ህ᳝ᛣНDŽ ܿᑈࠡˈNCBIҟ㒡њϔ⾡ᮄⱘᑣ߫Ⳍֵ݇ᙃൟDŽ䖭⾡ᮄൟՓѢEntrez㋏㒳ⱘᅠᭈ᭄ ᑧGenBankⱘᓎゟҹঞⳌᑨⱘ䕃ӊᕫࠄᖿ䗳ⱘথሩDŽ䆹ൟ᳝བϟӬ⚍˖ᅗ㛑䕏㗠ᯧВⱘҢ Ꮖ݀Ꮧⱘ䇈ᯢⱘDNAᑣ߫ᇘࠄ㓪ⷕ㲟ⱑˈࠄⱘᶧ㡆ԧ䆒䅵ˈࠄϝ㓈㲟ⱑ䋼ⱘ㒧ᵘ˄㾕 ゴ˅DŽ䆹ൟⱘӬ⚍ᇍ⫳⠽ᄺᆊՓ⫼Entrez᳝ᕜⱘᐂࡽDŽԚᰃᕜᇥ᳝⫳⠽ᄺᆊњ㾷䆹ൟ ⱘ⸔DŽᔧֵᙃবᕫ䍞ᴹ䍞Єᆠˈ䍞ᴹ䍞ᴖⱘᚙމϟˈߎ⦃њᕜヺড় GenBank᭄ ˈϨൟᴀ䑿ད⧚㾷ⱘᅲ䰙᭄ൟDŽ䖭ϔゴϡ⏅ܹ䅼䆎㒚㡖ˈাҟ㒡ϔѯᅲ⫼ⱘ㋶ᓩ ঞNCBIൟ᠔䍋ⱘ⫼DŽ ൟⱘϔѯ՟ᄤ GenBank᭄ᰃҹDNAЎЁᖗ㾦ᑺⱘ᭄ਞ˄㾕ゴ˅ˈгህᰃҹCDS⡍ᕕЎҷ㸼ⱘϔ↉㓪 ⷕ㲟ⱑ䋼ⱘDNAᑣ߫DŽ䰤ᅮヺ/translation="MLLYY"ᦣ䗄њᇚCDS⡍ᕕ㗏䆥៤ⱘ⇼䝌乎ᑣDŽ ݊ᅗⱘDNA⡍ᕕ˄՟བmat-㚑˅᳝ᯊ㹿GenBank᭄ᑨ⫼ᴹᦣ䗄ੑৡ㲟ⱑ䋼˄䚼ߚ ⬅/translationᦣ䗄˅ⱘߚߛѻ⠽ˈԚ䖭ϡᰃϔ⾡ҸҎ⒵ᛣⱘ㾷އᮍ⊩DŽⳌডˈ᭄㲟ⱑ 䋼ᑣ᭄߫ᑧҹ㲟ⱑ䋼ЎЁᖗ㾦ᑺˈ䖭ḋৃ㛑ᅠܼ༅ᥝ݊Ϣ㓪ⷕП䯈ⱘ㘨㋏ˈ㗙াᰃ 䯈ⱘ⫼ᑣ߫ো㸼⼎݊㘨㋏˄䖭ᑊϡᦤկޚ⹂ⱘᇍさবߚᵤ᳝䞡㽕⫼ⱘᆚⷕᄤ--⇼ 䝌ᇍᑨ݇㋏˅DŽ NCBI᭄ൟⳈᵘ䗴њࣙDNA㲟ⱑ䋼ᑣ߫ⱘൟDŽ㗏䆥ⱘ䖛ᰃ⬅ϸ⾡ᑣ߫䯈ⱘ݇㋏އ ᅮ㗠ϡᰃ⬅ϔ⾡ᇍϔ⾡ⱘ㾷䞞⹂ᅮDŽ㲟ⱑ䋼Ⳍ݇ⱘ⊼㾷˄՟བ㚑ߚߛѻ⠽˅ᰃ⬅㲟ⱑ䋼 ᑣ߫⡍ᕕⳈ⊼䞞DŽ䖭ḋˈ⫼BLAST݊Ҫᑣ߫᧰㋶Ꮉএߚᵤ⬅CDS⡍ᕕᕫࠄ㲟ⱑ䋼ᑣ߫ህ বᆍᯧњˈሑㅵ䖨ಲᯊৃ㛑Ӯ϶༅㊒⹂ⱘЁ䯈㘨㋏DŽϔ㒘DNAᑣ߫⬅ᅗ㗏䆥ⱘ㲟ⱑ䋼㹿 ⿄ЎḌ䝌ü㲟ⱑ䋼㒘ˈᅗᰃNCBIЎՓ⫼䖭ѯ᭄ⱘЁ䯈᭄DŽGenBank᭄ḐᓣাᰃҎ㉏ৃ䇏 ⱘϔ⾡⡍⅞᭄ᔶᓣDŽᅗ༅এњ᳝㘨㋏ⱘᑣ߫䲚ড়ˈ㗠צ䗔ಲ↨䕗❳ᙝⱘ䙷⾡ᑣ߫˄ҹDNAЎ Ёᖗⱘ㾚㾦˅DŽEntrezⱘⳂᷛᰃⳈⱘড᭄ⱘԢሖ㒧ᵘDŽ⬅BLASTᅲ⦄ⱘҢGenBankࠄ 㲟ⱑ䋼ᑣ߫ⱘ㗏䆥ᅲ䰙ϞᰃҢ㲟ⱑ䋼üḌ䝌㒘ᕫࠄ㲟ⱑ䋼ᑣ߫DŽ Part A: LOCUS RNKOR1 1757bp DNA ROD 25-MA-1995 DEFINITION Rattus norvegicus kappa opioid receptor gene, exon 1 and 2. ACCESSION U17993 NID g727256 KEYWORDS . SEGMENT 1 of 3 ݁ゴ NCBI᭄ൟ 义ⷕˈ1/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com