第六章NCB数据模型 页码,4/15 包含了搜集数据的功能,包括序列和特征,自动将小的个体片段重新映射到全染色体上。这 为图象视角、 GenBank结构视角、 FASTA视角或对离散数据进行全染色体分析提供了可能。这 种根据命令在大范围区域内组装片段的能力已经在细菌基因中有所应用。在越来越大的区域 进行拼接或者许多不同组拼接时组装命令将越来越重要,而且这种基于大规模单片段基础上 处理的思想是完全不现实的。 ASN.1处理方法 NCB数据模型经常被提到或和° NCBI ASN.1″或“ASN.1数据模型”混淆。 Abstract Syntax Notati on1(ASN.1)是国际标准组织(1S0)的标准之一,是为描述结构数据和保障允许各 计算机和各种软件之间交换结构和内容可靠翻译数据。说一个数据模型是用ASN.1写的就象 个计算机程序是用C或F0 RTRAN写的,指明了语言而不是指程序本身。从特殊的以DNA为中心的 视角来看,熟悉的 Gen Bank格式实际是的给人读的,而ASN.1是为计算机读的,并且有复杂的 数据关系的描述。从这个简单的形式看,我们创造了一系列的人可读的格式如 Entrez, Gen Bank和 BLAST数据库。没有这些一般意义上的格式的存在, Entrez(见第5章)中相邻或连 接关系的存在是不可能的。这一章是关于NCB|数据的结构和内容以及它作为生物药学数据库 和工具的作用。关于这个任务和格式的ASN.1选择参见0 stell,1995 定义方式 我们已经对NCB数据模型所定义的序列举了几个例子,可以看出NCB数据类型相比 Gen Bank更 加丰富、描述更加清晰。该模型的重点是它的细节问题,我们在下面将它进行展开。在这里 我们简单地介绍一下该模型大致的理论和基本原理 将数据输入计算机的目的有两个:重现和发现。重现是基本的能够找回它原来的本身。尽管 这很重要,但如果能比找回本身得到更多的信息,也就是说能从信息中得到发现,这当然是 更有价值的。从识别数据库中完全不相关的两条数据中发现它们之间的关系,或者对数据进 行新角度的分析计算,科学家能从中得到发现。强调NCBl数据模型就是为了促进这种发现, 从而定义了能描述信息间的联系和适合计算的数据模型。 对这种模型的第二个考虑是稳定性。NCB是美国国家机构而不是由个人赞助的,因此成员对 支持生物信息的努力有长远的考虑。NCB提供了大规模的能支持科学研究几十年的信息系 统。就所有关于生物药学方面的人士所知,在近几十年内,可能会有许多概念性和技术上的 革命,所以NCB必须适应这些新的观点,适应对软件和数据新的要求。所以我们尽量选用基 本观察或数据点的主要数据元素,不考虑解释的核心和这些元素的命名(这些都很可能会发 生变化)。 综合考虑上述原因,NCB|有四个核心元素:文献出处,DNA序列,蛋白质序列和三维结构。另 外两个项目(分类和基因图)更具解释性,但是不管怎样,它们和组织和联系方面一样重要 所以NCB在这个领域内建立了一个相当大的基础 出版物 出版物是科学研究的核心。科学信息从这里进行检査、评价、传播和永久的记录。出版物可 以说是活的连接实际中不同结构或内容域的数据库的桥梁(例如某序列数据库中的一条记录 和基因库中的某条记录可能出自同一篇文章)。它们被当作联系实际数据库的无价之宝 (“我读了关于这条记录的文章,现在我想看看这个数据”)。 出版物也是功能的基本注释和实际数据库的上下文,也许是最好的注释。原因之一是实际数 据库有能有效使用该数据库的结构,但缺乏足够的代表性能继续进行完整的生物的、实验的 或某记录的历史上下文。另一方面,发表的文章仅仅受语言的限制,比实际数据库中的记录 更包含了更完整和详细的描述信息。根据发表文章的内容,作者被科学同僚评价,而不是根 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18ࣙњ᧰䲚᭄ⱘࡳ㛑ˈࣙᣀᑣ߫⡍ᕕˈ㞾ࡼᇚᇣⱘϾԧ⠛↉䞡ᮄᇘࠄܼᶧ㡆ԧϞDŽ䖭 Ў䈵㾚㾦ǃGenBank㒧ᵘ㾚㾦ǃFASTA㾚㾦ᇍ⾏ᬷ᭄䖯㸠ܼᶧ㡆ԧߚᵤᦤկњৃ㛑DŽ䖭 ⾡ḍੑҸ㣗ೈऎඳݙ㒘㺙⠛↉ⱘ㛑Ꮖ㒣㒚㦠Ё᳝᠔ᑨ⫼DŽ䍞ᴹ䍞ⱘऎඳ 䖯㸠ᣐ㗙䆌ϡৠ㒘ᣐᯊ㒘㺙ੑҸᇚ䍞ᴹ䍞䞡㽕ˈ㗠Ϩ䖭⾡Ѣ㾘ऩ⠛↉⸔Ϟ ໘⧚ⱘᗱᛇᰃᅠܼϡ⦄ᅲⱘDŽ ASN.1໘⧚ᮍ⊩ NCBI᭄ൟ㒣ᐌ㹿ᦤࠄ”NCBI ASN.1”“ASN.1᭄ൟā⏋⎚DŽAbstract Syntax Notation 1˄ASN.1˅ᰃ䰙ᷛޚ㒘㒛˄ISO˅ⱘᷛޚПϔˈᰃЎᦣ䗄㒧ᵘ᭄ֱ䱰ܕ䆌 䅵ㅫᴎ⾡䕃ӊП䯈Ѹᤶ㒧ᵘݙᆍৃ䴴㗏䆥᭄DŽ䇈ϔϾ᭄ൟᰃ⫼ASN.1ݭⱘህ䈵ϔ Ͼ䅵ㅫᴎᑣᰃ⫼&FORTRANݭⱘˈᣛᯢњ䇁㿔㗠ϡᰃᣛᑣᴀ䑿DŽҢ⡍⅞ⱘҹDNAЎЁᖗⱘ 㾚㾦ᴹⳟˈ❳ᙝⱘGenBankḐᓣᅲ䰙ᰃⱘ㒭Ҏ䇏ⱘˈ㗠ASN.1ᰃЎ䅵ㅫᴎ䇏ⱘˈᑊϨ᳝ᴖⱘ ᭄݇㋏ⱘᦣ䗄DŽҢ䖭Ͼㅔऩⱘᔶᓣⳟˈ៥Ӏ߯䗴њϔ㋏߫ⱘҎৃ䇏ⱘḐᓣབEntrezˈ GenBankBLAST᭄ᑧDŽ≵᳝䖭ѯϔ㠀ᛣНϞⱘḐᓣⱘᄬˈEntrez˄㾕ゴ˅ЁⳌ䚏䖲 ݇㋏ⱘᄬᰃϡৃ㛑ⱘDŽ䖭ϔゴᰃ݇ѢNCBI᭄ⱘ㒧ᵘݙᆍҹঞᅗЎ⫳⠽㥃ᄺ᭄ᑧ Ꮉⱘ⫼DŽ݇Ѣ䖭ϾӏࡵḐᓣⱘASN.1䗝ᢽখ㾕Ostellˈ1995DŽ ᅮНᮍᓣ ៥ӀᏆ㒣ᇍNCBI᭄ൟ᠔ᅮНⱘᑣ߫ВњϾ՟ᄤˈৃҹⳟߎNCBI᭄㉏ൟⳌ↨GenBank ࡴЄᆠǃᦣ䗄ࡴ⏙᱄DŽ䆹ൟⱘ䞡⚍ᰃᅗⱘ㒚㡖䯂乬ˈ៥Ӏϟ䴶ᇚᅗ䖯㸠ሩᓔDŽ䖭䞠 ៥Ӏㅔऩഄҟ㒡ϔϟ䆹ൟ㟈ⱘ⧚䆎ᴀॳ⧚DŽ ᇚ᭄䕧ܹ䅵ㅫᴎⱘⳂⱘ᳝ϸϾ˖䞡⦄থ⦄DŽ䞡⦄ᰃᴀⱘ㛑ᡒಲᅗॳᴹⱘᴀ䑿DŽሑㅵ 䖭ᕜ䞡㽕ˈԚབᵰ㛑↨ᡒಲᴀ䑿ᕫࠄⱘֵᙃˈгህᰃ䇈㛑ҢֵᙃЁᕫࠄথ⦄ˈ䖭ᔧ✊ᰃ ᳝ӋؐⱘDŽҢ䆚߿᭄ᑧЁᅠܼϡⳌ݇ⱘϸᴵ᭄Ёথ⦄ᅗӀП䯈ⱘ݇㋏ˈ㗙ᇍ᭄䖯 㸠ᮄ㾦ᑺⱘߚᵤ䅵ㅫˈ⾥ᄺᆊ㛑ҢЁᕫࠄথ⦄DŽᔎ䇗NCBI᭄ൟህᰃЎњ֗䖯䖭⾡থ⦄ˈ Ң㗠ᅮНњ㛑ᦣ䗄ֵᙃ䯈ⱘ㘨㋏䗖ড়䅵ㅫⱘ᭄ൟDŽ ᇍ䖭⾡ൟⱘѠϾ㗗㰥ᰃ〇ᅮᗻDŽNCBIᰃ㕢ᆊᴎᵘ㗠ϡᰃ⬅ϾҎ䌲ࡽⱘˈℸ៤ਬᇍ ᬃᣕ⫳⠽ֵᙃⱘࡾ᳝䭓䖰ⱘ㗗㰥DŽNCBIᦤկњ㾘ⱘ㛑ᬃᣕ⾥ᄺⷨおकᑈⱘֵᙃ㋏ 㒳DŽህ᠔᳝݇Ѣ⫳⠽㥃ᄺᮍ䴶ⱘҎ᠔ⶹˈ䖥कᑈݙৃˈ㛑Ӯ᳝䆌ὖᗉᗻᡔᴃϞⱘ 䴽ੑˈ᠔ҹNCBIᖙ乏䗖ᑨ䖭ѯᮄⱘ㾖⚍ˈ䗖ᑨᇍ䕃ӊ᭄ᮄⱘ㽕∖DŽ᠔ҹ៥Ӏሑ䞣䗝⫼ ᴀ㾖ᆳ᭄⚍ⱘЏ㽕᭄ܗ㋴ˈϡ㗗㰥㾷䞞ⱘḌᖗ䖭ѯܗ㋴ⱘੑৡ˄䖭ѯ䛑ᕜৃ㛑Ӯথ ⫳ব࣪˅DŽ 㓐ড়㗗㰥Ϟ䗄ॳˈNCBI᳝ಯϾḌᖗܗ㋴˖᭛⤂ߎ໘ˈDNAᑣ߫ˈ㲟ⱑ䋼ᑣ߫ϝ㓈㒧ᵘDŽ ϸϾ乍Ⳃ˄ߚ㉏˅㾷䞞ᗻˈԚᰃϡㅵᗢḋˈᅗӀ㒘㒛㘨㋏ᮍ䴶ϔḋ䞡㽕 ᠔ҹNCBI䖭Ͼ乚ඳݙᓎゟњϔϾⳌᔧⱘ⸔DŽ ⠜⠽ߎ ߎ⠜⠽ᰃ⾥ᄺⷨおⱘḌᖗDŽ⾥ᄺֵᙃҢ䖭䞠䖯㸠Ẕᶹǃ䆘ӋǃӴ᪁∌Йⱘ䆄ᔩDŽߎ⠜⠽ৃ ҹ䇈ᰃ⌏ⱘ䖲ᅲ䰙Ёϡৠ㒧ᵘݙᆍඳⱘ᭄ᑧⱘḹṕ˄՟བᶤᑣ᭄߫ᑧЁⱘϔᴵ䆄ᔩ ᑧЁⱘᶤᴵ䆄ᔩৃ㛑ߎ㞾ৠϔ㆛᭛ゴ˅DŽᅗӀ㹿ᔧ㘨㋏ᅲ䰙᭄ᑧⱘ᮴ӋПᅱ ˄Ā៥䇏њ݇Ѣ䖭ᴵ䆄ᔩⱘ᭛ゴˈ⦄៥ᛇⳟⳟ䖭Ͼ᭄ā˅DŽ ߎ⠜⠽гᰃࡳ㛑ⱘᴀ⊼䞞ᅲ䰙᭄ᑧⱘϞϟ᭛ˈг䆌ᰃ᳔དⱘ⊼䞞DŽॳПϔᰃᅲ䰙᭄ ᑧ᳝㛑᳝ᬜՓ⫼䆹᭄ᑧⱘ㒧ᵘˈԚ㔎У䎇ⱘҷ㸼ᗻ㛑㒻㓁䖯㸠ᅠᭈⱘ⫳⠽ⱘǃᅲ偠ⱘ ᶤ䆄ᔩⱘग़Ϟϟ᭛DŽϔᮍ䴶ˈথ㸼ⱘ᭛ゴҙҙফ䇁㿔ⱘ䰤ࠊ↨ˈᅲ䰙᭄ᑧЁⱘ䆄ᔩ ࣙњᅠᭈ䆺㒚ⱘᦣ䗄ֵᙃDŽḍথ㸼᭛ゴⱘݙᆍˈ㗙㹿⾥ᄺৠڮ䆘Ӌˈ㗠ϡᰃḍ ݁ゴ NCBI᭄ൟ 义ⷕˈ4/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com