第十四章提交DNA序列到数据库 页码,1/2 第十四章提交DNA序列到数据库 序言: 要在分子生物学领域进行计算分析,从公共数据库( DDBJ/EMBL/GenBank)中获得DNA序列记录 是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的 方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的 生物学注解。对于将其作为 BLAST或Eηtrez的检索结果来硏究的科学家来说,编码的蛋白质 产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测 序?)构成了序列记录的直接的确切涵义 本章的内容是提交DNA序列及其注解到公共数据库,重点介绍了与国际核苷酸序列协作数据 库:DDBJ、EMBL和 Gen Bank密切相关的核苷酸序列数据库。我们描述了提交序列到这些数据库 的两种不同的方法,一种方法基于互联网,(例如,使用 Banki t),另一种方法使用 Sequi n, 这是一个多平台程序,若同时具有网络连接有很大益处,不过这不是必需的。 Sequi n也是 种很好的利用了№CBI数据模型(参见第六章)的ASN.1编辑工具,而且在不久的将来会成为许 多采用NCB|的序列分析工具的平台,因此, Sequi n是可供选择的升级工具。 大多数期刊不再刊登完整的序列数据,并且现在公开发表文章时向公共数据库提交序列数据 已成为一条准则。基因组测序时期(ESTs和基因组序列的数量以很快的速度增加的时期,在 历史上以1992年底EST计划的开始为标志)己经通过很多方式影响了科学界。例如,许多科学 家公布他们发现的序列先于发表对其进行的详细分析,这个习惯已成为大型基因研究中心的 规定,尽管一些个别的实验室仍然直到文章发表后才公开他们的数据,还有一些人认为公开 他们的记录与否取决于自己的愿望。 像第二章概述的那样,到目前为止,数据库内容的增长是指数性的。大多数早期的序列记录 是由对于某个基因感兴趣的单个的科学家提交的,适合这种情况的提交程序必须允许手工进 行生物学信息的任意注解。然而最近这些数据库不得不接受新类型的数据,而且提交速度要 有实质性的提高。在EST测序开始不久,为了接受这些记录必需一种单独的提交协议,这种要 求变得很明显,通过该协议每天接受的记录将达到上千个,峰值时期更将达到每周100,000 个提交量。幸运的是,这些记录相当简单,而且在内容上是一致的,因此适合于自动处理 这种大批量提交协议将在下文讨论。提交过程也是国际活动的一部分,值得注意的是,向三 个国际性协作数据库中的任一个提交的记录(参见第二章图2.1)几天后都将在另两个数据库 中出现,然后这些序列记录将被许多研究组和研究中心传送到世界范围,其中有些研究者再 格式化这些记录以适合他们的数据库和他们的程序使用(例如,GCG,参见第四章),因此仅 仅提交序列数据到这三个数据库之一,研究者们能够避免给这三个地方的数据库维护人员带 来任何可能的重复工作,而且也能避免发布多余的记录。同样的,大多数期刊都希望在一篇 文章中提出的所有核苷酸序列,将被由国际性的协作数据库之一提供的加入号码所验证,而 且这对该文章来说具有核心的意义。(参见第2章和第6章)。 提交到哪儿? 过去硏究者将数据提交到哪一个特定的数据库依赖于他们想要发表文章的期刊,虽然现在 些期刊仍然不合适的指出一个偏爱的数据库,但这不再是正确的了,研究者应该提交到最方 便的数据库。这可能是地理上最近的数据库(例如,如果需要一次电话会谈的话);也可能 是经常提交的数据库;或者可能仅是因为在那里提交可能得到最多的注意。这三个数据库都 有知识丰富的人员来帮助提交者完成整个提交过程。在通常的情况下,一个工作日内将会反 馈回来一个加入号码,而记录的完成将需要5�10天的时间,其实际长短将依赖于那个工作 周的繁忙程度和提交的序列的状态。 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ ᑣ㿔: 㽕ߚᄤ⫳⠽ᄺ乚ඳ䖯㸠䅵ㅫߚᵤˈҢ᭄݀݅ᑧ(DDBJ/EMBL/GenBank)Ё㦋ᕫDNAᑣ߫䆄ᔩ ᰃ݊ᖙ䳔ᴵӊDŽࡽ׳ѢϔϾᏆњ㾷݊⫳⠽ᄺࡳ㛑㗠㹿ߚ行ߎᴹᑊ⌟ᑣⱘ↨䕗ⳌԐᗻⱘ ᮍ⊩ˈ៥Ӏৃҹᇱ䆩⹂ᅮᶤ⮒⮙ⱘࡳ㛑ˈ䖭⾡ᮍ⊩㽕∖ᑣ߫䆄ᔩ᳝㊒⹂ᑊϨᆠѢֵᙃⱘ ⫳⠽ᄺ⊼㾷DŽᇍѢᇚ݊ЎBLAST EntrezⱘẔ㋶㒧ᵰᴹⷨおⱘ⾥ᄺᆊᴹ䇈ˈ㓪ⷕⱘ㲟ⱑ䋼 ѻ⠽ⱘৡ⿄ࡳ㛑ǃᑻԡⱘৡ⿄ҹঞ䆹ᑣ᳔߫߱ⱘ݀ᏗП䯈ⱘ㘨㋏˄ᅗԩ㹿⌟ ᑣ˛˅ᵘ៤њᑣ߫䆄ᔩⱘⳈⱘ⹂ߛ⎉НDŽ ᴀゴⱘݙᆍᰃᦤѸDNAᑣ߫ঞ݊⊼㾷ࠄ᭄݅݀ᑧˈ䞡⚍ҟ㒡њϢ䰙Ḍ㣋䝌ᑣ߫ण᭄ ᑧ˖DDBJǃEMBLGenBankᆚߛⳌ݇ⱘḌ㣋䝌ᑣ᭄߫ᑧDŽ៥Ӏᦣ䗄њᦤѸᑣ߫ࠄ䖭ѯ᭄ᑧ ⱘϸ⾡ϡৠⱘᮍ⊩ˈϔ⾡ᮍ⊩ѢѦ㘨㔥ˈ˄՟བˈՓ⫼Bankit˅ϔ⾡ᮍ⊩Փ⫼Sequin, 䖭ᰃϔϾᑇৄᑣˈ㢹ৠᯊ᳝㔥㒰䖲᳝ᕜⲞ໘ˈϡ䖛䖭ϡᰃᖙ䳔ⱘDŽSequinгᰃϔ ⾡ᕜདⱘ߽⫼њNCBI᭄ൟ˄খ㾕݁ゴ˅ⱘASN.1㓪䕥Ꮉˈ㗠ϨϡЙⱘᇚᴹӮ៤Ў䆌 䞛⫼NCBIⱘᑣ߫ߚᵤᎹⱘᑇৄˈℸˈSequinᰃৃկ䗝ᢽⱘछ㑻ᎹDŽ ᭄ᳳߞϡߞݡⱏᅠᭈⱘᑣ᭄߫ˈᑊϨ⦄݀ᓔথ㸼᭛ゴᯊ᭄݀݅ᑧᦤѸᑣ᭄߫ Ꮖ៤Ўϔᴵޚ߭DŽ㒘⌟ᑣᯊᳳ˄ESTs 㒘ᑣ߫ⱘ᭄䞣ҹᕜᖿⱘ䗳ᑺࡴⱘᯊᳳˈ ग़Ϟҹ1992ᑈᑩEST䅵ߦⱘᓔྟЎᷛᖫ˅Ꮖ㒣䗮䖛ᕜᮍᓣᕅડњ⾥ᄺ⬠DŽ՟བˈ䆌⾥ᄺ ᆊ݀ᏗҪӀথ⦄ⱘᑣ߫ܜѢথ㸼ᇍ݊䖯㸠ⱘ䆺㒚ߚᵤˈ䖭ϾдᛃᏆ៤ЎൟⷨおЁᖗⱘ 㾘ᅮˈሑㅵϔѯϾ߿ⱘᅲ偠ᅸҡ✊Ⳉࠄ᭛ゴথ㸼ৢᠡ݀ᓔҪӀⱘ᭄ˈ䖬᳝ϔѯҎ䅸Ў݀ᓔ ҪӀⱘ䆄ᔩϢ৺পއѢ㞾ᏅⱘᜓᳯDŽ ڣѠゴὖ䗄ⱘ䙷ḋˈࠄⳂࠡЎℶˈ᭄ᑧݙᆍⱘ䭓ᰃᣛ᭄ᗻⱘDŽ᭄ᮽᳳⱘᑣ߫䆄ᔩ ᰃ⬅ᇍѢᶤϾᛳ݈䍷ⱘऩϾⱘ⾥ᄺᆊᦤѸⱘˈ䗖ড়䖭⾡ᚙމⱘᦤѸᑣᖙ乏ܕ䆌Ꮉ䖯 㸠⫳⠽ᄺֵᙃⱘӏᛣ⊼㾷DŽ✊㗠᳔䖥䖭ѯ᭄ᑧϡᕫϡফᮄ㉏ൟⱘ᭄ˈ㗠ϨᦤѸ䗳ᑺ㽕 ᳝ᅲ䋼ᗻⱘᦤ催DŽEST⌟ᑣᓔྟϡЙˈЎњফ䖭ѯ䆄ᔩᖙ䳔ϔ⾡ऩ⣀ⱘᦤѸण䆂ˈ䖭⾡㽕 ∖বᕫᕜᯢᰒˈ䗮䖛䆹ण䆂↣ফⱘ䆄ᔩᇚ䖒ࠄϞगϾˈዄؐᯊᳳᇚ䖒ࠄ਼↣100ˈ000 ϾᦤѸ䞣DŽᑌ䖤ⱘᰃˈ䖭ѯ䆄ᔩⳌᔧㅔऩˈ㗠ϨݙᆍϞᰃϔ㟈ⱘˈℸ䗖ড়Ѣ㞾ࡼ໘⧚DŽ 䖭⾡ᡍ䞣ᦤѸण䆂ᇚϟ᭛䅼䆎DŽᦤѸ䖛гᰃ䰙⌏ࡼⱘϔ䚼ߚؐˈᕫ⊼ᛣⱘᰃˈϝ Ͼ䰙ᗻण᭄ᑧЁⱘӏϔϾᦤѸⱘ䆄ᔩ˄খ㾕Ѡゴ2.1˅ৢ䛑ᇚϸϾ᭄ᑧ Ёߎৢ✊ˈ⦃䖭ѯᑣ߫䆄ᔩᇚ㹿䆌ⷨお㒘ⷨおЁᖗӴ䗕ࠄϪ⬠㣗ೈˈ݊Ё᳝ѯⷨお㗙ݡ Ḑᓣ࣪䖭ѯ䆄ᔩҹ䗖ড়ҪӀⱘ᭄ᑧҪӀⱘᑣՓ⫼˄՟བˈGCG,খ㾕ಯゴ˅ˈℸҙ ҙᦤѸᑣ᭄߫ࠄ䖭ϝϾ᭄ᑧПϔˈⷨお㗙Ӏ㛑䙓ܡ㒭䖭ϝϾഄᮍⱘ᭄ᑧ㓈ᡸҎਬᏺ ᴹӏԩৃ㛑ⱘ䞡Ꮉˈ㗠Ϩг㛑䙓ܡথᏗԭⱘ䆄ᔩDŽৠḋⱘˈ᭄ᳳߞ䛑Ꮰᳯϔ㆛ ᭛ゴЁᦤߎⱘ᠔᳝Ḍ㣋䝌ᑣ߫ˈᇚ㹿⬅䰙ᗻⱘण᭄ᑧПϔᦤկⱘࡴܹোⷕ᠔偠䆕ˈ㗠 Ϩ䖭ᇍ䆹᭛ゴᴹ䇈᳝ḌᖗⱘᛣНDŽ˄খ㾕ゴゴ˅DŽ ˛ܓાࠄᦤѸ 䖛এⷨお㗙ᇚ᭄ᦤѸࠄાϔϾ⡍ᅮⱘ᭄ᑧձ䌪ѢҪӀᛇ㽕থ㸼᭛ゴⱘᳳߞˈ㱑✊⦄ϔ ѯᳳߞҡ✊ϡড়䗖ⱘᣛߎϔϾأ⠅ⱘ᭄ᑧˈԚ䖭ϡݡᰃℷ⹂ⱘњˈⷨお㗙ᑨ䆹ᦤѸࠄ᳔ᮍ ֓ⱘ᭄ᑧDŽ䖭ৃ㛑ᰃഄ⧚Ϟ᳔䖥ⱘ᭄ᑧ˄՟བˈབᵰ䳔㽕ϔ⬉䆱Ӯ䇜ⱘ䆱˅˗гৃ㛑 ᰃ㒣ᐌᦤѸⱘ᭄ᑧ˗㗙ৃ㛑ҙᰃЎ䙷䞠ᦤѸৃ㛑ᕫࠄ᳔ⱘ⊼ᛣDŽ䖭ϝϾ᭄ᑧ䛑 ᳝ⶹ䆚ЄᆠⱘҎਬᴹᐂࡽᦤѸ㗙ᅠ៤ᭈϾᦤѸ䖛DŽ䗮ᐌⱘᚙމϟˈϔϾᎹ᮹ݙᇚӮড 作ಲᴹϔϾࡴܹোⷕˈ㗠䆄ᔩⱘᅠ៤ᇚ䳔㽕5�10ⱘᯊ䯈ˈ݊ᅲ䰙䭓ⷁᇚձ䌪Ѣ䙷ϾᎹ ਼ⱘ㐕ᖭᑺᦤѸⱘᑣ߫ⱘ⢊ᗕDŽ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ1/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com