第十四章提交DNA序列到数据库 页码,1/2 第十四章提交DNA序列到数据库 序言: 要在分子生物学领域进行计算分析,从公共数据库( DDBJ/EMBL/GenBank)中获得DNA序列记录 是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的 方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的 生物学注解。对于将其作为 BLAST或Eηtrez的检索结果来硏究的科学家来说,编码的蛋白质 产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测 序?)构成了序列记录的直接的确切涵义 本章的内容是提交DNA序列及其注解到公共数据库,重点介绍了与国际核苷酸序列协作数据 库:DDBJ、EMBL和 Gen Bank密切相关的核苷酸序列数据库。我们描述了提交序列到这些数据库 的两种不同的方法,一种方法基于互联网,(例如,使用 Banki t),另一种方法使用 Sequi n, 这是一个多平台程序,若同时具有网络连接有很大益处,不过这不是必需的。 Sequi n也是 种很好的利用了№CBI数据模型(参见第六章)的ASN.1编辑工具,而且在不久的将来会成为许 多采用NCB|的序列分析工具的平台,因此, Sequi n是可供选择的升级工具。 大多数期刊不再刊登完整的序列数据,并且现在公开发表文章时向公共数据库提交序列数据 已成为一条准则。基因组测序时期(ESTs和基因组序列的数量以很快的速度增加的时期,在 历史上以1992年底EST计划的开始为标志)己经通过很多方式影响了科学界。例如,许多科学 家公布他们发现的序列先于发表对其进行的详细分析,这个习惯已成为大型基因研究中心的 规定,尽管一些个别的实验室仍然直到文章发表后才公开他们的数据,还有一些人认为公开 他们的记录与否取决于自己的愿望。 像第二章概述的那样,到目前为止,数据库内容的增长是指数性的。大多数早期的序列记录 是由对于某个基因感兴趣的单个的科学家提交的,适合这种情况的提交程序必须允许手工进 行生物学信息的任意注解。然而最近这些数据库不得不接受新类型的数据,而且提交速度要 有实质性的提高。在EST测序开始不久,为了接受这些记录必需一种单独的提交协议,这种要 求变得很明显,通过该协议每天接受的记录将达到上千个,峰值时期更将达到每周100,000 个提交量。幸运的是,这些记录相当简单,而且在内容上是一致的,因此适合于自动处理 这种大批量提交协议将在下文讨论。提交过程也是国际活动的一部分,值得注意的是,向三 个国际性协作数据库中的任一个提交的记录(参见第二章图2.1)几天后都将在另两个数据库 中出现,然后这些序列记录将被许多研究组和研究中心传送到世界范围,其中有些研究者再 格式化这些记录以适合他们的数据库和他们的程序使用(例如,GCG,参见第四章),因此仅 仅提交序列数据到这三个数据库之一,研究者们能够避免给这三个地方的数据库维护人员带 来任何可能的重复工作,而且也能避免发布多余的记录。同样的,大多数期刊都希望在一篇 文章中提出的所有核苷酸序列,将被由国际性的协作数据库之一提供的加入号码所验证,而 且这对该文章来说具有核心的意义。(参见第2章和第6章)。 提交到哪儿? 过去硏究者将数据提交到哪一个特定的数据库依赖于他们想要发表文章的期刊,虽然现在 些期刊仍然不合适的指出一个偏爱的数据库,但这不再是正确的了,研究者应该提交到最方 便的数据库。这可能是地理上最近的数据库(例如,如果需要一次电话会谈的话);也可能 是经常提交的数据库;或者可能仅是因为在那里提交可能得到最多的注意。这三个数据库都 有知识丰富的人员来帮助提交者完成整个提交过程。在通常的情况下,一个工作日内将会反 馈回来一个加入号码,而记录的完成将需要5�10天的时间,其实际长短将依赖于那个工作 周的繁忙程度和提交的序列的状态。 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ ᑣ㿔: 㽕ߚᄤ⫳⠽ᄺ乚ඳ䖯㸠䅵ㅫߚᵤˈҢ᭄݀݅ᑧ(DDBJ/EMBL/GenBank)Ё㦋ᕫDNAᑣ߫䆄ᔩ ᰃ݊ᖙ䳔ᴵӊDŽࡽ׳ѢϔϾᏆњ㾷݊⫳⠽ᄺࡳ㛑㗠㹿ߚ行ߎᴹᑊ⌟ᑣⱘ↨䕗ⳌԐᗻⱘ ᮍ⊩ˈ៥Ӏৃҹᇱ䆩⹂ᅮᶤ⮒⮙ⱘࡳ㛑ˈ䖭⾡ᮍ⊩㽕∖ᑣ߫䆄ᔩ᳝㊒⹂ᑊϨᆠѢֵᙃⱘ ⫳⠽ᄺ⊼㾷DŽᇍѢᇚ݊ЎBLAST EntrezⱘẔ㋶㒧ᵰᴹⷨおⱘ⾥ᄺᆊᴹ䇈ˈ㓪ⷕⱘ㲟ⱑ䋼 ѻ⠽ⱘৡ⿄ࡳ㛑ǃᑻԡⱘৡ⿄ҹঞ䆹ᑣ᳔߫߱ⱘ݀ᏗП䯈ⱘ㘨㋏˄ᅗԩ㹿⌟ ᑣ˛˅ᵘ៤њᑣ߫䆄ᔩⱘⳈⱘ⹂ߛ⎉НDŽ ᴀゴⱘݙᆍᰃᦤѸDNAᑣ߫ঞ݊⊼㾷ࠄ᭄݅݀ᑧˈ䞡⚍ҟ㒡њϢ䰙Ḍ㣋䝌ᑣ߫ण᭄ ᑧ˖DDBJǃEMBLGenBankᆚߛⳌ݇ⱘḌ㣋䝌ᑣ᭄߫ᑧDŽ៥Ӏᦣ䗄њᦤѸᑣ߫ࠄ䖭ѯ᭄ᑧ ⱘϸ⾡ϡৠⱘᮍ⊩ˈϔ⾡ᮍ⊩ѢѦ㘨㔥ˈ˄՟བˈՓ⫼Bankit˅ϔ⾡ᮍ⊩Փ⫼Sequin, 䖭ᰃϔϾᑇৄᑣˈ㢹ৠᯊ᳝㔥㒰䖲᳝ᕜⲞ໘ˈϡ䖛䖭ϡᰃᖙ䳔ⱘDŽSequinгᰃϔ ⾡ᕜདⱘ߽⫼њNCBI᭄ൟ˄খ㾕݁ゴ˅ⱘASN.1㓪䕥Ꮉˈ㗠ϨϡЙⱘᇚᴹӮ៤Ў䆌 䞛⫼NCBIⱘᑣ߫ߚᵤᎹⱘᑇৄˈℸˈSequinᰃৃկ䗝ᢽⱘछ㑻ᎹDŽ ᭄ᳳߞϡߞݡⱏᅠᭈⱘᑣ᭄߫ˈᑊϨ⦄݀ᓔথ㸼᭛ゴᯊ᭄݀݅ᑧᦤѸᑣ᭄߫ Ꮖ៤Ўϔᴵޚ߭DŽ㒘⌟ᑣᯊᳳ˄ESTs 㒘ᑣ߫ⱘ᭄䞣ҹᕜᖿⱘ䗳ᑺࡴⱘᯊᳳˈ ग़Ϟҹ1992ᑈᑩEST䅵ߦⱘᓔྟЎᷛᖫ˅Ꮖ㒣䗮䖛ᕜᮍᓣᕅડњ⾥ᄺ⬠DŽ՟བˈ䆌⾥ᄺ ᆊ݀ᏗҪӀথ⦄ⱘᑣ߫ܜѢথ㸼ᇍ݊䖯㸠ⱘ䆺㒚ߚᵤˈ䖭ϾдᛃᏆ៤ЎൟⷨおЁᖗⱘ 㾘ᅮˈሑㅵϔѯϾ߿ⱘᅲ偠ᅸҡ✊Ⳉࠄ᭛ゴথ㸼ৢᠡ݀ᓔҪӀⱘ᭄ˈ䖬᳝ϔѯҎ䅸Ў݀ᓔ ҪӀⱘ䆄ᔩϢ৺পއѢ㞾ᏅⱘᜓᳯDŽ ڣѠゴὖ䗄ⱘ䙷ḋˈࠄⳂࠡЎℶˈ᭄ᑧݙᆍⱘ䭓ᰃᣛ᭄ᗻⱘDŽ᭄ᮽᳳⱘᑣ߫䆄ᔩ ᰃ⬅ᇍѢᶤϾᛳ݈䍷ⱘऩϾⱘ⾥ᄺᆊᦤѸⱘˈ䗖ড়䖭⾡ᚙމⱘᦤѸᑣᖙ乏ܕ䆌Ꮉ䖯 㸠⫳⠽ᄺֵᙃⱘӏᛣ⊼㾷DŽ✊㗠᳔䖥䖭ѯ᭄ᑧϡᕫϡফᮄ㉏ൟⱘ᭄ˈ㗠ϨᦤѸ䗳ᑺ㽕 ᳝ᅲ䋼ᗻⱘᦤ催DŽEST⌟ᑣᓔྟϡЙˈЎњফ䖭ѯ䆄ᔩᖙ䳔ϔ⾡ऩ⣀ⱘᦤѸण䆂ˈ䖭⾡㽕 ∖বᕫᕜᯢᰒˈ䗮䖛䆹ण䆂↣ফⱘ䆄ᔩᇚ䖒ࠄϞगϾˈዄؐᯊᳳᇚ䖒ࠄ਼↣100ˈ000 ϾᦤѸ䞣DŽᑌ䖤ⱘᰃˈ䖭ѯ䆄ᔩⳌᔧㅔऩˈ㗠ϨݙᆍϞᰃϔ㟈ⱘˈℸ䗖ড়Ѣ㞾ࡼ໘⧚DŽ 䖭⾡ᡍ䞣ᦤѸण䆂ᇚϟ᭛䅼䆎DŽᦤѸ䖛гᰃ䰙⌏ࡼⱘϔ䚼ߚؐˈᕫ⊼ᛣⱘᰃˈϝ Ͼ䰙ᗻण᭄ᑧЁⱘӏϔϾᦤѸⱘ䆄ᔩ˄খ㾕Ѡゴ2.1˅ৢ䛑ᇚϸϾ᭄ᑧ Ёߎৢ✊ˈ⦃䖭ѯᑣ߫䆄ᔩᇚ㹿䆌ⷨお㒘ⷨおЁᖗӴ䗕ࠄϪ⬠㣗ೈˈ݊Ё᳝ѯⷨお㗙ݡ Ḑᓣ࣪䖭ѯ䆄ᔩҹ䗖ড়ҪӀⱘ᭄ᑧҪӀⱘᑣՓ⫼˄՟བˈGCG,খ㾕ಯゴ˅ˈℸҙ ҙᦤѸᑣ᭄߫ࠄ䖭ϝϾ᭄ᑧПϔˈⷨお㗙Ӏ㛑䙓ܡ㒭䖭ϝϾഄᮍⱘ᭄ᑧ㓈ᡸҎਬᏺ ᴹӏԩৃ㛑ⱘ䞡Ꮉˈ㗠Ϩг㛑䙓ܡথᏗԭⱘ䆄ᔩDŽৠḋⱘˈ᭄ᳳߞ䛑Ꮰᳯϔ㆛ ᭛ゴЁᦤߎⱘ᠔᳝Ḍ㣋䝌ᑣ߫ˈᇚ㹿⬅䰙ᗻⱘण᭄ᑧПϔᦤկⱘࡴܹোⷕ᠔偠䆕ˈ㗠 Ϩ䖭ᇍ䆹᭛ゴᴹ䇈᳝ḌᖗⱘᛣНDŽ˄খ㾕ゴゴ˅DŽ ˛ܓાࠄᦤѸ 䖛এⷨお㗙ᇚ᭄ᦤѸࠄાϔϾ⡍ᅮⱘ᭄ᑧձ䌪ѢҪӀᛇ㽕থ㸼᭛ゴⱘᳳߞˈ㱑✊⦄ϔ ѯᳳߞҡ✊ϡড়䗖ⱘᣛߎϔϾأ⠅ⱘ᭄ᑧˈԚ䖭ϡݡᰃℷ⹂ⱘњˈⷨお㗙ᑨ䆹ᦤѸࠄ᳔ᮍ ֓ⱘ᭄ᑧDŽ䖭ৃ㛑ᰃഄ⧚Ϟ᳔䖥ⱘ᭄ᑧ˄՟བˈབᵰ䳔㽕ϔ⬉䆱Ӯ䇜ⱘ䆱˅˗гৃ㛑 ᰃ㒣ᐌᦤѸⱘ᭄ᑧ˗㗙ৃ㛑ҙᰃЎ䙷䞠ᦤѸৃ㛑ᕫࠄ᳔ⱘ⊼ᛣDŽ䖭ϝϾ᭄ᑧ䛑 ᳝ⶹ䆚ЄᆠⱘҎਬᴹᐂࡽᦤѸ㗙ᅠ៤ᭈϾᦤѸ䖛DŽ䗮ᐌⱘᚙމϟˈϔϾᎹ᮹ݙᇚӮড 作ಲᴹϔϾࡴܹোⷕˈ㗠䆄ᔩⱘᅠ៤ᇚ䳔㽕5�10ⱘᯊ䯈ˈ݊ᅲ䰙䭓ⷁᇚձ䌪Ѣ䙷ϾᎹ ਼ⱘ㐕ᖭᑺᦤѸⱘᑣ߫ⱘ⢊ᗕDŽ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ1/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,2/2 日前,假设所有的序列记录提交都通过电子方式:例如通过互联网,通过电子邮件,或者 (最起码)通过常规方式邮寄一张计算机磁盘。供电子方式提交的URLs和Emai|地址列于本 章末尾,这两种提交方式取代了早期使用的授权软件的方法,该方法现在已经过时了。不过 通过授权软件来提交仍然可被接受(在本文出版时),但是使用授权软件的提交者应该注意 其局限性和可以选择更好的方法 提交什么内容? 这三个数据库都需要同样的最终结果:充分注解的、具生物学意义的、便于计算的良好记 录,该记录允许其他科学家利用提交该记录的生物学家已获得的工作成果,并且提供了与蛋 白质、参考文献和基因组数据库(参见第5章)的联系。这些数据库是所有通过实验获得的序 列的宝库,因此最新测序的mRNA或基因区域的序列可以提交到某个数据库,其工作人员将协 助提交者提供足够的信息以使该序列对其他研究者有使用价值。一套丰富的生物特征和其他 注解是可得到的,但其中重要的部分无疑是那些可用于分析的内容。这些部分包括核苷酸和 蛋白质序列:CDS(编码序列,又称编码区)、基因、mRNA特征(如:表现分子生物学中心法 则的特征);序列得以确定的生物;以及关于参考文献的引用,这些引用将此序列连接到有 关的信息领域并将给出证明该序列存在的实验细节 DNA/RNA 提交的过程相当简单,但必须小心谨慎,才能提供准确(无错误和无载体污染)和生物学上 尽量良好的信息,以保证其得到科学界的最充分利用。无论提交形式如何,在开始提交以 前,都要解决以下几个问题 序列的性质 该序列来源于基因组还是mRNA?数据库的用户想知道被测序的DNA分子的来源。例如:尽管 CDNA是在DNA(不是RNA)上进行测序的,在细胞中的分子表现型却是mRNA。同样对于rRNA基 因的基因组测序而言,测序的分子几乎全都是DNA分子。将rRNA复制成DNA,就象直接对rRNA 测序一样,尽管是可能的,但很少这样做。记住:既然被提交的基因必须有独特的分子类 型,它就不会表现出(例如)一种基因组和mRNA分子的混合类型,否则实际上不会从一个活 细胞中提取出来。 序列是合成的,但不是人造的吗? 合成分子在核苷酸数据库中有一个特殊的分类,在此环境中,序列被按照实验排列,而这在 自然环境中是不会出现的(如:蛋白质表达的载体序列)。DNA数据库不接受计算机产生的尸 列(如:同源序列),在数据库中的所有序列都是从有问题的实际分子序列中通过实验获得 的,但是它们可以被汇聚成测序训练猎枪 序列有多精确? 在数据库文献中很少提到这个问题,但假设被提交的序列尽可能精确,这通常意味着整个提 交序列至少包括两相覆盖域(相反方向)。证实最终提交的序列也同样重要,它必须无载体 的污染(这可以用在载体数据库中 BLASTN查寻证实:参见其后的第7章),可以以已知的限制 图谱检验,消除序列重组的可能性,或确认正确的序列集合。 生物体 给每条记录分配正确的生物是至关重要的,尽管在大多数情况下这是很容易做到的。所有的 DNA序列记录必须有一个生物分配给它们,从数据库中的记录出现在系统发生树上的位置可以 得到许多推论。如果它们被错误的安置了,可能会翻译错误的遗传密码,并产生被错误截取 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
Ⳃࠡˈ؛䆒᠔᳝ⱘᑣ߫䆄ᔩᦤѸ䛑䗮䖛⬉ᄤᮍᓣ˖՟བ䗮䖛Ѧ㘨㔥ˈ䗮䖛⬉ᄤ䚂ӊˈ㗙 ˄᳔䍋ⷕ˅䗮䖛ᐌ㾘ᮍᓣ䚂ᆘϔᓴ䅵ㅫᴎ⺕ⲬDŽկ⬉ᄤᮍᓣᦤѸⱘURLsE_mailഄഔ߫Ѣᴀ ゴሒ, 䖭ϸ⾡ᦤѸᮍᓣপҷњᮽᳳՓ⫼ⱘᥜᴗ䕃ӊⱘᮍ⊩ˈ䆹ᮍ⊩⦄Ꮖ㒣䖛ᯊњDŽϡ䖛 䗮䖛ᥜᴗ䕃ӊᴹᦤѸҡ✊ৃ㹿ফ˄ᴀ᭛ߎ⠜ᯊ˅ˈԚᰃՓ⫼ᥜᴗ䕃ӊⱘᦤѸ㗙ᑨ䆹⊼ᛣ ݊ሔ䰤ᗻৃҹ䗝ᢽདⱘᮍ⊩DŽ ᦤѸҔМݙᆍ˛ 䖭ϝϾ᭄ᑧ䛑䳔㽕ৠḋⱘ᳔㒜㒧ᵰ˖ߚܙ⊼㾷ⱘǃ⫳⠽ᄺᛣНⱘǃ֓Ѣ䅵ㅫⱘ㡃ད䆄 ᔩˈ䆹䆄ᔩܕ䆌݊Ҫ⾥ᄺᆊ߽⫼ᦤѸ䆹䆄ᔩⱘ⫳⠽ᄺᆊᏆ㦋ᕫⱘᎹ៤ᵰˈᑊϨᦤկњϢ㲟 ⱑ䋼ǃখ㗗᭛⤂㒘᭄ᑧ˄খ㾕ゴ˅ⱘ㘨㋏DŽ䖭ѯ᭄ᑧᰃ᠔᳝䗮䖛ᅲ偠㦋ᕫⱘᑣ ߫ⱘᅱᑧˈℸ᳔ᮄ⌟ᑣⱘmRNAऎඳⱘᑣ߫ৃҹᦤѸࠄᶤϾ᭄ᑧˈ݊ᎹҎਬᇚण ࡽᦤѸ㗙ᦤկ䎇ⱘֵᙃҹՓ䆹ᑣ߫ᇍ݊Ҫⷨお㗙᳝Փ⫼ӋؐDŽϔ༫Єᆠⱘ⫳⠽⡍ᕕ݊Ҫ ⊼㾷ᰃৃᕫࠄⱘˈԚ݊Ё䞡㽕ⱘ䚼ߚ᮴⭥ᰃ䙷ѯৃ⫼ѢߚᵤⱘݙᆍDŽ䖭ѯ䚼ࣙߚᣀḌ㣋䝌 㲟ⱑ䋼ᑣ߫˖CDS˄㓪ⷕᑣ߫ˈজ⿄㓪ⷕऎ˅ǃǃmRNA⡍ᕕ˄བ˖㸼⦄ߚᄤ⫳⠽ᄺЁᖗ⊩ ߭ⱘ⡍ᕕ˅˗ᑣ߫ᕫҹ⹂ᅮⱘ⫳⠽˗ҹঞ݇Ѣখ㗗᭛⤂ⱘᓩ⫼ˈ䖭ѯᓩ⫼ᇚℸᑣ߫䖲ࠄ᳝ ݇ⱘֵᙃ乚ඳᑊᇚ㒭ߎ䆕ᯢ䆹ᑣ߫ᄬⱘᅲ偠㒚㡖DŽ DNA/RNA ᦤѸⱘ䖛ⳌᔧㅔऩˈԚᖙ乏ᇣᖗ䇼ᜢˈᠡ㛑ᦤկޚ˄⹂᮴䫭䇃᮴䕑ԧ∵ᶧ˅⫳⠽ᄺϞ ሑ䞣㡃དⱘֵᙃˈҹֱ䆕݊ᕫࠄ里ᄺ⬠ⱘ᳔߽ߚܙ⫼DŽ᮴䆎ᦤѸᔶᓣབԩˈᓔྟᦤѸҹ ࠡˈ䛑㽕㾷އҹϟϾ䯂乬DŽ ᑣ߫ⱘᗻ䋼 䆹ᑣ߫ᴹ⑤Ѣ㒘䖬ᰃmRNA˛᭄ᑧⱘ⫼᠋ᛇⶹ䘧㹿⌟ᑣⱘDNAߚᄤⱘᴹ⑤DŽ՟བ˖ሑㅵ cDNAᰃDNA˄ϡᰃRNA˅Ϟ䖯㸠⌟ᑣⱘˈ㒚㚲Ёⱘߚᄤ㸼⦄ൟैᰃmRNADŽৠḋᇍѢrRNA ⱘ㒘⌟ᑣ㗠㿔ˈ⌟ᑣⱘߚᄤТܼ䛑ᰃDNAߚᄤDŽᇚrRNAࠊ៤DNAˈህ䈵ⳈᇍrRNA ⌟ᑣϔḋˈሑㅵᰃৃ㛑ⱘˈԚᕜᇥ䖭ḋخDŽ䆄ԣ˖᮶✊㹿ᦤѸⱘᖙ乏᳝⣀⡍ⱘߚᄤ㉏ ൟˈᅗህϡӮ㸼⦄ߎ˄՟བ˅ϔ⾡㒘mRNAߚᄤⱘ⏋ড়㉏ൟˈ৺߭ᅲ䰙ϞϡӮҢϔϾ⌏ 㒚㚲ЁᦤপߎᴹDŽ ᑣ߫ᰃড়៤ⱘˈԚϡᰃҎ䗴ⱘ৫˛ ড়៤ߚᄤḌ㣋䝌᭄ᑧЁ᳝ϔϾ⡍⅞ⱘߚ㉏ˈℸ⦃๗Ёˈᑣ߫㹿ᣝ✻ᅲ偠ᥦ߫ˈ㗠䖭 㞾✊⦃๗ЁᰃϡӮߎ⦃ⱘ˄བ˖㲟ⱑ䋼㸼䖒ⱘ䕑ԧᑣ߫˅DŽDNA᭄ᑧϡফ䅵ㅫᴎѻ⫳ⱘᑣ ߫˄བ˖ৠ⑤ᑣ߫˅ˈ᭄ᑧЁⱘ᠔᳝ᑣ߫䛑ᰃҢ᳝䯂乬ⱘᅲ䰙ߚᄤᑣ߫Ё䗮䖛ᅲ偠㦋ᕫ ⱘˈԚᰃᅗӀৃҹ㹿∛㘮៤⌟ᑣ䆁㒗⣢ᵾDŽ ᑣ᳝߫㊒⹂˛ ᭄ᑧ᭛⤂Ёᕜᇥᦤࠄ䖭Ͼ䯂乬ˈԚ؛䆒㹿ᦤѸⱘᑣ߫ሑৃ㛑㊒⹂ˈ䖭䗮ᐌᛣੇⴔᭈϾᦤ Ѹᑣ߫㟇ᇥࣙᣀϸⳌ㽚Ⲫඳ˄Ⳍডᮍ˅DŽ䆕ᅲ᳔㒜ᦤѸⱘᑣ߫гৠḋ䞡㽕ˈᅗᖙ乏᮴䕑ԧ ⱘ∵ᶧ˄䖭ৃҹ⫼䕑ԧ᭄ᑧЁBLASTNᶹᇏ䆕ᅲ˖খ㾕݊ৢⱘゴ˅ˈৃҹҹᏆⶹⱘ䰤ࠊ 䈅Ẕ偠ˈ⍜䰸ᑣ߫䞡㒘ⱘৃ㛑ᗻˈ⹂䅸ℷ⹂ⱘᑣ߫䲚ড়DŽ ⫳⠽ԧ 㒭↣ᴵ䆄ᔩߚ䜡ℷ⹂ⱘ⫳⠽ᰃ㟇݇䞡㽕ⱘˈሑㅵ᭄ᚙމϟ䖭ᰃᕜᆍᯧࠄخⱘDŽ᠔᳝ⱘ DNAᑣ߫䆄ᔩᖙ乏᳝ϔϾ⫳⠽ߚ䜡㒭ᅗӀˈҢ᭄ᑧЁⱘ䆄ᔩߎLTD⦃㒳থ⫳ᷥϞⱘԡ㕂ৃҹ ᕫࠄ䆌䆎DŽབᵰᅗӀ㹿䫭䇃ⱘᅝ㕂њˈৃ㛑Ӯ㗏䆥䫭䇃ⱘ䘫Ӵᆚⷕˈᑊѻ⫳㹿䫭䇃প कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ2/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,3/2 的蛋白质产物序列。已经知道的基因和物种的种类足可以使数据库成员识别生物和其谱系。 NCBI提供了一个重要的分类服务,分类学家维护能用于所有核苷酸数据库和 Swi ss-Prot蛋白 质数据库的分类法。 引用 注解即使再好,也永远比不上一篇充分阐述生物学的已发表文章,因此,有必要保证正确链 接研究出版物和它将引用的原始数据。基于此理由,提交中准备好引用是很重要的,即使其 中只有作者的临时列表和工作标题。在出版时更新这些引用对于记录的价值也很重要。(这 由数据库成员惯例的执行,而且如果提交者在发表文章以前通知数据库成员,将执行得更 快) 编码序列 核苷酸序列的提交也意味着包括其编码的蛋白质序列,这是因为: 1.蛋白质数据库(如: Swi ss-Prot和PR)几乎完全由在DNA序列数据库中记录的蛋白质序列 所组成 2.在提交过程中包括蛋白质序列如果不是必需的话,也是重要和有效一步。 蛋白质包括执行我们研究的许多生物反应的酶分子,其序列数据是提交中的固有部分,它们 的重要性(在第6章中概述)也在提交过程中体现出来,在各种数据库中其信息作为代表性必 须被捕获。如果已知的话,蛋白质产物和基因的名称也很重要,有各种各样的资源(许多在 总结这些章节的列表中有描述)为给定的生物提供准确的命名系统。(参见“基因命名指 导,基因趋势”,1995, EI sevier。) 编码序列特征,或CDS,是DNA或RNA和蛋白质序列的联系,随同正确的翻译表一起,在有效性 中其正确定位占据了中心位置。核苷酸数据库现在用了13种不同遗传密码(参见章末的列 表),这些遗传密码由NCB|中的分类学和分子生物工作人员维护。由于蛋白质序列是如此重 要,它们是生物学家可以计算的主要分子生物信息资源之一,它们理所当然地得到各种数据 库成员的重视。在mRNA中正确地找到开放的读框架通常是很简单的(参见第10章),并且有 多种工具可供利用[如:NCB的0RF查找器(见章末列表)],而且在 Sequi n中是作为一个函数 (如下);从一个较高级的真核生物获得正确的CDS间隔就不那么容易了:必须连接不同的外 显子序列,这涉及许多方法,在第10章中有介绍(如果给定蛋白质序列和正确的遗传密码的 话, Sequi n中的推荐间隔函数可以计算cDS间隔)。在提交中包括什么内容将由数据库工作人 员来决定,更恰当地说,这受到所使用的提交工具的限制,如通过互联网或 Sequi n。有效性 检查包含CDS间隔中的起始和终止密码子,该间隔具有合法的外显子/内含子一致边界,用合 适的遗传密码可将提供的氨基酸序列从指定的CDS中转换出来。 其他特征 在提交序列记录的特征部分还有许多其它特征,并且其中许多特征将扩充记录内容。在特征 表文件中描述了完整的特征集,该文件可以WW方式取得或通过匿名FTP获得 PostScri pt文 件。尽管有许多特征可供利用,但在数据库中却有许多不一致的用法,主要原因是缺乏一致 的原则和生物学家们对它们究竟意味着什么看法很不相同。正确地获得生物、书目、基因 CDS、mRNA通常就足以并且有助于证实序列,使生物学家通过几行文字就能获得生物学的内 容。只要应用恰当,一个特征表文件是可以利用的,但要注意文件注解的意图 种群、系统发生、变异的研究 现在核苷酸数据库可接受种群、系统发生、变异的硏究作为提交的序列集,尽管在简单文件 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
ⱘ㲟ⱑ䋼ѻ⠽ᑣ߫DŽᏆ㒣ⶹ䘧ⱘ⠽⾡ⱘ⾡㉏䎇ৃҹՓ᭄ᑧ៤ਬ䆚߿⫳⠽݊䈅㋏DŽ NCBIᦤկњϔϾ䞡㽕ⱘߚ㉏᳡ࡵˈߚ㉏ᄺᆊ㓈ᡸ㛑⫼Ѣ᠔᳝Ḍ㣋䝌᭄ᑧSwiss-Prot㲟ⱑ 䋼᭄ᑧⱘߚ㉏⊩DŽ ᓩ⫼ ⊼㾷ेՓݡདˈг∌䖰↨ϡϞϔ㆛ߚܙ䯤䗄⫳⠽ᄺⱘᏆথ㸼᭛ゴˈℸˈ᳝ᖙ㽕ֱ䆕ℷ⹂䫒 ⷨおߎ⠜⠽ᅗᇚᓩ⫼ⱘॳྟ᭄DŽѢℸ⧚⬅, ᦤѸЁޚདᓩ⫼ᰃᕜ䞡㽕ⱘˈेՓ݊ Ёা᳝㗙ⱘЈᯊ߫㸼Ꮉᷛ乬DŽߎ⠜ᯊᮄ䖭ѯᓩ⫼ᇍѢ䆄ᔩⱘӋؐгᕜ䞡㽕DŽ˄䖭 ⬅᭄ᑧ៤ਬᛃ՟ⱘᠻ㸠ˈ㗠ϨབᵰᦤѸ㗙থ㸼᭛ゴҹࠡ䗮ⶹ᭄ᑧ៤ਬˈᇚᠻ㸠ᕫ ᖿ˅DŽ 㓪ⷕᑣ߫ Ḍ㣋䝌ᑣ߫ⱘᦤѸгᛣੇⴔࣙᣀ݊㓪ⷕⱘ㲟ⱑ䋼ᑣ߫ˈ䖭ᰃЎ˖ 1. 㲟ⱑ䋼᭄ᑧ˄བ˖Swiss-ProtPIR˅Тᅠܼ⬅DNAᑣ᭄߫ᑧЁ䆄ᔩⱘ㲟ⱑ䋼ᑣ߫ ᠔㒘៤DŽ 2. ᦤѸ䖛Ёࣙᣀ㲟ⱑ䋼ᑣ߫བᵰϡᰃᖙ䳔ⱘ䆱, гᰃ䞡㽕᳝ᬜϔℹDŽ 㲟ⱑ䋼ࣙᣀᠻ㸠៥Ӏⷨおⱘ䆌⫳⠽ডᑨⱘ䝊ߚᄤˈ݊ᑣ᭄߫ᰃᦤѸЁⱘ᳝䚼ߚˈᅗӀ ⱘ䞡㽕ᗻ˄ゴЁὖ䗄˅гᦤѸ䖛Ёԧ⦄ߎᴹˈ⾡᭄ᑧЁֵ݊ᙃЎҷ㸼ᗻᖙ 乏㹿ᤩ㦋DŽབᵰᏆⶹⱘ䆱, 㲟ⱑ䋼ѻ⠽ⱘৡ⿄гᕜ䞡㽕ˈ᳝⾡ḋⱘ䌘⑤˄䆌 ᘏ㒧䖭ѯゴ㡖ⱘ߫㸼Ё᳝ᦣ䗄˅Ў㒭ᅮⱘ⫳⠽ᦤկޚ⹂ⱘੑৡ㋏㒳DŽ˄খ㾕Āੑৡᣛ ᇐˈ䍟āˈ1995ˈElsevierDŽ˅ 㓪ⷕᑣ߫⡍ᕕˈCDSˈᰃDNARNA㲟ⱑ䋼ᑣ߫ⱘ㘨㋏ˈ䱣ৠℷ⹂ⱘ㗏䆥㸼ϔ䍋, ᳝ᬜᗻ Ё݊ℷ⹂ᅮԡऴњЁᖗԡ㕂DŽḌ㣋䝌᭄ᑧ⦄⫼њ13⾡ϡৠ䘫Ӵᆚⷕ˄খ㾕ゴⱘ߫ 㸼˅ˈ䖭ѯ䘫Ӵᆚⷕ⬅NCBIЁⱘߚ㉏ᄺߚᄤ⫳⠽ᎹҎਬ㓈ᡸDŽ⬅Ѣ㲟ⱑ䋼ᑣ߫ᰃབℸ䞡 㽕ˈᅗӀᰃ⫳⠽ᄺᆊৃҹ䅵ㅫⱘЏ㽕ߚᄤ⫳⠽ֵᙃ䌘⑤ПϔˈᅗӀ⧚᠔ᔧ✊ഄᕫࠄ辵᭄ ᑧ៤ਬⱘ䞡㾚DŽmRNAЁℷ⹂ഄᡒࠄᓔᬒⱘ䇏Ḛᶊ䗮ᐌᰃᕜㅔऩⱘ˄খ㾕10ゴ˅, ᑊϨ᳝ ⾡Ꮉৃկ߽ ] ⫼བ˖NCBIⱘORFᶹᡒ఼㾕ゴ߫㸼)]ˈ㗠ϨSequinЁᰃЎϔϾߑ᭄ ˄བϟ˅˗ҢϔϾ䕗催㑻ⱘⳳḌ⫳⠽㦋ᕫℷ⹂ⱘCDS䯈䱨ህϡ䙷Мᆍᯧњ˖ᖙ乏䖲ϡৠⱘ ᰒᄤᑣ߫ˈ䖭⍝ঞ䆌ᮍ⊩ˈ10ゴЁ᳝ҟ㒡བᵰ㒭ᅮ㲟ⱑ䋼ᑣ߫ℷ⹂ⱘ䘫Ӵᆚⷕⱘ 䆱, SequinЁⱘ㤤䯈䱨ߑ᭄ৃҹ䅵ㅫCDS䯈䱨DŽᦤѸЁࣙᣀҔМݙᆍᇚ⬅᭄ᑧᎹҎ ਬᴹއᅮ, ᙄᔧഄ䇈, 䖭ফࠄ᠔Փ⫼ⱘᦤѸᎹⱘ䰤ࠊ ,བ䗮䖛Ѧ㘨㔥SequinDŽ᳝ᬜᗻ ẔᶹࣙCDS䯈䱨Ёⱘ䍋ྟ㒜ℶᆚⷕᄤˈ䆹䯈䱨᳝ড়⊩ⱘᰒᄤݙᄤϔ㟈䖍⬠ˈ⫼ড় 䗖ⱘ䘫Ӵᆚⷕৃᇚᦤկⱘ⇼䝌ᑣ߫ҢᣛᅮⱘCDSЁ䕀ᤶߎᴹDŽ ݊Ҫ⡍ᕕ ᦤѸᑣ߫䆄ᔩⱘ⡍ᕕ䚼ߚ䖬᳝䆌݊ᅗ⡍ᕕˈᑊϨ݊Ё䆌⡍ᕕᇚᠽܙ䆄ᔩݙᆍDŽ⡍ᕕ 㸼᭛ӊЁᦣ䗄њᅠᭈⱘ⡍ᕕ䲚ˈ䆹᭛ӊৃҹWWWᮍᓣপᕫ䗮䖛ओৡFTP㦋ᕫPostScript ᭛ ӊDŽሑㅵ᳝䆌⡍ᕕৃկ߽ˈ⫼Ԛ᭄ᑧЁै᳝䆌ϡϔ㟈ⱘ⫼⊩ˈЏ㽕ॳᰃ㔎Уϔ㟈 ⱘॳ߭⫳⠽ᄺᆊӀᇍᅗӀおコᛣੇⴔҔМⳟ⊩ᕜϡⳌৠDŽℷ⹂ഄ㦋ᕫ⫳⠽ǃкⳂǃǃ CDSǃmRNA䗮ᐌህ䎇ҹᑊϨ᳝ࡽѢ䆕ᅲᑣ߫ˈՓ⫳⠽ᄺᆊ䗮䖛㸠᭛ᄫህ㛑㦋ᕫ⫳⠽ᄺⱘݙ ᆍDŽা㽕ᑨ⫼ᙄᔧˈϔϾ⡍ᕕ㸼᭛ӊᰃৃҹ߽⫼ⱘˈԚ㽕⊼ᛣ᭛ӊ⊼㾷ⱘᛣDŽ ⾡㕸ǃ㋏㒳থ⫳ǃবᓖⱘⷨお ⦄Ḍ㣋䝌᭄ᑧৃফ⾡㕸ǃ㋏㒳থ⫳ǃবᓖⱘⷨおЎᦤѸⱘᑣ߫䲚ˈሑㅵㅔऩ᭛ӊ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ3/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,4/2 记录中并没有充分描述该信息,但它却在各种各样的数据库中出现。新型的提交方式允许: 若仅因为操作的原因,一起提交一组相关序列,那么获得共享信息入口只需要一次请求 Sequi n也允许用户包含有用自己中意的比对工具生成的序列比对结果,并随着DNA序列提交该 信息。尽管所有的数据库都知道该信息对于目前获得的大量记录很重要,但是NCB|是唯一接 受该信息的数据库。显示该信息的新方法(如: Entrez)应尽快能使一般科学团体更易获得 这种数据。 仅提交蛋白质序列 在大多数情况下,蛋白质序列和DNA序列并存,但也有些例外�人们直接处理蛋白质序列 �这些序列必须在没有相应的DNA序列的情况下提交。对于这些提交而言,目前SWSS-PROT 是最好的地方,EB处理这些提交,并将其传送到SWSS-PROT。 如何提交到互联网 Authori n利用率的下降使这三个数据库决定在互联网上采用基于表格的方式,这个新的媒介 能很好的适应提交过程。三个数据库都设计了一种表格,以使DNA序列提交到自身的数据库 中:DDBJ的 Sakura(樱花开)、EBl的webn、和 Gen Bank的 Bankl t。互联网是简单提交序列的理 想提交途径(如图14.1),也是那些不需要复杂注解和过多重复的提交序列的最佳选择 (如:在种群研究中,很典型的有30条类似的序列,用 Sequin提交最好)。互联网对于那些 只做少量提交和要求较少、只需要简单的学习或不需要的研究小组最为理想。对于大多数提 交来说,互联网的表格方式将是合适和足够的:60%�:80%的提交者通过互联网向NCB|提交 其DNA或RNA序列。这三个数据库提交的入口地址(或URLs)在本章末有介绍 尽管本章的这部分强调NCBI的Bank|t提交工具,实际上,提交到基本数据库中的任何一个都 将使序列获得合理的处理,并存储到另外两个数据库中。 进入Bank丨t提交后(图14.2),用户被询问要提交的核苷酸序列长度。这是由于Ww浏览器的 局限性,使得在一个给定的窗口不可能输入29,000个核苷酸(字符)。如果必须提交40, 000条碱基对(人们提交的粘性质粒的通常大小), Bankl:将打开两个窗口,故通过每个窗口 复制和输入20,000个字符,这样就解决了这个矛盾。 图14.1:决定采用哪种协议提交DNA序列到某一DNA序列数据库的流程图。WW是Bank|t Webl n,或 Sakura。其URLs和电子邮件地址,请参见本章末的列表 图14.2 图14.2: Bankl t, Gen Bank互联网的提交网页。新提交序列的进入点(输入序列长度,并按 New按钮)或更新 GenBank数据库中的一条记录。 Bankl t的下一张表格也是明了的(图14.3),它询问联系人(即回答数据库工作人员询问的 人),引用(谁得到了科学荣誉),生物(前100个在列表中,其余的必须输入),位置(细 胞还是细胞器),一些图谱信息和核苷酸序列本身。在列表末,有个 Bankl t按钮,能激活下 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
䆄ᔩЁᑊ≵᳝ߚܙᦣ䗄䆹ֵᙃˈԚᅗै⾡ḋⱘ᭄ᑧЁߎ⦃DŽᮄൟⱘᦤѸᮍᓣܕ䆌˖ 㢹ҙЎ᪡ⱘॳˈϔ䍋ᦤѸϔ㒘Ⳍ݇ᑣ߫ˈ䙷М㦋ᕫ݅ѿֵᙃܹষা䳔㽕ϔ䇋∖DŽ Sequinгܕ䆌⫼᠋ࣙ⫼᳝㞾ᏅЁᛣⱘ↨ᇍᎹ⫳៤ⱘᑣ߫↨ᇍ㒧ᵰˈᑊ䱣ⴔDNAᑣ߫ᦤѸ䆹 ֵᙃDŽሑㅵ᠔᳝ⱘ᭄ᑧ䛑ⶹ䘧䆹ֵᙃᇍѢⳂࠡ㦋ᕫⱘ䞣䆄ᔩᕜ䞡㽕ˈԚᰃNCBIᰃଃϔ ফ䆹ֵᙃⱘ᭄ᑧDŽᰒ⼎䆹ֵᙃⱘᮄᮍ⊩˄བ˖Entrez˅ᑨሑᖿ㛑Փϔ㠀⾥ᄺಶԧᯧ㦋ᕫ 䖭⾡᭄DŽ ҙᦤѸ㲟ⱑ䋼ᑣ߫ ᭄ᚙމϟˈ㲟ⱑ䋼ᑣ߫DNAᑣ߫ᑊᄬˈԚг᳝ѯ՟�ҎӀⳈ໘⧚㲟ⱑ䋼ᑣ߫ �䖭ѯᑣ߫ᖙ乏≵᳝ⳌᑨⱘDNAᑣ߫ⱘᚙމϟᦤѸDŽᇍѢ䖭ѯᦤѸ㗠㿔ˈⳂࠡSWISS-PROT ᰃ᳔དⱘഄᮍˈEBI໘⧚䖭ѯᦤѸˈᑊᇚ݊Ӵ䗕ࠄSWISS-PROTDŽ བԩᦤѸࠄѦ㘨㔥 Authorin߽⥛⫼ⱘϟ䰡Փ䖭ϝϾ᭄ᑧއᅮѦ㘨㔥Ϟ䞛⫼Ѣ㸼Ḑⱘᮍᓣˈ䖭Ͼᮄⱘၦҟ 㛑ᕜདⱘ䗖ᑨᦤѸ䖛DŽϝϾ᭄ᑧ䛑䆒䅵њϔ⾡㸼ḐˈҹՓDNAᑣ߫ᦤѸࠄ㞾䑿ⱘ᭄ᑧ Ё˖DDBJⱘSakura( 㢅ᓔǃEBIⱘWebInǃGenBankⱘBankItDŽѦ㘨㔥ᰃㅔऩᦤѸᑣ߫ⱘ⧚ ᛇᦤѸ䗨ᕘ˄བ14.1˅ˈгᰃ䙷ѯϡ䳔㽕ᴖ⊼㾷䖛䞡ⱘᦤѸᑣ߫ⱘ᳔Շ䗝ᢽ ˄བ˖⾡㕸ⷨおЁˈᕜൟⱘ᳝30ᴵ㉏Ԑⱘᑣ߫ˈ⫼SequinᦤѸ᳔ད˅DŽѦ㘨㔥ᇍѢ䙷ѯ াخᇥ䞣ᦤѸ㽕∖䕗ᇥǃা䳔㽕ㅔऩⱘᄺдϡ䳔㽕ⱘⷨおᇣ㒘᳔Ў⧚ᛇDŽᇍѢ᭄ᦤ Ѹᴹ䇈ˈѦ㘨㔥ⱘ㸼Ḑᮍᓣᇚᰃড়䗖䎇ⱘ˖60%�80%ⱘᦤѸ㗙䗮䖛Ѧ㘨㔥NCBIᦤѸ ݊DNARNAᑣ߫DŽ䖭ϝϾ᭄ᑧᦤѸⱘܹষഄഔ˄URLs˅ᴀゴ᳝ҟ㒡DŽ ሑㅵᴀゴⱘ䖭䚼ߚᔎ䇗NCBIⱘBankItᦤѸᎹˈᅲ䰙ϞˈᦤѸࠄᴀ᭄ᑧЁⱘӏԩϔϾ䛑 ᇚՓᑣ߫㦋ᕫড়⧚ⱘ໘⧚ˈᑊᄬࠄټϸϾ᭄ᑧЁDŽ 䖯ܹBankItᦤѸৢ˄14.2˅ˈ⫼᠋㹿䆶䯂㽕ᦤѸⱘḌ㣋䝌ᑣ߫䭓ᑺDŽ䖭ᰃ⬅ѢWWW⌣㾜఼ⱘ ሔ䰤ᗻˈՓᕫϔϾ㒭ᅮⱘにষϡৃ㛑䕧ܹ29ˈ000ϾḌ㣋䝌˄ᄫヺ˅DŽབᵰᖙ乏ᦤѸ40ˈ 000ᴵ⺅ᇍ˄ҎӀᦤѸⱘ㉬ᗻ䋼㉦ⱘ䗮ᐌᇣ˅ˈBankItᇚᠧᓔϸϾにষˈᬙ䗮䖛↣Ͼにষ ࠊ䕧ܹ20ˈ000Ͼᄫヺˈ䖭ḋህ㾷އњ䖭ϾⳒDŽ 14.1˖އᅮ䞛⫼ા⾡ण䆂ᦤѸDNAᑣ߫ࠄᶤϔDNAᑣ᭄߫ᑧⱘ⌕DŽWWWᰃBankItˈ WebInˈSakuraDŽ݊URLs⬉ᄤ䚂ӊഄഔˈ䇋খ㾕ᴀゴⱘ߫㸼DŽ 14.2 14.2˖BankIt, GenBankѦ㘨㔥ⱘᦤѸ㔥义DŽᮄᦤѸᑣ߫ⱘ䖯ܹ⚍˄䕧ܹᑣ߫䭓ᑺˈᑊᣝ Newᣝ䪂˅ᮄGenBank᭄ᑧЁⱘϔᴵ䆄ᔩDŽ BankItⱘϟϔᓴ㸼Ḑгᰃᯢњⱘ˄14.3˅ˈᅗ䆶䯂㘨㋏Ҏ˄ेಲㄨ᭄ᑧᎹҎਬ䆶䯂ⱘ Ҏ˅ˈᓩ⫼˄䇕ᕫࠄњ⾥ᄺ㤷䁝˅ˈ⫳⠽˄ࠡ100Ͼ߫㸼Ёˈ݊ԭⱘᖙ乏䕧ܹ˅ˈԡ㕂˄㒚 㚲䖬ᰃ㒚㚲఼˅ˈϔѯ䈅ֵᙃḌ㣋䝌ᑣ߫ᴀ䑿DŽ߫㸼ˈ᳝ϾBankItᣝ䪂ˈ㛑▔⌏ϟ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ4/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,5/2 张列表。按下这个按钮后,首先验证一些项的有效性,如果一些基本的区域没填,该表将 再次出现。若全部合格,下一张表将査问会加入多少特征并提示用户指出其类型。如果没填 任何特征,(图14.4), Bankl t将发出警告,以证实提交序列中没有加入一个CDS。用户可以 回答没有(0个新CDS)或选择加入一个或更多的CDS。此时,结构化RNA信息或其它合法的 DDBJ/EMBL/ Gen Bank特征也会被加入 图14.3 图14.3: Bankl t, GenBank的互联网提交页面:标明提交联系人 图14.4 图14.4: Bankl t, Gen Bank的互联网提交网页: Bankl t要求获得特征的数目,以产生一个具有 合适数目的特征表。 要保存记录,再次按 Bankl t,出现的新页面(图14.5)必须在提交完成前得到确认,也就是 说,在此之前,可做更多的改变或加入其他特征。再次单击 BankI t结束。接着出现最后的页 面:(图14.6)切换 Update/ Fini shed按钮,最后按 Bankl t按钮,提交将进入NCB进行处理。 刚完成的提交序列复本必须立即通过电子邮件送达,否则,有必要联系数据库以证实提交已 被接受,并做出任何必要的修改 图14.5 图14.5: Bankl t, GenBank的互联网提交网页:倒数第二个屏幕:这是一个增加或改变一些特 征的互锁按钮,显示如所指示的完成入口 图14.6 图14.6: BankI t, Gen Bank的互联网提交网页:最后一个屏幕:显示 BankI t的提交表格已成功 完成。 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
ϔᓴ߫㸼DŽᣝϟ䖭Ͼᣝ䪂ৢˈ佪ܜ偠䆕ϔѯ乍ⱘ᳝ᬜᗻˈབᵰϔѯᴀⱘऎඳ≵฿ˈ䆹㸼ᇚ ݡߎ⦃DŽ㢹ܼ䚼ড়Ḑˈϟϔᓴ㸼ᇚᶹ䯂Ӯࡴܹᇥ⡍ᕕᑊᦤ⼎⫼᠋ᣛߎ݊㉏ൟDŽབᵰ≵฿ ӏԩ⡍ᕕˈ˄14.4˅ˈBankItᇚথߎ䄺ਞˈҹ䆕ᅲᦤѸᑣ߫Ё≵᳝ࡴܹϔϾCDSDŽ⫼᠋ৃҹ ಲㄨ≵᳝˄ϾᮄCDS˅䗝ᢽࡴܹϔϾⱘCDSDŽℸᯊˈ㒧ᵘ࣪RNAֵᙃ݊ᅗড়⊩ⱘ DDBJ/EMBL/GenBank⡍ᕕгӮ㹿ࡴܹDŽ 14.3 1 4.3˖BankItˈGenBankⱘѦ㘨㔥ᦤѸ义䴶˖ᷛᯢᦤѸ㘨㋏ҎDŽ 14.4 14.4˖BankItˈGenBankⱘѦ㘨㔥ᦤѸ㔥义˖BankIt㽕∖㦋ᕫ⡍ᕕⱘ᭄Ⳃ, ҹѻ⫳ϔϾ᳝ ড়䗖᭄Ⳃⱘ⡍ᕕ㸼DŽ 㽕ֱᄬ䆄ᔩˈݡᣝBankItˈߎ⦃ⱘᮄ义䴶˄14.5˅ᖙ乏ᦤѸᅠ៤ࠡᕫࠄ⹂䅸ˈгህᰃ 䇈ˈℸПࠡˈৃخⱘᬍবࡴܹ݊Ҫ⡍ᕕDŽݡऩߏBankIt㒧ᴳDŽⴔߎৢ᳔⦃ⱘ义 䴶: (14.6˅ߛᤶUpdate/Finishedᣝ䪂ˈ᳔ৢᣝBankItᣝ䪂ˈᦤѸᇚ䖯ܹNCBI䖯㸠໘⧚DŽ ߮ᅠ៤ⱘᦤѸᑣ߫ᴀᖙ乏ゟे䗮䖛⬉ᄤ䚂ӊ䗕䖒ˈ৺߭ˈ᳝ᖙ㽕㘨㋏᭄ᑧҹ䆕ᅲᦤѸᏆ 㹿ফˈᑊߎخӏԩᖙ㽕ⱘׂᬍDŽ 14.5 14.5˖BankItˈGenBankⱘѦ㘨㔥ᦤѸ㔥义˖צ᭄ѠϾሣᐩ˖䖭ᰃϔϾࡴᬍবϔѯ⡍ ᕕⱘѦ䫕ᣝ䪂ˈᰒ⼎བ᠔ᣛ⼎ⱘᅠ៤ܹষDŽ 14.6 14.6˖BankItˈGenBankⱘѦ㘨㔥ᦤѸ㔥义˖᳔ৢϔϾሣᐩ˖ᰒ⼎BankItⱘᦤѸ㸼ḐᏆ៤ࡳ ᅠ៤DŽ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ5/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,6/2 如何用 Sequin提交 Sequi n是设计用来协助科学家准备新序列,更新序列数据的一个程序,利用它将序列数据提 交到DDBJ,EMBL和 Gen Bank数据库。这是一个能在绝大多数计算机平台上运行的软件,而且适 用于各种序列长度和复杂情况,包括传统的(基因大小)核苷酸序列,分段的记录(如:剪 接的基因组,不是所有的内含子序列都已被确定),有许多注解特征的长序列(基因组大 小),和各种相关序列(如:对于一个特殊基因、域或滤过性病毒基因的种群、系统发生 变异的研究),许多这样的提交能通过互联网执行,但 Sequi n在复杂的情况下更实用。而且 特定类型的提交(如:分段类)不能通过Web来完成,除非给数据库工作人员加以明确的指 导。 Sequi n也接受以提交的核苷酸酸序列编码的蛋白质序列,允许在这些蛋白质上进行特征的注 解(如:信号肽、跨膜区或二硫键)。这与大多数科学家在提交DNA序列时的普遍观点形成鲜 明的对比。这里的新概念是蛋白质是直接注解的,而不是编码生成之的DNA的副产物。对于各 种相关或是相近的序列(如:种群或系统发生的研究), Sequi n从提交者处获得关于多个序 列是如何比对的信息,最终它可以用来编辑和重新提交已存在于 Gen Bank中的记录,不论是延 长(或取代)已有的序列,还是注解附加的特征或比对(见下描述)。 进入一个新的提交过程 Sequi n有许多性质大大简化了创建和注解一条记录的过程。最神奇的一方面是在只给定核苷 酸酸序列,蛋白质产物序列和遗传密码(从生物的名称中自动获得)的情况下,自动计算CDS 特征间隔。这所谓的“建议间隔”过程在计算中考虑了一致的剪接位点。传统上这些间隔是 手工输入的,这是一个既耗时又易错的过程,尤其是对于一个在可变剪接或分段时有许多外 显子的基因序列。 Sequi n的另一种重要的贡献在于能在序列数据库文件的定义行上以一种简单的格式输入相关 注解。在读序列时, Sequi n识别和提取这一信息,并将其放置在记录中合适的位置。对于核 苷酸序列,可以输入生物体的科学名称、品系或克隆名称和几个其它的修饰基因。对于蛋白 质序列,可以输入基因和蛋白质名称。(如果在定义行上没有这些信息, Sequi n在执行前就 会提示用户此信息。定义行的注解是非常方便的,因为信息和序列是在一起的因此以后不容 易被遗忘或混淆。)除了组建合适的CDS特征以外, Sequi n将自动利用该信息生成基因和蛋白 质特征。 由于大多数提交序列包含了一个单独的核苷酸序列和一个或多个编码区域特征(及相关的蛋 白质序列),前面概述的功能将频繁地影响一条没有进一步注解时就被提交的记录。由于正 确地记录了基因和蛋白质名称,从而使得该记录为其他科学家提供有用信息,他们可能通过 一个 BLAST的相似性比对或从 Entrez查找中获得该信息 有效性 为保证提交数据的质量, Sequin使用一个内建的有效器来查询。例如:丢失的生物体信息, 错误的编码区长度(相对于被提交的蛋白质序列),编码区内部的终止密码子,不匹配的氨 基酸或不一致的剪接位点。在错误报告中双击其中一项,在“冲突”特征项中就会出现一个 编辑框 有效器也检査“局部”指示器的使用是否一致,尤其是在编码区、蛋白质产物和产物的蛋白 质特征中的使用。(除非作了相反的设置,否则CDS就会自动的同步这些分散的局部指示器 将使纠正这类不一致问题变得很方便。) 观察序列记录 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
བԩ⫼SequinᦤѸ Sequinᰃ䆒䅵⫼ᴹणࡽ里ᄺᆊޚᮄᑣ߫ˈᮄᑣ᭄߫ⱘϔϾᑣˈ߽⫼ᅗᇚᑣ᭄߫ᦤ ѸࠄDDBJˈEMBLGenBank᭄ᑧDŽ䖭ᰃϔϾ㛑㒱᭄䅵ㅫᴎᑇৄϞ䖤㸠ⱘ䕃ӊˈ㗠Ϩ䗖 ⫼Ѣ⾡ᑣ߫䭓ᑺᴖᚙމˈࣙᣀӴ㒳ⱘ˄ᇣ˅Ḍ㣋䝌ᑣ߫ˈߚ0⁄3ⱘ䆄ᔩ˄བ˖࠾ ⱘ㒘ˈϡᰃ᠔᳝ⱘݙᄤᑣ߫䛑Ꮖ㹿⹂ᅮ˅ˈ᳝䆌⊼㾷⡍ᕕⱘ䭓ᑣ߫˄㒘 ᇣ˅ˈ⾡Ⳍ݇ᑣ߫˄བ˖ᇍѢϔϾ⡍⅞ǃඳⒸ䖛ᗻ⮙↦ⱘ⾡㕸ǃ㋏㒳থ⫳ǃ বᓖⱘⷨお˅ˈ䆌䖭ḋⱘᦤѸ㛑䗮䖛Ѧ㘨㔥ᠻ㸠ˈԚSequin ᴖⱘᚙމϟᅲ⫼DŽ㗠Ϩ ⡍ᅮ㉏ൟⱘᦤѸ˄བ˖ߚ0⁄3㉏˅ϡ㛑䗮䖛Webᴹᅠ៤ˈ䰸䴲㒭᭄ᑧᎹҎਬࡴҹᯢ⹂ⱘᣛ ᇐDŽ Sequin гফҹᦤѸⱘḌ㣋䝌䝌ᑣ߫㓪ⷕⱘ㲟ⱑ䋼ᑣ߫ˈܕ䆌䖭ѯ㲟ⱑ䋼Ϟ䖯㸠⡍ᕕⱘ⊼ 㾷˄བ˖ֵো㚑ǃ䎼㝰ऎѠ⸿䬂˅DŽ䖭Ϣ᭄⾥ᄺᆊᦤѸDNAᑣ߫ᯊⱘ᱂䘡㾖⚍ᔶ៤剰 ᯢⱘᇍ↨DŽ䖭䞠ⱘᮄὖᗉᰃ㲟ⱑ䋼ᰃⳈ⊼㾷ⱘˈ㗠ϡᰃ㓪ⷕ⫳៤ПⱘDNAⱘࡃѻ⠽DŽᇍѢ ⾡Ⳍ݇ᰃⳌ䖥ⱘᑣ߫˄བ˖⾡㕸㋏㒳থ⫳ⱘⷨお˅ˈSequinҢᦤѸ㗙໘㦋ᕫ݇ѢϾᑣ ߫ᰃབԩ↨ᇍⱘֵᙃˈ᳔㒜ᅗৃҹ⫼ᴹ㓪䕥䞡ᮄᦤѸᏆᄬѢGenBankЁⱘ䆄ᔩˈϡ䆎ᰃᓊ 䭓˄পҷ˅Ꮖ᳝ⱘᑣ߫ˈ䖬ᰃ⊼㾷䰘ࡴⱘ⡍ᕕ↨ᇍ˄㾕ϟᦣ䗄˅DŽ 䖯ܹϔϾᮄⱘᦤѸ䖛 Sequin᳝䆌ᗻ䋼ㅔ࣪њ߯ᓎ⊼㾷ϔᴵ䆄ᔩⱘ䖛DŽ᳔⼲༛ⱘϔᮍ䴶ᰃা㒭ᅮḌ㣋 䝌䝌ᑣ߫ˈ㲟ⱑ䋼ѻ⠽ᑣ߫䘫Ӵᆚⷕ˄Ң⫳⠽ⱘৡ⿄Ё㞾ࡼ㦋ᕫ˅ⱘᚙމϟˈ㞾ࡼ䅵ㅫCDS ⡍ᕕ䯈䱨DŽ䖭᠔䇧ⱘĀᓎ䆂䯈䱨ā䖛䅵ㅫЁ㗗㰥њϔ㟈ⱘ࠾ԡ⚍DŽӴ㒳Ϟ䖭ѯ䯈䱨ᰃ Ꮉ䕧ܹⱘˈ䖭ᰃϔϾ᮶㗫ᯊজᯧ䫭ⱘ䖛ˈᇸ݊ᰃᇍѢϔϾৃব࠾ߚ᳝ᯊ0⁄3䆌 ᰒᄤⱘᑣ߫DŽ Sequinⱘϔ⾡䞡㽕ⱘ䋵⤂Ѣ㛑ᑣ᭄߫ᑧ᭛ӊⱘᅮН㸠Ϟҹϔ⾡ㅔऩⱘḐᓣ䕧ܹⳌ݇ ⊼㾷DŽ䇏ᑣ߫ᯊˈSequin䆚߿ᦤপ䖭ϔֵᙃˈᑊᇚ݊ᬒ㕂䆄ᔩЁড়䗖ⱘԡ㕂DŽᇍѢḌ 㣋䝌ᑣ߫ˈৃҹ䕧ܹ⫳⠽ԧⱘ⾥ᄺৡ⿄ǃક㋏ܟ䱚ৡ⿄Ͼ݊ᅗⱘׂ佄DŽᇍѢ㲟ⱑ 䋼ᑣ߫ˈৃҹ䕧ܹ㲟ⱑ䋼ৡ⿄DŽ˄བᵰᅮН㸠Ϟ≵᳝䖭ѯֵᙃˈSequinᠻ㸠ࠡህ Ӯᦤ⼎⫼᠋ℸֵᙃDŽᅮН㸠ⱘ⊼㾷ᰃ䴲ᐌᮍ֓ⱘˈЎֵᙃᑣ߫ᰃϔ䍋ⱘℸҹৢϡᆍ ᯧ㹿䘫ᖬ⏋⎚DŽ˅䰸њ㒘ᓎড়䗖ⱘCDS⡍ᕕҹˈSequinᇚ㞾߽ࡼ⫼䆹ֵᙃ⫳៤㲟ⱑ 䋼⡍ᕕDŽ ⬅Ѣ᭄ᦤѸᑣ߫ࣙњϔϾऩ⣀ⱘḌ㣋䝌ᑣ߫ϔϾϾ㓪ⷕऎඳ⡍ᕕ˄ঞⳌ݇ⱘ㲟 ⱑ䋼ᑣ߫˅ˈࠡ䴶ὖ䗄ⱘࡳ㛑ᇚ乥㐕ഄᕅડϔᴵ≵᳝䖯ϔℹ⊼㾷ᯊህ㹿ᦤѸⱘ䆄ᔩDŽ⬅Ѣℷ ⹂ഄ䆄ᔩњ㲟ⱑ䋼ৡ⿄ˈҢ㗠Փᕫ䆹䆄ᔩЎ݊Ҫ⾥ᄺᆊᦤկ᳝⫼ֵᙃˈҪӀৃ㛑䗮䖛 ϔϾBLASTⱘⳌԐᗻ↨ᇍҢEntrezᶹᡒЁ㦋ᕫ䆹ֵᙃDŽ ᳝ᬜᗻ Ўֱ䆕ᦤѸ᭄ⱘ䋼䞣ˈSequinՓ⫼ϔϾݙᓎⱘ᳝ᬜ఼ᴹᶹ䆶DŽ՟བ˖϶༅ⱘ⫳⠽ԧֵᙃˈ 䫭䇃ⱘ㓪ⷕऎ䭓ᑺ˄ⳌᇍѢ㹿ᦤѸⱘ㲟ⱑ䋼ᑣ߫˅ˈ㓪ⷕऎݙ䚼ⱘ㒜ℶᆚⷕᄤˈϡऍ䜡ⱘ⇼ 䝌ϡϔ㟈ⱘ࠾ԡ⚍DŽ䫭䇃ਞЁঠߏ݊Ёϔ乍ˈĀކさā⡍ᕕ乍ЁህӮߎ⦃ϔϾ 㓪䕥ḚDŽ ᳝ᬜ఼гẔᶹĀሔ䚼āᣛ⼎఼ⱘՓ⫼ᰃ৺ϔ㟈ˈᇸ݊ᰃ㓪ⷕऎǃ㲟ⱑ䋼ѻ⠽ѻ⠽ⱘ㲟ⱑ 䋼⡍ᕕЁⱘՓ⫼DŽ˄䰸䴲њⳌডⱘ䆒㕂ˈ৺߭CDSህӮ㞾ࡼⱘৠℹ䖭ѯߚᬷⱘሔ䚼ᣛ⼎఼ˈ ᇚՓ㑴ℷ䖭㉏ϡϔ㟈䯂乬বᕫᕜᮍ֓DŽ˅ 㾖ᆳᑣ߫䆄ᔩ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ6/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,7/2 SequI n对同一条记录提供了许多不同的视图。传统的简单文件可以出现在 FASTA, Gen Bank.或 EMBL形式中。(它们可以在用户计算机中以文件的方式输出,然后输入其它的序列分析包 中。)图像视图显示了序列的特征间隔,这对于观察可变剪接的编码区尤其有意义。(图像 视图的风格可以定制,这些视图可以被复制到个人计算机的剪贴板中,粘贴到文字处理器或 视图程序中,用于准备出版物的手稿。)有一个视图可以更详细地显示实际序列的特征,对 于包含比对的记录(如:由一个用户输入的相关序列或通过 Power blast中查找的比对结果, 参见第7章),用户可以请求一个全图像视图以显示添加、删除和不匹配的情况,或细节视图 显示序列字母比对。 上述提及的观察者是主动的,单击一个特征、序列或序列比对图片,将会高亮度显示该处。 双击会出现一个合适的编辑框,以便多个观察者使用同一条记录,而能够看到不同的形式。 例如:可以很方便的使图像视图和 Gen Bank(或EMBL)的简单文件视图同时显示,尤其是对于 包含多个CDS的较大记录。图像视图可比做科学家实验室的记事本图片,为特征注解的准确性 提供一个快速实用的检查手段 先进的注解和编辑功能 Sequi n中的序列编辑器能在编辑序列时自动调节特征间隔,这对于想在已提交的序列记录中 加入一段5′端的序列尤为重要。在 Sequi n出现之前,这需要手工添加,并纠正序列中所有生 物特征间隔。这样很有可能从草稿开始重做全部提交过程。序列编辑器很象文本编辑器,可 在光标所在出处插入或输入一个新的序列。 在提交序列中的一个大类包含了多样的相关序列(如:种群、系统发生和变异的研究),如 果用户提交了这些序列是如何自身比对的信息,这些记录将会更有指导意义。这种比对可随 序列数据(如:以 PHYLIP、 NEXUS或 FASTA+GAP形式)输入或在输入序列以后用 Sequi n计算 参见附录中的各种形式的实例。 对于这些记录, Sequi n允许给一条序列添加注解,而且该注解可以被复制到其它的序列中。 (若为CDS特征,特征间隔可通过读蛋白质产物序列自动进行计算,而不必全部输入。)为了 实现这一方法,选用特征传播的方法(从比对编辑器中),被选中的特征将传播到剩余序列 中去,并用比对信息调整特征间隔。这和在每条序列上手工注解特征产生的效果相同。但用 特征传播的方法仅需几分钟就能完成全过程,而手工则需几小时 特征传播和序列编辑器组合起来为更新一个已经存在的序列提供了简单而且自动的方法。更 新序列的功能允许用户输入重叠或替代的序列。 Sequi n设计了比对,在有必要时合并序列, 将特征传播到新序列的新位置,以取代旧序列和旧特征。 Sequi n做为分析平台 Sequi n也提供了许多种序列分析的功能,例如:有一个功能可以反补于序列和特征间隔,也 很容易加入新的功能。这些功能在一个称为NCB桌面的窗口中出现,直接显示调入内存的当 前记录的内部结构。该窗口可以被理解为一个有描述器的ven图表(参见下述和第6章),此 描述器能在一组系统中(如:种群研究)应用于各种序列。在桌面上,用户可以读出 Power BlaST的分析结果,再拖动之将其在一条序列记录上释放,从而向记录中加入比对数 据,修改的结果将很快显示在观察者面前。注意:并非所有的注解都能被任何一个观察者看 见,简单文件视图有其局限性,例如:它不显示比对, NCB数据模型支持大量的序列集, Sequi n允许为了显示或注解的目的在这些序列集中进行完 全的漫游,例如:NuC-Prot类包含一条核苷酸序列和它的蛋白质产物,核苷酸序列可自身分 解。在这种情况下,Seg类包含了片段序列和一个 Parts类, Parts类顺序包含每一个片段的原 始数据。种群、系统发生和变异可包含多种相关序列或№uC-Prot类。NCB桌面是浏览记录内 部结构的最快的方法。 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
Sequinᇍৠϔᴵ䆄ᔩᦤկњ䆌ϡৠⱘ㾚DŽӴ㒳ⱘㅔऩ᭛ӊৃҹߎ⦃FASTAˈGenBank EMBLᔶᓣЁDŽ˄ᅗӀৃҹ⫼᠋䅵ㅫᴎЁҹ᭛ӊⱘᮍᓣ䕧ߎৢ✊ˈ䕧ܹ݊ᅗⱘᑣ߫ߚᵤࣙ ЁDŽ˅ڣ㾚ᰒ⼎њᑣ߫ⱘ⡍ᕕ䯈䱨ˈ䖭ᇍѢ㾖ᆳৃব࠾ⱘ㓪ⷕऎᇸ᳝݊ᛣНDŽ˄ڣ 㾚ⱘ亢Ḑৃҹᅮࠊˈ䖭ѯ㾚ৃҹ㹿ࠄࠊϾҎ䅵ㅫᴎⱘ࠾䌈ᵓЁˈ㉬䌈ࠄ᭛ᄫ໘⧚఼ 㾚ᑣЁˈ⫼Ѣޚߎ⠜⠽ⱘ〓DŽ˅᳝ϔϾ㾚ৃҹ䆺㒚ഄᰒ⼎ᅲ䰙ᑣ߫ⱘ⡍ᕕˈᇍ Ѣࣙ↨ᇍⱘ䆄ᔩ˄བ˖⬅ϔϾ⫼᠋䕧ܹⱘⳌ݇ᑣ߫䗮䖛PowerBLASTЁᶹᡒⱘ↨ᇍ㒧ᵰˈ খ㾕ゴ˅ˈ⫼᠋ৃҹ䇋∖ϔϾܼڣ㾚ҹᰒ⼎⏏ࡴǃߴ䰸ϡऍ䜡ⱘᚙމˈ㒚㡖㾚 ᰒ⼎ᑣ߫ᄫ↡↨ᇍDŽ Ϟ䗄ᦤঞⱘ㾖ᆳ㗙ᰃЏࡼⱘˈऩߏϔϾ⡍ᕕǃᑣ߫ᑣ߫↨ᇍ⠛ˈᇚӮ催҂ᑺᰒ⼎䆹໘DŽ ঠߏӮߎ⦃ϔϾড়䗖ⱘ㓪䕥Ḛˈҹ֓Ͼ㾖ᆳ㗙Փ⫼ৠϔᴵ䆄ᔩˈ㗠㛑ⳟࠄϡৠⱘᔶᓣDŽ ՟བ˖ৃҹᕜᮍ֓ⱘՓڣ㾚GenBank˄EMBL˅ⱘㅔऩ᭛ӊ㾚ৠᯊᰒ⼎ˈᇸ݊ᰃᇍѢ ࣙϾCDSⱘ䕗䆄ᔩDŽڣ㾚ৃ↨خ里ᄺᆊᅲ偠ᅸⱘ䆄џᴀ⠛ˈЎ⡍ᕕ⊼㾷ⱘޚ⹂ᗻ ᦤկϔϾᖿ䗳ᅲ⫼ⱘẔᶹ↉DŽ ܜ䖯ⱘ⊼㾷㓪䕥ࡳ㛑 SequinЁⱘᑣ߫㓪䕥఼㛑㓪䕥ᑣ߫ᯊ㞾ࡼ䇗㡖⡍ᕕ䯈䱨ˈ䖭ᇍѢᛇᏆᦤѸⱘᑣ߫䆄ᔩЁ ࡴܹϔ↉5’ッⱘᑣ߫ᇸЎ䞡㽕DŽSequinߎ⦃Пࠡˈ䖭䳔㽕Ꮉ⏏ࡴˈᑊ㑴ℷᑣ߫Ё᠔᳝⫳ ⠽⡍ᕕ䯈䱨DŽ䖭ḋᕜ᳝ৃ㛑Ң㤝〓ᓔྟ䞡خܼ䚼ᦤѸ䖛DŽᑣ߫㓪䕥఼ᕜ䈵᭛ᴀ㓪䕥఼ˈৃ ܝᷛ᠔ߎ໘ᦦܹ䕧ܹϔϾᮄⱘᑣ߫DŽ ᦤѸᑣ߫ЁⱘϔϾ㉏ࣙњḋⱘⳌ݇ᑣ߫˄བ˖⾡㕸ǃ㋏㒳থ⫳বᓖⱘⷨお˅ˈབ ᵰ⫼᠋ᦤѸњ䖭ѯᑣ߫ᰃབԩ㞾䑿↨ᇍⱘֵᙃˈ䖭ѯ䆄ᔩᇚӮ᳝ᣛᇐᛣНDŽ䖭⾡↨ᇍৃ䱣 ᑣ᭄߫˄བ˖ҹPHYLIPǃNEXUSFASTA+GAPᔶᓣ˅䕧ܹ䕧ܹᑣ߫ҹৢ⫼Sequin䅵ㅫDŽ খ㾕䰘ᔩIIЁⱘ⾡ᔶᓣⱘᅲ՟DŽ ᇍѢ䖭ѯ䆄ᔩˈSequinܕ䆌㒭ϔᴵᑣ߫⏏ࡴ⊼㾷ˈ㗠Ϩ䆹⊼㾷ৃҹ㹿ࠄࠊ݊ᅗⱘᑣ߫ЁDŽ ˄㢹ЎCDS⡍ᕕˈ⡍ᕕ䯈䱨ৃ䗮䖛䇏㲟ⱑ䋼ѻ⠽ᑣ߫㞾ࡼ䖯㸠䅵ㅫˈ㗠ϡᖙܼ䚼䕧ܹDŽ˅Ўњ ᅲ⦄䖭ϔᮍ⊩ˈ䗝⫼⡍ᕕӴ᪁ⱘᮍ⊩˄Ң↨ᇍ㓪䕥఼Ё˅ˈ㹿䗝Ёⱘ⡍ᕕᇚӴ᪁࠽ࠄԭᑣ߫ Ёএˈᑊ⫼↨ᇍֵᙃ䇗ᭈ⡍ᕕ䯈䱨DŽ䖭↣ᴵᑣ߫ϞᎹ⊼㾷⡍ᕕѻ⫳ⱘᬜᵰⳌৠDŽԚ⫼ ⡍ᕕӴ᪁ⱘᮍ⊩ҙ䳔ߚ䩳ህ㛑ᅠ៤ܼ䖛ˈ㗠Ꮉ߭䳔ᇣᯊDŽ ⡍ᕕӴ᪁ᑣ߫㓪䕥఼㒘ড়䍋ᴹЎᮄϔϾᏆ㒣ᄬⱘᑣ߫ᦤկњㅔऩ㗠Ϩ㞾ࡼⱘᮍ⊩DŽ ᮄᑣ߫ⱘࡳ㛑ܕ䆌⫼᠋䕧ܹ䞡᳓ҷⱘᑣ߫DŽSequin䆒䅵њ↨ᇍˈ᳝ᖙ㽕ᯊড়ᑊᑣ߫ˈ ᇚ⡍ᕕӴ᪁ࠄᮄᑣ߫ⱘᮄԡ㕂ˈҹপҷᮻᑣ߫ᮻ⡍ᕕDŽ SequinخЎߚᵤᑇৄ Sequinгᦤկњ䆌⾡ᑣ߫ߚᵤⱘࡳ㛑ˈ՟བ˖᳝ϔϾࡳ㛑ৃҹড㸹Ѣᑣ߫⡍ᕕ䯈䱨ˈг ᕜᆍᯧࡴܹᮄⱘࡳ㛑DŽ䖭ѯࡳ㛑ϔϾ⿄ЎNCBIḠ䴶ⱘにষЁߎˈ⦃Ⳉᰒ⼎䇗ܹݙᄬⱘᔧ ࠡ䆄ᔩⱘݙ䚼㒧ᵘDŽ䆹にষৃҹ㹿⧚㾷ЎϔϾ᳝ᦣ䗄఼ⱘVenn㸼˄খ㾕ϟ䗄ゴ˅ˈℸ ᦣ䗄఼㛑ϔ㒘㋏㒳Ё˄བ˖⾡㕸ⷨお˅ᑨ⫼Ѣ⾡ᑣ߫DŽḠ䴶Ϟˈ⫼᠋ৃҹ䇏ߎ PowerBLASTⱘߚᵤ㒧ᵰˈݡᢪࡼПᇚ݊ϔᴵᑣ߫䆄ᔩϞ䞞ᬒˈҢ㗠䆄ᔩЁࡴ↨ܹᇍ᭄ ˈׂᬍⱘ㒧ᵰᇚᕜᖿᰒ⼎㾖ᆳ㗙䴶ࠡDŽ⊼ᛣ˖ᑊ䴲᠔᳝ⱘ⊼㾷䛑㛑㹿ӏԩϔϾ㾖ᆳ㗙ⳟ 㾕ˈㅔऩ᭛ӊ㾚᳝݊ሔ䰤ᗻˈ՟བ˖ᅗϡᰒ⼎↨ᇍDŽ NCBI᭄ൟᬃᣕ䞣ⱘᑣ߫䲚ˈSequinܕ䆌Ўњᰒ⼎⊼㾷ⱘⳂⱘ䖭ѯᑣ߫䲚Ё䖯㸠ᅠ ܼⱘ⓿␌ˈ՟བ˖Nuc-Prot㉏ࣙϔᴵḌ㣋䝌ᑣ߫ᅗⱘ㲟ⱑ䋼ѻ⠽ˈḌ㣋䝌ᑣ߫ৃ㞾䑿ߚ 㾷DŽ䖭⾡ᚙމϟˈSeg㉏ࣙњ⠛↉ᑣ߫ϔϾParts㉏ˈParts㉏乎ᑣࣙ↣ϔϾ⠛↉ⱘॳ ྟ᭄DŽ⾡㕸ǃ㋏㒳থ⫳বᓖৃࣙ辵Ⳍ݇ᑣ߫Nuc-Prot㉏DŽNCBIḠ䴶ᰃ⌣㾜䆄ᔩݙ 䚼㒧ᵘⱘ᳔ᖿⱘᮍ⊩DŽ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ7/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,8/2 效据模型的重要性 Sequi n是一种ASN.1编辑器。用ASN.1数据描述语言写成的NCBI数据模型,可用来使相关信息 在描述器或特征项中保持在一起(参见第6章),特征项是典型的生物概念(如:基因,编码 区,RNAs,蛋白质),这些概念通常在一条序列中有一个位置(一个或多个间隔)。描述器 可用于传送应用于多个序列的信息,这样避免了重复输入同一条信息的多个拷贝。 例如: Bi aSource描述器包含了一个生物体的科学名称,常用名称,分类学上的链接, Gen Bank分类,和修饰器(如:品系、克隆、染色体、图谱位置)。将此信息收集在一起记录 在数据详细说明书中,将便于用户输入和修改。将单个的 Bi aSource描述器应用于№ uC-prot集 将满足证实者的愿望:在每条序列,包括蛋白质序列上都有生物来源信息,这同时也是数据 库的规定。 在 Gen Bank简单文件视图上双击一段,或在图形视图中双击一个特征,将激活一个编辑器用于 修改该项的永久性的信息。在某些情况下,特别是在 Bi aSource或出版物中,这些项可能是描 述器或者是特征,并且在简单文件中将其区分开来是困难的。(在NCB|桌面上可以很容易地区 分描述器和特征。并且只有特征和序列在总结、图表、比对、和序列视图中出现。 对于偶然的使用者来说,数据模型导致习惯可能并不明显(请看 Gen Bank或EMBL的视图文 件),但确实能够简化生物信息的输入。例如:在 GenBank简单文件的头部出现的文献能够包 含一个评价的子部分,在这里可以输入解释关于引用的生物学结论,和那些关于序列记录的 信息。在报告中文本通常和引用在一起,相反将解释性的信息放置在大的注解段中,并用编 号指向引用的文章(如“〖5〗”)是一种冒险性的做法,因为这些编号可能会发生变化, (例如由于新的文献的引用),将导致编号和文献不相符 类似地,对于特征的引用(例如确定在编码区中核糖体的滑动)内在地引用了文献,而不是 文献编号,即使在简单文件中显示了一个数字。这是另一个惯例允许文献编号改变而不“破 坏”引用的完整性。并且这意味着只有一个完整的引用复本,这将使更新文献中的任何信息 变得更容易。 然而,应该保守地使用对于序列记录的文字上的引用,一个序列记录并不是一门学科的回 顾,使用 Entrez中的链接和近邻是一种更加可靠的收集信息的方法和使用序列数据库作出最 初发现的方法 在最简单的情况下,单个的核苷酸序列有一个或多个蛋白质产物。 Sequi n允许用户不了解数 据模型的结构层次而使用它。CDS特征编辑器用来输入蛋白质序列(或将其从已输入的地方翻 译出来),并且输入或修改特征(提供了蛋白质的名称)。用户可以获得(单个的)蛋白质特 征而不必在整个蛋白质序列中“漫游”。并且CDS编辑器也用基因名建立了分离的序列特征。 如果预期有关于蛋白质产物序列的大量的注解,那么漫游是必需的,至少作为对于数据模型 的一种粗略的了解,许多蛋白质有半胱氨酸的双硫键。结合区,活性区,糖基化区,信号 肽,或跨膜区。关于这些部分的注解对将其作为 BLAST或 Entrez检索结果的生物学家很有意 义,对于给定序列设置目标控制使观察者转向显示该序列的图形平面或文字报告。使用注解 子菜单建立的任何特征或描述器将和当前的目标序列组织在一起 虽然 Sequi n确实提供了在一个结构记录中所有的序列间进行完全的漫游的功能,但是最初的 序列数据建立原始的结构最好由 Sequi n的“创建新提交”功能来完成。 Sequi n在前面的步骤 中提取信息,(例如生物体和资源编辑器,基因和蛋白质名称)并且知道怎样正确的将每个 信息填充在合适的位置。这也就是 Sequi n的主要设计目标之一。手工注解需要对于数据模型 更详尽的了解,和对于具有使用 Sequi n复杂功能的专业技能 完成的提交可以存储到磁盘(File-> Prepare Submi ssi on)和发送电子邮件到某一数据库, file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
᭄ൟⱘ䞡㽕ᗻ Sequinᰃϔ⾡ASN.1㓪䕥఼DŽ⫼ASN.1᭄ᦣ䗄䇁㿔ݭ៤ⱘNCBI᭄ൟˈৃ⫼ᴹՓⳌֵ݇ᙃ ᦣ䗄఼⡍ᕕ乍Ёֱᣕϔ䍋˄খ㾕ゴ˅ˈ⡍ᕕ乍ᰃൟⱘ⫳⠽ὖᗉ˄བ˖ˈ㓪ⷕ ऎˈRNAsˈ㲟ⱑ䋼˅ˈ䖭ѯὖᗉ䗮ᐌϔᴵᑣ߫Ё᳝ϔϾԡ㕂˄ϔϾϾ䯈䱨˅DŽᦣ䗄఼ ৃ⫼ѢӴ䗕ᑨ⫼ѢϾᑣ߫ⱘֵᙃˈ䖭ḋ䙓ܡњ䞡䕧ܹৠϔᴵֵᙃⱘϾᣋ䋱DŽ ՟བ˖BioSourceᦣ䗄఼ࣙњϔϾ⫳⠽ԧⱘ⾥ᄺৡ⿄ˈᐌ⫼ৡ⿄ˈߚ㉏ᄺϞⱘ䫒ˈ GenBankߚ㉏ˈׂ佄఼˄བ˖ક㋏ǃܟ䱚ǃᶧ㡆ԧǃ䈅ԡ㕂˅DŽᇚℸֵᙃᬊ䲚ϔ䍋䆄ᔩ ᭄䆺㒚䇈ᯢкЁˈᇚ֓Ѣ⫼᠋䕧ׂܹᬍDŽᇚऩϾⱘBioSourceᦣ䗄఼ᑨ⫼ѢNuc-prot䲚 ᇚ⒵䎇䆕ᅲ㗙ⱘᜓᳯ: ↣ᴵᑣ߫, ࣙᣀ㲟ⱑ䋼ᑣ߫Ϟ䛑᳝⫳⠽ᴹ⑤ֵᙃ, 䖭ৠᯊгᰃ᭄ ᑧⱘ㾘ᅮDŽ GenBankㅔऩ᭛ӊ㾚Ϟঠߏϔ↉ˈᔶ㾚ЁঠߏϔϾ⡍ᕕˈᇚ▔⌏ϔϾ㓪䕥఼⫼Ѣ ׂᬍ䆹乍ⱘ∌ЙᗻⱘֵᙃDŽᶤѯᚙމϟˈ⡍߿ᰃBioSourceߎ⠜⠽Ёˈ䖭ѯ乍ৃ㛑ᰃᦣ 䗄఼㗙ᰃ⡍ᕕˈᑊϨㅔऩ᭛ӊЁᇚ݊ऎߚᓔᴹᰃೄ䲒ⱘDŽNCBIḠ䴶Ϟৃҹᕜᆍᯧഄऎ ߚᦣ䗄఼⡍ᕕDŽᑊϨা᳝⡍ᕕᑣ߫ᘏ㒧ǃ㸼ǃ↨ᇍǃᑣ߫㾚Ёߎ⦃DŽ ᇍѢي✊ⱘՓ⫼㗙ᴹ䇈ˈ᭄ൟᇐ㟈дᛃৃ㛑ᑊϡᯢᰒ˄䇋ⳟGenBankEMBLⱘ㾚᭛ ӊ˅ˈԚ⹂ᅲ㛑ㅔ࣪⫳⠽ֵᙃⱘ䕧ܹDŽ՟བ˖GenBankㅔऩ᭛ӊⱘ༈䚼ߎ⦃ⱘ᭛⤂㛑ࣙ ϔϾ䆘Ӌⱘᄤ䚼ߚˈ䖭䞠ৃҹ䕧ܹ㾷䞞݇Ѣᓩ⫼ⱘ⫳⠽ᄺ㒧䆎ˈ䙷ѯ݇Ѣᑣ߫䆄ᔩⱘ ֵᙃDŽਞЁ᭛ᴀ䗮ᐌᓩ⫼ϔ䍋ˈⳌডᇚ㾷䞞ᗻⱘֵᙃᬒ㕂ⱘ⊼㾷↉Ёˈᑊ⫼㓪 োᣛᓩ⫼ⱘ᭛ゴ˄བĀǔǕā˅ᰃϔ⾡ݦ䰽ᗻⱘخˈ⫣Ў䖭ѯ㓪োৃ㛑Ӯথ⫳ব࣪ˈ ˄՟བ⬅Ѣᮄⱘ᭛⤂ⱘᓩ⫼˅ˈᇚᇐ㟈㓪ো᭛⤂ϡⳌヺDŽ ㉏ԐഄˈᇍѢ⡍ᕕⱘᓩ⫼˄՟བ⹂ᅮ㓪ⷕऎЁḌ㊪ԧⱘ⒥ࡼ˅ݙഄᓩ⫼њ᭛⤂ˈ㗠ϡᰃ ᭛⤂㓪োˈेՓㅔऩ᭛ӊЁᰒ⼎њϔϾ᭄ᄫDŽ䖭ᰃϔϾᛃ՟ܕ䆌᭛⤂㓪োᬍব㗠ϡĀ⸈ ണāᓩ⫼ⱘᅠᭈᗻDŽᑊϨ䖭ᛣੇⴔা᳝ϔϾᅠᭈⱘᓩ⫼ᴀˈ䖭ᇚՓᮄ᭛⤂Ёⱘӏԩֵᙃ বᕫᆍᯧDŽ ✊㗠ˈᑨ䆹ֱᅜഄՓ⫼ᇍѢᑣ߫䆄ᔩⱘ᭛ᄫϞⱘᓩ⫼ˈϔϾᑣ߫䆄ᔩᑊϡᰃϔ䮼ᄺ⾥ⱘಲ 乒ˈՓ⫼EntrezЁⱘ䫒䖥䚏ᰃϔ⾡ࡴৃ䴴ⱘᬊ䲚ֵᙃⱘᮍ⊩Փ⫼ᑣ᭄߫ᑧߎ᳔ ߱থ⦄ⱘᮍ⊩DŽ ᳔ㅔऩⱘᚙމϟˈऩϾⱘḌ㣋䝌ᑣ᳝߫ϔϾϾ㲟ⱑ䋼ѻ⠽DŽSequinܕ䆌⫼᠋ϡњ㾷᭄ ൟⱘ㒧ᵘሖ㗠Փ⫼ᅗDŽCDS⡍ᕕ㓪䕥఼⫼ᴹ䕧ܹ㲟ⱑ䋼ᑣ߫˄ᇚ݊ҢᏆ䕧ܹⱘഄᮍ㗏 䆥ߎᴹ˅ᑊϨ䕧ׂܹᬍ⡍ᕕ˄ᦤկњ㲟ⱑ䋼ⱘৡ⿄˅DŽ⫼᠋ৃҹ㦋ᕫ˄ऩϾⱘ˅㲟ⱑ䋼⡍ ᕕ㗠ϡᖙᭈϾ㲟ⱑ䋼ᑣ߫ЁĀ⓿␌āDŽᑊϨCDS㓪䕥఼г⫼ৡᓎゟњߚ行ⱘᑣ߫⡍ᕕDŽ བᵰ乘ᳳ᳝݇Ѣ㲟ⱑ䋼ѻ⠽ᑣ߫ⱘ䞣ⱘ⊼㾷ˈ䙷М⓿␌ᰃᖙ䳔ⱘˈ㟇ᇥЎᇍѢ᭄ൟ ⱘϔ⾡㉫⬹ⱘњ㾷ˈ䆌㲟ⱑ䋼᳝ञ㛅⇼䝌ⱘঠ⸿䬂DŽ㒧ড়ऎˈ⌏ᗻऎˈ㊪࣪ऎˈֵো 㚑ˈ䎼㝰ऎDŽ݇Ѣ䖭ѯ䚼ߚⱘ⊼㾷ᇍᇚ݊ЎBLASTEntrezẔ㋶㒧ᵰⱘ⫳⠽ᄺᆊᕜ᳝ᛣ НˈᇍѢ㒭ᅮᑣ߫䆒㕂ⳂᷛࠊՓ㾖ᆳ㗙䕀ᰒ⼎䆹ᑣ߫ⱘᔶᑇ䴶᭛ᄫਞDŽՓ⫼⊼㾷 ᄤ㦰ऩᓎゟⱘӏԩ⡍ᕕᦣ䗄఼ᇚᔧࠡⱘⳂᷛᑣ߫㒘㒛ϔ䍋DŽ 㱑✊Sequin⹂ᅲᦤկњϔϾ㒧ᵘ䆄ᔩЁ᠔᳝ⱘᑣ߫䯈䖯㸠ᅠܼⱘ⓿␌ⱘࡳ㛑ˈԚᰃ᳔߱ⱘ ᑣ᭄߫ᓎゟॳྟⱘ㒧ᵘ᳔ད⬅SequinⱘĀ߯ᓎᮄᦤѸāࡳ㛑ᴹᅠ៤DŽSequinࠡ䴶ⱘℹ偸 Ёᦤপֵᙃˈ˄՟བ⫳⠽ԧ䌘⑤㓪䕥఼ˈ㲟ⱑ䋼ৡ⿄˅ᑊϨⶹ䘧ᗢḋℷ⹂ⱘᇚ↣Ͼ ֵᙃ฿ܙড়䗖ⱘԡ㕂DŽ䖭гህᰃSequinⱘЏ㽕䆒䅵ⳂᷛПϔDŽᎹ⊼㾷䳔㽕ᇍѢ᭄ൟ 䆺ሑⱘњ㾷ˈᇍѢ᳝Փ⫼Sequinᴖࡳ㛑ⱘϧϮᡔ㛑DŽ ᅠ៤ⱘᦤѸৃҹᄬࠄټ⺕Ⲭ˄File->Prepare Submission˅থ䗕⬉ᄤ䚂ӊࠄᶤϔ᭄ᑧˈ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ8/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,9/2 在 Sequi n期间经常存盘是一个好习惯,可以避免无意中的数据丢失。 提交单个的序列 最简单的交包含一个单个的没有中断的核苷酸序列和一个或多个蛋白质产物序列。这些序列 典型地来自于传统的基于基因的生物学研究,并且这样的提交在大多数情况下可以通过互联 网(请看上例 BankI t)或 Sequi n来完成, Sequi n提供了许多已经确认的好处和对于各种网络连 接的独立性。 Sequi n开始时出现一个窗口,提示用户开始一个新的提交或者打开一个包含记录的文件(图 14.7)。在最初的提交建立以后,记录可以保存下来存为文件和在最终传送到数据库之前进 行编辑,如果 Sequi n被配置为网络敏感,该窗口将允许下载已存在的将要更新的数据记录。 图14.7 图14.7 Sequi n的初始窗口,提供了开始一个提交的几个选择,为了由原始序列文件和其它 信息的最小集生成一个提交,选择开始新的提交( Start New Submi ssi on),一旦初始记录 建立起来,就可以存成一个文件。若要读已存的文件或任何其它存成文件的ASN.1记录,选择 读已存在的记录( Read Exi sting Record),若 Sequi n配置为网络连接,将会显示按钮 Downl oad from entrez,该按钮用来下载记录用于更新 通过完成几个表格可以建立一个新的提交(图14.8-14.15)。这些表格使用文件夹标签来将 窗口划分为几页,这样允许输入所有必需数据而不必一个大的计算机屏幕,这些表格项有前 页和后一页的按钮,当用户到达一个表格的最后一页时,下一页按钮变成了下一个表格按 钮 开始一个新的提交过程,第一步是请求一个暂时性的标题(图14.8):然后询问联系人、序 列作者和他们的学术联系的信息(图14.9)。对于所有的提交来说,这个表格是一致的,联 系人、序列作者、和他们的学术联系页通过按输出菜单按钮可以存储下来,在开始其它提交 时可通过选择输入菜单按钮读入该文件。然而,因为种群、系统发生和变异研究是作为一个 记录一次引入的,存储提交表格页面就不太必要了。 图14.8 图14.8提交页用来从手稿中为 Sequi n:输入一个暂时的标题;即使该文章没有写,或者试图发 表,对于提交的描述也是必要的。该页也允许提交者要求直到文章发表再公布序列或指测序 列公布的日期。 图14.9 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
Sequinᳳ䯈㒣ᐌᄬⲬᰃϔϾདдᛃˈৃҹ䙓ܡ᮴ᛣЁⱘ᭄϶༅DŽ ᦤѸऩϾⱘᑣ߫ ᳔ㅔऩⱘѸࣙϔϾऩϾⱘ≵᳝ЁᮁⱘḌ㣋䝌ᑣ߫ϔϾϾ㲟ⱑ䋼ѻ⠽ᑣ߫DŽ䖭ѯᑣ߫ ഄൟᴹ㞾ѢӴ㒳ⱘѢⱘ⫳⠽ᄺⷨおˈᑊϨ䖭ḋⱘᦤѸ᭄ᚙމϟৃҹ䗮䖛Ѧ㘨 㔥˄䇋ⳟϞ՟BankIt˅Sequinᴹᅠ៤,Sequinᦤկњ䆌Ꮖ㒣⹂䅸ⱘད໘ᇍѢ⾡㔥㒰䖲 ⱘ⣀ゟᗻDŽ Sequinᓔྟᯊߎ⦃ϔϾにষˈᦤ⼎⫼᠋ᓔྟϔϾᮄⱘᦤѸ㗙ᠧᓔϔϾࣙ䆄ᔩⱘ᭛ӊ˄ 14.7˅DŽ᳔߱ⱘᦤѸᓎゟҹৢˈ䆄ᔩৃҹֱᄬϟᴹᄬЎ᭛ӊ᳔㒜Ӵ䗕ࠄ᭄ᑧПࠡ䖯 㸠㓪䕥ˈབᵰSequin㹿䜡㕂Ў㔥㒰ᬣᛳˈ䆹にষᇚܕ䆌ϟ䕑Ꮖᄬⱘᇚ㽕ᮄⱘ᭄䆄ᔩDŽ 14.7 14.7 Sequin ⱘ߱ྟにষˈᦤկњᓔྟϔϾᦤѸⱘϾ䗝ᢽˈЎњ⬅ॳྟᑣ߫᭛ӊ݊ᅗ ֵᙃⱘ᳔ᇣ䲚⫳៤ϔϾᦤѸˈ䗝ᢽᓔྟᮄⱘᦤѸ˄Start New Submission˅ˈϔᮺ߱ྟ䆄ᔩ ᓎゟ䍋ᴹˈህৃҹᄬ៤ϔϾ᭛ӊDŽ㢹㽕䇏Ꮖᄬⱘ᭛ӊӏԩ݊ᅗᄬ៤᭛ӊⱘASN.1䆄ᔩˈ䗝ᢽ 䇏Ꮖᄬⱘ䆄ᔩ˄Read Existing Record˅ˈ㢹Sequin䜡㕂Ў㔥㒰䖲ˈᇚӮᰒ⼎ᣝ䪂 Download from Entrezˈ䆹ᣝ䪂⫼ᴹϟ䕑䆄ᔩ⫼ѢᮄDŽ 䗮䖛ᅠ៤Ͼ㸼ḐৃҹᓎゟϔϾᮄⱘᦤѸ˄14.8ˉ14.15˅DŽ䖭ѯ㸼ḐՓ⫼᭛ӊ།ᷛㅒᴹᇚ にষߚߦЎ义ˈ䖭ḋܕ䆌䕧ܹ᠔᳝ᖙ䳔᭄㗠ϡᖙϔϾⱘ䅵ㅫᴎሣᐩˈ䖭ѯ㸼Ḑ乍᳝ࠡ ϔ义ৢϔ义ⱘᣝ䪂ˈᔧ⫼᠋ࠄ䖒ϔϾ㸼Ḑⱘ᳔ৢϔ义ᯊˈϟϔ义ᣝ䪂ব៤њϟϔϾ㸼Ḑᣝ 䪂DŽ ᓔྟϔϾᮄⱘᦤѸ䖛ˈϔℹᰃ䇋∖ϔϾ᱖ᯊᗻⱘᷛ乬˄14.8˅˖✊ৢ䆶䯂㘨㋏Ҏǃᑣ ߫㗙ҪӀⱘᄺᴃ㘨㋏ⱘֵᙃ˄14.9˅DŽᇍѢ᠔᳝ⱘᦤѸᴹ䇈ˈ䖭Ͼ㸼Ḑᰃϔ㟈ⱘˈ㘨 ㋏Ҏǃᑣ߫㗙ǃҪӀⱘᄺᴃ㘨㋏义䗮䖛ᣝ䕧ߎ㦰ऩᣝ䪂ৃҹᄬټϟᴹˈᓔྟ݊ᅗᦤѸ ᯊৃ䗮䖛䗝ᢽ䕧ܹ㦰ऩᣝ䪂䇏ܹ䆹᭛ӊDŽ✊㗠ˈЎ⾡㕸ǃ㋏㒳থ⫳বᓖⷨおᰃЎϔϾ 䆄ᔩϔᓩܹⱘˈᄬټᦤѸ㸼Ḑ义䴶ህϡᖙ㽕њDŽ 14.8 14.8 ᦤѸ义⫼ᴹҢ〓ЁЎSequin䕧ܹϔϾ᱖ᯊⱘᷛ乬˗ेՓ䆹᭛ゴ≵᳝ݭˈ㗙䆩থ 㸼ˈᇍѢᦤѸⱘᦣ䗄гᰃᖙ㽕ⱘDŽ䆹义гܕ䆌ᦤѸ㗙㽕∖Ⳉࠄ᭛ゴথ㸼ݡ݀Ꮧᑣ߫ᣛ⌟ᑣ ߫݀Ꮧⱘ᮹ᳳDŽ 14.9 कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ9/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
第十四章提交DNA序列到数据库 页码,10/2 图14.9 Sequi n的联系人页面记录了回答数据库工作人员查询的负责人的姓名和联系信息(通 常是执行提交的人,但不必是真正测序的人)。Sfx域要求名字后缀(例如:Jr.,lH1),而 不是敬语或学位(如Ph.D,M.D.)。当记录公布时该信息并不公开,而是保存在数据库中 序列格式表格(图14.12)询问提交的类型(单个的序列,如例子中所用;片段序列或种群 系统发生、变异研究)。对于最后三种类型的提交,包括相关序列的比对研究,输入数据的 形式也能被指示。缺省是 FASTA格式(或原始序列),不过 PHYLIP, NEXUS,PAUP和 FASTA GAP格式也是支持的。后几种格式包含比对信息,这些存储在序列记录中。 图14.10 图14.10 Sequi n作者页命名了描述测序的手稿作者。(例如从测序中获得荣誉的人),本页 是一个电子表格,可以容纳需要的作者名。按TAB按钮可以水平地从一个域移动到下一个域。 要移动到下一行的第一个名字列,从Sfx列内按TAB按钮。如果在最后一行中键入了任何东 西,新的一行将附加到表格的后面。(在视觉上立刻感到滚动条的变化),在一行中的任何 位置按下回车按钮将在当前行下增加新的一行。 Sequi n将忽略任何姓一栏空着的行。 图14.11 图14.11 Sequi n的联系页,用于与手稿原始作者的制度上的联系,当数据库工作人员处理记 录时,该信息将出现在引用其自身的参考书目中。在本页中下一页( Next Page)换名为下 表格( Next form);当按下该按钮时, Sequi n自动检査表格内容,如果用户遗漏了任何基本 信息的话,将给出提示。如果输入的信息符合要求, Sequi n将出现下一个表格。 图14.12 图14.12Seqμuin的序列格式表格,允许用户指定提交记录的类型和原始序列数据的类型。大 数提交是单个的序列(核苷酸)(也可能有一条或几条蛋白质产物序列)。另一类提交是片 段序列。例如,在一些基因组序列中,外显子已测序,但是内含子并未完全测序。通过分割 该记录,我们可以注解编码区和mR№A特征。系统发生、种群研究和变异硏究涉及不止一条相 关序列的提交,它们由 Sequi n包装为合适的集合。批量提交是用于那些并不具有相似性的序 列集的提交,这样作只是基于方便的理由。单个的序列数据和分段的序列数据必须是 FASTA格 式。种群、系统发生和变异研究也可以使用包含比对的格式。这些比对是关于提交者对于序 列之间关系的断言。目前 Sequi n支持 FASTA+GAP,PHYL|P,交叉存取 NEXUS和近邻的 NEXUS多 种格式 生物体和序列表(图14.13-14.15)要求生物学数据。在生物体页面上(图14.13,随着用户 键入生物体的科学名,经常使用的生物体名列表自动翻卷, Sequi n保存了 Gen Bank中存在的 最多的800种生物体。)因此在键入几个字母后,用户可以通过在列表中单击合适的项来补全 生物体名称的其余部分。现在 Sequi n知道了科学名称,一般名称, Gen Bank分类,分类学联系 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18
14.9 Sequinⱘ㘨㋏Ҏ义䴶䆄ᔩњಲㄨ᭄ᑧᎹҎਬᶹ䆶ⱘ䋳䋷Ҏⱘྦྷৡ㘨㋏ֵᙃ˄䗮 ᐌᰃᠻ㸠ᦤѸⱘҎˈԚϡᖙᰃⳳℷ⌟ᑣⱘҎ˅DŽSfxඳ㽕∖ৡᄫৢ㓔˄՟བ˖Jr.,III˅ˈ㗠 ϡᰃᭀ䇁ᄺԡ˄བPh.D,M.D.˅DŽᔧ䆄ᔩ݀Ꮧᯊ䆹ֵᙃᑊϡ݀ᓔˈ㗠ᰃֱᄬ᭄ᑧЁDŽ ᑣ߫Ḑᓣ㸼Ḑ˄14.12˅䆶䯂ᦤѸⱘ㉏ൟ˄ऩϾⱘᑣ߫ˈབ՟ᄤЁ᠔⫼˗⠛↉ᑣ߫⾡㕸ǃ ㋏㒳থ⫳ǃবᓖⷨお˅DŽᇍѢ᳔ৢϝ⾡㉏ൟⱘᦤѸˈࣙᣀⳌ݇ᑣ߫ⱘ↨ᇍⷨおˈ䕧᭄ܹⱘ ᔶᓣг㛑㹿ᣛ⼎DŽ㔎ⳕᰃFASTAḐᓣ˄ॳྟᑣ߫˅ˈϡ䖛PHYLIPˈNEXUSˈPAUPFASTAˇ GAPḐᓣгᰃᬃᣕⱘDŽৢ辵Ḑᓣࣙ↨ᇍֵᙃˈ䖭ѯᄬټᑣ߫䆄ᔩЁDŽ 14.10 14.10 Sequin㗙义ੑৡњᦣ䗄⌟ᑣⱘ〓㗙DŽ˄՟བҢ⌟ᑣЁ㦋ᕫ㤷䁝ⱘҎ˅ˈᴀ义 ᰃϔϾ⬉ᄤ㸼Ḑˈৃҹᆍ㒇䳔㽕ⱘ㗙ৡDŽᣝTABᣝ䪂ৃҹ∈ᑇഄҢϔϾඳ⿏ࠄࡼϟϔϾඳDŽ 㽕⿏ࠄࡼϟϔ㸠ⱘϔϾৡᄫ߫ˈҢSfx߫ݙᣝTABᣝ䪂DŽབᵰ᳔ৢϔ㸠Ё䬂ܹњӏԩϰ 㽓ˈᮄⱘϔ㸠ᇚ䰘ࠄࡴ㸼Ḑⱘৢ䴶DŽ˄㾚㾝Ϟゟࠏᛳࠄ⒮ࡼᴵⱘব࣪ˈ˅ϔ㸠Ёⱘӏԩ ԡ㕂ᣝϟಲ䔺ᣝ䪂ᇚᔧࠡ㸠ϟࡴᮄⱘϔ㸠DŽSequinᇚᗑ⬹ӏԩྦྷϔᷣぎⴔⱘ㸠DŽ 14.11 14.11 Sequinⱘ㘨㋏义ˈ⫼ѢϢ〓ॳྟ㗙ⱘࠊᑺϞⱘ㘨㋏ˈᔧ᭄ᑧᎹҎਬ໘⧚䆄 ᔩᯊˈ䆹ֵᙃᇚߎ⦃ᓩ⫼݊㞾䑿ⱘখ㗗кⳂЁDŽᴀ义Ёϟϔ义˄Next Page˅ᤶৡЎϟϔ 㸼Ḑ˄Next Form˅˗ᔧᣝϟ䆹ᣝ䪂ᯊˈSequin㞾ࡼẔᶹ㸼Ḑݙᆍˈབᵰ⫼᠋䘫ⓣњӏԩᴀ ֵᙃⱘ䆱ˈᇚ㒭ߎᦤ⼎DŽབᵰ䕧ܹⱘֵᙃヺড়㽕∖ˈSequinᇚߎ⦃ϟϔϾ㸼ḐDŽ `14.12 14.12 Sequinⱘᑣ߫Ḑᓣ㸼Ḑˈܕ䆌⫼᠋ᣛᅮᦤѸ䆄ᔩⱘ㉏ൟॳྟᑣ᭄߫ⱘ㉏ൟDŽ ᭄ᦤѸᰃऩϾⱘᑣ߫˄Ḍ㣋䝌˅˄гৃ㛑᳝ϔᴵᴵ㲟ⱑ䋼ѻ⠽ᑣ߫˅DŽϔ㉏ᦤѸᰃ⠛ ↉ᑣ߫DŽ՟བˈϔѯ㒘ᑣ߫ЁˈᰒᄤᏆ⌟ᑣˈԚᰃݙᄤᑊᅠܼ⌟ᑣDŽ䗮䖛ࡆߚ 䆹䆄ᔩˈ៥Ӏৃҹ⊼㾷㓪ⷕऎmRNA⡍ᕕDŽ㋏㒳থ⫳ǃ⾡㕸ⷨおবᓖⷨお⍝ঞϡℶϔᴵⳌ ݇ᑣ߫ⱘᦤѸˈᅗӀ⬅Sequinࣙ㺙Ўড়䗖ⱘ䲚ড়DŽᡍ䞣ᦤѸᰃ⫼Ѣ䙷ѯᑊϡ᳝ⳌԐᗻⱘᑣ ߫䲚ⱘᦤѸˈ䖭ḋাᰃѢᮍ֓ⱘ⧚⬅DŽऩϾⱘᑣ᭄߫ߚ0⁄3ⱘᑣ᭄߫ᖙ乏ᰃFASTAḐ ᓣDŽ⾡㕸ǃ㋏㒳থ⫳বᓖⷨおгৃҹՓ⫼ࣙ↨ᇍⱘḐᓣDŽ䖭ѯ↨ᇍᰃ݇ѢᦤѸ㗙ᇍѢᑣ ߫П䯈݇㋏ⱘᮁ㿔DŽⳂࠡSequinᬃᣕFASTAˇGAPˈPHYLIPˈѸঝᄬপNEXUS䖥䚏ⱘNEXUS ⾡ḐᓣDŽ ⫳⠽ԧᑣ߫㸼˄14.13ˉ14.15˅㽕∖⫳⠽ᄺ᭄DŽ⫳⠽ԧ义䴶Ϟ˄14.13ˈ䱣ⴔ⫼᠋ 䬂ܹ⫳⠽ԧⱘ⾥ᄺৡˈ㒣ᐌՓ⫼ⱘ⫳⠽ԧৡ߫㸼㞾ࡼ㗏ोˈSequin ֱᄬњGenBankЁᄬⱘ ᳔ⱘ800⾡⫳⠽ԧDŽ˅ℸ䬂ܹϾᄫ↡ৢˈ⫼᠋ৃҹ䗮䖛߫㸼Ёऩߏড়䗖ⱘ乍ᴹ㸹ܼ ⫳⠽ԧৡ⿄ⱘ݊ԭ䚼ߚDŽ⦄Sequinⶹ䘧њ⾥ᄺৡ⿄ˈϔ㠀ৡ⿄ˈGenBankߚ㉏ˈߚ㉏ᄺ㘨㋏ कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ 义ⷕˈ10/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?कಯゴᦤѸDNAᑣ߫ࠄ᭄ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com