《生物信息学》课程教学资源（中译本）第十四章提交DNA序列到数据库

要在分子生物学领域进行计算分析,从公共数据库( DDBJ/EMBL/GenBank)中获得DNA序列记录是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的生物学注解。对于将其作为 BLAST或Eηtrez的检索结果来硏究的科学家来说,编码的蛋白质产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测序?)构成了序列记录的直接的确切涵义本章的内容是提交DNA序列及其注解到公共数据库,重点介绍了与国际核苷酸序列协作数据库:DDBJ、EMBL和 Gen Bank密切相关的核苷酸序列数据库。

团购合买资源类别：文库，文档格式：PDF，文档页数：21，文件大小：239.08KB

第十四章提交DNA序列到数据库页码,1/2 第十四章提交DNA序列到数据库序言: 要在分子生物学领域进行计算分析,从公共数据库( DDBJ/EMBL/GenBank)中获得DNA序列记录是其必需条件。借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的方法,我们可以尝试确定某疾病基因的功能,这种方法要求序列记录有精确并且富于信息的生物学注解。对于将其作为 BLAST或Eηtrez的检索结果来硏究的科学家来说,编码的蛋白质产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系(它因何被测序?)构成了序列记录的直接的确切涵义本章的内容是提交DNA序列及其注解到公共数据库,重点介绍了与国际核苷酸序列协作数据库:DDBJ、EMBL和 Gen Bank密切相关的核苷酸序列数据库。我们描述了提交序列到这些数据库的两种不同的方法,一种方法基于互联网,(例如,使用 Banki t),另一种方法使用 Sequi n, 这是一个多平台程序,若同时具有网络连接有很大益处,不过这不是必需的。 Sequi n也是种很好的利用了№CBI数据模型(参见第六章)的ASN.1编辑工具,而且在不久的将来会成为许多采用NCB|的序列分析工具的平台,因此, Sequi n是可供选择的升级工具。大多数期刊不再刊登完整的序列数据,并且现在公开发表文章时向公共数据库提交序列数据已成为一条准则。基因组测序时期(ESTs和基因组序列的数量以很快的速度增加的时期,在历史上以1992年底EST计划的开始为标志)己经通过很多方式影响了科学界。例如,许多科学家公布他们发现的序列先于发表对其进行的详细分析,这个习惯已成为大型基因研究中心的规定,尽管一些个别的实验室仍然直到文章发表后才公开他们的数据,还有一些人认为公开他们的记录与否取决于自己的愿望。像第二章概述的那样,到目前为止,数据库内容的增长是指数性的。大多数早期的序列记录是由对于某个基因感兴趣的单个的科学家提交的,适合这种情况的提交程序必须允许手工进行生物学信息的任意注解。然而最近这些数据库不得不接受新类型的数据,而且提交速度要有实质性的提高。在EST测序开始不久,为了接受这些记录必需一种单独的提交协议,这种要求变得很明显,通过该协议每天接受的记录将达到上千个,峰值时期更将达到每周100,000 个提交量。幸运的是,这些记录相当简单,而且在内容上是一致的,因此适合于自动处理这种大批量提交协议将在下文讨论。提交过程也是国际活动的一部分,值得注意的是,向三个国际性协作数据库中的任一个提交的记录(参见第二章图2.1)几天后都将在另两个数据库中出现,然后这些序列记录将被许多研究组和研究中心传送到世界范围,其中有些研究者再格式化这些记录以适合他们的数据库和他们的程序使用(例如,GCG,参见第四章),因此仅仅提交序列数据到这三个数据库之一,研究者们能够避免给这三个地方的数据库维护人员带来任何可能的重复工作,而且也能避免发布多余的记录。同样的,大多数期刊都希望在一篇文章中提出的所有核苷酸序列,将被由国际性的协作数据库之一提供的加入号码所验证,而且这对该文章来说具有核心的意义。(参见第2章和第6章)。提交到哪儿? 过去硏究者将数据提交到哪一个特定的数据库依赖于他们想要发表文章的期刊,虽然现在些期刊仍然不合适的指出一个偏爱的数据库,但这不再是正确的了,研究者应该提交到最方便的数据库。这可能是地理上最近的数据库(例如,如果需要一次电话会谈的话);也可能是经常提交的数据库;或者可能仅是因为在那里提交可能得到最多的注意。这三个数据库都有知识丰富的人员来帮助提交者完成整个提交过程。在通常的情况下,一个工作日内将会反馈回来一个加入号码,而记录的完成将需要510天的时间,其实际长短将依赖于那个工作周的繁忙程度和提交的序列的状态。 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18

㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ ᑣ㿔: 㽕೼ߚᄤ⫳⠽ᄺ乚ඳ䖯㸠䅵ㅫߚᵤˈҢ᭄݀݅᥂ᑧ(DDBJ/EMBL/GenBank)Ё㦋ᕫDNAᑣ߫䆄ᔩ ᰃ݊ᖙ䳔ᴵӊǄࡽ׳Ѣ੠ϔϾᏆњ㾷݊⫳⠽ᄺࡳ㛑㗠㹿ߚ行ߎᴹᑊ⌟ᑣⱘ෎಴↨䕗ⳌԐᗻⱘ ᮍ⊩ˈ៥Ӏৃҹᇱ䆩⹂ᅮᶤ⮒⮙෎಴ⱘࡳ㛑ˈ䖭⾡ᮍ⊩㽕∖ᑣ߫䆄ᔩ᳝㊒⹂ᑊϨᆠѢֵᙃⱘ ⫳⠽ᄺ⊼㾷ǄᇍѢᇚ݊԰ЎBLAST ៪EntrezⱘẔ㋶㒧ᵰᴹⷨおⱘ⾥ᄺᆊᴹ䇈ˈ㓪ⷕⱘ㲟ⱑ䋼 ѻ⠽ⱘৡ⿄៪ࡳ㛑ǃ෎಴ᑻԡⱘৡ⿄ҹঞ੠䆹ᑣ᳔߫߱ⱘ݀ᏗП䯈ⱘ㘨㋏˄ᅗ಴ԩ㹿⌟ ᑣ˛˅ᵘ៤њᑣ߫䆄ᔩⱘⳈ᥹ⱘ⹂ߛ⎉НǄ ᴀゴⱘݙᆍᰃᦤѸDNAᑣ߫ঞ݊⊼㾷ࠄ᭄݅݀᥂ᑧˈ䞡⚍ҟ㒡њϢ೑䰙Ḍ㣋䝌ᑣ߫ण԰᭄᥂ ᑧ˖DDBJǃEMBL੠GenBankᆚߛⳌ݇ⱘḌ㣋䝌ᑣ᭄߫᥂ᑧǄ៥Ӏᦣ䗄њᦤѸᑣ߫ࠄ䖭ѯ᭄᥂ᑧ ⱘϸ⾡ϡৠⱘᮍ⊩ˈϔ⾡ᮍ⊩෎ѢѦ㘨㔥ˈ˄՟བˈՓ⫼Bankit˅঺ϔ⾡ᮍ⊩Փ⫼Sequin, 䖭ᰃϔϾ໮ᑇৄ⿟ᑣˈ㢹ৠᯊ݋᳝㔥㒰䖲᥹᳝ᕜ໻Ⲟ໘ˈϡ䖛䖭ϡᰃᖙ䳔ⱘǄSequinгᰃϔ ⾡ᕜདⱘ߽⫼њNCBI᭄᥂῵ൟ˄খ㾕㄀݁ゴ˅ⱘASN.1㓪䕥Ꮉ݋ˈ㗠Ϩ೼ϡЙⱘᇚᴹӮ៤Ў䆌 ໮䞛⫼NCBIⱘᑣ߫ߚᵤᎹ݋ⱘᑇৄˈ಴ℸˈSequinᰃৃկ䗝ᢽⱘछ㑻Ꮉ݋Ǆ ໻໮᭄ᳳߞϡߞݡⱏᅠᭈⱘᑣ᭄߫᥂ˈᑊϨ⦄೼݀ᓔথ㸼᭛ゴᯊ৥᭄݀݅᥂ᑧᦤѸᑣ᭄߫᥂ Ꮖ៤Ўϔᴵޚ߭Ǆ෎಴㒘⌟ᑣᯊᳳ˄ESTs ੠෎಴㒘ᑣ߫ⱘ᭄䞣ҹᕜᖿⱘ䗳ᑺ๲ࡴⱘᯊᳳˈ೼ ग़৆Ϟҹ1992ᑈᑩEST䅵ߦⱘᓔྟЎᷛᖫ˅Ꮖ㒣䗮䖛ᕜ໮ᮍᓣᕅડњ⾥ᄺ⬠Ǆ՟བˈ䆌໮⾥ᄺ ᆊ݀ᏗҪӀথ⦄ⱘᑣ߫ܜѢথ㸼ᇍ݊䖯㸠ⱘ䆺㒚ߚᵤˈ䖭ϾдᛃᏆ៤Ў໻ൟ෎಴ⷨおЁᖗⱘ 㾘ᅮˈሑㅵϔѯϾ߿ⱘᅲ偠ᅸҡ✊Ⳉࠄ᭛ゴথ㸼ৢᠡ݀ᓔҪӀⱘ᭄᥂ˈ䖬᳝ϔѯҎ䅸Ў݀ᓔ ҪӀⱘ䆄ᔩϢ৺পއѢ㞾ᏅⱘᜓᳯǄ ڣ㄀Ѡゴὖ䗄ⱘ䙷ḋˈࠄⳂࠡЎℶˈ᭄᥂ᑧݙᆍⱘ๲䭓ᰃᣛ᭄ᗻⱘǄ໻໮᭄ᮽᳳⱘᑣ߫䆄ᔩ ᰃ⬅ᇍѢᶤϾ෎಴ᛳ݈䍷ⱘऩϾⱘ⾥ᄺᆊᦤѸⱘˈ䗖ড়䖭⾡ᚙމⱘᦤѸ⿟ᑣᖙ乏ܕ䆌᠟Ꮉ䖯㸠⫳⠽ᄺֵᙃⱘӏᛣ⊼㾷Ǆ✊㗠᳔䖥䖭ѯ᭄᥂ᑧϡᕫϡ᥹ফᮄ㉏ൟⱘ᭄᥂ˈ㗠ϨᦤѸ䗳ᑺ㽕 ᳝ᅲ䋼ᗻⱘᦤ催Ǆ೼EST⌟ᑣᓔྟϡЙˈЎњ᥹ফ䖭ѯ䆄ᔩᖙ䳔ϔ⾡ऩ⣀ⱘᦤѸण䆂ˈ䖭⾡㽕 ∖বᕫᕜᯢᰒˈ䗮䖛䆹ण䆂↣໽᥹ফⱘ䆄ᔩᇚ䖒ࠄϞगϾˈዄؐᯊᳳ᳈ᇚ䖒ࠄ਼↣100ˈ000 ϾᦤѸ䞣Ǆᑌ䖤ⱘᰃˈ䖭ѯ䆄ᔩⳌᔧㅔऩˈ㗠Ϩ೼ݙᆍϞᰃϔ㟈ⱘˈ಴ℸ䗖ড়Ѣ㞾ࡼ໘⧚Ǆ 䖭⾡໻ᡍ䞣ᦤѸण䆂ᇚ೼ϟ᭛䅼䆎ǄᦤѸ䖛⿟гᰃ೑䰙⌏ࡼⱘϔ䚼ߚؐˈᕫ⊼ᛣⱘᰃˈ৥ϝ Ͼ೑䰙ᗻण԰᭄᥂ᑧЁⱘӏϔϾᦤѸⱘ䆄ᔩ˄খ㾕㄀Ѡゴ೒2.1˅޴ৢ໽䛑ᇚ೼঺ϸϾ᭄᥂ᑧ Ёߎৢ✊ˈ⦃䖭ѯᑣ߫䆄ᔩᇚ㹿䆌໮ⷨお㒘੠ⷨおЁᖗӴ䗕ࠄϪ⬠㣗ೈˈ݊Ё᳝ѯⷨお㗙ݡ Ḑᓣ࣪䖭ѯ䆄ᔩҹ䗖ড়ҪӀⱘ᭄᥂ᑧ੠ҪӀⱘ⿟ᑣՓ⫼˄՟བˈGCG,খ㾕㄀ಯゴ˅ˈ಴ℸҙ ҙᦤѸᑣ᭄߫᥂ࠄ䖭ϝϾ᭄᥂ᑧПϔˈⷨお㗙Ӏ㛑໳䙓ܡ㒭䖭ϝϾഄᮍⱘ᭄᥂ᑧ㓈ᡸҎਬᏺ ᴹӏԩৃ㛑ⱘ䞡໡Ꮉ԰ˈ㗠Ϩг㛑䙓ܡথᏗ໮ԭⱘ䆄ᔩǄৠḋⱘˈ໻໮᭄ᳳߞ䛑Ꮰᳯ೼ϔ㆛ ᭛ゴЁᦤߎⱘ᠔᳝Ḍ㣋䝌ᑣ߫ˈᇚ㹿⬅೑䰙ᗻⱘण԰᭄᥂ᑧПϔᦤկⱘࡴܹোⷕ᠔偠䆕ˈ㗠 Ϩ䖭ᇍ䆹᭛ゴᴹ䇈݋᳝ḌᖗⱘᛣНǄ˄খ㾕㄀ゴ੠㄀ゴ˅Ǆ ˛ܓાࠄᦤѸ 䖛এⷨお㗙ᇚ᭄᥂ᦤѸࠄાϔϾ⡍ᅮⱘ᭄᥂ᑧձ䌪ѢҪӀᛇ㽕থ㸼᭛ゴⱘᳳߞˈ㱑✊⦄೼ϔ ѯᳳߞҡ✊ϡড়䗖ⱘᣛߎϔϾأ⠅ⱘ᭄᥂ᑧˈԚ䖭ϡݡᰃℷ⹂ⱘњˈⷨお㗙ᑨ䆹ᦤѸࠄ᳔ᮍ ֓ⱘ᭄᥂ᑧǄ䖭ৃ㛑ᰃഄ⧚Ϟ᳔䖥ⱘ᭄᥂ᑧ˄՟བˈབᵰ䳔㽕ϔ⃵⬉䆱Ӯ䇜ⱘ䆱˅˗гৃ㛑 ᰃ㒣ᐌᦤѸⱘ᭄᥂ᑧ˗៪㗙ৃ㛑ҙᰃ಴Ў೼䙷䞠ᦤѸৃ㛑ᕫࠄ໮᳔ⱘ⊼ᛣǄ䖭ϝϾ᭄᥂ᑧ䛑 ᳝ⶹ䆚ЄᆠⱘҎਬᴹᐂࡽᦤѸ㗙ᅠ៤ᭈϾᦤѸ䖛⿟Ǆ೼䗮ᐌⱘᚙމϟˈϔϾᎹ԰᮹ݙᇚӮড 作ಲᴹϔϾࡴܹোⷕˈ㗠䆄ᔩⱘᅠ៤ᇚ䳔㽕510໽ⱘᯊ䯈ˈ݊ᅲ䰙䭓ⷁᇚձ䌪Ѣ䙷ϾᎹ԰ ਼ⱘ㐕ᖭ⿟ᑺ੠ᦤѸⱘᑣ߫ⱘ⢊ᗕǄ ㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ 义ⷕˈ1/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十四章提交DNA序列到数据库页码,2/2 日前,假设所有的序列记录提交都通过电子方式:例如通过互联网,通过电子邮件,或者 (最起码)通过常规方式邮寄一张计算机磁盘。供电子方式提交的URLs和Emai|地址列于本章末尾,这两种提交方式取代了早期使用的授权软件的方法,该方法现在已经过时了。不过通过授权软件来提交仍然可被接受(在本文出版时),但是使用授权软件的提交者应该注意其局限性和可以选择更好的方法提交什么内容? 这三个数据库都需要同样的最终结果:充分注解的、具生物学意义的、便于计算的良好记录,该记录允许其他科学家利用提交该记录的生物学家已获得的工作成果,并且提供了与蛋白质、参考文献和基因组数据库(参见第5章)的联系。这些数据库是所有通过实验获得的序列的宝库,因此最新测序的mRNA或基因区域的序列可以提交到某个数据库,其工作人员将协助提交者提供足够的信息以使该序列对其他研究者有使用价值。一套丰富的生物特征和其他注解是可得到的,但其中重要的部分无疑是那些可用于分析的内容。这些部分包括核苷酸和蛋白质序列:CDS(编码序列,又称编码区)、基因、mRNA特征(如:表现分子生物学中心法则的特征);序列得以确定的生物;以及关于参考文献的引用,这些引用将此序列连接到有关的信息领域并将给出证明该序列存在的实验细节 DNA/RNA 提交的过程相当简单,但必须小心谨慎,才能提供准确(无错误和无载体污染)和生物学上尽量良好的信息,以保证其得到科学界的最充分利用。无论提交形式如何,在开始提交以前,都要解决以下几个问题序列的性质该序列来源于基因组还是mRNA?数据库的用户想知道被测序的DNA分子的来源。例如:尽管 CDNA是在DNA(不是RNA)上进行测序的,在细胞中的分子表现型却是mRNA。同样对于rRNA基因的基因组测序而言,测序的分子几乎全都是DNA分子。将rRNA复制成DNA,就象直接对rRNA 测序一样,尽管是可能的,但很少这样做。记住:既然被提交的基因必须有独特的分子类型,它就不会表现出(例如)一种基因组和mRNA分子的混合类型,否则实际上不会从一个活细胞中提取出来。序列是合成的,但不是人造的吗? 合成分子在核苷酸数据库中有一个特殊的分类,在此环境中,序列被按照实验排列,而这在自然环境中是不会出现的(如:蛋白质表达的载体序列)。DNA数据库不接受计算机产生的尸列(如:同源序列),在数据库中的所有序列都是从有问题的实际分子序列中通过实验获得的,但是它们可以被汇聚成测序训练猎枪序列有多精确? 在数据库文献中很少提到这个问题,但假设被提交的序列尽可能精确,这通常意味着整个提交序列至少包括两相覆盖域(相反方向)。证实最终提交的序列也同样重要,它必须无载体的污染(这可以用在载体数据库中 BLASTN查寻证实:参见其后的第7章),可以以已知的限制图谱检验,消除序列重组的可能性,或确认正确的序列集合。生物体给每条记录分配正确的生物是至关重要的,尽管在大多数情况下这是很容易做到的。所有的 DNA序列记录必须有一个生物分配给它们,从数据库中的记录出现在系统发生树上的位置可以得到许多推论。如果它们被错误的安置了,可能会翻译错误的遗传密码,并产生被错误截取 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18

Ⳃࠡˈ؛䆒᠔᳝ⱘᑣ߫䆄ᔩᦤѸ䛑䗮䖛⬉ᄤᮍᓣ˖՟བ䗮䖛Ѧ㘨㔥ˈ䗮䖛⬉ᄤ䚂ӊˈ៪㗙 ˄᳔䍋ⷕ˅䗮䖛ᐌ㾘ᮍᓣ䚂ᆘϔᓴ䅵ㅫᴎ⺕ⲬǄկ⬉ᄤᮍᓣᦤѸⱘURLs੠E_mailഄഔ߫Ѣᴀ ゴ᳿ሒ, 䖭ϸ⾡ᦤѸᮍᓣপҷњᮽᳳՓ⫼ⱘᥜᴗ䕃ӊⱘᮍ⊩ˈ䆹ᮍ⊩⦄೼Ꮖ㒣䖛ᯊњǄϡ䖛䗮䖛ᥜᴗ䕃ӊᴹᦤѸҡ✊ৃ㹿᥹ফ˄೼ᴀ᭛ߎ⠜ᯊ˅ˈԚᰃՓ⫼ᥜᴗ䕃ӊⱘᦤѸ㗙ᑨ䆹⊼ᛣ ݊ሔ䰤ᗻ੠ৃҹ䗝ᢽ᳈དⱘᮍ⊩Ǆ ᦤѸҔМݙᆍ˛ 䖭ϝϾ᭄᥂ᑧ䛑䳔㽕ৠḋⱘ᳔㒜㒧ᵰ˖ߚܙ⊼㾷ⱘǃ݋⫳⠽ᄺᛣНⱘǃ֓Ѣ䅵ㅫⱘ㡃ད䆄 ᔩˈ䆹䆄ᔩܕ䆌݊Ҫ⾥ᄺᆊ߽⫼ᦤѸ䆹䆄ᔩⱘ⫳⠽ᄺᆊᏆ㦋ᕫⱘᎹ԰៤ᵰˈᑊϨᦤկњϢ㲟 ⱑ䋼ǃখ㗗᭛⤂੠෎಴㒘᭄᥂ᑧ˄খ㾕㄀ゴ˅ⱘ㘨㋏Ǆ䖭ѯ᭄᥂ᑧᰃ᠔᳝䗮䖛ᅲ偠㦋ᕫⱘᑣ ߫ⱘᅱᑧˈ಴ℸ᳔ᮄ⌟ᑣⱘmRNA៪෎಴ऎඳⱘᑣ߫ৃҹᦤѸࠄᶤϾ᭄᥂ᑧˈ݊Ꮉ԰Ҏਬᇚण ࡽᦤѸ㗙ᦤկ䎇໳ⱘֵᙃҹՓ䆹ᑣ߫ᇍ݊Ҫⷨお㗙᳝Փ⫼ӋؐǄϔ༫Єᆠⱘ⫳⠽⡍ᕕ੠݊Ҫ ⊼㾷ᰃৃᕫࠄⱘˈԚ݊Ё䞡㽕ⱘ䚼ߚ᮴⭥ᰃ䙷ѯৃ⫼ѢߚᵤⱘݙᆍǄ䖭ѯ䚼ࣙߚᣀḌ㣋䝌੠ 㲟ⱑ䋼ᑣ߫˖CDS˄㓪ⷕᑣ߫ˈজ⿄㓪ⷕऎ˅ǃ෎಴ǃmRNA⡍ᕕ˄བ˖㸼⦄ߚᄤ⫳⠽ᄺЁᖗ⊩ ߭ⱘ⡍ᕕ˅˗ᑣ߫ᕫҹ⹂ᅮⱘ⫳⠽˗ҹঞ݇Ѣখ㗗᭛⤂ⱘᓩ⫼ˈ䖭ѯᓩ⫼ᇚℸᑣ߫䖲᥹ࠄ᳝ ݇ⱘֵᙃ乚ඳᑊᇚ㒭ߎ䆕ᯢ䆹ᑣ߫ᄬ೼ⱘᅲ偠㒚㡖Ǆ DNA/RNA ᦤѸⱘ䖛⿟ⳌᔧㅔऩˈԚᖙ乏ᇣᖗ䇼ᜢˈᠡ㛑ᦤկޚ˄⹂᮴䫭䇃੠᮴䕑ԧ∵ᶧ˅੠⫳⠽ᄺϞ ሑ䞣㡃དⱘֵᙃˈҹֱ䆕݊ᕫࠄ里ᄺ⬠ⱘ᳔߽ߚܙ⫼Ǆ᮴䆎ᦤѸᔶᓣབԩˈ೼ᓔྟᦤѸҹ ࠡˈ䛑㽕㾷އҹϟ޴Ͼ䯂乬Ǆ ᑣ߫ⱘᗻ䋼䆹ᑣ߫ᴹ⑤Ѣ෎಴㒘䖬ᰃmRNA˛᭄᥂ᑧⱘ⫼᠋ᛇⶹ䘧㹿⌟ᑣⱘDNAߚᄤⱘᴹ⑤Ǆ՟བ˖ሑㅵ cDNAᰃ೼DNA˄ϡᰃRNA˅Ϟ䖯㸠⌟ᑣⱘˈ೼㒚㚲Ёⱘߚᄤ㸼⦄ൟैᰃmRNAǄৠḋᇍѢrRNA෎ ಴ⱘ෎಴㒘⌟ᑣ㗠㿔ˈ⌟ᑣⱘߚᄤ޴Тܼ䛑ᰃDNAߚᄤǄᇚrRNA໡ࠊ៤DNAˈህ䈵Ⳉ᥹ᇍrRNA ⌟ᑣϔḋˈሑㅵᰃৃ㛑ⱘˈԚᕜᇥ䖭ḋخǄ䆄ԣ˖᮶✊㹿ᦤѸⱘ෎಴ᖙ乏᳝⣀⡍ⱘߚᄤ㉏ ൟˈᅗህϡӮ㸼⦄ߎ˄՟བ˅ϔ⾡෎಴㒘੠mRNAߚᄤⱘ⏋ড়㉏ൟˈ৺߭ᅲ䰙ϞϡӮҢϔϾ⌏ 㒚㚲ЁᦤপߎᴹǄ ᑣ߫ᰃড়៤ⱘˈԚϡᰃҎ䗴ⱘ৫˛ ড়៤ߚᄤ೼Ḍ㣋䝌᭄᥂ᑧЁ᳝ϔϾ⡍⅞ⱘߚ㉏ˈ೼ℸ⦃๗Ёˈᑣ߫㹿ᣝ✻ᅲ偠ᥦ߫ˈ㗠䖭೼ 㞾✊⦃๗ЁᰃϡӮߎ⦃ⱘ˄བ˖㲟ⱑ䋼㸼䖒ⱘ䕑ԧᑣ߫˅ǄDNA᭄᥂ᑧϡ᥹ফ䅵ㅫᴎѻ⫳ⱘᑣ ߫˄བ˖ৠ⑤ᑣ߫˅ˈ೼᭄᥂ᑧЁⱘ᠔᳝ᑣ߫䛑ᰃҢ᳝䯂乬ⱘᅲ䰙ߚᄤᑣ߫Ё䗮䖛ᅲ偠㦋ᕫ ⱘˈԚᰃᅗӀৃҹ㹿∛㘮៤⌟ᑣ䆁㒗⣢ᵾǄ ᑣ᳝߫໮㊒⹂˛ ೼᭄᥂ᑧ᭛⤂Ёᕜᇥᦤࠄ䖭Ͼ䯂乬ˈԚ؛䆒㹿ᦤѸⱘᑣ߫ሑৃ㛑㊒⹂ˈ䖭䗮ᐌᛣੇⴔᭈϾᦤ Ѹᑣ߫㟇ᇥࣙᣀϸⳌ㽚Ⲫඳ˄Ⳍডᮍ৥˅Ǆ䆕ᅲ᳔㒜ᦤѸⱘᑣ߫гৠḋ䞡㽕ˈᅗᖙ乏᮴䕑ԧ ⱘ∵ᶧ˄䖭ৃҹ⫼೼䕑ԧ᭄᥂ᑧЁBLASTNᶹᇏ䆕ᅲ˖খ㾕݊ৢⱘ㄀ゴ˅ˈৃҹҹᏆⶹⱘ䰤ࠊ ೒䈅Ẕ偠ˈ⍜䰸ᑣ߫䞡㒘ⱘৃ㛑ᗻˈ៪⹂䅸ℷ⹂ⱘᑣ߫䲚ড়Ǆ ⫳⠽ԧ 㒭↣ᴵ䆄ᔩߚ䜡ℷ⹂ⱘ⫳⠽ᰃ㟇݇䞡㽕ⱘˈሑㅵ೼໻໮᭄ᚙމϟ䖭ᰃᕜᆍᯧࠄخⱘǄ᠔᳝ⱘ DNAᑣ߫䆄ᔩᖙ乏᳝ϔϾ⫳⠽ߚ䜡㒭ᅗӀˈҢ᭄᥂ᑧЁⱘ䆄ᔩߎLTD೼⦃㒳থ⫳ᷥϞⱘԡ㕂ৃҹ ᕫࠄ䆌໮᥼䆎ǄབᵰᅗӀ㹿䫭䇃ⱘᅝ㕂њˈৃ㛑Ӯ㗏䆥䫭䇃ⱘ䘫Ӵᆚⷕˈᑊѻ⫳㹿䫭䇃៾প ㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ 义ⷕˈ2/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十四章提交DNA序列到数据库页码,3/2 的蛋白质产物序列。已经知道的基因和物种的种类足可以使数据库成员识别生物和其谱系。 NCBI提供了一个重要的分类服务,分类学家维护能用于所有核苷酸数据库和 Swi ss-Prot蛋白质数据库的分类法。引用注解即使再好,也永远比不上一篇充分阐述生物学的已发表文章,因此,有必要保证正确链接研究出版物和它将引用的原始数据。基于此理由,提交中准备好引用是很重要的,即使其中只有作者的临时列表和工作标题。在出版时更新这些引用对于记录的价值也很重要。(这由数据库成员惯例的执行,而且如果提交者在发表文章以前通知数据库成员,将执行得更快) 编码序列核苷酸序列的提交也意味着包括其编码的蛋白质序列,这是因为: 1.蛋白质数据库(如: Swi ss-Prot和PR)几乎完全由在DNA序列数据库中记录的蛋白质序列所组成 2.在提交过程中包括蛋白质序列如果不是必需的话,也是重要和有效一步。蛋白质包括执行我们研究的许多生物反应的酶分子,其序列数据是提交中的固有部分,它们的重要性(在第6章中概述)也在提交过程中体现出来,在各种数据库中其信息作为代表性必须被捕获。如果已知的话,蛋白质产物和基因的名称也很重要,有各种各样的资源(许多在总结这些章节的列表中有描述)为给定的生物提供准确的命名系统。(参见“基因命名指导,基因趋势”,1995, EI sevier。) 编码序列特征,或CDS,是DNA或RNA和蛋白质序列的联系,随同正确的翻译表一起,在有效性中其正确定位占据了中心位置。核苷酸数据库现在用了13种不同遗传密码(参见章末的列表),这些遗传密码由NCB|中的分类学和分子生物工作人员维护。由于蛋白质序列是如此重要,它们是生物学家可以计算的主要分子生物信息资源之一,它们理所当然地得到各种数据库成员的重视。在mRNA中正确地找到开放的读框架通常是很简单的(参见第10章),并且有多种工具可供利用[如:NCB的0RF查找器(见章末列表)],而且在 Sequi n中是作为一个函数 (如下);从一个较高级的真核生物获得正确的CDS间隔就不那么容易了:必须连接不同的外显子序列,这涉及许多方法,在第10章中有介绍(如果给定蛋白质序列和正确的遗传密码的话, Sequi n中的推荐间隔函数可以计算cDS间隔)。在提交中包括什么内容将由数据库工作人员来决定,更恰当地说,这受到所使用的提交工具的限制,如通过互联网或 Sequi n。有效性检查包含CDS间隔中的起始和终止密码子,该间隔具有合法的外显子/内含子一致边界,用合适的遗传密码可将提供的氨基酸序列从指定的CDS中转换出来。其他特征在提交序列记录的特征部分还有许多其它特征,并且其中许多特征将扩充记录内容。在特征表文件中描述了完整的特征集,该文件可以WW方式取得或通过匿名FTP获得 PostScri pt文件。尽管有许多特征可供利用,但在数据库中却有许多不一致的用法,主要原因是缺乏一致的原则和生物学家们对它们究竟意味着什么看法很不相同。正确地获得生物、书目、基因 CDS、mRNA通常就足以并且有助于证实序列,使生物学家通过几行文字就能获得生物学的内容。只要应用恰当,一个特征表文件是可以利用的,但要注意文件注解的意图种群、系统发生、变异的研究现在核苷酸数据库可接受种群、系统发生、变异的硏究作为提交的序列集,尽管在简单文件 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18

ⱘ㲟ⱑ䋼ѻ⠽ᑣ߫ǄᏆ㒣ⶹ䘧ⱘ෎಴੠⠽⾡ⱘ⾡㉏䎇ৃҹՓ᭄᥂ᑧ៤ਬ䆚߿⫳⠽੠݊䈅㋏Ǆ NCBIᦤկњϔϾ䞡㽕ⱘߚ㉏᳡ࡵˈߚ㉏ᄺᆊ㓈ᡸ㛑⫼Ѣ᠔᳝Ḍ㣋䝌᭄᥂ᑧ੠Swiss-Prot㲟ⱑ 䋼᭄᥂ᑧⱘߚ㉏⊩Ǆ ᓩ⫼ ⊼㾷ेՓݡདˈг∌䖰↨ϡϞϔ㆛ߚܙ䯤䗄⫳⠽ᄺⱘᏆথ㸼᭛ゴˈ಴ℸˈ᳝ᖙ㽕ֱ䆕ℷ⹂䫒 ᥹ⷨおߎ⠜⠽੠ᅗᇚᓩ⫼ⱘॳྟ᭄᥂Ǆ෎Ѣℸ⧚⬅, ᦤѸЁޚ໛དᓩ⫼ᰃᕜ䞡㽕ⱘˈेՓ݊ Ёা᳝԰㗙ⱘЈᯊ߫㸼੠Ꮉ԰ᷛ乬Ǆ೼ߎ⠜ᯊ᳈ᮄ䖭ѯᓩ⫼ᇍѢ䆄ᔩⱘӋؐгᕜ䞡㽕Ǆ˄䖭 ⬅᭄᥂ᑧ៤ਬᛃ՟ⱘᠻ㸠ˈ㗠ϨབᵰᦤѸ㗙೼থ㸼᭛ゴҹࠡ䗮ⶹ᭄᥂ᑧ៤ਬˈᇚᠻ㸠ᕫ᳈ ᖿ˅Ǆ 㓪ⷕᑣ߫ Ḍ㣋䝌ᑣ߫ⱘᦤѸгᛣੇⴔࣙᣀ݊㓪ⷕⱘ㲟ⱑ䋼ᑣ߫ˈ䖭ᰃ಴Ў˖ 1. 㲟ⱑ䋼᭄᥂ᑧ˄བ˖Swiss-Prot੠PIR˅޴Тᅠܼ⬅೼DNAᑣ᭄߫᥂ᑧЁ䆄ᔩⱘ㲟ⱑ䋼ᑣ߫ ᠔㒘៤Ǆ 2. ೼ᦤѸ䖛⿟Ёࣙᣀ㲟ⱑ䋼ᑣ߫བᵰϡᰃᖙ䳔ⱘ䆱, гᰃ䞡㽕੠᳝ᬜϔℹǄ 㲟ⱑ䋼ࣙᣀᠻ㸠៥Ӏⷨおⱘ䆌໮⫳⠽ডᑨⱘ䝊ߚᄤˈ݊ᑣ᭄߫᥂ᰃᦤѸЁⱘ೎᳝䚼ߚˈᅗӀ ⱘ䞡㽕ᗻ˄೼㄀ゴЁὖ䗄˅г೼ᦤѸ䖛⿟Ёԧ⦄ߎᴹˈ೼৘⾡᭄᥂ᑧЁֵ݊ᙃ԰Ўҷ㸼ᗻᖙ 乏㹿ᤩ㦋ǄབᵰᏆⶹⱘ䆱, 㲟ⱑ䋼ѻ⠽੠෎಴ⱘৡ⿄гᕜ䞡㽕ˈ᳝৘⾡৘ḋⱘ䌘⑤˄䆌໮೼ ᘏ㒧䖭ѯゴ㡖ⱘ߫㸼Ё᳝ᦣ䗄˅Ў㒭ᅮⱘ⫳⠽ᦤկޚ⹂ⱘੑৡ㋏㒳Ǆ˄খ㾕Ā෎಴ੑৡᣛ ᇐˈ෎಴䍟࢓āˈ1995ˈElsevierǄ˅ 㓪ⷕᑣ߫⡍ᕕˈ៪CDSˈᰃDNA៪RNA੠㲟ⱑ䋼ᑣ߫ⱘ㘨㋏ˈ䱣ৠℷ⹂ⱘ㗏䆥㸼ϔ䍋, ೼᳝ᬜᗻ Ё݊ℷ⹂ᅮԡऴ᥂њЁᖗԡ㕂ǄḌ㣋䝌᭄᥂ᑧ⦄೼⫼њ13⾡ϡৠ䘫Ӵᆚⷕ˄খ㾕ゴ᳿ⱘ߫ 㸼˅ˈ䖭ѯ䘫Ӵᆚⷕ⬅NCBIЁⱘߚ㉏ᄺ੠ߚᄤ⫳⠽Ꮉ԰Ҏਬ㓈ᡸǄ⬅Ѣ㲟ⱑ䋼ᑣ߫ᰃབℸ䞡㽕ˈᅗӀᰃ⫳⠽ᄺᆊৃҹ䅵ㅫⱘЏ㽕ߚᄤ⫳⠽ֵᙃ䌘⑤ПϔˈᅗӀ⧚᠔ᔧ✊ഄᕫࠄ辵৘᭄᥂ ᑧ៤ਬⱘ䞡㾚Ǆ೼mRNAЁℷ⹂ഄᡒࠄᓔᬒⱘ䇏Ḛᶊ䗮ᐌᰃᕜㅔऩⱘ˄খ㾕㄀10ゴ˅, ᑊϨ᳝ ໮⾡Ꮉ݋ৃկ߽ ] ⫼བ˖NCBIⱘORFᶹᡒ఼㾕ゴ᳿߫㸼)]ˈ㗠Ϩ೼SequinЁᰃ԰ЎϔϾߑ᭄ ˄བϟ˅˗ҢϔϾ䕗催㑻ⱘⳳḌ⫳⠽㦋ᕫℷ⹂ⱘCDS䯈䱨ህϡ䙷Мᆍᯧњ˖ᖙ乏䖲᥹ϡৠⱘ໪ ᰒᄤᑣ߫ˈ䖭⍝ঞ䆌໮ᮍ⊩ˈ೼㄀10ゴЁ᳝ҟ㒡བᵰ㒭ᅮ㲟ⱑ䋼ᑣ߫੠ℷ⹂ⱘ䘫Ӵᆚⷕⱘ 䆱, SequinЁⱘ᥼㤤䯈䱨ߑ᭄ৃҹ䅵ㅫCDS䯈䱨Ǆ೼ᦤѸЁࣙᣀҔМݙᆍᇚ⬅᭄᥂ᑧᎹ԰Ҏ ਬᴹއᅮ, ᳈ᙄᔧഄ䇈, 䖭ফࠄ᠔Փ⫼ⱘᦤѸᎹ݋ⱘ䰤ࠊ ,བ䗮䖛Ѧ㘨㔥៪SequinǄ᳝ᬜᗻ Ẕᶹࣙ৿CDS䯈䱨Ёⱘ䍋ྟ੠㒜ℶᆚⷕᄤˈ䆹䯈䱨݋᳝ড়⊩ⱘ໪ᰒᄤݙ৿ᄤϔ㟈䖍⬠ˈ⫼ড় 䗖ⱘ䘫Ӵᆚⷕৃᇚᦤկⱘ⇼෎䝌ᑣ߫ҢᣛᅮⱘCDSЁ䕀ᤶߎᴹǄ ݊Ҫ⡍ᕕ ೼ᦤѸᑣ߫䆄ᔩⱘ⡍ᕕ䚼ߚ䖬᳝䆌໮݊ᅗ⡍ᕕˈᑊϨ݊Ё䆌໮⡍ᕕᇚᠽܙ䆄ᔩݙᆍǄ೼⡍ᕕ 㸼᭛ӊЁᦣ䗄њᅠᭈⱘ⡍ᕕ䲚ˈ䆹᭛ӊৃҹWWWᮍᓣপᕫ៪䗮䖛ओৡFTP㦋ᕫPostScript ᭛ ӊǄሑㅵ᳝䆌໮⡍ᕕৃկ߽ˈ⫼Ԛ೼᭄᥂ᑧЁै᳝䆌໮ϡϔ㟈ⱘ⫼⊩ˈЏ㽕ॳ಴ᰃ㔎Уϔ㟈 ⱘॳ߭੠⫳⠽ᄺᆊӀᇍᅗӀおコᛣੇⴔҔМⳟ⊩ᕜϡⳌৠǄℷ⹂ഄ㦋ᕫ⫳⠽ǃкⳂǃ෎಴ǃ CDSǃmRNA䗮ᐌህ䎇ҹᑊϨ᳝ࡽѢ䆕ᅲᑣ߫ˈՓ⫳⠽ᄺᆊ䗮䖛޴㸠᭛ᄫህ㛑㦋ᕫ⫳⠽ᄺⱘݙ ᆍǄা㽕ᑨ⫼ᙄᔧˈϔϾ⡍ᕕ㸼᭛ӊᰃৃҹ߽⫼ⱘˈԚ㽕⊼ᛣ᭛ӊ⊼㾷ⱘᛣ೒Ǆ ⾡㕸ǃ㋏㒳থ⫳ǃবᓖⱘⷨお ⦄೼Ḍ㣋䝌᭄᥂ᑧৃ᥹ফ⾡㕸ǃ㋏㒳থ⫳ǃবᓖⱘⷨお԰ЎᦤѸⱘᑣ߫䲚ˈሑㅵ೼ㅔऩ᭛ӊ ㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ 义ⷕˈ3/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十四章提交DNA序列到数据库页码,4/2 记录中并没有充分描述该信息,但它却在各种各样的数据库中出现。新型的提交方式允许: 若仅因为操作的原因,一起提交一组相关序列,那么获得共享信息入口只需要一次请求 Sequi n也允许用户包含有用自己中意的比对工具生成的序列比对结果,并随着DNA序列提交该信息。尽管所有的数据库都知道该信息对于目前获得的大量记录很重要,但是NCB|是唯一接受该信息的数据库。显示该信息的新方法(如: Entrez)应尽快能使一般科学团体更易获得这种数据。仅提交蛋白质序列在大多数情况下,蛋白质序列和DNA序列并存,但也有些例外人们直接处理蛋白质序列 这些序列必须在没有相应的DNA序列的情况下提交。对于这些提交而言,目前SWSS-PROT 是最好的地方,EB处理这些提交,并将其传送到SWSS-PROT。如何提交到互联网 Authori n利用率的下降使这三个数据库决定在互联网上采用基于表格的方式,这个新的媒介能很好的适应提交过程。三个数据库都设计了一种表格,以使DNA序列提交到自身的数据库中:DDBJ的 Sakura(樱花开)、EBl的webn、和 Gen Bank的 Bankl t。互联网是简单提交序列的理想提交途径(如图14.1),也是那些不需要复杂注解和过多重复的提交序列的最佳选择 (如:在种群研究中,很典型的有30条类似的序列,用 Sequin提交最好)。互联网对于那些只做少量提交和要求较少、只需要简单的学习或不需要的研究小组最为理想。对于大多数提交来说,互联网的表格方式将是合适和足够的:60%&#0:80%的提交者通过互联网向NCB|提交其DNA或RNA序列。这三个数据库提交的入口地址(或URLs)在本章末有介绍尽管本章的这部分强调NCBI的Bank|t提交工具,实际上,提交到基本数据库中的任何一个都将使序列获得合理的处理,并存储到另外两个数据库中。进入Bank丨t提交后(图14.2),用户被询问要提交的核苷酸序列长度。这是由于Ww浏览器的局限性,使得在一个给定的窗口不可能输入29,000个核苷酸(字符)。如果必须提交40, 000条碱基对(人们提交的粘性质粒的通常大小), Bankl:将打开两个窗口,故通过每个窗口复制和输入20,000个字符,这样就解决了这个矛盾。图14.1:决定采用哪种协议提交DNA序列到某一DNA序列数据库的流程图。WW是Bank|t Webl n,或 Sakura。其URLs和电子邮件地址,请参见本章末的列表图14.2 图14.2: Bankl t, Gen Bank互联网的提交网页。新提交序列的进入点(输入序列长度,并按 New按钮)或更新 GenBank数据库中的一条记录。 Bankl t的下一张表格也是明了的(图14.3),它询问联系人(即回答数据库工作人员询问的人),引用(谁得到了科学荣誉),生物(前100个在列表中,其余的必须输入),位置(细胞还是细胞器),一些图谱信息和核苷酸序列本身。在列表末,有个 Bankl t按钮,能激活下 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18

䆄ᔩЁᑊ≵᳝ߚܙᦣ䗄䆹ֵᙃˈԚᅗै೼৘⾡৘ḋⱘ᭄᥂ᑧЁߎ⦃ǄᮄൟⱘᦤѸᮍᓣܕ䆌˖ 㢹ҙ಴Ў᪡԰ⱘॳ಴ˈϔ䍋ᦤѸϔ㒘Ⳍ݇ᑣ߫ˈ䙷М㦋ᕫ݅ѿֵᙃܹষা䳔㽕ϔ⃵䇋∖Ǆ Sequinгܕ䆌⫼᠋ࣙ⫼᳝৿㞾ᏅЁᛣⱘ↨ᇍᎹ݋⫳៤ⱘᑣ߫↨ᇍ㒧ᵰˈᑊ䱣ⴔDNAᑣ߫ᦤѸ䆹 ֵᙃǄሑㅵ᠔᳝ⱘ᭄᥂ᑧ䛑ⶹ䘧䆹ֵᙃᇍѢⳂࠡ㦋ᕫⱘ໻䞣䆄ᔩᕜ䞡㽕ˈԚᰃNCBIᰃଃϔ᥹ ফ䆹ֵᙃⱘ᭄᥂ᑧǄᰒ⼎䆹ֵᙃⱘᮄᮍ⊩˄བ˖Entrez˅ᑨሑᖿ㛑Փϔ㠀⾥ᄺಶԧ᳈ᯧ㦋ᕫ 䖭⾡᭄᥂Ǆ ҙᦤѸ㲟ⱑ䋼ᑣ߫ ೼໻໮᭄ᚙމϟˈ㲟ⱑ䋼ᑣ߫੠DNAᑣ߫ᑊᄬˈԚг᳝ѯ՟໪ҎӀⳈ᥹໘⧚㲟ⱑ䋼ᑣ߫ 䖭ѯᑣ߫ᖙ乏೼≵᳝ⳌᑨⱘDNAᑣ߫ⱘᚙމϟᦤѸǄᇍѢ䖭ѯᦤѸ㗠㿔ˈⳂࠡSWISS-PROT ᰃ᳔དⱘഄᮍˈEBI໘⧚䖭ѯᦤѸˈᑊᇚ݊Ӵ䗕ࠄSWISS-PROTǄ བԩᦤѸࠄѦ㘨㔥 Authorin߽⥛⫼ⱘϟ䰡Փ䖭ϝϾ᭄᥂ᑧއᅮ೼Ѧ㘨㔥Ϟ䞛⫼෎Ѣ㸼Ḑⱘᮍᓣˈ䖭Ͼᮄⱘၦҟ 㛑ᕜདⱘ䗖ᑨᦤѸ䖛⿟ǄϝϾ᭄᥂ᑧ䛑䆒䅵њϔ⾡㸼ḐˈҹՓDNAᑣ߫ᦤѸࠄ㞾䑿ⱘ᭄᥂ᑧ Ё˖DDBJⱘSakura( 㢅ᓔǃEBIⱘWebInǃ੠GenBankⱘBankItǄѦ㘨㔥ᰃㅔऩᦤѸᑣ߫ⱘ⧚ ᛇᦤѸ䗨ᕘ˄བ೒14.1˅ˈгᰃ䙷ѯϡ䳔㽕໡ᴖ⊼㾷੠䖛໮䞡໡ⱘᦤѸᑣ߫ⱘ᳔Շ䗝ᢽ ˄བ˖೼⾡㕸ⷨおЁˈᕜ݌ൟⱘ᳝30ᴵ㉏Ԑⱘᑣ߫ˈ⫼SequinᦤѸ᳔ད˅ǄѦ㘨㔥ᇍѢ䙷ѯ াخᇥ䞣ᦤѸ੠㽕∖䕗ᇥǃা䳔㽕ㅔऩⱘᄺд៪ϡ䳔㽕ⱘⷨおᇣ㒘᳔Ў⧚ᛇǄᇍѢ໻໮᭄ᦤ Ѹᴹ䇈ˈѦ㘨㔥ⱘ㸼Ḑᮍᓣᇚᰃড়䗖੠䎇໳ⱘ˖60%80%ⱘᦤѸ㗙䗮䖛Ѧ㘨㔥৥NCBIᦤѸ ݊DNA៪RNAᑣ߫Ǆ䖭ϝϾ᭄᥂ᑧᦤѸⱘܹষഄഔ˄៪URLs˅೼ᴀゴ᳿᳝ҟ㒡Ǆ ሑㅵᴀゴⱘ䖭䚼ߚᔎ䇗NCBIⱘBankItᦤѸᎹ݋ˈᅲ䰙ϞˈᦤѸࠄ෎ᴀ᭄᥂ᑧЁⱘӏԩϔϾ䛑 ᇚՓᑣ߫㦋ᕫড়⧚ⱘ໘⧚ˈᑊᄬࠄټ໪঺ϸϾ᭄᥂ᑧЁǄ 䖯ܹBankItᦤѸৢ˄೒14.2˅ˈ⫼᠋㹿䆶䯂㽕ᦤѸⱘḌ㣋䝌ᑣ߫䭓ᑺǄ䖭ᰃ⬅ѢWWW⌣㾜఼ⱘ ሔ䰤ᗻˈՓᕫ೼ϔϾ㒭ᅮⱘにষϡৃ㛑䕧ܹ29ˈ000ϾḌ㣋䝌˄ᄫヺ˅Ǆབᵰᖙ乏ᦤѸ40ˈ 000ᴵ⺅෎ᇍ˄ҎӀᦤѸⱘ㉬ᗻ䋼㉦ⱘ䗮ᐌ໻ᇣ˅ˈBankItᇚᠧᓔϸϾにষˈᬙ䗮䖛↣Ͼにষ ໡ࠊ੠䕧ܹ20ˈ000Ͼᄫヺˈ䖭ḋህ㾷އњ䖭Ͼ⶯ⳒǄ ೒14.1˖އᅮ䞛⫼ા⾡ण䆂ᦤѸDNAᑣ߫ࠄᶤϔDNAᑣ᭄߫᥂ᑧⱘ⌕⿟೒ǄWWWᰃBankItˈ WebInˈ៪SakuraǄ݊URLs੠⬉ᄤ䚂ӊഄഔˈ䇋খ㾕ᴀゴ᳿ⱘ߫㸼Ǆ ೒14.2 ೒14.2˖BankIt, GenBankѦ㘨㔥ⱘᦤѸ㔥义ǄᮄᦤѸᑣ߫ⱘ䖯ܹ⚍˄䕧ܹᑣ߫䭓ᑺˈᑊᣝ Newᣝ䪂˅៪᳈ᮄGenBank᭄᥂ᑧЁⱘϔᴵ䆄ᔩǄ BankItⱘϟϔᓴ㸼Ḑгᰃᯢњⱘ˄೒14.3˅ˈᅗ䆶䯂㘨㋏Ҏ˄ेಲㄨ᭄᥂ᑧᎹ԰Ҏਬ䆶䯂ⱘ Ҏ˅ˈᓩ⫼˄䇕ᕫࠄњ⾥ᄺ㤷䁝˅ˈ⫳⠽˄ࠡ100Ͼ೼߫㸼Ёˈ݊ԭⱘᖙ乏䕧ܹ˅ˈԡ㕂˄㒚㚲䖬ᰃ㒚㚲఼˅ˈϔѯ೒䈅ֵᙃ੠Ḍ㣋䝌ᑣ߫ᴀ䑿Ǆ೼߫㸼᳿ˈ᳝ϾBankItᣝ䪂ˈ㛑▔⌏ϟ ㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ 义ⷕˈ4/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十四章提交DNA序列到数据库页码,6/2 如何用 Sequin提交 Sequi n是设计用来协助科学家准备新序列,更新序列数据的一个程序,利用它将序列数据提交到DDBJ,EMBL和 Gen Bank数据库。这是一个能在绝大多数计算机平台上运行的软件,而且适用于各种序列长度和复杂情况,包括传统的(基因大小)核苷酸序列,分段的记录(如:剪接的基因组,不是所有的内含子序列都已被确定),有许多注解特征的长序列(基因组大小),和各种相关序列(如:对于一个特殊基因、域或滤过性病毒基因的种群、系统发生变异的研究),许多这样的提交能通过互联网执行,但 Sequi n在复杂的情况下更实用。而且特定类型的提交(如:分段类)不能通过Web来完成,除非给数据库工作人员加以明确的指导。 Sequi n也接受以提交的核苷酸酸序列编码的蛋白质序列,允许在这些蛋白质上进行特征的注解(如:信号肽、跨膜区或二硫键)。这与大多数科学家在提交DNA序列时的普遍观点形成鲜明的对比。这里的新概念是蛋白质是直接注解的,而不是编码生成之的DNA的副产物。对于各种相关或是相近的序列(如:种群或系统发生的研究), Sequi n从提交者处获得关于多个序列是如何比对的信息,最终它可以用来编辑和重新提交已存在于 Gen Bank中的记录,不论是延长(或取代)已有的序列,还是注解附加的特征或比对(见下描述)。进入一个新的提交过程 Sequi n有许多性质大大简化了创建和注解一条记录的过程。最神奇的一方面是在只给定核苷酸酸序列,蛋白质产物序列和遗传密码(从生物的名称中自动获得)的情况下,自动计算CDS 特征间隔。这所谓的“建议间隔”过程在计算中考虑了一致的剪接位点。传统上这些间隔是手工输入的,这是一个既耗时又易错的过程,尤其是对于一个在可变剪接或分段时有许多外显子的基因序列。 Sequi n的另一种重要的贡献在于能在序列数据库文件的定义行上以一种简单的格式输入相关注解。在读序列时, Sequi n识别和提取这一信息,并将其放置在记录中合适的位置。对于核苷酸序列,可以输入生物体的科学名称、品系或克隆名称和几个其它的修饰基因。对于蛋白质序列,可以输入基因和蛋白质名称。(如果在定义行上没有这些信息, Sequi n在执行前就会提示用户此信息。定义行的注解是非常方便的,因为信息和序列是在一起的因此以后不容易被遗忘或混淆。)除了组建合适的CDS特征以外, Sequi n将自动利用该信息生成基因和蛋白质特征。由于大多数提交序列包含了一个单独的核苷酸序列和一个或多个编码区域特征(及相关的蛋白质序列),前面概述的功能将频繁地影响一条没有进一步注解时就被提交的记录。由于正确地记录了基因和蛋白质名称,从而使得该记录为其他科学家提供有用信息,他们可能通过一个 BLAST的相似性比对或从 Entrez查找中获得该信息有效性为保证提交数据的质量, Sequin使用一个内建的有效器来查询。例如:丢失的生物体信息, 错误的编码区长度(相对于被提交的蛋白质序列),编码区内部的终止密码子,不匹配的氨基酸或不一致的剪接位点。在错误报告中双击其中一项,在“冲突”特征项中就会出现一个编辑框有效器也检査“局部”指示器的使用是否一致,尤其是在编码区、蛋白质产物和产物的蛋白质特征中的使用。(除非作了相反的设置,否则CDS就会自动的同步这些分散的局部指示器将使纠正这类不一致问题变得很方便。) 观察序列记录 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18

བԩ⫼SequinᦤѸ Sequinᰃ䆒䅵⫼ᴹणࡽ里ᄺᆊޚ໛ᮄᑣ߫ˈ᳈ᮄᑣ᭄߫᥂ⱘϔϾ⿟ᑣˈ߽⫼ᅗᇚᑣ᭄߫᥂ᦤ ѸࠄDDBJˈEMBL੠GenBank᭄᥂ᑧǄ䖭ᰃϔϾ㛑೼㒱໻໮᭄䅵ㅫᴎᑇৄϞ䖤㸠ⱘ䕃ӊˈ㗠Ϩ䗖 ⫼Ѣ৘⾡ᑣ߫䭓ᑺ੠໡ᴖᚙމˈࣙᣀӴ㒳ⱘ˄෎಴໻ᇣ˅Ḍ㣋䝌ᑣ߫ˈߚ0⁄3ⱘ䆄ᔩ˄བ˖࠾ ᥹ⱘ෎಴㒘ˈϡᰃ᠔᳝ⱘݙ৿ᄤᑣ߫䛑Ꮖ㹿⹂ᅮ˅ˈ᳝䆌໮⊼㾷⡍ᕕⱘ䭓ᑣ߫˄෎಴㒘໻ ᇣ˅ˈ੠৘⾡Ⳍ݇ᑣ߫˄བ˖ᇍѢϔϾ⡍⅞෎಴ǃඳ៪Ⓒ䖛ᗻ⮙↦෎಴ⱘ⾡㕸ǃ㋏㒳থ⫳ǃ বᓖⱘⷨお˅ˈ䆌໮䖭ḋⱘᦤѸ㛑䗮䖛Ѧ㘨㔥ᠻ㸠ˈԚSequin ೼໡ᴖⱘᚙމϟ᳈ᅲ⫼Ǆ㗠Ϩ ⡍ᅮ㉏ൟⱘᦤѸ˄བ˖ߚ0⁄3㉏˅ϡ㛑䗮䖛Webᴹᅠ៤ˈ䰸䴲㒭᭄᥂ᑧᎹ԰Ҏਬࡴҹᯢ⹂ⱘᣛ ᇐǄ Sequin г᥹ফҹᦤѸⱘḌ㣋䝌䝌ᑣ߫㓪ⷕⱘ㲟ⱑ䋼ᑣ߫ˈܕ䆌೼䖭ѯ㲟ⱑ䋼Ϟ䖯㸠⡍ᕕⱘ⊼ 㾷˄བ˖ֵো㚑ǃ䎼㝰ऎ៪Ѡ⸿䬂˅Ǆ䖭Ϣ໻໮᭄⾥ᄺᆊ೼ᦤѸDNAᑣ߫ᯊⱘ᱂䘡㾖⚍ᔶ៤剰 ᯢⱘᇍ↨Ǆ䖭䞠ⱘᮄὖᗉᰃ㲟ⱑ䋼ᰃⳈ᥹⊼㾷ⱘˈ㗠ϡᰃ㓪ⷕ⫳៤ПⱘDNAⱘࡃѻ⠽ǄᇍѢ৘ ⾡Ⳍ݇៪ᰃⳌ䖥ⱘᑣ߫˄བ˖⾡㕸៪㋏㒳থ⫳ⱘⷨお˅ˈSequinҢᦤѸ㗙໘㦋ᕫ݇Ѣ໮Ͼᑣ ߫ᰃབԩ↨ᇍⱘֵᙃˈ᳔㒜ᅗৃҹ⫼ᴹ㓪䕥੠䞡ᮄᦤѸᏆᄬ೼ѢGenBankЁⱘ䆄ᔩˈϡ䆎ᰃᓊ 䭓˄៪পҷ˅Ꮖ᳝ⱘᑣ߫ˈ䖬ᰃ⊼㾷䰘ࡴⱘ⡍ᕕ៪↨ᇍ˄㾕ϟᦣ䗄˅Ǆ 䖯ܹϔϾᮄⱘᦤѸ䖛⿟ Sequin᳝䆌໮ᗻ䋼໻໻ㅔ࣪њ߯ᓎ੠⊼㾷ϔᴵ䆄ᔩⱘ䖛⿟Ǆ᳔⼲༛ⱘϔᮍ䴶ᰃ೼া㒭ᅮḌ㣋䝌䝌ᑣ߫ˈ㲟ⱑ䋼ѻ⠽ᑣ߫੠䘫Ӵᆚⷕ˄Ң⫳⠽ⱘৡ⿄Ё㞾ࡼ㦋ᕫ˅ⱘᚙމϟˈ㞾ࡼ䅵ㅫCDS ⡍ᕕ䯈䱨Ǆ䖭᠔䇧ⱘĀᓎ䆂䯈䱨ā䖛⿟೼䅵ㅫЁ㗗㰥њϔ㟈ⱘ࠾᥹ԡ⚍ǄӴ㒳Ϟ䖭ѯ䯈䱨ᰃ ᠟Ꮉ䕧ܹⱘˈ䖭ᰃϔϾ᮶㗫ᯊজᯧ䫭ⱘ䖛⿟ˈᇸ݊ᰃᇍѢϔϾ೼ৃব࠾៪᥹ߚ᳝ᯊ0⁄3䆌໮໪ ᰒᄤⱘ෎಴ᑣ߫Ǆ Sequinⱘ঺ϔ⾡䞡㽕ⱘ䋵⤂೼Ѣ㛑೼ᑣ᭄߫᥂ᑧ᭛ӊⱘᅮН㸠Ϟҹϔ⾡ㅔऩⱘḐᓣ䕧ܹⳌ݇ ⊼㾷Ǆ೼䇏ᑣ߫ᯊˈSequin䆚߿੠ᦤপ䖭ϔֵᙃˈᑊᇚ݊ᬒ㕂೼䆄ᔩЁড়䗖ⱘԡ㕂ǄᇍѢḌ 㣋䝌ᑣ߫ˈৃҹ䕧ܹ⫳⠽ԧⱘ⾥ᄺৡ⿄ǃક㋏៪ܟ䱚ৡ⿄੠޴Ͼ݊ᅗⱘׂ佄෎಴ǄᇍѢ㲟ⱑ 䋼ᑣ߫ˈৃҹ䕧ܹ෎಴੠㲟ⱑ䋼ৡ⿄Ǆ˄བᵰ೼ᅮН㸠Ϟ≵᳝䖭ѯֵᙃˈSequin೼ᠻ㸠ࠡህ Ӯᦤ⼎⫼᠋ℸֵᙃǄᅮН㸠ⱘ⊼㾷ᰃ䴲ᐌᮍ֓ⱘˈ಴Ўֵᙃ੠ᑣ߫ᰃ೼ϔ䍋ⱘ಴ℸҹৢϡᆍ ᯧ㹿䘫ᖬ៪⏋⎚Ǆ˅䰸њ㒘ᓎড়䗖ⱘCDS⡍ᕕҹ໪ˈSequinᇚ㞾߽ࡼ⫼䆹ֵᙃ⫳៤෎಴੠㲟ⱑ 䋼⡍ᕕǄ ⬅Ѣ໻໮᭄ᦤѸᑣ߫ࣙ৿њϔϾऩ⣀ⱘḌ㣋䝌ᑣ߫੠ϔϾ៪໮Ͼ㓪ⷕऎඳ⡍ᕕ˄ঞⳌ݇ⱘ㲟 ⱑ䋼ᑣ߫˅ˈࠡ䴶ὖ䗄ⱘࡳ㛑ᇚ乥㐕ഄᕅડϔᴵ≵᳝䖯ϔℹ⊼㾷ᯊህ㹿ᦤѸⱘ䆄ᔩǄ⬅Ѣℷ ⹂ഄ䆄ᔩњ෎಴੠㲟ⱑ䋼ৡ⿄ˈҢ㗠Փᕫ䆹䆄ᔩЎ݊Ҫ⾥ᄺᆊᦤկ᳝⫼ֵᙃˈҪӀৃ㛑䗮䖛 ϔϾBLASTⱘⳌԐᗻ↨ᇍ៪ҢEntrezᶹᡒЁ㦋ᕫ䆹ֵᙃǄ ᳝ᬜᗻ Ўֱ䆕ᦤѸ᭄᥂ⱘ䋼䞣ˈSequinՓ⫼ϔϾݙᓎⱘ᳝ᬜ఼ᴹᶹ䆶Ǆ՟བ˖϶༅ⱘ⫳⠽ԧֵᙃˈ 䫭䇃ⱘ㓪ⷕऎ䭓ᑺ˄ⳌᇍѢ㹿ᦤѸⱘ㲟ⱑ䋼ᑣ߫˅ˈ㓪ⷕऎݙ䚼ⱘ㒜ℶᆚⷕᄤˈϡऍ䜡ⱘ⇼ ෎䝌៪ϡϔ㟈ⱘ࠾᥹ԡ⚍Ǆ೼䫭䇃᡹ਞЁঠߏ݊Ёϔ乍ˈ೼Āކさā⡍ᕕ乍ЁህӮߎ⦃ϔϾ 㓪䕥ḚǄ ᳝ᬜ఼гẔᶹĀሔ䚼āᣛ⼎఼ⱘՓ⫼ᰃ৺ϔ㟈ˈᇸ݊ᰃ೼㓪ⷕऎǃ㲟ⱑ䋼ѻ⠽੠ѻ⠽ⱘ㲟ⱑ 䋼⡍ᕕЁⱘՓ⫼Ǆ˄䰸䴲԰њⳌডⱘ䆒㕂ˈ৺߭CDSህӮ㞾ࡼⱘৠℹ䖭ѯߚᬷⱘሔ䚼ᣛ⼎఼ˈ ᇚՓ㑴ℷ䖭㉏ϡϔ㟈䯂乬বᕫᕜᮍ֓Ǆ˅ 㾖ᆳᑣ߫䆄ᔩ ㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ 义ⷕˈ6/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十四章提交DNA序列到数据库页码,7/2 SequI n对同一条记录提供了许多不同的视图。传统的简单文件可以出现在 FASTA, Gen Bank.或 EMBL形式中。(它们可以在用户计算机中以文件的方式输出,然后输入其它的序列分析包中。)图像视图显示了序列的特征间隔,这对于观察可变剪接的编码区尤其有意义。(图像视图的风格可以定制,这些视图可以被复制到个人计算机的剪贴板中,粘贴到文字处理器或视图程序中,用于准备出版物的手稿。)有一个视图可以更详细地显示实际序列的特征,对于包含比对的记录(如:由一个用户输入的相关序列或通过 Power blast中查找的比对结果, 参见第7章),用户可以请求一个全图像视图以显示添加、删除和不匹配的情况,或细节视图显示序列字母比对。上述提及的观察者是主动的,单击一个特征、序列或序列比对图片,将会高亮度显示该处。双击会出现一个合适的编辑框,以便多个观察者使用同一条记录,而能够看到不同的形式。例如:可以很方便的使图像视图和 Gen Bank(或EMBL)的简单文件视图同时显示,尤其是对于包含多个CDS的较大记录。图像视图可比做科学家实验室的记事本图片,为特征注解的准确性提供一个快速实用的检查手段先进的注解和编辑功能 Sequi n中的序列编辑器能在编辑序列时自动调节特征间隔,这对于想在已提交的序列记录中加入一段5′端的序列尤为重要。在 Sequi n出现之前,这需要手工添加,并纠正序列中所有生物特征间隔。这样很有可能从草稿开始重做全部提交过程。序列编辑器很象文本编辑器,可在光标所在出处插入或输入一个新的序列。在提交序列中的一个大类包含了多样的相关序列(如:种群、系统发生和变异的研究),如果用户提交了这些序列是如何自身比对的信息,这些记录将会更有指导意义。这种比对可随序列数据(如:以 PHYLIP、 NEXUS或 FASTA+GAP形式)输入或在输入序列以后用 Sequi n计算参见附录中的各种形式的实例。对于这些记录, Sequi n允许给一条序列添加注解,而且该注解可以被复制到其它的序列中。 (若为CDS特征,特征间隔可通过读蛋白质产物序列自动进行计算,而不必全部输入。)为了实现这一方法,选用特征传播的方法(从比对编辑器中),被选中的特征将传播到剩余序列中去,并用比对信息调整特征间隔。这和在每条序列上手工注解特征产生的效果相同。但用特征传播的方法仅需几分钟就能完成全过程,而手工则需几小时特征传播和序列编辑器组合起来为更新一个已经存在的序列提供了简单而且自动的方法。更新序列的功能允许用户输入重叠或替代的序列。 Sequi n设计了比对,在有必要时合并序列, 将特征传播到新序列的新位置,以取代旧序列和旧特征。 Sequi n做为分析平台 Sequi n也提供了许多种序列分析的功能,例如:有一个功能可以反补于序列和特征间隔,也很容易加入新的功能。这些功能在一个称为NCB桌面的窗口中出现,直接显示调入内存的当前记录的内部结构。该窗口可以被理解为一个有描述器的ven图表(参见下述和第6章),此描述器能在一组系统中(如:种群研究)应用于各种序列。在桌面上,用户可以读出 Power BlaST的分析结果,再拖动之将其在一条序列记录上释放,从而向记录中加入比对数据,修改的结果将很快显示在观察者面前。注意:并非所有的注解都能被任何一个观察者看见,简单文件视图有其局限性,例如:它不显示比对, NCB数据模型支持大量的序列集, Sequi n允许为了显示或注解的目的在这些序列集中进行完全的漫游,例如:NuC-Prot类包含一条核苷酸序列和它的蛋白质产物,核苷酸序列可自身分解。在这种情况下,Seg类包含了片段序列和一个 Parts类, Parts类顺序包含每一个片段的原始数据。种群、系统发生和变异可包含多种相关序列或№uC-Prot类。NCB桌面是浏览记录内部结构的最快的方法。 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18

Sequinᇍৠϔᴵ䆄ᔩᦤկњ䆌໮ϡৠⱘ㾚೒ǄӴ㒳ⱘㅔऩ᭛ӊৃҹߎ೼⦃FASTAˈGenBank៪ EMBLᔶᓣЁǄ˄ᅗӀৃҹ೼⫼᠋䅵ㅫᴎЁҹ᭛ӊⱘᮍᓣ䕧ߎৢ✊ˈ䕧ܹ݊ᅗⱘᑣ߫ߚᵤࣙ ЁǄ˅೒ڣ㾚೒ᰒ⼎њᑣ߫ⱘ⡍ᕕ䯈䱨ˈ䖭ᇍѢ㾖ᆳৃব࠾᥹ⱘ㓪ⷕऎᇸ᳝݊ᛣНǄ˄೒ڣ 㾚೒ⱘ亢Ḑৃҹᅮࠊˈ䖭ѯ㾚೒ৃҹ㹿໡ࠄࠊϾҎ䅵ㅫᴎⱘ࠾䌈ᵓЁˈ㉬䌈ࠄ᭛ᄫ໘⧚఼៪ 㾚೒⿟ᑣЁˈ⫼Ѣޚ໛ߎ⠜⠽ⱘ᠟〓Ǆ˅᳝ϔϾ㾚೒ৃҹ᳈䆺㒚ഄᰒ⼎ᅲ䰙ᑣ߫ⱘ⡍ᕕˈᇍ Ѣࣙ↨৿ᇍⱘ䆄ᔩ˄བ˖⬅ϔϾ⫼᠋䕧ܹⱘⳌ݇ᑣ߫៪䗮䖛PowerBLASTЁᶹᡒⱘ↨ᇍ㒧ᵰˈ খ㾕㄀ゴ˅ˈ⫼᠋ৃҹ䇋∖ϔϾܼ೒ڣ㾚೒ҹᰒ⼎⏏ࡴǃߴ䰸੠ϡऍ䜡ⱘᚙމ៪ˈ㒚㡖㾚೒ ᰒ⼎ᑣ߫ᄫ↡↨ᇍǄ Ϟ䗄ᦤঞⱘ㾖ᆳ㗙ᰃЏࡼⱘˈऩߏϔϾ⡍ᕕǃᑣ߫៪ᑣ߫↨ᇍ೒⠛ˈᇚӮ催҂ᑺᰒ⼎䆹໘Ǆ ঠߏӮߎ⦃ϔϾড়䗖ⱘ㓪䕥Ḛˈҹ֓໮Ͼ㾖ᆳ㗙Փ⫼ৠϔᴵ䆄ᔩˈ㗠㛑໳ⳟࠄϡৠⱘᔶᓣǄ ՟བ˖ৃҹᕜᮍ֓ⱘՓ೒ڣ㾚೒੠GenBank˄៪EMBL˅ⱘㅔऩ᭛ӊ㾚೒ৠᯊᰒ⼎ˈᇸ݊ᰃᇍѢ ࣙ໮৿ϾCDSⱘ䕗໻䆄ᔩǄ೒ڣ㾚೒ৃ↨خ里ᄺᆊᅲ偠ᅸⱘ䆄џᴀ೒⠛ˈЎ⡍ᕕ⊼㾷ⱘޚ⹂ᗻ ᦤկϔϾᖿ䗳ᅲ⫼ⱘẔᶹ᠟↉Ǆ ܜ䖯ⱘ⊼㾷੠㓪䕥ࡳ㛑 SequinЁⱘᑣ߫㓪䕥఼㛑೼㓪䕥ᑣ߫ᯊ㞾ࡼ䇗㡖⡍ᕕ䯈䱨ˈ䖭ᇍѢᛇ೼ᏆᦤѸⱘᑣ߫䆄ᔩЁ ࡴܹϔ↉5’ッⱘᑣ߫ᇸЎ䞡㽕Ǆ೼Sequinߎ⦃Пࠡˈ䖭䳔㽕᠟Ꮉ⏏ࡴˈᑊ㑴ℷᑣ߫Ё᠔᳝⫳ ⠽⡍ᕕ䯈䱨Ǆ䖭ḋᕜ᳝ৃ㛑Ң㤝〓ᓔྟ䞡خܼ䚼ᦤѸ䖛⿟Ǆᑣ߫㓪䕥఼ᕜ䈵᭛ᴀ㓪䕥఼ˈৃ ೼ܝᷛ᠔೼ߎ໘ᦦܹ៪䕧ܹϔϾᮄⱘᑣ߫Ǆ ೼ᦤѸᑣ߫ЁⱘϔϾ໻㉏ࣙ৿њ໮ḋⱘⳌ݇ᑣ߫˄བ˖⾡㕸ǃ㋏㒳থ⫳੠বᓖⱘⷨお˅ˈབ ᵰ⫼᠋ᦤѸњ䖭ѯᑣ߫ᰃབԩ㞾䑿↨ᇍⱘֵᙃˈ䖭ѯ䆄ᔩᇚӮ᳈᳝ᣛᇐᛣНǄ䖭⾡↨ᇍৃ䱣 ᑣ᭄߫᥂˄བ˖ҹPHYLIPǃNEXUS៪FASTA+GAPᔶᓣ˅䕧ܹ៪೼䕧ܹᑣ߫ҹৢ⫼Sequin䅵ㅫǄ খ㾕䰘ᔩIIЁⱘ৘⾡ᔶᓣⱘᅲ՟Ǆ ᇍѢ䖭ѯ䆄ᔩˈSequinܕ䆌㒭ϔᴵᑣ߫⏏ࡴ⊼㾷ˈ㗠Ϩ䆹⊼㾷ৃҹ㹿໡ࠄࠊ݊ᅗⱘᑣ߫ЁǄ ˄㢹ЎCDS⡍ᕕˈ⡍ᕕ䯈䱨ৃ䗮䖛䇏㲟ⱑ䋼ѻ⠽ᑣ߫㞾ࡼ䖯㸠䅵ㅫˈ㗠ϡᖙܼ䚼䕧ܹǄ˅Ўњ ᅲ⦄䖭ϔᮍ⊩ˈ䗝⫼⡍ᕕӴ᪁ⱘᮍ⊩˄Ң↨ᇍ㓪䕥఼Ё˅ˈ㹿䗝Ёⱘ⡍ᕕᇚӴ᪁࠽ࠄԭᑣ߫ Ёএˈᑊ⫼↨ᇍֵᙃ䇗ᭈ⡍ᕕ䯈䱨Ǆ䖭੠೼↣ᴵᑣ߫Ϟ᠟Ꮉ⊼㾷⡍ᕕѻ⫳ⱘᬜᵰⳌৠǄԚ⫼ ⡍ᕕӴ᪁ⱘᮍ⊩ҙ䳔ߚ޴䩳ህ㛑ᅠ៤ܼ䖛⿟ˈ㗠᠟Ꮉ߭䳔޴ᇣᯊǄ ⡍ᕕӴ᪁੠ᑣ߫㓪䕥఼㒘ড়䍋ᴹЎ᳈ᮄϔϾᏆ㒣ᄬ೼ⱘᑣ߫ᦤկњㅔऩ㗠Ϩ㞾ࡼⱘᮍ⊩Ǆ᳈ ᮄᑣ߫ⱘࡳ㛑ܕ䆌⫼᠋䕧ܹ䞡঴៪᳓ҷⱘᑣ߫ǄSequin䆒䅵њ↨ᇍˈ೼᳝ᖙ㽕ᯊড়ᑊᑣ߫ˈ ᇚ⡍ᕕӴ᪁ࠄᮄᑣ߫ⱘᮄԡ㕂ˈҹপҷᮻᑣ߫੠ᮻ⡍ᕕǄ SequinخЎߚᵤᑇৄ Sequinгᦤկњ䆌໮⾡ᑣ߫ߚᵤⱘࡳ㛑ˈ՟བ˖᳝ϔϾࡳ㛑ৃҹড㸹Ѣᑣ߫੠⡍ᕕ䯈䱨ˈг ᕜᆍᯧࡴܹᮄⱘࡳ㛑Ǆ䖭ѯࡳ㛑೼ϔϾ⿄ЎNCBIḠ䴶ⱘにষЁߎˈ⦃Ⳉ᥹ᰒ⼎䇗ܹݙᄬⱘᔧ ࠡ䆄ᔩⱘݙ䚼㒧ᵘǄ䆹にষৃҹ㹿⧚㾷ЎϔϾ᳝ᦣ䗄఼ⱘVenn೒㸼˄খ㾕ϟ䗄੠㄀ゴ˅ˈℸ ᦣ䗄఼㛑೼ϔ㒘㋏㒳Ё˄བ˖⾡㕸ⷨお˅ᑨ⫼Ѣ৘⾡ᑣ߫Ǆ೼Ḡ䴶Ϟˈ⫼᠋ৃҹ䇏ߎ PowerBLASTⱘߚᵤ㒧ᵰˈݡᢪࡼПᇚ݊೼ϔᴵᑣ߫䆄ᔩϞ䞞ᬒˈҢ㗠৥䆄ᔩЁࡴ↨ܹᇍ᭄ ᥂ˈׂᬍⱘ㒧ᵰᇚᕜᖿᰒ⼎೼㾖ᆳ㗙䴶ࠡǄ⊼ᛣ˖ᑊ䴲᠔᳝ⱘ⊼㾷䛑㛑㹿ӏԩϔϾ㾖ᆳ㗙ⳟ 㾕ˈㅔऩ᭛ӊ㾚೒᳝݊ሔ䰤ᗻˈ՟བ˖ᅗϡᰒ⼎↨ᇍǄ NCBI᭄᥂῵ൟᬃᣕ໻䞣ⱘᑣ߫䲚ˈSequinܕ䆌Ўњᰒ⼎៪⊼㾷ⱘⳂⱘ೼䖭ѯᑣ߫䲚Ё䖯㸠ᅠ ܼⱘ⓿␌ˈ՟བ˖Nuc-Prot㉏ࣙ৿ϔᴵḌ㣋䝌ᑣ߫੠ᅗⱘ㲟ⱑ䋼ѻ⠽ˈḌ㣋䝌ᑣ߫ৃ㞾䑿ߚ 㾷Ǆ೼䖭⾡ᚙމϟˈSeg㉏ࣙ৿њ⠛↉ᑣ߫੠ϔϾParts㉏ˈParts㉏乎ᑣࣙ↣৿ϔϾ⠛↉ⱘॳ ྟ᭄᥂Ǆ⾡㕸ǃ㋏㒳থ⫳੠বᓖৃࣙ辵໮৿Ⳍ݇ᑣ߫៪Nuc-Prot㉏ǄNCBIḠ䴶ᰃ⌣㾜䆄ᔩݙ 䚼㒧ᵘⱘ᳔ᖿⱘᮍ⊩Ǆ ㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ 义ⷕˈ7/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十四章提交DNA序列到数据库页码,8/2 效据模型的重要性 Sequi n是一种ASN.1编辑器。用ASN.1数据描述语言写成的NCBI数据模型,可用来使相关信息在描述器或特征项中保持在一起(参见第6章),特征项是典型的生物概念(如:基因,编码区,RNAs,蛋白质),这些概念通常在一条序列中有一个位置(一个或多个间隔)。描述器可用于传送应用于多个序列的信息,这样避免了重复输入同一条信息的多个拷贝。例如: Bi aSource描述器包含了一个生物体的科学名称,常用名称,分类学上的链接, Gen Bank分类,和修饰器(如:品系、克隆、染色体、图谱位置)。将此信息收集在一起记录在数据详细说明书中,将便于用户输入和修改。将单个的 Bi aSource描述器应用于№ uC-prot集将满足证实者的愿望:在每条序列,包括蛋白质序列上都有生物来源信息,这同时也是数据库的规定。在 Gen Bank简单文件视图上双击一段,或在图形视图中双击一个特征,将激活一个编辑器用于修改该项的永久性的信息。在某些情况下,特别是在 Bi aSource或出版物中,这些项可能是描述器或者是特征,并且在简单文件中将其区分开来是困难的。(在NCB|桌面上可以很容易地区分描述器和特征。并且只有特征和序列在总结、图表、比对、和序列视图中出现。对于偶然的使用者来说,数据模型导致习惯可能并不明显(请看 Gen Bank或EMBL的视图文件),但确实能够简化生物信息的输入。例如:在 GenBank简单文件的头部出现的文献能够包含一个评价的子部分,在这里可以输入解释关于引用的生物学结论,和那些关于序列记录的信息。在报告中文本通常和引用在一起,相反将解释性的信息放置在大的注解段中,并用编号指向引用的文章(如“〖5〗”)是一种冒险性的做法,因为这些编号可能会发生变化, (例如由于新的文献的引用),将导致编号和文献不相符类似地,对于特征的引用(例如确定在编码区中核糖体的滑动)内在地引用了文献,而不是文献编号,即使在简单文件中显示了一个数字。这是另一个惯例允许文献编号改变而不“破坏”引用的完整性。并且这意味着只有一个完整的引用复本,这将使更新文献中的任何信息变得更容易。然而,应该保守地使用对于序列记录的文字上的引用,一个序列记录并不是一门学科的回顾,使用 Entrez中的链接和近邻是一种更加可靠的收集信息的方法和使用序列数据库作出最初发现的方法在最简单的情况下,单个的核苷酸序列有一个或多个蛋白质产物。 Sequi n允许用户不了解数据模型的结构层次而使用它。CDS特征编辑器用来输入蛋白质序列(或将其从已输入的地方翻译出来),并且输入或修改特征(提供了蛋白质的名称)。用户可以获得(单个的)蛋白质特征而不必在整个蛋白质序列中“漫游”。并且CDS编辑器也用基因名建立了分离的序列特征。如果预期有关于蛋白质产物序列的大量的注解,那么漫游是必需的,至少作为对于数据模型的一种粗略的了解,许多蛋白质有半胱氨酸的双硫键。结合区,活性区,糖基化区,信号肽,或跨膜区。关于这些部分的注解对将其作为 BLAST或 Entrez检索结果的生物学家很有意义,对于给定序列设置目标控制使观察者转向显示该序列的图形平面或文字报告。使用注解子菜单建立的任何特征或描述器将和当前的目标序列组织在一起虽然 Sequi n确实提供了在一个结构记录中所有的序列间进行完全的漫游的功能,但是最初的序列数据建立原始的结构最好由 Sequi n的“创建新提交”功能来完成。 Sequi n在前面的步骤中提取信息,(例如生物体和资源编辑器,基因和蛋白质名称)并且知道怎样正确的将每个信息填充在合适的位置。这也就是 Sequi n的主要设计目标之一。手工注解需要对于数据模型更详尽的了解,和对于具有使用 Sequi n复杂功能的专业技能完成的提交可以存储到磁盘(File-> Prepare Submi ssi on)和发送电子邮件到某一数据库, file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18

᭄᥂῵ൟⱘ䞡㽕ᗻ Sequinᰃϔ⾡ASN.1㓪䕥఼Ǆ⫼ASN.1᭄᥂ᦣ䗄䇁㿔ݭ៤ⱘNCBI᭄᥂῵ൟˈৃ⫼ᴹՓⳌֵ݇ᙃ ೼ᦣ䗄఼៪⡍ᕕ乍Ёֱᣕ೼ϔ䍋˄খ㾕㄀ゴ˅ˈ⡍ᕕ乍ᰃ݌ൟⱘ⫳⠽ὖᗉ˄བ˖෎಴ˈ㓪ⷕ ऎˈRNAsˈ㲟ⱑ䋼˅ˈ䖭ѯὖᗉ䗮ᐌ೼ϔᴵᑣ߫Ё᳝ϔϾԡ㕂˄ϔϾ៪໮Ͼ䯈䱨˅Ǆᦣ䗄఼ ৃ⫼ѢӴ䗕ᑨ⫼Ѣ໮Ͼᑣ߫ⱘֵᙃˈ䖭ḋ䙓ܡњ䞡໡䕧ܹৠϔᴵֵᙃⱘ໮Ͼᣋ䋱Ǆ ՟བ˖BioSourceᦣ䗄఼ࣙ৿њϔϾ⫳⠽ԧⱘ⾥ᄺৡ⿄ˈᐌ⫼ৡ⿄ˈߚ㉏ᄺϞⱘ䫒᥹ˈ GenBankߚ㉏ˈ੠ׂ佄఼˄བ˖ક㋏ǃܟ䱚ǃᶧ㡆ԧǃ೒䈅ԡ㕂˅Ǆᇚℸֵᙃᬊ䲚೼ϔ䍋䆄ᔩ ೼᭄᥂䆺㒚䇈ᯢкЁˈᇚ֓Ѣ⫼᠋䕧ܹ੠ׂᬍǄᇚऩϾⱘBioSourceᦣ䗄఼ᑨ⫼ѢNuc-prot䲚 ᇚ⒵䎇䆕ᅲ㗙ⱘᜓᳯ: ೼↣ᴵᑣ߫, ࣙᣀ㲟ⱑ䋼ᑣ߫Ϟ䛑᳝⫳⠽ᴹ⑤ֵᙃ, 䖭ৠᯊгᰃ᭄᥂ ᑧⱘ㾘ᅮǄ ೼GenBankㅔऩ᭛ӊ㾚೒Ϟঠߏϔ↉ˈ៪೼೒ᔶ㾚೒ЁঠߏϔϾ⡍ᕕˈᇚ▔⌏ϔϾ㓪䕥఼⫼Ѣ ׂᬍ䆹乍ⱘ∌ЙᗻⱘֵᙃǄ೼ᶤѯᚙމϟˈ⡍߿ᰃ೼BioSource៪ߎ⠜⠽Ёˈ䖭ѯ乍ৃ㛑ᰃᦣ 䗄఼៪㗙ᰃ⡍ᕕˈᑊϨ೼ㅔऩ᭛ӊЁᇚ݊ऎߚᓔᴹᰃೄ䲒ⱘǄ೼NCBIḠ䴶Ϟৃҹᕜᆍᯧഄऎ ߚᦣ䗄఼੠⡍ᕕǄᑊϨা᳝⡍ᕕ੠ᑣ߫೼ᘏ㒧ǃ೒㸼ǃ↨ᇍǃ੠ᑣ߫㾚೒Ёߎ⦃Ǆ ᇍѢي✊ⱘՓ⫼㗙ᴹ䇈ˈ᭄᥂῵ൟᇐ㟈дᛃৃ㛑ᑊϡᯢᰒ˄䇋ⳟGenBank៪EMBLⱘ㾚೒᭛ ӊ˅ˈԚ⹂ᅲ㛑໳ㅔ࣪⫳⠽ֵᙃⱘ䕧ܹǄ՟བ˖೼GenBankㅔऩ᭛ӊⱘ༈䚼ߎ⦃ⱘ᭛⤂㛑໳ࣙ ৿ϔϾ䆘Ӌⱘᄤ䚼ߚ೼ˈ䖭䞠ৃҹ䕧ܹ㾷䞞݇Ѣᓩ⫼ⱘ⫳⠽ᄺ㒧䆎ˈ੠䙷ѯ݇Ѣᑣ߫䆄ᔩⱘ ֵᙃǄ೼᡹ਞЁ᭛ᴀ䗮ᐌ੠ᓩ⫼೼ϔ䍋ˈⳌডᇚ㾷䞞ᗻⱘֵᙃᬒ㕂೼໻ⱘ⊼㾷↉Ёˈᑊ⫼㓪 োᣛ৥ᓩ⫼ⱘ᭛ゴ˄བĀǔǕā˅ᰃϔ⾡ݦ䰽ᗻⱘخ಴ˈ⫣Ў䖭ѯ㓪োৃ㛑Ӯথ⫳ব࣪ˈ ˄՟བ⬅Ѣᮄⱘ᭛⤂ⱘᓩ⫼˅ˈᇚᇐ㟈㓪ো੠᭛⤂ϡⳌヺǄ ㉏ԐഄˈᇍѢ⡍ᕕⱘᓩ⫼˄՟བ⹂ᅮ೼㓪ⷕऎЁḌ㊪ԧⱘ⒥ࡼ˅ݙഄ೼ᓩ⫼њ᭛⤂ˈ㗠ϡᰃ ᭛⤂㓪োˈेՓ೼ㅔऩ᭛ӊЁᰒ⼎њϔϾ᭄ᄫǄ䖭ᰃ঺ϔϾᛃ՟ܕ䆌᭛⤂㓪োᬍব㗠ϡĀ⸈ ണāᓩ⫼ⱘᅠᭈᗻǄᑊϨ䖭ᛣੇⴔা᳝ϔϾᅠᭈⱘᓩ⫼໡ᴀˈ䖭ᇚՓ᳈ᮄ᭛⤂Ёⱘӏԩֵᙃ বᕫ᳈ᆍᯧǄ ✊㗠ˈᑨ䆹ֱᅜഄՓ⫼ᇍѢᑣ߫䆄ᔩⱘ᭛ᄫϞⱘᓩ⫼ˈϔϾᑣ߫䆄ᔩᑊϡᰃϔ䮼ᄺ⾥ⱘಲ 乒ˈՓ⫼EntrezЁⱘ䫒᥹੠䖥䚏ᰃϔ⾡᳈ࡴৃ䴴ⱘᬊ䲚ֵᙃⱘᮍ⊩੠Փ⫼ᑣ᭄߫᥂ᑧ԰ߎ᳔ ߱থ⦄ⱘᮍ⊩Ǆ ೼᳔ㅔऩⱘᚙމϟˈऩϾⱘḌ㣋䝌ᑣ᳝߫ϔϾ៪໮Ͼ㲟ⱑ䋼ѻ⠽ǄSequinܕ䆌⫼᠋ϡњ㾷᭄ ᥂῵ൟⱘ㒧ᵘሖ⃵㗠Փ⫼ᅗǄCDS⡍ᕕ㓪䕥఼⫼ᴹ䕧ܹ㲟ⱑ䋼ᑣ߫˄៪ᇚ݊ҢᏆ䕧ܹⱘഄᮍ㗏䆥ߎᴹ˅ᑊϨ䕧ܹ៪ׂᬍ⡍ᕕ˄ᦤկњ㲟ⱑ䋼ⱘৡ⿄˅Ǆ⫼᠋ৃҹ㦋ᕫ˄ऩϾⱘ˅㲟ⱑ䋼⡍ ᕕ㗠ϡᖙ೼ᭈϾ㲟ⱑ䋼ᑣ߫ЁĀ⓿␌āǄᑊϨCDS㓪䕥఼г⫼෎಴ৡᓎゟњߚ行ⱘᑣ߫⡍ᕕǄ བᵰ乘ᳳ᳝݇Ѣ㲟ⱑ䋼ѻ⠽ᑣ߫ⱘ໻䞣ⱘ⊼㾷ˈ䙷М⓿␌ᰃᖙ䳔ⱘˈ㟇ᇥ԰ЎᇍѢ᭄᥂῵ൟ ⱘϔ⾡㉫⬹ⱘњ㾷ˈ䆌໮㲟ⱑ䋼᳝ञ㛅⇼䝌ⱘঠ⸿䬂Ǆ㒧ড়ऎˈ⌏ᗻऎˈ㊪෎࣪ऎˈֵো 㚑ˈ៪䎼㝰ऎǄ݇Ѣ䖭ѯ䚼ߚⱘ⊼㾷ᇍᇚ݊԰ЎBLAST៪EntrezẔ㋶㒧ᵰⱘ⫳⠽ᄺᆊᕜ᳝ᛣ НˈᇍѢ㒭ᅮᑣ߫䆒㕂Ⳃᷛ᥻ࠊՓ㾖ᆳ㗙䕀৥ᰒ⼎䆹ᑣ߫ⱘ೒ᔶᑇ䴶៪᭛ᄫ᡹ਞǄՓ⫼⊼㾷 ᄤ㦰ऩᓎゟⱘӏԩ⡍ᕕ៪ᦣ䗄఼ᇚ੠ᔧࠡⱘⳂᷛᑣ߫㒘㒛೼ϔ䍋Ǆ 㱑✊Sequin⹂ᅲᦤկњ೼ϔϾ㒧ᵘ䆄ᔩЁ᠔᳝ⱘᑣ߫䯈䖯㸠ᅠܼⱘ⓿␌ⱘࡳ㛑ˈԚᰃ᳔߱ⱘ ᑣ᭄߫᥂ᓎゟॳྟⱘ㒧ᵘ᳔ད⬅SequinⱘĀ߯ᓎᮄᦤѸāࡳ㛑ᴹᅠ៤ǄSequin೼ࠡ䴶ⱘℹ偸 Ёᦤপֵᙃˈ˄՟བ⫳⠽ԧ੠䌘⑤㓪䕥఼ˈ෎಴੠㲟ⱑ䋼ৡ⿄˅ᑊϨⶹ䘧ᗢḋℷ⹂ⱘᇚ↣Ͼ ֵᙃ฿ܙ೼ড়䗖ⱘԡ㕂Ǆ䖭гህᰃSequinⱘЏ㽕䆒䅵ⳂᷛПϔǄ᠟Ꮉ⊼㾷䳔㽕ᇍѢ᭄᥂῵ൟ ᳈䆺ሑⱘњ㾷ˈ੠ᇍѢ݋᳝Փ⫼Sequin໡ᴖࡳ㛑ⱘϧϮᡔ㛑Ǆ ᅠ៤ⱘᦤѸৃҹᄬࠄټ⺕Ⲭ˄File->Prepare Submission˅੠থ䗕⬉ᄤ䚂ӊࠄᶤϔ᭄᥂ᑧˈ ㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ 义ⷕˈ8/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十四章提交DNA序列到数据库页码,9/2 在 Sequi n期间经常存盘是一个好习惯,可以避免无意中的数据丢失。提交单个的序列最简单的交包含一个单个的没有中断的核苷酸序列和一个或多个蛋白质产物序列。这些序列典型地来自于传统的基于基因的生物学研究,并且这样的提交在大多数情况下可以通过互联网(请看上例 BankI t)或 Sequi n来完成, Sequi n提供了许多已经确认的好处和对于各种网络连接的独立性。 Sequi n开始时出现一个窗口,提示用户开始一个新的提交或者打开一个包含记录的文件(图 14.7)。在最初的提交建立以后,记录可以保存下来存为文件和在最终传送到数据库之前进行编辑,如果 Sequi n被配置为网络敏感,该窗口将允许下载已存在的将要更新的数据记录。图14.7 图14.7 Sequi n的初始窗口,提供了开始一个提交的几个选择,为了由原始序列文件和其它信息的最小集生成一个提交,选择开始新的提交( Start New Submi ssi on),一旦初始记录建立起来,就可以存成一个文件。若要读已存的文件或任何其它存成文件的ASN.1记录,选择读已存在的记录( Read Exi sting Record),若 Sequi n配置为网络连接,将会显示按钮 Downl oad from entrez,该按钮用来下载记录用于更新通过完成几个表格可以建立一个新的提交(图14.8-14.15)。这些表格使用文件夹标签来将窗口划分为几页,这样允许输入所有必需数据而不必一个大的计算机屏幕,这些表格项有前页和后一页的按钮,当用户到达一个表格的最后一页时,下一页按钮变成了下一个表格按钮开始一个新的提交过程,第一步是请求一个暂时性的标题(图14.8):然后询问联系人、序列作者和他们的学术联系的信息(图14.9)。对于所有的提交来说,这个表格是一致的,联系人、序列作者、和他们的学术联系页通过按输出菜单按钮可以存储下来,在开始其它提交时可通过选择输入菜单按钮读入该文件。然而,因为种群、系统发生和变异研究是作为一个记录一次引入的,存储提交表格页面就不太必要了。图14.8 图14.8提交页用来从手稿中为 Sequi n:输入一个暂时的标题;即使该文章没有写,或者试图发表,对于提交的描述也是必要的。该页也允许提交者要求直到文章发表再公布序列或指测序列公布的日期。图14.9 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18

೼Sequinᳳ䯈㒣ᐌᄬⲬᰃϔϾདдᛃˈৃҹ䙓ܡ᮴ᛣЁⱘ᭄᥂϶༅Ǆ ᦤѸऩϾⱘᑣ߫ ᳔ㅔऩⱘѸࣙ৿ϔϾऩϾⱘ≵᳝ЁᮁⱘḌ㣋䝌ᑣ߫੠ϔϾ៪໮Ͼ㲟ⱑ䋼ѻ⠽ᑣ߫Ǆ䖭ѯᑣ߫ ݌ഄൟᴹ㞾ѢӴ㒳ⱘ෎Ѣ෎಴ⱘ⫳⠽ᄺⷨおˈᑊϨ䖭ḋⱘᦤѸ೼໻໮᭄ᚙމϟৃҹ䗮䖛Ѧ㘨㔥˄䇋ⳟϞ՟BankIt˅៪Sequinᴹᅠ៤,Sequinᦤկњ䆌໮Ꮖ㒣⹂䅸ⱘད໘੠ᇍѢ৘⾡㔥㒰䖲 ᥹ⱘ⣀ゟᗻǄ Sequinᓔྟᯊߎ⦃ϔϾにষˈᦤ⼎⫼᠋ᓔྟϔϾᮄⱘᦤѸ៪㗙ᠧᓔϔϾࣙ৿䆄ᔩⱘ᭛ӊ˄೒ 14.7˅Ǆ೼᳔߱ⱘᦤѸᓎゟҹৢˈ䆄ᔩৃҹֱᄬϟᴹᄬЎ᭛ӊ੠೼᳔㒜Ӵ䗕ࠄ᭄᥂ᑧПࠡ䖯㸠㓪䕥ˈབᵰSequin㹿䜡㕂Ў㔥㒰ᬣᛳˈ䆹にষᇚܕ䆌ϟ䕑Ꮖᄬ೼ⱘᇚ㽕᳈ᮄⱘ᭄᥂䆄ᔩǄ ೒14.7 ೒14.7 Sequin ⱘ߱ྟにষˈᦤկњᓔྟϔϾᦤѸⱘ޴Ͼ䗝ᢽˈЎњ⬅ॳྟᑣ߫᭛ӊ੠݊ᅗ ֵᙃⱘ᳔ᇣ䲚⫳៤ϔϾᦤѸˈ䗝ᢽᓔྟᮄⱘᦤѸ˄Start New Submission˅ˈϔᮺ߱ྟ䆄ᔩ ᓎゟ䍋ᴹˈህৃҹᄬ៤ϔϾ᭛ӊǄ㢹㽕䇏Ꮖᄬⱘ᭛ӊ៪ӏԩ݊ᅗᄬ៤᭛ӊⱘASN.1䆄ᔩˈ䗝ᢽ 䇏Ꮖᄬ೼ⱘ䆄ᔩ˄Read Existing Record˅ˈ㢹Sequin䜡㕂Ў㔥㒰䖲᥹ˈᇚӮᰒ⼎ᣝ䪂 Download from Entrezˈ䆹ᣝ䪂⫼ᴹϟ䕑䆄ᔩ⫼Ѣ᳈ᮄǄ 䗮䖛ᅠ៤޴Ͼ㸼ḐৃҹᓎゟϔϾᮄⱘᦤѸ˄೒14.8ˉ14.15˅Ǆ䖭ѯ㸼ḐՓ⫼᭛ӊ།ᷛㅒᴹᇚ にষߚߦЎ޴义ˈ䖭ḋܕ䆌䕧ܹ᠔᳝ᖙ䳔᭄᥂㗠ϡᖙϔϾ໻ⱘ䅵ㅫᴎሣᐩˈ䖭ѯ㸼Ḑ乍᳝ࠡ ϔ义੠ৢϔ义ⱘᣝ䪂ˈᔧ⫼᠋ࠄ䖒ϔϾ㸼Ḑⱘ᳔ৢϔ义ᯊˈϟϔ义ᣝ䪂ব៤њϟϔϾ㸼Ḑᣝ 䪂Ǆ ᓔྟϔϾᮄⱘᦤѸ䖛⿟ˈ㄀ϔℹᰃ䇋∖ϔϾ᱖ᯊᗻⱘᷛ乬˄೒14.8˅˖✊ৢ䆶䯂㘨㋏Ҏǃᑣ ߫԰㗙੠ҪӀⱘᄺᴃ㘨㋏ⱘֵᙃ˄೒14.9˅ǄᇍѢ᠔᳝ⱘᦤѸᴹ䇈ˈ䖭Ͼ㸼Ḑᰃϔ㟈ⱘˈ㘨㋏Ҏǃᑣ߫԰㗙ǃ੠ҪӀⱘᄺᴃ㘨㋏义䗮䖛ᣝ䕧ߎ㦰ऩᣝ䪂ৃҹᄬټϟᴹˈ೼ᓔྟ݊ᅗᦤѸ ᯊৃ䗮䖛䗝ᢽ䕧ܹ㦰ऩᣝ䪂䇏ܹ䆹᭛ӊǄ✊㗠ˈ಴Ў⾡㕸ǃ㋏㒳থ⫳੠বᓖⷨおᰃ԰ЎϔϾ 䆄ᔩϔ⃵ᓩܹⱘˈᄬټᦤѸ㸼Ḑ义䴶ህϡ໾ᖙ㽕њǄ ೒14.8 ೒14.8 ᦤѸ义⫼ᴹҢ᠟〓ЁЎSequin䕧ܹϔϾ᱖ᯊⱘᷛ乬˗ेՓ䆹᭛ゴ≵᳝ݭ៪ˈ㗙䆩೒থ 㸼ˈᇍѢᦤѸⱘᦣ䗄гᰃᖙ㽕ⱘǄ䆹义гܕ䆌ᦤѸ㗙㽕∖Ⳉࠄ᭛ゴথ㸼ݡ݀Ꮧᑣ߫៪ᣛ⌟ᑣ ߫݀Ꮧⱘ᮹ᳳǄ ೒14.9 ㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ 义ⷕˈ9/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十四章提交DNA序列到数据库页码,10/2 图14.9 Sequi n的联系人页面记录了回答数据库工作人员查询的负责人的姓名和联系信息(通常是执行提交的人,但不必是真正测序的人)。Sfx域要求名字后缀(例如:Jr.,lH1),而不是敬语或学位(如Ph.D,M.D.)。当记录公布时该信息并不公开,而是保存在数据库中序列格式表格(图14.12)询问提交的类型(单个的序列,如例子中所用;片段序列或种群系统发生、变异研究)。对于最后三种类型的提交,包括相关序列的比对研究,输入数据的形式也能被指示。缺省是 FASTA格式(或原始序列),不过 PHYLIP, NEXUS,PAUP和 FASTA GAP格式也是支持的。后几种格式包含比对信息,这些存储在序列记录中。图14.10 图14.10 Sequi n作者页命名了描述测序的手稿作者。(例如从测序中获得荣誉的人),本页是一个电子表格,可以容纳需要的作者名。按TAB按钮可以水平地从一个域移动到下一个域。要移动到下一行的第一个名字列,从Sfx列内按TAB按钮。如果在最后一行中键入了任何东西,新的一行将附加到表格的后面。(在视觉上立刻感到滚动条的变化),在一行中的任何位置按下回车按钮将在当前行下增加新的一行。 Sequi n将忽略任何姓一栏空着的行。图14.11 图14.11 Sequi n的联系页,用于与手稿原始作者的制度上的联系,当数据库工作人员处理记录时,该信息将出现在引用其自身的参考书目中。在本页中下一页( Next Page)换名为下表格( Next form);当按下该按钮时, Sequi n自动检査表格内容,如果用户遗漏了任何基本信息的话,将给出提示。如果输入的信息符合要求, Sequi n将出现下一个表格。图14.12 图14.12Seqμuin的序列格式表格,允许用户指定提交记录的类型和原始序列数据的类型。大数提交是单个的序列(核苷酸)(也可能有一条或几条蛋白质产物序列)。另一类提交是片段序列。例如,在一些基因组序列中,外显子已测序,但是内含子并未完全测序。通过分割该记录,我们可以注解编码区和mR№A特征。系统发生、种群研究和变异硏究涉及不止一条相关序列的提交,它们由 Sequi n包装为合适的集合。批量提交是用于那些并不具有相似性的序列集的提交,这样作只是基于方便的理由。单个的序列数据和分段的序列数据必须是 FASTA格式。种群、系统发生和变异研究也可以使用包含比对的格式。这些比对是关于提交者对于序列之间关系的断言。目前 Sequi n支持 FASTA+GAP,PHYL|P,交叉存取 NEXUS和近邻的 NEXUS多种格式生物体和序列表(图14.13-14.15)要求生物学数据。在生物体页面上(图14.13,随着用户键入生物体的科学名,经常使用的生物体名列表自动翻卷, Sequi n保存了 Gen Bank中存在的最多的800种生物体。)因此在键入几个字母后,用户可以通过在列表中单击合适的项来补全生物体名称的其余部分。现在 Sequi n知道了科学名称,一般名称, Gen Bank分类,分类学联系 file://E:wcb生物信息学(中译本)\第十四章提交DNA序列到数据库.htm2005-1-18

೒14.9 Sequinⱘ㘨㋏Ҏ义䴶䆄ᔩњಲㄨ᭄᥂ᑧᎹ԰Ҏਬᶹ䆶ⱘ䋳䋷Ҏⱘྦྷৡ੠㘨㋏ֵᙃ˄䗮 ᐌᰃᠻ㸠ᦤѸⱘҎˈԚϡᖙᰃⳳℷ⌟ᑣⱘҎ˅ǄSfxඳ㽕∖ৡᄫৢ㓔˄՟བ˖Jr.,III˅ˈ㗠 ϡᰃᭀ䇁៪ᄺԡ˄བPh.D,M.D.˅Ǆᔧ䆄ᔩ݀Ꮧᯊ䆹ֵᙃᑊϡ݀ᓔˈ㗠ᰃֱᄬ೼᭄᥂ᑧЁǄ ᑣ߫Ḑᓣ㸼Ḑ˄೒14.12˅䆶䯂ᦤѸⱘ㉏ൟ˄ऩϾⱘᑣ߫ˈབ՟ᄤЁ᠔⫼˗⠛↉ᑣ߫៪⾡㕸ǃ ㋏㒳থ⫳ǃবᓖⷨお˅ǄᇍѢ᳔ৢϝ⾡㉏ൟⱘᦤѸˈࣙᣀⳌ݇ᑣ߫ⱘ↨ᇍⷨおˈ䕧᭄ܹ᥂ⱘ ᔶᓣг㛑㹿ᣛ⼎Ǆ㔎ⳕᰃFASTAḐᓣ˄៪ॳྟᑣ߫˅ˈϡ䖛PHYLIPˈNEXUSˈPAUP੠FASTAˇ GAPḐᓣгᰃᬃᣕⱘǄৢ޴辵Ḑᓣࣙ↨৿ᇍֵᙃˈ䖭ѯᄬټ೼ᑣ߫䆄ᔩЁǄ ೒14.10 ೒14.10 Sequin԰㗙义ੑৡњᦣ䗄⌟ᑣⱘ᠟〓԰㗙Ǆ˄՟བҢ⌟ᑣЁ㦋ᕫ㤷䁝ⱘҎ˅ˈᴀ义 ᰃϔϾ⬉ᄤ㸼Ḑˈৃҹᆍ㒇䳔㽕ⱘ԰㗙ৡǄᣝTABᣝ䪂ৃҹ∈ᑇഄҢϔϾඳ⿏ࠄࡼϟϔϾඳǄ 㽕⿏ࠄࡼϟϔ㸠ⱘ㄀ϔϾৡᄫ߫ˈҢSfx߫ݙᣝTABᣝ䪂Ǆབᵰ೼᳔ৢϔ㸠Ё䬂ܹњӏԩϰ 㽓ˈᮄⱘϔ㸠ᇚ䰘ࠄࡴ㸼Ḑⱘৢ䴶Ǆ˄೼㾚㾝Ϟゟࠏᛳࠄ⒮ࡼᴵⱘব࣪೼ˈ˅ϔ㸠Ёⱘӏԩ ԡ㕂ᣝϟಲ䔺ᣝ䪂ᇚ೼ᔧࠡ㸠ϟ๲ࡴᮄⱘϔ㸠ǄSequinᇚᗑ⬹ӏԩྦྷϔᷣぎⴔⱘ㸠Ǆ ೒14.11 ೒14.11 Sequinⱘ㘨㋏义ˈ⫼ѢϢ᠟〓ॳྟ԰㗙ⱘࠊᑺϞⱘ㘨㋏ˈᔧ᭄᥂ᑧᎹ԰Ҏਬ໘⧚䆄 ᔩᯊˈ䆹ֵᙃᇚߎ೼⦃ᓩ⫼݊㞾䑿ⱘখ㗗кⳂЁǄ೼ᴀ义Ёϟϔ义˄Next Page˅ᤶৡЎϟϔ 㸼Ḑ˄Next Form˅˗ᔧᣝϟ䆹ᣝ䪂ᯊˈSequin㞾ࡼẔᶹ㸼Ḑݙᆍˈབᵰ⫼᠋䘫ⓣњӏԩ෎ᴀ ֵᙃⱘ䆱ˈᇚ㒭ߎᦤ⼎Ǆབᵰ䕧ܹⱘֵᙃヺড়㽕∖ˈSequinᇚߎ⦃ϟϔϾ㸼ḐǄ ೒`14.12 ೒14.12 Sequinⱘᑣ߫Ḑᓣ㸼Ḑˈܕ䆌⫼᠋ᣛᅮᦤѸ䆄ᔩⱘ㉏ൟ੠ॳྟᑣ᭄߫᥂ⱘ㉏ൟǄ໻ ᭄ᦤѸᰃऩϾⱘᑣ߫˄Ḍ㣋䝌˅˄гৃ㛑᳝ϔᴵ៪޴ᴵ㲟ⱑ䋼ѻ⠽ᑣ߫˅Ǆ঺ϔ㉏ᦤѸᰃ⠛ ↉ᑣ߫Ǆ՟བˈ೼ϔѯ෎಴㒘ᑣ߫Ёˈ໪ᰒᄤᏆ⌟ᑣˈԚᰃݙ৿ᄤᑊ᳾ᅠܼ⌟ᑣǄ䗮䖛ࡆߚ 䆹䆄ᔩˈ៥Ӏৃҹ⊼㾷㓪ⷕऎ੠mRNA⡍ᕕǄ㋏㒳থ⫳ǃ⾡㕸ⷨお੠বᓖⷨお⍝ঞϡℶϔᴵⳌ ݇ᑣ߫ⱘᦤѸˈᅗӀ⬅Sequinࣙ㺙Ўড়䗖ⱘ䲚ড়Ǆᡍ䞣ᦤѸᰃ⫼Ѣ䙷ѯᑊϡ݋᳝ⳌԐᗻⱘᑣ ߫䲚ⱘᦤѸˈ䖭ḋ԰াᰃ෎Ѣᮍ֓ⱘ⧚⬅ǄऩϾⱘᑣ᭄߫᥂੠ߚ0⁄3ⱘᑣ᭄߫᥂ᖙ乏ᰃFASTAḐ ᓣǄ⾡㕸ǃ㋏㒳থ⫳੠বᓖⷨおгৃҹՓ⫼ࣙ↨৿ᇍⱘḐᓣǄ䖭ѯ↨ᇍᰃ݇ѢᦤѸ㗙ᇍѢᑣ ߫П䯈݇㋏ⱘᮁ㿔ǄⳂࠡSequinᬃᣕFASTAˇGAPˈPHYLIPˈѸঝᄬপNEXUS੠䖥䚏ⱘNEXUS໮ ⾡ḐᓣǄ ⫳⠽ԧ੠ᑣ߫㸼˄೒14.13ˉ14.15˅㽕∖⫳⠽ᄺ᭄᥂Ǆ೼⫳⠽ԧ义䴶Ϟ˄೒14.13ˈ䱣ⴔ⫼᠋ 䬂ܹ⫳⠽ԧⱘ⾥ᄺৡˈ㒣ᐌՓ⫼ⱘ⫳⠽ԧৡ߫㸼㞾ࡼ㗏ोˈSequin ֱᄬњGenBankЁᄬ೼ⱘ ᳔໮ⱘ800⾡⫳⠽ԧǄ˅಴ℸ೼䬂ܹ޴Ͼᄫ↡ৢˈ⫼᠋ৃҹ䗮䖛೼߫㸼Ёऩߏড়䗖ⱘ乍ᴹ㸹ܼ ⫳⠽ԧৡ⿄ⱘ݊ԭ䚼ߚǄ⦄೼Sequinⶹ䘧њ⾥ᄺৡ⿄ˈϔ㠀ৡ⿄ˈGenBankߚ㉏ˈߚ㉏ᄺ㘨㋏㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ 义ⷕˈ10/21 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कಯゴᦤѸDNAᑣ߫ࠄ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击下载完整版文档（PDF格式）

共21页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录