《生物信息学》课程教学资源（中译本）第十三章 ACEDB一个基因组信息的数据库

背景 ACEDB(一种线虫C.e/ egans数据库)是一种被广泛应用的管理和提供基因组数据的工具组。它是在1991年由 Ri chard duri n和 Jean Thi erry-Mi eg首先提供的,他们发展它来支持和整理 C. elegans领域中的大范围序列和物理图谱的工作。在本章结尾所列出的因特网资源和资料中可见1和2条。后续的程序由 Durbin和 Thierry- Mi eg编制和完善,还有许多其他人参与了代码的编制。这一时期, ACEDB适用于许多动物和植物的基因组计划[3]。

团购合买资源类别：文库，文档格式：PDF，文档页数：12，文件大小：162.79KB

第十三章 ACEDB一个基因组信息的数据库页码,1/12 第十三章 ACEDB一个基因组信息的数据库 ACEDB的一般特点背景 ACEDB(一种线虫C.e/ egans数据库)是一种被广泛应用的管理和提供基因组数据的工具组。它是在1991年由 Ri chard duri n和 Jean Thi erry-Mi eg首先提供的,他们发展它来支持和整理 C. elegans领域中的大范围序列和物理图谱的工作。在本章结尾所列出的因特网资源和资料中可见1和2条。后续的程序由 Durbin和 Thierry- Mi eg编制和完善,还有许多其他人参与了代码的编制。这一时期, ACEDB适用于许多动物和植物的基因组计划[3]。软件对于“非基因组信息的计划仍然有效,诸如,民族植物学的数据、基因命名法、具体的文献等[4,5]。准确估计基于 ACEDB资源的出版物很困难,1997年春的保守估计[3]是25-30种 ACEDB由于它的一些特性而流行起来。该软件是免费的,并且可运行在Unx和 Maci tosh0S系统下, Wi ndows版本马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱,新陈代谢的途径和序列等。界面依靠相关信息的超级文本连接,并可由鼠标方便的完成操作。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相关的文献,基因,描述,和克隆的DNA等。也许最重要的是, ACEDB能很容易的由于新信息而被重新设定.简单的图解语言和快速数据装载的周期使 ACEDB适合一个”废弃( throwaway)”数据库的建立,他可用于专用的数据分析,还可用于许多永久性数据的采集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用 ACEDB。对于资源有限的计划,这往往是决定使用 ACEDB 的关键因素。本章主要把 ACEDB作为序列数据的管理工具来介绍,而不是当作一种提供数据的方法。这里并不是把 ACEDB的每一部分都专门的介绍,而是主要集中在: ACEDB的早期的数据采集的作用, 和主要面向内部使用者的注释的过程。现在使用 ACEDB来管理序列数据和用于其他计划的有: 剑桥大学的 Sanger(英国),华盛顿大学的基因组中心,克罗拉多大学( Col orado State Ini versi ty)的 Aedes aegypti基因组计划, Massachusetts general医院的 Arabi dorsi s物理图谱计划,和 Wal ter和 Eliza hal|研究院(WEHL)的疟疾基因组计划。读者肯定会对有感于管理和提供生物学数据的软件的高速的发展速度。 ACEDB本身是基于Uni 系统开发的,并当作X- wi ndow的应用程序被首次展示出来的。现在,许多用户可通过万维网 ( Worl d wi de web)登陆到公共数据服务器上来使用它。将来,很可能由Java语言或其他网络语言编写的有人们更熟悉界面的 ACEDB将出现。但本章主要介绍X- wi ndow版本(Xace4,3) 及与它相关的特性界面以下简写代表鼠标操作。 M:鼠标左键 M:鼠标中键 RM:鼠标右键般的 ACEDB用户通过浏览超文本连接的文件来交互的操作 ACEDB。这种浏览方式的界面如图 13.1。这是从 Grai n gene(一个用于 Tri ti ceae的数据库)吸取来的包含有多个 ACEDB窗口的阻合窗口。这些窗口是一系列鼠标操作产生的,如用户定位两种不同的信息内容。 ACEDB的主窗口是位于图中左上的窗口,它在软件开始时就显示出来。其中列有数据类型用于查阅。点 file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ ACEDBⱘϔ㠀⡍⚍ 㚠᱃ ACEDB(ϔ⾡㒓㰿C.elegans᭄᥂ᑧᰃϔ⾡㹿ᑓ⊯ᑨ⫼ⱘㅵ⧚੠ᦤկ෎಴㒘᭄᥂ⱘᎹ݋㒘Ǆᅗ ᰃ೼1991ᑈ⬅Richard Durbin੠Jean Thierry-Mieg佪ܜᦤկⱘˈҪӀথሩᅗᴹᬃᣕ੠ᭈ⧚ C.elegans乚ඳЁⱘ໻㣗ೈᑣ߫੠⠽⧚೒䈅ⱘᎹ԰Ǆ೼ᴀゴ㒧ሒ᠔߫ߎⱘ಴⡍㔥䌘⑤੠䌘᭭Ё ৃ㾕੠ᴵǄৢ㓁ⱘ⿟ᑣ⬅Durbin੠Thierry-Mieg㓪ࠊ੠ᅠ୘ˈ䖬᳝䆌໮݊ҪҎখϢњҷⷕ ⱘ㓪ࠊǄ䖭ϔᯊᳳˈACEDB䗖⫼Ѣ䆌໮ࡼ⠽੠ỡ⠽ⱘ෎಴㒘䅵ߦ]3]Ǆ䕃ӊᇍѢĀ䴲෎಴㒘” ֵᙃⱘ䅵ߦҡ✊᳝ᬜˈ䇌བˈ⇥ᮣỡ⠽ᄺⱘ᭄᥂ǃ෎಴ੑৡ⊩ǃ݋ԧⱘ᭛⤂ㄝ[4ˈ5]Ǆޚ⹂ Ԅ䅵෎ѢACEDB䌘⑤ⱘߎ⠜⠽ᕜೄ䲒ˈ1997ᑈ᯹ⱘֱᅜԄ䅵[3]ᰃ25-30⾡Ǆ ACEDB⬅Ѣᅗⱘϔѯ⡍ᗻ㗠⌕㸠䍋ᴹǄ䆹䕃ӊᰃܡ䌍ⱘˈᑊϨৃ䖤㸠೼Unix੠Macintosh OS㋏㒳ϟˈWindows⠜ᴀ偀ϞህӮ᥼ߎǄ᭄᥂ᑧҹЄᆠⱘ೒ᔶ⬠䴶ᦤկֵᙃˈࣙᣀ᳝݋ԧᰒ⼎ⱘ෎ ಴೒䈅ˈ⠽⧚೒䈅ˈᮄ䰜ҷ䇶ⱘ䗨ᕘ੠ᑣ߫ㄝǄ⬠䴶ձ䴴Ⳍֵ݇ᙃⱘ䍙㑻᭛ᴀ䖲᥹ˈᑊৃ⬅ 哴ᷛᮍ֓ⱘᅠ៤᪡԰Ǆ᭄᥂⫼⌕㸠ⱘᇍ䈵ⱘᔶᓣ䖯㸠㒘㒛ˈՓ⫼໻ᆊ❳ᙝⱘ㉏߿བˈⳌ݇ⱘ ᭛⤂ˈ෎಴ˈᦣ䗄ˈ੠ܟ䱚ⱘDNAㄝǄг䆌᳔䞡㽕ⱘᰃ,ACEDB㛑ᕜᆍᯧⱘ⬅Ѣᮄֵᙃ㗠㹿䞡ᮄ 䆒ᅮㅔऩⱘ೒㾷䇁㿔੠ᖿ䗳᭄᥂㺙䕑ⱘ਼ᳳՓACEDB䗖ড়ϔϾāᑳᓗ(throwaway)”᭄᥂ᑧⱘ ᓎゟҪৃ⫼Ѣϧ⫼ⱘ᭄᥂ߚᵤ䖬ৃ⫼Ѣ䆌໮∌Йᗻ᭄᥂ⱘ䞛䲚㗠ϨՓ⫼㗙ϡ䳔㽕㒣䖛ϧ䮼 ⱘ䅵ㅫᴎ੠᭄᥂ᑧⱘ䆁㒗ህৃҹՓ⫼ACEDBǄᇍѢ䌘⑤᳝䰤ⱘ䅵ߦˈ䖭ᕔᕔᰃއᅮՓ⫼ACEDB ⱘ݇䬂಴㋴Ǆ ᴀゴЏ㽕ᡞACEDB԰Ўᑣ᭄߫᥂ⱘㅵ⧚Ꮉ݋ᴹҟ㒡ˈ㗠ϡᰃᔧ԰ϔ⾡ᦤկ᭄᥂ⱘᮍ⊩Ǆ䖭䞠ᑊ ϡᰃᡞACEDBⱘ↣ϔ䚼ߚ䛑ϧ䮼ⱘҟ㒡ˈ㗠ᰃЏ㽕䲚Ё೼˖ACEDBⱘᮽᳳⱘ᭄᥂䞛䲚ⱘ԰⫼ˈ ੠Џ㽕䴶৥ݙ䚼Փ⫼㗙ⱘ⊼䞞ⱘ䖛⿟Ǆ⦄೼Փ⫼ACEDBᴹㅵ⧚ᑣ᭄߫᥂੠⫼Ѣ݊Ҫ䅵ߦⱘ᳝˖ ࠥḹ໻ᄺⱘSanger˄㣅೑˅ˈढⲯ乓໻ᄺⱘ෎಴㒘Ёᖗˈܟ㔫ᢝ໮໻ᄺ(Colorado State University)ⱘ Aedes aegypti෎಴㒘䅵ߦ ˈMassachusetts General ए䰶ⱘArabidopsis⠽ ⧚೒䈅䅵ߦ ੠ˈWalter੠ Eliza Hallⷨお䰶(WEHL)ⱘ⭳⮒෎಴㒘䅵ߦǄ 䇏㗙㚃ᅮӮᇍ᳝ᛳѢㅵ⧚੠ᦤկ⫳⠽ᄺ᭄᥂ⱘ䕃ӊⱘ催䗳ⱘথሩ䗳ᑺǄACEDBᴀ䑿ᰃ෎ѢUnix ㋏㒳ᓔথⱘˈᑊᔧ԰X-windowⱘᑨ⫼⿟ᑣ㹿佪⃵ሩ⼎ߎᴹⱘǄ⦄೼ˈ䆌໮⫼᠋ৃ䗮䖛ϛ㓈㔥 ˄World Wide Web˅ⱏ䰚ࠄ᭄݅݀᥂᳡ࡵ఼ϞᴹՓ⫼ᅗǄᇚᴹˈᕜৃ㛑⬅Java䇁㿔៪݊Ҫ㔥㒰䇁㿔㓪ݭⱘ᳝ҎӀ᳈❳ᙝ⬠䴶ⱘACEDBᇚߎ⦃ǄԚᴀゴЏ㽕ҟ㒡X-window⠜ᴀ˄Xace 4,3˅ ঞϢᅗⳌ݇ⱘ⡍ᗻǄ ⬠䴶 ҹϟㅔݭҷ㸼哴ᷛ᪡԰Ǆ LM˖哴ᷛᎺ䬂 MM˖哴ᷛЁ䬂 RM˖哴ᷛে䬂 ϔ㠀ⱘACEDB⫼᠋䗮䖛⌣㾜䍙᭛ᴀ䖲᥹ⱘ᭛ӊᴹѸѦⱘ᪡԰ACEDBǄ䖭⾡⌣㾜ᮍᓣⱘ⬠䴶བ೒ 13.1Ǆ䖭ᰃҢGrain Gene˄ϔϾ⫼ѢTriticeaeⱘ᭄᥂ᑧ˅਌পᴹⱘࣙ໮᳝৿ϾACEDBにষⱘ 䰏ড়にষǄ䖭ѯにষᰃϔ㋏߫哴ᷛ᪡԰ѻ⫳ⱘˈབ⫼᠋ᅮԡϸ⾡ϡৠⱘֵᙃݙᆍǄACEDBⱘЏ にষᰃԡѢ೒ЁᎺϞⱘにষˈᅗ೼䕃ӊᓔྟᯊህᰒ⼎ߎᴹǄ݊Ё᭄᳝߫᥂㉏ൟ⫼Ѣᶹ䯙Ǆ⚍ ㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ1/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十三章 ACEDB一个基因组信息的数据库页码,2/12 Reference类型(双击LM)打开一个 KeySet窗口,其中列出了许多 Reference类型的成员, 这些成员被称为对象。点击一个 reference对象,如BCG-28-487,则打开了第三个窗口(右下窗口)显示文献的细节,如作者,题目等。点击任何粗体字都可打开相应的窗口。图13.1 图13.1还包括一个遗传图谱(左下)。这是在 reference窗口下,点击ocus下的iBg弹出的。这是众多的用图形形式描述数据的方式中的一种。图中的 l ocus标记也是超文本连接的, 可通过点击(LM)把它击活。文本窗口中遗传图谱下的数据是可视的,就象在 reference窗口中一样。在这种情况下,如果有适当的数据和图形,数据库管理员就把 locus标记设置成缺省值,使它显示遗传图谱。关于 ACEDB还有一些在线的教育。这里特别推荐在 Sydney的澳大利亚遗传信息中心的 Bruno Gaeta提供的一个[7]。 Cornel l大学的 Dave. Mat theos正准备提供一个关于遗传图谱显示的教育内容[8]。后文还将更详细的介绍序列显示的特点。数据模型 ACEDB的核心部分是“数据模型”(或图形),这将决定数据库中的数据是如何组织的。各个模型可由简练的语言加以解释,这由数据库管理员来定义。各类数据可由如 sequence, gene, reference等类型来表示。各模型以如图13.2的形式保存在名为 model s.Wrm的文本文件中,它存在数据库的 spec目录下。在文本框中,设定显示数据的模型有很强的灵活性,但在其它的 ACEDB的显示中[9],需要各模型中包括有预先定义好的结构。这一内容将在后文的 “序列显示”中加以讨论。注意,更详细的模型介绍和 ACEDB中模型的问题可见[10]。读者可查阅不同的数据库来了解模型的适用范围 //thi s shows parti al model s for the sequence //Locus and Paper cl ass ?Sequence DNA UNI QUE DNA UNI QUE Int Structure Length UNI QUE Int Properti es Pseudogene Genomi c canoni cal Locus LOCus XREF Sequence Paper ?Paper Remark Text ?Locus Sequence Sequence XREF Locus Paper ? Paper ?paper Ti tle Text file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

ߏReference㉏ൟ˄ঠߏLM˅ᠧᓔϔϾKeySetにষˈ݊Ё߫ߎњ䆌໮Reference㉏ൟⱘ៤ਬˈ 䖭ѯ៤ਬ㹿⿄Ўᇍ䈵Ǆ⚍ߏϔϾreferenceᇍ䈵ˈབBCG-28-487ˈ߭ᠧᓔњ㄀ϝϾにষ˄েϟ にষ˅ᰒ⼎᭛⤂ⱘ㒚㡖ˈབ԰㗙ˈ乬ⳂㄝǄ⚍ߏӏԩ㉫ԧᄫ䛑ৃᠧᓔⳌᑨⱘにষǄ ೒13.1 ೒13.1䖬ࣙᣀϔϾ䘫Ӵ೒䈅˄Ꮊϟ˅Ǆ䖭ᰃ೼referenceにষϟˈ⚍ߏlocusϟⱘiBglᔍߎ ⱘǄ䖭ᰃӫ໮ⱘ⫼೒ᔶᔶᓣᦣ䗄᭄᥂ⱘᮍᓣЁⱘϔ⾡Ǆ೒Ёⱘlocusᷛ䆄гᰃ䍙᭛ᴀ䖲᥹ⱘˈ ৃ䗮䖛⚍ߏ˄LM˅ᡞᅗߏ⌏Ǆ᭛ᴀにষЁ䘫Ӵ೒䈅ϟⱘ᭄᥂ᰃৃ㾚ⱘˈህ䈵೼referenceにষ ЁϔḋǄ೼䖭⾡ᚙމϟˈབᵰ᳝䗖ᔧⱘ᭄᥂੠೒ᔶˈ᭄᥂ᑧㅵ⧚ਬህᡞlocusᷛ䆄䆒㕂៤㔎ⳕ ؐˈՓᅗᰒ⼎䘫Ӵ೒䈅Ǆ ݇ѢACEDB䖬᳝ϔѯ೼㒓ⱘᬭ㚆Ǆ䖭䞠⡍߿᥼㤤೼Sydneyⱘ▇໻߽Ѯ䘫ӴֵᙃЁᖗⱘBruno GaetaᦤկⱘϔϾ[7]ǄCornell໻ᄺⱘDave.Matthecosℷޚ໛ᦤկϔϾ݇Ѣ䘫Ӵ೒䈅ᰒ⼎ⱘᬭ 㚆ݙᆍ[8]Ǆৢ᭛䖬ᇚ᳈䆺㒚ⱘҟ㒡ᑣ߫ᰒ⼎ⱘ⡍⚍Ǆ ᭄᥂῵ൟ ACEDBⱘḌᖗ䚼ߚᰃĀ᭄᥂῵ൟā˄៪೒ᔶ˅ˈ䖭ᇚއᅮ᭄᥂ᑧЁⱘ᭄᥂ᰃབԩ㒘㒛ⱘǄ৘Ͼ ῵ൟৃ⬅ㅔ㒗ⱘ䇁㿔ࡴҹ㾷䞞ˈ䖭⬅᭄᥂ᑧㅵ⧚ਬᴹᅮНǄ৘㉏᭄᥂ৃ⬅བsequenceˈ geneˈreferenceㄝ㉏ൟᴹ㸼⼎Ǆ৘῵ൟҹབ೒13.2ⱘᔶᓣֱᄬ೼ৡЎmodels.wrmⱘ᭛ᴀ᭛ӊ Ёˈᅗᄬ೼᭄᥂ᑧⱘwspecⳂᔩϟǄ೼᭛ᴀḚЁˈ䆒ᅮᰒ⼎᭄᥂ⱘ῵ൟ᳝ᕜᔎⱘ♉⌏ᗻˈԚ೼ ݊ᅗⱘACEDBⱘᰒ⼎Ё[9]ˈ䳔㽕৘῵ൟЁࣙᣀ᳝乘ܜᅮНདⱘ㒧ᵘǄ䖭ϔݙᆍᇚ೼ৢ᭛ⱘ Āᑣ߫ᰒ⼎āЁࡴҹ䅼䆎Ǆ⊼ᛣˈ᳈䆺㒚ⱘ῵ൟҟ㒡੠ACEDBЁ῵ൟⱘ䯂乬ৃ㾕[10]Ǆ䇏㗙ৃ ᶹ䯙ϡৠⱘ᭄᥂ᑧᴹњ㾷῵ൟⱘ䗖⫼㣗ೈǄ //this shows partial models for the Sequence, //Locus and Paper class ?Sequence DNA UNIQUE ?DNA UNIQUE Int Structure Length UNIQUE Int Properties Pseudogene CDS Genomic_canonical Locus ?Locus XREF Sequence Paper ?Paper Remark Text ?Locus Sequence ?Sequence XREF Locus Paper ?Paper ?paper Title Text ㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ2/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十三章 ACEDB一个基因组信息的数据库页码,3/12 图13.2 modl es.wrm 为了展示一些模型的特点,我们先看为 sequence, l ocus,和 paper information这三种信息的模型。这些例子并不能展示这种模型语言的全部功能,但能展示一些重要的特点。模型有一个等级树的结构,就象概要图一样,数据开始于总括,然后沿许多支路进行处理越分越细。从树的根开始,每一个支点都代表一类(阶层)数据的一个子分裂。每一支路开始于一个标示符,或就此终结或带有许多字段,这里可填入数据, Structure,cDs,和 Paper 就是标示符的例子,Int,和? Paper是字段从左上开始,向下处理。透过 Sequence模型的例子(图13.2),我们可以看出,这种模型可让 DNA序列的内容同一个DNA对象,它的长度,及序列性质的类型(这里的 Proper ties分支分为三支)联系起来。还可知道序列的那一部分已被发布了,是否有一个位点与它对应,是否要对它进行什麼特别的说明。这一类的第一个字段(? Sequence)被存为一个对象名的存储器。对象名要能被唯一识别,许多与序列相关的其他信息要通过对象名附加给对象的。其他类型的字段有:Text(接受自由格式的文本), Float(用于浮点型数据),Date(用于日期),Int(用于整型数据) 种字段类型限制填入其中的数据类型。例如,一个长度型( I ength)中能填入100,但不能填 one hundred。作为缺省,一个字段可复制本身来接受多重数据的输入。这通常是有用的, 个序列会涉及到多重的论文( Paper),位点(loci),评论( remarks)。但是, UNI QUE限制一个字段对每一个对象只能有一种输入类型。在本例中,一个 sequence对象只能有一个长度,字段还有别的更复杂的限制,这里就不在涉及。通过使用字段,它们接受对象名,把信息在 ACEDB内互连起来。“?”前缀识别这些字段。考虑 sequence模型中的分支,它们把一个序列和一个出版物联系起来。 Paper pape 当为一个特定的序列把数据输入到? Paper字段后, Sequence对象和已命名的 Paper对象就会建立起链接,该链接通过在用户界面中点击Link来操作。如图13.1所示。但是,这种链接是单向的。虽然浏览者在 Sequence对象中能见可点击的粗体的 Paper字段,但相应的 Paper.对象却不能回联到 Sequence中。不过,许多数据库管理员都愿向用户提供双向的链接。可通过使用 XREF( cross- reference)来自动建立。一个 Sequence模型中的XREF的例子是 Locus ?LoCus XREF Sequence 个XREF字段有两个部分,XREF前面的部分是“目标类( cl ass)”,这里是? LOCUS,这里它必须是cass- XREFS而不能是nt,Text,Foat,或 DataType类型。XREF后面的是“目标标识符( target tag)”,这个标识符说明在目标类中哪些字段可用于建立交互式的链接。为了运行XREF, Locus类必须支持这种链接,这意味着在? Locus字段中,一个支路必须包括 Sequence目标标识符和有确定 regence对象的字段。这支路是: Sequence ?Sequence 为满足这个要求,当 Sequence对象中的? LOCUS字段一填入数据,XREF就建立交互式的链接, 对于数据库的管理员,这将大大简化双向链接的管理。更进一步的是建立全双向链接,使输入任何字段的数据都能建立双向链接,要作到这一点,我们应如下修改 Locus模型 Sequence ?Sequence XREF Locus 可用标准形式//对模型进行注解,(当 models.wm文件被读入时,一行中//右侧的内容将被忽略)。注解在编写 model s.Wm文件和数据文件时非常有用。 file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

೒13.2 modles.wrm Ўњሩ⼎ϔѯ῵ൟⱘ⡍⚍ˈ៥ӀܜⳟЎsequenceˈlocusˈ੠paper information䖭ϝ⾡ֵᙃ ⱘ῵ൟǄ䖭ѯ՟ᄤᑊϡ㛑ሩ⼎䖭⾡῵ൟ䇁㿔ⱘܼ䚼ࡳ㛑ˈԚ㛑ሩ⼎ϔѯ䞡㽕ⱘ⡍⚍Ǆ ῵ൟ᳝ϔϾㄝ㑻ᷥⱘ㒧ᵘˈህ䈵ὖ㽕೒ϔḋˈ᭄᥂ᓔྟѢᘏᣀˈ✊ৢ⊓䆌໮ᬃ䏃䖯㸠໘⧚ˈ 䍞ߚ䍞㒚ǄҢᷥⱘḍᓔྟˈ↣ϔϾᬃ⚍䛑ҷ㸼ϔ㉏˄䰊ሖ˅᭄᥂ⱘϔϾᄤߚ㺖Ǆ↣ϔᬃ䏃ᓔ ྟѢϔϾᷛ⼎ヺˈ៪ህℸ㒜㒧៪ᏺ᳝䆌໮ᄫ↉ˈ䖭䞠ৃ฿᭄ܹ᥂ˈStructureˈCDSˈ੠Paper ህᰃᷛ⼎ヺⱘ՟ᄤˈIntˈ੠?Paperᰃᄫ↉Ǆ ҢᎺϞᓔྟ৥ϟ໘⧚Ǆ䗣䖛Sequence῵ൟⱘ՟ᄤ˄೒13.2˅៥Ӏৃҹⳟߎˈ䖭⾡῵ൟৃ䅽 DNAᑣ߫ⱘݙᆍৠϔϾDNAᇍ䈵ˈᅗⱘ䭓ᑺˈঞᑣ߫ᗻ䋼ⱘ㉏ൟ˄䖭䞠ⱘProperitiesߚᬃߚЎ ϝᬃ˅㘨㋏䍋ᴹǄ䖬ৃⶹ䘧ᑣ߫ⱘ䙷ϔ䚼ߚᏆ㹿থᏗњˈᰃ৺᳝ϔϾԡ⚍Ϣᅗᇍᑨˈᰃ৺㽕 ᇍᅗ䖯㸠Ҕ咑⡍߿ⱘ䇈ᯢǄ 䖭ϔ㉏ⱘ㄀ϔϾᄫ↉˄?Sequence˅㹿ᄬЎϔϾᇍ䈵ৡⱘᄬټ఼Ǆᇍ䈵ৡ㽕㛑㹿ଃϔ䆚߿ˈ䆌 ໮Ϣᑣ߫Ⳍ݇ⱘ݊Ҫֵᙃ㽕䗮䖛ᇍ䈵ৡ䰘ࡴ㒭ᇍ䈵ⱘǄ݊Ҫ㉏ൟⱘᄫ↉᳝˖Text˄᥹ফ㞾⬅ Ḑᓣⱘ᭛ᴀ˅ˈFloat˄⫼Ѣ⍂⚍ൟ᭄᥂˅ˈDate˄⫼Ѣ᮹ᳳ˅ˈInt˄⫼Ѣᭈൟ᭄᥂˅Ǆϔ ⾡ᄫ↉㉏ൟ䰤ࠊܹ݊฿Ёⱘ᭄᥂㉏ൟǄ՟བˈϔϾ䭓ᑺൟ˄length˅Ё㛑฿ܹ100ˈԚϡ㛑฿ one hundredǄ԰Ў㔎ⳕˈϔϾᄫ↉ৃ໡ࠊᴀ䑿ᴹ᥹ফ໮䞡᭄᥂ⱘ䕧ܹǄ䖭䗮ᐌᰃ᳝⫼ⱘˈϔ Ͼᑣ߫Ӯ⍝ঞࠄ໮䞡ⱘ䆎᭛˄Paper˅ˈԡ⚍˄loci˅ˈ䆘䆎˄remarks˅ǄԚᰃˈUNIQUE䰤 ࠊϔϾᄫ↉ᇍ↣ϔϾᇍ䈵া㛑᳝ϔ⾡䕧ܹ㉏ൟǄ೼ᴀ՟ЁˈϔϾsequenceᇍ䈵া㛑᳝ϔϾ䭓 ᑺˈᄫ↉䖬᳝߿ⱘ᳈໡ᴖⱘ䰤ࠊˈ䖭䞠ህϡ೼⍝ঞǄ 䗮䖛Փ⫼ᄫ↉ˈᅗӀ᥹ফᇍ䈵ৡˈᡞֵᙃ೼ACEDBݙѦ䖲䍋ᴹǄĀ˛āࠡ㓔䆚߿䖭ѯᄫ↉Ǆ㗗㰥sequence῵ൟЁⱘߚˈᬃᅗӀᡞϔϾᑣ߫੠ϔϾߎ⠜⠽㘨㋏䍋ᴹǄ Paper ?paper ᔧЎϔϾ⡍ᅮⱘᑣ߫ᡞ᭄᥂䕧ܹࠄ?Paperᄫ↉ৢˈSequenceᇍ䈵੠ᏆੑৡⱘPaperᇍ䈵ህӮᓎ ゟ䍋䫒᥹ˈ䆹䫒᥹䗮䖛೼⫼᠋⬠䴶Ё⚍ߏLinkᴹ᪡԰Ǆབ೒13.1᠔⼎ǄԚᰃˈ䖭⾡䫒᥹ᰃऩ ৥ⱘǄ㱑✊⌣㾜㗙೼Sequenceᇍ䈵Ё㛑㾕ৃ⚍ߏⱘ㉫ԧⱘPaperᄫ↉ˈԚⳌᑨⱘPaperᇍ䈵ै ϡ㛑ಲ㘨ࠄSequenceЁǄϡ䖛ˈ䆌໮᭄᥂ᑧㅵ⧚ਬ䛑ᜓ৥⫼᠋ᦤկঠ৥ⱘ䫒᥹Ǆৃ䗮䖛Փ⫼ XREF˄cross-reference˅ᴹ㞾ࡼᓎゟǄϔϾSequence῵ൟЁⱘXREFⱘ՟ᄤᰃ˖ Locus ?Locus XREF Sequence ϔϾXREFᄫ↉᳝ϸϾ䚼ߚˈXREFࠡ䴶ⱘ䚼ߚᰃĀⳂᷛ㉏˄class˅āˈ䖭䞠ᰃ?Locusˈ䖭䞠ᅗ ᖙ乏ᰃclass-XREFs㗠ϡ㛑ᰃIntˈTextˈFloatˈ៪DateType㉏ൟǄXREFৢ䴶ⱘᰃĀⳂᷛᷛ䆚ヺ˄target tag˅āˈ䖭Ͼᷛ䆚ヺ䇈ᯢ೼Ⳃᷛ㉏Ёાѯᄫ↉ৃ⫼ѢᓎゟѸѦᓣⱘ䫒᥹ǄЎњ 䖤㸠XREFˈLocus㉏ᖙ乏ᬃᣕ䖭⾡䫒᥹ˈ䖭ᛣੇⴔ೼?Locusᄫ↉ЁˈϔϾᬃ䏃ᖙ乏ࣙᣀ SequenceⳂᷛᷛ䆚ヺ੠᳝⹂ᅮseqenceᇍ䈵ⱘᄫ↉Ǆ䖭ᬃ䏃ᰃ˖ Sequence ?Sequence Ў⒵䎇䖭Ͼ㽕∖ˈᔧSequenceᇍ䈵Ёⱘ?Locusᄫ↉ϔ฿᭄ܹ᥂ˈXREFህᓎゟѸѦᓣⱘ䫒᥹ˈ ᇍѢ᭄᥂ᑧⱘㅵ⧚ਬˈ䖭ᇚ໻໻ㅔ࣪ঠ৥䫒᥹ⱘㅵ⧚Ǆ᳈䖯ϔℹⱘᰃᓎゟܼঠ৥䫒᥹ˈՓ䕧 ܹӏԩᄫ↉ⱘ᭄᥂䛑㛑ᓎゟঠ৥䫒᥹ˈ㽕԰ࠄ䖭ϔ⚍ˈ៥ӀᑨབϟׂᬍLocus῵ൟ˖ Sequence ?Sequence XREF Locus ৃ⫼ᷛޚᔶᓣ//ᇍ῵ൟ䖯㸠⊼㾷ˈ˄ᔧmodels.wrm᭛ӊ㹿䇏ܹᯊˈϔ㸠Ё//েջⱘݙᆍᇚ㹿 ᗑ⬹˅Ǆ⊼㾷೼㓪ݭmodels.wrm᭛ӊ੠᭄᥂᭛ӊᯊ䴲ᐌ᳝⫼Ǆ ㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ3/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十三章 ACEDB一个基因组信息的数据库页码,4/12 效据输入数据是以模型做为模板输入到 ACEDB中的。数据文件可通过Ⅹ- wi ndows界面或直接通过薮据库中的命令行把数据输入给数据库的[12]。这个命令行界面,这里虽然不介绍,但在从其他处理过程的自动收集数据操作中却很重要。还可在运行数据库时,直接建立个人的对象。选用什麽方法取决于数据库管理员参数的选择,数据量的多少和数据的性质。要把大量数据从文件中高效的输入,就很少会使用交互式的方法。当文件被调用时,直接使数据格式化,还有个“段落”来描述这个对象(用空行来分开每一个段落),每段的第一行总是类名,接下来是对象名,所以字段通过先于它们的标识符立刻被识别。为加入 sequence和 paper对象,我们应如图13.3输入数据。注意,我们不用填写每一个字段,标识符也不用同模型中显示的顺序一样。但是,标识符-字段的组合必须符合模型,如果不符合,数据库就会认为是出错。所以, Genomi c canoni cal模型后不能跟有字段。那些在同一行中标识符后跟有其他信息的输入数据也是错误的。更细致的关于数据装载过程的讨论见[13],它包括有:大型数据文件的准备,数据的删除,及对象更名等内容。查询和表格 ACEDB用査询的语言来应用对象的性质和不同数据间的链接。有几个查询的界面:纯文本的形式(这里不涉及),一个“原始”的査询工具,用户在查询时直接输入命令;“ query be exmpl e(范例式査询)”工具,它实现功能就象填表一样;“ query bui I der(查询创建器)”,它帮助用户确切的建立复杂的查询。查询的响应是一系列符合具体标准的对象名 (技术上如图13.1中的 KeySet),査询的语法是固定的,合法的查询必须和模型的结构兼容,因此 Find Sequence ATHF0O1: Fol l ow Locus 是一个合法的査询。如前所述,它对应于模型和数据,这个查询的回应将列出联系这一序列的位点,但是查询, Find Sequence AGE>10 虽然符合语法,但是错误的,因为 Sequence类中没有Aqge标识符或相关的字段。如果,一定要这样査询,可由数据库管理员修改模型,添加相应的字段 ACEDB中还包括有 Tabl eAker,一个用于创建相关表格的工具。它的界面很复杂,但功能很强,它可让用户从内联的各类中引用和关联信息。相对于前述的査询, Tabl eAker能显示和检索对象中的信息,而不只是列出对象名。关于查询和 Tabl eAker的教学内容见[14-16 te "AtTHFool Length 3879 Remark a very strange Arabi dopsi s thal i ana DNA Locus"FOOl Genomi c canoni cal Remark "a second remark LoCUs FOOl file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

᭄᥂䕧ܹ ᭄᥂ᰃҹ῵ൟخЎ῵ᵓ䕧ܹࠄACEDBЁⱘǄ᭄᥂᭛ӊৃ䗮䖛X-windows⬠䴶៪Ⳉ᥹䗮䖛᭄᥂ᑧ ЁⱘੑҸ㸠ᡞ᭄᥂䕧ܹ㒭᭄᥂ᑧⱘ[12]Ǆ䖭ϾੑҸ㸠⬠䴶ˈ䖭䞠㱑✊ϡҟ㒡ˈԚ೼Ң݊Ҫ໘ ⧚䖛⿟ⱘ㞾ࡼᬊ䲚᭄᥂᪡԰Ёैᕜ䞡㽕Ǆ䖬ৃ೼䖤㸠᭄᥂ᑧᯊˈⳈ᥹ᓎゟϾҎⱘᇍ䈵Ǆ䗝⫼ Ҕ咑ᮍ⊩পއѢ᭄᥂ᑧㅵ⧚ਬখ᭄ⱘ䗝ᢽˈ᭄᥂䞣ⱘ໮ᇥ੠᭄᥂ⱘᗻ䋼Ǆ㽕ᡞ໻䞣᭄᥂Ң᭛ ӊЁ催ᬜⱘ䕧ܹˈህᕜᇥӮՓ⫼ѸѦᓣⱘᮍ⊩Ǆᔧ᭛ӊ㹿䇗⫼ᯊˈⳈ᥹Փ᭄᥂Ḑᓣ࣪ˈ䖬᳝ ϔϾĀ↉㨑āᴹᦣ䗄䖭Ͼᇍ䈵˄⫼ぎ㸠ᴹߚᓔ↣ϔϾ↉㨑˅ˈ↣↉ⱘ㄀ϔ㸠ᘏᰃ㉏ৡˈ᥹ϟ ᴹᰃᇍ䈵ৡˈ᠔ҹᄫ↉䗮䖛ܜѢᅗӀⱘᷛ䆚ヺゟࠏ㹿䆚߿ǄЎࡴܹsequence੠paperᇍ䈵ˈ៥ Ӏᑨབ೒13.3䕧᭄ܹ᥂Ǆ ⊼ᛣˈ៥Ӏϡ⫼฿ݭ↣ϔϾᄫ↉ˈᷛ䆚ヺгϡ⫼ৠ῵ൟЁᰒ⼎ⱘ乎ᑣϔḋǄԚᰃˈᷛ䆚ヺᄫ ↉ⱘ㒘ড়ᖙ乏ヺড়῵ൟˈབᵰϡヺড়ˈ᭄᥂ᑧህӮ䅸Ўᰃߎ䫭Ǆ᠔ҹˈGenomic_Canonical῵ ൟৢϡ㛑䎳᳝ᄫ↉Ǆ䙷ѯ೼ৠϔ㸠Ёᷛ䆚ヺৢ䎳᳝݊Ҫֵᙃⱘ䕧᭄ܹ᥂гᰃ䫭䇃ⱘǄ᳈㒚㟈 ⱘ݇Ѣ᭄᥂㺙䕑䖛⿟ⱘ䅼䆎㾕[13]ˈᅗࣙᣀ᳝˖໻ൟ᭄᥂᭛ӊⱘޚˈ໛᭄᥂ⱘߴ䰸ˈঞᇍ䈵 ᳈ৡㄝݙᆍǄ ᶹ䆶੠㸼Ḑ ACEDB⫼ᶹ䆶ⱘ䇁㿔ᴹᑨ⫼ᇍ䈵ⱘᗻ䋼੠ϡৠ᭄᥂䯈ⱘ䫒᥹Ǆ᳝޴Ͼᶹ䆶ⱘ⬠䴶˖㒃᭛ᴀⱘᔶ ᓣ˄䖭䞠ϡ⍝ঞ˅ˈϔϾĀॳྟāⱘᶹ䆶Ꮉ݋೼᠋⫼ˈᶹ䆶ᯊⳈ᥹䕧ܹੑҸ˗“query be exmple˄㣗՟ᓣᶹ䆶˅āᎹ݋ˈᅗᅲ⦄ࡳ㛑ህ䈵฿㸼ϔḋ˗“query builder˄ᶹ䆶߯ᓎ ఼˅āˈᅗᐂࡽ⹂᠋⫼ߛⱘᓎゟ໡ᴖⱘᶹ䆶Ǆᶹ䆶ⱘડᑨᰃϔ㋏߫ヺড়݋ᷛԧޚⱘᇍ䈵ৡ ˄ᡔᴃϞབ೒13.1Ёⱘ KeySet˅ˈᶹ䆶ⱘ䇁⊩ᰃ೎ᅮⱘˈড়⊩ⱘᶹ䆶ᖙ乏੠῵ൟⱘ㒧ᵘݐ ᆍˈ಴ℸ Find Sequence ATHFOO1; Follow Locus ᰃϔϾড়⊩ⱘᶹ䆶Ǆབࠡ᠔䗄ˈᅗᇍᑨѢ῵ൟ੠᭄᥂ˈ䖭Ͼᶹ䆶ⱘಲᑨᇚ߫ߎ㘨㋏䖭ϔᑣ߫ ⱘԡ⚍ˈԚᰃᶹ䆶ˈ Find Sequence AGE>10 㱑✊ヺড়䇁⊩ˈԚᰃ䫭䇃ⱘˈ಴ЎSequence㉏Ё≵᳝Ageᷛ䆚ヺ៪Ⳍ݇ⱘᄫ↉Ǆབᵰˈϔᅮ㽕䖭ḋᶹ䆶ˈৃ⬅᭄᥂ᑧㅵ⧚ਬׂᬍ῵ൟˈ⏏ࡴⳌᑨⱘᄫ↉Ǆ ACEDBЁ䖬ࣙᣀ᳝TableMakerˈϔϾ⫼Ѣ߯ᓎⳌ݇㸼ḐⱘᎹ݋Ǆᅗⱘ⬠䴶ᕜ໡ᴖˈԚࡳ㛑ᕜ ᔎˈᅗৃ䅽⫼᠋Ңݙ㘨ⱘ৘㉏Ёᓩ⫼੠݇㘨ֵᙃǄⳌᇍѢࠡ䗄ⱘᶹ䆶ˈTableMaker㛑ᰒ⼎੠ Ẕ㋶ᇍ䈵Ёⱘֵᙃˈ㗠ϡাᰃ߫ߎᇍ䈵ৡǄ݇Ѣᶹ䆶੠TableMakerⱘᬭᄺݙᆍ㾕[14-16]Ǆ Sequence"ATHFOOI" Length 3879 Remark " a very strange Arabidopsis thaliana DNA." Locus "FOOI" Genomic_canonical Remark " a second remark" Locus "FOOI" ㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ4/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十三章 ACEDB一个基因组信息的数据库页码,5/12 Paper "smi th_1997_aahmt 图13.3 ACEDB的数据文件使用性和安装 ACEDB可从许多免费访问的FTP站点获得。在标准发布中带有为Unix系统的安装说明。还可为那些需要重新编辑的用户提供资源代码。关于FTP与平台的详细内容可从前面已提到的FAQ中找到[3]。本章的内容是关于版本4.3的 ACEDB,也是写作本书时的流行版本。新的内容会定期的出版在 ACEDB的新闻组中[17] ACEDB中的序列分析引论图形格式的显示可让用户在 ACEDB中快速收集和分析遗传数据。虽然Map和 Cl one Gird显示, 它们支持遗传图谱和物理图谱项目,并且可用图形显示来代表生物化学的途径,但我们的重点在序列分析序列的显示是一种特征图谱( Feature Map,Fmap),它链接有许多工具,其中包括Gene Finder[18]; Blixen,一种 BLAST[19]多重比对观察器[20]:D0TTER,一种点-图程序[21]。综合这些工具,为序列分析提供了丰富的图形环境。虽然设计的一般性允许来自于主要模型系统,病原体,和人类的的序列用类似的方法进行分析,但Fmap最初是为支持线虫(C. elegans)基因组序列计划而开发的。特征图谱特征图谱是一种高度可配置的显示格式,图13.4显示了一张来自于 Schi zosaccharomyces pombe的rhp6的己配置的显示样式。该图展现了这种显示形式的一般结构。顶部是按钮和文字,下面是若干列,这些列从左到右用红色数字记数,下面从左到右加以解释: 1. Locator:绿色的框显示完整序列的蛋白质(黑色条)。移动操作通过:a) Zoom In, Zoom out,和 Whol e按钮;b)点击绿色框并滑动(LM);c)点击定位条中心的右侧 (MM),点击定位条的左侧(LM)可滚动和放缩。 2. Sequence and ends:全白色框和序列对象名(EM:250728),全白框表示几个 sequence(序列)对象重叠群的交叠部分(本例中没有交叠) 3. Summary:黄框中其他颜色条强调某些特性。兰色条界定了“活性区”。 4. Scale:用顶部的 Ori gin文本输入框,重定记数从序列中的强制点开始。 5. Genes:" Genes”这里表示完整的和部分的转录序列[如mRNA或编码序列(CDS:从转译起始密码子到终止密码子),它决定着外显子结构]。外显子(兰色轮廓框)和内涵子 (线条联着外显子)被显示出 6. Features:暗红色框与除了能从EMBL特征表和 GeneBank记录中找到的基因以外的特征相联系 7.AG:小黄色框代表着每个阅读框中的潜在的甲硫氨酸转译起始密码子,通过配置 GeneFi nder表,可建造其他的密码子。 file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

Paper "smith_1997_aahmt" ೒13.3 ACEDBⱘ᭄᥂᭛ӊ Փ⫼ᗻ੠ᅝ㺙 ACEDBৃҢ䆌໮ܡ䌍䆓䯂ⱘFTPキ⚍㦋ᕫǄ೼ᷛޚথᏗЁᏺ᳝ЎUnix㋏㒳ⱘᅝ㺙䇈ᯢǄ䖬ৃЎ 䙷ѯ䳔㽕䞡ᮄ㓪䕥ⱘ⫼᠋ᦤկ䌘⑤ҷⷕǄ݇ѢFTPϢᑇৄⱘ䆺㒚ݙᆍৃҢࠡ䴶ᏆᦤࠄⱘFAQЁ ᡒࠄ]3]Ǆᴀゴⱘݙᆍᰃ݇Ѣ⠜ᴀ4.3ⱘACEDBˈгᰃݭ԰ᴀкᯊⱘ⌕㸠⠜ᴀǄᮄⱘݙᆍӮᅮᳳ ⱘߎ⠜೼ACEDBⱘᮄ䯏㒘Ё[17]Ǆ ACEDBЁⱘᑣ߫ߚᵤ ᓩ䆎 ೒ᔶḐᓣⱘᰒ⼎ৃ䅽⫼᠋೼ACEDBЁᖿ䗳ᬊ䲚੠ߚᵤ䘫Ӵ᭄᥂Ǆ㱑✊Map੠Clone Girdᰒ⼎ˈ ᅗӀᬃᣕ䘫Ӵ೒䈅੠⠽⧚೒䈅乍ⳂˈᑊϨৃ⫼೒ᔶᰒ⼎ᴹҷ㸼⫳⠽࣪ᄺⱘ䗨ᕘˈԚ៥Ӏⱘ䞡 ⚍೼ᑣ߫ߚᵤǄ ᑣ߫ⱘᰒ⼎ᰃϔ⾡⡍ᕕ೒䈅˄Feature Map,Fmap˅ˈᅗ䫒᥹᳝䆌໮Ꮉ݋݊ˈЁࣙᣀGene Finder[18]˗Blixemˈϔ⾡BLAST[19]໮䞡↨ᇍ㾖ᆳ఼[20]˗DOTTERˈϔ⾡⚍೒⿟ᑣ[21]Ǆ 㓐ড়䖭ѯᎹ݋ˈЎᑣ߫ߚᵤᦤկњЄᆠⱘ೒ᔶ⦃๗Ǆ 㱑✊䆒䅵ⱘϔ㠀ᗻܕ䆌ᴹ㞾ѢЏ㽕῵ൟ㋏㒳ˈ⮙ॳԧˈ੠Ҏ㉏ⱘⱘᑣ߫⫼㉏Ԑⱘᮍ⊩䖯㸠ߚ ᵤˈԚFmap᳔߱ᰃЎᬃᣕ㒓㰿˄C.elegans˅෎಴㒘ᑣ߫䅵ߦ㗠ᓔথⱘǄ ⡍ᕕ೒䈅 ⡍ᕕ೒䈅ᰃϔ⾡催ᑺৃ䜡㕂ⱘᰒ⼎Ḑᓣˈ೒13.4ᰒ⼎њϔᓴᴹ㞾ѢSchizosaccharomyces pombeⱘrhp6ⱘᏆ䜡㕂ⱘᰒ⼎ḋᓣǄ䆹೒ሩ⦄њ䖭⾡ᰒ⼎ᔶᓣⱘϔ㠀㒧ᵘǄ乊䚼ᰃᣝ䪂੠᭛ ᄫˈϟ䴶ᰃ㢹ᑆ߫ˈ䖭ѯ߫ҢᎺࠄে⫼㑶㡆᭄ᄫ䆄᭄ˈϟ䴶ҢᎺࠄেࡴҹ㾷䞞˖ 1. Locator: 㓓㡆ⱘḚᰒ⼎ᅠᭈᑣ߫ⱘ㲟ⱑ䋼˄咥㡆ᴵ˅Ǆ⿏ࡼ᪡԰䗮䖛˖a)Zoom Inˈ Zoom Outˈ੠Wholeᣝ䪂˗b)⚍ߏ㓓㡆Ḛᑊ⒥ࡼ˄LM˅˗c)⚍ߏᅮԡᴵЁᖗⱘেջ ˄MM˅ˈ⚍ߏᅮԡᴵⱘᎺջ˄LM˅ৃ⒮ࡼ੠ᬒ㓽Ǆ 2. Sequence and ends˖ܼⱑ㡆Ḛ੠ᑣ߫ᇍ䈵ৡ˄EM˖250728˅ˈܼⱑḚ㸼⼎޴Ͼ sequence˄ᑣ߫˅ᇍ䈵䞡঴㕸ⱘѸ঴䚼ߚ˄ᴀ՟Ё≵᳝Ѹ঴˅Ǆ 3. Summary˖咘ḚЁ݊Ҫ买㡆ᴵᔎ䇗ᶤѯ⡍ᗻǄ݄㡆ᴵ⬠ᅮњĀ⌏ᗻऎāǄ 4. Scale˖⫼乊䚼ⱘOrigin᭛ᴀ䕧ܹḚˈ䞡ᅮ䆄᭄Ңᑣ߫Ёⱘᔎࠊ⚍ᓔྟǄ 5. Genes˖“Genes”䖭䞠㸼⼎ᅠᭈⱘ੠䚼ߚⱘ䕀ᔩᑣ߫>བmRNA៪㓪ⷕᑣ߫˄CDS˖Ң䕀䆥䍋ྟᆚⷕᄤࠄ㒜ℶᆚⷕᄤ˅ˈᅗއᅮⴔ໪ᰒᄤ㒧ᵘ@Ǆ໪ᰒᄤ˄݄㡆䕂ᒧḚ˅੠ݙ⎉ᄤ ˄㒓ᴵ㘨ⴔ໪ᰒᄤ˅㹿ᰒ⼎ߎǄ 6. Features: ᱫ㑶㡆ḚϢ䰸њ㛑ҢEMBL⡍ᕕ㸼੠GeneBank䆄ᔩЁᡒࠄⱘ෎಴ҹ໪ⱘ⡍ᕕⳌ 㘨㋏Ǆ 7. ATG˖ᇣ咘㡆Ḛҷ㸼ⴔ↣Ͼ䯙䇏ḚЁⱘ┰೼ⱘ⬆⸿⇼䝌䕀䆥䍋ྟᆚⷕᄤˈ䗮䖛䜡㕂 GeneFinder㸼ˈৃᓎ䗴݊ҪⱘᆚⷕᄤǄ ㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ5/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十三章 ACEDB一个基因组信息的数据库页码,6/12 8. ORFS:黑色水平线代表每个开放阅读框中的终止密码子。第二阅读框这里也被显示。 9. Gene Finder Codi ng Sequence:灰色框表示高概率蛋白编码的区域。 10. Codi ng Frame:兰色轮廓框表示阅读框,从中可得到每个外显子。 11. Pssearch:青色框表示相对PROS|TE数据库中一个基元的匹配。 12.BAS7K:兰色框代表局部最大成对节段( maxi mal segment pairs,MSPs)(在 BLAST中称HSPs,见第七章)。它来自蛋白质序列中的 BLASTX查找。 13. Gene trans/ ati on:通过点击(RM)基因可动态转录和染色,这将击活一个菜单,选取选项 Show trans| ati on和 Col or exons。 14. BLASIM:黄色框代表从核苷数据库的 BLASTN查找中查出的MSPs。 15./ NIRON HMM浅橘黄色框代表了一个内涵子预测程序的预测结果。 16. Gene Finder splice Si te:向上指的点线代表剪接受体,下指点线是剪接供体。(染色的位点是在同一区段内),在基因预测时将用到绿色的特征(剪接位点,ATG密码子,和中止密码子)。 17. DNA Sequence:核苷序列和其同等物。碱基(Base)1被设置为转译起始密码子A(甲硫氨酸,ATG)。通过选择点击基因(RM)产生的菜单中的 Col or Exon选项,外显子高亮成黄色,剪接的密码子成紫色,终止密码子成红色。序列从5′到3′端,点击Rev-Comp按钮 (LM)可显示相应的一列。Rev-Comp菜单(RM)中有选项来单独反转和补充序列图134 Sequence(序列)对象的显示主要通过点击 Col umn按钮来配置,其中有很多触发器来打开或关闭各列。图13.4中并没有显示全部序列,显示那些列由数据库的设置来决定。一些列是通用的(ATG,ORFS,和DNA),一些取决于 GeneFi nder的安装(如 GEnerI nder Codi ng egments和 GeneFi nder Spl ice Si te),其他取决于特定数据库的监护( curati on)。管理员还能加入代表外部程序分析序列结果的列(如 BLASTX, BLASTN, I NTRON,HM等)。选取一个特征可把相应的序列高亮成粉色,相应特征的信息显示在顶部的兰色拦中。图13.4 中,CES的最后一个外显子被选种。如果所选的特征是一个数据库的对象的话,双击可产生个文本窗口,可浏览Fmap显示下的数据 Efetch和B|ixem 选择一个代表 BLASTN和 BLASTX数据库查找结果的框,将击活一个带有两个选项 Efetch和 Anal yse in Bl i xem的菜单。 Efetch[22]是一个 ACEDB的外部程序,当需要数据库(如BMBL或 GeneBank)中的数据时,它开始检索,它还可以存储 ACEDB中是所有序列的记录。如果序列的数量很大,大量的同源物会影响该选项在分配 ACEDB数据库时是灵敏性。如果,主序列数据库已被使用,那取回的( Fetchi ng)记录也要去除用户系统中的多余数据。如果,序列数据库同其他程序同被索引,诸如 Sequence Retrieval System(见第五章)。用简单的脚本, Efetch就能被仿效,如同程序文献资料提到的那样菜单中的第二个选项可运行 Bli xm[20],一个用来显示 BLAST比对的程序。图13.5也是以部分的S. pombe rhp6基因为例,来说明从 BLASTX框中击活的 BLI XEM窗口。在顶部,是以序列MsPs 的识别率的百分比来显示序列位置的,用若干平行的线条来代表MSPs,用高亮的框来限制比 file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

8. ORFs˖咥㡆∈ᑇ㒓ҷ㸼↣Ͼᓔᬒ䯙䇏ḚЁⱘ㒜ℶᆚⷕᄤǄ㄀Ѡ䯙䇏Ḛ䖭䞠г㹿ᰒ⼎Ǆ 9. Gene Finder Coding Sequence˖♄㡆Ḛ㸼⼎催ὖ⥛㲟ⱑ㓪ⷕⱘऎඳǄ 10. Coding Frame˖݄㡆䕂ᒧḚ㸼⼎䯙䇏ḚˈҢЁৃᕫࠄ↣Ͼ໪ᰒᄤǄ 11. Pssearch˖䴦㡆Ḛ㸼⼎ⳌᇍPROSITE᭄᥂ᑧЁϔϾ෎ܗⱘऍ䜡Ǆ 12. BLASTX˖݄㡆Ḛҷ㸼ሔ䚼᳔໻៤ᇍ㡖↉˄maximal segment pairs,MSPs˅˄೼BLASTЁ ⿄HSPsˈ㾕㄀ϗゴ˅Ǆᅗᴹ㞾㲟ⱑ䋼ᑣ߫ЁⱘBLASTXᶹᡒǄ 13. Gene Translation˖䗮䖛⚍ߏ˄RM˅෎಴ৃࡼᗕ䕀ᔩ੠ᶧ㡆ˈ䖭ᇚߏ⌏ϔϾ㦰ऩˈ䗝প 䗝乍Show Translation੠Color ExonsǄ 14. BLASTN˖咘㡆Ḛҷ㸼ҢḌ㣋᭄᥂ᑧⱘBLASTNᶹᡒЁᶹߎⱘMSPsǄ 15. INTRON_HMM˖⌙‬咘㡆Ḛҷ㸼њϔϾݙ⎉ᄤ乘⌟⿟ᑣⱘ乘⌟㒧ᵰǄ 16. Gene Finder Splice Site˖৥Ϟᣛⱘ⚍㒓ҷ㸼࠾᥹ফԧˈϟᣛ⚍㒓ᰃ࠾᥹կԧǄ˄ᶧ 㡆ⱘԡ⚍ᰃ೼ৠϔऎ↉ݙ಴෎೼ˈ˅乘⌟ᯊᇚ⫼ࠄ㓓㡆ⱘ⡍ᕕ˄࠾᥹ԡ⚍ˈATGᆚⷕᄤˈ੠Ё ℶᆚⷕᄤ˅Ǆ 17. DNA Sequence˖Ḍ㣋ᑣ߫੠݊ৠㄝ⠽Ǆ⺅෎˄Base˅㹿䆒㕂Ў䕀䆥䍋ྟᆚⷕᄤ$˄⬆⸿ ⇼䝌ˈATG˅Ǆ䗮䖛䗝ᢽ⚍ߏ˄಴෎RM˅ѻ⫳ⱘ㦰ऩЁⱘColor Exon䗝乍ˈ໪ᰒᄤ催҂៤咘㡆ˈ࠾᥹ⱘᆚⷕᄤ៤㋿㡆ˈ㒜ℶᆚⷕᄤ៤㑶㡆Ǆᑣ߫Ң5’ࠄ3’ッˈ⚍ߏRev-Compᣝ䪂 ˄LM˅ৃᰒ⼎Ⳍᑨⱘϔ߫ǄRev-Comp㦰ऩ˄RM˅Ё᳝䗝乍ᴹऩ⣀ড䕀੠㸹ܙᑣ߫Ǆ ೒13.4 Sequence˄ᑣ߫˅ᇍ䈵ⱘᰒ⼎Џ㽕䗮䖛⚍ߏColumnᣝ䪂ᴹ䜡㕂ˈ݊Ё᳝ᕜ໮㾺থ఼ᴹᠧᓔ៪ ݇䯁৘߫Ǆ೒13.4Ёᑊ≵᳝ᰒ⼎ܼ䚼ᑣ߫ˈᰒ⼎䙷ѯ߫⬅᭄᥂ᑧⱘ䆒㕂ᴹއᅮǄϔѯ߫ᰃ䗮 ⫼ⱘ˄ATGˈORFsˈ੠DNA˅ˈϔѯপއѢGeneFinderⱘᅝ㺙˄བGeneFinder Coding Segments੠GeneFinder Splice Site˅ˈ݊ҪপއѢ⡍ᅮ᭄᥂ᑧⱘⲥᡸ˄curation˅Ǆㅵ⧚ ਬ䖬㛑ࡴܹҷ㸼໪䚼⿟ᑣߚᵤᑣ߫㒧ᵰⱘ߫˄བBLASTXˈBLASTNˈINTRONˈHMMㄝ˅Ǆ 䗝পϔϾ⡍ᕕৃᡞⳌᑨⱘᑣ߫催҂៤㉝㡆ˈⳌᑨ⡍ᕕⱘֵᙃᰒ⼎೼乊䚼ⱘ݄㡆ᢺЁǄ೒13.4 ЁˈCESⱘ᳔ৢϔϾ໪ᰒᄤ㹿䗝⾡Ǆབᵰ᠔䗝ⱘ⡍ᕕᰃϔϾ᭄᥂ᑧⱘᇍ䈵ⱘ䆱ˈঠߏৃѻ⫳ϔ Ͼ᭛ᴀにষˈৃ⌣㾜Fmapᰒ⼎ϟⱘ᭄᥂Ǆ Efetch੠Blixem 䗝ᢽϔϾҷ㸼BLASTN੠BLASTX᭄᥂ᑧᶹᡒ㒧ᵰⱘḚˈᇚߏ⌏ϔϾᏺ᳝ϸϾ䗝乍Efetch੠ Analyse in Blixemⱘ㦰ऩǄEfetch[22]ᰃϔϾACEDBⱘ໪䚼⿟ᑣˈᔧ䳔㽕᭄᥂ᑧ˄བBMBL៪ GeneBank˅Ёⱘ᭄᥂ᯊˈᅗᓔྟẔ㋶ˈᅗ䖬ৃҹᄬټACEDBЁᰃ᠔᳝ᑣ߫ⱘ䆄ᔩǄབᵰᑣ߫ⱘ ᭄䞣ᕜ໻ˈ໻䞣ⱘৠ⑤⠽Ӯᕅડ䆹䗝乍೼ߚ䜡ACEDB᭄᥂ᑧᯊᰃ♉ᬣᗻǄབᵰˈЏᑣ᭄߫᥂ᑧ Ꮖ㹿Փ⫼ˈ䙷পಲⱘ˄Fetching˅䆄ᔩг㽕এ䰸⫼᠋㋏㒳Ёⱘ໮ԭ᭄᥂Ǆབᵰˈᑣ᭄߫᥂ᑧ ৠ݊Ҫ⿟ᑣৠ㹿㋶ᓩˈ䇌བSequence Retrieval System˄㾕㄀Ѩゴ˅Ǆ⫼ㅔऩⱘ㛮ᴀˈ Efetchህ㛑㹿ӓᬜˈབৠ⿟ᑣ᭛⤂䌘᭭ᦤࠄⱘ䙷ḋǄ 㦰ऩЁⱘ㄀ѠϾ䗝乍ৃ䖤㸠Blixm[20]ˈϔϾ⫼ᴹᰒ⼎BLAST↨ᇍⱘ⿟ᑣǄ೒13.5гᰃҹ䚼ߚ ⱘS.pombe rhp6෎಴Ў՟ˈᴹ䇈ᯢҢBLASTXḚЁߏ⌏ⱘBLIXEMにষǄ೼乊䚼ˈᰃҹᑣ߫MSPs ⱘ䆚߿⥛ⱘⱒߚ↨ᴹᰒ⼎ᑣ߫ԡ㕂ⱘˈ⫼㢹ᑆᑇ㸠ⱘ㒓ᴵᴹҷ㸼MSPsˈ⫼催҂ⱘḚᴹ䰤ࠊ↨ ㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ6/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十三章 ACEDB一个基因组信息的数据库页码,7/12 对的区域,这些可被详细的显示在下面的扩展显示区中,来说明序列中MSPs比对的具体情况。在缺省情况下,片段显示出全同区(暗蓝),保守的替代区(明蓝),差别区(无染色)。从图形或扩展区中选取(LM)一个MSPs,可高亮所选序列中所有其他的MSPS。这一功能可帮助判断匹配的性质,因为沿基因的MSPs分配可很容易的被估计出。这种匹配可放到任何一个数据库记录中的功能信息的环境中进行检测;双击(LM)扩展显示区中的一个序列可检索序列的记录。 Bli exm窗可被设置成显示Fmap序列的双链,高亮片段中的差别区,合并同序列中的MSPs到同一行上,修改颜色或显示低复杂度区域的图形。 D0TER(点标器) 通过 BLI XEM窗口可进入到点标器D0TTER(右键点击背景),点标器是一个点绘图程序,用来比较两个序列的细节。点标器和 BLI XEM都可单独使用[20,21]。图13.6展示了 S pombe假想蛋白质C8A4.02C的自比较,其中带有一个基因组序列的三读框转译因子,并包括相应的位点 SPAC8A4.02C。蛋白质序列沿y轴绘制,转译的基因组序列和代表这个单独外显子基因的框沿 κ轴。最长的对角线是一个很好的自匹配,而其他的以最长对角线对称分布的对角线表示了六种不太完美的36氨基酸重复单位。移动十字准线(LM,鼠标左键和按键)超过一条对角线则在另一窗口中显示相应的队列为能绘图,点标器的算法首先计算一个二维矩阵,它存储了所有成对比较的残基的分值,就是说,每一水平序列的残基与每一竖直序列的残基相对应。为提高绘图的信噪比,一个窗口 (缺省25个残基)沿对角线步进,新的分值是窗口内的所有点的平均值。矩阵中每一点的值在0至255之间(每一点一个字节)。每一项都有一与之分值成比例的灰色亮点。 Greyramp工具(见图13.6)给出两个域值,其可由鼠标来设置。数值低于最小值显示成白色,高于最大值的显示成黑色,数值只有在两域值之间的显示成灰色。这一工具可让点绘图的域值动态变化,这有助于探测相关的对角线从 ACEDB调用的点标器 DOTTER即可对比 BLI XEM中的DNA序列,又可比较 BLI XEM中的蛋白质序列,或是进行自比较(DNA/DNA)。各选择也可用来对比 BLAST HSPS,或相对于全部比较加亮HSPs。这些后面的选择用来探测那些 BLAST可能忽视的非常弱的相似体,例子参见相关文献 [21]的图2。 GeneFi nder Genefi nder[18]是 ACEDB系统中的一个应用程序。单独使用还是 ACEDB的版本中基本上都使用相同的算法(关于这个问题见第十章)。这里我们着重讨论 ACEDB中的 GeneFi nder的图形界面 Genefi nder只有依靠一系列明确且有机结合的配置文件才能正常的运行。这些文件储存在数据库的wpf目录下。带有独立版本 GeneFi nder的一些应用程序可用来建立各种表格 Genefi nder分配中就提供这些制作表格的指令。 Fmap中的 GeneFi nder按钮可击活(RM)一个菜单,选择 GeneFi nder Features选项将在Fmap中标记出剪接位点、可能的编码区、转译的起始密码子。这些特性是根据wpf目录下的表格计算得出的,并且每一特性都分配一个分值。点选 Autofi nd one gene可在Fmap中标出一个预测的基因,命名为temp_gene。创建基因的位点标为绿色的高亮区。 Autofi nd one gene一经被选种, GeneFi nder的算法就产生一系列的待选外显子。这些外显子有三种:引导外显子,它们开始于转译起始密码子,结束于剪接供体或终止密码子;中部外显子,它们开始于剪接受体,结束于剪接供体;尾部外显子,它们开始于剪接受体,结束于终止密码子。注意 GeneFi nder不能预测基因的3′或5′的非转译区域;本文中的预测“基因”就是指编码部分。外显子的分值是通过综合单个有限位点及可能被其包围的编码段的分值得出的。内涵子是根据长度来赋值的。外显子和内涵子最高分值的有效结合的区域既是预 file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

ᇍⱘऎඳˈ䖭ѯৃ㹿䆺㒚ⱘᰒ⼎೼ϟ䴶ⱘᠽሩᰒ⼎ऎЁˈᴹ䇈ᯢᑣ߫ЁMSPs↨ᇍⱘ݋ԧᚙ މǄ೼㔎ⳕᚙމϟˈ⠛↉ᰒ⼎ߎܼৠऎ˄ᱫ㪱˅ˈֱᅜⱘ᳓ҷऎ˄ᯢ㪱˅ˈᏂ߿ऎ˄᮴ᶧ 㡆˅ǄҢ೒ᔶ៪ᠽሩऎЁ䗝প˄LM˅ϔϾMSPsˈৃ催҂᠔䗝ᑣ߫Ё᠔᳝݊ҪⱘMSPsǄ䖭ϔࡳ 㛑ৃᐂࡽᮁ߸ऍ䜡ⱘᗻ䋼ˈ಴Ў⊓෎಴ⱘMSPsߚ䜡ৃᕜᆍᯧⱘ㹿Ԅ䅵ߎǄ䖭⾡ऍ䜡ৃᬒࠄӏ ԩϔϾ᭄᥂ᑧ䆄ᔩЁⱘࡳ㛑ֵᙃⱘ⦃๗Ё䖯㸠Ẕ⌟˗ঠߏ˄LM˅ᠽሩᰒ⼎ऎЁⱘϔϾᑣ߫ৃ Ẕ㋶ᑣ߫ⱘ䆄ᔩǄBliexmにৃ㹿䆒㕂៤ᰒ⼎Fmapᑣ߫ⱘঠ䫒ˈ催҂⠛↉ЁⱘᏂ߿ऎˈড়ᑊৠ ϔᑣ߫ЁⱘMSPsࠄৠϔ㸠Ϟˈׂᬍ买㡆៪ᰒ⼎Ԣ໡ᴖᑺऎඳⱘ೒ᔶǄ DOTTER(⚍఼ᷛ) 䗮䖛BLIXEMにষৃ䖯ܹࠄ఼ᷛ⚍DOTTER˄ে䬂⚍ߏ㚠᱃˅ˈ⚍఼ᷛᰃϔϾ⚍㒬೒⿟ᑣˈ⫼ᴹ ↨䕗ϸϾᑣ߫ⱘ㒚㡖Ǆ⚍఼ᷛ੠BLIXEM䛑ৃऩ⣀Փ⫼[20,21]Ǆ೒13.6ሩ⼎њS.pombe؛ᛇ㲟 ⱑ䋼C8A4.02Cⱘ㞾↨䕗ˈ݊Ёᏺ᳝ϔϾ෎಴㒘ᑣ߫ⱘϝ䇏Ḛ䕀䆥಴ᄤˈᑊࣙᣀⳌᑨⱘԡ⚍ˈ SPA C8A4.02CǄ㲟ⱑ䋼ᑣ߫⊓\䕈㒬ࠊˈ䕀䆥ⱘ෎಴㒘ᑣ߫੠ҷ㸼䖭Ͼऩ⣀໪ᰒᄤ෎಴ⱘḚ⊓ [䕈Ǆ᳔䭓ⱘᇍ㾦㒓ᰃϔϾᕜདⱘ㞾ऍ䜡ˈ㗠݊Ҫⱘҹ᳔䭓ᇍ㾦㒓ᇍ⿄ߚᏗⱘᇍ㾦㒓㸼⼎њ݁ ⾡ϡ໾ᅠ㕢ⱘ36⇼෎䝌䞡໡ऩԡǄ⿏ࡼकᄫޚ㒓˄LMˈ哴ᷛᎺ䬂੠ᣝ䬂˅䍙䖛ϔᴵᇍ㾦㒓߭ ೼঺ϔにষЁᰒ⼎Ⳍᑨⱘ䯳߫Ǆ Ў㛑㒬೒ˈ⚍఼ᷛⱘㅫ⊩佪ܜ䅵ㅫϔϾѠ㓈ⶽ䰉ˈᅗᄬټњ᠔᳝៤ᇍ↨䕗ⱘ⅟෎ⱘߚؐህᰃ 䇈ˈ↣ϔ∈ᑇᑣ߫ⱘ⅟෎Ϣ↣ϔオⳈᑣ߫ⱘ⅟෎ⳌᇍᑨǄЎᦤ催㒬೒ⱘֵా↨ˈϔϾにষ ˄㔎ⳕ25Ͼ⅟෎˅⊓ᇍ㾦㒓ℹ䖯ˈᮄⱘߚؐᰃにষݙⱘ᠔᳝⚍ⱘᑇഛؐǄⶽ䰉Ё↣ϔ⚍ⱘؐ ೼㟇255П䯈˄↣ϔ⚍ϔϾᄫ㡖˅Ǆ↣ϔ乍䛑᳝ϔϢПߚؐ៤↨՟ⱘ♄㡆҂⚍ǄGreyrampᎹ ݋˄㾕೒13.6˅㒭ߎϸϾඳؐˈ݊ৃ⬅哴ᷛᴹ䆒㕂Ǆ᭄ؐԢѢ᳔ᇣؐᰒ⼎៤ⱑ㡆ˈ催Ѣ᳔໻ ؐⱘᰒ⼎៤咥㡆ˈ᭄ؐা᳝೼ϸඳؐП䯈ⱘᰒ⼎៤♄㡆Ǆ䖭ϔᎹ݋ৃ䅽⚍㒬೒ⱘඳؐࡼᗕব ࣪ˈ䖭᳝ࡽѢ᥶⌟Ⳍ݇ⱘᇍ㾦㒓Ǆ ҢACEDB䇗⫼ⱘ⚍఼ᷛDOTTERेৃᇍ↨BLIXEMЁⱘDNAᑣ߫ˈজৃ↨䕗BLIXEMЁⱘ㲟ⱑ䋼ᑣ ߫ˈ៪ᰃ䖯㸠㞾↨䕗˄DNA/DNA˅Ǆ৘䗝ᢽгৃ⫼ᴹᇍ↨ BLAST HSPsˈ៪ⳌᇍѢܼ䚼↨䕗ࡴ ҂HSPsǄ䖭ѯৢ䴶ⱘ䗝ᢽ⫼ᴹ᥶⌟䙷ѯBLASTৃ㛑ᗑ㾚ⱘ䴲ᐌᔅⱘⳌԐԧˈ՟ᄤখ㾕Ⳍ݇᭛⤂ [21]ⱘ೒Ǆ GeneFinder GeneFinder[18]ᰃACEDB㋏㒳ЁⱘϔϾᑨ⫼⿟ᑣǄऩ⣀Փ⫼䖬ᰃACEDBⱘ⠜ᴀЁ෎ᴀϞ䛑Փ⫼ Ⳍৠⱘㅫ⊩˄݇Ѣ䖭Ͼ䯂乬㾕㄀कゴ˅Ǆ䖭䞠៥Ӏⴔ䞡䅼䆎ACEDBЁⱘGeneFinderⱘ೒ᔶ⬠ 䴶Ǆ GeneFinderা᳝ձ䴴ϔ㋏߫ᯢ⹂Ϩ᳝ᴎ㒧ড়ⱘ䜡㕂᭛ӊᠡ㛑ℷᐌⱘ䖤㸠Ǆ䖭ѯ᭛ӊټᄬ೼᭄ ᥂ᑧⱘwpfⳂᔩϟǄᏺ᳝⣀ゟ⠜ᴀGeneFinderⱘϔѯᑨ⫼⿟ᑣৃ⫼ᴹᓎゟ৘⾡㸼ḐǄ GeneFinder ߚ䜡Ёህᦤկ䖭ѯࠊ԰㸼ḐⱘᣛҸǄ FmapЁⱘGeneFinderᣝ䪂ৃߏ˄⌏RM˅ϔϾ㦰ऩˈ䗝ᢽGeneFinder Features䗝乍ᇚ೼FmapЁ ᷛ䆄࠾ߎ᥹ԡ⚍ǃৃ㛑ⱘ㓪ⷕऎǃ䕀䆥ⱘ䍋ྟᆚⷕᄤǄ䖭ѯ⡍ᗻᰃḍ᥂wpfⳂᔩϟⱘ㸼Ḑ䅵ㅫ ᕫߎⱘˈᑊϨ↣ϔ⡍ᗻ䛑ߚ䜡ϔϾߚؐǄ⚍䗝Autofind One Gene ৃ೼FmapЁᷛߎϔϾ乘⌟ ⱘ෎಴ˈੑৡЎtemp_geneǄ߯ᓎ෎಴ⱘԡ⚍ᷛЎ㓓㡆ⱘ催҂ऎǄ AutoFind One Gene ϔ㒣㹿䗝⾡ˈGeneFinderⱘㅫ⊩ህѻ⫳ϔ㋏߫ⱘᕙ䗝໪ᰒᄤǄ䖭ѯ໪ᰒ ᄤ᳝ϝ⾡˖ᓩᇐ໪ᰒᄤˈᅗӀᓔྟѢ䕀䆥䍋ྟᆚⷕᄤˈ㒧ᴳѢ࠾᥹կԧ៪㒜ℶᆚⷕᄤ˗Ё䚼 ໪ᰒᄤˈᅗӀᓔྟѢ࠾᥹ফԧˈ㒧ᴳѢ࠾᥹կԧ˗ሒ䚼໪ᰒᄤˈᅗӀᓔྟѢ࠾᥹ফԧˈ㒧ᴳ Ѣ㒜ℶᆚⷕᄤǄ⊼ᛣGeneFinder ϡ㛑乘⌟෎಴ⱘ3’៪5’ⱘ䴲䕀䆥ऎඳ˗ᴀ᭛Ёⱘ乘⌟Ā෎ ಴āህᰃᣛ㓪ⷕ䚼ߚǄ໪ᰒᄤⱘߚؐᰃ䗮䖛㓐ড়ऩϾ᳝䰤ԡ⚍ঞৃ㛑㹿݊ࣙೈⱘ㓪ⷕ↉ⱘߚ ؐᕫߎⱘǄݙ⎉ᄤᰃḍ᥂䭓ᑺᴹ䌟ؐⱘǄ໪ᰒᄤ੠ݙ⎉ᄤ᳔催ߚؐⱘ᳝ᬜ㒧ড়ⱘऎඳ᮶ᰃ乘㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ7/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十三章 ACEDB一个基因组信息的数据库页码,8/1 测的基因。要査看基因的分值,先点种该基因,然后选Gene-> Sel ected选项。这使基因的各特性高亮成绿色。选 Show sel ected则显示一个关于各分值的表格。(见表格13.1的例示) 参数的变化可调整基因的预测。菜单选项 Parameter显示了两组变量。 Assembly变量,它们与从外显子和内涵子中组建基因有关; Genefi nder变量,它们决定着组建外显子的起始点和各特性的范围。这些参数列于表13.2中。这些参数可被存储成 Method(方法)项目,可让数据库的管理员设定一套最佳的参数,这可通过修改一组已知结构的调试基因的参数,直到预测的最大值与调试组相一致为止。在调试过程中,检测分值的表格有助于决定众多序列中那些更有可能是预测的基因,并有助于参数的修改。不过实际过程中, Genefi nder的预计序列也会与Fmap列中的有矛盾。Fmap提供种机制来修改那些有明显不当之处的预测基因。选取(RM) GeneFi nder的一种特性(如,转译的起始编码,结合位点,或结束编码)可击活带选项的菜单来选定、取消一个特性。用这些选项,可使一基因被完全确定,或使基因包括或排除某一具体的特性。设定活动区是另种机制来排除特定区域(以外,中?)的所有 Genefi nder特性;那些排除区域在 Summary Bar (见图13.4)上标记成兰色。作为最后的措施,预测基因可被手动修改,是通过在文本框中显示temp_gene项目并在从下拉菜单中选取(RM) Update。在这种情况下,建议设定 Ori gi n (见图13.4),以确定一个基本的转译起始编码。编辑后,有必要从下拉菜单(RM点击Fmap 的白色背景)中选取 Recal cul ate来刷新显示。可选 Genefi nder菜单中的选项来在数据库中把预测基因存储成 Sequence(序列)项目。但是,无论保存还是编辑项目都要写入( wri te access to)到数据库中表格13.7S.p0 mbe rhp6的6 enefi nder分值表格13.2 Genef1nder参数 I porting Sequence iMagic Tags Fmap中显示的 mport Sequence选项(RM背景活动窗口)可用来向Fmap输入序列而不用直接写入到数据库中。但,要分析序列基本上还是需要写入到数据库中,且输入的序列是作为个aCe文件,如下例所示。 DNA "Myshor tSeq Dna"MyShor tSeq macaca acccacaccacaccacaccacacccacacccacacacaccacacccac acaccacacccacaccaactctctctcatctacctt tactcgcgctgtcacacct tacc ggctttctgaccgaaattaaaaaaaatgaaaatgaaatcctgttctt tagccctacaaca 这个文件创建一个 Sequence(序列)对象和一个DNA对象。选择 Sequence(序列)对象 MyShi rSeq 会在Fmap中既显示 Sequence(序列)对象和又显示DNA对象。虽然,这是一种非常不引人注意的操作,但非常重要的是要注意到数据库总会知道要创建一个 Sequence(序列)对象,并且核酸序列必需和 Sequence(序列)对象一道显示。如果序列对象 MyShi rSeq以文本格式显示,则格式如下: MysShor tSeq DNA MyShor tSeq 180 file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

⌟ⱘ෎಴Ǆ 㽕ᶹⳟ෎಴ⱘߚˈؐܜ辵⚍䆹෎಴ˈ✊ৢ䗝Gene->Selected䗝乍Ǆ䖭Փ෎಴ⱘ৘⡍ᗻ催҂៤ 㓓㡆Ǆ䗝Show Selected ߭ᰒ⼎ϔϾ݇Ѣ৘ߚؐⱘ㸼ḐǄ˄㾕㸼Ḑ13.1ⱘ՟⼎˅ খ᭄ⱘব࣪ৃ䇗ᭈ෎಴ⱘ乘⌟Ǆ㦰ऩ䗝乍Parameterᰒ⼎њϸ㒘ব䞣ǄAssemblyব䞣ˈᅗӀϢ Ң໪ᰒᄤ੠ݙ⎉ᄤЁ㒘ᓎ෎಴᳝݇˗GeneFinderব䞣ˈᅗӀއᅮⴔ㒘ᓎ໪ᰒᄤⱘ䍋ྟ⚍੠৘ ⡍ᗻⱘ㣗ೈǄ䖭ѯখ᭄߫Ѣ㸼13.2ЁǄ 䖭ѯখ᭄ৃ㹿ᄬټ៤Method˄ᮍ⊩˅乍Ⳃˈৃ䅽᭄᥂ᑧⱘㅵ⧚ਬ䆒ᅮϔ༫᳔Շⱘখ᭄ˈ䖭ৃ 䗮䖛ׂᬍϔ㒘Ꮖⶹ㒧ᵘⱘ䇗䆩෎಴ⱘখ᭄ˈⳈࠄ乘⌟ⱘ᳔໻ؐϢ䇗䆩㒘Ⳍϔ㟈ЎℶǄ೼䇗䆩䖛⿟ЁˈẔ⌟ߚؐⱘ㸼Ḑ᳝ࡽѢއᅮӫ໮ᑣ߫Ё䙷ѯ᳈᳝ৃ㛑ᰃ乘⌟ⱘ෎಴ˈᑊ᳝ࡽѢখ᭄ ⱘׂᬍǄϡ䖛ᅲ䰙䖛⿟ЁˈGeneFinder ⱘ乘䅵ᑣ߫гӮϢFmap ߫Ёⱘ᳝⶯ⳒǄFmapᦤկϔ ⾡ᴎࠊᴹׂᬍ䙷ѯ᳝ᯢᰒϡᔧП໘ⱘ乘⌟෎಴Ǆ䗝প˄RM˅GeneFinderⱘϔ⾡⡍ᗻ˄བˈ䕀䆥ⱘ䍋ྟ㓪ⷕˈ㒧ড়ԡ⚍ˈ៪㒧ᴳ㓪ⷕ˅ৃߏᏺ⌏䗝乍ⱘ㦰ऩᴹ䗝ᅮǃপ⍜ϔϾ⡍ᗻǄ⫼䖭 ѯ䗝乍ˈৃՓϔ෎಴㹿ᅠܼ⹂ᅮˈ៪Փ෎಴ࣙᣀ៪ᥦ䰸ᶤϔ݋ԧⱘ⡍ᗻǄ䆒ᅮ⌏ࡼऎᰃ঺ϔ ⾡ᴎࠊᴹᥦ䰸⡍ᅮऎඳ˄ҹ໪ˈЁ˛˅ⱘ᠔᳝GeneFinder⡍ᗻ˗䙷ѯᥦ䰸ऎඳ೼Summary Bar ˄㾕೒13.4˅Ϟᷛ䆄៤݄㡆Ǆ԰Ў᳔ৢⱘ᥾ᮑˈ乘⌟෎಴ৃ㹿᠟ࡼׂᬍˈᰃ䗮䖛೼᭛ᴀḚЁ ᰒ⼎temp_gene乍Ⳃᑊ೼Ңϟᢝ㦰ऩЁ䗝প˄RM˅UpdateǄ೼䖭⾡ᚙމϟˈᓎ䆂䆒ᅮOrigin ˄㾕೒13.4˅ˈҹ⹂ᅮϔϾ෎ᴀⱘ䕀䆥䍋ྟ㓪ⷕǄ㓪䕥ৢˈ᳝ᖙ㽕Ңϟᢝ㦰ऩ˄RM ⚍ߏFmap ⱘⱑ㡆㚠᱃˅Ё䗝পRecalculateᴹࠋᮄᰒ⼎Ǆৃ䗝GeneFinder㦰ऩЁⱘ䗝乍ᴹ೼᭄᥂ᑧЁᡞ 乘⌟෎಴ᄬټ៤Sequence(ᑣ߫乍ⳂǄԚᰃˈ᮴䆎ֱᄬ䖬ᰃ㓪䕥乍Ⳃ䛑㽕ݭ)ܹwrite access to)ࠄ᭄᥂ᑧЁǄ 㸼Ḑ13.1 S.pombe rhp6ⱘGenefinderߚؐ 㸼Ḑ13.2 Genefinderখ᭄ Importing Sequence ੠Magic Tags FmapЁᰒ⼎ⱘImport Sequence䗝乍˄RM 㚠᱃⌏ࡼにষ˅ৃ⫼ᴹ৥Fmap䕧ܹᑣ߫㗠ϡ⫼Ⳉ᥹ ݭܹࠄ᭄᥂ᑧЁǄԚˈ㽕ߚᵤᑣ߫෎ᴀϞ䖬ᰃ䳔㽕ݭܹࠄ᭄᥂ᑧЁˈϨ䕧ܹⱘᑣ߫ᰃ԰Ўϔ Ͼace᭛ӊˈབϟ՟᠔⼎Ǆ Sequence "MysortSeq" DNA "MyShortSeq" Dna "MyShortSeq" cacacacaccacacccacaccacaccacaccacacccacacccacacacaccacacccac acaccacacccacaccaactctctctcatctacctttactcgcgctgtcacaccttaccc ggctttctgaccgaaattaaaaaaaatgaaaatgaaatcctgttctttagccctacaaca 䖭Ͼ᭛ӊ߯ᓎϔϾSequence(ᑣ߫ᇍ䈵੠ϔϾDNAᇍ䈵Ǆ䗝ᢽSequence(ᑣ߫ᇍ䈵MyShirSeq Ӯ೼FmapЁ᮶ᰒ⼎Sequence(ᑣ߫ᇍ䈵੠জᰒ⼎DNAᇍ䈵Ǆ㱑✊ˈ䖭ᰃϔ⾡䴲ᐌϡᓩҎ⊼ᛣⱘ ᪡԰ˈԚ䴲ᐌ䞡㽕ⱘᰃ㽕⊼ᛣࠄ᭄᥂ᑧᘏӮⶹ䘧㽕߯ᓎϔϾSequence(ᑣ߫ᇍ䈵ˈᑊϨḌ䝌 ᑣ߫ᖙ䳔੠Sequence˄ᑣ߫˅ᇍ䈵ϔ䘧ᰒ⼎Ǆབᵰᑣ߫ᇍ䈵MyShirSeqҹ᭛ᴀḐᓣᰒ⼎ˈ߭Ḑ ᓣབϟ˖ MyShortSeq DNA MyShortSeq 180 ㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ8/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十三章 ACEDB一个基因组信息的数据库页码,9/12 序列的长度被计算出,并被自动插入到对象中跟在DNA标识符后的整型字段( Int field) 里。这里的DMNA是指 Magic Tag”。这些特殊的识别标记被写入到数据库引擎中,主要用来显示目的。一种 Magi c Tag含义是数据库的开发者和序列分析者需要知道哪些标识被用来产生 ACEDB显示元素的。 Magi c Tag怎样被使用的说明见[9]。程序使用于把 Gene Bank和EMBL记录改变为ace格式[23]。如果是公共的,这些程序大大降低了输入序列的工作量。从 Gene Bank-到-ace的语法分析程序产生的一个aCe文件显示于图 13.7。这个例子表明了 ACEDB中序列建模的一些表现形式。核酸序列与转录子(如CDS和mRNA) 与序列对象GB: ATABI IG相链接。虽然,转录子本身应是 Sequence(序列)对象,但它们被作为GB: ATABIIG的子序列的模型。这序列/子序列的建模可通过在另一 sequence(序列)对象中确定两序列的交叠部分来建造序列的重叠群。这一假想的例子加入到两列有81个重叠单元的序 Sequence "LINK_MySe Subsequence"MyshortSeq"100 20000 BLAST分析和 MSPcrunch Fmap, BLAST,和D0TER都能显示 BLAST系列程序的结果(见7章)。使用 ACEDB的方案,将运行如下的典型的数据库搜索,来获取最大同源物的信息(X代表有序的有机体)。 BLASTX对所有蛋白序列的核苷转译因子的査询。 BLASTN对x有机体中的ESTs的核苷查询。 TBLASTX对非x有机体中的ESTs的核苷转译因子的查询。 BLASTN对除ESTs以外的所有核苷序列的核苷査询实际的数据库搜索依靠一系列的因素(见第二章中讨论的公共的序列数据库)。 BLAST搜索的结果是通过 BLAST的事后处理程序 MSPcrunch被筛选的。 MSPcrunch有很多有用的功能: 1.偏离成分的区域被 BLAST勿赋予高分值, MSPcrunch适当的降低这些分值。 2.类似大蛋白质类型和有高频率出现的氨基酸的区域会产生很多MSPs, MSPcrunch可消除这些拥挤区域多余的MSPs。 3. MSPcrunch从相同的数据库序列中检测接近的MSPs,这检测保留低分值的MSPS,它们与个带缺口的列相一致。 4. MSPcrunch分析 BLAST的输出,并产生ace文件。行1-3使 BLAST非常灵敏,但是,如果要求一个数据库中的所有MSPs查询, MSPcrunch可被用作带有w开关的aCe文件生成器。在公共区域的全序列的 BLAST内部査询,需要对计算资源有大量的投入,因序列数据库的规模;需要长的时间来查找;还需要维持日易增大的数据库。不过,少量的序列可通过网页提供的 BLAST服务来得到分析。 BLAST的输出可被EMAL引用,且 MSPcrunch可用作产生ace文件 file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

ᑣ߫ⱘ䭓ᑺ㹿䅵ㅫߎˈᑊ㹿㞾ࡼᦦܹࠄᇍ䈵Ё䎳೼DNAᷛ䆚ヺৢⱘᭈൟᄫ↉˄Int field˅ 䞠Ǆ䖭䞠ⱘDNAᰃᣛ“Magic Tag”Ǆ䖭ѯ⡍⅞ⱘ䆚߿ᷛ䆄㹿ݭܹࠄ᭄᥂ᑧᓩ᪢ЁˈЏ㽕⫼ᴹ ᰒ⼎ⳂⱘǄϔ⾡Magic Tag৿Нᰃ᭄᥂ᑧⱘᓔথ㗙੠ᑣ߫ߚᵤ㗙䳔㽕ⶹ䘧ાѯᷛ䆚㹿⫼ᴹѻ⫳ ACEDBᰒ⼎ܗ㋴ⱘǄMagic Tagᗢḋ㹿Փ⫼ⱘ䇈ᯢ㾕[9]Ǆ ⿟ᑣՓ⫼ѢᡞGeneBank ੠EMBL䆄ᔩᬍবЎaceḐᓣ[23]Ǆབᵰᰃ݀݅ⱘˈ䖭ѯ⿟ᑣ໻໻䰡Ԣ њ䕧ܹᑣ߫ⱘᎹ԰䞣ǄҢGeneBank-ࠄ-aceⱘ䇁⊩ߚᵤ⿟ᑣѻ⫳ⱘϔϾace᭛ӊᰒ⼎Ѣ೒ 13.7Ǆ䖭Ͼ՟ᄤ㸼ᯢњACEDBЁᑣ߫ᓎ῵ⱘϔѯ㸼⦄ᔶᓣǄḌ䝌ᑣ߫Ϣ䕀ᔩᄤབCDS੠mRNA) Ϣᑣ߫ᇍ䈵GB:ATABIIGⳌ䫒᥹Ǆ㱑✊ˈ䕀ᔩᄤᴀ䑿ᑨᰃSequence˄ᑣ߫˅ᇍ䈵ˈԚᅗӀ㹿԰ ЎGB:ATABIIGⱘᄤᑣ߫ⱘ῵ൟǄ䖭ᑣ߫ᄤᑣ߫ⱘᓎ῵ৃ䗮䖛೼঺ϔsequence(ᑣ߫ᇍ䈵Ё⹂ ᅮϸᑣ߫ⱘѸ঴䚼ߚᴹᓎ䗴ᑣ߫ⱘ䞡঴㕸Ǆ䖭ϔ؛ᛇⱘ՟ᄤࡴܹࠄϸ᳝߫81Ͼ䞡঴ऩܗⱘᑣ ߫Ǆ Sequence "LINK_MySeqs" Subsequence "MyShortSeq" 1 180 Subsequence "MyShortSeq" 100 20000 BLASTߚᵤ੠MSPcrunch Fmap, BLAST,੠DOTTER䛑㛑ᰒ⼎BLAST㋏߫⿟ᑣⱘ㒧ᵰ˄㾕ゴ˅ǄՓ⫼ACEDBⱘᮍḜˈᇚ䖤㸠 བϟⱘ݌ൟⱘ᭄᥂ᑧ᧰㋶ˈᴹ㦋প᳔໻ৠ⑤⠽ⱘֵᙃ˄;ҷ㸼᳝ᑣⱘ᳝ᴎԧ˅Ǆ BLASTX ᇍ᠔᳝㲟ⱑᑣ߫ⱘḌ㣋䕀䆥಴ᄤⱘᶹ䆶Ǆ BLASTN ᇍ[᳝ᴎԧЁⱘESTsⱘḌ㣋ᶹ䆶Ǆ TBLASTX ᇍ䴲[᳝ᴎԧЁⱘESTsⱘḌ㣋䕀䆥಴ᄤⱘᶹ䆶Ǆ BLASTN ᇍ䰸ESTsҹ໪ⱘ᠔᳝Ḍ㣋ᑣ߫ⱘḌ㣋ᶹ䆶Ǆ ᅲ䰙ⱘ᭄᥂ᑧ᧰㋶ձ䴴ϔ㋏߫ⱘ಴㋴˄㾕㄀ѠゴЁ䅼䆎ⱘ݀݅ⱘᑣ᭄߫᥂ᑧ˅ǄBLAST᧰㋶ⱘ 㒧ᵰᰃ䗮䖛BLASTⱘџৢ໘⧚⿟ᑣMSPcrunch㹿ㄯ䗝ⱘǄMSPcrunch᳝ᕜ໮᳝⫼ⱘࡳ㛑˖ 1. أ行៤ߚⱘऎඳ㹿BLAST࣓䌟ќ催ߚˈؐMSPcrunch䗖ᔧⱘ䰡Ԣ䖭ѯߚؐǄ 2. ㉏Ԑ໻㲟ⱑ䋼㉏ൟ੠᳝催乥⥛ߎ⦃ⱘ⇼෎䝌ⱘऎඳӮѻ⫳ᕜ໮MSPsˈMSPcrunchৃ⍜䰸䖭ѯᢹ᣸ऎඳ໮ԭⱘMSPsǄ 3. MSPcrunch ҢⳌৠⱘ᭄᥂ᑧᑣ߫ЁẔ⌟᥹䖥ⱘMSPsˈ䖭Ẕ⌟ֱ⬭ԢߚؐⱘMSPsˈᅗӀϢ ϔϾᏺ㔎ষⱘ߫Ⳍϔ㟈Ǆ 4. MSPcrunchߚᵤBLASTⱘ䕧ߎˈᑊѻ⫳ace᭛ӊǄ 䖤㸠1-3ՓBLAST䴲ᐌ♉ᬣˈԚᰃˈབᵰ㽕∖ϔϾ᭄᥂ᑧЁⱘ᠔᳝MSPsᶹ䆶ˈMSPcrunchৃ㹿⫼ ԰ᏺ᳝Zᓔ݇ⱘace᭛ӊ⫳៤఼Ǆ ೼݀݅ऎඳⱘܼᑣ߫ⱘBLASTݙ䚼ᶹ䆶ˈ䳔㽕ᇍ䅵ㅫ䌘⑤᳝໻䞣ⱘᡩܹˈ಴ᑣ᭄߫᥂ᑧⱘ㾘 ῵˗䳔㽕䭓ⱘᯊ䯈ᴹᶹᡒ˗䖬䳔㽕㓈ᣕ᮹ᯧ๲໻ⱘ᭄᥂ᑧǄϡ䖛ˈᇥ䞣ⱘᑣ߫ৃ䗮䖛㔥义ᦤ կⱘBLAST᳡ࡵᴹᕫߚࠄᵤǄBLASTⱘ䕧ߎৃ㹿E-MAILᓩ⫼ˈϨMSPcrunchৃ⫼԰ѻ⫳ace᭛ ӊǄ ㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ9/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第十三章 ACEDB一个基因组信息的数据库页码,10/12 Q 图13.7 Gene Bank-到-ace的语法分析程序的输出加入结果列在序列的分析中,非常必要的是从众多的査找和预测程序中确认结果。任何可确认核苷序列区域的结果都可被输入到 ACEDB中,并可显示为是Fmap文件上的一个有染色框的列当Fmap的序列对象被显示时,为各个单独的涉及 Sequence(序列)对象的" Method(方法)”绘制一个结果列。 Methods(方法)是决定一结果列怎样被显示和怎样被 Bli xem处理的对象。这里有一个 BLASTN方法对象的例子 Method blasTN Col our LI GHTBlUE Score_by_wi dth Score_bounds 100 400 Right_priority 5.2 Bli xem N Mothed(方法)对象用一个 Magi c Tag(标签)变量,如在其他地方[9]描述的。涉及方法的序列模型的部分如下: Homol DNA Homol ?Sequence XREF DNA_homol Me thod Float Int UNI QUE IntInt UNI QUE int Pop Homol ?Protei n XREF DNA_homol ? Method Float Int UNI QUE Int Int UNI QUE int Motif Homol Moti f XREF DNA_homol Method Float Int UNI QUE IntInt UNI QUE int Feature Method int int UNi que Float UNI QUE Text Homo是用来定位数据的 Magic Tag(标签),目的是绘制数据库查询查出的结果列。方法顾及到DNA、蛋白质、和基元(如PROS|TE基元,见13.4图,11列)等诸方面的同源物这里有一个从 BLAST查询中查出的由 MSPcrunch产生的ace文件的例子 Sequence MyShortSeq DNA homol Z47047 BLASTN 900 1 180 1 180 dna homo行定义一个 BLAST MSP:用 BLAST方法, MyShortSeq的碱基1-180的和分值为900的 Z47047碱基1-180相似。来自于预测程序的结果(它们不会导致来自另一序列的同等物,例如,图13.4中 Hi dden Markov model内涵子预测,15列)在“ Feature" Magi c Tag(标记)下被储存。一个aCe文件的例子如下: Sequence MyshortSeq Feature I NTRON HMM 100 120 10. 12 多种(混合)分析功能 file://E:wcb生物信息学(中译本)\第十三章 ACEDB一个基因组信息的数..2005-1-18

೒13.7 GeneBank-ࠄ-aceⱘ䇁⊩ߚᵤ⿟ᑣⱘ䕧ߎ ߫㒧ᵰܹࡴ ೼ᑣ߫ⱘߚᵤЁˈ䴲ᐌᖙ㽕ⱘᰃҢӫ໮ⱘᶹᡒ੠乘⌟⿟ᑣЁ⹂䅸㒧ᵰǄӏԩৃ⹂䅸Ḍ㣋ᑣ߫ ऎඳⱘ㒧ᵰ䛑ৃ㹿䕧ܹࠄACEDBЁˈᑊৃᰒ⼎ЎᰃFmap᭛ӊϞⱘϔϾ᳝ᶧ㡆Ḛⱘ߫Ǆ ᔧFmapⱘᑣ߫ᇍ䈵㹿ᰒ⼎ᯊˈЎ৘Ͼऩ⣀ⱘ⍝ঞSequence(ᑣ߫ᇍ䈵ⱘ“Method(ᮍ⊩)”㒬 ࠊϔϾ㒧ᵰ߫ǄMethods(ᮍ⊩ᰃއᅮϔ㒧ᵰ߫ᗢḋ㹿ᰒ⼎੠ᗢḋ㹿Blixem໘⧚ⱘᇍ䈵Ǆ䖭䞠 ᳝ϔϾBLASTNᮍ⊩ᇍ䈵ⱘ՟ᄤ: Method BLASTN Colour LIGHTBLUE Score_by_width Score_bounds 100 400 Right_priority 5.2 Blastn Blixem N Mothed(ᮍ⊩ᇍ䈵⫼ϔϾMagic Tag(ᷛㅒব䞣ˈབ೼݊Ҫഄᮍ[9]ᦣ䗄ⱘǄ ⍝ঞᮍ⊩ⱘᑣ߫῵ൟⱘ䚼ߚབϟ˖ Homol DNA Homol ?Sequence XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int Pop Homol ?Protein XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int Motif Homol ?Motif XREF DNA_homol ?Method Float Int UNIQUE Int Int UNIQUE int Feature Method Int Int UNIQUE Float UNIQUE Text Homolᰃ⫼ᴹᅮԡ᭄᥂ⱘMagic Tag(ᷛㅒˈⳂⱘᰃ㒬ࠊ᭄᥂ᑧᶹ䆶ᶹߎⱘ㒧ᵰ߫Ǆᮍ⊩乒ঞ ࠄDNAǃ㲟ⱑ䋼ǃ੠෎ܗ˄བPROSITE ෎ܗˈ㾕13.4೒ˈ11߫˅ㄝ䇌ᮍ䴶ⱘৠ⑤⠽Ǆ 䖭䞠᳝ϔϾҢBLASTᶹ䆶Ёᶹߎⱘ⬅MSPcrunchѻ⫳ⱘace᭛ӊⱘ՟ᄤǄ Sequence MyShortSeq DNA_homol Z47047 BLASTN 900 1 180 1 180 DNA_homol㸠ᅮНϔϾBLAST MSP˖⫼BLASTᮍ⊩ˈMyShortSeqⱘ⺅෎1-180ⱘ੠ߚؐЎ900ⱘ Z47047⺅෎1-180ⳌԐǄ ᴹ㞾Ѣ乘⌟⿟ᑣⱘ㒧ᵰ˄ᅗӀϡӮᇐ㟈ᴹ㞾঺ϔᑣ߫ⱘৠㄝ⠽ˈ՟བˈ೒13.4ЁHidden Markov Modelݙ⎉ᄤ乘⌟ˈ15߫˅೼“Feature”Magic Tag(ᷛ䆄ϟ㹿ټᄬǄϔϾace᭛ӊⱘ ՟ᄤབϟ˖ Sequence MyShortSeq Feature INTRON_HMM 100 120 10.12 ໮⾡⏋ড়ߚᵤࡳ㛑㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄᥂ᑧ 义ⷕˈ10/12 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀कϝゴ ACEDBϔϾ෎಴㒘ֵᙃⱘ᭄... 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击下载完整版文档（PDF格式）

共12页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录