第四章应用GCG进行序列分析 页码,2/15 consin软件包支持各种UNX平台以及0 penIS。关于GCG, Wi sconsi n软件包,支持的平台 以及硬件需求的一般性信息可以在GC的主页(wW.gcg.com/)以及Wisconsin软件包的用户 手册中找到。 、 Wi sconsi n软件包使用的数据库 GCG支持五种数据库供 Wi sconsi n软件包使用,其中包括两种核酸数据库和三种蛋白质数据 库。这些数据库既有GCG格式的(供大多数 Wi sconsi n软件包程序使用),也有 BLAST格式的 (供BAST数据库搜索程序使用)。同时还提供了用于 LookUp程序以及数据库参考搜索的索 引 GG支持的两种核酸数据库是 GenBank数据库( Benson et al.,1997)以及仅由 Gen Bank中没有 的序列组成的简化版的EMBL核酸序列数据库( Stoesser et a.,1997)。为了方便进行搜 索,这两个数据库被组合成一个更为广泛的核酸数据库,称为 GenEmbLPl us。这个联合数据库 包括 Gen Bank和EMBL核酸序列数据库的表达序列标记(EST),序列标记位点(STS)以及基因 组序列纵览(GSS)条目部分。可以用特定TAG分别搜索这三部分或用特定 GenEMBL搜索没有这 三部分的 GenEMBLp|us。 GCG支持的三种蛋白质数据库是 Protei n I nformati on Resource(PIR)国际蛋白质序列数据库 ( George et al.1997), SWISS PR0T蛋白质序列数据库( Bai roch and Apweiler,1997)和 SP- TrEMBL数据库( Bai roch and Apwei ler,1997)。SP- TrEMBL是欧洲生物信息学研究所以及 Swi tzen and的 Geneva大学的 Amos bai roch博士联合开发的。它包含了大多数在EMBL数据库条 目中有标记的预测的翻译区域,但不包含已经在SWSs-PR0T中出现的任何条目。SP- TrEMBL中 的条目用SWSS-PR0T的格式进行注释,当这些条目在SWSS-PROT中出现时,就会从SP- TrEMBl 中删除掉。为了方便进行搜索,SWSS-PROT和SP- TrEMBL这两个数据库被结合在一起组成一个 更为广泛的蛋白质数据库��:SWSS- PROTP|uS。 GCG支持的数据库两个月更新一次(与 Gen Bank数据库的更新日程同步),这是GG数据库更新 服务的一部分。 Wi sconsi n软件包实体程序和脚本也可用于下载数据库以及格式化站点上的数 据库版本,或者用于数据库版本间的更新以及将个人的数据库转换为 Wi sconsi n软件包可用数 据库的格式。这些实体程序的列表和说明都可在 Wi sconsi n软件包系统支持文档中找到。 FASTA格式的数据库可直接用于 Wi sconsi n软件包中除 BLAST和L0okUp以外的所有程序而不需进 行格式转换。 四、 Sealab环境 SeaLab是 Wi consin软件包基于0 SF/Motif的图形用户界面。它使用户可以在一个基于窗口的 环境中使用大多数 Wi consin软件包中的程序和所有支持的数据库。 Sealab的使用需要在微型 计算机上运行X-termina或X-server。关于X-server软件的介绍可以在GC主页ww.gcg.com 中找到。 Wi consin软件包初始化完成后,在UNX提示符下键入命令 seql ab以启动 Sealab。这时会出现 个标题为 Sealab主窗口的窗口(如图4.1所示)。这个主窗口可以有两种模式: Main li st 模式和 lEdi tor.模式(这里即指 SeaLab Edi tor)。在 Main li st模式中 SeaLab主窗口显示一个 列表文件,文件中包含单序列文件、列表文件、多序列格式(MSF)文件、富含序列格式 RSF)文件以及数据库条目的名称。在 Edi tor模式下 Sealab主窗口显示这些文件和数据库条 目中的序列。用户可用 Sealab主窗口(图4.1)中的Mode:选择按钮在两种模式之间进行切 换。两种模式下都可以访问 Wi consin软件包程序以及所支持的数据库,然而除此以外在 SeaLab Edi tor下用户还可以编辑和注释序列。因此这一章重点介绍 ISeqLab Edi tor。 横贯 Sealab主窗口顶端的是一个菜单条,菜单选项可概括如下: file://E:wcb生物信息学(中译本)\第四章应用GCG进行序列分析.htm 2005-1-18Wisconsin䕃ӊࣙᬃᣕ⾡UNIXᑇৄҹঞOpenVMSDŽ݇ѢGCGˈWisconsin䕃ӊࣙᬃˈᣕⱘᑇৄ ҹঞ⹀ӊ䳔∖ⱘϔ㠀ᗻֵᙃৃҹGCGⱘЏ义˄/www.gcg.com/˅ҹঞWisconsin䕃ӊࣙⱘ⫼᠋ DŽࠄЁᡒݠ ϝǃWisconsin䕃ӊࣙՓ⫼ⱘ᭄ᑧ GCGᬃᣕѨ⾡᭄ᑧկWisconsin䕃ӊࣙՓ⫼ˈ݊Ёࣙᣀϸ⾡Ḍ䝌᭄ᑧϝ⾡㲟ⱑ䋼᭄ ᑧDŽ䖭ѯ᭄ᑧ᮶᳝GCGḐᓣⱘ˄կ᭄Wisconsin䕃ӊࣙᑣՓ⫼˅ˈг᳝BLASTḐᓣⱘ ˄կBLAST᭄ᑧ᧰㋶ᑣՓ⫼˅DŽৠᯊ䖬ᦤկњ⫼ѢLookUpᑣҹঞ᭄ᑧখ㗗᧰㋶ⱘ㋶ ᓩDŽ GCGᬃᣕⱘϸ⾡Ḍ䝌᭄ᑧᰃGenBank᭄ᑧ˄Benson et al., 1997)ҹঞҙ⬅GenBankЁ≵᳝ ⱘᑣ߫㒘៤ⱘㅔ࣪⠜ⱘEMBLḌ䝌ᑣ᭄߫ᑧ˄Stoesser et al., 1997˅DŽЎњᮍ֓䖯㸠᧰ ㋶ˈ䖭ϸϾ᭄ᑧ㹿㒘ড়៤ϔϾЎᑓ⊯ⱘḌ䝌᭄ᑧˈ⿄ЎGenEMBLPlusDŽ䖭Ͼ㘨ড়᭄ᑧ ࣙᣀGenBankEMBLḌ䝌ᑣ᭄߫ᑧⱘ㸼䖒ᑣ߫ᷛ䆄˄EST˅ˈᑣ߫ᷛ䆄ԡ⚍˄STS˅ҹঞ 㒘ᑣ߫㒉㾜˄GSS˅ᴵⳂ䚼ߚDŽৃҹ⫼⡍ᅮTAG߿ߚ᧰㋶䖭ϝ䚼ߚ⫼⡍ᅮGenEMBL᧰㋶≵᳝䖭 ϝ䚼ߚⱘGenEMBLPlusDŽ GCGᬃᣕⱘϝ⾡㲟ⱑ䋼᭄ᑧᰃProtein Information Resource(PIR)䰙㲟ⱑ䋼ᑣ᭄߫ᑧ ˄George et al., 1997), SWISS PROT㲟ⱑ䋼ᑣ᭄߫ᑧ˄Bairoch and Apweiler, 1997) SP-TrEMBL᭄ᑧ(Bairoch and Apweiler, 1997)DŽSP-TrEMBLᰃ⌆⫳⠽ֵᙃᄺⷨお᠔ҹঞ SwitzenlandⱘGenevaᄺⱘAmos Bairochम㘨ড়ᓔথⱘDŽᅗࣙњ᭄EMBL᭄ᑧᴵ ⳂЁ᳝ᷛ䆄ⱘ乘⌟ⱘ㗏䆥ऎඳˈԚϡࣙᏆ㒣SWISS-PROTЁߎ⦃ⱘӏԩᴵⳂDŽSP-TrEMBLЁ ⱘᴵⳂ⫼SWISS-PROTⱘḐᓣ䖯㸠⊼䞞ˈᔧ䖭ѯᴵⳂSWISS-PROTЁߎˈᯊ⦃ህӮҢSP-TrEMBL Ёߴ䰸ᥝDŽЎњᮍ֓䖯㸠᧰㋶ˈSWISS-PROTSP-TrEMBL䖭ϸϾ᭄ᑧ㹿㒧ড়ϔ䍋㒘៤ϔϾ Ўᑓ⊯ⱘ㲟ⱑ䋼᭄ᑧ��SWISS-PROTPlusDŽ GCGᬃᣕⱘ᭄ᑧϸϾ᳜ᮄϔ˄ϢGenBank᭄ᑧⱘᮄ᮹ৠℹ˅ˈ䖭ᰃGCG᭄ᑧᮄ ᳡ࡵⱘϔ䚼ߚDŽWisconsin䕃ӊࣙᅲԧᑣ㛮ᴀгৃ⫼Ѣϟ䕑᭄ᑧҹঞḐᓣ࣪キ⚍Ϟⱘ᭄ ᑧ⠜ᴀˈ㗙⫼Ѣ᭄ᑧ⠜ᴀ䯈ⱘᮄҹঞᇚϾҎⱘ᭄ᑧ䕀ᤶЎWisconsin䕃ӊࣙ⫼ৃ᭄ ᑧⱘḐᓣDŽ䖭ѯᅲԧᑣⱘ߫㸼䇈ᯢ䛑ৃWisconsin䕃ӊࣙLTD㒳ᬃᣕ᭛ḷЁᡒࠄDŽ FASTAḐᓣⱘ᭄ᑧৃⳈ⫼ѢWisconsin䕃ӊࣙЁ䰸BLASTLookUpҹⱘ᠔᳝ᑣ㗠ϡ䳔䖯 㸠Ḑᓣ䕀ᤶDŽ ಯǃSeqLab⦃๗ SeqLabᰃWisconsin䕃ӊࣙѢOSF/Motifⱘᔶ⫼᠋⬠䴶DŽᅗՓ⫼᠋ৃҹϔϾѢにষⱘ ⦃๗ЁՓ⫼᭄Wisconsin䕃ӊࣙЁⱘᑣ᠔᳝ᬃᣕⱘ᭄ᑧDŽSeqLabⱘՓ⫼䳔㽕ᖂൟ 䅵ㅫᴎϞ䖤㸠X-terminalX-serverDŽ݇ѢX-server䕃ӊⱘҟ㒡ৃҹGCGЏ义www.gcg.com ЁᡒࠄDŽ Wisconsin䕃ӊࣙྟ߱࣪ᅠ៤ৢˈUNIXᦤ⼎ヺϟ䬂ܹੑҸseqlabҹਃࡼSeqLabDŽ䖭ᯊӮߎ⦃ ϔϾᷛ乬ЎSeqLabЏにষⱘにষ˄བ4.1᠔⼎˅DŽ䖭ϾЏにষৃҹ᳝ϸ⾡ᓣ˖Main List ᓣEditorᓣ˄䖭䞠ेᣛSeqLab Editor˅DŽMain ListᓣЁSeqLabЏにষᰒ⼎ϔϾ ߫㸼᭛ӊˈ᭛ӊЁࣙऩᑣ߫᭛ӊǃ߫㸼᭛ӊǃᑣ߫Ḑᓣ˄MSF˅᭛ӊǃᆠᑣ߫Ḑᓣ ˄RSF˅᭛ӊҹঞ᭄ᑧᴵⳂⱘৡ⿄DŽEditorᓣϟSeqLabЏにষᰒ⼎䖭ѯ᭛ӊ᭄ᑧᴵ ⳂЁⱘᑣ߫DŽ⫼᠋ৃ⫼SeqLabЏにষ˄4.1˅ЁⱘMode:䗝ᢽᣝ䪂ϸ⾡ᓣП䯈䖯㸠ߛ ᤶDŽϸ⾡ᓣϟ䛑ৃҹ䆓䯂Wisconsin䕃ӊࣙᑣҹঞ᠔ᬃᣕⱘ᭄ᑧˈ✊㗠䰸ℸҹ SeqLab Editorϟ⫼᠋䖬ৃҹ㓪䕥⊼䞞ᑣ߫DŽℸ䖭ϔゴ䞡⚍ҟ㒡SeqLab EditorDŽ ῾䌃SeqLabЏにষ乊ッⱘᰃϔϾ㦰ऩᴵˈ㦰ऩ䗝乍ৃὖᣀབϟ˖ ಯゴᑨ⫼GCG䖯㸠ᑣ߫ߚᵤ 义ⷕˈ2/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?ಯゴᑨ⫼GCG䖯㸠ᑣ߫ߚᵤ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com