第三章生物信息数据库与查询 近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标 收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库 大多可以通过网络来访问,或者通过网络下载 一般而言,这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验 获得的原始数据,只经过简单的归类整理和注释:二级数据库是在一级数据库、实验数据和理论分析的基 础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有 Genbank数据库、EMBL核酸库和DDBJ库等:蛋白质序列数据库有 SWISS-PRoT、PIR等:蛋白质结构 库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基 因组图谱库GDB、转录因子和结合位点库 TRANSFAC、蛋白质结构家族分类库SCOP等等 下面将顺序简要介绍一些著名和有特色的生物信息数据库。 3.1基因和基因组数据库 Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由 美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列:由测序中 心提交的大量EST序列和其它测序数据:以及与其它数据机构协作交换数据而来。 Genbank每天都会与欧 洲分子生物学实验室(EML)的数据库,和日本的DNA数据库(DB)交换数据,使这三个数据库的数据同步。 到1999年8月, Genbank中收集的序列数量达到460万条,34亿个碱基,而且数据增长的速度还在不断加 快。 Gen bank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广 泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NBI的主页上找到这些服务 Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的 EST序列)。每条 Genbank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献 序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域 突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类 及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个 文件。 (1) Genbank数据检索 NCBI的数据库检索査询系统是 Entrez。 Entrez是基于Web界面的综合生物信息数据库检索系统。利用 Entrez系统,用户不仅可以方便地检索 Genbank的核酸数据,还可以检索来自 Genbank和其它数据库的蛋 白质序列数据、基因组图谱数据、来自分子模型数据库(MDB)的蛋白质三维结构数据、种群序列数据集 以及由 PubMed获得 Medline的文献数据。 Entrez提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用 Entrez界面上 提供的限制条件① Limits)、索引( Index)、检索历史( History)和剪贴板( Clipboard)等功能来实现复杂的检
第三章 生物信息数据库与查询 近年来大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标 收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。随着因特网的普及,这些数据库 大多可以通过网络来访问,或者通过网络下载。 一般而言,这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验 获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基 础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有 Genbank 数据库、 EMBL 核酸库和 DDBJ 库等;蛋白质序列数据库有 SWISS-PROT 、 PIR 等;蛋白质结构 库有 PDB 等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基 因组图谱库 GDB 、转录因子和结合位点库 TRANSFAC 、蛋白质结构家族分类库 SCOP 等等。 下面将顺序简要介绍一些著名和有特色的生物信息数据库。 3.1 基因和基因组数据库 1. Genbank Genbank 库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由 美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中 心提交的大量 EST 序列和其它测序数据;以及与其它数据机构协作交换数据而来。Genbank 每天都会与欧 洲分子生物学实验室(EMBL)的数据库,和日本的 DNA 数据库(DDBJ)交换数据,使这三个数据库的数据同步。 到 1999 年 8 月,Genbank 中收集的序列数量达到 460 万条,34 亿个碱基,而且数据增长的速度还在不断加 快。Genbank 的数据可以从 NCBI 的 FTP 服务器上免费下载完整的库,或下载积累的新数据。NCBI 还提供广 泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从 NCBI 的主页上找到这些服务。 Genbank 库里的数据按来源于约 55,000 个物种,其中 56%是人类的基因组序列(所有序列中的 34%是人类的 EST 序列)。每条 Genbank 数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献, 序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、 突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以 及 EST 数据、基因组测序数据、大规模基因组序列数据等 16 类,其中 EST 数据等又被各自分成若干个 文件。 (1)Genbank 数据检索 NCBI 的数据库检索查询系统是 Entrez。Entrez 是基于 Web 界面的综合生物信息数据库检索系统。利用 Entrez 系统,用户不仅可以方便地检索 Genbank 的核酸数据,还可以检索来自 Genbank 和其它数据库的蛋 白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、 以及由 PubMed 获得 Medline 的文献数据。 Entrez 提供了方便实用的检索服务,所有操作都可以在网络浏览器上完成。用户可以利用 Entrez 界面上 提供的限制条件(Limits)、索引(Index)、检索历史(History)和剪贴板(Clipboard)等功能来实现复杂的检
索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看 检索获得的序列。更详细的 Entrez使用说明可以在该主页上获得。 (2)向 Genbank提交序列数据 测序工作者可以把自己工作中获得的新序列提交给NCBI,添加到 Genbank数据库。这个任务可以由基于Web 界面的 Bankit或独立程序 Sequin来完成。 BankIt是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等 用户提交序列后,会从电子邮件收到自动生成的数据条目, Genbank的新序列编号,以及完成注释后的完 整的数据记录。用户还可以在 BankIt页面下修改已经发布序列的信息。 BankIt适合于独立测序工作者提 交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST序列和GSS序列也不应用 BankIt 提交。 BankIt使用说明和对序列的要求可详见其主页面。 大量的序列提交可以由 Sequin程序完成。 Sequin程序能方便的编辑和处理复杂注释,并包含一系列内建 的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以 入比对的数据。 Sequin除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以 FASTA或ASN.1 格式序列为输入数据的序列分析程序都可以整合到 Sequin程序下。在不同操作系统下运行的 Sequin程序 都可以在ftp://ncbi.nlm.nih.gov/ sequin/下找到, Sequin的使用说明可详见其网页。 NCBI的网址是:htp://w.ncbi,nlm,nih,gov Entrez的网址是:http://www.ncbi.nlmnihgov/entrez BankIt的网址是http://www.ncbi.nlmnihgov/bankit. Sequin的相关网址是:http://www.ncbinim.nihgov/sequin/ 2.BRL核酸序列数据库 EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与 Genbank和DDBJ的 数据合作交换,它也是一个全面的核酸序列数据库。该数据库由 Oracal数据库系统管理维护,查询检索可 以通过通过因特网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以通过基于Web 的WBIN工具,也可以用 Sequin软件来完成 数据库网址是:http://www.ebi.ac.uk/emb1/. SRS的网址是http://srs.ebiac.uk/o WEBIN的网址是:http://www.ebiac.uk/emb1/submission/webin.htmla 3.DDBJ数据库 日本DNA数据仓库(DDB也是一个全面的核酸序列数据库,与 Genbank和EMBL核酸库合作交换数据。可以 使用其主页上提供的SRS工具进行数据检索和序列分析。可以用 Sequin软件向该数据库提交序列
索查询工作。对于检索获得的记录,用户可以选择需要显示的数据,保存查询结果,甚至以图形方式观看 检索获得的序列。更详细的 Entrez 使用说明可以在该主页上获得。 (2) 向 Genbank 提交序列数据 测序工作者可以把自己工作中获得的新序列提交给 NCBI,添加到 Genbank 数据库。这个任务可以由基于 Web 界面的 BankIt 或独立程序 Sequin 来完成。 BankIt 是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等。 用户提交序列后,会从电子邮件收到自动生成的数据条目,Genbank 的新序列编号,以及完成注释后的完 整的数据记录。用户还可以在 BankIt 页面下修改已经发布序列的信息。BankIt 适合于独立测序工作者提 交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,EST 序列和 GSS 序列也不应用 BankIt 提交。BankIt 使用说明和对序列的要求可详见其主页面。 大量的序列提交可以由 Sequin 程序完成。Sequin 程序能方便的编辑和处理复杂注释,并包含一系列内建 的检查函数来提高序列的质量保证。它还被设计用于提交来自系统进化、种群和突变研究的序列,可以加 入比对的数据。Sequin 除了用于编辑和修改序列数据记录,还可以用于序列的分析,任何以 FASTA 或 ASN.1 格式序列为输入数据的序列分析程序都可以整合到 Sequin 程序下。在不同操作系统下运行的 Sequin 程序 都可以在 ftp://ncbi.nlm.nih.gov/sequin/下找到,Sequin 的使用说明可详见其网页。 NCBI的网址是: http://www.ncbi.nlm.nih.gov 。 Entrez的网址是: http://www.ncbi.nlm.nih.gov/entrez/ 。 BankIt的网址是: http://www.ncbi.nlm.nih.gov/BankIt 。 Sequin的相关网址是: http://www.ncbi.nlm.nih.gov/Sequin/ 。 2. EMBL 核酸序列数据库 EMBL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与 Genbank 和 DDBJ 的 数据合作交换,它也是一个全面的核酸序列数据库。该数据库由 Oracal 数据库系统管理维护,查询检索可 以通过通过因特网上的序列提取系统(SRS)服务完成。向 EMBL 核酸序列数据库提交序列可以通过基于 Web 的 WEBIN 工具,也可以用 Sequin 软件来完成。 数据库网址是: http://www.ebi.ac.uk/embl/ 。 SRS的网址是: http://srs.ebi.ac.uk/ 。 WEBIN 的网址是: http://www.ebi.ac.uk/embl/Submission/webin.html 。 3. DDBJ 数据库 日本 DNA 数据仓库(DDBJ)也是一个全面的核酸序列数据库,与 Genbank 和 EMBL 核酸库合作交换数据。可以 使用其主页上提供的 SRS 工具进行数据检索和序列分析。可以用 Sequin 软件向该数据库提交序列
DDBJ的网址是:http://www.ddbi.nigac.ipo 基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因 组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和 其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、 amplimers PCr标记、断点 breakpoints、细胞遗传标记 cytogenetic markers、易碎位点 fragile sites、EST序列、综合区域 syndromic regions、 contigs和重复序列):人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、 content contig图谱和综合图谱等):人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据 库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形 方式观看基因组图谱。 DB的网址是http://www.gdborga GDB的国内镜像是http://gdb.pkueducn/gdb/o 3.2蛋白质数据库 1.PIR和PSD PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国 际蛋白质序列数据库( JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释 的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其中包括来自几十个完 整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按 蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以 及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶一底物相互作用、活化和调控级 联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分 PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互 式检索:标准的序列相似性搜索,包括 BLAST、 FASTA等:结合序列相似性、注释信息和蛋白质家族信息的 高级搜索,包括按注释分类的相似性搜索、结构域搜索 GeneFI№等 1R和PSD的网址是http://pir.georgetownedu 数据库下载地址是:ftp:// nbrfa, georgetown..edu/pir/。 SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列 每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、 转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序 列变异体和冲突等信息。 SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用 其中包括核酸序列库、蛋白质序列库和蛋白质结构库等 利用序列提取系统(SRS)可以方便地检索 SWISS-PROT和其它EBI的数据库
DDBJ的网址是: http://www.ddbj.nig.ac.jp/ 。 4. GDB 基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB 的目标是构建关于人类基因 组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和 其它对功能和表型的描述。目前 GDB 中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点 breakpoints、细胞遗传标记 cytogenetic markers、易碎位点 fragile sites、EST 序列、综合区域 syndromic regions、contigs 和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig 图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB 数据 库以对象模型来保存数据,提供基于 Web 的数据对象检索服务,用户可以搜索各种类型的对象,并以图形 方式观看基因组图谱。 GDB的网址是: http://www.gdb.org 。 GDB的国内镜像是: http://gdb.pku.edu.cn/gdb/ 。 3.2 蛋白质数据库 1. PIR 和 PSD PIR 国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国 际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释 的、非冗余的蛋白质序列数据库,包含超过 142,000 条蛋白质序列(至 99 年 9 月),其中包括来自几十个完 整基因组的蛋白质序列。所有序列数据都经过整理,超过 99%的序列已按蛋白质家族分类,一半以上还按 蛋白质超家族进行了分类。PSD 的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以 及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级 联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。 PSD 数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR 提供三类序列搜索服务:基于文本的交互 式检索;标准的序列相似性搜索,包括 BLAST、FASTA 等;结合序列相似性、注释信息和蛋白质家族信息的 高级搜索,包括按注释分类的相似性搜索、结构域搜索 GeneFIND 等。 PIR和PSD的网址是: http://pir.georgetown.edu/ 。 数据库下载地址是: ftp://nbrfa.georgetown.edu/pir/ 。 2. SWISS-PROT SWISS-PROT 是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列 条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、 转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序 列变异体和冲突等信息。SWISS-PROT 中尽可能减少了冗余序列,并与其它 30 多个数据建立了交叉引用, 其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。 利用序列提取系统(SRS)可以方便地检索 SWISS-PROT 和其它 EBI 的数据库
SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。 SWISS-PROT的网址是:http://www.ebi.ac.uk/swissprot/. 3. PROSITE PR0SITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠 地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白 质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过 PROSITE 的搜索找到隐含的功能 motif,因此是序列分析的有效工具。 PROSITE中涉及的序列模式包括酶的催化位点 配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等:除了 序列模式之外, PROSITE还包括由多序列比对构建的 profile,能更敏感地发现序列与 profile的相似性。 R0SITE的主页上提供各种相关检索服务。 PROSITE的网址是:htp://w. expasy.ch/ prosite/。 4. PDB 蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国 Brookhaven国家实验室建立 PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据 库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据 库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得 使用 Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构 RCSB的PDB数据库网址是http://www.rcsb.org/pdb/o 蛋白质结构分类(SCOP)数据库详细描述了己知的蛋白质结构之间的关系。分类基于若干层次:家族,描 述相近的进化关系:超家族,描述远源的进化关系:折叠子(fold),描述空间几何结构的关系;折叠类, 所有折叠子被归于全a、全β、a/B、q+β和多结构域等几个大类。SCOP还提供一个非冗余的 ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列 库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的己知结构序列。 SCOP的网址是:http://scop.mrc-imb.camac.uk/scop/. 蛋白质直系同源簇(0Gs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化 关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用 COGNITOR程序,可以把某个蛋白质与所有CoGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提 供了对CG分类数据的检索和査询,基于Web的c0 GNITOR服务,系统进化模式的查询服务等 CG库的网址是:http://www.ncbinlmnihgov/cog-. 下载CG库和 OGNITOR程序在:ftp://ncbi,nlm,nih,gov/pub/OG
SWISS-PROT 只接受直接测序获得的蛋白质序列,序列提交可以在其 Web 页面上完成。 SWISS-PROT的网址是: http://www.ebi.ac.uk/swissprot/ 。 3. PROSITE PROSITE 数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠 地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白 质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过 PROSITE 的搜索找到隐含的功能 motif,因此是序列分析的有效工具。PROSITE 中涉及的序列模式包括酶的催化位点、 配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了 序列模式之外,PROSITE 还包括由多序列比对构建的 profile,能更敏感地发现序列与 profile 的相似性。 PROSITE 的主页上提供各种相关检索服务。 PROSITE的网址是: http://www.expasy.ch/prosite/ 。 4. PDB 蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国 Brookhaven 国家实验室建立。 PDB 收集的数据来源于 X 光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前 PDB 数据 库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB 的主服务器和世界各地的镜像服务器提供数据 库的检索和下载服务,以及关于 PDB 数据文件格式和其它文档的说明,PDB 数据还可以从发行的光盘获得。 使用 Rasmol 等软件可以在计算机上按 PDB 文件显示生物大分子的三维结构。 RCSB的PDB数据库网址是: http://www.rcsb.org/pdb/ 。 5. SCOP 蛋白质结构分类 (SCOP) 数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描 述相近的进化关系;超家族,描述远源的进化关系;折叠子 (fold) ,描述空间几何结构的关系;折叠类, 所有折叠子被归于全 α、全 β、α / β、α+β 和多结构域等几个大类。 SCOP 还提供一个非冗余的 ASTRAIL 序列库,这个库通常被用来评估各种序列比对算法。此外, SCOP 还提供一个 PDB-ISL 中介序列 库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。 SCOP 的网址是: http://scop.mrc-lmb.cam.ac.uk/scop/ 。 6. COG 蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的 21 个完整基因组的编码蛋白,根据系统进化 关系分类构建而成。COG 库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用 COGNITOR 程序,可以把某个蛋白质与所有 COGs 中的蛋白质进行比对,并把它归入适当的 COG 簇。COG 库提 供了对 COG 分类数据的检索和查询,基于 Web 的 COGNITOR 服务,系统进化模式的查询服务等。 COG库的网址是: http://www.ncbi.nlm.nih.gov/COG 。 下载COG库和COGNITOR程序在: ftp://ncbi.nlm.nih.gov/pub/COG
33功能数据库 1. KEGG 京都基因和基因组百科全书(KEG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信 息存储在 GENES数据库里,包括完整和部分测序的基因组序列:更高级的功能信息存储在 PATHWAY数据库 里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息 KEGG的另一个数据库是 LIGANI,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工 具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具, 可以免费获取 KEG的网址是http://www.genomead.jp/kegg/o 2. DIP 相互作用的蛋白质数据库OIP)收集了由实验验证的蛋白质一蛋白质相互作用。数据库包括蛋白质的信息、 相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族 关键词、实验技术或引用文献来查询DIP数据库 DIP的网址是http://dip.doe-mbi.uclaedu 3. ASDB 可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于 SWISS-PROT蛋白质序列 库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成 ASDB(核酸)部分来自 Genbank中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务 ASDB的网址是http://cbcg.nersc.gov/asdb. 4. TRRD 转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构一功能特性信息基础上构建的。每一个 TR的条目里包含特定基因各种结构一功能特性:转录因子结合位点、启动子、增强子、静默子、以及基 因表达调控模式等。TRD包括五个相关的数据表: TRRDGENES(包含所有TRRD库基因的基本信息和调控单 元信息): TRRDSITES(包括调控因子结合位点的具体信息): TRRDFACTORS(包括TRD中与各个位点结合的调 控因子的具体信息): TRRDEXP(包括对基因表达模式的具体描述): TRRDBIB(包括所有注释涉及的参考文献) TRD主页提供了对这几个数据表的检索服务。 TRRD的网址是http://wwwmgs.bionetnscru/mgs/dbases/trrd4/. TRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与DNA结合的 profiles的数据库。由SITE GENE、 FACTOR、 CLASS、 MATRIX、 CELLS、 METHOD和 REFERENCE等数据表构成。此外,还有几个与 TRANSFAC 密切相关的扩展库: PATHODB库收集了可能导致病态的突变的转录因子和结合位点:S/ MART DB收集了与染 色体结构变化相关的蛋白因子和位点的信息: TRANSPATH库用于描述与转录因子调控相关的信号传递的网
3.3 功能数据库 1. KEGG 京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信 息存储在 GENES 数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在 PATHWAY 数据库 里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息; KEGG 的另一个数据库是 LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG 提供了 Java 的图形工 具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具, 可以免费获取。 KEGG的网址是: http://www.genome.ad.jp/kegg/ 。 2. DIP 相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质-蛋白质相互作用。数据库包括蛋白质的信息、 相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、 关键词、实验技术或引用文献来查询 DIP 数据库。 DIP的网址是: http://dip.doe-mbi.ucla.edu/ 。 3. ASDB 可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB(蛋白质)部分来源于 SWISS-PROT 蛋白质序列 库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。 ASDB(核酸)部分来自 Genbank 中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜索服务。 ASDB的网址是: http://cbcg.nersc.gov/asdb 。 4. TRRD 转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个 TRRD 的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基 因表达调控模式等。TRRD 包括五个相关的数据表:TRRDGENES(包含所有 TRRD 库基因的基本信息和调控单 元信息);TRRDSITES(包括调控因子结合位点的具体信息);TRRDFACTORS(包括 TRRD 中与各个位点结合的调 控因子的具体信息);TRRDEXP(包括对基因表达模式的具体描述);TRRDBIB(包括所有注释涉及的参考文献)。 TRRD 主页提供了对这几个数据表的检索服务。 TRRD的网址是: http://wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/ 。 5. TRANSFAC TRANSFAC 数据库是关于转录因子、它们在基因组上的结合位点和与 DNA 结合的 profiles 的数据库。由 SITE、 GENE、FACTOR、CLASS、MATRIX、CELLS、METHOD 和 REFERENCE 等数据表构成。此外,还有几个与 TRANSFAC 密切相关的扩展库:PATHODB 库收集了可能导致病态的突变的转录因子和结合位点;S/MART DB 收集了与染 色体结构变化相关的蛋白因子和位点的信息;TRANSPATH 库用于描述与转录因子调控相关的信号传递的网
络; CYTOMER库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。 TRANSFAC 及其相关数据库可以免费下载,也可以通过Web进行检索和查询 TRANSFAC的网址是:http://transfac.gbfde/transfaC/. 3.4其它数据库资源 1. dUCat DBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用 领域进行了分类。包括DNA、RMA、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据 库可以免费下载或在网络上检索查询 DBCat的网址是:http://www.infobiogen.fr/services/dbcat/. 下载 DBCat在:ftp://ftp. infobiogen.,fr/pub/db/ ducat。 2. PubMed PubMed是NCBI维护的文献引用数据库,提供对 MEDLINE、Pre- MEDLINE等文献数据库的引用查询和对 大量网络科学类电子期刊的链接。利用 Entrez系统可以对 PubMed进行方便的查询检索。 PubMed的网址是http://www.ncbi.nimnihgov/ 除了以上提及的数据之外,还有许许多多的专门生物信息数据库,涉及了目前生物学研究的各个层面和领 域,由于篇幅所限无法一一详述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据库,如欧 洲分子生物学网络组织 EMBNet中国节点北京大学分子生物信息镜像系统,上海博容基因公司与上海嘉瑞软 件公司合作开发的国产汉化基因数据库及分析管理系统,同时国家级的生物信息学中心也在筹建之中。我 们期待国内能有更多高质量和使用便利的数据库资源,推动我国生物信息学和整个生命科学的发展 清华大学生物信息学研究所网址:http://bioinfo.tsinghua.edu.cn 北京大学生物信息镜像系统网址:http://cbi.pku.edu.cn 3序列比对和数据库搜索 比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研 究中,比对是最常用和最经典的研究手段。 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性 位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进 化关系的序列之间共同的保守区域、位点和 profile,从而探索导致它们产生共同功能的序列模式。此外 还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架:把蛋白质序列与具有三维结构信息 的蛋白质相比,从而获得蛋白质折叠类型的信息 比对还是数据库搜索算法的基础,将査询序列与整个数据库]的所有序列进行比对,从数据库中获得与其最
络;CYTOMER 库表现了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。TRANSFAC 及其相关数据库可以免费下载,也可以通过 Web 进行检索和查询。 TRANSFAC的网址是: http://transfac.gbf.de/TRANSFAC/ 。 3.4 其它数据库资源 1. DBCat DBCat 是生物信息数据库的目录数据库,它收集了 500 多个生物信息学数据库的信息,并根据它们的应用 领域进行了分类。包括 DNA 、 RNA 、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据 库可以免费下载或在网络上检索查询。 DBCat 的网址是: http://www.infobiogen.fr/services/dbcat/ 。 下载 DBCat 在: ftp://ftp.infobiogen.fr/pub/db/dbcat 。 2. PubMed PubMed 是 NCBI 维护的文献引用数据库,提供对 MEDLINE 、 Pre-MEDLINE 等文献数据库的引用查询和对 大量网络科学类电子期刊的链接。利用 Entrez 系统可以对 PubMed 进行方便的查询检索。 PubMed 的网址是: http://www.ncbi.nlm.nih.gov/ 。 除了以上提及的数据之外,还有许许多多的专门生物信息数据库,涉及了目前生物学研究的各个层面和领 域,由于篇幅所限无法一一详述。国内也有一些大数据库的镜像站点和自己开发的有特色的数据库,如欧 洲分子生物学网络组织 EMBNet 中国节点北京大学分子生物信息镜像系统,上海博容基因公司与上海嘉瑞软 件公司合作开发的国产汉化基因数据库及分析管理系统,同时国家级的生物信息学中心也在筹建之中。我 们期待国内能有更多高质量和使用便利的数据库资源,推动我国生物信息学和整个生命科学的发展。 清华大学生物信息学研究所网址: http://bioinfo.tsinghua.edu.cn 北京大学生物信息镜像系统网址: http://cbi.pku.edu.cn 3 序列比对和数据库搜索 比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研 究中,比对是最常用和最经典的研究手段。 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性 位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进 化关系的序列之间共同的保守区域、位点和 profile,从而探索导致它们产生共同功能的序列模式。此外, 还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息 的蛋白质相比,从而获得蛋白质折叠类型的信息。 比对还是数据库搜索算法的基础,将查询序列与整个数据库]的所有序列进行比对,从数据库中获得与其最
相似序列的己有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构 和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以 有效地分析和预测一些新发现基因的功能
相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构 和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以 有效地分析和预测一些新发现基因的功能