圆 第一节生物数据库简介 000 ·什么是数据库 ● 数据库类型 ·生物学数据库 ·重要的生物信息站点 2
第一节 生物数据库简介 2 • 什么是数据库 • 数据库类型 • 生物学数据库 • 重要的生物信息站点
一、什么是数据库 000八 数据库(database)是一类用于存储和管理数据的计算机文档,是统 一管理的相关数据的集合,其存储形式有利于数据信息的检索与调 用。 数据库开发的主要任务是将数据以结构化记录的形式进行组织,以 便于信息的检索。 。 数据库的每一条记录(record) 也可以称为条目(entry) 包含 了多个描述某一类数据特性或属性的字段(field),如基因名、来源 物种、序列的创建日期等,这也是数据结构化的基础;值(value) 则是指每个记录中某个字段的具体内容。 当我们进行数据库记录的检索时,就是利用查询语言在整个数据库 中查找符合条件(即对特定字段包含特定内容的限定)的所有记录 的过程。例如,我们可以在GenBank核酸序列数据库中查找所有来 源于人类(organism:Homo sapiens)、最近30天公布的(published inthe last30days)、类型为mRNA(molecular type:mRNA) 的核酸 序列。 3
一、什么是数据库 3 • 数据库(database)是一类用于存储和管理数据的计算机文档,是统 一管理的相关数据的集合,其存储形式有利于数据信息的检索与调 用。 • 数据库开发的主要任务是将数据以结构化记录的形式进行组织,以 便于信息的检索。 • 数据库的每一条记录(record),也可以称为条目(entry),包含 了多个描述某一类数据特性或属性的字段(field),如基因名、来源 物种、序列的创建日期等,这也是数据结构化的基础;值(value) 则是指每个记录中某个字段的具体内容。 • 当我们进行数据库记录的检索时,就是利用查询语言在整个数据库 中查找符合条件(即对特定字段包含特定内容的限定)的所有记录 的过程。例如,我们可以在GenBank 核酸序列数据库中查找所有来 源于人类(organism:Homo sapiens)、最近30 天公布的(published inthe last 30 days)、类型为mRNA(molecular type:mRNA)的核酸 序列
圆二、 数据库的类型 000队 ·到目前为止,生物学数据库使用了4种不同的数 据库结构类型: 平面文件 关系型数据库 面向对象数据库 基于Internet平台的XML 4
二、数据库的类型 4 • 到目前为止,生物学数据库使用了 4 种不同的数 据库结构类型: 平面文件 关系型数据库 面向对象数据库 基于 Internet 平台的 XML
三、生物学数据库 000以 。 生物学数据库的类型多种多样,根据存放数据类型的不 同,可以分为 ·序列(如GenBank、Swiss-Prot等) ·(三维)结构(如PDB) 文献(如NCBl的PubMed) 序列特征(如PROSITE、Pfam等) 基因组图谱(如MapViewer、Ensembl等) 表达谱等多种数据库,每一种还可以进行更细致层次的划分。 ·根据数据库存储的具体内容还可以分为 一级数据库 二级数据库(primary and secondary database) 用户针对性更强的专用数据库(specializeddatabase) 5
三、生物学数据库 5 • 生物学数据库的类型多种多样,根据存放数据类型的不 同,可以分为 • 序列(如GenBank、Swiss-Prot等) • ( 三维) 结构( 如PDB) • 文献( 如NCBI 的PubMed) • 序列特征( 如PROSITE、Pfam等) • 基因组图谱(如MapViewer、Ensembl 等) • 表达谱等多种数据库,每一种还可以进行更细致层次的划分。 • 根据数据库存储的具体内容还可以分为 • 一级数据库 • 二级数据库(primary and secondary database) • 用户针对性更强的专用数据库(specializeddatabase)
(一)一级数据库与二级数据库 000八 一级数据库属于档案数据库(archive), 库中的主要内容是来源于 实验室操作所得到的原始数据结果(如测序得到的序列或经过X射线 晶体衍射所得到的三维结构数据等),也会包含一些基本的说明 ( 如序列所属的物种、类型、序列发表的文献出处等)。如核酸序 列数据库GenBank、EMBL、DDB]及蛋白质结构数据库PDB(Protein Data Bank)就是典型的一级数据库。 二级数据库是在一级数据库的信息基础上进行了计算加工处理并增 加了许多人为的注释而构成的。例如,NCBl的RefSeg数据库,其 mRNA序列是综合了GenBank中来源于同一物种相同基因的所有 mRNA序列信息的一致性序列(consensus sequence) 6
(一)一级数据库与二级数据库 6 • 一级数据库属于档案数据库(archive),库中的主要内容是来源于 实验室操作所得到的原始数据结果(如测序得到的序列或经过X 射线 晶体衍射所得到的三维结构数据等),也会包含一些基本的说明 (如序列所属的物种、类型、序列发表的文献出处等)。如核酸序 列数据库GenBank、EMBL、DDBJ 及蛋白质结构数据库PDB(Protein Data Bank)就是典型的一级数据库。 • 二级数据库是在一级数据库的信息基础上进行了计算加工处理并增 加了许多人为的注释而构成的。例如,NCBI 的RefSeq 数据库,其 mRNA 序列是综合了GenBank 中来源于同一物种相同基因的所有 mRNA 序列信息的一致性序列(consensus sequence)
公共数据库与专业数据库 000 公共数据库中大多数的蛋白质序列是将核酸序列中的编码序列区域 (coding sequence region,CDS)进行蛋白质翻译后,通过后续的 些计算分析(如利用BLAST进行序列相似性分析),主观人为地为序 列加上蛋白质产物名称及功能注释。也就是说,它们不是通过实验 来确定的。例如:UniProt下属的KnowledgeBase数据库,是由众多 蛋白质专家人工校正注释的高质量Swiss-Prot和由计算预测得到各种 蛋白质功能信息的TrEMBL两部分组成,是目前最大的二级蛋白质序 列数据库。 专业数据库被开发出来以满足不同生物学研究团体对特定类型信息 的需求。例如,专门研究小RNA的数据库或专门存储基因表达谱数 据的数据库,以及专门为果蝇、线虫、拟南芥等基因组研究提供各 类信息的专业数据库等
公共数据库与专业数据库 7 • 公共数据库中大多数的蛋白质序列是将核酸序列中的编码序列区域 (coding sequence region,CDS)进行蛋白质翻译后,通过后续的一 些计算分析(如利用BLAST 进行序列相似性分析),主观人为地为序 列加上蛋白质产物名称及功能注释。也就是说,它们不是通过实验 来确定的。例如:UniProt下属的KnowledgeBase数据库,是由众多 蛋白质专家人工校正注释的高质量Swiss-Prot和由计算预测得到各种 蛋白质功能信息的TrEMBL两部分组成,是目前最大的二级蛋白质序 列数据库。 • 专业数据库被开发出来以满足不同生物学研究团体对特定类型信息 的需求。例如,专门研究小RNA 的数据库或专门存储基因表达谱数 据的数据库,以及专门为果蝇、线虫、拟南芥等基因组研究提供各 类信息的专业数据库等
(二)如何查找与研究相关的生物学资源 000 ·利用公共搜索引擎 ·了解重要的生物信息学门户站点 ·利用Nucleic Acid Research杂志每年的数据库专辑/网络服 务器专辑 Nucleic Acids Research ORLMIE排D41AA55LU车ANUAR行意0期 @⑤ Nucleic Acid Research Database Issue 2020 OXFORD Open Access 8
(二)如何查找与研究相关的生物学资源 8 • 利用公共搜索引擎 • 了解重要的生物信息学门户站点 • 利用Nucleic Acid Research 杂志每年的数据库专辑/ 网络服 务器专辑 Nucleic Acid Research Database Issue 2020
四、重要的生物信息站点 000队 ·NCBI一一美国国家生物技术信息中心 ·EB1一一欧洲生物信息研究所 ·EMBnet-一一欧洲分子生物学信息网络 ·NGDC一一国家基因组科学数据中心(国家生物信息中心) 9
四、重要的生物信息站点 9 • NCBI——美国国家生物技术信息中心 • EBI——欧洲生物信息研究所 • EMBnet——欧洲分子生物学信息网络 • NGDC ——国家基因组科学数据中心(国家生物信息中心)
(-)NCBI 000 NCBI (National Center for Biotechnology Information, http:/www.ncbi.nlm.nih.gov)建立于1988年11月4日,隶属于美国 国立卫生研究院(National Institutes of Health,NIH)的美国国家医 学图书馆(National Library of Medicine,NLM),主要任务是创建公 共可接入数据库,引导在计算生物学及基因组数据分析方面的软件 开发,同时发布各类生物医学信息。 NCBI的数据资源主要包括数据库、数据下载、数据提交及分析工具4 个部分,每个部分的资源都有更为细致的分类 National Library of Medicine Waleome to NCBI 重 eve NCBI主页 0
1 0 • NCBI(National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov)建立于1988 年11 月4 日,隶属于美国 国立卫生研究院(National Institutes of Health,NIH)的美国国家医 学图书馆(National Library of Medicine,NLM),主要任务是创建公 共可接入数据库,引导在计算生物学及基因组数据分析方面的软件 开发,同时发布各类生物医学信息。 • NCBI 的数据资源主要包括数据库、数据下载、数据提交及分析工具4 个部分,每个部分的资源都有更为细致的分类。 NCBI 主页 (一)NCBI
(二)EBI 000 ● EBI (European Bioinformatics Institute,http://www.ebi.ac.uk) ,是隶 属于欧洲分子生物学研究室(EMBL)的一个非营利性的学术机构, 专门从事生物信息学方面的研究与服务。EB1的主要任务包括为科研 团体免费提供数据及生物信息学服务;从生物信息学的角度为推动 特定科研项目的发展作出努力,为各阶层的科研人员提供高级生物 信息学培训,以及帮助向工业界发布最新技术等。EB1的网站在数据 规模和承担的任务方面都与NCBI相当,而全部资源及工具则显示在 其Services A to Z页面(http:/www.ebi.ac.uk/services/all)中。 EMDE'European Bioinformatics Institute EMBL-EBI Unleashing the potential of big data in blology Find a gene,protoin or chemical Search Find data resources Submit data● Explore our research Train with us EBI主页 11
(二)EBI 11 • EBI(European Bioinformatics Institute,http://www.ebi.ac.uk),是隶 属于欧洲分子生物学研究室(EMBL)的一个非营利性的学术机构, 专门从事生物信息学方面的研究与服务。EBI 的主要任务包括为科研 团体免费提供数据及生物信息学服务;从生物信息学的角度为推动 特定科研项目的发展作出努力,为各阶层的科研人员提供高级生物 信息学培训,以及帮助向工业界发布最新技术等。EBI 的网站在数据 规模和承担的任务方面都与NCBI 相当,而全部资源及工具则显示在 其Services A to Z 页面(http://www.ebi.ac.uk/services/all)中。 EBI主页