生物医学工程导论 第十八章生物信息学导论
第十八章 生物信息学导论 生物医学工程导论
背景 ·人类基因组计划(Human Genome Project,HGP): 1990年正式启动,旨在完成人类基因组约30亿个 碱基的全序列测定 海量生物数据的迅速膨胀:DNA、RNA和蛋白质 序列,蛋白质二级结构和三维结构数据,蛋白质相 互作用数据等 ● 对大量生物数据的管理、分析和信息化需求促进 了生物信息学的迅速发展
背景 人类基因组计划(Human Genome Project, HGP): 1990年正式启动,旨在完成人类基因组约30亿个 碱基的全序列测定。 海量生物数据的迅速膨胀:DNA、RNA和蛋白质 序列,蛋白质二级结构和三维结构数据,蛋白质相 互作用数据等。 对大量生物数据的管理、分析和信息化需求促进 了生物信息学的迅速发展
人类基因组计HGP(Human Genome Project) 由美国NIH和能源部提出和带头,美、英、德、 法、日、中共同参与的国际合作项日。 重大国际研究项目:测定人类基因组全部DNA序 列,构建人类基因组遗传图谱和物理图谱。 1990年:正式启动,30亿美元. ·2001年:人类基因组草图公开发表。 ·2003年:美国宣布该项目完成
人类基因组计划HGP (Human Genome Project) 由美国NIH和能源部提出和带头,美、英、德、 法、日、中共同参与的国际合作项目。 重大国际研究项目:测定人类基因组全部DNA序 列,构建人类基因组遗传图谱和物理图谱。 1990年: 正式启动,30亿美元。 2001年:人类基因组草图公开发表。 2003年:美国宣布该项目完成
人类基因组计划 基因组图谱:遗传图谱,物理图谱 遗传图谱(genetic map):连锁图谱,显示所知的 基因和/或遗传标记的相对距离位置与次序。 物理图谱(physical map):表示某些基因和/或遗传 标记之间在基因组上的精确位置和距离(如间隔的 bp数目)的图谱
人类基因组计划 基因组图谱:遗传图谱,物理图谱 遗传图谱(genetic map):连锁图谱,显示所知的 基因和/或遗传标记的相对距离位置与次序。 物理图谱(physical map):表示某些基因和/或遗传 标记之间在基因组上的精确位置和距离(如间隔的 bp数目)的图谱
生物信息学定义的历史演变 定义一:生物信息学是一门收集、分析遗传数据以 及分发给研究机构的新学科。(Dr.HwaA.Lim, 1987) 定义二:生物信息学特指数据库类的工作,包括持 久稳固的在一个稳定的地方提供对数据的支持。(Dr. Hwa A.Lim,1994) 定义三:生物信息学是在大分子方面的概念型的生 物学,并且使用了信息学的技术,这包括了从应用 数学、计算机科学以及统计学等学科衍生而来各种 方法,并以此在大尺度上来理解和组织与生物大分 子相关的信息。(Luscombe,2001)
生物信息学定义的历史演变 定义一:生物信息学是一门收集、分析遗传数据以 及分发给研究机构的新学科。(Dr. Hwa A. Lim, 1987) 定义二:生物信息学特指数据库类的工作,包括持 久稳固的在一个稳定的地方提供对数据的支持。(Dr. Hwa A. Lim,1994) 定义三:生物信息学是在大分子方面的概念型的生 物学,并且使用了信息学的技术,这包括了从应用 数学、计算机科学以及统计学等学科衍生而来各种 方法,并以此在大尺度上来理解和组织与生物大分 子相关的信息。 (Luscombe,2001)
什么是生物信息学? 生物学研究可以被看成是研究信息的传递:从DNA 经转录翻译到蛋白质,从细胞质中到细胞核内,从 母细胞到子细胞,从一个细胞或一个组织到另一个 细胞或另一个组织,从一代到下一代,从一个物种 到另一个物种的进化演变。这种信息论的观点即可 称为生物信息学 (Bioinformatic challenges for the next decade(s), David Eisenberg et al.,2006)
生物学研究可以被看成是研究信息的传递:从DNA 经转录翻译到蛋白质,从细胞质中到细胞核内,从 母细胞到子细胞,从一个细胞或一个组织到另一个 细胞或另一个组织,从一代到下一代,从一个物种 到另一个物种的进化演变。这种信息论的观点即可 称为生物信息学。 (Bioinformatic challenges for the next decade(s), David Eisenberg et al., 2006) 什么是生物信息学?
生物信息学的主要研究内容 ·生物信息的存储与查询; 。序列比对; ·基因预测及基因组分析; ·分子进化与系统发育分析; ·RNA结构预测; ·蛋白质结构预测; ·分子设计与药物设计; ·生物网络; 。生物芯片
生物信息学的主要研究内容 生物信息的存储与查询; 序列比对; 基因预测及基因组分析; 分子进化与系统发育分析; RNA结构预测; 蛋白质结构预测; 分子设计与药物设计; 生物网络; 生物芯片
生物信息学的发展历程 1952年,Sanger根据胰岛素蛋白质的测序结果,推断蛋 白质是排列完美的分子。—一最早的信息论观点。 之前的观点认为蛋白质可能是由相似氨基酸堆积在一起 的混合物,而不具有特定的结构。而Sanger2发现胰岛素 蛋白质作为一种纯净物(单一的分子),并且具有特定 的三级结构。因此推断蛋白质是排列完美的分子,而这 种排列的完美性,其中应当蕴含着一些未知的机理。 1955年,Sanger.与合作者分别对牛、猪和羊的胰岛素蛋 白质进行了测序并做了序列上的比较。一最早的序列 比对
生物信息学的发展历程 1952年,Sanger根据胰岛素蛋白质的测序结果,推断蛋 白质是排列完美的分子。——最早的信息论观点。 之前的观点认为蛋白质可能是由相似氨基酸堆积在一起 的混合物,而不具有特定的结构。而Sanger发现胰岛素 蛋白质作为一种纯净物(单一的分子),并且具有特定 的三级结构。因此推断蛋白质是排列完美的分子,而这 种排列的完美性,其中应当蕴含着一些未知的机理。 1955年,Sanger与合作者分别对牛、猪和羊的胰岛素蛋 白质进行了测序并做了序列上的比较。——最早的序列 比对
最早的序列分析:胰岛素蛋白质 Insulin Chain A:8-10位存在着不同 (牛,ASV;猪,TSl;羊,AGV) (Brown et al.,1955) Bovine GIVEQCCASVCSLYQLENYCN pig GIVEQCCSICSLYQLENYCN sheep GIVEQCCACVCSLYQLENYCN Human GIVEQCOSICSLYQLENYCN Made by GeneDoc
最早的序列分析:胰岛素蛋白质 Insulin Chain A: 8-10位存在着不同 (牛,ASV;猪,TSI;羊,AGV) (Brown et al., 1955) Made by GeneDoc
80年代:DNA序列数据库 1974年,George I.Bel‖等人收集DNA序列,构建 GenBank数据库。1982~1992开发第一个版本。 ·1980年,EMBL数据库成立。 ·1984年,日本DDBJ数据库成立。 。1 核酸序列数据的去冗余:Refseq数据库,对于相同 的序列只列一条目录
80年代:DNA序列数据库 1974年,George I.Bell等人收集DNA序列,构建 GenBank数据库。1982~1992开发第一个版本。 1980年,EMBL数据库成立。 1984年,日本DDBJ数据库成立。 核酸序列数据的去冗余:Refseq数据库,对于相同 的序列只列一条目录