课程学习笔记 之 《生物信息学》第二版 (陈铭科学出版社) 普通高等教育“十二五”规划教材 BIOINFORMATICS 生物信息学 第三版 陈铭⊙主编 男科举÷祛 第一版 (如有改进或者建议,请发到邮箱bixiaan@hnu.edu.cn) 2019年12月8日
课程学习笔记 之 《生物信息学》第二版 (陈铭 科学出版社) 第一版 (如有改进或者建议,请发到邮箱 bixiaan@hnu.edu.cn) 2019 年 12 月 8 日
目录 第一章生物信息学的概念及其发展历史6 第一节生物信息学的发展历史 .6 第二节生物信息学的研究领域 第三节生物信息学的主要应用 .14 第四节生物信息学面临的挑战 .24 第二章生物学数据库及其检索 24 第一节生物学数据库简介 .24 第二节生物学数据库的内容与结构 25 第三节生物学数据库的检索. 27 第三章序列比对原理 33 第一节序列比对相关概念 33 第二节序列比对打分方法 .35 第三节序列比对算法 38 第四节序列比对工具 .39 第五节多序列比对 39 第四章蛋白质结构预测与分析 40 第一节蛋白质结构组织层次 40 第二节蛋白质的测定与理论预测. 47 第三节蛋白质对接 49 第五章真核生物基因组的注释… 53 第一节蛋白质编码基因的注释 .53
目 录 第一章 生物信息学的概念及其发展历史................................................6 第一节 生物信息学的发展历史............................................................6 第二节 生物信息学的研究领域............................................................8 第三节 生物信息学的主要应用..........................................................14 第四节 生物信息学面临的挑战..........................................................24 第二章 生物学数据库及其检索 ............................................................. 24 第一节 生物学数据库简介...................................................................24 第二节 生物学数据库的内容与结构.................................................25 第三节 生物学数据库的检索...............................................................27 第三章 序列比对原理.............................................................................. 33 第一节 序列比对相关概念...................................................................33 第二节 序列比对打分方法...................................................................35 第三节 序列比对算法............................................................................38 第四节 序列比对工具............................................................................39 第五节 多序列比对.................................................................................39 第四章 蛋白质结构预测与分析 ............................................................. 40 第一节 蛋白质结构组织层次...............................................................40 第二节 蛋白质的测定与理论预测......................................................47 第三节 蛋白质对接.................................................................................49 第五章 真核生物基因组的注释 ............................................................. 53 第一节 蛋白质编码基因的注释..........................................................53
第二节RNA基因的注释 57 第三节重复序列的注释. 58 第四节假基因的注释 59 第五节案例分析:黄瓜基因组的注释 .59 第六章蛋白质组学. 61 第一节蛋白质组学概述, 62 第二节蛋白质的大规模分离鉴定技术 64 第三节蛋白质的翻译后修饰! 69 第四节蛋白质分选 69 第五节蛋白质相互作用.… 71 第七章系统生物学 72 第一节系统生物学基本概念 72 第二节系统生物学基本技术与方法 .72 第三节先进的成像技术 73 第四节基因表达调控网络 .73 第五节代谢网络 74 第六节信号传导途径 75 第七节蛋白质-蛋白质相互作用网络 .76 第八节虚拟细胞… 76 第八章合成生物学.… 76 第一节合成生物学概述… .76 第二节合成生物学基础研究经典实例 78
第二节 RNA 基因的注释......................................................................57 第三节 重复序列的注释........................................................................58 第四节 假基因的注释............................................................................59 第五节 案例分析:黄瓜基因组的注释.............................................59 第六章 蛋白质组学.................................................................................. 61 第一节 蛋白质组学概述........................................................................62 第二节 蛋白质的大规模分离鉴定技术.............................................64 第三节 蛋白质的翻译后修饰...............................................................69 第四节 蛋白质分选.................................................................................69 第五节 蛋白质相互作用........................................................................71 第七章 系统生物学.................................................................................. 72 第一节 系统生物学基本概念...............................................................72 第二节 系统生物学基本技术与方法.................................................72 第三节 先进的成像技术........................................................................73 第四节 基因表达调控网络...................................................................73 第五节 代谢网络.....................................................................................74 第六节 信号传导途径............................................................................75 第七节 蛋白质-蛋白质相互作用网络...............................................76 第八节 虚拟细胞.....................................................................................76 第八章 合成生物学.................................................................................. 76 第一节 合成生物学概述........................................................................76 第二节 合成生物学基础研究经典实例.............................................78
第三节合成生物学应用研究经典实例… 80 第九章分子进化与系统发育 80 第一节分子进化与系统发育… 80 第二节分子系统发育树的构建方法 81 第三节系统发育树构建及应用 81 第十章统计学习与推理… 81 第一节统计学习与推理基础 81 第二节统计模型与参数推断 .81 第三节聚类分析、主成分分析与Fisher判别 .82 第四节贝叶斯推理 82 第五节隐马尔科夫模型 82 第六节动态神经网络… 82 第七节支持向量机, .82 第八节MATLAB的应用实例 82 第十一章生物信息学编程基础… 82 第一节Linux操作系统 82 第二节生物信息学中的编程语言 82 第三节SQL及数据库编程 .82 第四节并行计算… 82 第十二章第二代测序技术及其应用 83 第一节测序技术概述 83 第二节第二代测序原理 .85
第三节 合成生物学应用研究经典实例.............................................80 第九章 分子进化与系统发育.................................................................. 80 第一节 分子进化与系统发育...............................................................80 第二节 分子系统发育树的构建方法.................................................81 第三节 系统发育树构建及应用..........................................................81 第十章 统计学习与推理.......................................................................... 81 第一节 统计学习与推理基础...............................................................81 第二节 统计模型与参数推断...............................................................81 第三节 聚类分析、主成分分析与 Fisher 判别 ..............................82 第四节 贝叶斯推理.................................................................................82 第五节 隐马尔科夫模型........................................................................82 第六节 动态神经网络............................................................................82 第七节 支持向量机.................................................................................82 第八节 MATLAB 的应用实例..............................................................82 第十一章 生物信息学编程基础 ............................................................. 82 第一节 Linux 操作系统.........................................................................82 第二节 生物信息学中的编程语言......................................................82 第三节 SQL 及数据库编程...................................................................82 第四节 并行计算.....................................................................................82 第十二章 第二代测序技术及其应用..................................................... 83 第一节 测序技术概述............................................................................83 第二节 第二代测序原理........................................................................85
第三节第二代测序技术的应用… 86 第四节生物信息学在第二代测序中的应用 87
第三节 第二代测序技术的应用..........................................................86 第四节 生物信息学在第二代测序中的应用....................................87
第一章生物信息学的概念及其发展历史 第一节生物信息学的发展历史 1、人类基因组计划(P1) 人类基因组计划(human genome project,HGP)是由美国科 学家于1985年率先提出,于1990年正式启动的。其宗旨在于测定 组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷 酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列 达到破译人类遗传信息的最终目的。人类基因组计划与曼哈顿原子弹 计划和阿波罗计划并称为三大科学计划。人类基因组计划被誉为生命 科学的“登月计划”。 基因组图谱: 定义:展示一种生物全基因组结构的图谱。按建立图谱的研究目 的方法和精细程度,可以有不同的形式,包括以遗传学方法建立的遗 传连锁图谱,按距离绘出基因位置分布的物理图谱,经测定核酸序列 建立的核苷酸序列图谱,以及标记出可表达序列的转录图谱等。 大 杆蘭基因组物理图 烟草分子标记遗传连锁图谱(部分)
第一章 生物信息学的概念及其发展历史 第一节 生物信息学的发展历史 1、人类基因组计划(P1) 人类基因组计划(human genome project, HGP)是由美国科 学家于 1985 年率先提出,于 1990 年正式启动的。其宗旨在于测定 组成人类染色体(指单倍体)中所包含的 30 亿个碱基对组成的核苷 酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列, 达到破译人类遗传信息的最终目的。人类基因组计划与曼哈顿原子弹 计划和阿波罗计划并称为三大科学计划。人类基因组计划被誉为生命 科学的“登月计划”。 基因组图谱: 定义:展示一种生物全基因组结构的图谱。按建立图谱的研究目 的方法和精细程度,可以有不同的形式,包括以遗传学方法建立的遗 传连锁图谱,按距离绘出基因位置分布的物理图谱,经测定核酸序列 建立的核苷酸序列图谱,以及标记出可表达序列的转录图谱等
2、DNA序列(P1) DNA序列或基因序列是使用一串字母表示的真实的或者假设的 携带基因信息的DNA分子的一级结构。 例如,序列AAAGTCTGAC。任意长度大于4的一串核苷酸被称 做一个序列。(A:腺嘌呤,C:胞嘧啶,G:鸟嘌呤和T:胸腺嘧啶, 分别代表组成DNA的四种核苷酸) 3、GenBank、.EMBC、DDB](P1) GenBank,美国国家生物技术信息中心建立的DNA序列数据库, 从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规 模基因组测序计划。 EMBC,欧洲分子生物学会议,英文全称为European Molecular Biology Conference。.该组织于1964年2月在日内瓦成立,目的是促 进欧洲分子生物学的发展和开展年轻科学家的培训工作。 DB],日本DNA数据库,英文全称为DNA Data Bank of Japan, 于1984年建立,是世界三大DNA数据库之一,与NCBl的GenBank, EMBL的EBl数据库共同组成国际DNA数据库。 4、碱基、碱基对、核酸、核苷酸(P1) 碱基:碱基,又称核碱基、含氮碱基,是形成核苷的含氮化合物, 核苷又是核苷酸的组分。碱基、核苷和核苷酸等单体构成了核酸的基
2、DNA 序列(P1) DNA 序列或基因序列是使用一串字母表示的真实的或者假设的 携带基因信息的 DNA 分子的一级结构。 例如,序列 AAAGTCTGAC。任意长度大于 4 的一串核苷酸被称 做一个序列。(A:腺嘌呤,C:胞嘧啶,G:鸟嘌呤和 T:胸腺嘧啶, 分别代表组成 DNA 的四种核苷酸) 3、GenBank、EMBC、DDBJ(P1) GenBank,美国国家生物技术信息中心建立的DNA序列数据库, 从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规 模基因组测序计划。 EMBC,欧洲分子生物学会议,英文全称为 European Molecular Biology Conference。该组织于 1964 年 2 月在日内瓦成立,目的是促 进欧洲分子生物学的发展和开展年轻科学家的培训工作。 DBJ,日本 DNA 数据库,英文全称为 DNA Data Bank of Japan, 于 1984年建立,是世界三大 DNA 数据库之一,与 NCBI 的GenBank, EMBL 的 EBI 数据库共同组成国际 DNA 数据库。 4、碱基、碱基对、核酸、核苷酸(P1) 碱基:碱基,又称核碱基、含氮碱基,是形成核苷的含氮化合物, 核苷又是核苷酸的组分。碱基、核苷和核苷酸等单体构成了核酸的基
本构件。 碱基对:碱基对是一对相互匹配的碱基(即A一T,G一C,A一U 相互作用)被氢键连接起来 核酸:核酸是一类生物聚合物,是所有已知生命形式必不可少的 组成物质。核酸是脱氧核糖核酸(DNA)和核糖核酸(RNA)的总称。 核苷酸:核苷酸(hégan suan)Nucleotide,一类由嘌呤碱或嘧 啶碱、核糖或脱氧核糖以及磷酸三种物质组成的化合物。又称核甙酸。 戊糖与有机碱合成核苷,核苷与磷酸合成核苷酸,4种核苷酸组成核 酸。核苷酸主要参与构成核酸,许多单核苷酸也具有多种重要的生物 学功能,如与能量代谢有关的三磷酸腺苷(ATP)、脱氢辅酶等。 5、核苷酸序列(P1) 核苷酸序列:核苷酸序列,就是指DNA或RNA中碱基的排列顺 序。这意味着DNA中A,T,G,C的排列循序,或者mRNA中A, U,G,C的排列循序,也包括rRNA,tRNA中碱基的排列顺序。 第二节生物信息学的研究领域 1、后基因组时代(P4) 后基因组时代指的就是生物界,特别是从事分子生物学的科学工 作者,将研究方向由结构基因组方向向功能基因组方向转移的时代趋 势
本构件。 碱基对:碱基对是一对相互匹配的碱基(即 A—T, G—C,A—U 相互作用)被氢键连接起来 核酸:核酸是一类生物聚合物,是所有已知生命形式必不可少的 组成物质。核酸是脱氧核糖核酸(DNA)和核糖核酸(RNA)的总称。 核苷酸:核苷酸(hé gān suān) Nucleotide,一类由嘌呤碱或嘧 啶碱、核糖或脱氧核糖以及磷酸三种物质组成的化合物。又称核甙酸。 戊糖与有机碱合成核苷,核苷与磷酸合成核苷酸,4 种核苷酸组成核 酸。核苷酸主要参与构成核酸,许多单核苷酸也具有多种重要的生物 学功能,如与能量代谢有关的三磷酸腺苷(ATP)、脱氢辅酶等。 5、核苷酸序列(P1) 核苷酸序列:核苷酸序列,就是指 DNA 或 RNA 中碱基的排列顺 序。这意味着 DNA 中 A,T,G,C 的排列循序,或者 mRNA 中 A, U,G,C 的排列循序,也包括 rRNA,tRNA 中碱基的排列顺序。 第二节 生物信息学的研究领域 1、后基因组时代(P4) 后基因组时代指的就是生物界,特别是从事分子生物学的科学工 作者,将研究方向由结构基因组方向向功能基因组方向转移的时代趋 势
2、表型、表型相关基因(P5) 丹麦遗传学家W.L.约翰森于1911年提出的两个遗传学名词,有 基因型和表型。 基因型,是指某一生物个体全部基因组合的总称。 表型,是具有特定基因型的个体,在一定环境条件下,所表现出 来的性状特征的总和。简单来说,指个体形态、功能等各方面的表现 如身高、肤色、血型、酶活力、药物耐受力乃至性格等等。表型是基 因型和环境共同作用的结果。 性状,是指生物体所有特征的总和,由基因决定,必须是可以遗 传的。而表型则是这些基因决定的性状在环境作用下的具体表现,与 性状的概念有着本质区别,表型是不可遗传的。 表型和性状的区别:性状由基因决定,而表型是基因和环境共 同作用的结果。比如A和B生的孩子C有身高为175cm的性状,但 可能C由于外界环境的影响,比如C有喜欢打篮球之类能够增高的 行为,那么他可能长到180cm,这就叫表型,然而他遗传到下一代的 性状还是175cm。 3、细胞核、染色体(P5) 细胞核:真核细胞内最大、最重要的细胞结构,是细胞遗传与代 谢的调控中心,是真核细胞区别于原核细胞最显著的标志之一(极少 数真核细胞无细胞核,如哺乳动物的成熟的红细胞,高等植物成熟的 筛管细胞等)。它主要由核膜(nuclear membrane)、染色质
2、表型、表型相关基因(P5) 丹麦遗传学家 W.L.约翰森于 1911 年提出的两个遗传学名词,有 基因型和表型。 基因型,是指某一生物个体全部基因组合的总称。 表型,是具有特定基因型的个体,在一定环境条件下,所表现出 来的性状特征的总和。简单来说,指个体形态、功能等各方面的表现, 如身高、肤色、血型、酶活力、药物耐受力乃至性格等等。表型是基 因型和环境共同作用的结果。 性状,是指生物体所有特征的总和,由基因决定,必须是可以遗 传的。而表型则是这些基因决定的性状在环境作用下的具体表现,与 性状的概念有着本质区别,表型是不可遗传的。 表型和性状的区别: 性状由基因决定,而表型是基因和环境共 同作用的结果。比如 A 和 B 生的孩子 C 有身高为 175cm 的性状,但 可能 C 由于外界环境的影响,比如 C 有喜欢打篮球之类能够增高的 行为,那么他可能长到 180cm,这就叫表型,然而他遗传到下一代的 性状还是 175cm。 3、细胞核、染色体(P5) 细胞核:真核细胞内最大、最重要的细胞结构,是细胞遗传与代 谢的调控中心,是真核细胞区别于原核细胞最显著的标志之一(极少 数真核细胞无细胞核,如哺乳动物的成熟的红细胞,高等植物成熟的 筛 管 细 胞 等 )。 它 主 要 由 核 膜 ( nuclear membrane)、 染 色 质
(chromatin)、核仁(nucleolus)、核基质(nuclear matrix)等组成。 染色体:细胞在有丝分裂或减数分裂时DNA存在的特定形式。 4、DNA-RNA-蛋白质(P5) DNA-RNA-蛋白质:一句话讲,DNA决定RNA,RNA决定蛋白 质 三句话讲:DNA是一切生物的遗传物质的基础,DNA经过转录称为 RNA,RNA经过翻译称为蛋白质。 复制(DDDP) 转录(DDR即) 翻译 DNA RNa →蛋白质 反转录(RDDP) RNA 复制(RDP) 转录:转录(Transcription)是遗传信息从DNA流向RNA的过程。 即以双链DNA中的确定的一条链(模板链用于转录,编码链不用于 转录)为模板,以A,U,C,G四种核苷酸为原料,在RNA聚合酶催化下 合成RNA的过程。作为蛋白质生物合成的第一步,进行转录时,一 个基因会被读取并被复制为mRNA,即特定的DNA片断作为遗传信 息模板,以依赖DNA的RNA聚合酶作为催化剂,通过碱基互补的原 则合成前体mRNA.RNA聚合酶通过与一系列组分构成动态复合体, 完成转录起始、延伸、终止等过程。生成的mRNA携有的密码子,进 入核糖体后可以实现蛋白质的合成。转录仅以DNA的一条链作为模
(chromatin)、核仁(nucleolus)、核基质(nuclear matrix) 等组成。 染色体:细胞在有丝分裂或减数分裂时 DNA 存在的特定形式。 4、DNA-RNA-蛋白质(P5) DNA-RNA-蛋白质:一句话讲,DNA 决定 RNA,RNA 决定蛋白 质 三句话讲:DNA 是一切生物的遗传物质的基础,DNA 经过转录称为 RNA,RNA 经过翻译称为蛋白质。 转录:转录(Transcription)是遗传信息从 DNA 流向 RNA 的过程。 即以双链 DNA 中的确定的一条链(模板链用于转录,编码链不用于 转录)为模板,以 A,U,C,G 四种核苷酸为原料,在 RNA 聚合酶催化下 合成 RNA 的过程。作为蛋白质生物合成的第一步,进行转录时,一 个基因会被读取并被复制为 mRNA,即特定的 DNA 片断作为遗传信 息模板,以依赖 DNA 的 RNA 聚合酶作为催化剂,通过碱基互补的原 则合成前体 mRNA。RNA 聚合酶通过与一系列组分构成动态复合体, 完成转录起始、延伸、终止等过程。生成的 mRNA 携有的密码子,进 入核糖体后可以实现蛋白质的合成。转录仅以 DNA 的一条链作为模