生物信息学 课程学习笔记 之 《生物信息学》 (第四版陈铭主编科学出版社) 科学出版社“十四玉五”普通高等教育本科规划教材 1生命科学经典教材系列 生物 生物信息学 (第四版) 信息学 陈铭主编 第一版 毕夏安 (如有改进或者建议,请发到邮箱bixiaan(@hnu.edu.cn) 2022年5月4日 1
生物信息学 1 课程学习笔记 之 《生物信息学》 (第四版 陈铭主编 科学出版社) 第一版 毕夏安 (如有改进或者建议,请发到邮箱 bixiaan@hnu.edu.cn) 2022 年 5 月 4 日
生物信息学 目录 第一章生物信息学的概念及发展历史 6 第一节生物信息学的发展历史 6 第二节生物信息学的研究领域 9 第三节生物信息学的主要应用 12 第四节生物信息学面临的挑战 21 第二章生物学数据库及其检索 24 第一节生物学数据库简介 24 第二节生物学数据库的数据存储格式 30 第三节生物学数据库的检索.… 37 第三章序列比对原理. 49 第一节序列比对相关概念 49 第二节序列比对打分方法 54 第三节序列比对算法 .59 第四节序列比对工具 .61 第五节多序列比对 65 第四章蛋白质结构预测与分析 71 第一节蛋白质结构组织层次 71 第二节蛋白质结构的测定与理论预测 ..79 第三节蛋白质对接 99 第四节蛋白质折叠与疾病… 102 第五章基因组学 110
生物信息学 2 目 录 第一章 生物信息学的概念及发展历史 ..................................................6 第一节 生物信息学的发展历史 ......................................................6 第二节 生物信息学的研究领域 ......................................................9 第三节 生物信息学的主要应用 ....................................................12 第四节 生物信息学面临的挑战 ....................................................21 第二章 生物学数据库及其检索 ............................................................24 第一节 生物学数据库简介 ............................................................24 第二节 生物学数据库的数据存储格式 ........................................30 第三节 生物学数据库的检索 ........................................................37 第三章 序列比对原理 ............................................................................49 第一节 序列比对相关概念 ............................................................49 第二节 序列比对打分方法 ............................................................54 第三节 序列比对算法 ....................................................................59 第四节 序列比对工具 ....................................................................61 第五节 多序列比对 ........................................................................65 第四章 蛋白质结构预测与分析 ............................................................71 第一节 蛋白质结构组织层次 ........................................................71 第二节 蛋白质结构的测定与理论预测 ........................................79 第三节 蛋白质对接 ........................................................................99 第四节 蛋白质折叠与疾病 ..........................................................102 第五章 基因组学 ..................................................................................110
生物信息学 第一节生物信息学的发展历史 110 第二节蛋白质编码基因的注释 114 第三节RNA基因的注释.… 119 第四节重复序列的注释 120 第五节假基因的注释 123 第六节案例分析:黄瓜基因组的注释 123 第六章转录组学 132 第一节转录组学概述 132 第二节试验设计和测序流程 .136 第三节转录组数据核心分析 ..139 第四节功能分析 ....146 第五节RNA-seq数据分析案例 154 第七章非编码RNA. 159 第一节非编码RNA概述 159 第二节非编码RNA的分类 .163 第三节microRNA.. 168 第四节IncRNA 172 第五节cireRNA .176 第六节其他小分子RNA 181 第八章蛋白质组学.… 187 第一节蛋白质组学概述 187 第二节蛋白质的大规模分离鉴定技术… 189 3
生物信息学 3 第一节 生物信息学的发展历史 ..................................................110 第二节 蛋白质编码基因的注释 ..................................................114 第三节 RNA 基因的注释.............................................................119 第四节 重复序列的注释 ..............................................................120 第五节 假基因的注释 ..................................................................123 第六节 案例分析:黄瓜基因组的注释 ......................................123 第六章 转录组学 ..................................................................................132 第一节 转录组学概述 ..................................................................132 第二节 试验设计和测序流程 ......................................................136 第三节 转录组数据核心分析 ......................................................139 第四节 功能分析 ..........................................................................146 第五节 RNA-seq 数据分析案例..................................................154 第七章 非编码 RNA.............................................................................159 第一节 非编码 RNA 概述............................................................159 第二节 非编码 RNA 的分类........................................................163 第三节 microRNA.........................................................................168 第四节 lncRNA.............................................................................172 第五节 circRNA............................................................................176 第六节 其他小分子 RNA.............................................................181 第八章 蛋白质组学 ..............................................................................187 第一节 蛋白质组学概述 ..............................................................187 第二节 蛋白质的大规模分离鉴定技术 ......................................189
生物信息学 第三节蛋白质的翻译后修饰 197 第四节蛋白质分选 198 第五节蛋白质相互作用. 200 第九章系统生物学 … .210 第一节系统生物学基本概念 .210 第二节复杂网络及特征 .214 第三节系统生物学基本技术与方法 .219 第四节基因表达调控网络 224 第五节代谢网络 224 第六节信号转导途径 .226 第七节蛋白质蛋白质相互作用网络 .232 第八节虚拟细胞 237 第九节生物学网络的构建、分析与可视化 .238 第十章合成生物学 .245 第一节合成生物学 .245 第二节合成生物学基础研究经典实例 .249 第三节合成生物学应用研究经典实例 254 第十一章分子进化与系统发育… 260 第一节分子进化与系统发育 .260 第二节分子系统发育树的构建方法. .266 第三节系统发育树构建及应用 273 第十二章统计学习与推理 … 292
生物信息学 4 第三节 蛋白质的翻译后修饰 ......................................................197 第四节 蛋白质分选 ......................................................................198 第五节 蛋白质相互作用 ..............................................................200 第九章 系统生物学 ..............................................................................210 第一节 系统生物学基本概念 ......................................................210 第二节 复杂网络及特征 ..............................................................214 第三节 系统生物学基本技术与方法 ..........................................219 第四节 基因表达调控网络 ..........................................................224 第五节 代谢网络 ..........................................................................224 第六节 信号转导途径 ..................................................................226 第七节 蛋白质蛋白质相互作用网络 ..........................................232 第八节 虚拟细胞 ..........................................................................237 第九节 生物学网络的构建、分析与可视化 ..............................238 第十章 合成生物学 ..............................................................................245 第一节 合成生物学 ......................................................................245 第二节 合成生物学基础研究经典实例 ......................................249 第三节 合成生物学应用研究经典实例 ......................................254 第十一章 分子进化与系统发育 ..........................................................260 第一节 分子进化与系统发育 ......................................................260 第二节 分子系统发育树的构建方法 ..........................................266 第三节 系统发育树构建及应用 ..................................................273 第十二章 统计学习与推理 ..................................................................292
生物信息学 第一节统计学习与推理基础 292 第二节统计模型与参数推断 297 第三节聚类分析、主成分分析与Fisher判别 299 第四节贝叶斯推理 .305 第五节隐马尔可夫模型 .306 第六节动态神经网络 .310 第七节深度学习 .313 第八节支持向量机 322 第九节MATLAB的应用实例 .326 第十三章生物信息学编程基础 327 第一节Linux操作系统 327 第二节生物信息学中的编程语言… 339 第三节SQL及数据库编程 355 第四节并行计算 .361 第十四章新一代测序技术及其应用 .366 第一节测序技术概述 366 第二节第二代测序原理 .369 第三节第二代测序技术的应用 .376 第四节生物信息学在第二代测序中的应用 ..380 第五节生物信息学新技术与发展趋势.385
生物信息学 5 第一节 统计学习与推理基础 ......................................................292 第二节 统计模型与参数推断 ......................................................297 第三节 聚类分析、主成分分析与 Fisher 判别..........................299 第四节 贝叶斯推理 ......................................................................305 第五节 隐马尔可夫模型 ..............................................................306 第六节 动态神经网络 ..................................................................310 第七节 深度学习 ..........................................................................313 第八节 支持向量机 ......................................................................322 第九节 MATLAB 的应用实例.....................................................326 第十三章 生物信息学编程基础 ..........................................................327 第一节 Linux 操作系统................................................................327 第二节 生物信息学中的编程语言 ..............................................339 第三节 SQL 及数据库编程..........................................................355 第四节 并行计算 ..........................................................................361 第十四章 新一代测序技术及其应用 ..................................................366 第一节 测序技术概述 ..................................................................366 第二节 第二代测序原理 ..............................................................369 第三节 第二代测序技术的应用 ..................................................376 第四节 生物信息学在第二代测序中的应用..............................380 第五节 生物信息学新技术与发展趋势 ......................................385
生物信息学 第一章生物信息学的概念及发展历史 第一节生物信息学的发展历史 目前,绝大部分的核酸和蛋白质数据库由美国、欧洲及日本的三 家数据库系统产生,它们共同组成了GenBank/ENA/DDBJ国际核酸 序列数据库,每天交换数据,同步更新。其他一些国家,如德国、法 国、意大利、瑞士、澳大利亚、丹麦和以色列等,在分享网络共享资 源的同时,也分别建有自己的生物信息学机构、次级或者衍生的具有 各自特色的专业数据库及自己的分析技术,服务于本国生物医学研究 和开发,有些服务也开放于全世界。 国内对生物信息学领域的研究也越来越重视,自北京大学于1996 年建立了国内第一个生物信息学网络服务器以来,我国生物信息学的 研究得到蓬勃发展。较早开展生物信息学研究的单位主要有:北京大 学、清华大学、浙江大学、中国科学院生物物理研究所、中国科学院 上海生命科学研究院、中国科学院遗传与发育生物学研究所等。北京 大学、天津大学分别于1997年、1998年成立了生物信息学中心,中 国科学院上海生命科学研究院也于2000年3月成立了生物信息学中 心。如今,生命科学的基础研究与技术开发对生物信息学的科研与人 才需求越发迫切,越来越多的高等院校、科研单位开展了生物信息学 教育和科研工作,少数如哈尔滨医科大学专门设置了生物信息学学院, 越来越多的生物信息学技术服务机构或公司也提供了相应的科技服 务。 下表列出了生命科学、计算机科学及生物信息学大事记,从中可 6
生物信息学 6 第一章 生物信息学的概念及发展历史 第一节 生物信息学的发展历史 目前,绝大部分的核酸和蛋白质数据库由美国、欧洲及日本的三 家数据库系统产生,它们共同组成了 GenBank/ENA/DDBJ 国际核酸 序列数据库,每天交换数据,同步更新。其他一些国家,如德国、法 国、意大利、瑞士、澳大利亚、丹麦和以色列等,在分享网络共享资 源的同时,也分别建有自己的生物信息学机构、次级或者衍生的具有 各自特色的专业数据库及自己的分析技术,服务于本国生物医学研究 和开发,有些服务也开放于全世界。 国内对生物信息学领域的研究也越来越重视,自北京大学于 1996 年建立了国内第一个生物信息学网络服务器以来,我国生物信息学的 研究得到蓬勃发展。较早开展生物信息学研究的单位主要有:北京大 学、清华大学、浙江大学、中国科学院生物物理研究所、中国科学院 上海生命科学研究院、中国科学院遗传与发育生物学研究所等。北京 大学、天津大学分别于 1997 年、1998 年成立了生物信息学中心,中 国科学院上海生命科学研究院也于 2000 年 3 月成立了生物信息学中 心。如今,生命科学的基础研究与技术开发对生物信息学的科研与人 才需求越发迫切,越来越多的高等院校、科研单位开展了生物信息学 教育和科研工作,少数如哈尔滨医科大学专门设置了生物信息学学院, 越来越多的生物信息学技术服务机构或公司也提供了相应的科技服 务。 下表列出了生命科学、计算机科学及生物信息学大事记,从中可
生物信息学 以看出其发展进程及中国的贡献。 生命科学 年份 计算机科学 1642 Blaise Pascal发明机械计算2器 Robert Hooke在其著作中描述了细胞结构 1665 John Ray提出了物种分类 1686 1858 电报 达尔文的(物种起源》出版 1859 孟德尔遗传定律提出 1865 Nirenber写和Khorana豉译了遗传密码字典的全部64 1966 美国计算机协会设立图灵奖 个三联体密码子 首次分离得到DNA 1869 1876 电话 Walter Flemming观察到有丝分裂 1879 确认孟德尔遗传定律 1900 疾病可以有序遗传:遗传的染色体理论 1902 术语“基因”的出现 1909 染色体理论在果蝇中得到验证 1911 Alfred H.Sturtevant绘制了第-一张遗传连锁图谱 1913 “”一个基因一个箭”假说 1941 DNA的X射线衍射 1943 第一台电子管计算机EN1AC研发并于1946年诞生 DNA可以改造细胞的特性:跳跃基因的发现 1944 O.T.Avery证明DNA是遗传物质 1944 1945 第一个计算机Bug Lederberg和Tatum证实了遗传重组现象 1946 发现DNA配对法则 1952 第一个编译器的发明 Francis Crick、James Watson和Maurice Wilkins发现 1953 DNA的双螺旋结构 人类46条染色体的确定:DNΛ聚合箭的发现:第一1955 个蛋白质序列(牛胰岛素)被测定 血红蛋白的一个氨基酸改变可以导致嫌状细胞贫恤 1956 DNA的半保留复制 1958 中国第一台电子管计算机诞生 染色体异常致病被发现 1959 1960计算机C0BOL处理电话交换 7
生物信息学 7 以看出其发展进程及中国的贡献
生物信息学 生命科学 年份 计算机科学 mRNA将信息从细胞核内传递到细胞质 1961 1963 美国信息互换标准代码(ASCI)片鼠标 1964 BASIC语言 中国人工合成牛胰岛素结品:Margaret Dakley 1965 Daghoff收集蛋白质序列,并在随后一年提出PAM 模型 发现第一个限制酮 1968 1969 UNX操作系统 1970 Needleman-Wunsch序列比对 算法 1971个人电脑 第一个重组DNA 1972 C语言 第一个动物基因被克降 1973 文件传输协议(FTP)出现 DNA测序工作的开启 1975 微软公司成立 第一个遗传工程公司成立 1976 苹果公司成立 Sanger研究小组完成了第一个噬菌体全基因组的测 1977 序:内含子的发现 1978 第一个电子布告栏系统(BBS)的出现 1979 新闻组(Newsgroup)的出现 中国实现醇母丙氨酸转移核糖核酸的人工合成 1981 第一个计算机病毒Eld Cloner出现:Smith-Waterman序列比 对算法:MS-DOS1.0发布 1982 Sun公司推出第一个工作站Sun100:英特尔80286处理器 1983 微软Windows系统命名 1984 互联网节点数超过1000个 Kary Mullis创立PCR技术:生物信息学专业期刊 1985 Bjame Stroustrup创建C十十语言 (CABIOS)创刊:德国生物信息学会议(GCB》 举行 日本核酸序列数据库DDB)诞生:蛋白质数据库 1986 标准通用置标语言(SGML)1SO标准公布 Swiss-Prot建立:中国开始实施“863计划 1987 Perl语言 美国国家生物技术信息中心(NCBI)成立 1988 Pearson实现FASTA程序 1989 英特尔发布486处理器 国际人类基因组计划(HGP)启动:第一届国际电 1990 Altschul实现BLAST程序:HTTP1.0标准发布 泳、超级计算和人类基因组会议在美国佛罗里达州 会议中心举行 1991 Linux出现:Python语言发布 欧洲生物信息学研究所(EB1)获准成立:第一届1993 英特尔发布奔腾处理器 ISMB国际会议在美国国家医学图书馆(NLM)举 行:HGP新5年计划,中同开始参与人类基因组 计划 Mare Wilkins提出蛋白质组(proteome)的概念;细1994 雅虎公司成立:Pel5发布 南基因组计划 人类基因组物理图谱完成:日木信息生物学中心 1995 Sun正式发布Java:Apache HTTP项目启动:微软发布 (CIB)成立 Windows95系统 8
生物信息学 8
生物信息学 生命科学 年份 计算机科学 Af的vmetri成生产商用DNA芯片:北京大学蛋白质工 1996 微软发布3.0 程和植物遗传学工程国家实验室加人欧洲分子生物 学网铬(EMBnet) 大肠杆菌基因组测序完成:北京大学生物信息学中心 1997 微软发布IE4.0:BM深蓝计算机击败国际象棋世界冠军 (CBI)成立:中国科学院召开“DNA芯片的现状 与未来”和“生物信息学”香山会议 亚太生物信息学网铬(APBioNet)成立:瑞士生物 1998W3C发布可扩展标记语言XML1.0:微软发布Windows98 信息学研究所(SIB)成立:美国Celera遗传公司 成立:线虫基因组测序完成:CABIOS期刊更名为 Bioinformatics:中国人类基因组研究北方中心(北 京)和南方中心(上海)成立 人类22号染色体序列测定完成:中国获准加人人类基1999 英特尔发布奔腾Ⅲ处理器 因组计划。成为第6个国际人类基因组计划参与国 德国、日本等国科学家宣布基本完成人体第21对染2000 微软发布Windows20O0和Windows Me简单对象访问协议 色体的测序工作:果蝇基因组调序完成:中国科学 (SOAP) 院上海生命科学研究院生物信息中心(SBI)成立 美国、日木、德国、法国、英国、中国6国科学家和 2001微软发布Windows XP Linux内枝2.4 美国Celera公司联合公布人类基因组图谱及初步 分析结果:中国首届全国生物信息学会议(CCB) 举行:中国完成籼稻基因组工作框架图 小鼠基因组测序完成 2002 HGP完成 2003 微软发布Windows Server2003:Linw内核2.6 蛋白质组学:解码基因组;大鼠和鸡基因组草图完成2004 大星猩和狗全基因组测序完成:人类H即Mp项目完成2005 我国研制出全球首例骨髓分析生物芯片 2006 世界首份“个人版”基因图谱完成 2007 谷歌和1BM合作推动云计算 千人基因组测序计划启动:拟南芥1001株系测序启动 2008 英特尔发布酷容7处理器 黄瓜、高粱和两个玉米品种的基因组测序 2009 外显子测序 2010 我国“天河一号”成为全球运算速度最快的超级计算机:苹 果公司发布Pd平板电脑 体细胞重编程技术:“垃圾”DNA得到正名 2012 CRISPR基因编辑技术将成为某因编辑的常用工具 2013 我国“天河二号”超越美间“Titan号”,再次成为全球运算 速度最快的超级计算机 密症的CART疗法和HV的T细胞疗法 2014 Roadmap Epigenomics Program发布表观基因组图谱 2015 深圳国家基因库CNGB正式运营 2016基于强化学习的A1phaG0程序击败围棋世界冠军:采用国产 核心处理器的“神威·太湖之光”超过“天河二号”成为 世界上运算速度最快的超级计算机 人类细胞图谱计划启动:首次合成包含两种人工碱基2017光量子计算机诞生 的生命体 单细胞水平细胞谱系追踪技术;世界首例单条染色体2018我国新一代“E级超算”“天河三号”原型机首次亮相 真核细胞出现:小麦基因组图谐历经13年绘制完成 DNA显微镜研制成功:新型人造DNA结构信息密2019新型类脑计算芯片一“天机芯”芯片研发成功:中国正式 度可加倍:国家基因组科学数据中心(NGDC)成 进人5G商用元年 立:国家生物信息学中心挂牌成立 首张人类细胞图谱公布:CRISPR基因编辑技术首次2020 量子计算原型机“九章”实现量子优越性:基于深度学习的 用于临床治疗:;mRNA疫苗首次投入使用 AlphaFold解决蛋白质折叠难题 第二节生物信息学的研究领域 就研究面来说,其涉及并参与生命科学各个领域的研究。 9
生物信息学 9 第二节 生物信息学的研究领域 就研究面来说,其涉及并参与生命科学各个领域的研究
生物信息学 1分子生物学与细胞生物学 该领域以DNA-RNA-蛋白质为对象,分析编码区和非编码区中 信息结构和编码特征,以及相应的信息调节与表达规律等。由于生物 功能的主要体现者是蛋白质及其生理功能,研究蛋白质的修饰加工、 转运定位、结构变化、相互作用等活动将推动对基因的功能、表达和 调控的理解,对细胞活动及器官、系统、整体活动的调控都很关键。 2.生物物理学 生物物理学其实是物理学的一个分支,研究的是生物的物理形态, 涉及生物能学、结构生物学、生物力学、生物控制论、电生理学等。 但这方面的生物数据获取和分析也越来越依赖于计算机的应用,如模 型的建立、光谱和成像数据的分析等。 3.脑和神经科学 脑是自然界中最复杂的组织,长期以来,通过神经解剖、神经生 理、神经病理和临床医学研究,获得了大量有关脑结构和功能的数据。 近年来,神经生物学研究也取得了大量科研成果,但是这些研究大多 是在组织、细胞和分子水平进行的,不能很好地在系统和整体水平上 反映人脑活动的规律。随着核磁共振成像和正电子发射断层成像的发 展,应用计算机技术,我们有可能在系统和整体水平上开创地研究人 脑的功能定位、功能区之间的联系及神经递质和神经受体等。由此产 生的神经信息学研究,将对我们了解脑、治疗脑和开发脑产生重大的 作用。 4.医药学 10
生物信息学 10 1.分子生物学与细胞生物学 该领域以 DNA-RNA-蛋白质为对象,分析编码区和非编码区中 信息结构和编码特征,以及相应的信息调节与表达规律等。由于生物 功能的主要体现者是蛋白质及其生理功能,研究蛋白质的修饰加工、 转运定位、结构变化、相互作用等活动将推动对基因的功能、表达和 调控的理解,对细胞活动及器官、系统、整体活动的调控都很关键。 2.生物物理学 生物物理学其实是物理学的一个分支,研究的是生物的物理形态, 涉及生物能学、结构生物学、生物力学、生物控制论、电生理学等。 但这方面的生物数据获取和分析也越来越依赖于计算机的应用,如模 型的建立、光谱和成像数据的分析等。 3.脑和神经科学 脑是自然界中最复杂的组织,长期以来,通过神经解剖、神经生 理、神经病理和临床医学研究,获得了大量有关脑结构和功能的数据。 近年来,神经生物学研究也取得了大量科研成果,但是这些研究大多 是在组织、细胞和分子水平进行的,不能很好地在系统和整体水平上 反映人脑活动的规律。随着核磁共振成像和正电子发射断层成像的发 展,应用计算机技术,我们有可能在系统和整体水平上开创地研究人 脑的功能定位、功能区之间的联系及神经递质和神经受体等。由此产 生的神经信息学研究,将对我们了解脑、治疗脑和开发脑产生重大的 作用。 4.医药学