
生物信息学课程Bioinformatics第十三章生物信息学实验基础陈迪俊南京大学
生物信息学 课程 Bioinformatics 陈迪俊 南京大学 第十三章 生物信息学实验基础

第一节生物信息学编程概述(生物技术与信息技术融合)目录Linux系统及编程语言简介(生物问题>信息表示)第二节数据分析流程搭建第三节(生物数据→知识发现)第四节数据库开发基础(生物数据/知识图谱→数据再利用
目 录 第一节 生物信息学编程概述(生物技术与信息技术融合) 第二节 Linux系统及编程语言简介(生物问题 → 信息表示) 第四节 数据库开发基础(生物数据/知识图谱 → 数据再利用) 第三节 数据分析流程搭建(生物数据 → 知识发现)

生物信息学课程第一节:生物信息学编程概述Bioinformatics·生物信息学编程·利用计算工具和算法来处理和分析生物“大”数据“高通量”生物技术生物学数据居,以解答生物学问题和测序、质谱、成像围推动生物科学新发现计算计算机(信息)技术方法·自的是将复杂的生物问题转化为可编程、机器学习、统计建模等以用信息化方法(包括代码和模型)表示并进行计算和分析从而发现新新规律或者新发现知识发现/图谱规律的过程。数据库、应用程序2
生物信息学 课程 Bioinformatics 第一节:生物信息学编程概述 • 生物信息学编程 • 利用计算工具和算法来处理和分析 生物学数据,以解答生物学问题和 推动生物科学新发现。 • 目的是将复杂的生物问题转化为可 以用信息化方法(包括代码和模型) 表示并进行计算和分析从而发现新 规律的过程。 生物“大”数据 新规律或者新发现 计算 方法 “高通量”生物技术 测序、质谱、成像 2 计算机(信息)技术 编程、机器学习、 统计建模等 知识发现/图谱 数据库、应用程序

生物信息学课程生物信息学编程Bioinformatics·生物问题→信息表示>新规律/发现福六生物表示(微观到宏观)信息表示(数据、模型和代码)结果表示(新规律、发现)3
生物信息学 课程 Bioinformatics 生物信息学编程 • 生物问题 → 信息表示 → 新规律/发现 3

生物信息学课程生物技术与信息技术的协同发展Bioinformatics生物信息起源期生物信息初创期生物信息成熟期:高通量时代分子进化理论:PaulingL(1962).GenBank释放(1982)-,二代测序技术(~2005)第一个生物序列数据库AtlasofProtein:Bloinformatics杂志前身被创建(1985)oRoche/454、Illumina Solexa,ABISOLiDSequences : Dayhoff M (1965).功能基因组计划NCBI成立(1988)-第一个生物信息学软件COMPROTEIN:。HapMap计划(2002)BLAST算法(1990)Dayhoff M和 LedleyRS (1958-1962)白80ENCODE计划(2003)Needleman-Wunsch序列比对算法:。表观基因组计划(2003)NeedlemanSB和WunschCD(1970)。癌症基因组计划(TCGA,2006)。宏基因组计划(HMP,2007)PAM矩阵:DayhoffM及其同事(1978)。1000基因组计划(2008)2010-至今1970-19801990-2000整合生物学OOOO系统生物学1950-19701980-19902000-2010生物信息萌芽期生物信息发展期:基因组学兴起生物信息黄金期:大数据时代第一代测序技术Sanger法(链终止法):Sanger中心成立(1993)三代测序技术(2010)SangerF (1977)OEMBL核酸数据库(1993)PacBio(2010)、ONT(2014)-Bioinformatics概念首次提出:HogewegP生物大数据科学计划-Pubmed数据库(1997)-和HesperB(1978)。英国10万人基因组计划(2012),人类基因组计划(HGP)第一款DNA序列分析软件Staden:。精准医疗(2015)。人类表型组计划BonfieldJ和StadenR(1979)模式物种基因组:酵母(1996)、果蜡(2017 )(1999)、线虫(1998)、拟南芥(2000)国家基因组科学数据中心成立(2016)-基因组拼接软件AlphaFold(2018),AlphaFold3(2024)GeneFormerscGPT,scFoundation(2023
生物信息学 课程 Bioinformatics 1950-1970 1970-1980 1990-2000 ▪ Sanger 中⼼成⽴(1993) ▪ EMBL 核酸数据库(1993) ▪ Pubmed数据库(1997) ▪ ⼈类基因组计划(HGP) ▪ 模式物种基因组:酵⺟(1996)、果蝇 (1999)、线⾍(1998)、拟南芥(2000) ▪ 基因组拼接软件 ▪ GenBank 释放(1982) ▪ Bioinformatics 杂志前⾝被创建(1985) ▪ NCBI 成⽴(1988) ▪ BLAST 算法(1990) 1980-1990 ⽣物信息萌芽期 ▪ 第⼀代测序技术 Sanger 法(链终⽌法): Sanger F(1977) ▪ Bioinformatics 概念⾸次提出:Hogeweg P 和 Hesper B(1978) ▪ 第⼀款DNA序列分析软件 Staden: Bonfield J 和 Staden R(1979) ⽣物信息起源期 ▪ 分⼦进化理论:Pauling L(1962) ▪ 第⼀个⽣物序列数据库 Atlas of Protein Sequences:Dayhoff M (1965) ▪ 第⼀个⽣物信息学软件 COMPROTEIN: Dayhoff M 和 Ledley RS(1958-1962) ▪ Needleman-Wunsch 序列⽐对算法: Needleman SB 和 Wunsch CD(1970) ▪ PAM矩阵: Dayhoff M及其同事(1978) 2000-2010 ⽣物信息发展期:基因组学兴起 ⽣物信息初创期 ⽣物信息成熟期:⾼通量时代 ▪ ⼆代测序技术(~2005) o Roche/454、Illumina Solexa、ABI SOLiD ▪ 功能基因组计划 o HapMap 计划(2002) o ENCODE 计划(2003) o 表观基因组计划(2003) o 癌症基因组计划( TCGA,2006) o 宏基因组计划(HMP,2007) o 1000基因组计划(2008) 2010-⾄今 生物信息黄金期:大数据时代 ▪ 三代测序技术(2010) o PacBio(2010)、ONT(2014) ▪ 生物大数据科学计划 o 英国10万人基因组计划(2012) o 精准医疗(2015)、人类表型组计划 (2017) ▪ 国家基因组科学数据中心成立(2016) ▪ AlphaFold(2018)、AlphaFold3(2024) ▪ GeneFormer、scGPT、scFoundatio 4 n(2023 整合生物学 系统生物学 生物技术与信息技术的协同发展

生物信息学课程生物技术与信息技术的协同发展Bioinformatics生物信息起源期生物信息初创期生物信息成熟期:高通量时代Fortran:BackusJ(1957)R:GentlemanR和 IhakaR(~1980)Scala : Odersky M (2003)-C++:StroustrupB(1983)LISP:McCarthyJ (1958)云计算(CloudComputing)BASICGatesB等(1964)Objective C : Cox B和LoveT (1983).。亚马通AWS(2006) Google App Engine (2008)GNU协议:Stallman R(1985)PASCAL:WirthN(1970)T0。微软Azure(2009)Perl :Wall L (1987).区块链(Blockchain,2008)Python : Rossum G (1989)GO:Google(2009)..WWW技术:Berners-LeeT(~1990)2010-至今1970-19801990-2000整合生物学OOOO系统生物学1950-19701980-19902000-2010生物信息萌芽期生物信息发展期:基因组学兴起生物信息黄金期:大数据时代C : Ritchie D (1972)Linux :Torvalds L (1991)Swift : Apple (2014).-深度学习提出(2012)OSQL:Boyce R和 Chamberlain D (1972)VisualBasic:用户图形界面GUI(1991)-CNN(2012)Smalltalk : Kay A, Goldberg A 和 Ingalls DRuby : Matsumoto Y (1993)-。深度强化学习(2014)(1972)Java : Gosling J (1995)o Transformer (2017)JavaScript : Eich B (1995)深度学习主流框架-- TensarFlow (2015)PHP: LerdorfR (1995)o PyTorch (2016)C# Microsoft (2000)ChatGPT3.0(2020)人工智能时代崛起5
5 生物信息学 课程 Bioinformatics 1950-1970 1970-1980 1990-2000 :Gosling J(1995) ▪ Linux: Torvalds L(1991) ▪ Visual Basic:⽤户图形界⾯ GUI(1991) ▪ Ruby:Matsumoto Y(1993) ▪ Java ▪ JavaScript:Eich B(1995) ▪ PHP:LerdorfR(1995) ▪ C#:Microsoft(2000) ▪ R:Gentleman R 和 Ihaka R(~1980) ▪ C++:Stroustrup B(1983) ▪ Objective C:Cox B 和 Love T(1983) ▪ GNU 协议:Stallman R(1985) ▪ Perl:Wall L(1987) ▪ Python:Rossum G(1989) ▪ WWW 技术:Berners-Lee T(~1990) 1980-1990 ⽣物信息萌芽期 ▪ C:Ritchie D(1972) ▪ SQL:Boyce R 和 Chamberlain D(1972) ▪ Smalltalk:Kay A, Goldberg A 和 Ingalls D (1972) ⽣物信息起源期 ▪ Fortran:Backus J(1957) ▪ LISP:McCarthy J(1958) ▪ BASIC:Gates B等(1964) ▪ PASCAL:WirthN(1970) 2000-2010 ⽣物信息发展期:基因组学兴起 ⽣物信息初创期 ⽣物信息成熟期:⾼通量时代 ▪ Scala:OderskyM(2003) ▪ 云计算(CloudComputing) o 亚⻢逊 AWS(2006) o Google App Engine(2008) o 微软 Azure(2009) ▪ 区块链(Blockchain,2008) ▪ GO:Google(2009) 2010-⾄今 生物信息黄金期:大数据时代 ▪ Swift:Apple(2014) ▪ 深度学习提出(2012) o CNN(2012) o 深度强化学习(2014) o Transformer(2017) ▪ 深度学习主流框架 o TensorFlow(2015) o PyTorch(2016) ▪ ChatGPT 3.0(2020) ▪ 人工智能时代崛起 整合生物学 系统生物学 生物技术与信息技术的协同发展

生物信息学课程生命科学的大数据与人工智能时代Bioinformatics达特茅斯会议机器学习和霍普菲尔德神AlexNet(提出人工智能概念)经网络ANN兴起Transformer198219861990s20121950195619572006201620172021C生COOCCCCChatGPT图灵测试感知机模型BP神经网络深度学习AlphaGo2020AlphaFold2人工智能赋能的生命科学biobank物种起源DNA双螺旋结构人类基因组计划TCGAUKBiobank空间转录组学OOOOOOOOO197720122016185919001953199020052006孟德尔定律DNASanger测序CRISPR基因编辑第二代测序技术6
6 生物信息学 课程 Bioinformatics 生命科学的大数据与人工智能时代 人工智能赋能 的生命科学 1859 1900 孟德尔定律 物种起源 DNA双螺旋结构 1953 1977 1990 DNASanger测序 人类基因组计划 2005 2006 第二代测序技术 TCGA UKBiobank 2012 2016 CRISPR基因编辑 空间转录组学 图灵测试 达特茅斯会议 (提出人工智能概念) 1950 1956 1957 感知机模型 BP神经网络 霍普菲尔德神 机器学习和 经网络 ANN兴起 1982 1986 1990s 2006 深度学习 AlexNet 2012 2016 AlphaGo 2017 Transformer 2021 AlphaFold2 ChatGPT 2020

生物信息学课程本章主要内容Bioinformatics·第一节:生物信息学编程概述·第二节:Linux系统及编程语言简介(Linux、Python、R)·第三节:数据分析流程搭建(组学“大”数据→知识发现)·第四节:数据库开发基础(生物数据/知识图谱>数据再利用)组学数据教攝共享与第四节格第三节操作JT系统及编程语言(第二节)知识数据库图谱数据存储与管理
7 生物信息学 课程 Bioinformatics 本章主要内容 • 第一节:生物信息学编程概述 • 第二节:Linux系统及编程语言简介(Linux、Python、R) • 第三节:数据分析流程搭建(组学“大”数据 → 知识发现) • 第四节:数据库开发基础(生物数据/知识图谱 → 数据再利用) 操作 系统及 编程语言 (第二节) 组学 数据 知识 图谱 数据 库 第三节 第四节 数据存储与管理

第一节生物信息学编程概述(生物技术与信息技术融合)目录第二节Linux系统及编程语言简介(生物问题>信息表示)数据分析流程搭建第三节(生物数据→知识发现)第四节数据库开发基础(生物数据/知识图谱→数据再利用
目 录 第一节 生物信息学编程概述(生物技术与信息技术融合) 第二节 Linux系统及编程语言简介(生物问题 → 信息表示) 第四节 数据库开发基础(生物数据/知识图谱 → 数据再利用) 第三节 数据分析流程搭建(生物数据 → 知识发现)

生物信息学课程第二节:Linux系统及编程语言简介Bioinformatics生物信息学编程技术:AD·Linux操作系统D·Shell脚本语言?茶·R编程语言·Python编程语言
生物信息学 课程 Bioinformatics 第二节:Linux系统及编程语言简介 生物信息学编程技术: • Linux操作系统 • Shell脚本语言 • R编程语言 • Python编程语言 9