生物信息学现状和重要研究方向 1.1什么是生物信息学? o Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition processing, storage, distribution, analysis, and interpretation. 它是一个学科领域,包含着基因组信息的获取、处 理、存储、分配、分析和解释的所有方面 (The U.S. Human Genome Project: The First Five Years FY 1991-1995, by nih and doe) 生命“阿波罗计划的人类基因组计划完成 (2001年)
生物信息学现状和重要研究方向 生物信息学现状和重要研究方向 z 1.1 什么是生物信息学? z Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 它是一个学科领域,包含着基因组信息的获取、处 理、存储、分配 、分析和解释的所有方面。 (The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE) z 生命 “阿波罗计划 ”的人类基因组计划 完成 (2001 年 )
3*1010,000bo0ks 1 book 100 pages 1 page 3,000 characters CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCT GGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACA GACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATA CGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGG GGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCG AAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTCAAAGGCG GGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACA GAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAG AGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTA AGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGAC AATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACG GTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGC TATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGG GCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGA GCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAA TTAAGCATGCCCGGTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAAC GTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTG TTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAG ATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATT TCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGA AGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTG GGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG (1250 characters 关键是先要从一个个序列片段中得到这本天书
How many characters are in the “Heaven Book”? 3*109 10,000 books 1 book 100 pages 1 page 3,000 characters CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCT GGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACA GACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATA CGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGG GGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCG AAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCG GGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACA GAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAG AGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTA AGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGAC AATATATTAAATGGATTGATCAATCCGCTT CAGCCTCCCGAGTAGCTGGGACTACAGACG GTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGC TATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGG GCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGA GCAAACACTTCCGGTTT TAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAA TTAAGCATGCCCGGTTT TAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAAC GTTAAAATTTGT CAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTG TTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAG ATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATT TCTATAGTGTGTTACTAGAGAAGTTTCTCT GAACGTGTAGAGCACCGAAAACCACGAGGA AGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTG GGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG (1250 characters) 关键是先要从一个个序列片段中得到这本天书
IIft!! ●破译人类遗传密码就要读懂由32亿符号组 成的100万页的“天书
z破译人类遗传密码就要读懂由32亿符号组 成的100万页的 “天书
1999年12月 GenBank的DNA碱基数其数目已达30亿, 们来自47000种生物。2000年4月DNA碱基数目是60 亿。现在,这一数目已达190亿 NUcleic acids research 2006Jan)各种生物的片列已达60多万条,其中 人类的序列已超过300万条,借计覆盖人类基因90 %以上:自全长1.8Mb的嗜血流感杆菌( Haemophilus influenzae Rd)基因组序列于1995年发表 ( Fleischmann et al.,1995)以来,已有若干个微 生物和真核生物完成基因组测序
1999 年12 月GenBank GenBank 的DNA碱基数其数目已达 碱基数其数目已达30亿, 它们来自47000种生物。2000 年 4 月DNA碱基数目是60 亿。现在,这一数目已达 亿。现在,这一数目已达190 亿 (Nucleic Acids Research 2006 Jan ) 。各种生物的EST序列已达600多万条,其中 人类的EST序列已超过300 万条,估计覆盖人类基因 万条,估计覆盖人类基因90 %以上; 自全长1.8Mb的嗜血流感杆菌( 的嗜血流感杆菌(Haemophilus Haemophilus influenzae influenzae Rd)基因组序列于 )基因组序列于1995年发表 (Fleischmann et al. Fleischmann et al. ,1995)以来,已有若干个微 )以来,已有若干个微 生物和真核生物完成基因组测序 生物和真核生物完成基因组测序
Ureaplasma Bacillus Drosophila Rickettsia Helico bacter urealyticum subtili melanogaster prowazekii pylori Buchnerasp Escherichia cO|大肠杆蔚 human Arabidopsis Thermotoga APS 拟南芥 maritima Thermoplasma mouse Caenorhabditis rat Borrelia acidophilum elegans burgdorferi Plasmodium neisseria Borrelia falciparum Aquifex meningitidis Mycobacteria burgdorferi aeolus Z2491 m tuberculosis
human Arabidopsis 拟南芥 Thermotoga maritima Escherichia coli大肠杆菌 Buchnerasp. APS Rickettsia prowazekii Ureaplasma urealyticum Bacillus subtilis Drosophila melanogaster Thermoplasma acidophilum Plasmodium falciparum Helicobacter pylori mouse Caenorhabitis elegans rat Borrelia burgorferi Borrelia burgorferi Aquifex aeolicus Neisseria meningitidis Z2491 Mycobacteriu m tuberculosis
◆已经完成测序的基因组(截止2004年11月) 令古细菌( archaea)(58) 今细菌( bacteria)(752) 令真核生物( eukaryota)(9) 令病毒( viruses)(1711) 冷类病毒( viroids)(36) 令真核生物器官( organelles) 线粒体( mitochondria)(623) 质体( plastids)(41) 质粒( plasmids)(661) 数据引自htt/ it. integratedgenomics com/GOLD
数据引自http://wit.integratedgenomics.com/GOLD/ 已经完成测序的基因组(截止2004年11月) 古细菌(archaea)(58) 细菌(bacteria)(752) 真核生物(eukaryota)(9) 病毒(viruses)(1711) 类病毒(viroids)(36) 真核生物器官(organelles) 线粒体(mitochondria)(623) 质体(plastids)(41) 质粒(plasmids)(661)
这些成就意味着基因组的研究 将全面进入信息提取和数据分析的 崭新阶段
这些成就意味着基因组的研究 将全面进入信息提取和数据分析的 崭新阶段
计算机运算速度:18个月增长一倍 DNA序列数据:14个月增长一倍; Growth of the International Nucleotide Sequence Database collaboration 50 40 10 g Base Pars contributed by GenBank- EMBL- DDBJ-I
计算机运算速度: 18个月增长一倍; DNA序列数据: 14个月增长一倍;
Computer Aided Vaccine Design System Right/wrong Answer Data Flow Articles Right/Wrong Algorithm(ANN), Answer E Database Analysis Program, C Adjust program Lab Work
Computer Aided Vaccine Design System Computer Aided Vaccine Design System Database Articles Lab Work Algorithm(ANN), Analysis Program, Adjust Program… Data Flow Right/Wrong? Right/Wrong? Answer Answer
生物信息学是把基因组DNA序列信息分析 作为源头,破译隐藏在DNA序列中的遗传语 言,特别是非编码区的实质;同时归纳、整 理与基因组遗传信息释放及其调控相关的转 录谱和蛋白质谱的数据,从而认识代谢、发 育、分化、进化的规律 基因组水平
生物信息学是把基因组 生物信息学是把基因组DNA序列信息分析 作为源头,破译隐藏在 作为源头,破译隐藏在DNA序列中的遗传语 序列中的遗传语 言,特别是非编码区的实质;同时 言,特别是非编码区的实质;同时归纳、整 理与基因组遗传信息释放及其调控相关的转 理与基因组遗传信息释放及其调控相关的转 录谱和蛋白质谱的数据,从而认识代谢、发 录谱和蛋白质谱的数据,从而认识代谢、发 育、分化、进化的规律。 育、分化、进化的规律。———基因组水平