三绿学昌 核酸与基因组序列分析 倪青山 第三军医大学生物信息学中心 gsnlatmmu.edu. cn http://bioinfo.tmmu.edu.cn Bioinformatics, 2012-2013, TMMU
核酸与基因组序列分析 倪青山 第三军医大学生物信息学中心 qsni@tmmu.edu.cn http://bioinfo.tmmu.edu.cn Bioinformatics, 2012-2013, TMMU
Genomic DNA Sequence AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCA AGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGA TGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACC TAGCAAGTTGCATGACGATTGACCTA GTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCA TGACGATGCATGACCTAGTGCATGACGATGCATGACC TAGCAGCATCGAAGTTGCATGACGATGCATGA CCTAGCAAGTTGCATGACGATTGACC TAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGA CCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGT TGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATC GAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGAC GATGCATGACCTAGCAAGTTGCATGACGATIGACCTAGTGCATGACGATGCATGACC TAGCAGCATCGA AGTTGCATGACGATGCATGACCTAGd GATGCATGACCTAATGCATGACCTAGCA CTATCAGCATGGAAGTGCATGACGA A C G T GATGCATGAGGATIAGACCTAGTCCATGA CTGACC TAGCAGCATCGAAGTTGCA AGTGCATGACGATGCATGACCTAGCAGC ATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACC TAGCAGCATCGAAGTTGC ATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACC TAGTGCATGACGATGCATGACCTA GCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGA TGCATGACC TAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCA TGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATT GACCTAGTGCATGACTGACC TAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATG CATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCAT GACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCA TGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACC TAGC AGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATG CATGACC TAGCAGCATCGAAGTTGCATGACGATGCATGACCTA
AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCA AGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGA TGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTA GTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCA TGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGA CCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGA CCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGT TGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATC GAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGAC GATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGA AGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCA GCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGAC CTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGA CTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGC ATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGC ATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTA GCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGA TGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCA TGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATT GACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATG CATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCAT GACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCA TGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGC AGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATG CATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTA A C G T Genomic DNA Sequence
生命的奥秘蕴藏于“四字天书”之中 NEUAIRCYTE DNDSMASE
生命的奥秘蕴藏于 “四字天书”之中
“ The genomic era Informatics is now a reality”!r BIOSCIENCES f. Collins Helicos 454 umina c 多 Collins et al Nature 424/03 “基因组时代”与“后基因组时代
“基因组时代”与“后基因组时代” “The genomic era is now a reality”! --- F. Collins
Outline 基因组序列特征分析 2)基因功能分析 3基因组比较
Outline 1 基因组序列特征分析 2 基因功能分析 3 基因组比较
基因组序列分析 口碱基组成分析 口序列模体分析 口密码子使用偏嗜性分析 口重复序列分析 口限制性酶切位点分析 口基因识别 冂etc
基因组序列分析 碱基组成分析 序列模体分析 密码子使用偏嗜性分析 重复序列分析 限制性酶切位点分析 基因识别 etc
碱基组成分析 门碱基含量计算公式: 门 AAGGCGTTTCCGTTCTTCTT中各碱基的含量 f4=0.1fc=0.25 fG=0.2 fr=0.45
碱基组成分析 碱基含量计算公式: N n f C C = N n f A A = N n f G G = N n f T T = AAGGCGTTTCCGTTCTTCTT中各碱基的含量 0.2 0.45 0.1 0.25 = = = = G T A C f f f f
碱基组成分析 九种完整DNA序列的碱基组成(单链) 序列 名称 碱基频率 总计 A C G T 噬菌体 LAMCG 0.250.240.250.26 48502 T PT7 0.270.230.240.26 39936 OX174 PXICG 0.240.220.310.23 5386 病毒 花椰菜镶病毒 MCACGDH 0.370.210.230.19 8016 人类乳头多瘤空泡病毒 BK PVBMM 0.300.200.300.20 4936 肝炎B HPBAYW 0.280.220.230.27 3182 线粒体 人类 HUMMT 0.310.310.250.13 16569 牛 BOVMT 0.330.260.270.14 16338 MUSMT 0.350.240.290.12 16295 Gen bank数据库中的数据
九种完整DNA序列的碱基组成(单链) 碱基组成分析
碱基组成分析 5侧翼外显子 基因间内含子 3侧翼 人类胎儿球蛋白基因不同区段的碱基组成 区段 长 C G 5侧翼(2) 1000 0.33 0.23 0.22 0.22 3侧翼(2) 1000 0.29 0.15 0.26 0.30 内含子(4) 1996 0.27 0.17 0.27 0.29 外显子(6) 882 0.24 0.25 0.28 0.22 基因间(1) 2487 0.32 0.19 0.18 0.31 数据来自EMBL数据库 HSGLBN基因
碱基组成分析 人类胎儿球蛋白基因不同区段的碱基组成 5'侧翼 外显子 基因间 内含子 3'侧翼
碱基组成分析 门GC(或G+C)含量: Go) ng tnc C) N 门GC含量可作为一个物种的特征,在微生物分类 学中常常把GC含量作为分类参数之一。 Eo Phage T2: 34.6% BoE coli: 51%0 Eo Mycobacterium tuberculosis: 659 Fo Homo sapiens: 40.3%
碱基组成分析 GC(或G+C)含量: GC含量可作为一个物种的特征,在微生物分类 学中常常把GC含量作为分类参数之一。 Phage T2: 34.6% E. coli : 51% Mycobacterium tuberculosis: 65% Homo sapiens: 40.3% N n n N n f G C G C G C + = = ( , ) ( , )