
生物信息学课程Bioinformatics第八章转录调控与表观遗传
生物信息学 课程 Bioinformatics 第八章 转录调控与表观遗传

生物信息学课程本章内容Bioinformatics·转录调控转录因子结合模体表示方法转录因子结合模体从头发现■转录因子ChlP-seq数据分析·表观遗传DNA甲基化组学数据分析组蛋白修饰组学数据分析三维基因组学数据分析2
本章内容 • 转录调控 ▪ 转录因子结合模体表示方法 ▪ 转录因子结合模体从头发现 ▪ 转录因子ChIP-seq数据分析 • 表观遗传 ▪ DNA甲基化组学数据分析 ▪ 组蛋白修饰组学数据分析 ▪ 三维基因组学数据分析 生物信息学 课程 Bioinformatics 2

生物信息学课程转录调控:背景Bioinformatics>转录是基因表达过程的第一步,也是调控基因活性的核心步骤V转录因子/反式作用因子》启动子、增强子/顺式调控元件MKNA基因转录调控模式3
转录调控:背景 基因转录调控模式 ➢ 转录是基因表达过程的第一步,也是调控基因活性的核心步骤 ➢ 转录因子 / 反式作用因子 ➢ 启动子、增强子 / 顺式调控元件 生物信息学 课程 Bioinformatics 3

生物信息学课程转录调控:背景Bioinformatics>识别转录因子结合位点是研究基因2基因3转录调控机制和建立转录调控基因1网络的关键基因4转录因子1基因5√基于转录因子结合模体预测结合位点基因6转录因子3基因10转录因子2V基于ChlP-seq数据解析结合位点基因7基因8基因9基因转录调控网络4
生物信息学 课程 Bioinformatics 转录调控:背景 基因转录调控网络 ➢识别转录因子结合位点是研究 转录调控机制和建立转录调控 网络的关键 ✓基于转录因子结合模体预测结合 位点 ✓ 基于ChIP-seq数据解析结合位点 4

生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics>很多转录因子结合位点具有特定的DNA序列模式,称为转录因子结合模体(bindingmotif)>表示方法1:DNA共有序列(consensussequence)CGGGTGCGDGGACTCAGGGAGGCATUGGGGT.GAGGCGAGAGG0AGTAGGGGAGGAGCGATUGUAA1GTGGCTGTGAACCGAGGAAGGGCAA-GGGGGCGAAGTC1CGCACNNNVWVHDGRDGGMRNNCVDNA共有序列5
5 生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 ➢很多转录因子结合位点具有特定的DNA序列模式,称为转录因子结 合模体(binding motif) ➢ 表示方法1:DNA共有序列(consensus sequence) C C G G C A G C G G G T G G C G C T G G A T C C T G A A G A T G G C G C T G C T G C C A A C A G G A G G C G C T G C T A C C T G C T G G T G G C G C T G T G G G C A G C A G G A G G C A G T G T G G C C T G T A G G A G G C A G C A T C T C C A G C A G G G G G A G A G C C T G A C A C T A G A T G G C G C T T A C A C C A C T T G G T G G C G C T C C C A C C A G C A G G A G G A G G A G C G C A C T G A A G G G G G C G C T C N N N V C W V H D G R D G G M R V N N DNA共有序列

生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics>IUPAC简并码碱基IUPAC简并码IUPAC简并码碱基WBA或TC、G或TRA或GDA,G或THKG或TAC或 TsVC或GA、C或GYNC或TA、C、G或TMA或C6
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 6 ➢ IUPAC简并码 IUPAC简并码 碱基 IUPAC简并 码 碱基 W A 或 T B C、G 或 T R A 或 G D A、G 或 T K G 或 T H A、C 或 T S C 或 G V A、C 或 G Y C 或 T N A、C、G或 T M A 或 C

生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics>表示方法2:位置频率矩阵(positionfrequencymatrix,PFM)0.090.27A[0.090.180.0971132A13C0.550.270.360.090.64C64G0.090.550.180.270.45G613521T0.270.09T30.270.180.00320.位置频率矩阵
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 ➢ 表示方法2:位置频率矩阵(position frequency matrix,PFM) C C G G C A G C G G G T G G C G C T G G A T C C T G A A G A T G G C G C T G C T G C C A A C A G G A G G C G C T G C T A C C T G C T G G T G G C G C T G T G G G C A G C A G G A G G C A G T G T G G C C T G T A G G A G G C A G C A T C T C C A G C A G G G G G A G A G C C T G A C A C T A G A T G G C G C T T A C A C C A C T T G G T G G C G C T C C C A C C A G C A G G A G G A G G A G C G C A C T G A A G G G G G C G C T C 𝐴 1 1 3 2 . 1 𝐶 6 4 1 7 . 3 𝐺 1 3 5 2 . 6 𝑇 3 3 2 0 . 1 𝐴 0.09 0.09 0.27 0.18 . 0.09 𝐶 0.55 0.36 0.09 0.64 . 0.27 𝐺 0.09 0.27 0.45 0.18 . 0.55 𝑇 0.27 0.27 0.18 0.00 . 0.09 位置频率矩阵 7

生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics>表示方法3:序列标识图(sequencelogo)V序列标识图第j位上某个碱基的高度heightij=qij×R.其中,R=2-(Hj+en)·H是位置处的信息炳:Hi=-α4=1qij×log2qij13·e,是针对小样本的近似矫正:en=元2×2n.-CAG-AGC.CGCo01CGCT0-56893435序列标识图8
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 ➢ 表示方法3:序列标识图(sequence logo) ✓ 序列标识图第j位上某个碱基i的高度 ℎ𝑒𝑖𝑔ℎ𝑡𝑖,𝑗 = 𝑞𝑖,𝑗 × 𝑅𝑗 • 其中,𝑅𝑗 = 2 − (𝐻𝑗+ 𝑒𝑛) i=1 • Hj是位置i处的信息熵:𝐻𝑖= −σ 4 𝑞𝑖,𝑗 × log2𝑞𝑖,𝑗 n 𝑛 • e 是针对小样本的近似矫正:𝑒 = × 1 3 𝑙𝑛2 2𝑛 序列标识图 8

生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics转录因子结合模体数据库>JASPAR(https:lliaspar.elixir.no/)V200Rf8JASPAR4BASPReWmSearchQOAbonseanPAR COREQBrowseJASPARCOREfor6differenttaxonomicgroupAVelitatedProflThehigh-qualitytranscriptionfactorbindingprofiledatabaseInvectiNematoLUrocherdauVertebratmstriCJASPAR数据库主页9
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 转录因子结合模体数据 库 ➢ JASPAR( https://jaspar.elixir.no/) ✓ 2004年发布第一版;目前为2024年更新版 JASPAR数据库主页 9

生物信息学课程转录调控:转录因子结合模体表示方法Bioinformatics基于已知模体的转录因子结合位点预测>位置权重矩阵(positionweightmatrix,PWM)V由于DNA序列碱基组成具有一定偏好性,进行转录因子结合位点预测时需要将位置频率矩阵转换为位置权重矩阵。SA,1,SA.2,.,SAnSij = log2(qA,1,qA,2,..,qA,nSc.1,Sc,2,.,Sc.nqc,1,qc,2..qc,nSG1,SG,2, .,SG,nqG,1,qG,2,..,qG,nb是碱基i在DNAST,1,ST,2,.,ST.nLqT,1,qT,2,...,qT,n序列中出现频率位置权重矩阵位置频率矩阵10
生物信息学 课程 Bioinformatics 转录调控:转录因子结合模体表示方法 基于已知模体的转录因子结合位点预测 ➢ 位置权重矩阵(position weight matrix,PWM) ✓由于DNA序列碱基组成具有一定偏好性,进行转录因子结合位点 预测时需要将位置频率矩阵转换为位置权重矩阵。 𝑆𝐴,1, 𝑆𝐴,2,., 𝑆𝐴,𝑛 𝑆𝐶,1 ,𝑆𝐶,2 ,., 𝑆𝐶,𝑛 𝑞𝐴,1 , 𝑞𝐴,2 ,., 𝑞𝐴,𝑛 𝑞𝐶,1, 𝑞𝐶,2,.,𝑞𝐶,𝑛 𝑖,𝑗 2 𝑞 10 𝑖. 𝑗𝑏 𝑆 = 𝑙𝑜𝑔 ( ) bi是碱基i在DNA 序列中出现频率 𝑞𝐺,1,𝑞𝐺,2,.,𝑞𝐺,𝑛 𝑞𝑇,1, 𝑞𝑇,2, .,𝑞𝑇,𝑛 位置频率矩阵 𝑆𝐺,1, 𝑆𝐺,2, .,𝑆𝐺,𝑛 𝑆𝑇,1, 𝑆𝑇,2,.,𝑆𝑇,𝑛 位置权重矩阵