第一节:转录组学概述 000以 前言 replication (DNA->DNA) DNA Polymerase 基因组学 Dy①d DNA transcription (DNA->RNA) RNA Polymerase RNA 转录组学 translation (RNA->Protein) Ribosome 00Protein 蛋白质组学 from en.wikipedia 中心法则:遗传信息传递 2
第一节:转录组学概述 2 前言 from en.wikipedia 基因组学 转录组学 蛋白质组学 中心法则:遗传信息传递
第一节:转录组学概述 0例0M以 转录本测定研究 日 Experiment- Hybridization- Sequencing- Advanced Single- based based based seq molecule seq ·Northern ·Microarray SAGE ·NGS ·Pacbio blot ·CAGE ·3GS ·ONT RT-PCR ·MPSS ·Single cell 转录组学研究技术革新 3
第一节:转录组学概述 3 转录本测定研究 Experimentbased • Northern blot • RT-PCR Hybridizationbased • Microarray Sequencingbased • SAGE • CAGE • MPSS Advanced seq • NGS • 3GS • Single cell Singlemolecule seq • Pacbio • ONT 转录组学研究技术革新
第一节:转录组学概述 00八应用和最新进展 0.5 Cp 0.4 盖 0.3 Neurons 0.2 RGs 0.1 差异表达 可变剪切 共表达网络 转录调控网络 4
第一节:转录组学概述 4 应用和最新进展 差异表达 可变剪切 共表达网络 转录调控网络
第二节:试验设计和测序流程 OOM\RNA测序(RNA-sequencing) AARAAAA西 TTTI TGATAGATC Reverse transcriptase GGCGATCG TAGCTGTAC AAAAAAA四 TTTT RNA CDNA Library Sequencing Data isolation amplification preparation analysis from GATC Biotech DNA 1.试验设计 2.测序流程 3.数据分析 4.验证实验 5
第二节:试验设计和测序流程 5 RNA测序(RNA-sequencing) 1.试验设计 2.测序流程 3.数据分析 4.验证实验 from GATC Biotech
第二节:试验设计和测序流程 000八 试验设计 问题导向型 数据导向型 生物学重复(3-5个) 数据异质性(平台、个体差异) 样本提取(分类和保存) 确定分析流程 测序深度(简单基因表达分析需5M以 上reads,小RNA至少30M) 分析工具选用 文库构建(链特异性非特异性) 测序策略(单端和双末端) 测序平台(读长、通量和准确率等) 6
第二节:试验设计和测序流程 6 问题导向型 生物学重复(3-5个) 样本提取(分类和保存) 测序深度(简单基因表达分析需5M以 上reads,小RNA至少30M) 文库构建(链特异性非特异性) 测序策略(单端和双末端) 测序平台(读长、通量和准确率等) 数据导向型 数据异质性(平台、个体差异) 确定分析流程 分析工具选用 试验设计
第二节:试验设计和测序流程 00 、测序流程 目标样本 RNA分离纯化 打断,构建cDNA文库, MMMN 长度筛选,添加接头 MANononmnNo 肿瘤组织 正常组织 MMMMMMM mRNA:Poly A富集 Poy(A)尾 ncRNA:rRNA移除 上机测序 比对到参考基因组或转录组 内含子 RNA前体 外显子 未测序RNA RNA读段 转录本 短读段 可变剪切区域 短插入片段 Griffith,M.(2015)PLoS computational biology
第二节:试验设计和测序流程 7 Griffith, M. (2015) PLoS computational biology mRNA:Poly A富集 ncRNA:rRNA移除 测序流程
第二节:试验设计和测序流程 000八 数据分析流程 系统配置 差异表达 聚类分析 数据获取 表达定量 功能富集 质量控制 比对组装 共表达网络 RNA-seq数据分析常规流程 8
第二节:试验设计和测序流程 8 系统配置 数据获取 质量控制 比对组装 表达定量 差异表达 聚类分析 功能富集 共表达网络 RNA-seq数据分析常规流程 数据分析流程
第二节:试验设计和测序流程 00M八 系统配置 8L△nux Microsoft Java Sun Microsystems R 语言基础 080+ Public Galaxy Servers and stiff counting 9
第二节:试验设计和测序流程 9 系统配置
第三节:转录组数据核心分析 00 、数据获取 GSA THE CANCER GENOME ATLAS NIH National Cancer Institute National Human Genome Research Institute Genome Sequence Archive NCBI SRA TCGA/GDC(cancer) ArrayExpress NIH NATIONAL CANCER INSTITUTE Genomic Data Commons fastq-dump EBI ArrayExpress (SRAToolkit) 公共数据库 测序公司 Fastq文件格式: esRR3418005,1HAL:1262:D2 EWTACXX:8:1101:1602:21361 ength=100 GGCAAGATCTGATCTCTCAGCAACTCAATTACAACCATAACCGCGTGTGACTTCTAAGCC +SRR3418005,1HAL:1282:D2 EWTACXX:8:1101:1602:21361 ength-100 ::1DDAD?DDFHFGHII EIIIGHHHDHGIGDFGHGGEGIIHGBEDHEEGGFIDEEAAEH Q8RR3418005.2HAL:1282:D2 EWTACXX:8:1101:1550:21931 ength=100 ATCTGATTCAATCATAAATTTTACACAATCAATTTGTCGGTACTCTCCTTTTGGTCATAT +sRR3418005,2HAL:12B2:D2 EWTACXX:8:1101:1550:21931 ength=100 <?0BDD:DCDDHHGIBGA<FFF<:FDGGCE9CADHIEG:?DF):BBB9??BGG60?B<B- @sRR3418005,3HAL:1282:D2 EWTACXX:8:1101:1632:22051 ength-100 AGACGCTCGTACCAAATCCGTTACCGTCTCCGTCGTTACCTCCTCCTTCGCGACGGGAAC +sRR3418005.3HAL:12B2:D2 EWTACXX:8:1101:1632:22051 ength=100 --+:A@DDE@F8C<A+CBEFIIFIF@DFFFFFDF(@F--.-70FEF).-@A## esRR3418005.4HAL:1282:D2 EWTACXX:8:1101:1588:22271 ength=100 CTCATTTTTATTACCGCATATATGACATATGATCAATTACATAAAGAAGCAAATCTTAGO +SRR3418005,4HAL:12B2:D2 EWTACXX:8:1101:158B:22271 ength-100 30-DDDAFHFAHEH?FF<EBF9EHDHHGOACCGICHHCHGIEHG<DFB9DDFHEGFHDG 0sRR3418005.5HAL:1282:D2 EWTACXX:8:1101:1991:21131 ength=100 CGGAAGCAGCTGAGAAGCCTCATGGTTACCAACAAGAGCATCCTCATCAGTTNCACCATA +9RR3418005.5HAL:1282:D2 EWTACXX:8:1101:1991:21131 ength=100 GCOFFFDFHHHFGIIGIGIJJJJIJIIIIIIJJJJCEIGIIJHIJEIIJJHI#-<FFHIJ 10
第三节:转录组数据核心分析 10 Fastq文件格式: NCBI SRA EBI ArrayExpress TCGA/GDC(cancer) fastq-dump (SRAToolkit) 公共数据库 测序公司 数据获取
第三节:转录组数据核心分析 00M队 质量控制 去接头;过滤 低质量reads FastQC-测序质量评估 FASTX-Toolkit,Trimmomatic--一质量控制 eFastQC Report Summary Per base sequence quality Basic Statistics Quality scores across all bases (Sanger /lllumina 1.9 encoding) 40 Per base sequence quality 3 Per tile sequence quality Per sequence quality scores 34 Per base sequence content Per sequence GC content ⑦Per base N content Sequence Length Distribution 66420 Sequence Duplication Levels Overrepresented sequences ①Adapter Content ⑧Kmer Content 64120 8 6 4 2 0 12345678912-1318-1924-2530-3136-3742-4348-4954-55606166-6772-7378-79B4-85909196-97 Position in read(bp》 11
第三节:转录组数据核心分析 11 FastQC—测序质量评估 FASTX-Toolkit,Trimmomatic—质量控制 质量控制 去接头;过滤 低质量reads