
单细胞转录组数据分析基于细胞类型的高级分析
——基于细胞类型的高级分析 单细胞转录组数据分析

上节回顾(从FASTQ到基因-细胞表达矩阵)方案一UMI-tools+STAR+featureCountsStep1:getdataUMI-toolsStep2:ldentifycorrectcellbarcodesStep3:ExtractbarcdoesandUMlsandaddtoreadnamesSTAR:ultrafastuniversal RNA-seqalignerrenkow',Chris ZaleskitStep4:Mapreads=SUBREADingerasiences, Menlo Park, CA, USAStep5:Assignreadsto genesSubread package: high-performanceread alignment, quantificatiorStep6:Count UMlspergenepercelland mutation discovery方案二:CellRangerLibraryCellSampleChromiumChipGEMWellSequencingCellRangerPipelinePartdceeBCLFASTQeee##mkfastqcountOutput88888888FASTOGEX#0000e>上节回顾数据整合差异基因富集分析拟时序分析细胞通讯
上节回顾(从FASTQ到基因-细胞表达矩阵) Step 1: get data Step 2: Identify correct cell barcodes Step 3: Extract barcdoes and UMIs and add to read names Step 4: Map reads Step 5: Assign reads to genes Step 6: Count UMIs per gene per cell 上节回顾 数据整合 差异基因富集分析 拟时序分析 细胞通讯 方案一:UMI-tools + STAR + featureCounts 方案二:CellRanger

上节回顾(从表达矩阵到细胞类型注释)质控Qualitycontrol·基因数和UMI数、线粒体比例:双细胞判断、去除空液滴、去除环境RNA、细胞周期判断(optional)Cell2CellNCelll1Gene12313标准化Normalization231Gene2特征基因选择Featureselection11418Gene3基于标记基因·中心化Scaling10?.."....0.降维Dimensionalityreduction025GeneM·聚类ClusteranalysisPlatelet细胞类型注释Celltypeannotation-10s0UMAP_1>上节回顾数据整合拟时序分析》差异基因富集分析细胞通讯
上节回顾(从表达矩阵到细胞类型注释) • 质控 Quality control • 基因数和UMI数、线粒体比例 • 双细胞判断、去除空液滴、去除环境RNA、细胞周期判断(optional) • 标准化 Normalization • 特征基因选择 Feature selection • 中心化 Scaling • 降维 Dimensionality reduction • 聚类 Cluster analysis • 细胞类型注释 Cell type annotation 基于标记基因 上节回顾 数据整合 差异基因富集分析 拟时序分析 细胞通讯

上节回顾(PBMC数据)PBMC(peripheralbloodmononuclearcell),其主要细胞类型为血液里边具有单个核的细胞,主要包括淋巴细胞(T细胞、B细胞和NK细胞),单核细胞,吞噬细胞,树突状细胞和其他少量细胞类型pbmc1k基于标记基因pbmc3k基于标记基因COIT10-10Platelet0De-5-10-5-1005-1010200UMAP_1UMAP_1>上节回顾数据整合差异基因富集分析拟时序分析细胞通讯
上节回顾(PBMC数据) PBMC (peripheral blood mononuclear cell),其主要细胞类型为血液里边具有单个核的细胞,主要包括淋巴细胞(T细胞、B 细胞和NK细胞),单核细胞,吞噬细胞,树突状细胞和其他少量细胞类型。 上节回顾 数据整合 差异基因富集分析 拟时序分析 细胞通讯 pbmc1k 基于标记基因 pbmc3k 基于标记基因

SEURATRtoolkitfor singlecell genomics上节回顾页(Seurat包介绍)AnalysisofspatialdatasetsAnalysis.of.spatialdatasetsscRNA-seg.IntegrationCross-modality Bridge(maging-based)(Sequencing-based)SATIJA LABIntegratior红@scvi-toolsLearn to explore spatially-resolveddataLearn to explore spatially-resolvedIntegrate scRNA-segdatasets usingaMap scATAC-seq onto an scRNA-seqfrommultiplexedimagingtechnologies,transcriptomicdatawithexamplesfromvarietyofcomputational methods.reference using amulti-omic bridgeincludingMERSCOPEXenlum,CosMx10xVislumandSlide-seqv2.dataset.SMI,and CODEXGOGOGOGOIntroductiontoscRNA-segMapping and annotating gueryFast integrationusing reciprocalGuidedtutorial-2.700PBMCsMultimodalanalysisIntegrationdatasetsPCA(BPCA)43543An introduction to integrating scRNA-Learn how to map a query scRNA-seqIdentify anchors using the reciprocalAbasic overviewof SeuratthatincludesAn introduction to working withmulti-PCA (rPCA)workflow,whichperformsaseqdatasetsInorderto identifyanddataset ontoareference In ordertomodal datasets in Seurat.anintroductionto common analyticalcompare shared cell types acrossautomatetheannotationandfasterand moreconservativeworkflows.experiments.visualization of query cells.Integration,GOGOGOGOGO>上节回顾数据整合差异基因富集分析拟时序分析细胞通讯
上节回顾(Seurat包介绍) 上节回顾 数据整合 差异基因富集分析 拟时序分析 细胞通讯

GeorgesSeuratPainter,bornDecember2,1859,Paris,France-diedMarch29,1891,Paris受过完整的美术学院教育,曾师从安格尔的学生亨利·莱曼(HenriLehmann)学习古典主义绘画,后来又研究过卢浮宫中的大师作品,对光学和色彩理论特别关注并为之做了大量的实验。他的画作风格相当与众不同,Seurat的画充满了细腻缤纷的小点,当你靠近看,每一个点都充满著理性的笔触
Georges Seurat Painter, born December 2, 1859, Paris, France—died March 29, 1891, Paris 受过完整的美术学院教育,曾师从安格尔的学生亨利·莱曼(Henri Lehmann)学习古典主义绘画,后来又研究过卢浮宫中的大师作品,对光学和 色彩理论特别关注并为之做了大量的实验。他的画作风格相当与众不同,Seurat的画充满了细腻缤纷的小点,当你靠近看,每一个点都充满著理 性的笔触

8

数据整合与批次效应为什么要数据整合?什么是批次效应?批次效应会产生什么影响?是否要去除批次效应?Batch1Batch2不同建库策略不同实验操作者不同测序平台Sample批次效应:生物学处理效应之外的其他因素导致的样本结果的波动不同测序批次不同公司或版本的试剂Leek et al.,2010>上节回顾>数据整合差异基因富集分析拟时序分析细胞通讯
数据整合与批次效应 上节回顾 数据整合 差异基因富集分析 拟时序分析 细胞通讯 为什么要数据整合?什么是批次效应?批次效应会产生什么影响?是否要去除批次效应? 批次效应:生物学处理效应之外的其他 因素导致的样本结果的波动 不同建库策略 不同测序平台 不同测序批次 不同公司或版本的试剂 不同实验操作者 Leek et al., 2010

批次效应的影响可能会引起分析结果的假阴性和假阳性、影响细胞亚群的鉴定等Batch2如何解决?Batch尽量让一个项目的不同样本间没有或尽可能少的批次效应(混样)effect通过生物信息学的方法,矫正批次效应的影响Batch1yly假阴性假阳性假设批次效应和处理效应不完全重叠假设批次效应和处理效应完全重叠或近似重叠相当于扩大了组内差异一般会整体加大组间的差异导致组间差异/组内差异的比值减少难以区分差异是由于实验处理导致还是批次效应导致降低了处理效应的显著性即组间差异显著的基因减少Haghverdietal..2018>上节回顾>数据整合拟时序分析细胞通讯差异基因富集分析
批次效应的影响 上节回顾 数据整合 差异基因富集分析 拟时序分析 细胞通讯 Haghverdi et al., 2018 如何解决? • 尽量让一个项目的不同样本间没有或尽可能少的批次效应(混样) • 通过生物信息学的方法,矫正批次效应的影响 可能会引起分析结果的假阴性和假阳性、影响细胞亚群的鉴定等 假阴性 假阳性 假设批次效应和处理效应不完全重叠 • 相当于扩大了组内差异 • 导致组间差异/组内差异的比值减少 • 降低了处理效应的显著性 • 即组间差异显著的基因减少 假设批次效应和处理效应完全重叠或近似重叠 • 一般会整体加大组间的差异 • 难以区分差异是由于实验处理导致还是批次效应 导致

是否要去除批次效应?:发现批次效应和矫正批次效应从根本上说是生物学的,而不是技术的1S1010UMAP 1UMAP_1无需进行批次效应的去除·矫正之前,仍然需要更多信息研究为什么样本1中没有单核细胞,而样本2中没有:明确两个T细胞簇之间的差异T细胞·确定存在批次效应,上图中的差异超出了我们预期的T细胞组成或生物学差异;或者只对批次之间的相似性感兴趣。:批次矫正方法不能明确到底怎么处理了数据,处理到什么程度·并不是所有的批次效应都可以或者应该被矫正https://constantamateur.github.io/>上节回顾数据整合差异基因富集分析拟时序分析细胞通讯
是否要去除批次效应? 上节回顾 数据整合 差异基因富集分析 拟时序分析 细胞通讯 • 发现批次效应和矫正批次效应从根本上说是生物学的,而不是技术的 • 批次矫正方法不能明确到底怎么处理了数据,处理到什么程度 • 并不是所有的批次效应都可以或者应该被矫正 https://constantamateur.github.io/ • 无需进行批次效应的去除 • 研究为什么样本 1 中没有单核细胞,而样本 2 中没有 T细胞 • 矫正之前,仍然需要更多信息 • 明确两个T细胞簇之间的差异 • 确定存在批次效应,上图中的差异超出了我们预期的 T细胞组成或生物学差异;或者只对批次之间的相似 性感兴趣