
单细胞组学算法的研究热点和挑战2023/10/24
2023/10/24 单细胞组学算法的研究热点和挑战

华大生命科学研究院组学的发展:大科学计划BGI-Research同人类基因组计划一样,人类单细胞组学计划具有重大战略意义测序技术单细胞技术时空组学技术技术突破核酸DNA细胞Cell空间Spatial提升解析维度基因结构/突变细胞组成/类型结构与功能/器官形成细胞互作/发育调控A科学问题不断深入/复杂OSPATIOHumanHUMAN1TEMPORAL大科学计划GenomeCELLOMICSATLASProjectCONSORTIUM系统化/工程化2017-2022-1990-2003HGP(美国)HCA(美国)STOC(国际)
1990-2003 HGP (美国) 基因结构/突变 细胞组成/类型 细胞互作/发育调控 结构与功能/器官形成 2017- HCA (美国) 2022- STOC(国际) 科学问题 不断深入/复杂 大科学计划 系统化/工程化 技术突破 提升解析维度 测序技术 单细胞技术 时空组学技术 核酸 DNA 细胞 Cell 空间 Spatial 同人类基因组计划一样,人类单细胞组学计划具有重大战略意义 组学的发展:大科学计划

华大生命科学研究院组学研究的对象,数据的归类BGl-ResearchCentral Dogma of Molecular BiologyTranscription from promoter类型分辨率信号维度Promotergenomic DNADNA零亚细胞序列连续RNAcoding+introns/数量Transcription (RNA polymerase)★Splicingout of intronshappens aftertranscription★Start codoncodon个体离散高位置3:UTR5'UTRStopmRNA:exons+uTRSAAAAA+ CAP (5)Coding RegionCAP+ Poly A Tail (3.)Translation(Ribosome)Post-translationalmodificationCleavageOtherdynamicmodulations:Phosphorylation1,DNApackagingProteinGlycolysis2,ChemicalmodificationsUbiguitination+ morel3,mRNAprocessing
组学研究的对象,数据的归类 类型 信号 维度 分辨率 序列 连续 零 亚细胞 数量 位置 离散 ⾼ 个体 Other dynamic modulations: 1, DNA packaging 2, Chemical modifications 3, mRNA processing

华大生命科学研究院单细胞组学算法的研究热点BGl-Research序列组装1完整基因组二倍体甚至多倍体基因组学序列2,序列比对多序列比对跨物种研究RNA序列比对到基因组数量3,表达矩阵降维单细胞组学轨迹推断/拟时序分析跨模态研究位置4,空间表达时空的维度问题
单细胞组学算法的研究热点 1,序列组装 完整基因组 二倍体甚至多倍体 2,序列比对 多序列比对 RNA序列比对到基因组 3,表达矩阵 降维 轨迹推断/拟时序分析 4,空间表达 时空的维度问题 单细胞组学 序 基因组学 列 数 量 位 置 跨物种研究 跨模态研究

华大生命科学研究院组学中的最经典问题:序列比对分类BGl-ResearchAlignerphylogeny超长对超长短对超长BWABLASRMauveSOAPMummerLaganBowtieMavidChaining&Netting超长:基因组(~Mb/Gb)BLASTZ长:基因(~kb)MaqSHRiMP短:~100bpreadsFASTAELANDBLASTPair-HMM长对长长对超长BLAT ExonerateSmithWatermanNeedleman-WuncshShort readWholegenomeSensitive global alignersPairwise heuristic
组学中的最经典问题:序列比对分类 超⻓对超⻓ 短对超⻓ ⻓对超⻓ ⻓对⻓ 超⻓:基因组 (~Mb/Gb) ⻓:基因 (~kb) 短:~100bp reads

华大生命科学研究院单细胞序列比对的迷思BGl-ResearchTSSExonTSSExonIntronExonIntron(a)MapMap againMMP 1MMP 215°-3RNA-seg readHHHHH工Hexons in the genomeMappedtogenome(b)(c)MapMapCDS5'capPolyAMMP 1ExtendMMP1Trim5'3'A-tail, or adapter,mismatchesHHHHHHorpoorqualitytailHHHHHHReadsFastQFastQFastQMappedtotranscriptomeVWWMappingSTARHiSat2[Kallisto]Salmonl10xBarcodePoly(dTIVNQuantificationfeatureCountsStringTieVVR1UMIDifferentialDESeq2/SleuthBallgownedgeR/geneexpressionLimma
单细胞序列比对的迷思

华大生命科学研究院RNA定量与参考序列的优化BGI-Research.Read counts=geneexpressionUnion.ReadscanbequantifiedonanyfeatureReadGeneA(gene,transcript,exonetc)Gene.IntersectionongenemodelsGeneA.Gene/Transcript levelGeneA吕二GeneAGeneCGeneAGeneBnaturemethodsGeneAExplore content vAboutthe journal PublishwithusvAmbiguousnature > nature methods > articles > articleBArticlePublished:11September2023Recoveryofmissingsingle-cellRNA-sequencingdataAmbiguouswithoptimizedtranscriptomicreferencesBAllaoensttnkAmbiguousBAMature Methods (2023) /Cite this article3722Accesses89AltmetricMetrics
RNA定量与参考序列的优化

华大生命科学研究院单细胞组学:表达矩阵的分析流程BGl-Research量化及产生DEGs鉴定与FRL处理聚类与注甲标化和隆业探度分析表达矩阵富集分析ClustersDCOURNAlogFC或分1标准化送联marker基差屏装达分析伤时同分所:男格CellGOEnrichment.6.平装达堂妞座专相险去重、拼技和量化缺失值琪充选敢特延基因租互作用网路PathwayEarichmentcell尚8.-路JNASM6NANAENANumber of genesPC2PC2去除就次效基因其装达网络表话炬萍胖准细图英型注练富集分所2ATR知乎rr起实验网图2单细胞RNA测序数据分析的流程和环节
单细胞组学:表达矩阵的分析流程

华大生命科学研究院单细胞算法的挑战:数据归一化BGl-Researchtensortlow.log1p437 of 526 pass-filter observations on sctransform-gene subset25010v3_nh_33Variance stabilization10v3.nh33Depthnormalization10.4120.0710xv3_nih_3k3MonotonicityofNormal guantiles
单细胞算法的挑战:数据归一化

华大生命科学研究院单细胞组学算法的挑战:降维BGl-ResearchCellsFeatureDimensionalityCell-cellK-nearestExpressiondistancesmatrixselectionreductionneighbours(n)cells(n) clls(n).cells(n).cellscellseuen88CellsDaClusteringPCAHVGK-meansLouvainMain methods:M3DropISNEHierarchicalInfomapSpike-insDiffusionmapsDBSCAN印乎@PCHFISNN-CIqConfoundingcorrection0.4Biological2Cellvariability0.2cycle0-0.20.4Technical0.500.5知乎@ityComponent1
单细胞组学算法的挑战:降维