正在加载图片...
第5期 孙梦茹,等:基于MCCA的痤疮宏基因组数据辅助分析 ·973· 者的面容外观,还常伴有疼痛、瘙痒等躯体感觉, 质,这些脂质可以有效地区分不同的皮肤状态, 甚至会引起自卑、焦虑、抑郁等心理疾病,严重影 可用于指导痤疮的预防、诊断和治疗过程。 响患者的身心健康。因此在皮肤病学领域,痤 疮的研究和治疗是一个广泛研究的问题。 1样本与方法 座疮的发病机制复杂,目前国内外公认的包 1.1样本采集 括毛囊导管角化异常、微生物定植、皮脂分泌增 本次实验收集35名座疮患者面部皮肤的感 加以及炎症反应等4。其中,微生物定植在痤疮 染细胞和健康细胞,同时收集没有患痤疮的35名 发病中的作用是一个热点研究问题,大多工作是 志愿者的面部皮肤细胞作为正常对照组(NC)。 针对单一微生物的研究,如痤疮丙酸杆菌、金黄 使用色谱设备(Waters ACQUITY UPLC I-Class 色葡萄球菌及表皮葡萄球菌等被认为和痤疮发病 (Waters Corporation,Milford,Massachusetts.USA)), 有一定的关联性6」 保持流速为0.3mL/min,注射量为2.0uL。使用流 随着人类微生物组计划的开展,人们逐渐意 动相洗涤注射器针头在超高效液相色谱(ultra per- 识到,人的健康状况可以通过对人类微生物组的 formance liquid chromatography,UPLC)运行期间, 研究分析而评估,与宿主生活在一起的微生物在 洗脱液出口连接到QTOF-MS来用于实体检测和 大部分情况下是作为一个整体发挥着重要作用。 表征。高分辨率质量测量使用设备(Waters Xevo 微生物组是指存在于微生物群中的基因组和基因 G2-XS QTOF-MS (Waters Corporation,Milford, 的集合。然而,对单个微生物基因组的研究存在 Massachusetts,.USA),该设备配有以正离子模式 着一定的限制,自然界中99%的微生物不能通过 操作的电喷雾电离(electrospray ionization,ES))界 分离和培养进行研究,而且微生物更倾向于作为 面。在操作色谱流动流速下,将UPLC系统洗脱 微生物群这样的整体发挥作用,因此,研究人员 物引入装置QTOF-MS,使用氨气作为雾化和脱溶 提出宏基因组学,即环境微生物中所有物种基因 剂化气体,通过系统(Masslynx4.1(Waters Corpor-- 组信息的总和山。 ation,,Milford,.Massachusetts,USA)收集UPLC- 在高通量测序技术迅速发展的推动下,宏基 QTOF-MS数据作为质心原始数据。最终获得痤 因组学吸引了大量研究人员,通过挖掘不同部位 疮患者的患病皮肤(diseased skin,DS)样本集,健 宏基因组的微生物群落结构,以及分析不同健康 康皮肤(healthy skin,HS)样本集,以及正常对照 状态的宏基因组样本的差异,去探索人体健康与 组(normal control,,NC)样本集,其中每个样本集 其寄宿的微生物之间玄妙的相互关系。研究人 包括有35名志愿者,每名志愿者收集2520个序列。 员通过肠道微生物序列分析,发现肠道菌群紊乱 1.2多重集典型相关分析 与儿童孤独症发生有相关性。此外,也发现许 当研究两组样本集的数据分析时,典型相关 多了许多其他人类疾病,包括癌症、糖尿病,甚至 分析(canonical correlation analysis,.CCA)可以取得 神经发育障碍均与微生物组有关31。近年来, 较好的效果,但是在分析多组样本集(不小于 研究人员开始利用机器学习方法进行宏基因组学 3组)时,CCA却很难得到令人满意的效果。为了 的研究工作。Huang等使用主成分分析方法分 同时分析3组样本集,本文选用MCCA方法,该 析牙龈炎和健康牙龈的数据,获得主要影响牙龈 方法是一种研究多组样本集之间关系的方法,给 炎的细菌。Wisittipanit等lo利用支持向量机对炎 定多个样本集X,X2,…,X,假设每个样本集包括 症性肠炎的病人和健康人群的肠道微生物样本进 N个样本,定义多重集典型相关分析的准则函数为 行分类。Qi等m使用相关分析方法研究Ⅱ型糖 尿病患者和健康人群的肠道宏基因组研究,发现 wSjωj 可以区分样本的基因簇。 MCCA= (1) 目前,关于痤疮宏基因组数据的研究比较缺 wSωj 乏,而基于机器学习方法在宏基因组数据上的有 效应用已经有目共睹,本文尝试使用多重集典型 式中:S=灯·X,表示随机向量X和X,的互协 相关分析(multi-.set canonical correlation analysis, 方差矩阵,S:=X·X,表示的是随机向量X:的协 MCCA)方法分析痤疮的宏基因组测序数据,具体 方差矩阵。MCCA问题可以简化为如下最优化模 包括健康皮肤数据、痤疮患者的健康皮肤数据和 型的求解: 患病皮肤数据。获得对不同样本集有不同影响的 argmaxB u.u-1 (2) 脂质,以及仅对其中一个样本集有显著影响的脂者的面容外观,还常伴有疼痛、瘙痒等躯体感觉, 甚至会引起自卑、焦虑、抑郁等心理疾病,严重影 响患者的身心健康[2-3]。因此在皮肤病学领域,痤 疮的研究和治疗是一个广泛研究的问题。 痤疮的发病机制复杂,目前国内外公认的包 括毛囊导管角化异常、微生物定植、皮脂分泌增 加以及炎症反应等[4-5]。其中,微生物定植在痤疮 发病中的作用是一个热点研究问题,大多工作是 针对单一微生物的研究,如痤疮丙酸杆菌、金黄 色葡萄球菌及表皮葡萄球菌等被认为和痤疮发病 有一定的关联性[6-9]。 随着人类微生物组计划的开展,人们逐渐意 识到,人的健康状况可以通过对人类微生物组的 研究分析而评估,与宿主生活在一起的微生物在 大部分情况下是作为一个整体发挥着重要作用[10]。 微生物组是指存在于微生物群中的基因组和基因 的集合。然而,对单个微生物基因组的研究存在 着一定的限制,自然界中 99% 的微生物不能通过 分离和培养进行研究,而且微生物更倾向于作为 微生物群这样的整体发挥作用,因此,研究人员 提出宏基因组学,即环境微生物中所有物种基因 组信息的总和[11]。 在高通量测序技术迅速发展的推动下,宏基 因组学吸引了大量研究人员,通过挖掘不同部位 宏基因组的微生物群落结构,以及分析不同健康 状态的宏基因组样本的差异,去探索人体健康与 其寄宿的微生物之间玄妙的相互关系[12]。研究人 员通过肠道微生物序列分析,发现肠道菌群紊乱 与儿童孤独症发生有相关性[12]。此外,也发现许 多了许多其他人类疾病,包括癌症、糖尿病,甚至 神经发育障碍均与微生物组有关[13-14]。近年来, 研究人员开始利用机器学习方法进行宏基因组学 的研究工作。Huang 等 [15] 使用主成分分析方法分 析牙龈炎和健康牙龈的数据,获得主要影响牙龈 炎的细菌。Wisittipanit 等 [16] 利用支持向量机对炎 症性肠炎的病人和健康人群的肠道微生物样本进 行分类。Qin 等 [17] 使用相关分析方法研究Ⅱ型糖 尿病患者和健康人群的肠道宏基因组研究,发现 可以区分样本的基因簇。 目前,关于痤疮宏基因组数据的研究比较缺 乏,而基于机器学习方法在宏基因组数据上的有 效应用已经有目共睹,本文尝试使用多重集典型 相关分析 (multi-set canonical correlation analysis, MCCA) 方法分析痤疮的宏基因组测序数据,具体 包括健康皮肤数据、痤疮患者的健康皮肤数据和 患病皮肤数据。获得对不同样本集有不同影响的 脂质,以及仅对其中一个样本集有显著影响的脂 质,这些脂质可以有效地区分不同的皮肤状态, 可用于指导痤疮的预防、诊断和治疗过程。 1 样本与方法 1.1 样本采集 本次实验收集 35 名痤疮患者面部皮肤的感 染细胞和健康细胞,同时收集没有患痤疮的 35 名 志愿者的面部皮肤细胞作为正常对照组 (NC)。 使用色谱设备 (Waters ACQUITY UPLC I-Class (Waters Corporation, Milford, Massachusetts, USA)), 保持流速为 0.3 mL/min,注射量为 2.0 μL。使用流 动相洗涤注射器针头在超高效液相色谱 (ultra per￾formance liquid chromatography, UPLC) 运行期间, 洗脱液出口连接到 QTOF-MS 来用于实体检测和 表征。高分辨率质量测量使用设备 (Waters Xevo G2-XS QTOF-MS (Waters Corporation, Milford, Massachusetts, USA)),该设备配有以正离子模式 操作的电喷雾电离 (electrospray ionization, ESI) 界 面。在操作色谱流动流速下,将 UPLC 系统洗脱 物引入装置 QTOF-MS,使用氮气作为雾化和脱溶 剂化气体,通过系统 (Masslynx 4.1 (Waters Corpor￾ation, Milford, Massachusetts, USA)) 收集 UPLC￾QTOF-MS 数据作为质心原始数据。最终获得痤 疮患者的患病皮肤 (diseased skin, DS) 样本集,健 康皮肤 (healthy skin, HS) 样本集,以及正常对照 组 (normal control, NC) 样本集,其中每个样本集 包括有 35 名志愿者,每名志愿者收集 2 520 个序列。 1.2 多重集典型相关分析 X1,X2,··· ,Xn 当研究两组样本集的数据分析时,典型相关 分析 (canonical correlation analysis, CCA) 可以取得 较好的效果,但是在分析多组样本集 (不小于 3 组) 时,CCA 却很难得到令人满意的效果。为了 同时分析 3 组样本集,本文选用 MCCA 方法,该 方法是一种研究多组样本集之间关系的方法,给 定多个样本集 ,假设每个样本集包括 N 个样本,定义多重集典型相关分析的准则函数为 JMCCA= ∑n i=1 ∑n j=1 ω T i Si jωj √∑n i=1 ω T i Siiωj (1) Si j = X T i · Xj Xi Xj Sii = X T i · Xi Xi 式中: ,表示随机向量 和 的互协 方差矩阵, ,表示的是随机向量 的协 方差矩阵。MCCA 问题可以简化为如下最优化模 型的求解: argmaxβ = ∑n i=1 ∑n j=1 ω T i Si jωj s.t. ∑n i=1 ω T i Siiωj = 1 (2) 第 5 期 孙梦茹,等:基于 MCCA 的痤疮宏基因组数据辅助分析 ·973·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有