正在加载图片...
第5期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·709. 在K-Means算法中,融合了蛋白质复合体数据 模块作为功能模块,以便用于蛋白网络分子作用机 的模块中细胞组件同质性高于0.5的模块占54.8%, 理的研究。 而原始PPI模块同质性高于0.5的模块占48.9%:在 0.25 NMF中,融合了蛋白质复合体数据的模块中细胞组 0.20 K-means 0.15 ■IncreK-Means 件同质性高于0.5的模块占35%,而原始PPI模块 0.10 同质性高于0.5的模块占31.5%。 0.05 0 图5是不同模块划分方法产生模块的生物过程 000101-0202-03a30404-0.505-0606070,7-080.R090-10 相似度 同质性在不同区间上的对比。 NMF 0.35 ■IncreNMF ■K-neans 0.25 ■IncreK-Means 0.30 0.15 0.25 0.20 0.05 0.15 L 0.10 0000.10.1a202030.5404505060670.7080.&090.910 0.05 相似度 0101202-030304040.505-06060707-80-n90-10 图6模块Pathway同质性 相似度 ■NMF Fig.6 Pathway homogeneity of module IncreNMF 0.45 0.35 3 结束语 0.25 0.15 本文将蛋白质复合体数据融合到PPI网络中 0.05 (例如:String9蛋白质相互作用数据库),然后使用 .00101-0202-33-044.505-a606-077-08a8-l90-10 相似度 K-Means和NMF2种经典的算法分别对原始网络和 融合后的网络进行社团划分,从而得到多个蛋白质 图5模块生物过程同质性 模块;这些模块通过在GO和Pathway2:个方面的富 Fig.5 Biological process homogeneity of module 集分析和同质性分析,实验结果证明融合蛋白质复 在K-Means算法中,融合了蛋白质复合体数据 合体后得到了生物功能更强的模块:这也在一定程 的模块中生物过程同质性高于0.5的模块占24.1%, 度上说明引入蛋白质复合体数据弥补了PPI网络数 而原始PPI模块同质性高于0.5的模块占17.7%: 据不完整并且噪声多等缺点。新划分的模块在G0 在NMF中,融合了蛋白质复合体数据的模块中生物 和Pathway2个方面都展现了良好的生物学统计特 过程同质性高于0.5的模块占15.7%,而原始PPI 性,这说明结合多方面的数据,有助于发现功能更强 模块同质性高于0.5的模块占11.3%。 的蛋白质模块。 图6是不同模块划分方法产生模块的Pathway 鉴于目前的研究,下一步工作计划将基因表达 同质性在不同区间上的对比。 数据融入到PPI网络中,然后根据不同的基因在不 在K-Means算法中,融合了蛋白质复合体数据 同组织上的表达情况来辅助PPI网络进行功能模块 的模块中Pathway同质性高于0.5的模块占22.3%, 检测。另一方面,疾病-症状关系数据(OMIM)和疾 而原始PPI模块同质性高于0.5的模块占18.7%: 病-基因关系数据(disease-connect)的获取技术发展 在NMF中,融合了蛋白质复合体数据的模块中 比较迅速并且具有较高的可信度,因此可以将这些 Pathway同质性高于0.5的模块占19%,而原始PPI 数据融入到PPI网络中去发现与疾病或症状相关的 模块同质性高于0.5的模块占12%。 功能模块,从而为疾病机理研究和新药研发提供一 实验结果说明,在G0术语和Pathway2.个生物 个新的思路。 度量方面,不论是从最小富集角度还是从模块同质 性角度,都可以发现融合了蛋白质复合体后的PPI 参考文献: 得到的模块具有更强的生物功能,因此可以将这些 [1]BARABASI A L.GULBAHCE N,LOSCALZO J.Network在 K⁃Means 算法中,融合了蛋白质复合体数据 的模块中细胞组件同质性高于 0.5 的模块占54.8%, 而原始 PPI 模块同质性高于 0.5 的模块占48.9%;在 NMF 中,融合了蛋白质复合体数据的模块中细胞组 件同质性高于 0.5 的模块占 35%,而原始 PPI 模块 同质性高于 0.5 的模块占31.5%。 图 5 是不同模块划分方法产生模块的生物过程 同质性在不同区间上的对比。 图 5 模块生物过程同质性 Fig.5 Biological process homogeneity of module 在 K⁃Means 算法中,融合了蛋白质复合体数据 的模块中生物过程同质性高于 0.5 的模块占24.1%, 而原始 PPI 模块同质性高于 0.5 的模块占 17.7%; 在 NMF 中,融合了蛋白质复合体数据的模块中生物 过程同质性高于 0.5 的模块占 15.7%,而原始 PPI 模块同质性高于 0.5 的模块占 11.3%。 图 6 是不同模块划分方法产生模块的 Pathway 同质性在不同区间上的对比。 在 K⁃Means 算法中,融合了蛋白质复合体数据 的模块中 Pathway 同质性高于 0.5 的模块占 22.3%, 而原始 PPI 模块同质性高于 0.5 的模块占 18.7%; 在 NMF 中,融合了蛋白质复合体数据的模块中 Pathway 同质性高于 0.5 的模块占 19%,而原始 PPI 模块同质性高于 0.5 的模块占 12%。 实验结果说明,在 GO 术语和 Pathway2 个生物 度量方面,不论是从最小富集角度还是从模块同质 性角度,都可以发现融合了蛋白质复合体后的 PPI 得到的模块具有更强的生物功能,因此可以将这些 模块作为功能模块,以便用于蛋白网络分子作用机 理的研究。 图 6 模块 Pathway 同质性 Fig.6 Pathway homogeneity of module 3 结束语 本文将蛋白质复合体数据融合到 PPI 网络中 (例如:String 9 蛋白质相互作用数据库),然后使用 K⁃Means 和 NMF 2 种经典的算法分别对原始网络和 融合后的网络进行社团划分,从而得到多个蛋白质 模块;这些模块通过在 GO 和 Pathway2 个方面的富 集分析和同质性分析,实验结果证明融合蛋白质复 合体后得到了生物功能更强的模块;这也在一定程 度上说明引入蛋白质复合体数据弥补了 PPI 网络数 据不完整并且噪声多等缺点。 新划分的模块在 GO 和 Pathway 2 个方面都展现了良好的生物学统计特 性,这说明结合多方面的数据,有助于发现功能更强 的蛋白质模块。 鉴于目前的研究,下一步工作计划将基因表达 数据融入到 PPI 网络中,然后根据不同的基因在不 同组织上的表达情况来辅助 PPI 网络进行功能模块 检测。 另一方面,疾病⁃症状关系数据(OMIM)和疾 病⁃基因关系数据(disease⁃connect)的获取技术发展 比较迅速并且具有较高的可信度,因此可以将这些 数据融入到 PPI 网络中去发现与疾病或症状相关的 功能模块,从而为疾病机理研究和新药研发提供一 个新的思路。 参考文献: [1] BARABÁSI A L, GULBAHCE N, LOSCALZO J. Network 第 5 期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·709·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有