正在加载图片...
·706 智能系统学报 第11卷 检测算法检测到的模块238与模块76的拓扑结 出模块个数大于2的模块,最终检测结果如表1 构图。 所示。 表1不同方法划分的模块个数及最大、最小模块 Table 1 The number of modules and the size of maximal and minimal module by different approaches 模块检测算法模块个数最小模块 最大模块 K-Means 266 3 8122 IncreK-means 277 3 8157 NMF 301 3 307 IncreNMF 300 3 328 从表1可以观察到K-Means算法容易产生比较 大的模块,其蛋白质的规模约占整个网络的56%, (a)模块238 一般来说这种规模比较大的模块对蛋白质的生物功 能分析意义不是很大,而且模块个数在10以下的模 块占所有模块的27%左右:而NMF算法检测到的最 大模块的规模只占PPI网络的2.28%,而且模块规 模小于10的模块占所有模块的比率只有10%,更容 易检测到相对规模较中等的模块,更容易获得比较 统一的生物功能。 基因本体联合建立了一套适用于不同物种的语 义词汇标准,该标准对蛋白质功能等方面进行限定 及描述,该标准能够随着研究的深入和时间的发展 而不断完善。G0)术语就是这个不断增长完善的 (b)模块76 语义词汇标准的数据库,主要对基因和蛋白质进行 图2模块238和模块76的拓扑结构 注释并且进一步阐明了蛋白质和用于定义它们的 Fig.2 The topological structure of module 238 and G0术语之间的关系。G0术语是生物过程(biologi-- module 76 cal process,BP)、细胞组件(cellular component,CC) 图2中节点的名字就是PPI中蛋白质在NCBI 和分子功能(molecular function,MF)。每个种类都 中对应的名字,这个名字是唯一的,本文中就是根据 是一种树形结构,我们总共抽取了40848条G0术 这个名字将从Sring9数据中抽取到的PPI同蛋白质 语,其中生物过程有26958条、细胞组件有3653 复合体数据融合到了一起。可以看出检测到的模块 条、分子功能包括10697条。 在内部的连接比较紧密。接下来对使用算法1检测 根据式(6)对每个模块根据G0术语的3个种 到的拓扑模块进行生物学意义上的分析。 类分别进行了富集分析,也就是为每一个蛋白质拓 2.3模块的富集分析及同质性分析 扑模块进行了p-value值的计算,然后选取最小的p I)GO术语和Pathway富集结果 value值对应的G0术语作为该模块的生物功能描 对原始的PPI网络和通过融合蛋白质复合体之 述,从而确定该模块中的生物功能。 后的新网络分别进行模块检测,然后对这些模块进 为了方便比较融合蛋白质复合体数据后检测到 行富集分析。为了更好地反应模块的富集结果及同 的模块与原始PPI网络检测到的模块之间的G0术 质性,只考虑个数多于2的模块,因为个数为2的模 语富集情况,分别使用G0术语的3个类别对应的 块就只包含一条边,容易对富集结果产生噪声。通 所有的GO术语,使用K-Means和NMF两种算法对 过对原始的PPI网络和融合蛋白质复合体的网络分 原始PPI网络和融合了蛋白质复合体的PPI网络划 别使用K-Means和NMF对其进行模块划分,并筛选 分的模块进行了富集分析,然后对比分析结果。实检测算法检测到的模块 238 与模块 76 的拓扑结 构图。 图 2 模块 238 和模块 76 的拓扑结构 Fig. 2 The topological structure of module 238 and module 76 图 2 中节点的名字就是 PPI 中蛋白质在 NCBI 中对应的名字,这个名字是唯一的,本文中就是根据 这个名字将从 Sring9 数据中抽取到的 PPI 同蛋白质 复合体数据融合到了一起。 可以看出检测到的模块 在内部的连接比较紧密。 接下来对使用算法 1 检测 到的拓扑模块进行生物学意义上的分析。 2.3 模块的富集分析及同质性分析 1)GO 术语和 Pathway 富集结果 对原始的 PPI 网络和通过融合蛋白质复合体之 后的新网络分别进行模块检测,然后对这些模块进 行富集分析。 为了更好地反应模块的富集结果及同 质性,只考虑个数多于 2 的模块,因为个数为 2 的模 块就只包含一条边,容易对富集结果产生噪声。 通 过对原始的 PPI 网络和融合蛋白质复合体的网络分 别使用 K⁃Means 和 NMF 对其进行模块划分,并筛选 出模块个数大于 2 的模块,最终检测结果如表 1 所示。 表 1 不同方法划分的模块个数及最大、最小模块 Table 1 The number of modules and the size of maximal and minimal module by different approaches 模块检测算法 模块个数 最小模块 最大模块 K⁃Means 266 3 8 122 IncreK⁃means 277 3 8 157 NMF 301 3 307 IncreNMF 300 3 328 从表 1 可以观察到 K⁃Means 算法容易产生比较 大的模块,其蛋白质的规模约占整个网络的 56%, 一般来说这种规模比较大的模块对蛋白质的生物功 能分析意义不是很大,而且模块个数在 10 以下的模 块占所有模块的 27%左右;而 NMF 算法检测到的最 大模块的规模只占 PPI 网络的 2.28%,而且模块规 模小于 10 的模块占所有模块的比率只有 10%,更容 易检测到相对规模较中等的模块,更容易获得比较 统一的生物功能。 基因本体联合建立了一套适用于不同物种的语 义词汇标准,该标准对蛋白质功能等方面进行限定 及描述,该标准能够随着研究的深入和时间的发展 而不断完善。 GO [12]术语就是这个不断增长完善的 语义词汇标准的数据库,主要对基因和蛋白质进行 注释并且进一步阐明了蛋白质和用于定义它们的 GO 术语之间的关系。 GO 术语是生物过程( biologi⁃ cal process,BP)、细胞组件( cellular component,CC) 和分子功能(molecular function,MF)。 每个种类都 是一种树形结构,我们总共抽取了 40 848 条 GO 术 语,其中生物过程有 26 958 条、细胞组件有 3 653 条、分子功能包括 10 697 条。 根据式(6)对每个模块根据 GO 术语的 3 个种 类分别进行了富集分析,也就是为每一个蛋白质拓 扑模块进行了 p⁃value 值的计算,然后选取最小的 p⁃ value 值对应的 GO 术语作为该模块的生物功能描 述,从而确定该模块中的生物功能。 为了方便比较融合蛋白质复合体数据后检测到 的模块与原始 PPI 网络检测到的模块之间的 GO 术 语富集情况,分别使用 GO 术语的 3 个类别对应的 所有的 GO 术语,使用 K⁃Means 和 NMF 两种算法对 原始 PPI 网络和融合了蛋白质复合体的 PPI 网络划 分的模块进行了富集分析,然后对比分析结果。 实 ·706· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有