第11卷第5期 智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201603034 网络出版地址:htp:/ww.cnki.net/kcms/detail/23.1538.TP.20160926.0920.002.html 融合蛋白质复合体的人类蛋白互作网络功能模块发现 刘光明,杨柳,高盼盼,王邦军,周雪忠,于剑 (北京交通大学计算机与信息技术学院,北京100044) 摘要:人类蛋白互作网络中功能模块的检测是目前网络医学研究的一个热点问题。好的功能模块可以帮助我们 更好地去理解和认识蛋白质相互作用的分子机理。近年来的一些研究大多数是基于复杂网络中的拓扑模块发现算 法对蛋白质相互作用网铬进行模块划分,然后对其进行生物学上的功能研究。由于PPI网络中的蛋白之间相互作 用的数据获取的不完整,相关研究表明目前人类只获得了人类蛋白之间相互作用数据的10%~20%,其中已经获取 的数据中还包含着一些噪声,这就导致基于拓扑结构的社团检测算法的精度降低。为了克服这个问题,本文将蛋白 质复合体数据融人到模块检测算法中,分别使用K-Means和NMF算法对PPI网络进行模块划分,然后从基因本体和 通路2个方面对检测到的模块进行功能分析。实验结果表明融合了蛋白质复合体的PPI网络更容易得到具有生物 学意义的功能模块。 关键词:蛋白质相互作用网络:蛋白质复合体:功能模块:模块检测:基因本体:通路 中图分类号:TP391文献标志码:A文章编号:1673-4785(2016)05-0703-08 中文引用格式:刘光明,杨柳,高盼盼,等.融合蛋白质复合体的人类蛋白互作网络功能模块发现[J].智能系统学报,2016,11(5): 703-710. 英文引用格式:LIU Guangming,YANG Liu,GAO Panpan,etal.The functional module detection of PPI network by incorporating protein complex data [J].CAAI transactions on intelligent systems,2016,11(5):703-710. The functional module detection of PPI network by incorporating protein complex data LIU Guangming,YANG Liu,GAO Panpan,WANG Bangjun,ZHOU Xuezhong,YU Jian (School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China) Abstract:Functional module detection of protein-protein interaction (PPI)network has been a major challenge i- dentified recently by medical researchers.It allows understanding and recognizing the interaction between proteins in an efficient manner.In this study,topological module detection methods,popular in the field of complex protein networks,were applied to the PPI network to obtain these modules,followed by a biological analysis of the topolog- ical modules.The interaction mechanism was observed for only 10%~20%of the protein pairs because of incom- plete PPI data.Furthermore,the data for noise interaction always existed in PPI;therefore,the number of biologi- cally precise modules decreased according to topological community-detection methods.In this study,the protein complex data was incorporated into the PPI network to identify more biologically precise protein modules.K-Means clustering and non-negative matrix factorization algorithms were used to segregate the PPI network into different modules.Gene ontology (GO)and pathway analysis were conducted for each of these modules to quantify their bio- logical significance.The results of the experiments showed that the modules detected by combining the protein com- plex and PPI network demonstrate a higher tendency to achieve larger homogeneity values compared with those de- tected using GO and pathway analysis. Keywords:PPI;protein complex;functional module;module detection;gene ontology;pathway 蛋白质分子是通过与其他蛋白质分子相互作用 量的蛋白质相互作用数据被挖掘出来,从而形成蛋 发挥功能的,近年来随着高通量技术的快速发展,海 白质相互作用网络(protein-protein interaction,PPI)。 网络医学近年来在计算医学领域发展迅速,PPI网 收稿日期:2016-03-18.网络出版日期:2016-09-26 络中的蛋白模块往往具有特定的生物功能。 基金项目:国家自然科学基金项目(61105055,81230086). 通信作者:刘光明.E-mail:guangmingliu@bjtu.cd.cn Barabasi等认为疾病的产生是由于PPI中某个局部
第 11 卷第 5 期 智 能 系 统 学 报 Vol.11 №.5 2016 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2016 DOI:10.11992 / tis.201603034 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160926.0920.002.html 融合蛋白质复合体的人类蛋白互作网络功能模块发现 刘光明,杨柳,高盼盼,王邦军,周雪忠,于剑 ( 北京交通大学 计算机与信息技术学院,北京 100044) 摘 要:人类蛋白互作网络中功能模块的检测是目前网络医学研究的一个热点问题。 好的功能模块可以帮助我们 更好地去理解和认识蛋白质相互作用的分子机理。 近年来的一些研究大多数是基于复杂网络中的拓扑模块发现算 法对蛋白质相互作用网络进行模块划分,然后对其进行生物学上的功能研究。 由于 PPI 网络中的蛋白之间相互作 用的数据获取的不完整,相关研究表明目前人类只获得了人类蛋白之间相互作用数据的10% ~ 20%,其中已经获取 的数据中还包含着一些噪声,这就导致基于拓扑结构的社团检测算法的精度降低。 为了克服这个问题,本文将蛋白 质复合体数据融入到模块检测算法中,分别使用 K⁃Means 和 NMF 算法对 PPI 网络进行模块划分,然后从基因本体和 通路 2 个方面对检测到的模块进行功能分析。 实验结果表明融合了蛋白质复合体的 PPI 网络更容易得到具有生物 学意义的功能模块。 关键词:蛋白质相互作用网络;蛋白质复合体;功能模块;模块检测;基因本体;通路 中图分类号:TP391 文献标志码:A 文章编号:1673⁃4785(2016)05⁃0703⁃08 中文引用格式:刘光明,杨柳,高盼盼,等.融合蛋白质复合体的人类蛋白互作网络功能模块发现[ J]. 智能系统学报, 2016, 11(5): 703⁃710. 英文引用格式:LIU Guangming,YANG Liu,GAO Panpan,et al.The functional module detection of PPI network by incorporating protein complex data [J]. CAAI transactions on intelligent systems, 2016,11(5):703⁃710. The functional module detection of PPI network by incorporating protein complex data LIU Guangming, YANG Liu, GAO Panpan, WANG Bangjun, ZHOU Xuezhong, YU Jian (School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China) Abstract:Functional module detection of protein⁃protein interaction (PPI) network has been a major challenge i⁃ dentified recently by medical researchers. It allows understanding and recognizing the interaction between proteins in an efficient manner. In this study, topological module detection methods, popular in the field of complex protein networks, were applied to the PPI network to obtain these modules, followed by a biological analysis of the topolog⁃ ical modules. The interaction mechanism was observed for only 10% ~20% of the protein pairs because of incom⁃ plete PPI data. Furthermore, the data for noise interaction always existed in PPI; therefore, the number of biologi⁃ cally precise modules decreased according to topological community⁃detection methods. In this study, the protein complex data was incorporated into the PPI network to identify more biologically precise protein modules. K⁃Means clustering and non⁃negative matrix factorization algorithms were used to segregate the PPI network into different modules. Gene ontology (GO) and pathway analysis were conducted for each of these modules to quantify their bio⁃ logical significance. The results of the experiments showed that the modules detected by combining the protein com⁃ plex and PPI network demonstrate a higher tendency to achieve larger homogeneity values compared with those de⁃ tected using GO and pathway analysis. Keywords:PPI; protein complex; functional module; module detection; gene ontology; pathway 收稿日期:2016⁃03⁃18. 网络出版日期:2016⁃09⁃26. 基金项目:国家自然科学基金项目(61105055,81230086). 通信作者:刘光明.E⁃mail:guangmingliu @ bjtu.edu.cn. 蛋白质分子是通过与其他蛋白质分子相互作用 发挥功能的,近年来随着高通量技术的快速发展,海 量的蛋白质相互作用数据被挖掘出来,从而形成蛋 白质相互作用网络(protein⁃protein interaction,PPI)。 网络医学近年来在计算医学领域发展迅速,PPI 网 络中 的 蛋 白 模 块 往 往 具 有 特 定 的 生 物 功 能。 Barabasi 等认为疾病的产生是由于 PPI 中某个局部
·704 智能系统学报 第11卷 的蛋白链接关系发生了紊乱[】,并进一步提出了拓 表示顶点集、E表示边集。矩阵A表示邻接矩阵,A 扑模块、功能模块和疾病模块是存在相同的共有蛋 的定义为 白成员的。大家普遍认为在拓扑结构上链接比较紧 1 (:,y)∈E 密的蛋白在生物功能上也更加相似。基于这个假 Ag20, (1) 其他 设,为了可以精确地寻找到与疾病相关的蛋白模块, 式中:A,表示节点i和节点j有连边,:和表示节 需要先从PPI网络中检测出具有比较显著生物意义 点i和节点j。 的功能模块。 目前功能模块的检测方法主要是使用复杂网络 1.2模块检测算法 模块目前还没有一个统一的定义,大家对模块 领域中的社团划分方法将PPI网络划分为多个拓扑 模块,然后对这些拓扑模块再进行生物功能的检测。 的共识是:模块内部的边比较紧密而模块之间的边 Bader等提出了一种叫做MCODE的方法,该方法首 要尽量稀硫[6。本文主要使用K均值和非负矩阵 先根据节点的邻居对每一个节点赋一个权重,然后 分解2种算法对PPI网络进行模块检测。 选择权重较大的节点作为种子节点进行社团划 1)K均值) 分)。该方法可以发现重叠的蛋白质功能模块。 K均值是一个比较经典的聚类算法。给定一个 DPClus等使用类似的方法对网络中的每条边赋权 含有N个节点的数据集{x1,x2,…,x},其中每个节 重,然后选择权重最大的边的节点作为初始种子节 点的维度是D维,将该数据集划分为k个类。每一 点进行社团划分I)。Edward等提出了一种基于熵 类的类中心表示为44,为每一个节点定义一个指示 的方法进行功能模块的检测,该方法首先随机选择 向量rt,其物理含义是如果节点n的类标号为k,则 一个节点作为种子节点,然后将该种子节点和其周 值为1:否则为0。 围的邻居作为一个种子类,通过嫡的减少来移除边 K均值算法的主要思想就是所有样本点到各自 界点和增加新节点形成蛋白模块,直到遍历完网络 的类中心的距离最短,其目标函数为 中的所有节点4。 miW=立会rlx-4I (2) 上述功能模块划分算法主要是根据PPI中的链 接关系,也就是只找到了在拓扑结构上链接紧密的 根据式(2)可以得到类中心的迭代公式为 模块。由于目前人类所获取的蛋白相互作用数据只 ∑rwx 获取了实际相互作用的10%~20%[),所以PPI网 4g三 ∑.re (3) 络是比较稀疏的,使用传统的复杂网络中的社团划 其代表的物理含义是第k个类中所有样本点的 分方法并不能保证精确地找到具有某种生物功能的 均值作为该类的类中心,然后其他节点根据与该类 模块。蛋白质复合体(protein complex)是2个及其 中心的距离来判断是不是属于这个类。通过不停地 以上的蛋白相互作用而形成的复合物,一般分为结 迭代,直到所有的类中心不在改变为止。 构型的蛋白质复合体和功能型蛋白质复合体2大 2)非负矩阵分解 类。目前关于蛋白质复合体的数据已经可以方便地 非负矩阵分解最早是由Lee和Seung8)提出 获取,因此可以考虑将蛋白质复合体的数据融合到 PPI网络中,从而可以提高功能模块的发现精度。 的。若一个矩阵其所有的元素没有负数,这样的矩 本文首先将蛋白质复合体数据融合到PPI网络 阵叫做非负矩阵。对一个n×m的非负矩阵X,其行 中,然后使用K均值(K-Means)和非负矩阵分解 向量代表特征,列向量代表样本。非负矩阵分解的 (non-negative matrix factorization,NMF)2种算法对 任务就是把X分解为两个非负矩阵使得X≈FG, 融合后的数据进行模块划分,针对得到的模块进行 其中F是一个n×k的矩阵,G是mxk的矩阵(k为 基因本体(gene ontolog,GO)和通路(pathway)富集 类的个数)。其目标函数为 分析并进一步计算模块的G0同质性。 minJ=IX-FGT 2 (4) 式中:G为最后的划分矩阵。F和G的迭代规则 社团划分及模块生物学分析 如下: 1.1PPI网络的表示 (XG). Ft=F PPI网可以表示为一个无向无权图,其中V (FGG)
的蛋白链接关系发生了紊乱[1] ,并进一步提出了拓 扑模块、功能模块和疾病模块是存在相同的共有蛋 白成员的。 大家普遍认为在拓扑结构上链接比较紧 密的蛋白在生物功能上也更加相似。 基于这个假 设,为了可以精确地寻找到与疾病相关的蛋白模块, 需要先从 PPI 网络中检测出具有比较显著生物意义 的功能模块。 目前功能模块的检测方法主要是使用复杂网络 领域中的社团划分方法将 PPI 网络划分为多个拓扑 模块,然后对这些拓扑模块再进行生物功能的检测。 Bader 等提出了一种叫做 MCODE 的方法,该方法首 先根据节点的邻居对每一个节点赋一个权重,然后 选择权重较大的节点作为种子节点进行社团划 分[2] 。 该方法可以发现重叠的蛋白质功能模块。 DPClus 等使用类似的方法对网络中的每条边赋权 重,然后选择权重最大的边的节点作为初始种子节 点进行社团划分[3] 。 Edward 等提出了一种基于熵 的方法进行功能模块的检测,该方法首先随机选择 一个节点作为种子节点,然后将该种子节点和其周 围的邻居作为一个种子类,通过熵的减少来移除边 界点和增加新节点形成蛋白模块,直到遍历完网络 中的所有节点[4] 。 上述功能模块划分算法主要是根据 PPI 中的链 接关系,也就是只找到了在拓扑结构上链接紧密的 模块。 由于目前人类所获取的蛋白相互作用数据只 获取了实际相互作用的 10% ~ 20% [5] ,所以 PPI 网 络是比较稀疏的,使用传统的复杂网络中的社团划 分方法并不能保证精确地找到具有某种生物功能的 模块。 蛋白质复合体( protein complex)是 2 个及其 以上的蛋白相互作用而形成的复合物,一般分为结 构型的蛋白质复合体和功能型蛋白质复合体 2 大 类。 目前关于蛋白质复合体的数据已经可以方便地 获取,因此可以考虑将蛋白质复合体的数据融合到 PPI 网络中,从而可以提高功能模块的发现精度。 本文首先将蛋白质复合体数据融合到 PPI 网络 中,然后使用 K 均值(K⁃Means) 和非负矩阵分解 (non⁃negative matrix factorization,NMF) 2 种算法对 融合后的数据进行模块划分,针对得到的模块进行 基因本体(gene ontology,GO)和通路(pathway)富集 分析并进一步计算模块的 GO 同质性。 1 社团划分及模块生物学分析 1.1 PPI 网络的表示 PPI 网络可以表示为一个无向无权图,其中 V 表示顶点集、E 表示边集。 矩阵 A 表示邻接矩阵,A 的定义为 Aij = 1, 0, (vi,vj) ∈ E 其他 { (1) 式中:Aij表示节点 i 和节点 j 有连边,vi 和 vj 表示节 点 i 和节点 j。 1.2 模块检测算法 模块目前还没有一个统一的定义,大家对模块 的共识是:模块内部的边比较紧密而模块之间的边 要尽量稀疏[6] 。 本文主要使用 K 均值和非负矩阵 分解 2 种算法对 PPI 网络进行模块检测。 1) K 均值[7] K 均值是一个比较经典的聚类算法。 给定一个 含有 N 个节点的数据集 x1 ,x2 ,…,xn { } ,其中每个节 点的维度是 D 维,将该数据集划分为 k 个类。 每一 类的类中心表示为 μk,为每一个节点定义一个指示 向量 rnk,其物理含义是如果节点 n 的类标号为 k,则 值为 1;否则为 0。 K 均值算法的主要思想就是所有样本点到各自 的类中心的距离最短,其目标函数为 minJ = ∑ N n = 1∑ K k = 1 rnk‖xn - uk‖ 2 (2) 根据式(2)可以得到类中心的迭代公式为 μk = ∑n rnkxn ∑n rnk (3) 其代表的物理含义是第 k 个类中所有样本点的 均值作为该类的类中心,然后其他节点根据与该类 中心的距离来判断是不是属于这个类。 通过不停地 迭代,直到所有的类中心不在改变为止。 2)非负矩阵分解 非负矩阵分解最早是由 Lee 和 Seung [8] 提出 的。 若一个矩阵其所有的元素没有负数,这样的矩 阵叫做非负矩阵。 对一个 n×m 的非负矩阵 X,其行 向量代表特征,列向量代表样本。 非负矩阵分解的 任务就是把 X 分解为两个非负矩阵使得 X≈FG T , 其中 F 是一个 n×k 的矩阵,G 是 m×k 的矩阵( k 为 类的个数)。 其目标函数为 minJ = ‖X - FG T‖2 (4) 式中:G 为最后的划分矩阵。 F 和 G 的迭代规则 如下: Fik = Fik (XG)ik (FG TG)ik ·704· 智 能 系 统 学 报 第 11 卷
第5期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·705. (X'F)a 蛋白质复合体是具有相同功能的蛋白质高度交互的 Ga=Ga(GFTF) (5) 集合,具有较强的生物特性。而蛋白质复合体本身 当误差小于某个阈值a或达到最大迭代次数时 是PPI的一部分,因此将蛋白质复合体数据引入到 算法终止,F矩阵描述了网络中节点隶属于某个社 PPI中,可以弥补其相互作用数据少并且存在噪声 区的概率。 的缺陷。本文提取了1653个与人类相关的蛋白质 1.3模块的富集分析 复合体数据,并且形成了31550条蛋白质相互作用 为了确定每一个模块具体的生物功能,对每个 数据。 模块分别进行G0和Pathway富集分析。每个模块 22融合蛋白质复合体的PPI网络模块检测 会对所有的G0术语或者Pathway进行分析,并且 将从蛋白质复合体数据中抽取的31550条蛋 返回具有最小P-value的GO术语或Pathway表示模 白质相互作用数据融入到PPI网络中,从而在一定 块中的蛋白质在该G0术语或者Pathway中出现了 程度上弥补了PPI数据不足的缺点。由于从蛋白质 富集,即该G0术语描述了这个模块的功能或者这 复合体数据中抽取的这些数据具有很高的精确度, 个模块中的蛋白共同参与了该Pathway。P-value的 融入这些数据后可以在一定程度上减少PPI中的噪 计算为 声数据对后续分析的影响。 主要是将抽取到的蛋白质之间的相互作用数据 P(X=x>q)=】 ,()() (6) =g () 融入到从String9提取的蛋白网络对应的邻接矩阵 式中:k代表模块中蛋白的数量,9是模块中被注解 A中,具体融入方法参照Zhang等提出的方式, 的蛋白质数量,m是整个网络中的蛋白质的数量。 将从蛋白复合体中提取出的蛋白质互作数据集合记 1.4模块的同质性分析 为C,然后通过融合C和A得到新的邻接矩阵: 一个蛋白质可能被多个G0术语注解,同时一 (i,j)EC 条G0术语也会注解多个蛋白质。一个模块中的蛋 其他 (8) 白经常会出现多个G0术语描述其功能,因此使用 式中:w是权值,本文中取值为2,融合过程如图1 同质性去衡量模块内所有的蛋白质相互作用产生的 所示。然后根据新得到的邻接矩阵A所代表的新 生物功能的强弱,同质性高则说明该模块内的蛋白 的PPI网络进行模块检测。详细模块检测算法参照 质的功能越相近,其计算公式为 算法1。 H:=max 「G (7) 作树络 式中:G代表模块中有G0注解的蛋白质的数量,G 合 代表模块中共享同一个G0术语的蛋白的数量。 蛋白质复合体 融合之后的 2 融合蛋白质复合体的功能模块检测 网络 图1蛋白互作网络生成过程 2.1数据的来源及整理 Fig.1 The generation process of protein-protein net- STRING9.1)提供了蛋白质与蛋白质相互作用 work 关系的数据,该数据中包含了一些通过生物实验获 算法1蛋白模块检测算法 得的数据,也包括一些使用计算方法预测出来的数 1)输入A,String9.1对应的邻接矩阵:A:A和 据并使用Score值量化。为了提高PPI网络数据的 蛋白质复合体数据C融合形成的新的邻接矩阵;K: 可靠性,筛选出与人类有关且Score大于700的蛋 蛋白模块的个数。 白相互作用数据,然后将蛋白编码转换为NCBI中 2)fori=1:W/每一行代表一个数据点的属性 名称,最终得到的PPI网络里包括14380个蛋白质 (U,G)=K-Means(A,K)or (F,G)=NMF(A,K) 和218163条蛋白质相互作用。 3)输出G:每个蛋白质对应的类标号 CORUM1o]存储的是哺乳动物组织器官内经过 算法1将融合了蛋白质复合体的PPI网络划分 人工审核过的蛋白质复合体数据,这些数据都是通 为K个模块,图2是分别使用NMF和K-Means社团 过个体实验获取的,所以数据噪声少并且准确度高
Gik = Gik (X TF)ik (GF TF)ik (5) 当误差小于某个阈值 a 或达到最大迭代次数时 算法终止,F 矩阵描述了网络中节点隶属于某个社 区的概率。 1.3 模块的富集分析 为了确定每一个模块具体的生物功能,对每个 模块分别进行 GO 和 Pathway 富集分析。 每个模块 会对所有的 GO 术语或者 Pathway 进行分析,并且 返回具有最小 P⁃value 的 GO 术语或 Pathway 表示模 块中的蛋白质在该 GO 术语或者 Pathway 中出现了 富集,即该 GO 术语描述了这个模块的功能或者这 个模块中的蛋白共同参与了该 Pathway。 P⁃value 的 计算为 P(X = x > q) = ∑ m x = q ( m x )( t-m k-x ) ( t k) (6) 式中:k 代表模块中蛋白的数量,q 是模块中被注解 的蛋白质数量,m 是整个网络中的蛋白质的数量。 1.4 模块的同质性分析 一个蛋白质可能被多个 GO 术语注解,同时一 条 GO 术语也会注解多个蛋白质。 一个模块中的蛋 白经常会出现多个 GO 术语描述其功能,因此使用 同质性去衡量模块内所有的蛋白质相互作用产生的 生物功能的强弱,同质性高则说明该模块内的蛋白 质的功能越相近,其计算公式为 Hi = maxj G j i Gi é ë ê ê ù û ú ú (7) 式中:Gi 代表模块中有 GO 注解的蛋白质的数量,G j i 代表模块中共享同一个 GO 术语的蛋白的数量。 2 融合蛋白质复合体的功能模块检测 2.1 数据的来源及整理 STRING 9.1 [9]提供了蛋白质与蛋白质相互作用 关系的数据,该数据中包含了一些通过生物实验获 得的数据,也包括一些使用计算方法预测出来的数 据并使用 Score 值量化。 为了提高 PPI 网络数据的 可靠性,筛选出与人类有关且 Score 大于 700 的蛋 白相互作用数据,然后将蛋白编码转换为 NCBI 中 名称,最终得到的 PPI 网络里包括 14 380 个蛋白质 和 218 163 条蛋白质相互作用。 CORUM [10]存储的是哺乳动物组织器官内经过 人工审核过的蛋白质复合体数据,这些数据都是通 过个体实验获取的,所以数据噪声少并且准确度高。 蛋白质复合体是具有相同功能的蛋白质高度交互的 集合,具有较强的生物特性。 而蛋白质复合体本身 是 PPI 的一部分,因此将蛋白质复合体数据引入到 PPI 中,可以弥补其相互作用数据少并且存在噪声 的缺陷。 本文提取了 1 653 个与人类相关的蛋白质 复合体数据,并且形成了 31 550 条蛋白质相互作用 数据。 2.2 融合蛋白质复合体的 PPI 网络模块检测 将从蛋白质复合体数据中抽取的 31 550 条蛋 白质相互作用数据融入到 PPI 网络中,从而在一定 程度上弥补了 PPI 数据不足的缺点。 由于从蛋白质 复合体数据中抽取的这些数据具有很高的精确度, 融入这些数据后可以在一定程度上减少 PPI 中的噪 声数据对后续分析的影响。 主要是将抽取到的蛋白质之间的相互作用数据 融入到从 String9 提取的蛋白网络对应的邻接矩阵 A 中,具体融入方法参照 Zhang 等[11] 提出的方式, 将从蛋白复合体中提取出的蛋白质互作数据集合记 为 C,然后通过融合 C 和 A 得到新的邻接矩阵: A ~ ij = w, (i,j) ∈ C {Aij, 其他 (8) 式中:w 是权值,本文中取值为 2,融合过程如图 1 所示。 然后根据新得到的邻接矩阵 A ~ 所代表的新 的 PPI 网络进行模块检测。 详细模块检测算法参照 算法 1。 图 1 蛋白互作网络生成过程 Fig.1 The generation process of protein⁃protein net⁃ work 算法 1 蛋白模块检测算法 1)输入 A,String9.1 对应的邻接矩阵; A ~ :A 和 蛋白质复合体数据 C 融合形成的新的邻接矩阵;K: 蛋白模块的个数。 2)for i = 1:N / / 每一行代表一个数据点的属性 (U,G)= K⁃Means(A ~ ,K) or (F,G) = NMF(A ~ ,K) 3)输出 Gnew :每个蛋白质对应的类标号 算法 1 将融合了蛋白质复合体的 PPI 网络划分 为 K 个模块,图 2 是分别使用 NMF 和 K⁃Means 社团 第 5 期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·705·
·706 智能系统学报 第11卷 检测算法检测到的模块238与模块76的拓扑结 出模块个数大于2的模块,最终检测结果如表1 构图。 所示。 表1不同方法划分的模块个数及最大、最小模块 Table 1 The number of modules and the size of maximal and minimal module by different approaches 模块检测算法模块个数最小模块 最大模块 K-Means 266 3 8122 IncreK-means 277 3 8157 NMF 301 3 307 IncreNMF 300 3 328 从表1可以观察到K-Means算法容易产生比较 大的模块,其蛋白质的规模约占整个网络的56%, (a)模块238 一般来说这种规模比较大的模块对蛋白质的生物功 能分析意义不是很大,而且模块个数在10以下的模 块占所有模块的27%左右:而NMF算法检测到的最 大模块的规模只占PPI网络的2.28%,而且模块规 模小于10的模块占所有模块的比率只有10%,更容 易检测到相对规模较中等的模块,更容易获得比较 统一的生物功能。 基因本体联合建立了一套适用于不同物种的语 义词汇标准,该标准对蛋白质功能等方面进行限定 及描述,该标准能够随着研究的深入和时间的发展 而不断完善。G0)术语就是这个不断增长完善的 (b)模块76 语义词汇标准的数据库,主要对基因和蛋白质进行 图2模块238和模块76的拓扑结构 注释并且进一步阐明了蛋白质和用于定义它们的 Fig.2 The topological structure of module 238 and G0术语之间的关系。G0术语是生物过程(biologi-- module 76 cal process,BP)、细胞组件(cellular component,CC) 图2中节点的名字就是PPI中蛋白质在NCBI 和分子功能(molecular function,MF)。每个种类都 中对应的名字,这个名字是唯一的,本文中就是根据 是一种树形结构,我们总共抽取了40848条G0术 这个名字将从Sring9数据中抽取到的PPI同蛋白质 语,其中生物过程有26958条、细胞组件有3653 复合体数据融合到了一起。可以看出检测到的模块 条、分子功能包括10697条。 在内部的连接比较紧密。接下来对使用算法1检测 根据式(6)对每个模块根据G0术语的3个种 到的拓扑模块进行生物学意义上的分析。 类分别进行了富集分析,也就是为每一个蛋白质拓 2.3模块的富集分析及同质性分析 扑模块进行了p-value值的计算,然后选取最小的p I)GO术语和Pathway富集结果 value值对应的G0术语作为该模块的生物功能描 对原始的PPI网络和通过融合蛋白质复合体之 述,从而确定该模块中的生物功能。 后的新网络分别进行模块检测,然后对这些模块进 为了方便比较融合蛋白质复合体数据后检测到 行富集分析。为了更好地反应模块的富集结果及同 的模块与原始PPI网络检测到的模块之间的G0术 质性,只考虑个数多于2的模块,因为个数为2的模 语富集情况,分别使用G0术语的3个类别对应的 块就只包含一条边,容易对富集结果产生噪声。通 所有的GO术语,使用K-Means和NMF两种算法对 过对原始的PPI网络和融合蛋白质复合体的网络分 原始PPI网络和融合了蛋白质复合体的PPI网络划 别使用K-Means和NMF对其进行模块划分,并筛选 分的模块进行了富集分析,然后对比分析结果。实
检测算法检测到的模块 238 与模块 76 的拓扑结 构图。 图 2 模块 238 和模块 76 的拓扑结构 Fig. 2 The topological structure of module 238 and module 76 图 2 中节点的名字就是 PPI 中蛋白质在 NCBI 中对应的名字,这个名字是唯一的,本文中就是根据 这个名字将从 Sring9 数据中抽取到的 PPI 同蛋白质 复合体数据融合到了一起。 可以看出检测到的模块 在内部的连接比较紧密。 接下来对使用算法 1 检测 到的拓扑模块进行生物学意义上的分析。 2.3 模块的富集分析及同质性分析 1)GO 术语和 Pathway 富集结果 对原始的 PPI 网络和通过融合蛋白质复合体之 后的新网络分别进行模块检测,然后对这些模块进 行富集分析。 为了更好地反应模块的富集结果及同 质性,只考虑个数多于 2 的模块,因为个数为 2 的模 块就只包含一条边,容易对富集结果产生噪声。 通 过对原始的 PPI 网络和融合蛋白质复合体的网络分 别使用 K⁃Means 和 NMF 对其进行模块划分,并筛选 出模块个数大于 2 的模块,最终检测结果如表 1 所示。 表 1 不同方法划分的模块个数及最大、最小模块 Table 1 The number of modules and the size of maximal and minimal module by different approaches 模块检测算法 模块个数 最小模块 最大模块 K⁃Means 266 3 8 122 IncreK⁃means 277 3 8 157 NMF 301 3 307 IncreNMF 300 3 328 从表 1 可以观察到 K⁃Means 算法容易产生比较 大的模块,其蛋白质的规模约占整个网络的 56%, 一般来说这种规模比较大的模块对蛋白质的生物功 能分析意义不是很大,而且模块个数在 10 以下的模 块占所有模块的 27%左右;而 NMF 算法检测到的最 大模块的规模只占 PPI 网络的 2.28%,而且模块规 模小于 10 的模块占所有模块的比率只有 10%,更容 易检测到相对规模较中等的模块,更容易获得比较 统一的生物功能。 基因本体联合建立了一套适用于不同物种的语 义词汇标准,该标准对蛋白质功能等方面进行限定 及描述,该标准能够随着研究的深入和时间的发展 而不断完善。 GO [12]术语就是这个不断增长完善的 语义词汇标准的数据库,主要对基因和蛋白质进行 注释并且进一步阐明了蛋白质和用于定义它们的 GO 术语之间的关系。 GO 术语是生物过程( biologi⁃ cal process,BP)、细胞组件( cellular component,CC) 和分子功能(molecular function,MF)。 每个种类都 是一种树形结构,我们总共抽取了 40 848 条 GO 术 语,其中生物过程有 26 958 条、细胞组件有 3 653 条、分子功能包括 10 697 条。 根据式(6)对每个模块根据 GO 术语的 3 个种 类分别进行了富集分析,也就是为每一个蛋白质拓 扑模块进行了 p⁃value 值的计算,然后选取最小的 p⁃ value 值对应的 GO 术语作为该模块的生物功能描 述,从而确定该模块中的生物功能。 为了方便比较融合蛋白质复合体数据后检测到 的模块与原始 PPI 网络检测到的模块之间的 GO 术 语富集情况,分别使用 GO 术语的 3 个类别对应的 所有的 GO 术语,使用 K⁃Means 和 NMF 两种算法对 原始 PPI 网络和融合了蛋白质复合体的 PPI 网络划 分的模块进行了富集分析,然后对比分析结果。 实 ·706· 智 能 系 统 学 报 第 11 卷
第5期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 .707· 验表明,融合了蛋白质复合体后划分得到的模块在 3个方面罗列了实验结果,可以看到融合了蛋白质 GO术语上的富集程度要比直接使用原始PPI网络 复合体之后的PPI网络得到的模块,在富集程度上 的模块富集程度有显著的提升。 比原始模块的p-value值要低,这说明模块的富集程 表2列举了4种方法对应的前20个最小的模 度更好,融合蛋白质复合体的模块更具有显著生物 块富集结果,分别从生物过程、细胞组件和生物功能 功能上的意义。 表2融合蛋白质复合体的模块与原始PPI模块的G0富集(p-value) Table 2 GO enrichment of topological modules comparing mixed protein complex with the original PPI network K-Means IncreK-Means NMF IncreNMF BP cC MF BP CC MF BP CC MF BP CC MF 0.0x10°9.4x1050.0x10°0.0x10°2.3x1060.0x100.0x103.4×1090.0x10 0.0x10P1.9x10am0.00x10 5.5×1001.79x1085.33×1054.9×1001.20x1023.9x101.12×108.49x1054.85×10512.73×1091.00x1005.86x108 2.79x1062.13x1081.45×10686.03×1091.94x10s3.87×1022.44x1063.05x1021.25×1014.64×1092.00x1041.28×102 1.53x1063.75x1065.63x1081.24×1086.97×1041.54×1089.89x1081.55×1063.19x1081.93x10$8.43×10m3.66x102 3.49x1003.80x1065.95x10482.37×1016.99x104.27×103g3.11x10%1.02x1035.47×102.35x10s9.42×1084.10x105 1.50x1019.70x10-319.20x1072.39x1011.55x1091.45×1061.12x1043.30x105.46×1033.23×1062.20x10-21.61×1024 6.73×1011.27×1051.54×10317.20×1015.13×1031.12×10381.39×1042.23×101.79×10241.25×1081.27×101.76×1024 3.43x1095.71×1052.60x1098.23×1011.12x10”2.26×101.48x1015.26×10244.14×1033.02×108135×102.45×104 7.94×1081.02x1042.94×1024.44×1004.89x102.77×10”2.01×10311.55×1032.99×1027.83×1021.38×1034.95×102 2.17×1051.05×1045.71×101.71×1056.19x101.25×1021.38×1003.29x1021.38×1097.97×1018.45×101.05×102 3.22×1051.67×1044.51×1082.94×1057.81×106.73×1042.52x1032.78x1022.07×1081.68×1025.48×103.18×102 1.97×10302.54x10246.86×10281.34×1042.42x10249.83x102298x1022.97×1022.10x10181.04×1027.57×1032.21×100 1.76×10282.79x102.26×1021.85×10312.69x10243.77×1024.38x1023.30x1024.18x1081.34×1041.20x10242.50×10m 1.17×102”3.16x1024.85×10-14.43×1012.05x1034.76×1024.71×1023.80x1021.02x10n1.46x10242.04×1031.59x109 5.06×1076.54×1023.03×10201.15×102.76×1021.84×1016.08×1026.65×10211.20×1071.94×10242.90×10-31.17×1018 1.80x10256.00x10212.98×1081.83×10”4.14x10212.35×1017.70x10211.02×10194.7×1074.55×1025.77×1081.92×1018 2.75×109.72×1022.31×10162.69×1025.63×1023.44×10211.17×1001.12×1091.26×10169.95×1025.57×1021.16×10n 1.47×1051.15x1084.27×1064.64×1021.63x1093.87×1091.54×10201.42×10193.92×1061.14×10-217.88×1021.76x10-7 2.46×101.92x106.56×1069.92×1024.42×1091.08×10183.36x1002.06x10196.25×10161.99x10213.93×1025.89x10n 1.19x1021.94×1086.63x10168.00x106.78×1095.57×10~183.92×1001.02x10-186.69×1062.06x10-21.38×10D7.71×10 同G0的富集分析一样,我们也对模块中蛋白条来自Reactome数据库。表3列举了4种方法中 质在Pathway上进行了相应的富集分析,主要是统 对应的前20个最小的模块在Pathway上的富集结 计一个模块内的蛋白质参与同一条Pathway的程 果,从中可以看到融合了蛋白质复合体之后的PPI 度。Pathway数据主要使用PIDI(pathway interac- 网络的模块,在Pathway上的富集程度比原始的模 tion database),该数据库由NCl-Nature、BioCarta和块的p-value值要低,这说明模块内的蛋白质更多地 Reactome.3个数据库整合而成。在本文中只使用分参与了同一条Pathway,从而可以证明融合了蛋白质 子类型为“蛋白质”和“蛋白质复合体”的数据。最 复合体的模块更倾向于在同样的Pathway中发挥生 终提取了1513条Pathway数据,其中223条来自 物作用,识别Pathway可以帮助人们进一步认识蛋 NCI-Nature数据库、254条来自BioCarta数据库、838 白分子之间相互作用的分子机理
验表明,融合了蛋白质复合体后划分得到的模块在 GO 术语上的富集程度要比直接使用原始 PPI 网络 的模块富集程度有显著的提升。 表 2 列举了 4 种方法对应的前 20 个最小的模 块富集结果,分别从生物过程、细胞组件和生物功能 3 个方面罗列了实验结果,可以看到融合了蛋白质 复合体之后的 PPI 网络得到的模块,在富集程度上 比原始模块的p⁃value值要低,这说明模块的富集程 度更好,融合蛋白质复合体的模块更具有显著生物 功能上的意义。 表 2 融合蛋白质复合体的模块与原始 PPI 模块的 GO 富集(p⁃value) Table 2 GO enrichment of topological modules comparing mixed protein complex with the original PPI network K⁃Means IncreK⁃Means NMF IncreNMF BP CC MF BP CC MF BP CC MF BP CC MF 0.0×10 0 9.4×10 -175 0.0×10 0 0.0×10 0 2.3×10 -176 0.0×10 0 0.0×10 0 3.4×10 -193 0.0×10 0 0.0×10 0 1.9×10 -207 0.00×10 0 5.5×10 -104 1.79×10 -78 5.33×10 -105 4.9×10 -104 1.20×10 -52 3.9×10 -106 1.12×10 -48 8.49×10 -55 4.85×10 -51 2.73×10 -49 1.00×10 -50 5.86×10 -43 2.79×10 -66 2.13×10 -48 1.45×10 -68 6.03×10 -59 1.94×10 -48 3.87×10 -52 2.44×10 -46 3.05×10 -52 1.25×10 -41 4.64×10 -39 2.00×10 -44 1.28×10 -42 1.53×10 -56 3.75×10 -46 5.63×10 -43 1.24×10 -48 6.97×10 -44 1.54×10 -48 9.89×10 -38 1.55×10 -43 3.19×10 -38 1.93×10 -38 8.43×10 -28 3.66×10 -32 3.49×10 -50 3.80×10 -46 5.95×10 -43 2.37×10 -41 6.99×10 -41 4.27×10 -38 3.11×10 -36 1.02×10 -28 5.47×10 -32 2.35×10 -38 9.42×10 -28 4.10×10 -25 1.50×10 -41 9.70×10 -31 9.20×10 -37 2.39×10 -41 1.55×10 -29 1.45×10 -36 1.12×10 -34 3.30×10 -28 5.46×10 -25 3.23×10 -36 2.20×10 -27 1.61×10 -24 6.73×10 -41 1.27×10 -25 1.54×10 -31 7.20×10 -41 5.13×10 -28 1.12×10 -33 1.39×10 -34 2.23×10 -26 1.79×10 -24 1.25×10 -33 1.27×10 -26 1.76×10 -24 3.43×10 -39 5.71×10 -25 2.60×10 -29 8.23×10 -41 1.12×10 -27 2.26×10 -33 1.48×10 -31 5.26×10 -24 4.14×10 -23 3.02×10 -33 1.35×10 -26 2.45×10 -24 7.94×10 -38 1.02×10 -24 2.94×10 -27 4.44×10 -40 4.89×10 -26 2.77×10 -27 2.01×10 -31 1.55×10 -23 2.99×10 -22 7.83×10 -32 1.38×10 -26 4.95×10 -23 2.17×10 -35 1.05×10 -24 5.71×10 -27 1.71×10 -35 6.19×10 -26 1.25×10 -26 1.38×10 -30 3.29×10 -23 1.38×10 -19 7.97×10 -31 8.45×10 -26 1.05×10 -22 3.22×10 -35 1.67×10 -24 4.51×10 -23 2.94×10 -35 7.81×10 -26 6.73×10 -24 2.52×10 -29 2.78×10 -22 2.07×10 -18 1.68×10 -29 5.48×10 -25 3.18×10 -22 1.97×10 -30 2.54×10 -24 6.86×10 -23 1.34×10 -34 2.42×10 -24 9.83×10 -23 2.98×10 -22 2.97×10 -22 2.10×10 -18 1.04×10 -25 7.57×10 -25 2.21×10 -20 1.76×10 -28 2.79×10 -23 2.26×10 -21 1.85×10 -31 2.69×10 -24 3.77×10 -22 4.38×10 -22 3.30×10 -21 4.18×10 -18 1.34×10 -24 1.20×10 -24 2.50×10 -20 1.17×10 -27 3.16×10 -23 4.85×10 -21 4.43×10 -31 2.05×10 -23 4.76×10 -22 4.71×10 -22 3.80×10 -21 1.02×10 -17 1.46×10 -24 2.04×10 -23 1.59×10 -19 5.06×10 -27 6.54×10 -22 3.03×10 -20 1.15×10 -27 2.76×10 -23 1.84×10 -21 6.08×10 -22 6.65×10 -21 1.20×10 -17 1.94×10 -24 2.90×10 -23 1.17×10 -18 1.80×10 -25 6.00×10 -21 2.98×10 -18 1.83×10 -27 4.14×10 -21 2.35×10 -21 7.70×10 -21 1.02×10 -19 4.77×10 -17 4.55×10 -22 5.77×10 -23 1.92×10 -18 2.75×10 -27 9.72×10 -21 2.31×10 -16 2.69×10 -27 5.63×10 -21 3.44×10 -21 1.17×10 -20 1.12×10 -19 1.26×10 -16 9.95×10 -22 5.57×10 -22 1.16×10 -17 1.47×10 -25 1.15×10 -18 4.27×10 -16 4.64×10 -27 1.63×10 -19 3.87×10 -19 1.54×10 -20 1.42×10 -19 3.92×10 -16 1.14×10 -21 7.88×10 -22 1.76×10 -17 2.46×10 -23 1.92×10 -18 6.56×10 -16 9.92×10 -27 4.42×10 -19 1.08×10 -18 3.36×10 -20 2.06×10 -19 6.25×10 -16 1.99×10 -21 3.93×10 -21 5.89×10 -17 1.19×10 -22 1.94×10 -18 6.63×10 -16 8.00×10 -25 6.78×10 -19 5.57×10 -18 3.92×10 -20 1.02×10 -18 6.69×10 -16 2.06×10 -21 1.38×10 -20 7.71×10 -17 同 GO 的富集分析一样,我们也对模块中蛋白 质在 Pathway 上进行了相应的富集分析,主要是统 计一个模块内的蛋白质参与同一条 Pathway 的程 度。 Pathway 数据主要使用 PID [13] ( pathway interac⁃ tion database),该数据库由 NCI⁃Nature、BioCarta 和 Reactome3 个数据库整合而成。 在本文中只使用分 子类型为“蛋白质”和“蛋白质复合体”的数据。 最 终提取了 1 513 条 Pathway 数据,其中 223 条来自 NCI⁃Nature 数据库、254 条来自 BioCarta 数据库、838 条来自 Reactome 数据库。 表 3 列举了 4 种方法中 对应的前 20 个最小的模块在 Pathway 上的富集结 果,从中可以看到融合了蛋白质复合体之后的 PPI 网络的模块,在 Pathway 上的富集程度比原始的模 块的 p⁃value 值要低,这说明模块内的蛋白质更多地 参与了同一条 Pathway,从而可以证明融合了蛋白质 复合体的模块更倾向于在同样的 Pathway 中发挥生 物作用,识别 Pathway 可以帮助人们进一步认识蛋 白分子之间相互作用的分子机理。 第 5 期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·707·
·708 智能系统学报 第11卷 表3 融合蛋白质复合体的模块与原始PPI模块的Pathway 细胞组件和分子功能3个方面进行分析。图3是不 富集(p-value) 同模块划分方法产生模块的分子功能的同质性在不 Table 3 Pathway enrichment of topological modules com- 同区间上的对比。 paring mixed protein complex with the original PPI network 0.30 ■K-means 0.25 IncreK-Means 0.20 K-Means IncreK-Means NMF IncreNMF 0.15 8.27×104 2.58×10-42 1.60x100 1.43×10-38 0.10 0.05 8.63×1041 5.23×104 2.63×1023 4.29×10-27 0 00a101-02a20303l40465050606-17n748a80.90-10 7.00×10-33 2.48×1040 4.15×1023 1.18×10-26 相似度 0.45 2.46×1030 4.16×10-34 2.89x102 7.79×1023 0.35 1.05×10-2 6.62×1025 3.12×102 8.00x1023 0.25 NMF 0.15 IncreNMF 3.09×10-9 5.38×1020 1.02×102 1.64×10-2 0.05 5.41×10-8 1.06x107 2.22×1020 6.98×10-18 000102203407 5.89x10~is 1.95×107 1.52×1016 5.22×1017 相似度 图3模块分子功能同质性 1.53×10~7 3.18×107 2.60x105 1.08×106 Fig.3 Molecular function homogeneity of module 1.72×10-16 4.47×107 6.42×1015 1.22×10-15 图3横坐标是同质性区间,纵坐标是该区间内 2.94×1015 1.59×106 3.75×104 8.31×10-5 的模块数量占所有模块数量的比率。不论是K 1.03×10-4 8.01×106 2.61×10B 2.61×10-14 Means还是NMF,融合了蛋白质复合体数据的模块 1.90x104 4.45×1015 2.68×10-B 6.34×1014 在分子功能的同质性方面要高于原始PPI得到的模 9.56x104 1.82×104 1.19x102 1.64×108 块。在K-Means算法中,融合了蛋白质复合体数据 2.54×1018 7.16×104 1.09×10" 6.62×10-13 的模块中同质性高于0.5的模块占15%,而原始 1.03×10-2 9.74×10-4 6.33×10-" 2.34×10-2 PPI模块同质性高于0.5的模块占11%:在NMF中, 2.11×10-2 1.33×103 1.32×10-0 1.02×10-1 融合了蛋白质复合体数据的模块中同质性高于0.5 的模块占13%,而原始PPI模块同质性高于0.5的 2.20×10-2 4.10×1013 2.66×10-10 2.26×101 模块占9.6%。 5.14×10-12 4.10×103 3.12×10~10 2.30×101 图4是不同模块划分方法产生模块的细胞组件 1.18×101 6.00x10B 4.02×1010 2.50x10-1" 同质性在不同区间上的对比。 2)蛋白质拓扑模块同质性 K-means 对每个模块使用最小的p-value对应的G0术 0.30 ■IncreK-Means 0.25 语或者Pathway作为其富集的对象,从而进一步发 0.20 现该模块中的蛋白质分子的功能。从统计学意义上 0.15 0.10 讲,p-value<0.01的G0术语及Pathway都可以作 0.05 0 为模块的富集对象。为了更好地衡量模块中的蛋白 000.10.1.220.50304044505.0606-0.7.70.808090.91.0 相似度 质在生物功能上发挥相同或相似功能的程度,使用 同质性去衡量,其计算方法如式(7)所示。同质性 0.35 NMF 更好地说明了一个模块内的蛋白在功能上的相似程 ■IncreNMF 0.25 度,同质性越高说明该模块中的蛋白质在生物功能 0.15 上更趋于一致性,也就是该模块具有很强的生物功 0.0 能。 0 00010.1-0202030304040.50506Q6-0707-08080.90.910 本文对比了融入蛋白质复合体数据之后PPI网 相似度 络划分得到的模块与原始PPI划分得到的模块之间 图4模块细胞组件同质性 的同质性的差别。G0术语同质性根据生物过程、 Fig.4 Cellular component homogeneity of module
表 3 融合蛋白质复合体的模块与原始 PPI 模块的 Pathway 富集(p⁃value) Table 3 Pathway enrichment of topological modules com⁃ paring mixed protein complex with the original PPI network K⁃Means IncreK⁃Means NMF IncreNMF 8.27×10 -41 2.58×10 -42 1.60×10 -30 1.43×10 -38 8.63×10 -41 5.23×10 -41 2.63×10 -23 4.29×10 -27 7.00×10 -33 2.48×10 -40 4.15×10 -23 1.18×10 -26 2.46×10 -30 4.16×10 -34 2.89×10 -22 7.79×10 -23 1.05×10 -22 6.62×10 -25 3.12×10 -22 8.00×10 -23 3.09×10 -19 5.38×10 -20 1.02×10 -21 1.64×10 -22 5.41×10 -18 1.06×10 -17 2.22×10 -20 6.98×10 -18 5.89×10 -18 1.95×10 -17 1.52×10 -16 5.22×10 -17 1.53×10 -17 3.18×10 -17 2.60×10 -15 1.08×10 -16 1.72×10 -16 4.47×10 -17 6.42×10 -15 1.22×10 -15 2.94×10 -15 1.59×10 -16 3.75×10 -14 8.31×10 -15 1.03×10 -14 8.01×10 -16 2.61×10 -13 2.61×10 -14 1.90×10 -14 4.45×10 -15 2.68×10 -13 6.34×10 -14 9.56×10 -14 1.82×10 -14 1.19×10 -12 1.64×10 -13 2.54×10 -13 7.16×10 -14 1.09×10 -11 6.62×10 -13 1.03×10 -12 9.74×10 -14 6.33×10 -11 2.34×10 -12 2.11×10 -12 1.33×10 -13 1.32×10 -10 1.02×10 -11 2.20×10 -12 4.10×10 -13 2.66×10 -10 2.26×10 -11 5.14×10 -12 4.10×10 -13 3.12×10 -10 2.30×10 -11 1.18×10 -11 6.00×10 -13 4.02×10 -10 2.50×10 -11 2) 蛋白质拓扑模块同质性 对每个模块使用最小的 p⁃value 对应的 GO 术 语或者 Pathway 作为其富集的对象,从而进一步发 现该模块中的蛋白质分子的功能。 从统计学意义上 讲,p⁃value < 0.01 的 GO 术语及 Pathway 都可以作 为模块的富集对象。 为了更好地衡量模块中的蛋白 质在生物功能上发挥相同或相似功能的程度,使用 同质性去衡量,其计算方法如式(7) 所示。 同质性 更好地说明了一个模块内的蛋白在功能上的相似程 度,同质性越高说明该模块中的蛋白质在生物功能 上更趋于一致性,也就是该模块具有很强的生物功 能。 本文对比了融入蛋白质复合体数据之后 PPI 网 络划分得到的模块与原始 PPI 划分得到的模块之间 的同质性的差别。 GO 术语同质性根据生物过程、 细胞组件和分子功能 3 个方面进行分析。 图 3 是不 同模块划分方法产生模块的分子功能的同质性在不 同区间上的对比。 图 3 模块分子功能同质性 Fig.3 Molecular function homogeneity of module 图 3 横坐标是同质性区间,纵坐标是该区间内 的模块数量占所有模块数量的比率。 不论是 K⁃ Means 还是 NMF,融合了蛋白质复合体数据的模块 在分子功能的同质性方面要高于原始 PPI 得到的模 块。 在 K⁃Means 算法中,融合了蛋白质复合体数据 的模块中同质性高于 0. 5 的模块占 15%,而原始 PPI 模块同质性高于 0.5 的模块占 11%;在 NMF 中, 融合了蛋白质复合体数据的模块中同质性高于 0.5 的模块占 13%,而原始 PPI 模块同质性高于 0.5 的 模块占 9.6%。 图 4 是不同模块划分方法产生模块的细胞组件 同质性在不同区间上的对比。 图 4 模块细胞组件同质性 Fig.4 Cellular component homogeneity of module ·708· 智 能 系 统 学 报 第 11 卷
第5期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·709. 在K-Means算法中,融合了蛋白质复合体数据 模块作为功能模块,以便用于蛋白网络分子作用机 的模块中细胞组件同质性高于0.5的模块占54.8%, 理的研究。 而原始PPI模块同质性高于0.5的模块占48.9%:在 0.25 NMF中,融合了蛋白质复合体数据的模块中细胞组 0.20 K-means 0.15 ■IncreK-Means 件同质性高于0.5的模块占35%,而原始PPI模块 0.10 同质性高于0.5的模块占31.5%。 0.05 0 图5是不同模块划分方法产生模块的生物过程 000101-0202-03a30404-0.505-0606070,7-080.R090-10 相似度 同质性在不同区间上的对比。 NMF 0.35 ■IncreNMF ■K-neans 0.25 ■IncreK-Means 0.30 0.15 0.25 0.20 0.05 0.15 L 0.10 0000.10.1a202030.5404505060670.7080.&090.910 0.05 相似度 0101202-030304040.505-06060707-80-n90-10 图6模块Pathway同质性 相似度 ■NMF Fig.6 Pathway homogeneity of module IncreNMF 0.45 0.35 3 结束语 0.25 0.15 本文将蛋白质复合体数据融合到PPI网络中 0.05 (例如:String9蛋白质相互作用数据库),然后使用 .00101-0202-33-044.505-a606-077-08a8-l90-10 相似度 K-Means和NMF2种经典的算法分别对原始网络和 融合后的网络进行社团划分,从而得到多个蛋白质 图5模块生物过程同质性 模块;这些模块通过在GO和Pathway2:个方面的富 Fig.5 Biological process homogeneity of module 集分析和同质性分析,实验结果证明融合蛋白质复 在K-Means算法中,融合了蛋白质复合体数据 合体后得到了生物功能更强的模块:这也在一定程 的模块中生物过程同质性高于0.5的模块占24.1%, 度上说明引入蛋白质复合体数据弥补了PPI网络数 而原始PPI模块同质性高于0.5的模块占17.7%: 据不完整并且噪声多等缺点。新划分的模块在G0 在NMF中,融合了蛋白质复合体数据的模块中生物 和Pathway2个方面都展现了良好的生物学统计特 过程同质性高于0.5的模块占15.7%,而原始PPI 性,这说明结合多方面的数据,有助于发现功能更强 模块同质性高于0.5的模块占11.3%。 的蛋白质模块。 图6是不同模块划分方法产生模块的Pathway 鉴于目前的研究,下一步工作计划将基因表达 同质性在不同区间上的对比。 数据融入到PPI网络中,然后根据不同的基因在不 在K-Means算法中,融合了蛋白质复合体数据 同组织上的表达情况来辅助PPI网络进行功能模块 的模块中Pathway同质性高于0.5的模块占22.3%, 检测。另一方面,疾病-症状关系数据(OMIM)和疾 而原始PPI模块同质性高于0.5的模块占18.7%: 病-基因关系数据(disease-connect)的获取技术发展 在NMF中,融合了蛋白质复合体数据的模块中 比较迅速并且具有较高的可信度,因此可以将这些 Pathway同质性高于0.5的模块占19%,而原始PPI 数据融入到PPI网络中去发现与疾病或症状相关的 模块同质性高于0.5的模块占12%。 功能模块,从而为疾病机理研究和新药研发提供一 实验结果说明,在G0术语和Pathway2.个生物 个新的思路。 度量方面,不论是从最小富集角度还是从模块同质 性角度,都可以发现融合了蛋白质复合体后的PPI 参考文献: 得到的模块具有更强的生物功能,因此可以将这些 [1]BARABASI A L.GULBAHCE N,LOSCALZO J.Network
在 K⁃Means 算法中,融合了蛋白质复合体数据 的模块中细胞组件同质性高于 0.5 的模块占54.8%, 而原始 PPI 模块同质性高于 0.5 的模块占48.9%;在 NMF 中,融合了蛋白质复合体数据的模块中细胞组 件同质性高于 0.5 的模块占 35%,而原始 PPI 模块 同质性高于 0.5 的模块占31.5%。 图 5 是不同模块划分方法产生模块的生物过程 同质性在不同区间上的对比。 图 5 模块生物过程同质性 Fig.5 Biological process homogeneity of module 在 K⁃Means 算法中,融合了蛋白质复合体数据 的模块中生物过程同质性高于 0.5 的模块占24.1%, 而原始 PPI 模块同质性高于 0.5 的模块占 17.7%; 在 NMF 中,融合了蛋白质复合体数据的模块中生物 过程同质性高于 0.5 的模块占 15.7%,而原始 PPI 模块同质性高于 0.5 的模块占 11.3%。 图 6 是不同模块划分方法产生模块的 Pathway 同质性在不同区间上的对比。 在 K⁃Means 算法中,融合了蛋白质复合体数据 的模块中 Pathway 同质性高于 0.5 的模块占 22.3%, 而原始 PPI 模块同质性高于 0.5 的模块占 18.7%; 在 NMF 中,融合了蛋白质复合体数据的模块中 Pathway 同质性高于 0.5 的模块占 19%,而原始 PPI 模块同质性高于 0.5 的模块占 12%。 实验结果说明,在 GO 术语和 Pathway2 个生物 度量方面,不论是从最小富集角度还是从模块同质 性角度,都可以发现融合了蛋白质复合体后的 PPI 得到的模块具有更强的生物功能,因此可以将这些 模块作为功能模块,以便用于蛋白网络分子作用机 理的研究。 图 6 模块 Pathway 同质性 Fig.6 Pathway homogeneity of module 3 结束语 本文将蛋白质复合体数据融合到 PPI 网络中 (例如:String 9 蛋白质相互作用数据库),然后使用 K⁃Means 和 NMF 2 种经典的算法分别对原始网络和 融合后的网络进行社团划分,从而得到多个蛋白质 模块;这些模块通过在 GO 和 Pathway2 个方面的富 集分析和同质性分析,实验结果证明融合蛋白质复 合体后得到了生物功能更强的模块;这也在一定程 度上说明引入蛋白质复合体数据弥补了 PPI 网络数 据不完整并且噪声多等缺点。 新划分的模块在 GO 和 Pathway 2 个方面都展现了良好的生物学统计特 性,这说明结合多方面的数据,有助于发现功能更强 的蛋白质模块。 鉴于目前的研究,下一步工作计划将基因表达 数据融入到 PPI 网络中,然后根据不同的基因在不 同组织上的表达情况来辅助 PPI 网络进行功能模块 检测。 另一方面,疾病⁃症状关系数据(OMIM)和疾 病⁃基因关系数据(disease⁃connect)的获取技术发展 比较迅速并且具有较高的可信度,因此可以将这些 数据融入到 PPI 网络中去发现与疾病或症状相关的 功能模块,从而为疾病机理研究和新药研发提供一 个新的思路。 参考文献: [1] BARABÁSI A L, GULBAHCE N, LOSCALZO J. Network 第 5 期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·709·
·710 智能系统学报 第11卷 medicine:a network-based approach to human disease[J]. [10]RUEPP A,WAEGELE B,LECHNER M,et al.CORUM: Nature reviews genetics,2011,12(1):56-68. the comprehensive resource of mammalian protein comple- [2]BADER G D,HOGUE C W V.An automated method for xes-2009[J].Nucleic acids research,2010,38 (S1): finding molecular complexes in large protein interaction net- D497-D501. works[J].BMC bioinformatics,2003,4:2. [11]ZHANG Z Y.Community structure detection in complex [3]ALTAF-UL-AMIN M,SHINBO Y,MIHARA K,et al.De- networks with partial background information J].EPL velopment and implementation of an algorithm for detection europhysics letters),2013,101(4):48005. of protein complexes in large interaction networks[J].BMC [12]ASHBURNER M,BALL C A,BLAKE J A,et al.Gene bioinformatics,2006,7:207. Ontology:tool for the unification of biology[].Nature ge- [4]KENLEY E C,CHO Y R.Detecting protein complexes and netics,2000,25(1)):25-29. functional modules from protein interaction networks:A [13]SCHAEFER C F,ANTHONY K,KRUPA S,et al.PID: graph entropy approach[]].Proteomics,2011,11(19): the pathway interaction database[J].Nucleic acids re- 3835-3844. search,2009,37(S1):D674-D679 [5]MENCHE J,SHARMA A,KITSAK M,et al.Uncovering 作者简介: disease-disease relationships through the incomplete interac- 刘光明.男,1986年生,博士研究 tome[JJ.Science,.2015,347(6224):1257601 生,主要研究方向为复杂网络、数据挖 [6]NEWMAN M E J.Fast algorithm for detecting community 掘、蛋白质功能模块。 structure in networks[J].Physical review e,2004,69(6): 066133. [7]WAGSTAFF K,CARDIE C,ROGERS S,et al.Constrain- ed k-means clustering with background knowledge [C]// 杨柳.女,1980年生,博士研究生 Proceedings of the Eighteenth International Conference on 主要研究方向为机器学习、数据挖掘。 Machine Learning.San Francisco,CA,USA:Morgan Kauf- mann Publishers Inc.,2001:577-584. [8]LEE DD,SEUNG H S.Learning the parts of objects by non-negative matrix factorization J].Nature,1999,401 (6755):788-791 高盼盼,女,1989年生,硕士研究 [9]TURANALP M E,CAN T.Discovering functional interac- 生,主要研究方向为基于药物副作用的 tion patterns in protein-protein interaction networks[J]. 分子机理的研究、数据挖掘。 BMC bioinformatics,2008,9:276
medicine: a network⁃based approach to human disease[ J]. Nature reviews genetics, 2011, 12(1): 56⁃68. [2]BADER G D, HOGUE C W V. An automated method for finding molecular complexes in large protein interaction net⁃ works[J]. BMC bioinformatics, 2003, 4: 2. [3]ALTAF⁃UL⁃AMIN M, SHINBO Y, MIHARA K, et al. De⁃ velopment and implementation of an algorithm for detection of protein complexes in large interaction networks[ J]. BMC bioinformatics, 2006, 7: 207. [4]KENLEY E C, CHO Y R. Detecting protein complexes and functional modules from protein interaction networks: A graph entropy approach [ J]. Proteomics, 2011, 11 ( 19): 3835⁃3844. [5]MENCHE J, SHARMA A, KITSAK M, et al. Uncovering disease⁃disease relationships through the incomplete interac⁃ tome[J]. Science, 2015, 347(6224): 1257601. [6]NEWMAN M E J. Fast algorithm for detecting community structure in networks[J]. Physical review e, 2004, 69(6): 066133. [7]WAGSTAFF K, CARDIE C, ROGERS S, et al. Constrain⁃ ed k⁃means clustering with background knowledge [ C] / / Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kauf⁃ mann Publishers Inc., 2001: 577⁃584. [8]LEE D D, SEUNG H S. Learning the parts of objects by non⁃negative matrix factorization [ J]. Nature, 1999, 401 (6755): 788⁃791. [9]TURANALP M E, CAN T. Discovering functional interac⁃ tion patterns in protein⁃protein interaction networks [ J ]. BMC bioinformatics, 2008, 9: 276. [10]RUEPP A, WAEGELE B, LECHNER M, et al. CORUM: the comprehensive resource of mammalian protein comple⁃ xes⁃2009[ J]. Nucleic acids research, 2010, 38 ( S1): D497⁃D501. [11] ZHANG Z Y. Community structure detection in complex networks with partial background information [ J ]. EPL (europhysics letters), 2013, 101(4): 48005. [12]ASHBURNER M, BALL C A, BLAKE J A, et al. Gene Ontology: tool for the unification of biology[J]. Nature ge⁃ netics, 2000, 25(1): 25⁃29. [13]SCHAEFER C F, ANTHONY K, KRUPA S, et al. PID: the pathway interaction database [ J]. Nucleic acids re⁃ search, 2009, 37(S 1): D674⁃D679. 作者简介: 刘光明,男,1986 年生,博士研究 生,主要研究方向为复杂网络、数据挖 掘、蛋白质功能模块。 杨柳,女,1980 年生,博士研究生, 主要研究方向为机器学习、数据挖掘。 高盼盼,女,1989 年生,硕士研究 生,主要研究方向为基于药物副作用的 分子机理的研究、数据挖掘。 ·710· 智 能 系 统 学 报 第 11 卷