【脑认知基础】融合蛋白质复合体的人类蛋白互作网络功能模块发现

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：2.06MB

第11卷第5期智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201603034 网络出版地址：htp:/ww.cnki.net/kcms/detail/23.1538.TP.20160926.0920.002.html 融合蛋白质复合体的人类蛋白互作网络功能模块发现刘光明，杨柳，高盼盼，王邦军，周雪忠，于剑 (北京交通大学计算机与信息技术学院，北京100044) 摘要：人类蛋白互作网络中功能模块的检测是目前网络医学研究的一个热点问题。好的功能模块可以帮助我们更好地去理解和认识蛋白质相互作用的分子机理。近年来的一些研究大多数是基于复杂网络中的拓扑模块发现算法对蛋白质相互作用网铬进行模块划分，然后对其进行生物学上的功能研究。由于PPI网络中的蛋白之间相互作用的数据获取的不完整，相关研究表明目前人类只获得了人类蛋白之间相互作用数据的10%~20%，其中已经获取的数据中还包含着一些噪声，这就导致基于拓扑结构的社团检测算法的精度降低。为了克服这个问题，本文将蛋白质复合体数据融人到模块检测算法中，分别使用K-Means和NMF算法对PPI网络进行模块划分，然后从基因本体和通路2个方面对检测到的模块进行功能分析。实验结果表明融合了蛋白质复合体的PPI网络更容易得到具有生物学意义的功能模块。关键词：蛋白质相互作用网络：蛋白质复合体：功能模块：模块检测：基因本体：通路中图分类号：TP391文献标志码：A文章编号：1673-4785(2016)05-0703-08 中文引用格式：刘光明，杨柳，高盼盼，等.融合蛋白质复合体的人类蛋白互作网络功能模块发现[J].智能系统学报，2016,11(5)： 703-710. 英文引用格式：LIU Guangming,YANG Liu,GAO Panpan,etal.The functional module detection of PPI network by incorporating protein complex data [J].CAAI transactions on intelligent systems,2016,11(5):703-710. The functional module detection of PPI network by incorporating protein complex data LIU Guangming,YANG Liu,GAO Panpan,WANG Bangjun,ZHOU Xuezhong,YU Jian (School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China) Abstract:Functional module detection of protein-protein interaction (PPI)network has been a major challenge i- dentified recently by medical researchers.It allows understanding and recognizing the interaction between proteins in an efficient manner.In this study,topological module detection methods,popular in the field of complex protein networks,were applied to the PPI network to obtain these modules,followed by a biological analysis of the topolog- ical modules.The interaction mechanism was observed for only 10%~20%of the protein pairs because of incom- plete PPI data.Furthermore,the data for noise interaction always existed in PPI;therefore,the number of biologi- cally precise modules decreased according to topological community-detection methods.In this study,the protein complex data was incorporated into the PPI network to identify more biologically precise protein modules.K-Means clustering and non-negative matrix factorization algorithms were used to segregate the PPI network into different modules.Gene ontology (GO)and pathway analysis were conducted for each of these modules to quantify their bio- logical significance.The results of the experiments showed that the modules detected by combining the protein com- plex and PPI network demonstrate a higher tendency to achieve larger homogeneity values compared with those de- tected using GO and pathway analysis. Keywords:PPI;protein complex;functional module;module detection;gene ontology;pathway 蛋白质分子是通过与其他蛋白质分子相互作用量的蛋白质相互作用数据被挖掘出来，从而形成蛋发挥功能的，近年来随着高通量技术的快速发展，海白质相互作用网络(protein-protein interaction,PPI)。网络医学近年来在计算医学领域发展迅速，PPI网收稿日期：2016-03-18.网络出版日期：2016-09-26 络中的蛋白模块往往具有特定的生物功能。基金项目：国家自然科学基金项目(61105055,81230086). 通信作者：刘光明.E-mail:guangmingliu@bjtu.cd.cn Barabasi等认为疾病的产生是由于PPI中某个局部

第１１卷第５期智能系统学报Ｖｏｌ．１１ №．５２０１６年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０３４网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０９２６．０９２０．００２．ｈｔｍｌ融合蛋白质复合体的人类蛋白互作网络功能模块发现刘光明，杨柳，高盼盼，王邦军，周雪忠，于剑（北京交通大学计算机与信息技术学院，北京１０００４４）摘要：人类蛋白互作网络中功能模块的检测是目前网络医学研究的一个热点问题。好的功能模块可以帮助我们更好地去理解和认识蛋白质相互作用的分子机理。近年来的一些研究大多数是基于复杂网络中的拓扑模块发现算法对蛋白质相互作用网络进行模块划分，然后对其进行生物学上的功能研究。由于ＰＰＩ网络中的蛋白之间相互作用的数据获取的不完整，相关研究表明目前人类只获得了人类蛋白之间相互作用数据的１０％～２０％，其中已经获取的数据中还包含着一些噪声，这就导致基于拓扑结构的社团检测算法的精度降低。为了克服这个问题，本文将蛋白质复合体数据融入到模块检测算法中，分别使用Ｋ⁃Ｍｅａｎｓ和ＮＭＦ算法对ＰＰＩ网络进行模块划分，然后从基因本体和通路２个方面对检测到的模块进行功能分析。实验结果表明融合了蛋白质复合体的ＰＰＩ网络更容易得到具有生物学意义的功能模块。关键词：蛋白质相互作用网络；蛋白质复合体；功能模块；模块检测；基因本体；通路中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０５⁃０７０３⁃０８中文引用格式：刘光明，杨柳，高盼盼，等．融合蛋白质复合体的人类蛋白互作网络功能模块发现［Ｊ］．智能系统学报，２０１６，１１（５）：７０３⁃７１０．英文引用格式：ＬＩＵＧｕａｎｇｍｉｎｇ，ＹＡＮＧＬｉｕ，ＧＡＯＰａｎｐａｎ，ｅｔａｌ．ＴｈｅｆｕｎｃｔｉｏｎａｌｍｏｄｕｌｅｄｅｔｅｃｔｉｏｎｏｆＰＰＩｎｅｔｗｏｒｋｂｙｉｎｃｏｒｐｏｒａｔｉｎｇｐｒｏｔｅｉｎｃｏｍｐｌｅｘｄａｔａ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（５）：７０３⁃７１０．ＴｈｅｆｕｎｃｔｉｏｎａｌｍｏｄｕｌｅｄｅｔｅｃｔｉｏｎｏｆＰＰＩｎｅｔｗｏｒｋｂｙｉｎｃｏｒｐｏｒａｔｉｎｇｐｒｏｔｅｉｎｃｏｍｐｌｅｘｄａｔａＬＩＵＧｕａｎｇｍｉｎｇ，ＹＡＮＧＬｉｕ，ＧＡＯＰａｎｐａｎ，ＷＡＮＧＢａｎｇｊｕｎ，ＺＨＯＵＸｕｅｚｈｏｎｇ，ＹＵＪｉａｎ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＢｅｉｊｉｎｇＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００４４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｆｕｎｃｔｉｏｎａｌｍｏｄｕｌｅｄｅｔｅｃｔｉｏｎｏｆｐｒｏｔｅｉｎ⁃ｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎ（ＰＰＩ）ｎｅｔｗｏｒｋｈａｓｂｅｅｎａｍａｊｏｒｃｈａｌｌｅｎｇｅｉ⁃ ｄｅｎｔｉｆｉｅｄｒｅｃｅｎｔｌｙｂｙｍｅｄｉｃａｌｒｅｓｅａｒｃｈｅｒｓ．Ｉｔａｌｌｏｗｓｕｎｄｅｒｓｔａｎｄｉｎｇａｎｄｒｅｃｏｇｎｉｚｉｎｇｔｈｅｉｎｔｅｒａｃｔｉｏｎｂｅｔｗｅｅｎｐｒｏｔｅｉｎｓｉｎａｎｅｆｆｉｃｉｅｎｔｍａｎｎｅｒ．Ｉｎｔｈｉｓｓｔｕｄｙ，ｔｏｐｏｌｏｇｉｃａｌｍｏｄｕｌｅｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｓ，ｐｏｐｕｌａｒｉｎｔｈｅｆｉｅｌｄｏｆｃｏｍｐｌｅｘｐｒｏｔｅｉｎｎｅｔｗｏｒｋｓ，ｗｅｒｅａｐｐｌｉｅｄｔｏｔｈｅＰＰＩｎｅｔｗｏｒｋｔｏｏｂｔａｉｎｔｈｅｓｅｍｏｄｕｌｅｓ，ｆｏｌｌｏｗｅｄｂｙａｂｉｏｌｏｇｉｃａｌａｎａｌｙｓｉｓｏｆｔｈｅｔｏｐｏｌｏｇ⁃ ｉｃａｌｍｏｄｕｌｅｓ．Ｔｈｅｉｎｔｅｒａｃｔｉｏｎｍｅｃｈａｎｉｓｍｗａｓｏｂｓｅｒｖｅｄｆｏｒｏｎｌｙ１０％～２０％ｏｆｔｈｅｐｒｏｔｅｉｎｐａｉｒｓｂｅｃａｕｓｅｏｆｉｎｃｏｍ⁃ ｐｌｅｔｅＰＰＩｄａｔａ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｔｈｅｄａｔａｆｏｒｎｏｉｓｅｉｎｔｅｒａｃｔｉｏｎａｌｗａｙｓｅｘｉｓｔｅｄｉｎＰＰＩ；ｔｈｅｒｅｆｏｒｅ，ｔｈｅｎｕｍｂｅｒｏｆｂｉｏｌｏｇｉ⁃ ｃａｌｌｙｐｒｅｃｉｓｅｍｏｄｕｌｅｓｄｅｃｒｅａｓｅｄａｃｃｏｒｄｉｎｇｔｏｔｏｐｏｌｏｇｉｃａｌｃｏｍｍｕｎｉｔｙ⁃ｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｓ．Ｉｎｔｈｉｓｓｔｕｄｙ，ｔｈｅｐｒｏｔｅｉｎｃｏｍｐｌｅｘｄａｔａｗａｓｉｎｃｏｒｐｏｒａｔｅｄｉｎｔｏｔｈｅＰＰＩｎｅｔｗｏｒｋｔｏｉｄｅｎｔｉｆｙｍｏｒｅｂｉｏｌｏｇｉｃａｌｌｙｐｒｅｃｉｓｅｐｒｏｔｅｉｎｍｏｄｕｌｅｓ．Ｋ⁃Ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｎｄｎｏｎ⁃ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｓｗｅｒｅｕｓｅｄｔｏｓｅｇｒｅｇａｔｅｔｈｅＰＰＩｎｅｔｗｏｒｋｉｎｔｏｄｉｆｆｅｒｅｎｔｍｏｄｕｌｅｓ．Ｇｅｎｅｏｎｔｏｌｏｇｙ（ＧＯ）ａｎｄｐａｔｈｗａｙａｎａｌｙｓｉｓｗｅｒｅｃｏｎｄｕｃｔｅｄｆｏｒｅａｃｈｏｆｔｈｅｓｅｍｏｄｕｌｅｓｔｏｑｕａｎｔｉｆｙｔｈｅｉｒｂｉｏ⁃ ｌｏｇｉｃａｌｓｉｇｎｉｆｉｃａｎｃｅ．Ｔｈｅｒｅｓｕｌｔｓｏｆｔｈｅｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｅｄｔｈａｔｔｈｅｍｏｄｕｌｅｓｄｅｔｅｃｔｅｄｂｙｃｏｍｂｉｎｉｎｇｔｈｅｐｒｏｔｅｉｎｃｏｍ⁃ ｐｌｅｘａｎｄＰＰＩｎｅｔｗｏｒｋｄｅｍｏｎｓｔｒａｔｅａｈｉｇｈｅｒｔｅｎｄｅｎｃｙｔｏａｃｈｉｅｖｅｌａｒｇｅｒｈｏｍｏｇｅｎｅｉｔｙｖａｌｕｅｓｃｏｍｐａｒｅｄｗｉｔｈｔｈｏｓｅｄｅ⁃ ｔｅｃｔｅｄｕｓｉｎｇＧＯａｎｄｐａｔｈｗａｙａｎａｌｙｓｉｓ．Ｋｅｙｗｏｒｄｓ：ＰＰＩ；ｐｒｏｔｅｉｎｃｏｍｐｌｅｘ；ｆｕｎｃｔｉｏｎａｌｍｏｄｕｌｅ；ｍｏｄｕｌｅｄｅｔｅｃｔｉｏｎ；ｇｅｎｅｏｎｔｏｌｏｇｙ；ｐａｔｈｗａｙ收稿日期：２０１６⁃０３⁃１８．网络出版日期：２０１６⁃０９⁃２６．基金项目：国家自然科学基金项目（６１１０５０５５，８１２３００８６）．通信作者：刘光明．Ｅ⁃ｍａｉｌ：ｇｕａｎｇｍｉｎｇｌｉｕ＠ｂｊｔｕ．ｅｄｕ．ｃｎ．蛋白质分子是通过与其他蛋白质分子相互作用发挥功能的，近年来随着高通量技术的快速发展，海量的蛋白质相互作用数据被挖掘出来，从而形成蛋白质相互作用网络（ｐｒｏｔｅｉｎ⁃ｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎ，ＰＰＩ）。网络医学近年来在计算医学领域发展迅速，ＰＰＩ网络中的蛋白模块往往具有特定的生物功能。Ｂａｒａｂａｓｉ等认为疾病的产生是由于ＰＰＩ中某个局部

·704 智能系统学报第11卷的蛋白链接关系发生了紊乱[】，并进一步提出了拓表示顶点集、E表示边集。矩阵A表示邻接矩阵，A 扑模块、功能模块和疾病模块是存在相同的共有蛋的定义为白成员的。大家普遍认为在拓扑结构上链接比较紧 1 (:,y)∈E 密的蛋白在生物功能上也更加相似。基于这个假 Ag20, (1) 其他设，为了可以精确地寻找到与疾病相关的蛋白模块，式中：A,表示节点i和节点j有连边，：和表示节需要先从PPI网络中检测出具有比较显著生物意义点i和节点j。的功能模块。目前功能模块的检测方法主要是使用复杂网络 1.2模块检测算法模块目前还没有一个统一的定义，大家对模块领域中的社团划分方法将PPI网络划分为多个拓扑模块，然后对这些拓扑模块再进行生物功能的检测。的共识是：模块内部的边比较紧密而模块之间的边 Bader等提出了一种叫做MCODE的方法，该方法首要尽量稀硫[6。本文主要使用K均值和非负矩阵先根据节点的邻居对每一个节点赋一个权重，然后分解2种算法对PPI网络进行模块检测。选择权重较大的节点作为种子节点进行社团划 1)K均值) 分)。该方法可以发现重叠的蛋白质功能模块。 K均值是一个比较经典的聚类算法。给定一个 DPClus等使用类似的方法对网络中的每条边赋权含有N个节点的数据集{x1,x2,…,x},其中每个节重，然后选择权重最大的边的节点作为初始种子节点的维度是D维，将该数据集划分为k个类。每一点进行社团划分I)。Edward等提出了一种基于熵类的类中心表示为44，为每一个节点定义一个指示的方法进行功能模块的检测，该方法首先随机选择向量rt,其物理含义是如果节点n的类标号为k,则一个节点作为种子节点，然后将该种子节点和其周值为1：否则为0。围的邻居作为一个种子类，通过嫡的减少来移除边 K均值算法的主要思想就是所有样本点到各自界点和增加新节点形成蛋白模块，直到遍历完网络的类中心的距离最短，其目标函数为中的所有节点4。 miW=立会rlx-4I (2) 上述功能模块划分算法主要是根据PPI中的链接关系，也就是只找到了在拓扑结构上链接紧密的根据式(2)可以得到类中心的迭代公式为模块。由于目前人类所获取的蛋白相互作用数据只 ∑rwx 获取了实际相互作用的10%~20%[)，所以PPI网 4g三 ∑.re (3) 络是比较稀疏的，使用传统的复杂网络中的社团划其代表的物理含义是第k个类中所有样本点的分方法并不能保证精确地找到具有某种生物功能的均值作为该类的类中心，然后其他节点根据与该类模块。蛋白质复合体(protein complex)是2个及其中心的距离来判断是不是属于这个类。通过不停地以上的蛋白相互作用而形成的复合物，一般分为结迭代，直到所有的类中心不在改变为止。构型的蛋白质复合体和功能型蛋白质复合体2大 2)非负矩阵分解类。目前关于蛋白质复合体的数据已经可以方便地非负矩阵分解最早是由Lee和Seung8)提出获取，因此可以考虑将蛋白质复合体的数据融合到 PPI网络中，从而可以提高功能模块的发现精度。的。若一个矩阵其所有的元素没有负数，这样的矩本文首先将蛋白质复合体数据融合到PPI网络阵叫做非负矩阵。对一个n×m的非负矩阵X,其行中，然后使用K均值(K-Means)和非负矩阵分解向量代表特征，列向量代表样本。非负矩阵分解的 (non-negative matrix factorization,NMF)2种算法对任务就是把X分解为两个非负矩阵使得X≈FG, 融合后的数据进行模块划分，针对得到的模块进行其中F是一个n×k的矩阵，G是mxk的矩阵(k为基因本体(gene ontolog,GO)和通路(pathway)富集类的个数)。其目标函数为分析并进一步计算模块的G0同质性。 minJ=IX-FGT 2 (4) 式中：G为最后的划分矩阵。F和G的迭代规则社团划分及模块生物学分析如下： 1.1PPI网络的表示 (XG). Ft=F PPI网可以表示为一个无向无权图，其中V (FGG)

的蛋白链接关系发生了紊乱［１］，并进一步提出了拓扑模块、功能模块和疾病模块是存在相同的共有蛋白成员的。大家普遍认为在拓扑结构上链接比较紧密的蛋白在生物功能上也更加相似。基于这个假设，为了可以精确地寻找到与疾病相关的蛋白模块，需要先从ＰＰＩ网络中检测出具有比较显著生物意义的功能模块。目前功能模块的检测方法主要是使用复杂网络领域中的社团划分方法将ＰＰＩ网络划分为多个拓扑模块，然后对这些拓扑模块再进行生物功能的检测。Ｂａｄｅｒ等提出了一种叫做ＭＣＯＤＥ的方法，该方法首先根据节点的邻居对每一个节点赋一个权重，然后选择权重较大的节点作为种子节点进行社团划分［２］。该方法可以发现重叠的蛋白质功能模块。ＤＰＣｌｕｓ等使用类似的方法对网络中的每条边赋权重，然后选择权重最大的边的节点作为初始种子节点进行社团划分［３］。Ｅｄｗａｒｄ等提出了一种基于熵的方法进行功能模块的检测，该方法首先随机选择一个节点作为种子节点，然后将该种子节点和其周围的邻居作为一个种子类，通过熵的减少来移除边界点和增加新节点形成蛋白模块，直到遍历完网络中的所有节点［４］。上述功能模块划分算法主要是根据ＰＰＩ中的链接关系，也就是只找到了在拓扑结构上链接紧密的模块。由于目前人类所获取的蛋白相互作用数据只获取了实际相互作用的１０％～２０％［５］，所以ＰＰＩ网络是比较稀疏的，使用传统的复杂网络中的社团划分方法并不能保证精确地找到具有某种生物功能的模块。蛋白质复合体（ｐｒｏｔｅｉｎｃｏｍｐｌｅｘ）是２个及其以上的蛋白相互作用而形成的复合物，一般分为结构型的蛋白质复合体和功能型蛋白质复合体２大类。目前关于蛋白质复合体的数据已经可以方便地获取，因此可以考虑将蛋白质复合体的数据融合到ＰＰＩ网络中，从而可以提高功能模块的发现精度。本文首先将蛋白质复合体数据融合到ＰＰＩ网络中，然后使用Ｋ均值（Ｋ⁃Ｍｅａｎｓ）和非负矩阵分解（ｎｏｎ⁃ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ，ＮＭＦ）２种算法对融合后的数据进行模块划分，针对得到的模块进行基因本体（ｇｅｎｅｏｎｔｏｌｏｇｙ，ＧＯ）和通路（ｐａｔｈｗａｙ）富集分析并进一步计算模块的ＧＯ同质性。１社团划分及模块生物学分析１．１ＰＰＩ网络的表示ＰＰＩ网络可以表示为一个无向无权图，其中Ｖ表示顶点集、Ｅ表示边集。矩阵Ａ表示邻接矩阵，Ａ的定义为Ａｉｊ＝１，０，（ｖｉ，ｖｊ） ∈ Ｅ其他 { （１）式中：Ａｉｊ表示节点ｉ和节点ｊ有连边，ｖｉ和ｖｊ表示节点ｉ和节点ｊ。１．２模块检测算法模块目前还没有一个统一的定义，大家对模块的共识是：模块内部的边比较紧密而模块之间的边要尽量稀疏［６］。本文主要使用Ｋ均值和非负矩阵分解２种算法对ＰＰＩ网络进行模块检测。１）Ｋ均值［７］Ｋ均值是一个比较经典的聚类算法。给定一个含有Ｎ个节点的数据集ｘ１，ｘ２，…，ｘｎ { } ，其中每个节点的维度是Ｄ维，将该数据集划分为ｋ个类。每一类的类中心表示为 μｋ，为每一个节点定义一个指示向量ｒｎｋ，其物理含义是如果节点ｎ的类标号为ｋ，则值为１；否则为０。Ｋ均值算法的主要思想就是所有样本点到各自的类中心的距离最短，其目标函数为ｍｉｎＪ＝ ∑ Ｎｎ＝１∑ Ｋｋ＝１ｒｎｋ‖ｘｎ－ｕｋ‖ ２（２）根据式（２）可以得到类中心的迭代公式为 μｋ＝ ∑ｎｒｎｋｘｎ ∑ｎｒｎｋ（３）其代表的物理含义是第ｋ个类中所有样本点的均值作为该类的类中心，然后其他节点根据与该类中心的距离来判断是不是属于这个类。通过不停地迭代，直到所有的类中心不在改变为止。２）非负矩阵分解非负矩阵分解最早是由Ｌｅｅ和Ｓｅｕｎｇ［８］提出的。若一个矩阵其所有的元素没有负数，这样的矩阵叫做非负矩阵。对一个ｎ×ｍ的非负矩阵Ｘ，其行向量代表特征，列向量代表样本。非负矩阵分解的任务就是把Ｘ分解为两个非负矩阵使得Ｘ≈ＦＧＴ，其中Ｆ是一个ｎ×ｋ的矩阵，Ｇ是ｍ×ｋ的矩阵（ｋ为类的个数）。其目标函数为ｍｉｎＪ＝ ‖Ｘ－ＦＧＴ‖２（４）式中：Ｇ为最后的划分矩阵。Ｆ和Ｇ的迭代规则如下：Ｆｉｋ＝Ｆｉｋ（ＸＧ）ｉｋ（ＦＧＴＧ）ｉｋ ·７０４· 智能系统学报第１１卷

第5期刘光明，等：融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·705. (X'F)a 蛋白质复合体是具有相同功能的蛋白质高度交互的 Ga=Ga(GFTF) (5) 集合，具有较强的生物特性。而蛋白质复合体本身当误差小于某个阈值a或达到最大迭代次数时是PPI的一部分，因此将蛋白质复合体数据引入到算法终止，F矩阵描述了网络中节点隶属于某个社 PPI中，可以弥补其相互作用数据少并且存在噪声区的概率。的缺陷。本文提取了1653个与人类相关的蛋白质 1.3模块的富集分析复合体数据，并且形成了31550条蛋白质相互作用为了确定每一个模块具体的生物功能，对每个数据。模块分别进行G0和Pathway富集分析。每个模块 22融合蛋白质复合体的PPI网络模块检测会对所有的G0术语或者Pathway进行分析，并且将从蛋白质复合体数据中抽取的31550条蛋返回具有最小P-value的GO术语或Pathway表示模白质相互作用数据融入到PPI网络中，从而在一定块中的蛋白质在该G0术语或者Pathway中出现了程度上弥补了PPI数据不足的缺点。由于从蛋白质富集，即该G0术语描述了这个模块的功能或者这复合体数据中抽取的这些数据具有很高的精确度，个模块中的蛋白共同参与了该Pathway。P-value的融入这些数据后可以在一定程度上减少PPI中的噪计算为声数据对后续分析的影响。主要是将抽取到的蛋白质之间的相互作用数据 P(X=x>q)=】 ,（)() (6) =g () 融入到从String9提取的蛋白网络对应的邻接矩阵式中：k代表模块中蛋白的数量，9是模块中被注解 A中，具体融入方法参照Zhang等提出的方式，的蛋白质数量，m是整个网络中的蛋白质的数量。将从蛋白复合体中提取出的蛋白质互作数据集合记 1.4模块的同质性分析为C,然后通过融合C和A得到新的邻接矩阵：一个蛋白质可能被多个G0术语注解，同时一 (i,j)EC 条G0术语也会注解多个蛋白质。一个模块中的蛋其他 (8) 白经常会出现多个G0术语描述其功能，因此使用式中：w是权值，本文中取值为2，融合过程如图1 同质性去衡量模块内所有的蛋白质相互作用产生的所示。然后根据新得到的邻接矩阵A所代表的新生物功能的强弱，同质性高则说明该模块内的蛋白的PPI网络进行模块检测。详细模块检测算法参照质的功能越相近，其计算公式为算法1。 H:=max 「G (7) 作树络式中：G代表模块中有G0注解的蛋白质的数量，G 合代表模块中共享同一个G0术语的蛋白的数量。蛋白质复合体融合之后的 2 融合蛋白质复合体的功能模块检测网络图1蛋白互作网络生成过程 2.1数据的来源及整理 Fig.1 The generation process of protein-protein net- STRING9.1)提供了蛋白质与蛋白质相互作用 work 关系的数据，该数据中包含了一些通过生物实验获算法1蛋白模块检测算法得的数据，也包括一些使用计算方法预测出来的数 1)输入A,String9.1对应的邻接矩阵：A:A和据并使用Score值量化。为了提高PPI网络数据的蛋白质复合体数据C融合形成的新的邻接矩阵；K: 可靠性，筛选出与人类有关且Score大于700的蛋蛋白模块的个数。白相互作用数据，然后将蛋白编码转换为NCBI中 2)fori=1:W/每一行代表一个数据点的属性名称，最终得到的PPI网络里包括14380个蛋白质 (U,G)=K-Means(A,K)or (F,G)=NMF(A,K) 和218163条蛋白质相互作用。 3)输出G:每个蛋白质对应的类标号 CORUM1o]存储的是哺乳动物组织器官内经过算法1将融合了蛋白质复合体的PPI网络划分人工审核过的蛋白质复合体数据，这些数据都是通为K个模块，图2是分别使用NMF和K-Means社团过个体实验获取的，所以数据噪声少并且准确度高

Ｇｉｋ＝Ｇｉｋ（ＸＴＦ）ｉｋ（ＧＦＴＦ）ｉｋ（５）当误差小于某个阈值ａ或达到最大迭代次数时算法终止，Ｆ矩阵描述了网络中节点隶属于某个社区的概率。１．３模块的富集分析为了确定每一个模块具体的生物功能，对每个模块分别进行ＧＯ和Ｐａｔｈｗａｙ富集分析。每个模块会对所有的ＧＯ术语或者Ｐａｔｈｗａｙ进行分析，并且返回具有最小Ｐ⁃ｖａｌｕｅ的ＧＯ术语或Ｐａｔｈｗａｙ表示模块中的蛋白质在该ＧＯ术语或者Ｐａｔｈｗａｙ中出现了富集，即该ＧＯ术语描述了这个模块的功能或者这个模块中的蛋白共同参与了该Ｐａｔｈｗａｙ。Ｐ⁃ｖａｌｕｅ的计算为Ｐ（Ｘ＝ｘ＞ｑ）＝ ∑ ｍｘ＝ｑ（ｍｘ）（ｔ－ｍｋ－ｘ）（ｔｋ）（６）式中：ｋ代表模块中蛋白的数量，ｑ是模块中被注解的蛋白质数量，ｍ是整个网络中的蛋白质的数量。１．４模块的同质性分析一个蛋白质可能被多个ＧＯ术语注解，同时一条ＧＯ术语也会注解多个蛋白质。一个模块中的蛋白经常会出现多个ＧＯ术语描述其功能，因此使用同质性去衡量模块内所有的蛋白质相互作用产生的生物功能的强弱，同质性高则说明该模块内的蛋白质的功能越相近，其计算公式为Ｈｉ＝ｍａｘｊＧｊｉＧｉ é ë ê ê ù û ú ú （７）式中：Ｇｉ代表模块中有ＧＯ注解的蛋白质的数量，Ｇｊｉ代表模块中共享同一个ＧＯ术语的蛋白的数量。２融合蛋白质复合体的功能模块检测２．１数据的来源及整理ＳＴＲＩＮＧ９．１［９］提供了蛋白质与蛋白质相互作用关系的数据，该数据中包含了一些通过生物实验获得的数据，也包括一些使用计算方法预测出来的数据并使用Ｓｃｏｒｅ值量化。为了提高ＰＰＩ网络数据的可靠性，筛选出与人类有关且Ｓｃｏｒｅ大于７００的蛋白相互作用数据，然后将蛋白编码转换为ＮＣＢＩ中名称，最终得到的ＰＰＩ网络里包括１４３８０个蛋白质和２１８１６３条蛋白质相互作用。ＣＯＲＵＭ［１０］存储的是哺乳动物组织器官内经过人工审核过的蛋白质复合体数据，这些数据都是通过个体实验获取的，所以数据噪声少并且准确度高。蛋白质复合体是具有相同功能的蛋白质高度交互的集合，具有较强的生物特性。而蛋白质复合体本身是ＰＰＩ的一部分，因此将蛋白质复合体数据引入到ＰＰＩ中，可以弥补其相互作用数据少并且存在噪声的缺陷。本文提取了１６５３个与人类相关的蛋白质复合体数据，并且形成了３１５５０条蛋白质相互作用数据。２．２融合蛋白质复合体的ＰＰＩ网络模块检测将从蛋白质复合体数据中抽取的３１５５０条蛋白质相互作用数据融入到ＰＰＩ网络中，从而在一定程度上弥补了ＰＰＩ数据不足的缺点。由于从蛋白质复合体数据中抽取的这些数据具有很高的精确度，融入这些数据后可以在一定程度上减少ＰＰＩ中的噪声数据对后续分析的影响。主要是将抽取到的蛋白质之间的相互作用数据融入到从Ｓｔｒｉｎｇ９提取的蛋白网络对应的邻接矩阵Ａ中，具体融入方法参照Ｚｈａｎｇ等［１１］提出的方式，将从蛋白复合体中提取出的蛋白质互作数据集合记为Ｃ，然后通过融合Ｃ和Ａ得到新的邻接矩阵：Ａ～ｉｊ＝ｗ，（ｉ，ｊ） ∈ Ｃ {Ａｉｊ，其他（８）式中：ｗ是权值，本文中取值为２，融合过程如图１所示。然后根据新得到的邻接矩阵Ａ～所代表的新的ＰＰＩ网络进行模块检测。详细模块检测算法参照算法１。图１蛋白互作网络生成过程Ｆｉｇ．１Ｔｈｅｇｅｎｅｒａｔｉｏｎｐｒｏｃｅｓｓｏｆｐｒｏｔｅｉｎ⁃ｐｒｏｔｅｉｎｎｅｔ⁃ ｗｏｒｋ算法１蛋白模块检测算法１）输入Ａ，Ｓｔｒｉｎｇ９．１对应的邻接矩阵；Ａ～：Ａ和蛋白质复合体数据Ｃ融合形成的新的邻接矩阵；Ｋ：蛋白模块的个数。２）ｆｏｒｉ＝１：Ｎ／／每一行代表一个数据点的属性（Ｕ，Ｇ）＝Ｋ⁃Ｍｅａｎｓ（Ａ～，Ｋ）ｏｒ（Ｆ，Ｇ）＝ＮＭＦ（Ａ～，Ｋ）３）输出Ｇｎｅｗ：每个蛋白质对应的类标号算法１将融合了蛋白质复合体的ＰＰＩ网络划分为Ｋ个模块，图２是分别使用ＮＭＦ和Ｋ⁃Ｍｅａｎｓ社团第５期刘光明，等：融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·７０５·

·706 智能系统学报第11卷检测算法检测到的模块238与模块76的拓扑结出模块个数大于2的模块，最终检测结果如表1 构图。所示。表1不同方法划分的模块个数及最大、最小模块 Table 1 The number of modules and the size of maximal and minimal module by different approaches 模块检测算法模块个数最小模块最大模块 K-Means 266 3 8122 IncreK-means 277 3 8157 NMF 301 3 307 IncreNMF 300 3 328 从表1可以观察到K-Means算法容易产生比较大的模块，其蛋白质的规模约占整个网络的56%， (a)模块238 一般来说这种规模比较大的模块对蛋白质的生物功能分析意义不是很大，而且模块个数在10以下的模块占所有模块的27%左右：而NMF算法检测到的最大模块的规模只占PPI网络的2.28%，而且模块规模小于10的模块占所有模块的比率只有10%，更容易检测到相对规模较中等的模块，更容易获得比较统一的生物功能。基因本体联合建立了一套适用于不同物种的语义词汇标准，该标准对蛋白质功能等方面进行限定及描述，该标准能够随着研究的深入和时间的发展而不断完善。G0)术语就是这个不断增长完善的 (b)模块76 语义词汇标准的数据库，主要对基因和蛋白质进行图2模块238和模块76的拓扑结构注释并且进一步阐明了蛋白质和用于定义它们的 Fig.2 The topological structure of module 238 and G0术语之间的关系。G0术语是生物过程(biologi-- module 76 cal process,BP)、细胞组件(cellular component,CC) 图2中节点的名字就是PPI中蛋白质在NCBI 和分子功能(molecular function,MF)。每个种类都中对应的名字，这个名字是唯一的，本文中就是根据是一种树形结构，我们总共抽取了40848条G0术这个名字将从Sring9数据中抽取到的PPI同蛋白质语，其中生物过程有26958条、细胞组件有3653 复合体数据融合到了一起。可以看出检测到的模块条、分子功能包括10697条。在内部的连接比较紧密。接下来对使用算法1检测根据式(6)对每个模块根据G0术语的3个种到的拓扑模块进行生物学意义上的分析。类分别进行了富集分析，也就是为每一个蛋白质拓 2.3模块的富集分析及同质性分析扑模块进行了p-value值的计算，然后选取最小的p I)GO术语和Pathway富集结果 value值对应的G0术语作为该模块的生物功能描对原始的PPI网络和通过融合蛋白质复合体之述，从而确定该模块中的生物功能。后的新网络分别进行模块检测，然后对这些模块进为了方便比较融合蛋白质复合体数据后检测到行富集分析。为了更好地反应模块的富集结果及同的模块与原始PPI网络检测到的模块之间的G0术质性，只考虑个数多于2的模块，因为个数为2的模语富集情况，分别使用G0术语的3个类别对应的块就只包含一条边，容易对富集结果产生噪声。通所有的GO术语，使用K-Means和NMF两种算法对过对原始的PPI网络和融合蛋白质复合体的网络分原始PPI网络和融合了蛋白质复合体的PPI网络划别使用K-Means和NMF对其进行模块划分，并筛选分的模块进行了富集分析，然后对比分析结果。实

检测算法检测到的模块２３８与模块７６的拓扑结构图。图２模块２３８和模块７６的拓扑结构Ｆｉｇ．２Ｔｈｅｔｏｐｏｌｏｇｉｃａｌｓｔｒｕｃｔｕｒｅｏｆｍｏｄｕｌｅ２３８ａｎｄｍｏｄｕｌｅ７６图２中节点的名字就是ＰＰＩ中蛋白质在ＮＣＢＩ中对应的名字，这个名字是唯一的，本文中就是根据这个名字将从Ｓｒｉｎｇ９数据中抽取到的ＰＰＩ同蛋白质复合体数据融合到了一起。可以看出检测到的模块在内部的连接比较紧密。接下来对使用算法１检测到的拓扑模块进行生物学意义上的分析。２．３模块的富集分析及同质性分析１）ＧＯ术语和Ｐａｔｈｗａｙ富集结果对原始的ＰＰＩ网络和通过融合蛋白质复合体之后的新网络分别进行模块检测，然后对这些模块进行富集分析。为了更好地反应模块的富集结果及同质性，只考虑个数多于２的模块，因为个数为２的模块就只包含一条边，容易对富集结果产生噪声。通过对原始的ＰＰＩ网络和融合蛋白质复合体的网络分别使用Ｋ⁃Ｍｅａｎｓ和ＮＭＦ对其进行模块划分，并筛选出模块个数大于２的模块，最终检测结果如表１所示。表１不同方法划分的模块个数及最大、最小模块Ｔａｂｌｅ１Ｔｈｅｎｕｍｂｅｒｏｆｍｏｄｕｌｅｓａｎｄｔｈｅｓｉｚｅｏｆｍａｘｉｍａｌａｎｄｍｉｎｉｍａｌｍｏｄｕｌｅｂｙｄｉｆｆｅｒｅｎｔａｐｐｒｏａｃｈｅｓ模块检测算法模块个数最小模块最大模块Ｋ⁃Ｍｅａｎｓ２６６３８１２２ＩｎｃｒｅＫ⁃ｍｅａｎｓ２７７３８１５７ＮＭＦ３０１３３０７ＩｎｃｒｅＮＭＦ３００３３２８从表１可以观察到Ｋ⁃Ｍｅａｎｓ算法容易产生比较大的模块，其蛋白质的规模约占整个网络的５６％，一般来说这种规模比较大的模块对蛋白质的生物功能分析意义不是很大，而且模块个数在１０以下的模块占所有模块的２７％左右；而ＮＭＦ算法检测到的最大模块的规模只占ＰＰＩ网络的２．２８％，而且模块规模小于１０的模块占所有模块的比率只有１０％，更容易检测到相对规模较中等的模块，更容易获得比较统一的生物功能。基因本体联合建立了一套适用于不同物种的语义词汇标准，该标准对蛋白质功能等方面进行限定及描述，该标准能够随着研究的深入和时间的发展而不断完善。ＧＯ［１２］术语就是这个不断增长完善的语义词汇标准的数据库，主要对基因和蛋白质进行注释并且进一步阐明了蛋白质和用于定义它们的ＧＯ术语之间的关系。ＧＯ术语是生物过程（ｂｉｏｌｏｇｉ⁃ ｃａｌｐｒｏｃｅｓｓ，ＢＰ）、细胞组件（ｃｅｌｌｕｌａｒｃｏｍｐｏｎｅｎｔ，ＣＣ）和分子功能（ｍｏｌｅｃｕｌａｒｆｕｎｃｔｉｏｎ，ＭＦ）。每个种类都是一种树形结构，我们总共抽取了４０８４８条ＧＯ术语，其中生物过程有２６９５８条、细胞组件有３６５３条、分子功能包括１０６９７条。根据式（６）对每个模块根据ＧＯ术语的３个种类分别进行了富集分析，也就是为每一个蛋白质拓扑模块进行了ｐ⁃ｖａｌｕｅ值的计算，然后选取最小的ｐ⁃ ｖａｌｕｅ值对应的ＧＯ术语作为该模块的生物功能描述，从而确定该模块中的生物功能。为了方便比较融合蛋白质复合体数据后检测到的模块与原始ＰＰＩ网络检测到的模块之间的ＧＯ术语富集情况，分别使用ＧＯ术语的３个类别对应的所有的ＧＯ术语，使用Ｋ⁃Ｍｅａｎｓ和ＮＭＦ两种算法对原始ＰＰＩ网络和融合了蛋白质复合体的ＰＰＩ网络划分的模块进行了富集分析，然后对比分析结果。实 ·７０６· 智能系统学报第１１卷

第5期刘光明，等：融合蛋白质复合体的人类蛋白互作网络功能模块发现 .707· 验表明，融合了蛋白质复合体后划分得到的模块在 3个方面罗列了实验结果，可以看到融合了蛋白质 GO术语上的富集程度要比直接使用原始PPI网络复合体之后的PPI网络得到的模块，在富集程度上的模块富集程度有显著的提升。比原始模块的p-value值要低，这说明模块的富集程表2列举了4种方法对应的前20个最小的模度更好，融合蛋白质复合体的模块更具有显著生物块富集结果，分别从生物过程、细胞组件和生物功能功能上的意义。表2融合蛋白质复合体的模块与原始PPI模块的G0富集(p-value) Table 2 GO enrichment of topological modules comparing mixed protein complex with the original PPI network K-Means IncreK-Means NMF IncreNMF BP cC MF BP CC MF BP CC MF BP CC MF 0.0x10°9.4x1050.0x10°0.0x10°2.3x1060.0x100.0x103.4×1090.0x10 0.0x10P1.9x10am0.00x10 5.5×1001.79x1085.33×1054.9×1001.20x1023.9x101.12×108.49x1054.85×10512.73×1091.00x1005.86x108 2.79x1062.13x1081.45×10686.03×1091.94x10s3.87×1022.44x1063.05x1021.25×1014.64×1092.00x1041.28×102 1.53x1063.75x1065.63x1081.24×1086.97×1041.54×1089.89x1081.55×1063.19x1081.93x10$8.43×10m3.66x102 3.49x1003.80x1065.95x10482.37×1016.99x104.27×103g3.11x10%1.02x1035.47×102.35x10s9.42×1084.10x105 1.50x1019.70x10-319.20x1072.39x1011.55x1091.45×1061.12x1043.30x105.46×1033.23×1062.20x10-21.61×1024 6.73×1011.27×1051.54×10317.20×1015.13×1031.12×10381.39×1042.23×101.79×10241.25×1081.27×101.76×1024 3.43x1095.71×1052.60x1098.23×1011.12x10”2.26×101.48x1015.26×10244.14×1033.02×108135×102.45×104 7.94×1081.02x1042.94×1024.44×1004.89x102.77×10”2.01×10311.55×1032.99×1027.83×1021.38×1034.95×102 2.17×1051.05×1045.71×101.71×1056.19x101.25×1021.38×1003.29x1021.38×1097.97×1018.45×101.05×102 3.22×1051.67×1044.51×1082.94×1057.81×106.73×1042.52x1032.78x1022.07×1081.68×1025.48×103.18×102 1.97×10302.54x10246.86×10281.34×1042.42x10249.83x102298x1022.97×1022.10x10181.04×1027.57×1032.21×100 1.76×10282.79x102.26×1021.85×10312.69x10243.77×1024.38x1023.30x1024.18x1081.34×1041.20x10242.50×10m 1.17×102”3.16x1024.85×10-14.43×1012.05x1034.76×1024.71×1023.80x1021.02x10n1.46x10242.04×1031.59x109 5.06×1076.54×1023.03×10201.15×102.76×1021.84×1016.08×1026.65×10211.20×1071.94×10242.90×10-31.17×1018 1.80x10256.00x10212.98×1081.83×10”4.14x10212.35×1017.70x10211.02×10194.7×1074.55×1025.77×1081.92×1018 2.75×109.72×1022.31×10162.69×1025.63×1023.44×10211.17×1001.12×1091.26×10169.95×1025.57×1021.16×10n 1.47×1051.15x1084.27×1064.64×1021.63x1093.87×1091.54×10201.42×10193.92×1061.14×10-217.88×1021.76x10-7 2.46×101.92x106.56×1069.92×1024.42×1091.08×10183.36x1002.06x10196.25×10161.99x10213.93×1025.89x10n 1.19x1021.94×1086.63x10168.00x106.78×1095.57×10~183.92×1001.02x10-186.69×1062.06x10-21.38×10D7.71×10 同G0的富集分析一样，我们也对模块中蛋白条来自Reactome数据库。表3列举了4种方法中质在Pathway上进行了相应的富集分析，主要是统对应的前20个最小的模块在Pathway上的富集结计一个模块内的蛋白质参与同一条Pathway的程果，从中可以看到融合了蛋白质复合体之后的PPI 度。Pathway数据主要使用PIDI(pathway interac- 网络的模块，在Pathway上的富集程度比原始的模 tion database),该数据库由NCl-Nature、BioCarta和块的p-value值要低，这说明模块内的蛋白质更多地 Reactome.3个数据库整合而成。在本文中只使用分参与了同一条Pathway,从而可以证明融合了蛋白质子类型为“蛋白质”和“蛋白质复合体”的数据。最复合体的模块更倾向于在同样的Pathway中发挥生终提取了1513条Pathway数据，其中223条来自物作用，识别Pathway可以帮助人们进一步认识蛋 NCI-Nature数据库、254条来自BioCarta数据库、838 白分子之间相互作用的分子机理

验表明，融合了蛋白质复合体后划分得到的模块在ＧＯ术语上的富集程度要比直接使用原始ＰＰＩ网络的模块富集程度有显著的提升。表２列举了４种方法对应的前２０个最小的模块富集结果，分别从生物过程、细胞组件和生物功能３个方面罗列了实验结果，可以看到融合了蛋白质复合体之后的ＰＰＩ网络得到的模块，在富集程度上比原始模块的ｐ⁃ｖａｌｕｅ值要低，这说明模块的富集程度更好，融合蛋白质复合体的模块更具有显著生物功能上的意义。表２融合蛋白质复合体的模块与原始ＰＰＩ模块的ＧＯ富集（ｐ⁃ｖａｌｕｅ）Ｔａｂｌｅ２ＧＯｅｎｒｉｃｈｍｅｎｔｏｆｔｏｐｏｌｏｇｉｃａｌｍｏｄｕｌｅｓｃｏｍｐａｒｉｎｇｍｉｘｅｄｐｒｏｔｅｉｎｃｏｍｐｌｅｘｗｉｔｈｔｈｅｏｒｉｇｉｎａｌＰＰＩｎｅｔｗｏｒｋＫ⁃ＭｅａｎｓＩｎｃｒｅＫ⁃ＭｅａｎｓＮＭＦＩｎｃｒｅＮＭＦＢＰＣＣＭＦＢＰＣＣＭＦＢＰＣＣＭＦＢＰＣＣＭＦ０．０×１００９．４×１０－１７５０．０×１０００．０×１００２．３×１０－１７６０．０×１０００．０×１００３．４×１０－１９３０．０×１０００．０×１００１．９×１０－２０７０．００×１００５．５×１０－１０４１．７９×１０－７８５．３３×１０－１０５４．９×１０－１０４１．２０×１０－５２３．９×１０－１０６１．１２×１０－４８８．４９×１０－５５４．８５×１０－５１２．７３×１０－４９１．００×１０－５０５．８６×１０－４３２．７９×１０－６６２．１３×１０－４８１．４５×１０－６８６．０３×１０－５９１．９４×１０－４８３．８７×１０－５２２．４４×１０－４６３．０５×１０－５２１．２５×１０－４１４．６４×１０－３９２．００×１０－４４１．２８×１０－４２１．５３×１０－５６３．７５×１０－４６５．６３×１０－４３１．２４×１０－４８６．９７×１０－４４１．５４×１０－４８９．８９×１０－３８１．５５×１０－４３３．１９×１０－３８１．９３×１０－３８８．４３×１０－２８３．６６×１０－３２３．４９×１０－５０３．８０×１０－４６５．９５×１０－４３２．３７×１０－４１６．９９×１０－４１４．２７×１０－３８３．１１×１０－３６１．０２×１０－２８５．４７×１０－３２２．３５×１０－３８９．４２×１０－２８４．１０×１０－２５１．５０×１０－４１９．７０×１０－３１９．２０×１０－３７２．３９×１０－４１１．５５×１０－２９１．４５×１０－３６１．１２×１０－３４３．３０×１０－２８５．４６×１０－２５３．２３×１０－３６２．２０×１０－２７１．６１×１０－２４６．７３×１０－４１１．２７×１０－２５１．５４×１０－３１７．２０×１０－４１５．１３×１０－２８１．１２×１０－３３１．３９×１０－３４２．２３×１０－２６１．７９×１０－２４１．２５×１０－３３１．２７×１０－２６１．７６×１０－２４３．４３×１０－３９５．７１×１０－２５２．６０×１０－２９８．２３×１０－４１１．１２×１０－２７２．２６×１０－３３１．４８×１０－３１５．２６×１０－２４４．１４×１０－２３３．０２×１０－３３１．３５×１０－２６２．４５×１０－２４７．９４×１０－３８１．０２×１０－２４２．９４×１０－２７４．４４×１０－４０４．８９×１０－２６２．７７×１０－２７２．０１×１０－３１１．５５×１０－２３２．９９×１０－２２７．８３×１０－３２１．３８×１０－２６４．９５×１０－２３２．１７×１０－３５１．０５×１０－２４５．７１×１０－２７１．７１×１０－３５６．１９×１０－２６１．２５×１０－２６１．３８×１０－３０３．２９×１０－２３１．３８×１０－１９７．９７×１０－３１８．４５×１０－２６１．０５×１０－２２３．２２×１０－３５１．６７×１０－２４４．５１×１０－２３２．９４×１０－３５７．８１×１０－２６６．７３×１０－２４２．５２×１０－２９２．７８×１０－２２２．０７×１０－１８１．６８×１０－２９５．４８×１０－２５３．１８×１０－２２１．９７×１０－３０２．５４×１０－２４６．８６×１０－２３１．３４×１０－３４２．４２×１０－２４９．８３×１０－２３２．９８×１０－２２２．９７×１０－２２２．１０×１０－１８１．０４×１０－２５７．５７×１０－２５２．２１×１０－２０１．７６×１０－２８２．７９×１０－２３２．２６×１０－２１１．８５×１０－３１２．６９×１０－２４３．７７×１０－２２４．３８×１０－２２３．３０×１０－２１４．１８×１０－１８１．３４×１０－２４１．２０×１０－２４２．５０×１０－２０１．１７×１０－２７３．１６×１０－２３４．８５×１０－２１４．４３×１０－３１２．０５×１０－２３４．７６×１０－２２４．７１×１０－２２３．８０×１０－２１１．０２×１０－１７１．４６×１０－２４２．０４×１０－２３１．５９×１０－１９５．０６×１０－２７６．５４×１０－２２３．０３×１０－２０１．１５×１０－２７２．７６×１０－２３１．８４×１０－２１６．０８×１０－２２６．６５×１０－２１１．２０×１０－１７１．９４×１０－２４２．９０×１０－２３１．１７×１０－１８１．８０×１０－２５６．００×１０－２１２．９８×１０－１８１．８３×１０－２７４．１４×１０－２１２．３５×１０－２１７．７０×１０－２１１．０２×１０－１９４．７７×１０－１７４．５５×１０－２２５．７７×１０－２３１．９２×１０－１８２．７５×１０－２７９．７２×１０－２１２．３１×１０－１６２．６９×１０－２７５．６３×１０－２１３．４４×１０－２１１．１７×１０－２０１．１２×１０－１９１．２６×１０－１６９．９５×１０－２２５．５７×１０－２２１．１６×１０－１７１．４７×１０－２５１．１５×１０－１８４．２７×１０－１６４．６４×１０－２７１．６３×１０－１９３．８７×１０－１９１．５４×１０－２０１．４２×１０－１９３．９２×１０－１６１．１４×１０－２１７．８８×１０－２２１．７６×１０－１７２．４６×１０－２３１．９２×１０－１８６．５６×１０－１６９．９２×１０－２７４．４２×１０－１９１．０８×１０－１８３．３６×１０－２０２．０６×１０－１９６．２５×１０－１６１．９９×１０－２１３．９３×１０－２１５．８９×１０－１７１．１９×１０－２２１．９４×１０－１８６．６３×１０－１６８．００×１０－２５６．７８×１０－１９５．５７×１０－１８３．９２×１０－２０１．０２×１０－１８６．６９×１０－１６２．０６×１０－２１１．３８×１０－２０７．７１×１０－１７同ＧＯ的富集分析一样，我们也对模块中蛋白质在Ｐａｔｈｗａｙ上进行了相应的富集分析，主要是统计一个模块内的蛋白质参与同一条Ｐａｔｈｗａｙ的程度。Ｐａｔｈｗａｙ数据主要使用ＰＩＤ［１３］（ｐａｔｈｗａｙｉｎｔｅｒａｃ⁃ ｔｉｏｎｄａｔａｂａｓｅ），该数据库由ＮＣＩ⁃Ｎａｔｕｒｅ、ＢｉｏＣａｒｔａ和Ｒｅａｃｔｏｍｅ３个数据库整合而成。在本文中只使用分子类型为“蛋白质”和“蛋白质复合体”的数据。最终提取了１５１３条Ｐａｔｈｗａｙ数据，其中２２３条来自ＮＣＩ⁃Ｎａｔｕｒｅ数据库、２５４条来自ＢｉｏＣａｒｔａ数据库、８３８条来自Ｒｅａｃｔｏｍｅ数据库。表３列举了４种方法中对应的前２０个最小的模块在Ｐａｔｈｗａｙ上的富集结果，从中可以看到融合了蛋白质复合体之后的ＰＰＩ网络的模块，在Ｐａｔｈｗａｙ上的富集程度比原始的模块的ｐ⁃ｖａｌｕｅ值要低，这说明模块内的蛋白质更多地参与了同一条Ｐａｔｈｗａｙ，从而可以证明融合了蛋白质复合体的模块更倾向于在同样的Ｐａｔｈｗａｙ中发挥生物作用，识别Ｐａｔｈｗａｙ可以帮助人们进一步认识蛋白分子之间相互作用的分子机理。第５期刘光明，等：融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·７０７·

·708 智能系统学报第11卷表3 融合蛋白质复合体的模块与原始PPI模块的Pathway 细胞组件和分子功能3个方面进行分析。图3是不富集(p-value) 同模块划分方法产生模块的分子功能的同质性在不 Table 3 Pathway enrichment of topological modules com- 同区间上的对比。 paring mixed protein complex with the original PPI network 0.30 ■K-means 0.25 IncreK-Means 0.20 K-Means IncreK-Means NMF IncreNMF 0.15 8.27×104 2.58×10-42 1.60x100 1.43×10-38 0.10 0.05 8.63×1041 5.23×104 2.63×1023 4.29×10-27 0 00a101-02a20303l40465050606-17n748a80.90-10 7.00×10-33 2.48×1040 4.15×1023 1.18×10-26 相似度 0.45 2.46×1030 4.16×10-34 2.89x102 7.79×1023 0.35 1.05×10-2 6.62×1025 3.12×102 8.00x1023 0.25 NMF 0.15 IncreNMF 3.09×10-9 5.38×1020 1.02×102 1.64×10-2 0.05 5.41×10-8 1.06x107 2.22×1020 6.98×10-18 000102203407 5.89x10~is 1.95×107 1.52×1016 5.22×1017 相似度图3模块分子功能同质性 1.53×10~7 3.18×107 2.60x105 1.08×106 Fig.3 Molecular function homogeneity of module 1.72×10-16 4.47×107 6.42×1015 1.22×10-15 图3横坐标是同质性区间，纵坐标是该区间内 2.94×1015 1.59×106 3.75×104 8.31×10-5 的模块数量占所有模块数量的比率。不论是K 1.03×10-4 8.01×106 2.61×10B 2.61×10-14 Means还是NMF,融合了蛋白质复合体数据的模块 1.90x104 4.45×1015 2.68×10-B 6.34×1014 在分子功能的同质性方面要高于原始PPI得到的模 9.56x104 1.82×104 1.19x102 1.64×108 块。在K-Means算法中，融合了蛋白质复合体数据 2.54×1018 7.16×104 1.09×10" 6.62×10-13 的模块中同质性高于0.5的模块占15%，而原始 1.03×10-2 9.74×10-4 6.33×10-" 2.34×10-2 PPI模块同质性高于0.5的模块占11%：在NMF中， 2.11×10-2 1.33×103 1.32×10-0 1.02×10-1 融合了蛋白质复合体数据的模块中同质性高于0.5 的模块占13%，而原始PPI模块同质性高于0.5的 2.20×10-2 4.10×1013 2.66×10-10 2.26×101 模块占9.6%。 5.14×10-12 4.10×103 3.12×10~10 2.30×101 图4是不同模块划分方法产生模块的细胞组件 1.18×101 6.00x10B 4.02×1010 2.50x10-1" 同质性在不同区间上的对比。 2)蛋白质拓扑模块同质性 K-means 对每个模块使用最小的p-value对应的G0术 0.30 ■IncreK-Means 0.25 语或者Pathway作为其富集的对象，从而进一步发 0.20 现该模块中的蛋白质分子的功能。从统计学意义上 0.15 0.10 讲，p-value<0.01的G0术语及Pathway都可以作 0.05 0 为模块的富集对象。为了更好地衡量模块中的蛋白 000.10.1.220.50304044505.0606-0.7.70.808090.91.0 相似度质在生物功能上发挥相同或相似功能的程度，使用同质性去衡量，其计算方法如式(7)所示。同质性 0.35 NMF 更好地说明了一个模块内的蛋白在功能上的相似程 ■IncreNMF 0.25 度，同质性越高说明该模块中的蛋白质在生物功能 0.15 上更趋于一致性，也就是该模块具有很强的生物功 0.0 能。 0 00010.1-0202030304040.50506Q6-0707-08080.90.910 本文对比了融入蛋白质复合体数据之后PPI网相似度络划分得到的模块与原始PPI划分得到的模块之间图4模块细胞组件同质性的同质性的差别。G0术语同质性根据生物过程、 Fig.4 Cellular component homogeneity of module

表３融合蛋白质复合体的模块与原始ＰＰＩ模块的Ｐａｔｈｗａｙ富集（ｐ⁃ｖａｌｕｅ）Ｔａｂｌｅ３Ｐａｔｈｗａｙｅｎｒｉｃｈｍｅｎｔｏｆｔｏｐｏｌｏｇｉｃａｌｍｏｄｕｌｅｓｃｏｍ⁃ ｐａｒｉｎｇｍｉｘｅｄｐｒｏｔｅｉｎｃｏｍｐｌｅｘｗｉｔｈｔｈｅｏｒｉｇｉｎａｌＰＰＩｎｅｔｗｏｒｋＫ⁃ＭｅａｎｓＩｎｃｒｅＫ⁃ＭｅａｎｓＮＭＦＩｎｃｒｅＮＭＦ８．２７×１０－４１２．５８×１０－４２１．６０×１０－３０１．４３×１０－３８８．６３×１０－４１５．２３×１０－４１２．６３×１０－２３４．２９×１０－２７７．００×１０－３３２．４８×１０－４０４．１５×１０－２３１．１８×１０－２６２．４６×１０－３０４．１６×１０－３４２．８９×１０－２２７．７９×１０－２３１．０５×１０－２２６．６２×１０－２５３．１２×１０－２２８．００×１０－２３３．０９×１０－１９５．３８×１０－２０１．０２×１０－２１１．６４×１０－２２５．４１×１０－１８１．０６×１０－１７２．２２×１０－２０６．９８×１０－１８５．８９×１０－１８１．９５×１０－１７１．５２×１０－１６５．２２×１０－１７１．５３×１０－１７３．１８×１０－１７２．６０×１０－１５１．０８×１０－１６１．７２×１０－１６４．４７×１０－１７６．４２×１０－１５１．２２×１０－１５２．９４×１０－１５１．５９×１０－１６３．７５×１０－１４８．３１×１０－１５１．０３×１０－１４８．０１×１０－１６２．６１×１０－１３２．６１×１０－１４１．９０×１０－１４４．４５×１０－１５２．６８×１０－１３６．３４×１０－１４９．５６×１０－１４１．８２×１０－１４１．１９×１０－１２１．６４×１０－１３２．５４×１０－１３７．１６×１０－１４１．０９×１０－１１６．６２×１０－１３１．０３×１０－１２９．７４×１０－１４６．３３×１０－１１２．３４×１０－１２２．１１×１０－１２１．３３×１０－１３１．３２×１０－１０１．０２×１０－１１２．２０×１０－１２４．１０×１０－１３２．６６×１０－１０２．２６×１０－１１５．１４×１０－１２４．１０×１０－１３３．１２×１０－１０２．３０×１０－１１１．１８×１０－１１６．００×１０－１３４．０２×１０－１０２．５０×１０－１１２）蛋白质拓扑模块同质性对每个模块使用最小的ｐ⁃ｖａｌｕｅ对应的ＧＯ术语或者Ｐａｔｈｗａｙ作为其富集的对象，从而进一步发现该模块中的蛋白质分子的功能。从统计学意义上讲，ｐ⁃ｖａｌｕｅ＜０．０１的ＧＯ术语及Ｐａｔｈｗａｙ都可以作为模块的富集对象。为了更好地衡量模块中的蛋白质在生物功能上发挥相同或相似功能的程度，使用同质性去衡量，其计算方法如式（７）所示。同质性更好地说明了一个模块内的蛋白在功能上的相似程度，同质性越高说明该模块中的蛋白质在生物功能上更趋于一致性，也就是该模块具有很强的生物功能。本文对比了融入蛋白质复合体数据之后ＰＰＩ网络划分得到的模块与原始ＰＰＩ划分得到的模块之间的同质性的差别。ＧＯ术语同质性根据生物过程、细胞组件和分子功能３个方面进行分析。图３是不同模块划分方法产生模块的分子功能的同质性在不同区间上的对比。图３模块分子功能同质性Ｆｉｇ．３Ｍｏｌｅｃｕｌａｒｆｕｎｃｔｉｏｎｈｏｍｏｇｅｎｅｉｔｙｏｆｍｏｄｕｌｅ图３横坐标是同质性区间，纵坐标是该区间内的模块数量占所有模块数量的比率。不论是Ｋ⁃ Ｍｅａｎｓ还是ＮＭＦ，融合了蛋白质复合体数据的模块在分子功能的同质性方面要高于原始ＰＰＩ得到的模块。在Ｋ⁃Ｍｅａｎｓ算法中，融合了蛋白质复合体数据的模块中同质性高于０．５的模块占１５％，而原始ＰＰＩ模块同质性高于０．５的模块占１１％；在ＮＭＦ中，融合了蛋白质复合体数据的模块中同质性高于０．５的模块占１３％，而原始ＰＰＩ模块同质性高于０．５的模块占９．６％。图４是不同模块划分方法产生模块的细胞组件同质性在不同区间上的对比。图４模块细胞组件同质性Ｆｉｇ．４Ｃｅｌｌｕｌａｒｃｏｍｐｏｎｅｎｔｈｏｍｏｇｅｎｅｉｔｙｏｆｍｏｄｕｌｅ ·７０８· 智能系统学报第１１卷

第5期刘光明，等：融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·709. 在K-Means算法中，融合了蛋白质复合体数据模块作为功能模块，以便用于蛋白网络分子作用机的模块中细胞组件同质性高于0.5的模块占54.8%，理的研究。而原始PPI模块同质性高于0.5的模块占48.9%：在 0.25 NMF中，融合了蛋白质复合体数据的模块中细胞组 0.20 K-means 0.15 ■IncreK-Means 件同质性高于0.5的模块占35%，而原始PPI模块 0.10 同质性高于0.5的模块占31.5%。 0.05 0 图5是不同模块划分方法产生模块的生物过程 000101-0202-03a30404-0.505-0606070,7-080.R090-10 相似度同质性在不同区间上的对比。 NMF 0.35 ■IncreNMF ■K-neans 0.25 ■IncreK-Means 0.30 0.15 0.25 0.20 0.05 0.15 L 0.10 0000.10.1a202030.5404505060670.7080.&090.910 0.05 相似度 0101202-030304040.505-06060707-80-n90-10 图6模块Pathway同质性相似度 ■NMF Fig.6 Pathway homogeneity of module IncreNMF 0.45 0.35 3 结束语 0.25 0.15 本文将蛋白质复合体数据融合到PPI网络中 0.05 (例如：String9蛋白质相互作用数据库)，然后使用 .00101-0202-33-044.505-a606-077-08a8-l90-10 相似度 K-Means和NMF2种经典的算法分别对原始网络和融合后的网络进行社团划分，从而得到多个蛋白质图5模块生物过程同质性模块；这些模块通过在GO和Pathway2:个方面的富 Fig.5 Biological process homogeneity of module 集分析和同质性分析，实验结果证明融合蛋白质复在K-Means算法中，融合了蛋白质复合体数据合体后得到了生物功能更强的模块：这也在一定程的模块中生物过程同质性高于0.5的模块占24.1%，度上说明引入蛋白质复合体数据弥补了PPI网络数而原始PPI模块同质性高于0.5的模块占17.7%：据不完整并且噪声多等缺点。新划分的模块在G0 在NMF中，融合了蛋白质复合体数据的模块中生物和Pathway2个方面都展现了良好的生物学统计特过程同质性高于0.5的模块占15.7%，而原始PPI 性，这说明结合多方面的数据，有助于发现功能更强模块同质性高于0.5的模块占11.3%。的蛋白质模块。图6是不同模块划分方法产生模块的Pathway 鉴于目前的研究，下一步工作计划将基因表达同质性在不同区间上的对比。数据融入到PPI网络中，然后根据不同的基因在不在K-Means算法中，融合了蛋白质复合体数据同组织上的表达情况来辅助PPI网络进行功能模块的模块中Pathway同质性高于0.5的模块占22.3%，检测。另一方面，疾病-症状关系数据(OMIM)和疾而原始PPI模块同质性高于0.5的模块占18.7%：病-基因关系数据(disease-connect)的获取技术发展在NMF中，融合了蛋白质复合体数据的模块中比较迅速并且具有较高的可信度，因此可以将这些 Pathway同质性高于0.5的模块占19%，而原始PPI 数据融入到PPI网络中去发现与疾病或症状相关的模块同质性高于0.5的模块占12%。功能模块，从而为疾病机理研究和新药研发提供一实验结果说明，在G0术语和Pathway2.个生物个新的思路。度量方面，不论是从最小富集角度还是从模块同质性角度，都可以发现融合了蛋白质复合体后的PPI 参考文献：得到的模块具有更强的生物功能，因此可以将这些 [1]BARABASI A L.GULBAHCE N,LOSCALZO J.Network

在Ｋ⁃Ｍｅａｎｓ算法中，融合了蛋白质复合体数据的模块中细胞组件同质性高于０．５的模块占５４．８％，而原始ＰＰＩ模块同质性高于０．５的模块占４８．９％；在ＮＭＦ中，融合了蛋白质复合体数据的模块中细胞组件同质性高于０．５的模块占３５％，而原始ＰＰＩ模块同质性高于０．５的模块占３１．５％。图５是不同模块划分方法产生模块的生物过程同质性在不同区间上的对比。图５模块生物过程同质性Ｆｉｇ．５Ｂｉｏｌｏｇｉｃａｌｐｒｏｃｅｓｓｈｏｍｏｇｅｎｅｉｔｙｏｆｍｏｄｕｌｅ在Ｋ⁃Ｍｅａｎｓ算法中，融合了蛋白质复合体数据的模块中生物过程同质性高于０．５的模块占２４．１％，而原始ＰＰＩ模块同质性高于０．５的模块占１７．７％；在ＮＭＦ中，融合了蛋白质复合体数据的模块中生物过程同质性高于０．５的模块占１５．７％，而原始ＰＰＩ模块同质性高于０．５的模块占１１．３％。图６是不同模块划分方法产生模块的Ｐａｔｈｗａｙ同质性在不同区间上的对比。在Ｋ⁃Ｍｅａｎｓ算法中，融合了蛋白质复合体数据的模块中Ｐａｔｈｗａｙ同质性高于０．５的模块占２２．３％，而原始ＰＰＩ模块同质性高于０．５的模块占１８．７％；在ＮＭＦ中，融合了蛋白质复合体数据的模块中Ｐａｔｈｗａｙ同质性高于０．５的模块占１９％，而原始ＰＰＩ模块同质性高于０．５的模块占１２％。实验结果说明，在ＧＯ术语和Ｐａｔｈｗａｙ２个生物度量方面，不论是从最小富集角度还是从模块同质性角度，都可以发现融合了蛋白质复合体后的ＰＰＩ得到的模块具有更强的生物功能，因此可以将这些模块作为功能模块，以便用于蛋白网络分子作用机理的研究。图６模块Ｐａｔｈｗａｙ同质性Ｆｉｇ．６Ｐａｔｈｗａｙｈｏｍｏｇｅｎｅｉｔｙｏｆｍｏｄｕｌｅ３结束语本文将蛋白质复合体数据融合到ＰＰＩ网络中（例如：Ｓｔｒｉｎｇ９蛋白质相互作用数据库），然后使用Ｋ⁃Ｍｅａｎｓ和ＮＭＦ２种经典的算法分别对原始网络和融合后的网络进行社团划分，从而得到多个蛋白质模块；这些模块通过在ＧＯ和Ｐａｔｈｗａｙ２个方面的富集分析和同质性分析，实验结果证明融合蛋白质复合体后得到了生物功能更强的模块；这也在一定程度上说明引入蛋白质复合体数据弥补了ＰＰＩ网络数据不完整并且噪声多等缺点。新划分的模块在ＧＯ和Ｐａｔｈｗａｙ２个方面都展现了良好的生物学统计特性，这说明结合多方面的数据，有助于发现功能更强的蛋白质模块。鉴于目前的研究，下一步工作计划将基因表达数据融入到ＰＰＩ网络中，然后根据不同的基因在不同组织上的表达情况来辅助ＰＰＩ网络进行功能模块检测。另一方面，疾病⁃症状关系数据（ＯＭＩＭ）和疾病⁃基因关系数据（ｄｉｓｅａｓｅ⁃ｃｏｎｎｅｃｔ）的获取技术发展比较迅速并且具有较高的可信度，因此可以将这些数据融入到ＰＰＩ网络中去发现与疾病或症状相关的功能模块，从而为疾病机理研究和新药研发提供一个新的思路。参考文献：［１］ＢＡＲＡＢÁＳＩＡＬ，ＧＵＬＢＡＨＣＥＮ，ＬＯＳＣＡＬＺＯＪ．Ｎｅｔｗｏｒｋ第５期刘光明，等：融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·７０９·

·710 智能系统学报第11卷 medicine:a network-based approach to human disease[J]. [10]RUEPP A,WAEGELE B,LECHNER M,et al.CORUM: Nature reviews genetics,2011,12(1):56-68. the comprehensive resource of mammalian protein comple- [2]BADER G D,HOGUE C W V.An automated method for xes-2009[J].Nucleic acids research,2010,38 (S1): finding molecular complexes in large protein interaction net- D497-D501. works[J].BMC bioinformatics,2003,4:2. [11]ZHANG Z Y.Community structure detection in complex [3]ALTAF-UL-AMIN M,SHINBO Y,MIHARA K,et al.De- networks with partial background information J].EPL velopment and implementation of an algorithm for detection europhysics letters),2013,101(4):48005. of protein complexes in large interaction networks[J].BMC [12]ASHBURNER M,BALL C A,BLAKE J A,et al.Gene bioinformatics,2006,7:207. Ontology:tool for the unification of biology[].Nature ge- [4]KENLEY E C,CHO Y R.Detecting protein complexes and netics,2000,25(1）):25-29. functional modules from protein interaction networks:A [13]SCHAEFER C F,ANTHONY K,KRUPA S,et al.PID: graph entropy approach[]].Proteomics,2011,11(19): the pathway interaction database[J].Nucleic acids re- 3835-3844. search,2009,37(S1):D674-D679 [5]MENCHE J,SHARMA A,KITSAK M,et al.Uncovering 作者简介： disease-disease relationships through the incomplete interac- 刘光明.男，1986年生，博士研究 tome[JJ.Science,.2015,347(6224):1257601 生，主要研究方向为复杂网络、数据挖 [6]NEWMAN M E J.Fast algorithm for detecting community 掘、蛋白质功能模块。 structure in networks[J].Physical review e,2004,69(6): 066133. [7]WAGSTAFF K,CARDIE C,ROGERS S,et al.Constrain- ed k-means clustering with background knowledge [C]// 杨柳.女，1980年生，博士研究生 Proceedings of the Eighteenth International Conference on 主要研究方向为机器学习、数据挖掘。 Machine Learning.San Francisco,CA,USA:Morgan Kauf- mann Publishers Inc.,2001:577-584. [8]LEE DD,SEUNG H S.Learning the parts of objects by non-negative matrix factorization J].Nature,1999,401 (6755):788-791 高盼盼，女，1989年生，硕士研究 [9]TURANALP M E,CAN T.Discovering functional interac- 生，主要研究方向为基于药物副作用的 tion patterns in protein-protein interaction networks[J]. 分子机理的研究、数据挖掘。 BMC bioinformatics,2008,9:276

ｍｅｄｉｃｉｎｅ：ａｎｅｔｗｏｒｋ⁃ｂａｓｅｄａｐｐｒｏａｃｈｔｏｈｕｍａｎｄｉｓｅａｓｅ［Ｊ］．Ｎａｔｕｒｅｒｅｖｉｅｗｓｇｅｎｅｔｉｃｓ，２０１１，１２（１）：５６⁃６８．［２］ＢＡＤＥＲＧＤ，ＨＯＧＵＥＣＷＶ．Ａｎａｕｔｏｍａｔｅｄｍｅｔｈｏｄｆｏｒｆｉｎｄｉｎｇｍｏｌｅｃｕｌａｒｃｏｍｐｌｅｘｅｓｉｎｌａｒｇｅｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎｎｅｔ⁃ ｗｏｒｋｓ［Ｊ］．ＢＭＣｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００３，４：２．［３］ＡＬＴＡＦ⁃ＵＬ⁃ＡＭＩＮＭ，ＳＨＩＮＢＯＹ，ＭＩＨＡＲＡＫ，ｅｔａｌ．Ｄｅ⁃ ｖｅｌｏｐｍｅｎｔａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆａｎａｌｇｏｒｉｔｈｍｆｏｒｄｅｔｅｃｔｉｏｎｏｆｐｒｏｔｅｉｎｃｏｍｐｌｅｘｅｓｉｎｌａｒｇｅｉｎｔｅｒａｃｔｉｏｎｎｅｔｗｏｒｋｓ［Ｊ］．ＢＭＣｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００６，７：２０７．［４］ＫＥＮＬＥＹＥＣ，ＣＨＯＹＲ．Ｄｅｔｅｃｔｉｎｇｐｒｏｔｅｉｎｃｏｍｐｌｅｘｅｓａｎｄｆｕｎｃｔｉｏｎａｌｍｏｄｕｌｅｓｆｒｏｍｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎｎｅｔｗｏｒｋｓ：Ａｇｒａｐｈｅｎｔｒｏｐｙａｐｐｒｏａｃｈ［Ｊ］．Ｐｒｏｔｅｏｍｉｃｓ，２０１１，１１（１９）：３８３５⁃３８４４．［５］ＭＥＮＣＨＥＪ，ＳＨＡＲＭＡＡ，ＫＩＴＳＡＫＭ，ｅｔａｌ．Ｕｎｃｏｖｅｒｉｎｇｄｉｓｅａｓｅ⁃ｄｉｓｅａｓｅｒｅｌａｔｉｏｎｓｈｉｐｓｔｈｒｏｕｇｈｔｈｅｉｎｃｏｍｐｌｅｔｅｉｎｔｅｒａｃ⁃ ｔｏｍｅ［Ｊ］．Ｓｃｉｅｎｃｅ，２０１５，３４７（６２２４）：１２５７６０１．［６］ＮＥＷＭＡＮＭＥＪ．Ｆａｓｔａｌｇｏｒｉｔｈｍｆｏｒｄｅｔｅｃｔｉｎｇｃｏｍｍｕｎｉｔｙｓｔｒｕｃｔｕｒｅｉｎｎｅｔｗｏｒｋｓ［Ｊ］．Ｐｈｙｓｉｃａｌｒｅｖｉｅｗｅ，２００４，６９（６）：０６６１３３．［７］ＷＡＧＳＴＡＦＦＫ，ＣＡＲＤＩＥＣ，ＲＯＧＥＲＳＳ，ｅｔａｌ．Ｃｏｎｓｔｒａｉｎ⁃ ｅｄｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇｗｉｔｈｂａｃｋｇｒｏｕｎｄｋｎｏｗｌｅｄｇｅ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｉｇｈｔｅｅｎｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＳａｎＦｒａｎｃｉｓｃｏ，ＣＡ，ＵＳＡ：ＭｏｒｇａｎＫａｕｆ⁃ ｍａｎｎＰｕｂｌｉｓｈｅｒｓＩｎｃ．，２００１：５７７⁃５８４．［８］ＬＥＥＤＤ，ＳＥＵＮＧＨＳ．Ｌｅａｒｎｉｎｇｔｈｅｐａｒｔｓｏｆｏｂｊｅｃｔｓｂｙｎｏｎ⁃ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ［Ｊ］．Ｎａｔｕｒｅ，１９９９，４０１（６７５５）：７８８⁃７９１．［９］ＴＵＲＡＮＡＬＰＭＥ，ＣＡＮＴ．Ｄｉｓｃｏｖｅｒｉｎｇｆｕｎｃｔｉｏｎａｌｉｎｔｅｒａｃ⁃ ｔｉｏｎｐａｔｔｅｒｎｓｉｎｐｒｏｔｅｉｎ⁃ｐｒｏｔｅｉｎｉｎｔｅｒａｃｔｉｏｎｎｅｔｗｏｒｋｓ［Ｊ］．ＢＭＣｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００８，９：２７６．［１０］ＲＵＥＰＰＡ，ＷＡＥＧＥＬＥＢ，ＬＥＣＨＮＥＲＭ，ｅｔａｌ．ＣＯＲＵＭ：ｔｈｅｃｏｍｐｒｅｈｅｎｓｉｖｅｒｅｓｏｕｒｃｅｏｆｍａｍｍａｌｉａｎｐｒｏｔｅｉｎｃｏｍｐｌｅ⁃ ｘｅｓ⁃２００９［Ｊ］．Ｎｕｃｌｅｉｃａｃｉｄｓｒｅｓｅａｒｃｈ，２０１０，３８（Ｓ１）：Ｄ４９７⁃Ｄ５０１．［１１］ＺＨＡＮＧＺＹ．Ｃｏｍｍｕｎｉｔｙｓｔｒｕｃｔｕｒｅｄｅｔｅｃｔｉｏｎｉｎｃｏｍｐｌｅｘｎｅｔｗｏｒｋｓｗｉｔｈｐａｒｔｉａｌｂａｃｋｇｒｏｕｎｄｉｎｆｏｒｍａｔｉｏｎ［Ｊ］．ＥＰＬ（ｅｕｒｏｐｈｙｓｉｃｓｌｅｔｔｅｒｓ），２０１３，１０１（４）：４８００５．［１２］ＡＳＨＢＵＲＮＥＲＭ，ＢＡＬＬＣＡ，ＢＬＡＫＥＪＡ，ｅｔａｌ．ＧｅｎｅＯｎｔｏｌｏｇｙ：ｔｏｏｌｆｏｒｔｈｅｕｎｉｆｉｃａｔｉｏｎｏｆｂｉｏｌｏｇｙ［Ｊ］．Ｎａｔｕｒｅｇｅ⁃ ｎｅｔｉｃｓ，２０００，２５（１）：２５⁃２９．［１３］ＳＣＨＡＥＦＥＲＣＦ，ＡＮＴＨＯＮＹＫ，ＫＲＵＰＡＳ，ｅｔａｌ．ＰＩＤ：ｔｈｅｐａｔｈｗａｙｉｎｔｅｒａｃｔｉｏｎｄａｔａｂａｓｅ［Ｊ］．Ｎｕｃｌｅｉｃａｃｉｄｓｒｅ⁃ ｓｅａｒｃｈ，２００９，３７（Ｓ１）：Ｄ６７４⁃Ｄ６７９．作者简介：刘光明，男，１９８６年生，博士研究生，主要研究方向为复杂网络、数据挖掘、蛋白质功能模块。杨柳，女，１９８０年生，博士研究生，主要研究方向为机器学习、数据挖掘。高盼盼，女，１９８９年生，硕士研究生，主要研究方向为基于药物副作用的分子机理的研究、数据挖掘。 ·７１０· 智能系统学报第１１卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录