正在加载图片...
第5期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·705. (X'F)a 蛋白质复合体是具有相同功能的蛋白质高度交互的 Ga=Ga(GFTF) (5) 集合,具有较强的生物特性。而蛋白质复合体本身 当误差小于某个阈值a或达到最大迭代次数时 是PPI的一部分,因此将蛋白质复合体数据引入到 算法终止,F矩阵描述了网络中节点隶属于某个社 PPI中,可以弥补其相互作用数据少并且存在噪声 区的概率。 的缺陷。本文提取了1653个与人类相关的蛋白质 1.3模块的富集分析 复合体数据,并且形成了31550条蛋白质相互作用 为了确定每一个模块具体的生物功能,对每个 数据。 模块分别进行G0和Pathway富集分析。每个模块 22融合蛋白质复合体的PPI网络模块检测 会对所有的G0术语或者Pathway进行分析,并且 将从蛋白质复合体数据中抽取的31550条蛋 返回具有最小P-value的GO术语或Pathway表示模 白质相互作用数据融入到PPI网络中,从而在一定 块中的蛋白质在该G0术语或者Pathway中出现了 程度上弥补了PPI数据不足的缺点。由于从蛋白质 富集,即该G0术语描述了这个模块的功能或者这 复合体数据中抽取的这些数据具有很高的精确度, 个模块中的蛋白共同参与了该Pathway。P-value的 融入这些数据后可以在一定程度上减少PPI中的噪 计算为 声数据对后续分析的影响。 主要是将抽取到的蛋白质之间的相互作用数据 P(X=x>q)=】 ,()() (6) =g () 融入到从String9提取的蛋白网络对应的邻接矩阵 式中:k代表模块中蛋白的数量,9是模块中被注解 A中,具体融入方法参照Zhang等提出的方式, 的蛋白质数量,m是整个网络中的蛋白质的数量。 将从蛋白复合体中提取出的蛋白质互作数据集合记 1.4模块的同质性分析 为C,然后通过融合C和A得到新的邻接矩阵: 一个蛋白质可能被多个G0术语注解,同时一 (i,j)EC 条G0术语也会注解多个蛋白质。一个模块中的蛋 其他 (8) 白经常会出现多个G0术语描述其功能,因此使用 式中:w是权值,本文中取值为2,融合过程如图1 同质性去衡量模块内所有的蛋白质相互作用产生的 所示。然后根据新得到的邻接矩阵A所代表的新 生物功能的强弱,同质性高则说明该模块内的蛋白 的PPI网络进行模块检测。详细模块检测算法参照 质的功能越相近,其计算公式为 算法1。 H:=max 「G (7) 作树络 式中:G代表模块中有G0注解的蛋白质的数量,G 合 代表模块中共享同一个G0术语的蛋白的数量。 蛋白质复合体 融合之后的 2 融合蛋白质复合体的功能模块检测 网络 图1蛋白互作网络生成过程 2.1数据的来源及整理 Fig.1 The generation process of protein-protein net- STRING9.1)提供了蛋白质与蛋白质相互作用 work 关系的数据,该数据中包含了一些通过生物实验获 算法1蛋白模块检测算法 得的数据,也包括一些使用计算方法预测出来的数 1)输入A,String9.1对应的邻接矩阵:A:A和 据并使用Score值量化。为了提高PPI网络数据的 蛋白质复合体数据C融合形成的新的邻接矩阵;K: 可靠性,筛选出与人类有关且Score大于700的蛋 蛋白模块的个数。 白相互作用数据,然后将蛋白编码转换为NCBI中 2)fori=1:W/每一行代表一个数据点的属性 名称,最终得到的PPI网络里包括14380个蛋白质 (U,G)=K-Means(A,K)or (F,G)=NMF(A,K) 和218163条蛋白质相互作用。 3)输出G:每个蛋白质对应的类标号 CORUM1o]存储的是哺乳动物组织器官内经过 算法1将融合了蛋白质复合体的PPI网络划分 人工审核过的蛋白质复合体数据,这些数据都是通 为K个模块,图2是分别使用NMF和K-Means社团 过个体实验获取的,所以数据噪声少并且准确度高。Gik = Gik (X TF)ik (GF TF)ik (5) 当误差小于某个阈值 a 或达到最大迭代次数时 算法终止,F 矩阵描述了网络中节点隶属于某个社 区的概率。 1.3 模块的富集分析 为了确定每一个模块具体的生物功能,对每个 模块分别进行 GO 和 Pathway 富集分析。 每个模块 会对所有的 GO 术语或者 Pathway 进行分析,并且 返回具有最小 P⁃value 的 GO 术语或 Pathway 表示模 块中的蛋白质在该 GO 术语或者 Pathway 中出现了 富集,即该 GO 术语描述了这个模块的功能或者这 个模块中的蛋白共同参与了该 Pathway。 P⁃value 的 计算为 P(X = x > q) = ∑ m x = q ( m x )( t-m k-x ) ( t k) (6) 式中:k 代表模块中蛋白的数量,q 是模块中被注解 的蛋白质数量,m 是整个网络中的蛋白质的数量。 1.4 模块的同质性分析 一个蛋白质可能被多个 GO 术语注解,同时一 条 GO 术语也会注解多个蛋白质。 一个模块中的蛋 白经常会出现多个 GO 术语描述其功能,因此使用 同质性去衡量模块内所有的蛋白质相互作用产生的 生物功能的强弱,同质性高则说明该模块内的蛋白 质的功能越相近,其计算公式为 Hi = maxj G j i Gi é ë ê ê ù û ú ú (7) 式中:Gi 代表模块中有 GO 注解的蛋白质的数量,G j i 代表模块中共享同一个 GO 术语的蛋白的数量。 2 融合蛋白质复合体的功能模块检测 2.1 数据的来源及整理 STRING 9.1 [9]提供了蛋白质与蛋白质相互作用 关系的数据,该数据中包含了一些通过生物实验获 得的数据,也包括一些使用计算方法预测出来的数 据并使用 Score 值量化。 为了提高 PPI 网络数据的 可靠性,筛选出与人类有关且 Score 大于 700 的蛋 白相互作用数据,然后将蛋白编码转换为 NCBI 中 名称,最终得到的 PPI 网络里包括 14 380 个蛋白质 和 218 163 条蛋白质相互作用。 CORUM [10]存储的是哺乳动物组织器官内经过 人工审核过的蛋白质复合体数据,这些数据都是通 过个体实验获取的,所以数据噪声少并且准确度高。 蛋白质复合体是具有相同功能的蛋白质高度交互的 集合,具有较强的生物特性。 而蛋白质复合体本身 是 PPI 的一部分,因此将蛋白质复合体数据引入到 PPI 中,可以弥补其相互作用数据少并且存在噪声 的缺陷。 本文提取了 1 653 个与人类相关的蛋白质 复合体数据,并且形成了 31 550 条蛋白质相互作用 数据。 2.2 融合蛋白质复合体的 PPI 网络模块检测 将从蛋白质复合体数据中抽取的 31 550 条蛋 白质相互作用数据融入到 PPI 网络中,从而在一定 程度上弥补了 PPI 数据不足的缺点。 由于从蛋白质 复合体数据中抽取的这些数据具有很高的精确度, 融入这些数据后可以在一定程度上减少 PPI 中的噪 声数据对后续分析的影响。 主要是将抽取到的蛋白质之间的相互作用数据 融入到从 String9 提取的蛋白网络对应的邻接矩阵 A 中,具体融入方法参照 Zhang 等[11] 提出的方式, 将从蛋白复合体中提取出的蛋白质互作数据集合记 为 C,然后通过融合 C 和 A 得到新的邻接矩阵: A ~ ij = w, (i,j) ∈ C {Aij, 其他 (8) 式中:w 是权值,本文中取值为 2,融合过程如图 1 所示。 然后根据新得到的邻接矩阵 A ~ 所代表的新 的 PPI 网络进行模块检测。 详细模块检测算法参照 算法 1。 图 1 蛋白互作网络生成过程 Fig.1 The generation process of protein⁃protein net⁃ work 算法 1 蛋白模块检测算法 1)输入 A,String9.1 对应的邻接矩阵; A ~ :A 和 蛋白质复合体数据 C 融合形成的新的邻接矩阵;K: 蛋白模块的个数。 2)for i = 1:N / / 每一行代表一个数据点的属性 (U,G)= K⁃Means(A ~ ,K) or (F,G) = NMF(A ~ ,K) 3)输出 Gnew :每个蛋白质对应的类标号 算法 1 将融合了蛋白质复合体的 PPI 网络划分 为 K 个模块,图 2 是分别使用 NMF 和 K⁃Means 社团 第 5 期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·705·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有