第13卷第6期 智能系统学报 Vol.13 No.6 2018年12月 CAAI Transactions on Intelligent Systems Dec.2018 D0:10.11992/tis.201805043 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180716.1134.006html 一种预测niRNA与疾病关联关系的矩阵分解算法 刘晓燕',陈希,郭茂祖2,车凯,王春宇 (1.哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001;2.北京建筑大学电气与信息工程学院,北 京100044) 摘要:越来越多的证据表明microRNAs((miRNAs)在生命进程中发挥着重要作用。近年来,预测miRNAs与疾 病的关联关系成为一个研究热点。然而.现有的方法大多数是基于已知的RNA-疾病关联,对没有任何关联 信息的miRNA或疾病的效果是很不理想的。本文提出了一种矩阵分解的方法LMFMDA(least squares optimiza- tion matrix factorization method for mirna-disease association)对miRNAs和疾病的关联关系进行预测。LMFM DA基于miRNAs相似度矩阵、疾病相似度矩阵和miRNAs-疾病关联关系矩阵,用迭代最小二乘法求解 miRNAs和疾病的表达向量,最终利用miRNAs和疾病的表达向量完成对miRNA与疾病关联关系的预测。与 常规做法不同的是,我们引入了辅助的niRNAs和疾病变量,来保证在优化时能够收敛到最优解。实验结果表 明,采用留一交叉验证法得到的AUC值可达0.8206,明显优于当前其他方法,尤其在没有任何关联信息的 niRNA和疾病上,LMFMDA算法比最新的算法有了极大的提升。 关键词:microRNAs;:疾病:关联预测;矩阵分解;迭代最小二乘 中图分类号:TP391文献标志码:A 文章编号:1673-4785(2018)06-0897-08 中文引用格式:刘晓燕,陈希,郭茂祖,等.一种预测mRNA与疾病关联关系的矩阵分解算法J.智能系统学报,2018,13(6): 897-904. 英文引用格式:LIU Xiaoyan,CHEN Xi,.GUO Maozu,etal.A matrix factorization method for predicting miRNA-disease associ- ation[JI.CAAI transactions on intelligent systems,2018,13(6):897-904. A matrix factorization method for predicting miRNA-disease association LIU Xiaoyan',CHEN Xi',GUO Maozu'2,CHE Kai',WANG Chunyu' (1.School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China;2.School of Electrical and Information Engineering,Beijing University of Civil Engineering and Architecture,Beijing 100044,China) Abstract:There are increasing evidences that microRNAs(miRNAs)play an important role in life processes.In recent years,predicting the association between miRNAs and diseases has become an active topic.However,most of the exist- ing methods are based on known miRNA-disease associations and are not ideal for miRNAs and diseases without any known associations.This paper presents a least squares optimization matrix factorization method for miRNA-disease as- sociation(LMFMDA)prediction.The LMFMDA,which is based on miRNAs similarity matrix,disease similarity mat- rix,and miRNAs-disease relationship,uses the iterative least squares method to solve the expression vectors of miRNAs and disease and approximates the existing associations between miRNAs and diseases by the expression vector of miRNA and disease.Different from the conventional approach,we introduce auxiliary miRNAs and disease variables to ensure that these variables converge to the optimal solution during optimization.The experiments show that the AUC obtained by applying the leave-one-out cross-validation method is 0.820 6,which is obviously better than other current methods.Especially in the miRNA and disease without any associated information,the LMFMDA algorithm signific- antly outperforms the latest algorithm. Keywords:microRNAs;disease;association prediction;matrix factorization;iterative least squares 收稿日期:2018-05-27.网络出版日期:2018-07-17. MicroRNAs(miRNAs)是一类很小的内源性非 基金项目:国家自然科学基金项目(61671189,61571163 61532014.91735306:国家重点研发计划课题2016YFC09 编码RNA,长度约为20~24个核苷酸,通过碱基 01902). 通信作者:郭茂祖.E-mail:guomaozu@bucea.edu.cn 配对与其靶向的mRNA的3'端非编码区相结合
DOI: 10.11992/tis.201805043 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180716.1134.006.html 一种预测 miRNA 与疾病关联关系的矩阵分解算法 刘晓燕1 ,陈希1 ,郭茂祖1,2,车凯1 ,王春宇1 (1. 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001; 2. 北京建筑大学 电气与信息工程学院,北 京 100044) 摘 要:越来越多的证据表明 microRNAs(miRNAs) 在生命进程中发挥着重要作用。近年来,预测 miRNAs 与疾 病的关联关系成为一个研究热点。然而,现有的方法大多数是基于已知的 miRNA-疾病关联,对没有任何关联 信息的 miRNA 或疾病的效果是很不理想的。本文提出了一种矩阵分解的方法 LMFMDA(least squares optimization matrix factorization method for mirna-disease association) 对 miRNAs 和疾病的关联关系进行预测。LMFMDA 基于 miRNAs 相似度矩阵、疾病相似度矩阵和 miRNAs-疾病关联关系矩阵,用迭代最小二乘法求解 miRNAs 和疾病的表达向量,最终利用 miRNAs 和疾病的表达向量完成对 miRNA 与疾病关联关系的预测。与 常规做法不同的是,我们引入了辅助的 miRNAs 和疾病变量,来保证在优化时能够收敛到最优解。实验结果表 明,采用留一交叉验证法得到的 AUC 值可达 0.820 6,明显优于当前其他方法,尤其在没有任何关联信息的 miRNA 和疾病上,LMFMDA 算法比最新的算法有了极大的提升。 关键词:microRNAs;疾病;关联预测;矩阵分解;迭代最小二乘 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2018)06−0897−08 中文引用格式:刘晓燕, 陈希, 郭茂祖, 等. 一种预测 miRNA 与疾病关联关系的矩阵分解算法[J]. 智能系统学报, 2018, 13(6): 897–904. 英文引用格式:LIU Xiaoyan, CHEN Xi, GUO Maozu, et al. A matrix factorization method for predicting miRNA-disease association[J]. CAAI transactions on intelligent systems, 2018, 13(6): 897–904. A matrix factorization method for predicting miRNA-disease association LIU Xiaoyan1 ,CHEN Xi1 ,GUO Maozu1,2 ,CHE Kai1 ,WANG Chunyu1 (1. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China; 2. School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture, Beijing 100044, China) Abstract: There are increasing evidences that microRNAs (miRNAs) play an important role in life processes. In recent years, predicting the association between miRNAs and diseases has become an active topic. However, most of the existing methods are based on known miRNA-disease associations and are not ideal for miRNAs and diseases without any known associations. This paper presents a least squares optimization matrix factorization method for miRNA-disease association (LMFMDA) prediction. The LMFMDA, which is based on miRNAs similarity matrix, disease similarity matrix, and miRNAs-disease relationship, uses the iterative least squares method to solve the expression vectors of miRNAs and disease and approximates the existing associations between miRNAs and diseases by the expression vector of miRNA and disease. Different from the conventional approach, we introduce auxiliary miRNAs and disease variables to ensure that these variables converge to the optimal solution during optimization. The experiments show that the AUC obtained by applying the leave-one-out cross-validation method is 0.820 6, which is obviously better than other current methods. Especially in the miRNA and disease without any associated information, the LMFMDA algorithm significantly outperforms the latest algorithm. Keywords: microRNAs; disease; association prediction; matrix factorization; iterative least squares MicroRNAs(miRNAs) 是一类很小的内源性非 编码 RNA,长度约为 20~24 个核苷酸,通过碱基 配对与其靶向的 mRNA 的 3'端非编码区相结合, 收稿日期:2018−05−27. 网络出版日期:2018−07−17. 基金项目:国家自然科学基金项 目 (61671189, 61571163, 61532014,91735306);国家重点研发计划课题 (2016YFC09 01902). 通信作者:郭茂祖. E-mail:guomaozu@bucea.edu.cn. 第 13 卷第 6 期 智 能 系 统 学 报 Vol.13 No.6 2018 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2018
·898· 智能系统学报 第13卷 导致靶mRNA的降解或翻译抑制,从而在转录后 的种子应用RWR算法;Xuan等后又提出名为 水平上调控基因表达。越来越多的证据表明。 HDMP的方法一一基于加权最相似k近邻的方 miRNA在免疫反应、转录、增殖、分化、信号传导 法,预测与疾病相关的miRNA:Xu等1主要通过 和胚胎发育等4生物过程中起着重要的作用, 比对miRNA与mRNA表达谱融合多种疾病的表 miRNA突变、miRNA的生物合成和miRNA与其 型关联,预测与癌症相关的miRNA;2013年, 靶mRNA的功能失调可能会导致各种疾病。因 Mork等m提出一种蛋白质介导的预测方法,通过 此,识别miRNA与疾病之间的互作关系至关重 miRNA与蛋白质之间的关联、蛋白质与疾病之间 要。早期研究采用生物学实验方法确定miRNA 的关联预测miRNA与疾病之间的关系;2016年, 与特定疾病的关系,然而生物学实验方法实验周 Sun等u提出了基于已知的miRNA-疾病网络拓 期长、成本高。因此计算生物学方法分析、预测 扑相似性,以挖掘更多潜在的与疾病相关的 miRNAs和疾病的关联问题成为了当前的研究 miRNA,利用二分投影的方法,来完成miRNA与 热点。 疾病的关联预测工作。 到目前为止,基于网络拓扑结构的研究方法 1相关工作 处理miRNAs和疾病的关联预测问题上,更多的 目前,miRNA和疾病的关联预测主要分为基 倾向于基于已知的关联关系来挖掘其中潜在的关 于网络拓扑结构的方法和机器学习的方法。 系,而对缺少已知关联信息的miRNAs和疾病,其 基于网络拓扑结构的研究方法建立在“功能 结果往往呈现随机化 相似的iRNA调控的疾病也比较相似,反之亦 在机器学习方法研究上。2012年,Xu等20首 然这个假设基础上,文献10-19]就此展开了一 先使用机器学习方法预测miRNA与疾病之间的 系列研究工作。2010年,Jiang等o首次提出一种 关系。这种方法旨在从大规模的反例中分辨出正 计算方法,构建功能相关miRNA网络和人类疾病 例关联,核心是从iRNA-疾病网络中提取特征, 表型-miRNA网络,将人类的miRNA组按照与疾 训练一个SVM分类器。2013年,Jiang等又通 病关联得分的大小排序,预测miRNA与疾病的关 过构建不同于Xu的特征集一一一个关于miRNA 联。这是以前用基于网络的方法预测与疾病相关 信息的特征集和一个关于疾病表型信息的特征 的编码蛋白基因的合理延伸。2010年,Jiang等山 集,应用此方法得到相近的结果。2014年,Chen等回 又提出一种基于基因组数据融合的新方法,用朴 提出一种半监督的全局化方法(regularized least 素贝叶斯模型融合多种来源的数据,构建一个模 squares for mirna-disease association,RLSMDA), 型预测基因之间的功能相关性。分别用两个向量 没有负例集的情况下预测miRNA与疾病的关 表示疾病与基因之间的关联、miRNA与靶基因之 联。用正则化最小二乘法构建一个连续的分类函 间的关联。对于给定的疾病,计算其与每个mRNA 数,表示每个miRNA与给定疾病相关的概率,对 的相似得分,并从高到低排序,最高得分为与该 于未知相关mRNA的疾病,该方法也适用。 疾病相关的miRNA。Chen等2将随机游走算法 基于机器学习的方法能够取得与“基于网络 应用到miRNA-miRNA功能相似网络,在给定的 拓扑结构方法”相近或者更好结果,有的甚至很好 种子结点处开始,将已知的关联关系的大小作为 地处理未知miRNA的疾病,例如RLSMDA。而 转移概率,模拟网络中当前结点扩散到其邻结点 机器学习主要受制于miRNAs与疾病特征的表 的过程,以此来挖掘网络中可能潜在的关联关 示,以及对如何处理有正样本数据的模型设计。 系。Chen等1在2013年又提出一种基于相似度 基于矩阵分解的算法用高维空间的向量解决 的方法,分为3个策略:基于miRNA的相似度推 了特征表示的问题,算法同时构建miRNAs和疾 断(miRNA-based similarity inference,.MBSI)、基于 病在高维空间的表示,并以此为基础获得其关联 表型的相似度推断(phenoty pe-.based similarity in- 关系,用迭代最小二乘法求解出最终的miRNA- ference,PBSI)和基于网络一致性的推断(network-. 疾病关联关系的概率。这个求解思路来源于推荐 consistency-based inference,NetCBI):Shi 系统中当前所流行的矩阵分解方法,对解决类似 2013年提出一种基于可重启的随机游走(random 的关联关系预测问题在近年来也被证明非常有 walk with restart,RWR)算法的新方法,将疾病基 效。Shen21在2017年首次提出基于矩阵分解的 因和miRNA靶基因映射到蛋白质-蛋白质互作 方法对miRNAs和疾病的关联关系进行预测,并 (protein-protein interaction,PPI)网络上,设置不同 取得了比Chen更好的效果,但在其迭代求解的
导致靶 mRNA 的降解或翻译抑制,从而在转录后 水平上调控基因表达[1-3]。越来越多的证据表明, miRNA 在免疫反应、转录、增殖、分化、信号传导 和胚胎发育等[ 4 - 7 ]生物过程中起着重要的作用, miRNA 突变、miRNA 的生物合成和 miRNA 与其 靶 mRNA 的功能失调可能会导致各种疾病。因 此,识别 miRNA 与疾病之间的互作关系至关重 要。早期研究采用生物学实验方法确定 miRNA 与特定疾病的关系,然而生物学实验方法实验周 期长、成本高。因此计算生物学方法分析、预测 miRNAs 和疾病的关联问题成为了当前的研究 热点。 1 相关工作 目前,miRNA 和疾病的关联预测主要分为基 于网络拓扑结构的方法和机器学习的方法。 基于网络拓扑结构的研究方法建立在“功能 相似的 miRNA 调控的疾病也比较相似,反之亦 然 [8-9] ”这个假设基础上,文献[10-19]就此展开了一 系列研究工作。2010 年,Jiang 等 [10]首次提出一种 计算方法,构建功能相关 miRNA 网络和人类疾病 表型-miRNA 网络,将人类的 miRNA 组按照与疾 病关联得分的大小排序,预测 miRNA 与疾病的关 联。这是以前用基于网络的方法预测与疾病相关 的编码蛋白基因的合理延伸。2010 年,Jiang 等 [11] 又提出一种基于基因组数据融合的新方法,用朴 素贝叶斯模型融合多种来源的数据,构建一个模 型预测基因之间的功能相关性。分别用两个向量 表示疾病与基因之间的关联、miRNA 与靶基因之 间的关联。对于给定的疾病,计算其与每个 miRNA 的相似得分,并从高到低排序,最高得分为与该 疾病相关的 miRNA。Chen 等 [12]将随机游走算法 应用到 miRNA-miRNA 功能相似网络,在给定的 种子结点处开始,将已知的关联关系的大小作为 转移概率,模拟网络中当前结点扩散到其邻结点 的过程,以此来挖掘网络中可能潜在的关联关 系。Chen 等 [13]在 2013 年又提出一种基于相似度 的方法,分为 3 个策略:基于 miRNA 的相似度推 断 (miRNA-based similarity inference,MBSI)、基于 表型的相似度推断 (phenotype-based similarity inference,PBSI) 和基于网络一致性的推断 (networkconsistency-based inference,NetCBI);Shi 等 [14]于 2013 年提出一种基于可重启的随机游走 (random walk with restart,RWR) 算法的新方法,将疾病基 因和 miRNA 靶基因映射到蛋白质−蛋白质互作 (protein-protein interaction,PPI) 网络上,设置不同 的种子应用 RWR 算法;Xuan 等 [15]后又提出名为 HDMP 的方法——基于加权最相似 k 近邻的方 法,预测与疾病相关的 miRNA;Xu 等 [16]主要通过 比对 miRNA 与 mRNA 表达谱融合多种疾病的表 型关联,预测与癌症相关的 miRNA; 2013 年 , Mork 等 [17]提出一种蛋白质介导的预测方法,通过 miRNA 与蛋白质之间的关联、蛋白质与疾病之间 的关联预测 miRNA 与疾病之间的关系;2016 年, Sun 等 [19]提出了基于已知的 miRNA-疾病网络拓 扑相似性,以挖掘更多潜在的与疾病相关 的 miRNA,利用二分投影的方法,来完成 miRNA 与 疾病的关联预测工作。 到目前为止,基于网络拓扑结构的研究方法 处理 miRNAs 和疾病的关联预测问题上,更多的 倾向于基于已知的关联关系来挖掘其中潜在的关 系,而对缺少已知关联信息的 miRNAs 和疾病,其 结果往往呈现随机化。 在机器学习方法研究上。2012 年,Xu 等 [20]首 先使用机器学习方法预测 miRNA 与疾病之间的 关系。这种方法旨在从大规模的反例中分辨出正 例关联,核心是从 miRNA-疾病网络中提取特征, 训练一个 SVM 分类器。2013 年,Jiang 等 [21]又通 过构建不同于 Xu 的特征集——一个关于 miRNA 信息的特征集和一个关于疾病表型信息的特征 集,应用此方法得到相近的结果。2014 年,Chen 等 [22] 提出一种半监督的全局化方法 (regularized least squares for mirna-disease association,RLSMDA),在 没有负例集的情况下预测 miRNA 与疾病的关 联。用正则化最小二乘法构建一个连续的分类函 数,表示每个 miRNA 与给定疾病相关的概率,对 于未知相关 miRNA 的疾病,该方法也适用。 基于机器学习的方法能够取得与“基于网络 拓扑结构方法”相近或者更好结果,有的甚至很好 地处理未知 miRNA 的疾病,例如 RLSMDA。而 机器学习主要受制于 miRNAs 与疾病特征的表 示,以及对如何处理有正样本数据的模型设计。 基于矩阵分解的算法用高维空间的向量解决 了特征表示的问题,算法同时构建 miRNAs 和疾 病在高维空间的表示,并以此为基础获得其关联 关系,用迭代最小二乘法求解出最终的 miRNA- 疾病关联关系的概率。这个求解思路来源于推荐 系统中当前所流行的矩阵分解方法,对解决类似 的关联关系预测问题在近年来也被证明非常有 效。Shen[23]在 2017 年首次提出基于矩阵分解的 方法对 miRNAs 和疾病的关联关系进行预测,并 取得了比 Chen[22]更好的效果,但在其迭代求解的 ·898· 智 能 系 统 学 报 第 13 卷
第6期 刘晓燕,等:一种预测iRNA与疾病关联关系的矩阵分解算法 ·899· 过程中,受到其损失函数的影响无法使用最小二 2.4数据融合 乘法,导致其每个变量都需要迭代求解,这在同 将上述3个数据库的数据进行融合,最终得 时要求多个变量迭代求解的情况下,其结果很大 到了重合的446个miRNAs和322个疾病,和已 程度上依赖于初始解的选择,在很多的情况下甚 经确认的5152条miRNAs-疾病关联关系。 至无法收敛,算法的稳定性难以保证。 在疾病上的分布如图1所示。 本文提出的LMFMDA算法,首先构建miRNAs 12011 ■疾病总数=322 相似性网络、疾病相似性网络和miRNA-疾病关 ←100 80 联网络:进而构建矩阵分解算法模型,算法在利 60 40 36 27 用迭代最小二乘法优化求解的过程中,通过引入 20 18山119422■ 辅助miRNAs和疾病变量的方法,提高计算速度, 0 解决收敛结果最优的问题,确保算法的稳定性。 付图网厨手牙 马包s86 单个疾病上存在的关联个数/个 2 实验数据 图1 miRNAs-疾病关联关系在疾病中的分布图 在本节介绍LMFMDA算法所使用的数据和 Fig.1 Distribution map of the miRNAs-disease associ- 处理方法。数据来源如表1所示。 ation in diseases 表1数据材料及其来源表题 在miRNA上的分布如图2所示。 Table 1 Data materials and the sources ←留 ■总miRNAs=446 118 数据库 描述 网址 80 miRNA 44 MISIM http://www.mirbase.org/ 40 3233 相似性网络 19182864 医学主题词表, https://www.ncbi.nlm.nih MeSH 疾病描述 gov/mesh cE686 单个miRNA上存在的关联数/个 人类miRNA- HMDD http://www.cuilab.cn/hmdd 疾病关系 图2 niRNAs-疾病关联关系在miRNA中的分布图 Fig.2 Distribution map of the miRNAs-disease associ- 2.1 miRNAs功能相似度网络 ation in miRNAs 直接从MISIM数据库获得miRNAs的功能相 3 LMFMDA算法模型 似度网络MS,网络中miRNA之间的相似度被表 3.1损失函数 示为[0,1]的实数。 本文中,引人了矩阵分解的思想来解决miRNAs 2.2疾病语义相似性网络 疾病关联关系预测问题。 疾病的语义相似性通过MeSH得到,计算方 首先,通过整合miRNAs功能相似度网络和 法来自Wang24,假设疾病t是疾病d的一个祖 疾病语义相似性网络得到最终的miRNAs相似度 先,或者1,令: 矩阵MS和疾病相似度矩阵DS,以及已经被实验 Ca(0)= 1,t=d max(0.5×Ca(t)lr∈childrenoft),t≠d (1) 验证的miRNAs-疾病关联网络R。 首先,对每个miRNA和疾病,给定它们在固 疾病1和疾病2之间的语义相似性DS(d1, 定长度为k的维度空间的初始化投影向量,并以 d)即 其内积来表示miRNAs和疾病的关联关系,可以 用式(3)表示: DS(di,d2)= 之ru.nrd,.(C4)+C4,() (2) R=MD ∑ec0+∑eCa (3) 式中:M是由m(本文中m=446)个k维列向量组 2.3 miRNAs-疾病关联关系网络 成的k行m列的矩阵,同样的,D是k行d列(本 在HMDD数据库下载了现有的miRNAs- 文中d=322)的矩阵。我们的目标即是通过求解 疾病关联关系网络。网络包含了378个疾病、 合适的M和D来最小化R'和真实关系R的距 571个miRNAs及其构成的10381个关联关系。 离,即 关联矩阵R中,如果miRNA m(i)和疾病d)被认 mina:MM-MS+DD-DS (4) 为有关,则R(m()、d)为1,否则,为0。 考虑到这样的函数是二次的形式,在迭代优
过程中,受到其损失函数的影响无法使用最小二 乘法,导致其每个变量都需要迭代求解,这在同 时要求多个变量迭代求解的情况下,其结果很大 程度上依赖于初始解的选择,在很多的情况下甚 至无法收敛,算法的稳定性难以保证。 本文提出的 LMFMDA 算法,首先构建 miRNAs 相似性网络、疾病相似性网络和 miRNA-疾病关 联网络;进而构建矩阵分解算法模型,算法在利 用迭代最小二乘法优化求解的过程中,通过引入 辅助 miRNAs 和疾病变量的方法,提高计算速度, 解决收敛结果最优的问题,确保算法的稳定性。 2 实验数据 在本节介绍 LMFMDA 算法所使用的数据和 处理方法。数据来源如表 1 所示。 2.1 miRNAs 功能相似度网络 直接从 MISIM 数据库获得 miRNAs 的功能相 似度网络 MS,网络中 miRNA 之间的相似度被表 示为[0, 1]的实数。 2.2 疾病语义相似性网络 疾病的语义相似性通过 MeSH 得到,计算方 法来自 Wang[24] ,假设疾病 t 是疾病 d 的一个祖 先,或者 d=t,令: Cd(t) = { 1, t = d max{0.5×Cd(t ′ )|t ′ ∈ childrenoft}, t , d (1) 疾病 1 和疾病 2 之间的语义相似性 DS(d1 , d2 ) 即 DS(d1,d2) = ∑ t∈T(d1 )∩T(d2 ) (Cd1 (t)+Cd2 (t)) ∑ t∈T(d1 ) Cd1 (t)+ ∑ t∈T(d2) Cd2 (t) (2) 2.3 miRNAs-疾病关联关系网络 在 HMDD 数据库下载了现有的 miRNAs- 疾病关联关系网络。网络包含了 378 个疾病、 571 个 miRNAs 及其构成的 10 381 个关联关系。 关联矩阵 R 中,如果 miRNA m(i) 和疾病 d(j) 被认 为有关,则 R(m(i)、d(j)) 为 1,否则,为 0。 2.4 数据融合 将上述 3 个数据库的数据进行融合,最终得 到了重合的 446 个 miRNAs 和 322 个疾病,和已 经确认的 5 152 条 miRNAs-疾病关联关系。 在疾病上的分布如图 1 所示。 在 miRNA 上的分布如图 2 所示。 3 LMFMDA 算法模型 3.1 损失函数 本文中,引入了矩阵分解的思想来解决 miRNAs- 疾病关联关系预测问题。 首先,通过整合 miRNAs 功能相似度网络和 疾病语义相似性网络得到最终的 miRNAs 相似度 矩阵 MS 和疾病相似度矩阵 DS,以及已经被实验 验证的 miRNAs-疾病关联网络 R。 首先,对每个 miRNA 和疾病,给定它们在固 定长度为 k 的维度空间的初始化投影向量,并以 其内积来表示 miRNAs 和疾病的关联关系,可以 用式 (3) 表示: R ′ = MT D (3) 式中:M 是由 m(本文中 m=446) 个 k 维列向量组 成的 k 行 m 列的矩阵,同样的,D 是 k 行 d 列 (本 文中 d=322) 的矩阵。我们的目标即是通过求解 合适的 M 和 D 来最小化 R′和真实关系 R 的距 离,即 minλ1 MTM −MS 2 F +λ2 D T D−DS 2 F (4) 考虑到这样的函数是二次的形式,在迭代优 表 1 数据材料及其来源表题 Table 1 Data materials and the sources 数据库 描述 网址 MISIM miRNA 相似性网络 http://www.mirbase.org/ MeSH 医学主题词表, 疾病描述 https://www.ncbi.nlm.nih. gov/mesh HMDD 人类 miRNA- 疾病关系 http://www.cuilab.cn/hmdd 120 100 80 60 40 20 0 疾病个数/个 111 86 36 18 11 11 9 4 2 7 27 ≤2 (2,7] (7,12] (12,17] (17,22] (22,27] (27,32] (32,37] (37,42] (42,47] >47 单个疾病上存在的关联个数/个 疾病总数=322 图 1 miRNAs-疾病关联关系在疾病中的分布图 Fig. 1 Distribution map of the miRNAs-disease association in diseases 142 118 44 32 33 19 18 12 8 6 14 160 140 120 100 80 60 40 20 0 miRNA个数/个 单个miRNA上存在的关联数/个 总 miRNAs=446 ≤2 (2,7] (7,12] (12,17] (17,22] (22,27] (27,32] (32,37] (37,42] (42,47] >47 图 2 miRNAs-疾病关联关系在 miRNA 中的分布图 Fig. 2 Distribution map of the miRNAs-disease association in miRNAs 第 6 期 刘晓燕,等:一种预测 miRNA 与疾病关联关系的矩阵分解算法 ·899·
·900· 智能系统学报 第13卷 化时很难化简为不含有自身变量的等式,这会使 同样,固定其他参数,分别求解D、X、Y,有: 得在迭代的过程中无法取得最优解,我们引入了 D=(MM+(o+)-1l4+2YY) 辅助矩阵X和Y来进行优化,式(4)可以变形为 (M.R+AY.DS+uY) min:MX-MSM+ X=(O·MMr+4l)'(dM·MS+4M0 (9) (5) DTY-DS+lD-YI Y=(d2·DDT+l)(2·DDS+D) 经验性地,我们对需要约束的M、D加人二 33关联关系预测 范数的约束,以防止模型陷入过拟合。最终的损 利用得到的M和D,用其内积得到新的关联 失函数如式(6)所示: 关系矩阵R'=MD,其i行j列即为第i个miRNA L=IIMD-Rl+o(lIMI+lDIF)+ 和第j个疾病的被预测的关联关系。事实上,它 MX-MS+M- (6) 的值只有在和矩阵中其他值进行比较时才具有相 DTY-DS+D-YI 对的意义,值越大表示关联关系出现的概率越 3.2优化 大,但其与关联关系出现的概率并不完全等价。 我们采用迭代最小二乘的方式来优化这个问 3.4算法框架 题,先固定D、X、Y,求解M。对M求导,有 具体算法步骤如下: 80-2nD+2M 1)初始化miRNAs和疾病的向量矩阵M、D, 2·1·X·(MrX-MS)+2·4(M-X)= (7) 以及辅助向量X、Y,并构建损失函数; 2.DDM-2.DRT+2·oM+2·1·XXrM- 2)用迭代最小二乘法求解M和D: 2·X.MS+241M-24X A 3)根据M和D预测miRNAs-疾病的关联 aM0,有: 关系。 M=(DDr+(o+4)14+·XX) R=MD (DRr+1·X.MS+41X) (8) 算法框架如图3所示。 IMISIM L=IIMD-RIE(MI+DIEMX-MSI+ MlM-XIE+IIDTY-DSIIEUIID-YE 初始化M、D、X、y miRNAs 功能相似性网络 miRNAsf的k维向量,MIM-(DDE,4+,XXTy(DR+iXMS+u,X ID-(MM+(tu)IYY(MRi:Y-DStu:Y) (MeSH X-(MMT+UJ(M-MS+UM) Y=(DDT+uI(D-DS+uD) 收敛 疾病 疾病的维向量,D 语义相似性网络 R=MTD 图3 LMFMDA算法模型框图 Fig.3 The flow chat of LMFMDA algorithm model 3.5复杂度分析 Ok);DRr的时间复杂度为O(kdm),1·X·MS的时 时间复杂度上,对于每次迭代,我们以M的 间复杂度为Okm),山X时间复杂度为O(m2),这 求解为例,DD的时间复杂度为OK2d),(+4)I 3项加法时间复杂度为Okm);最后的乘法时 的时间复杂度为Ok2),XXT时间复杂度为Ok2m), 间复杂度为Okm);综上,求解M的时间复 这3项加法时间复杂度为O2),求逆复杂度为 杂度为O(max(k2m,k2d,kdm,km2),事实上,通常有
化时很难化简为不含有自身变量的等式,这会使 得在迭代的过程中无法取得最优解,我们引入了 辅助矩阵 X 和 Y 来进行优化,式 (4) 可以变形为 minλ1 MTX−MS 2 F +µ1 ∥M − X∥ 2 F + λ2 D TY −DS 2 F +µ2 ∥D−Y∥ 2 F (5) 经验性地,我们对需要约束的 M、D 加入二 范数的约束,以防止模型陷入过拟合。最终的损 失函数如式 (6) 所示: L = MT D− R 2 F +λ0 ( ∥M∥ 2 F +∥D∥ 2 F ) + λ1 MTX−MS 2 F +µ1 ∥M − X∥ 2 F + λ2 D TY −DS 2 F +µ2 ∥D−Y∥ 2 F (6) 3.2 优化 我们采用迭代最小二乘的方式来优化这个问 题,先固定 D、X、Y,求解 M。对 M 求导,有 ∂L ∂M = 2 · D· ( MT D− R )T +2 · λ0 · M+ 2 · λ1 · X· ( MTX−MS)T +2 · µ1 (M − X) = 2 · DDTM −2 · DRT +2 · λ0 · M +2 · λ1 · XXTM− 2 · λ1 · X·MST +2 · µ1 · M −2 · µ1 · X (7) ∂L ∂M 令 =0 ,有: M = ( DDT +(λ0 +µ1)·Ik +λ1 · XXT )−1 · ( D· R T +λ1 · X·MS+µ1 · X ) (8) 同样,固定其他参数,分别求解 D、X、Y,有: D = ( MMT +(λ0 +µ2)·Ik +λ2 ·YYT )−1 (M · R+λ2 ·Y ·DS+µ2 ·Y) X = ( λ1 · MMT +µ1 Ik )−1 (λ1 · M ·MS+µ1M) Y = ( λ2 · DDT +µ2 Ik )−1 (λ2 · D·DS+µ2 D) (9) 3.3 关联关系预测 R ′ = MT D 利用得到的 M 和 D,用其内积得到新的关联 关系矩阵 ,其 i 行 j 列即为第 i 个 miRNA 和第 j 个疾病的被预测的关联关系。事实上,它 的值只有在和矩阵中其他值进行比较时才具有相 对的意义,值越大表示关联关系出现的概率越 大,但其与关联关系出现的概率并不完全等价。 3.4 算法框架 具体算法步骤如下: 1) 初始化 miRNAs 和疾病的向量矩阵 M、D, 以及辅助向量 X、Y,并构建损失函数; 2) 用迭代最小二乘法求解 M 和 D; 3) 根据 M 和 D 预测 miRNAs-疾病的关联 关系。 R ′ = MT D 算法框架如图 3 所示。 3.5 复杂度分析 DDT O(k 2d) (λ0 +µ1)·Ik O(k 2 ) XXT O(k 2m) O(k 2 ) 时间复杂度上,对于每次迭代,我们以 M 的 求解为例, 的时间复杂度为 , 的时间复杂度为 , 时间复杂度为 , 这 3 项加法时间复杂度为 ,求逆复杂度为 O(k 3 ) DRT O(kdm) λ1 · X· MS O(km2 ) µ1 · X O(m 2 ) O(km) O(k 2m) O(max(k 2m, k 2d, kdm, km2 )) ; 的时间复杂度为 , 的时 间复杂度为 , 时间复杂度为 ,这 3 项加法时间复杂度为 ;最后的乘法时 间复杂度为 ;综上,求 解 M 的时间复 杂度为 ,事实上,通常有 MISIM miRNAs 功能相似性网络 MeSH 疾病 语义相似性网络 初始化 M、D 、X、 Y miRNAs的k维向量,M 疾病的k维向量,D 收敛 R′=MTD Y N M=(DDT+(λ0+μ1 )·Ik+λ1 ·XX T ) −1(D·RT+λ1 ·X·MS+μ1 ·X) D=(MMT+(λ0+μ2 )·Ik+λ2 ·YYT ) −1(M·R+λ2 ·Y·DS+μ2 ·Y) X=(λ1 ·MMT+μ1 Ik ) −1(λ1 ·M·MS+μ1M) Y=(λ2 ·DDT+μ2 Ik ) −1(λ2 ·D·DS+μ2D) L=||MTD−R| |F 2+λ0 (||M||F 2+||D||F 2 )+λ1 ||MTX−MS||F 2+ μ1 ||M−X||F 2+λ2 ||DTY−DS||F 2+μ2 ||D−Y||F 2 图 3 LMFMDA 算法模型框图 Fig. 3 The flow chat of LMFMDA algorithm model ·900· 智 能 系 统 学 报 第 13 卷
第6期 刘晓燕,等:一种预测mRNA与疾病关联关系的矩阵分解算法 ·901· k《m,k&d,于是求解M的时间复杂度为O(max 病上分别实验了RWRMDA!131、RLSMDAP2、CM (kdm,km2)) FMDA2以及本文提出的LMFMDA算法。实验 同样地,求解D、X、Y的时间复杂度分别为 结果如图4所示,LMFMDA的效果明显好于其 O(max(kdm,kdP),O(m),O(d)。单次迭代的时间复 他3种方法。 杂度为O(max(m3,dP)。LMFMDA的时间负责度即 1.0r O(t max(m,d),1为迭代次数。 0.8 空间复杂度上,LMFMDA要求MS、DS、R、 0.6 M、D、X和Y的存储空间,其空间复杂度为 0.4 Omax(m2,dP))。 RWRMDA AUC=0.6140 AUC 713 0 4实验结果 0 0.2 0.40.60.81.0 实验采用留一交叉验证方式进行,对每个关 FPR 系,将同一疾病下的未知关联视为负例,当前关 图4 RWRMDA、CMFMDA、RLSMDA和LMFMDA的 联视为正例,最终得到的AUC作为评价结果。 AUC结果 4.1实验参数 Fig.4 The AUC results of RWRMDA,CMFMDA,RLSM- 通过对不同的参数进行实验对比,得到了以 DA and LMFMDA 下参数组合:k=100,=6.0,1=0.8,2=0.8, 4.3分析 41=3.0,42=3.0。 我们分别记录了已知关联数>60的21个疾病 miRNAs与疾病的向量矩阵M与D初始化为 的实验结果(见表2、表3),以及已知关联数=1的 取值在[0,1]上的随机向量,X与Y分别初始化为 部分疾病的实验结果。已知关联数为1的疾病在 等同于M和D。 进行留一法实验时,会将唯一一个已知的关联mRNA 4.2结果评价 抹去,此时其已知关联数变为0,可以用于考察算 在第1节得到的446个miRNAs和322个疾 法在新疾病中的应用效果。 表2高关联疾病在不同算法下的AUC结果 Table 2 The AUC results of high association diseases on different algorithm 疾病名称 关联个数 LMFMDA RWRMDA CMFMDA RLSMDA Carcinoma,Hepatocellular 209 0.770559224 0.802276903 0.590942755 0.567805 Breast Neoplasms 188 0.830346921 0.827897392 0.70703151 0.581754 Stomach Neoplasms 166 0.800211245 0.792262639 0.698839765 0.600399 Colorectal Neoplasms 143 0.81668798 0.815944101 0.694280402 0.584037 Melanoma 133 0.841232579 0.830354129 0.76390898 0.635358 Lung Neoplasms 125 0.905461206 0.896782455 0.844726231 0.599347 Heart Failure 118 0.808275684 0.807732613 0.635453525 0.572331 Neoplasms 116 0.928867412 0.928671900 0.865145547 0.673341 Ovarian Neoplasms 113 0.885412621 0.881679824 0.84868783 0.635192 Prostatic Neoplasms 111 0.859754131 0.832764592 0.796275501 0.633915 Carcinoma,Renal Cell 100 0.849356847 0.829757803 0.775121532 0.615241 Glioblastoma 99 0.832863611 0.836865732 0.740363199 0.598405 Pancreatic Neoplasms 98 0.906984212 0.899958171 0.888816382 0.640774 Carcinoma,Non-Small-Cell Lung 92 0.869874132 0.859251012 0.813473715 0.603895 Urinary Bladder Neoplasms 89 0.853023601 0.834512166 0.830017501 0.633516 Colonic Neoplasms 82 0.866789314 0.865347844 0.808090055 0.642180
k ≪ m,k ≪ d O(max (kdm, km2 )) ,于是求解 M 的时间复杂度为 。 O(max(kdm, kd2 )) O(m 3 ) O(d 3 ) O(max(m 3 ,d 3 )) O(tmax(m 3 ,d 3 )) 同样地,求解 D、X、Y 的时间复杂度分别为 , , 。单次迭代的时间复 杂度为 。LMFMDA 的时间负责度即 ,t 为迭代次数。 O(max(m 2 ,d 2 )) 空间复杂度上,LMFMDA 要求 MS、DS、R、 M、 D 、 X 和 Y 的存储空间,其空间复杂度为 。 4 实验结果 实验采用留一交叉验证方式进行,对每个关 系,将同一疾病下的未知关联视为负例,当前关 联视为正例,最终得到的 AUC 作为评价结果。 4.1 实验参数 k = 100 λ0 = 6.0 λ1 = 0.8 λ2 = 0.8 µ1 = 3.0 µ2 = 3.0 通过对不同的参数进行实验对比,得到了以 下参数组合: , , , , , 。 miRNAs 与疾病的向量矩阵 M 与 D 初始化为 取值在[0, 1]上的随机向量,X 与 Y 分别初始化为 等同于 M 和 D。 4.2 结果评价 在第 1 节得到的 446 个 miRNAs 和 322 个疾 病上分别实验了 RWRMDA[13] 、RLSMDA[22] 、CMFMDA[23]以及本文提出的 LMFMDA 算法。实验 结果如图 4 所示,LMFMDA 的效果明显好于其 他 3 种方法。 4.3 分析 我们分别记录了已知关联数>60 的 21 个疾病 的实验结果 (见表 2、表 3),以及已知关联数=1 的 部分疾病的实验结果。已知关联数为 1 的疾病在 进行留一法实验时,会将唯一一个已知的关联 miRNA 抹去,此时其已知关联数变为 0,可以用于考察算 法在新疾病中的应用效果。 表 2 高关联疾病在不同算法下的 AUC 结果 Table 2 The AUC results of high association diseases on different algorithm 疾病名称 关联个数 LMFMDA RWRMDA CMFMDA RLSMDA Carcinoma, Hepatocellular 209 0.770 559 224 0.802 276 903 0.590 942 755 0.567 805 Breast Neoplasms 188 0.830 346 921 0.827 897 392 0.707 031 51 0.581 754 Stomach Neoplasms 166 0.800 211 245 0.792 262 639 0.698 839 765 0.600 399 Colorectal Neoplasms 143 0.816 687 98 0.815 944 101 0.694 280 402 0.584 037 Melanoma 133 0.841 232 579 0.830 354 129 0.763 908 98 0.635 358 Lung Neoplasms 125 0.905 461 206 0.896 782 455 0.844 726 231 0.599 347 Heart Failure 118 0.808 275 684 0.807 732 613 0.635 453 525 0.572 331 Neoplasms 116 0.928 867 412 0.928 671 900 0.865 145 547 0.673 341 Ovarian Neoplasms 113 0.885 412 621 0.881 679 824 0.848 687 83 0.635 192 Prostatic Neoplasms 111 0.859 754 131 0.832 764 592 0.796 275 501 0.633 915 Carcinoma, Renal Cell 100 0.849 356847 0.829 757 803 0.775 121 532 0.615 241 Glioblastoma 99 0.832 863 611 0.836 865 732 0.740 363 199 0.598 405 Pancreatic Neoplasms 98 0.906 984 212 0.899 958 171 0.888 816 382 0.640 774 Carcinoma, Non-Small-Cell Lung 92 0.869 874 132 0.859 251 012 0.813 473 715 0.603 895 Urinary Bladder Neoplasms 89 0.853 023 601 0.834 512 166 0.830 017501 0.633 516 Colonic Neoplasms 82 0.866 789 314 0.865 347 844 0.808 090 055 0.642 180 1.0 0.8 0.6 0.4 0.2 0 TPR 0 0.2 0.4 0.6 0.8 1.0 FPR LMFMDA AUC=0.8511 RLSMDA AUC=0.6338 CMFMDA AUC=0.7134 RWRMDA AUC=0.6140 图 4 RWRMDA、CMFMDA、RLSMDA 和 LMFMDA 的 AUC 结果 Fig. 4 The AUC results of RWRMDA, CMFMDA, RLSMDA and LMFMDA 第 6 期 刘晓燕,等:一种预测 miRNA 与疾病关联关系的矩阵分解算法 ·901·
·902· 智能系统学报 第13卷 续表2 疾病名称 关联个数 LMFMDA RWRMDA CMFMDA RLSMDA Carcinoma,Squamous Cell 78 0.859687413 0.5 0.833772833 0.596178 Glioma 73 0.878932151 0.864338837 0.864829853 0.648836 Esophageal Neoplasms r 0.781536412 0.767331361 0.725580306 0.572707 Leukemia.Myeloid,Acute 6> 0.872459673 0.871399804 0.792075146 0.623066 Head and Neck Neoplasms 63 0.847238105 0.5 0.836495898 0.665183 表3新疾病在不同算法下的AUC结果 Table 3 The AUC results of new diseases on different algorithm 疾病名称 关联个数 LMFMDA RWRMDA CMFMDA RLSMDA Distal Myopathies 0.5 0.995505618 0.993258 Hypopharyngeal Neoplasms 0.5 0.811235955 1 Hepatitis C,Chronic 0.5 1 1 Adenoma 0.5 1 Aortic Aneurysm,Abdominal 0.5 / Carcinoma,Ductal,Breast 0.5 1 Colitis 0.5 0.9707865170.997753 Neuroma,Acoustic 0.5 0.146067416 1 Creutzfeldt-Jakob Syndrome 0.5 0.997752809 0.997753 Eczema 0.5 0.912359551 0.997753 Hepatitis B,Chronic 0.5 1 1 Hepatitis 0.5 1 Granulosa Cell Tumor 0.5 0.939325843 1 Graft vs Host Disease 0.5 Gerstmann-Straussler-Scheinker Disease 0.5 1 0.997753 Gastritis,Atrophic 1 0.5 0.24494382 0.997753 Encephalomyelitis,Autoimmune,Experimental 0.997752809 0.5 0.982022472 0.995506 Moyamoya Disease 0.995505618 0.5 0.970786517 0.995506 Cystic Fibrosis 0.995505618 0.5 0.013483146 0.997753 Focal Epithelial Hyperplasia 0.995505618 0.5 0.224719101 可以看到,不论是在关联数较多的疾病或关 联数极少的疾病上,LMFMDA均表现出了优异的 1.0 效果。 0.8 0.6 5讨论 02 在提出LMFMDA的损失函数前,曾试图对 0 1131517191111131151171191 每个miRNA和疾病标注一个先验关联值,作为 第+1维,也是不参与运算的常数维。即: 图5带常数维模型中k与AUC关系图 R'=MD-em-ed Fig.5 The relation diagram of k and AUC in a model with 然而其k值和AUC关联关系如图5所示。 constant dimensional
可以看到,不论是在关联数较多的疾病或关 联数极少的疾病上,LMFMDA 均表现出了优异的 效果。 5 讨论 在提出 LMFMDA 的损失函数前,曾试图对 每个 miRNA 和疾病标注一个先验关联值,作为 第 k+1 维,也是不参与运算的常数维。即: R ′ = MT D−em−edT 然而其 k 值和 AUC 关联关系如图 5 所示。 表 3 新疾病在不同算法下的 AUC 结果 Table 3 The AUC results of new diseases on different algorithm 疾病名称 关联个数 LMFMDA RWRMDA CMFMDA RLSMDA Distal Myopathies 1 1 0.5 0.995 505 618 0.993 258 Hypopharyngeal Neoplasms 1 1 0.5 0.811 235 955 1 Hepatitis C, Chronic 1 1 0.5 1 1 Adenoma 1 1 0.5 1 1 Aortic Aneurysm, Abdominal 1 1 0.5 1 1 Carcinoma, Ductal, Breast 1 1 0.5 1 1 Colitis 1 1 0.5 0.970 786 517 0.997 753 Neuroma, Acoustic 1 1 0.5 0.146 067 416 1 Creutzfeldt-Jakob Syndrome 1 1 0.5 0.997 752 809 0.997 753 Eczema 1 1 0.5 0.912 359 551 0.997 753 Hepatitis B, Chronic 1 1 0.5 1 1 Hepatitis 1 1 0.5 1 1 Granulosa Cell Tumor 1 1 0.5 0.939 325 843 1 Graft vs Host Disease 1 1 0.5 1 1 Gerstmann-Straussler-Scheinker Disease 1 1 0.5 1 0.997 753 Gastritis, Atrophic 1 1 0.5 0.244 943 82 0.997 753 Encephalomyelitis, Autoimmune, Experimental 1 0.997752809 0.5 0.982 022 472 0.995 506 Moyamoya Disease 1 0.995505618 0.5 0.970 786 517 0.995 506 Cystic Fibrosis 1 0.995505618 0.5 0.013 483 146 0.997 753 Focal Epithelial Hyperplasia 1 0.995505618 0.5 0.224 719 101 1 0.8 1.0 0.6 0.4 0.2 0 AUC 11 31 51 71 91 111 131 151 171 191 k 图 5 带常数维模型中 k 与 AUC 关系图 Fig. 5 The relation diagram of k and AUC in a model with constant dimensional 续表 2 疾病名称 关联个数 LMFMDA RWRMDA CMFMDA RLSMDA Carcinoma, Squamous Cell 78 0.859 687413 0.5 0.833 772 833 0.596 178 Glioma 73 0.878 932 151 0.864 338 837 0.864 829 853 0.648 836 Esophageal Neoplasms 68 0.781 536 412 0.767 331 361 0.725 580 306 0.572 707 Leukemia, Myeloid, Acute 67 0.872 459 673 0.871 399 804 0.792 075 146 0.623 066 Head and Neck Neoplasms 63 0.847 238 105 0.5 0.836 495 898 0.665 183 ·902· 智 能 系 统 学 报 第 13 卷
第6期 刘晓燕,等:一种预测mRNA与疾病关联关系的矩阵分解算法 ·903· 可以看到,在>100时,AUC值基本趋于稳 regulation of cell death[J].Trends in genetics,2004, 定。而对=100维这样的子空间来说,单独的常 20(12):617-624 数维并不会对结果有很大的影响,于是删除了假 [8]YOU Zhuhong,HUANG Zhian,ZHU Zexuan,et al.PBM- 设的先验关联值,最终确定了预测模型。 DA:a novel and effective path-based computational mod- el for miRNA-disease association prediction[J].PLoS com- 6结论 putational biology,2017,13(3):e1005455. [9]SHI Hongbo,ZHANG Guangde,ZHOU Meng,et al.In- 本文基于矩阵分解和迭代最小二乘的方法 tegration of multiple genomic and phenotype data to infer (LMFMDA)对miRNAs和疾病的关联关系进行预 novel miRNA-disease associations[J].PLoS one,2016. 测。首先对miRNAs相似度矩阵、疾病相似度矩 11(2):e0148521. 阵和miRNAs-疾病关联关系进行数据融合,采用 [10]JIANG Qinghua,HAO Yangyang,WANG Guohua,et al. 迭代最小二乘法求解miRNAs和疾病的表达向 Prioritization of disease microRNAs through a human 量,最后利用miRNAs和疾病的表达向量完成对 phenome-microRNAome network[J].BMC systems bio- mmiRNA与疾病关联关系的预测。同时,通过引人 1ogy,2010,4S1):S2. 辅助miRNAs和疾病变量的方法,解决了收敛结 [11]JIANG Qinghua,WANG Guohua,WANG Yadong.An 果的最优问题。实验显示,LMFMDA在高关联疾 approach for prioritizing disease-related microRNAs 病和新疾病预测中相对于其他方法均取了较优的 based on genomic data integration[Cl//Proceedings of the 结果。 3rd International Conference on Biomedical Engineering 综上,本文提出的miRNA与疾病关联预测算 and Informatics.Yantai,China,2010:2270-2274. 法LMFMDA,一方面可以处理未知相关miRNAs [12]CHEN Xing,LIU Mingxi,YAN Guiying.RWRMDA: 的疾病、或者未知相关疾病的miRNAs;另一方 predicting novel human microRNA-disease associ- 面,实验结果也表明,LMFMDA算法在miRNAs ations[J].Molecular biosystems,2012,8(10):2792-2798. 和疾病的关联关系预测上相较其他算法有更好的 [13]CHEN Hailin,ZHANG Zuping.Similarity-based meth- 效果。 ods for potential human microRNA-disease association prediction[J].BMC medical genomics,2013,6:12 参考文献: [14]SHI Hongbo,XU Juan,ZHANG Guangde,et al.Walking the interactome to identify human miRNA-disease associ- [1]WANG Qianghu,SUN Jie,ZHOU Meng,et al.A novel ations through the functional link between miRNA tar- network-based method for measuring the functional rela- gets and disease genes[J].BMC systems biology,2013,7: tionship between gene sets[J].Bioinformatics,2011, 101. 27(11):1521-1528 [2]LV Sali,LI Yan,WANG Qianghu,et al.A novel method [15]XUAN Ping,HAN Ke,GUO Maozu,et al.Prediction of microRNAs associated with human diseases based on to quantify gene set functional association based on gene weighted k most similar neighbors[J].PLoS one,2013, ontology[J].Journal of the royal society interface,2012, 8(8):e70204. 9(70):1063-1072. [3]HRISTOVSKI D,FRIEDMAN C,RINDFLESCH T C,et [16]XU Chaohan,PING Yanyan,LI Xiang,et al.Prioritizing al.Exploiting semantic relations for literature-based dis- candidate disease miRNAs by integrating phenotype asso- covery[J].AMIA annual symposium proceedings,2006, ciations of multiple diseases with matched miRNA and 2006:349-353 mRNA expression profiles[J].Molecular biosystems, [4]KARP X,AMBROS V.Encountering microRNAs in cell 2014,10(11):2800-2809. fate signaling[J].Science,2005,310(5752):1288-1289. [17]MORK S.PLETSCHER-FRANKILD S.PALLEJA [5]CHENG A M.BYROM M W.SHELTON J,et al.Antis- CARO A,et al.Protein-driven inference of miRNA-dis- ense inhibition of human miRNAs and indications for an ease associations[J].Bioinformatics,2014,30(3): involvement of miRNA in cell growth and apoptosis[J]. 392-397. Nucleic acids research,2005,33(4):1290-1297. [18]PASQUIER C,GARDES J.Prediction of miRNA-dis- [6]MISKA E A.How microRNAs control cell division,dif- ease associations with a vector space model[J.Scientific ferentiation and death[J].Current opinion in genetics and reports,2016,6:27036. development,2005,15(5):563-568. [19]SUN Dongdong,LI Ao,FENG Huanging,et al.NTSM- [7]XU Peizhang,GUO Ming,HAY B A.MicroRNAs and the DA:prediction of miRNA-disease associations by integ-
可以看到,在 k>100 时,AUC 值基本趋于稳 定。而对 k=100 维这样的子空间来说,单独的常 数维并不会对结果有很大的影响,于是删除了假 设的先验关联值,最终确定了预测模型。 6 结论 本文基于矩阵分解和迭代最小二乘的方法 (LMFMDA) 对 miRNAs 和疾病的关联关系进行预 测。首先对 miRNAs 相似度矩阵、疾病相似度矩 阵和 miRNAs-疾病关联关系进行数据融合,采用 迭代最小二乘法求解 miRNAs 和疾病的表达向 量,最后利用 miRNAs 和疾病的表达向量完成对 miRNA 与疾病关联关系的预测。同时,通过引入 辅助 miRNAs 和疾病变量的方法,解决了收敛结 果的最优问题。实验显示,LMFMDA 在高关联疾 病和新疾病预测中相对于其他方法均取了较优的 结果。 综上,本文提出的 miRNA 与疾病关联预测算 法 LMFMDA,一方面可以处理未知相关 miRNAs 的疾病、或者未知相关疾病的 miRNAs;另一方 面,实验结果也表明,LMFMDA 算法在 miRNAs 和疾病的关联关系预测上相较其他算法有更好的 效果。 参考文献: WANG Qianghu, SUN Jie, ZHOU Meng, et al. A novel network-based method for measuring the functional relationship between gene sets[J]. Bioinformatics, 2011, 27(11): 1521–1528. [1] LV Sali, LI Yan, WANG Qianghu, et al. A novel method to quantify gene set functional association based on gene ontology[J]. Journal of the royal society interface, 2012, 9(70): 1063–1072. [2] HRISTOVSKI D, FRIEDMAN C, RINDFLESCH T C, et al. Exploiting semantic relations for literature-based discovery[J]. AMIA annual symposium proceedings, 2006, 2006: 349–353. [3] KARP X, AMBROS V. Encountering microRNAs in cell fate signaling[J]. Science, 2005, 310(5752): 1288–1289. [4] CHENG A M, BYROM M W, SHELTON J, et al. Antisense inhibition of human miRNAs and indications for an involvement of miRNA in cell growth and apoptosis[J]. Nucleic acids research, 2005, 33(4): 1290–1297. [5] MISKA E A. How microRNAs control cell division, differentiation and death[J]. Current opinion in genetics and development, 2005, 15(5): 563–568. [6] [7] XU Peizhang, GUO Ming, HAY B A. MicroRNAs and the regulation of cell death[J]. Trends in genetics, 2004, 20(12): 617–624. YOU Zhuhong, HUANG Zhian, ZHU Zexuan, et al. PBMDA: a novel and effective path-based computational model for miRNA-disease association prediction[J]. PLoS computational biology, 2017, 13(3): e1005455. [8] SHI Hongbo, ZHANG Guangde, ZHOU Meng, et al. Integration of multiple genomic and phenotype data to infer novel miRNA-disease associations[J]. PLoS one, 2016, 11(2): e0148521. [9] JIANG Qinghua, HAO Yangyang, WANG Guohua, et al. Prioritization of disease microRNAs through a human phenome-microRNAome network[J]. BMC systems biology, 2010, 4(S1): S2. [10] JIANG Qinghua, WANG Guohua, WANG Yadong. An approach for prioritizing disease-related microRNAs based on genomic data integration[C]//Proceedings of the 3rd International Conference on Biomedical Engineering and Informatics. Yantai, China, 2010: 2270–2274. [11] CHEN Xing, LIU Mingxi, YAN Guiying. RWRMDA: predicting novel human microRNA–disease associations[J]. Molecular biosystems, 2012, 8(10): 2792–2798. [12] CHEN Hailin, ZHANG Zuping. Similarity-based methods for potential human microRNA-disease association prediction[J]. BMC medical genomics, 2013, 6: 12. [13] SHI Hongbo, XU Juan, ZHANG Guangde, et al. Walking the interactome to identify human miRNA-disease associations through the functional link between miRNA targets and disease genes[J]. BMC systems biology, 2013, 7: 101. [14] XUAN Ping, HAN Ke, GUO Maozu, et al. Prediction of microRNAs associated with human diseases based on weighted k most similar neighbors[J]. PLoS one, 2013, 8(8): e70204. [15] XU Chaohan, PING Yanyan, LI Xiang, et al. Prioritizing candidate disease miRNAs by integrating phenotype associations of multiple diseases with matched miRNA and mRNA expression profiles[J]. Molecular biosystems, 2014, 10(11): 2800–2809. [16] MØRK S, PLETSCHER-FRANKILD S, PALLEJA CARO A, et al. Protein-driven inference of miRNA–disease associations[J]. Bioinformatics, 2014, 30(3): 392–397. [17] PASQUIER C, GARDÈS J. Prediction of miRNA-disease associations with a vector space model[J]. Scientific reports, 2016, 6: 27036. [18] SUN Dongdong, LI Ao, FENG Huanqing, et al. NTSMDA: prediction of miRNA–disease associations by integ- [19] 第 6 期 刘晓燕,等:一种预测 miRNA 与疾病关联关系的矩阵分解算法 ·903·
·904· 智能系统学报 第13卷 rating network topological similarity[J].Molecular 作者简介: biosystems,2016,12(7):22242232 刘晓燕,女,1963年生,副研究 [20]LI Xia,XU Juan,LI Yongsheng.Prioritizing candidate 员,博士,主要研究方向为生物信息 disease miRNAs by topological features in the miRNA- 学、数据挖掘。 target dysregulated network[M]//AZMI A S.Systems Biology in Cancer Research and Drug Discovery.Nether- lands:Springer,2012:289-306. [21]JIANG Qinghua,WANG Guohua,JIN Shuilin,et al.Pre- dicting human microRNA-disease associations based on 陈希,男,1995年生,硕土研究 support vector machine[J].International journal of data 生,主要研究方向为生物信息学。 mining and bioinformatics,2013,8(3):282-293. [22]CHEN Xing,YAN Guiying.Semi-supervised learning for potential human microRNA-disease associations infer- ence[J].Scientific reports,2014,4:5501. [23]SHEN Zhen,ZHANG Youhua,HAN K,et al.miRNA- 郭茂祖.男,1966年生.教授,博 disease association prediction with collaborative matrix 土生导师,博土,主要研究方向为机器 factorization[J].Complexity,2017,2017:2498957. 学习、智慧城市、生物信息学。 [24]WANG Dong,WANG Juan,LU Ming,et al.Inferring the human microRNA functional similarity and functional network based on microRNA-associated diseases[J]. Bioinformatics,2010,26(13):1644-1650
rating network topological similarity[J]. Molecular biosystems, 2016, 12(7): 2224–2232. LI Xia, XU Juan, LI Yongsheng. Prioritizing candidate disease miRNAs by topological features in the miRNAtarget dysregulated network[M]//AZMI A S. Systems Biology in Cancer Research and Drug Discovery. Netherlands: Springer, 2012: 289–306. [20] JIANG Qinghua, WANG Guohua, JIN Shuilin, et al. Predicting human microRNA-disease associations based on support vector machine[J]. International journal of data mining and bioinformatics, 2013, 8(3): 282–293. [21] CHEN Xing, YAN Guiying. Semi-supervised learning for potential human microRNA-disease associations inference[J]. Scientific reports, 2014, 4: 5501. [22] SHEN Zhen, ZHANG Youhua, HAN K, et al. miRNAdisease association prediction with collaborative matrix factorization[J]. Complexity, 2017, 2017: 2498957. [23] WANG Dong, WANG Juan, LU Ming, et al. Inferring the human microRNA functional similarity and functional network based on microRNA-associated diseases[J]. Bioinformatics, 2010, 26(13): 1644–1650. [24] 作者简介: 刘晓燕,女,1963 年生,副研究 员,博士,主要研究方向为生物信息 学、数据挖掘。 陈希,男,1995 年生,硕士研究 生,主要研究方向为生物信息学。 郭茂祖,男,1966 年生,教授,博 士生导师,博士,主要研究方向为机器 学习、智慧城市、生物信息学。 ·904· 智 能 系 统 学 报 第 13 卷