正在加载图片...
第6期 刘晓燕,等:一种预测iRNA与疾病关联关系的矩阵分解算法 ·899· 过程中,受到其损失函数的影响无法使用最小二 2.4数据融合 乘法,导致其每个变量都需要迭代求解,这在同 将上述3个数据库的数据进行融合,最终得 时要求多个变量迭代求解的情况下,其结果很大 到了重合的446个miRNAs和322个疾病,和已 程度上依赖于初始解的选择,在很多的情况下甚 经确认的5152条miRNAs-疾病关联关系。 至无法收敛,算法的稳定性难以保证。 在疾病上的分布如图1所示。 本文提出的LMFMDA算法,首先构建miRNAs 12011 ■疾病总数=322 相似性网络、疾病相似性网络和miRNA-疾病关 ←100 80 联网络:进而构建矩阵分解算法模型,算法在利 60 40 36 27 用迭代最小二乘法优化求解的过程中,通过引入 20 18山119422■ 辅助miRNAs和疾病变量的方法,提高计算速度, 0 解决收敛结果最优的问题,确保算法的稳定性。 付图网厨手牙 马包s86 单个疾病上存在的关联个数/个 2 实验数据 图1 miRNAs-疾病关联关系在疾病中的分布图 在本节介绍LMFMDA算法所使用的数据和 Fig.1 Distribution map of the miRNAs-disease associ- 处理方法。数据来源如表1所示。 ation in diseases 表1数据材料及其来源表题 在miRNA上的分布如图2所示。 Table 1 Data materials and the sources ←留 ■总miRNAs=446 118 数据库 描述 网址 80 miRNA 44 MISIM http://www.mirbase.org/ 40 3233 相似性网络 19182864 医学主题词表, https://www.ncbi.nlm.nih MeSH 疾病描述 gov/mesh cE686 单个miRNA上存在的关联数/个 人类miRNA- HMDD http://www.cuilab.cn/hmdd 疾病关系 图2 niRNAs-疾病关联关系在miRNA中的分布图 Fig.2 Distribution map of the miRNAs-disease associ- 2.1 miRNAs功能相似度网络 ation in miRNAs 直接从MISIM数据库获得miRNAs的功能相 3 LMFMDA算法模型 似度网络MS,网络中miRNA之间的相似度被表 3.1损失函数 示为[0,1]的实数。 本文中,引人了矩阵分解的思想来解决miRNAs 2.2疾病语义相似性网络 疾病关联关系预测问题。 疾病的语义相似性通过MeSH得到,计算方 首先,通过整合miRNAs功能相似度网络和 法来自Wang24,假设疾病t是疾病d的一个祖 疾病语义相似性网络得到最终的miRNAs相似度 先,或者1,令: 矩阵MS和疾病相似度矩阵DS,以及已经被实验 Ca(0)= 1,t=d max(0.5×Ca(t)lr∈childrenoft),t≠d (1) 验证的miRNAs-疾病关联网络R。 首先,对每个miRNA和疾病,给定它们在固 疾病1和疾病2之间的语义相似性DS(d1, 定长度为k的维度空间的初始化投影向量,并以 d)即 其内积来表示miRNAs和疾病的关联关系,可以 用式(3)表示: DS(di,d2)= 之ru.nrd,.(C4)+C4,() (2) R=MD ∑ec0+∑eCa (3) 式中:M是由m(本文中m=446)个k维列向量组 2.3 miRNAs-疾病关联关系网络 成的k行m列的矩阵,同样的,D是k行d列(本 在HMDD数据库下载了现有的miRNAs- 文中d=322)的矩阵。我们的目标即是通过求解 疾病关联关系网络。网络包含了378个疾病、 合适的M和D来最小化R'和真实关系R的距 571个miRNAs及其构成的10381个关联关系。 离,即 关联矩阵R中,如果miRNA m(i)和疾病d)被认 mina:MM-MS+DD-DS (4) 为有关,则R(m()、d)为1,否则,为0。 考虑到这样的函数是二次的形式,在迭代优过程中,受到其损失函数的影响无法使用最小二 乘法,导致其每个变量都需要迭代求解,这在同 时要求多个变量迭代求解的情况下,其结果很大 程度上依赖于初始解的选择,在很多的情况下甚 至无法收敛,算法的稳定性难以保证。 本文提出的 LMFMDA 算法,首先构建 miRNAs 相似性网络、疾病相似性网络和 miRNA-疾病关 联网络;进而构建矩阵分解算法模型,算法在利 用迭代最小二乘法优化求解的过程中,通过引入 辅助 miRNAs 和疾病变量的方法,提高计算速度, 解决收敛结果最优的问题,确保算法的稳定性。 2 实验数据 在本节介绍 LMFMDA 算法所使用的数据和 处理方法。数据来源如表 1 所示。 2.1 miRNAs 功能相似度网络 直接从 MISIM 数据库获得 miRNAs 的功能相 似度网络 MS,网络中 miRNA 之间的相似度被表 示为[0, 1]的实数。 2.2 疾病语义相似性网络 疾病的语义相似性通过 MeSH 得到,计算方 法来自 Wang[24] ,假设疾病 t 是疾病 d 的一个祖 先,或者 d=t,令: Cd(t) = { 1, t = d max{0.5×Cd(t ′ )|t ′ ∈ childrenoft}, t , d (1) 疾病 1 和疾病 2 之间的语义相似性 DS(d1 , d2 ) 即 DS(d1,d2) = ∑ t∈T(d1 )∩T(d2 ) (Cd1 (t)+Cd2 (t)) ∑ t∈T(d1 ) Cd1 (t)+ ∑ t∈T(d2) Cd2 (t) (2) 2.3 miRNAs-疾病关联关系网络 在 HMDD 数据库下载了现有的 miRNAs- 疾病关联关系网络。网络包含了 378 个疾病、 571 个 miRNAs 及其构成的 10 381 个关联关系。 关联矩阵 R 中,如果 miRNA m(i) 和疾病 d(j) 被认 为有关,则 R(m(i)、d(j)) 为 1,否则,为 0。 2.4 数据融合 将上述 3 个数据库的数据进行融合,最终得 到了重合的 446 个 miRNAs 和 322 个疾病,和已 经确认的 5 152 条 miRNAs-疾病关联关系。 在疾病上的分布如图 1 所示。 在 miRNA 上的分布如图 2 所示。 3 LMFMDA 算法模型 3.1 损失函数 本文中,引入了矩阵分解的思想来解决 miRNAs- 疾病关联关系预测问题。 首先,通过整合 miRNAs 功能相似度网络和 疾病语义相似性网络得到最终的 miRNAs 相似度 矩阵 MS 和疾病相似度矩阵 DS,以及已经被实验 验证的 miRNAs-疾病关联网络 R。 首先,对每个 miRNA 和疾病,给定它们在固 定长度为 k 的维度空间的初始化投影向量,并以 其内积来表示 miRNAs 和疾病的关联关系,可以 用式 (3) 表示: R ′ = MT D (3) 式中:M 是由 m(本文中 m=446) 个 k 维列向量组 成的 k 行 m 列的矩阵,同样的,D 是 k 行 d 列 (本 文中 d=322) 的矩阵。我们的目标即是通过求解 合适的 M 和 D 来最小化 R′和真实关系 R 的距 离,即 minλ1 MTM −MS 2 F +λ2 D T D−DS 2 F (4) 考虑到这样的函数是二次的形式,在迭代优 表 1 数据材料及其来源表题 Table 1 Data materials and the sources 数据库 描述 网址 MISIM miRNA 相似性网络 http://www.mirbase.org/ MeSH 医学主题词表, 疾病描述 https://www.ncbi.nlm.nih. gov/mesh HMDD 人类 miRNA- 疾病关系 http://www.cuilab.cn/hmdd 120 100 80 60 40 20 0 疾病个数/个 111 86 36 18 11 11 9 4 2 7 27 ≤2 (2,7] (7,12] (12,17] (17,22] (22,27] (27,32] (32,37] (37,42] (42,47] >47 单个疾病上存在的关联个数/个 疾病总数=322 图 1 miRNAs-疾病关联关系在疾病中的分布图 Fig. 1 Distribution map of the miRNAs-disease associ￾ation in diseases 142 118 44 32 33 19 18 12 8 6 14 160 140 120 100 80 60 40 20 0 miRNA个数/个 单个miRNA上存在的关联数/个 总 miRNAs=446 ≤2 (2,7] (7,12] (12,17] (17,22] (22,27] (27,32] (32,37] (37,42] (42,47] >47 图 2 miRNAs-疾病关联关系在 miRNA 中的分布图 Fig. 2 Distribution map of the miRNAs-disease associ￾ation in miRNAs 第 6 期 刘晓燕,等:一种预测 miRNA 与疾病关联关系的矩阵分解算法 ·899·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有