正在加载图片...
第17卷 智能系统学报 ·548· 低维、稠密的向量重新表示,同时尽可能保留网 集成方法是对于同一网络并行训练多个较弱的个 络中包含的结构信息。因此,网络被映射到向量 体学习器,每个个体学习器的输出都是网络表示, 空间中就可以使用经典的机器学习技术处理很多 然后采用某种结合策略集成这些输出进而得到更 网络分析问题。现有的网络表示学习方法主要分 好的网络表示。stacking集成方法是集成方法的 为以下3类: 一种,结合策略是学习法,即选用次级学习器集 I)基于矩阵分解的网络表示学习。Roweis等9 成个体学习器的输出。次级学习器的选择是影响 提出的局部线性表示算法(locally linear embeding, 结果的重要因素,现有工作证明Kipf等o提出的 LLE)假设节点和它的邻居节点都处于同一流形 图卷积神经网络l(graph convolutional network, 区域,通过它的邻居节点表示的线性组合近似得 GCN)在提升网络分析性能上有着显著的效果, 到节点表示;He等1o提出的保留局部映射算法 GCN通过卷积层聚合网络中节点及邻居的信息, (locality preserving projections,LPP)通过对非线性 根据归一化拉普拉斯矩阵的性质向邻居分配权 的拉普拉斯特征映射方法进行线性的近似得到节 重,中心节点及邻居信息加权后更新中心节点的 点表示;Tu等川提出的图形分解算法(max mar- 特征表示。 gin deep walk,MMDW)通过对邻接矩阵分解得到 综上所述,本文的贡献有以下几点: 节点表示。Cao等提出的GraRep算法通过保 1)提出了基于stacking集成学习的网络表示 留节点的k阶邻近性保留全局网络结构。 学习,并行训练多个较弱的初级学习器,并将它 2)基于浅层神经网络的网络表示学习。Perozzi 们的网络表示拼接,选用GCN作为次级学习器, 等I]提出的DeepWalk算法通过随机游走遍历网 聚合中心节点及邻居信息得到最终的网络表示, 络中的节点得到有序的节点序列,然后利用Skip- 这样可得到更好的网络表示。 Gram模型预测节点的前后序列学习得到节点的 2)利用网络的一阶邻近性设计了损失函数; 向量表示:Grover等提出的Node2Vec改进了 3)设计了评价指标MRR、Hit@1、Hit@3、 DeepWalk的随机游走过程,通过引进两个参数 Ht@10,分别评价初级学习器和集成后的网络表 p和g控制深度优先搜索和广度优先搜索;Tang 示,验证了提出的算法具有较好的网络表示性 等Ils)提出的Line算法能够处理任意类型的大 能,各评价指标平均提升了1.47~2.97倍。 规模网络,包括有向和无向、有权重和无权重,该 1问题定义 算法保留了网络中节点的一阶邻近性和二阶邻 近性。 定义1给定网络G=<VE>,其中V表示节 3)基于深度学习的网络表示学习。Wang等 点集合,E表示节点之间的边集合,记y,∈V表示一 提出的SDNE算法利用深度神经网络对网络表示 个节点,e,=(,v)∈E表示一条边,由E构建邻接 学习进行建模,将输入节点映射到高度非线性空 矩阵A∈Rmm表示网络的拓扑结构,n=IVⅥ,若 间中获取网络结构信息。Hamilton等1刀提出的 e∈E,则Aj>0,若e生E,则A=0。 GraphSAGE是一种适用于大规模网络的归纳式 定义26给定网络G,每个节点的属性特征 学习方法,通过聚集采样到的邻居节点表示更新 是m维,G有n个节点,则网络G对应的节点特 当前节点的特征表示。Wang等18提出的Grapha- 征矩阵H∈Rm。网络表示学习的目标是根据网 GAN引入对抗生成网络进行网络表示学习。上 络中任意节点y,∈V学习得到低维向量Z∈Rx4,其 述研究方法大多是设计一种有效的模型分别应用 中d冬n。学习到的低维向量表示可客观反映节 不同的数据集学习得到高质量的网络表示,但是 点在原始网络中的结构特性。例如,相似的节点 单一模型的泛化能力较弱。为了解决此问题,目 应相互靠近,不相似的节点应相互远离。 前有学者提出使用集成思想学习网络表示,Zhang 定义3一阶邻近性1。网络中的一阶邻近 等9提出的基于集成学习的网络表示学习,其中 性是指两个节点之间存在边,若节点y,和y,之间 stacking集成分别将GCN和GAE作为初级模型, 存在边,这条边的权重"表示”,和y之间的一 得到两部分节点嵌入拼接后作为节点特征,其与 阶邻近性,若节点y,和y之间没有边,则,和y 原始图数据构成新数据集,最后将三层GCN作为 之间的一阶邻近性为0。 次级模型处理新数据集,使用部分节点标签进行 定义4二阶邻近性1。网络中一对节点 半监督训练。 ’,和y之间的二阶邻近性是指它们的邻域网络结 本文引入了stacking集成方法学习网络表示。 构之间的相似性,令4=(w1,w2,…,wm)表示节点低维、稠密的向量重新表示,同时尽可能保留网 络中包含的结构信息。因此,网络被映射到向量 空间中就可以使用经典的机器学习技术处理很多 网络分析问题。现有的网络表示学习方法主要分 为以下 3 类: 1) 基于矩阵分解的网络表示学习。Roweis 等 [9] 提出的局部线性表示算法 (locally linear embeding, LLE) 假设节点和它的邻居节点都处于同一流形 区域,通过它的邻居节点表示的线性组合近似得 到节点表示;He 等 [10] 提出的保留局部映射算法 (locality preserving projections, LPP) 通过对非线性 的拉普拉斯特征映射方法进行线性的近似得到节 点表示;Tu 等 [11] 提出的图形分解算法 (max mar￾gin deep walk, MMDW) 通过对邻接矩阵分解得到 节点表示。Cao 等 [12] 提出的 GraRep 算法通过保 留节点的 k 阶邻近性保留全局网络结构。 2) 基于浅层神经网络的网络表示学习。Perozzi 等 [13] 提出的 DeepWalk 算法通过随机游走遍历网 络中的节点得到有序的节点序列,然后利用 Skip￾Gram 模型预测节点的前后序列学习得到节点的 向量表示;Grover 等 [14] 提出的 Node2Vec 改进了 DeepWalk 的随机游走过程,通过引进两个参数 p 和 q 控制深度优先搜索和广度优先搜索;Tang 等 [ 1 5 ] 提出的 Line 算法能够处理任意类型的大 规模网络,包括有向和无向、有权重和无权重,该 算法保留了网络中节点的一阶邻近性和二阶邻 近性。 3) 基于深度学习的网络表示学习。Wang 等 [16] 提出的 SDNE 算法利用深度神经网络对网络表示 学习进行建模,将输入节点映射到高度非线性空 间中获取网络结构信息。Hamilton 等 [17] 提出的 GraphSAGE 是一种适用于大规模网络的归纳式 学习方法,通过聚集采样到的邻居节点表示更新 当前节点的特征表示。Wang 等 [18] 提出的 Graph￾GAN 引入对抗生成网络进行网络表示学习。上 述研究方法大多是设计一种有效的模型分别应用 不同的数据集学习得到高质量的网络表示,但是 单一模型的泛化能力较弱。为了解决此问题,目 前有学者提出使用集成思想学习网络表示,Zhang 等 [19] 提出的基于集成学习的网络表示学习,其中 stacking 集成分别将 GCN 和 GAE 作为初级模型, 得到两部分节点嵌入拼接后作为节点特征,其与 原始图数据构成新数据集,最后将三层 GCN 作为 次级模型处理新数据集,使用部分节点标签进行 半监督训练。 本文引入了 stacking 集成方法学习网络表示。 集成方法是对于同一网络并行训练多个较弱的个 体学习器,每个个体学习器的输出都是网络表示, 然后采用某种结合策略集成这些输出进而得到更 好的网络表示。stacking 集成方法是集成方法的 一种,结合策略是学习法,即选用次级学习器集 成个体学习器的输出。次级学习器的选择是影响 结果的重要因素,现有工作证明 Kipf 等 [20] 提出的 图卷积神经网络[21] (graph convolutional network, GCN) 在提升网络分析性能上有着显著的效果, GCN 通过卷积层聚合网络中节点及邻居的信息, 根据归一化拉普拉斯矩阵的性质向邻居分配权 重,中心节点及邻居信息加权后更新中心节点的 特征表示。 综上所述,本文的贡献有以下几点: 1) 提出了基于 stacking 集成学习的网络表示 学习,并行训练多个较弱的初级学习器,并将它 们的网络表示拼接,选用 GCN 作为次级学习器, 聚合中心节点及邻居信息得到最终的网络表示, 这样可得到更好的网络表示。 2) 利用网络的一阶邻近性设计了损失函数; 3) 设计了评价指标 MRR、Hit@1、Hit@3、 Hit@10,分别评价初级学习器和集成后的网络表 示,验证了提出的算法具有较好的网络表示性 能,各评价指标平均提升了 1.47~2.97 倍。 1 问题定义 G =< V,E > V E vi ∈ V ei, j = (vi , vj) ∈ E E A ∈ R n×n n = |V| ei, j ∈ E Ai, j > 0 ei, j < E Ai, j = 0 定义 1 给定网络 ,其中 表示节 点集合, 表示节点之间的边集合,记 表示一 个节点, 表示一条边,由 构建邻接 矩 阵 表示网络的拓扑结构, , 若 ,则 ,若 ,则 。 H ∈ R n×m vi ∈ V Z ∈ R n×d d ≪ n 定义 2 [6] 给定网络 G,每个节点的属性特征 是 m 维,G 有 n 个节点,则网络 G 对应的节点特 征矩阵 。网络表示学习的目标是根据网 络中任意节点 学习得到低维向量 ,其 中 。学习到的低维向量表示可客观反映节 点在原始网络中的结构特性。例如,相似的节点 应相互靠近,不相似的节点应相互远离。 定义 3 一阶邻近性[15] 。网络中的一阶邻近 性是指两个节点之间存在边,若节点 vi 和 vj 之间 存在边,这条边的权重 wi,j 表示 vi 和 vj 之间的一 阶邻近性,若节点 vi 和 vj 之间没有边,则 vi 和 vj 之间的一阶邻近性为 0。 li = (wi,1,wi,2,··· ,wi,|V|) 定义 4 二阶邻近性[15] 。网络中一对节点 vi 和 vj 之间的二阶邻近性是指它们的邻域网络结 构之间的相似性,令 表示节点 第 17 卷 智 能 系 统 学 报 ·548·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有