正在加载图片...
·760· 智能系统学报 第16卷 2.2.1直接影响力度量 1)初始化S=null; 在社交网络中,影响力与许多潜在因素相互作 2)基于异质信息网络嵌入学习G中节点的表 用,如相似性和相关性,相似对象之间的相互影 征向量; 响往往更强,例如,在学术网络中,作者ⅰ与作者 3)For i=1tok: j、作者m均有合作,若作者i与作者j的研究领 4)For eachv∈Vdo: 域更相似,那么作者i和j间的相互影响往往更强。 5)利用公式(3)计算直接影响力De,; 同时,度中心性作为图论中度量节点相对重要性 6)利用公式(⑤)计算间接影响力山,; 的评价指标,也是社会影响力的潜在影响因素。 7)利用公式(6)计算全局影响力1; 根据HN嵌入得到的各类型节点的嵌入信 8)End For 息,可获得HN中各类型节点的相似度Sim,即: 9)u max: eiej Sim=e lle:l (2) 10)S-SU{u: 11)End For 式中:e:和e,分别对应对象i和j的潜在表征向 12)Return S 量;(~表示向量的点积;llell表示向量的长度。 HN网络嵌入不仅将不同类型节点映射于同 该算法中语句3~11用以选择最具影响力的k 一空间便于度量不同类型节点间的社会影响,还 个对象作为种子节点集S。IMNE算法的复杂度 保留HN原始结构,故给定异质信息网络G,令N: 为Om+nd+nlog(k),其中n表示异质信息网络中 表示对象i的度,对象i的直接影响力的定义如下: 对象的数量,n=W:k表示最具影响力的对象数 量;d表示一跳链接对象的平均数量:m表示异质 信息网络中边的总数,m=E。 Sim De;=- (3) i=l.jl Sima 3实验评估 其中i≠j且i≠k。 3.1实验准备 2.2.2间接影响力度量 3.1.1数据集 除了直接影响力,对象之间往往也具有某种 本文实验部分共使用了3个真实的HN数据 间接影响,例如,在学术网络中,具有影响力的作 集,来自两种不同领域,其中4-area数据集来自学 者可以通过论文或会议影响其他作者。 术领域,Yelp数据集和Amazon数据集来自商业 给定异质信息网络G,令Nt表示对象i和k 领域。4-area是从DBLP网站收集的子数据集, 间公共对象的数量,则对象i和k之间的间接影 涉及数据库、数据挖掘、机器学习和信息检索 响力描述如下: 4个研究领域,共包含20场会议、排名前5000 的作者、14328篇论文和8789个术语,其中作者 I(k)= De xDex/N+ (4) 与论文、论文与会议、论文与术语之间存在联系。 Yelp数据集记录了1268条用户对坐落于47个城 令M,表示对象i的多跳连接对象的数量,对 市、3种类型的2614条商户的评分情况,其中用 象i的间接影响力山,的定义如式(⑤)所示。 户与商户、商户与城市、商户与类型之间存在联 系。Amazon是一种商业网络,该网络记录了 I= (5) 6170个用户对来自334个品牌旗下的22种类别共 M, 2753项产品的3857条评论情况,其中用户与产 2.2.3全局影响力度量 品、产品与评论、产品与类别、产品与品牌之间存 根据直接影响力和间接影响力的度量可得, 在联系。以上3个数据集,除了来自不同的领域, 对象i的全局影响力如式(6)所示。 还具有不同的稀疏性,其中Ylp的数据分布最稀 I;=aDe:+BIl (6 疏,Amazon数据分布最密集。在实验过程中选 式中:a和B分别表示直接影响力De,和间接影 择HN2VecI模型嵌入HN数据集,使不同类型 响力IL的权重,且a+B=1。 节点处于同一度量空间。 2.3MNE算法描述 3.1.2扩散模型 算法1IMNE算法 影响力最大化旨在正确识别一组种子集以使 输入异质信息网络G=(V,E;参数a和B 它们在特定扩散模型下影响力的扩散范围最大 输出种子集S 化。本文选择SIR模型21和线性阈值模型共两2.2.1 直接影响力度量 i j m i j i j 在社交网络中,影响力与许多潜在因素相互作 用,如相似性和相关性,相似对象之间的相互影 响往往更强,例如,在学术网络中,作者 与作者 、作者 均有合作,若作者 与作者 的研究领 域更相似,那么作者 和 间的相互影响往往更强。 同时,度中心性作为图论中度量节点相对重要性 的评价指标,也是社会影响力的潜在影响因素。 Simi j 根据 HIN 嵌入得到的各类型节点的嵌入信 息,可获得 HIN 中各类型节点的相似度 ,即: Simi j = ei · ej ∥ei∥ ∥ei∥ (2) ei ej i j (·) ∥e∥ 式中: 和 分别对应对象 和 的潜在表征向 量; 表示向量的点积; 表示向量的长度。 G Ni i i HIN 网络嵌入不仅将不同类型节点映射于同 一空间便于度量不同类型节点间的社会影响,还 保留 HIN 原始结构,故给定异质信息网络 ,令 表示对象 的度,对象 的直接影响力的定义如下: Dei =− ∑Ni i=1, j∈V   1 Ni lg 1 Ni + Simi j ∑Ni k=1 Simik lg Simi j ∑Ni k=1 Simik   (3) 其中 i , j 且 i , k。 2.2.2 间接影响力度量 除了直接影响力,对象之间往往也具有某种 间接影响,例如,在学术网络中,具有影响力的作 者可以通过论文或会议影响其他作者。 G Nik i k i k 给定异质信息网络 ,令 表示对象 和 间公共对象的数量,则对象 和 之间的间接影 响力描述如下: IIi(k) = ∑Nik k=1 Dei ×Dek/Nik (4) Mi i i IIi 令 表示对象 的多跳连接对象的数量,对 象 的间接影响力 的定义如式 (5) 所示。 IIi = ∑Mi k=1 IIik Mi (5) 2.2.3 全局影响力度量 i 根据直接影响力和间接影响力的度量可得, 对象 的全局影响力如式 (6) 所示。 Ii = αDei +βIIi (6) α β Dei IIi α+β = 1 式中: 和 分别表示直接影响力 和间接影 响力 的权重,且 。 2.3 IMNE 算法描述 算法 1 IMNE 算法 输入 异质信息网络 G = {V,E} ;参数 α 和 β 输出 种子集 S 1) 初始化 S = null ; 2) 基于异质信息网络嵌入学习 G 中节点的表 征向量; 3) For i = 1 to k: 4) For each v ∈ V do: 5) 利用公式 (3) 计算直接影响力 Dev; 6) 利用公式 (5) 计算间接影响力 IIv; 7) 利用公式 (6) 计算全局影响力 Iv; 8) End For 9) u = maxv Iv; 10) S ← S ∪ {u} ; 11) End For 12) Return S k S O(m+nd +nlog(k)) n n = |V| k d m m = |E| 该算法中语句 3~11 用以选择最具影响力的 个对象作为种子节点集 。IMNE 算法的复杂度 为 ,其中 表示异质信息网络中 对象的数量, ; 表示最具影响力的对象数 量; 表示一跳链接对象的平均数量; 表示异质 信息网络中边的总数, 。 3 实验评估 3.1 实验准备 3.1.1 数据集 本文实验部分共使用了 3 个真实的 HIN 数据 集,来自两种不同领域,其中 4-area 数据集来自学 术领域,Yelp 数据集和 Amazon 数据集来自商业 领域。4-area[24] 是从 DBLP 网站收集的子数据集, 涉及数据库、数据挖掘、机器学习和信息检索 4 个研究领域,共包含 20 场会议、排名前 5 000 的作者、14 328 篇论文和 8 789 个术语,其中作者 与论文、论文与会议、论文与术语之间存在联系。 Yelp 数据集记录了 1 268 条用户对坐落于 47 个城 市、3 种类型的 2 614 条商户的评分情况,其中用 户与商户、商户与城市、商户与类型之间存在联 系。Amazon 是一种商业网络,该网络记录了 6170 个用户对来自 334 个品牌旗下的 22 种类别共 2 753 项产品的 3 857 条评论情况,其中用户与产 品、产品与评论、产品与类别、产品与品牌之间存 在联系。以上 3 个数据集,除了来自不同的领域, 还具有不同的稀疏性,其中 Yelp 的数据分布最稀 疏,Amazon 数据分布最密集。在实验过程中选 择 HIN2Vec[13] 模型嵌入 HIN 数据集,使不同类型 节点处于同一度量空间。 3.1.2 扩散模型 影响力最大化旨在正确识别一组种子集以使 它们在特定扩散模型下影响力的扩散范围最大 化。本文选择 SIR 模型[25] 和线性阈值模型共两 ·760· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有