正在加载图片...
第2期 常亮,等:知识图谱的推荐系统综述 ·211 接到WordNet synsets。最后基于声音和音乐知识 2.3 基于图嵌入的推荐生成 图谱利用基于实体的邻居项目匹配和基于路径的 随着Deepwalk2的提出,图嵌入技术开始受 邻居项目匹配为用户进行推荐。由于系统通过与 到学术界以及工业界的关注。其基本原理是基于 外部的知识库关联在很大程度上补充了知识库中 随机游走等算法对图中节点进行采样生成节点序 的语义信息,使得推荐更加准确、覆盖面更广。 列,然后通过神经网络或者是其他机器学习算法 Heitmann等2a提出利用LOD构建一个开放 将节点序列以及边映射到底维向量空间。图嵌入 的协同过滤推荐系统。传统的推荐算法由于其对 作为一种更为广泛的图表示学习方法,已经被应 数据的需求门槛比较高,这使得新服务提供商难 用到推荐领域,并且取得了较好的效果。 以与领域中的现有推荐服务进行竞争。文献[22] Laszleó等26较早将图嵌入技术应用于推荐领 中主要利用LOD来解决获取构建推荐系统数据 域。将Movielens中电影与用户嵌入到同一个向 的问题。实现步骤是:将来自不同来源的用户项 量空间,进而计算用户与电影的空间距离,生成 目连接的数据集成到通用的词汇表、将数据的表 推荐列表。Wang等P做了同样的工作,将医学知 示从RDF图转换为用户项目矩阵、在用户项目矩 识图谱、疾病-患者二部图、疾病-药物二部图分别 阵中应用特定的协同过滤算法。最后通过一个真 嵌入低维向量空间,为病患推荐更为安全的药物 实的协同过滤音乐推荐系统,利用LOD丰富数据 治疗方式。通过加权平均将知识图谱与二部图结 语义信息,在只使用原有数据时平均精度为2%, 合生成包含更加细粒度属性信息的患者和 平均召回率为7%,在加入链接数据库之后平均精 药物向量。最终生成对给定患者的药物top-k 度为14%,平均召回率为33%,证明其准确高效性。 列表。 Ostuni等2更进一步融合LOD中隐含的语义 Palumbo等21针对基于知识图谱的推荐生成 反馈信息,提出基于隐式语义反馈的路径算法 提出一种通用的向量化模型entity.2rec。利用一种 (SPrank)。基于路径的特征对数据集进行挖掘,以 神经网络模型将知识图谱中的节点依据相连接的 捕获项目之间的复杂关系。SPrank的主要思想是 属性值训练为向量的模式,通过余弦相似度计算 探索语义图中的路径,以便找到与用户感兴趣的 用户项目相关性,进而利用机器学习排序函数进 项目相关的项目。从这些路径的分析中,提取基 行推荐列表的生成。首先利用SPARQL语句将 于路径的特征,并利用随机森林与渐变增强回归 知识图谱分解为属性子图,针对每个属性子图设 树相结合的学习算法来生成推荐列表。 置目标函数: Ristoski等24提出一种基于LOD的混合多策 max ∑(-logZ.+∑x,m,)x,(e) 略推荐系统。将基础推荐结果与通用的推荐结果 n,EN(e) 相结合形成最终的推荐结果。基础推荐利用 生成特定属性的用户和项目的特征向量,其中: LOD中丰富的数据信息结合基于协同过滤和基 Z.=∑exp(,(e)-x,) 于内容的推荐,通用推荐是针对全球流行度得分 进行推荐,对于所有的用户都是一样的。对于基 然后通过: 础推荐使用的是基于内容、项目的协同过滤以及 s(p(u),x(i)),p feedback 利用从DBpedia中获取的丰富的数据信息进行基 Pp(u,i) 1 sx,@,们其他 于内容的推荐,通用推荐使用不同的推荐器进行 R.(u. 组合。然后利用K.M.Ting等2提出的堆叠模型 计算用户项目之间的相关性。最后分别通过 将基础与通用推荐器结合起来。最后通过计算F- 机器学习算法Adrank和LambdaMart生成推荐 Score的值来衡量推荐的准确度,结果表明,本策 列表。 略在一定程度上提高了推荐的准确率。 3基于知识图谱的推荐系统关键技术 总体来看,基于LOD的推荐生成技术优点在 于:数据关联表达很强、逻辑性强并具备一定的 基于知识图谱的推荐系统综合了知识图谱和 推理能力,可以自动发现一些隐含的语义信息, 传统推荐系统的特点,成为了一个新的研究主 能够提高推荐准确度。但是,这种方式也存在缺 题,目前正处于初始发展阶段。在第2章考察相 点:由于推荐的过程依赖于外部知识库,因此外 关研究工作的基础上,本节主要对第1章中提出 部知识库的完备与否对推荐结果的影响巨大,推 的基于知识图谱的框架中的关键技术和研究现状 荐多样性问题以及计算量大等问题有待解决。 进行进一步的分析。接到 WordNet synsets。最后基于声音和音乐知识 图谱利用基于实体的邻居项目匹配和基于路径的 邻居项目匹配为用户进行推荐。由于系统通过与 外部的知识库关联在很大程度上补充了知识库中 的语义信息,使得推荐更加准确、覆盖面更广。 Heitmann 等 [22]提出利用 LOD 构建一个开放 的协同过滤推荐系统。传统的推荐算法由于其对 数据的需求门槛比较高,这使得新服务提供商难 以与领域中的现有推荐服务进行竞争。文献[22] 中主要利用 LOD 来解决获取构建推荐系统数据 的问题。实现步骤是:将来自不同来源的用户项 目连接的数据集成到通用的词汇表、将数据的表 示从 RDF 图转换为用户项目矩阵、在用户项目矩 阵中应用特定的协同过滤算法。最后通过一个真 实的协同过滤音乐推荐系统,利用 LOD 丰富数据 语义信息,在只使用原有数据时平均精度为 2%, 平均召回率为 7%,在加入链接数据库之后平均精 度为 14%,平均召回率为 33%,证明其准确高效性。 Ostuni 等 [23]更进一步融合 LOD 中隐含的语义 反馈信息,提出基于隐式语义反馈的路径算法 (SPrank)。基于路径的特征对数据集进行挖掘,以 捕获项目之间的复杂关系。SPrank 的主要思想是 探索语义图中的路径,以便找到与用户感兴趣的 项目相关的项目。从这些路径的分析中,提取基 于路径的特征,并利用随机森林与渐变增强回归 树相结合的学习算法来生成推荐列表。 Ristoski 等 [24]提出一种基于 LOD 的混合多策 略推荐系统。将基础推荐结果与通用的推荐结果 相结合形成最终的推荐结果。基础推荐利用 LOD 中丰富的数据信息结合基于协同过滤和基 于内容的推荐,通用推荐是针对全球流行度得分 进行推荐,对于所有的用户都是一样的。对于基 础推荐使用的是基于内容、项目的协同过滤以及 利用从 DBpedia 中获取的丰富的数据信息进行基 于内容的推荐,通用推荐使用不同的推荐器进行 组合。然后利用 K.M.Ting 等 [25]提出的堆叠模型 将基础与通用推荐器结合起来。最后通过计算 F￾Score 的值来衡量推荐的准确度,结果表明,本策 略在一定程度上提高了推荐的准确率。 总体来看,基于 LOD 的推荐生成技术优点在 于:数据关联表达很强、逻辑性强并具备一定的 推理能力,可以自动发现一些隐含的语义信息, 能够提高推荐准确度。但是,这种方式也存在缺 点:由于推荐的过程依赖于外部知识库,因此外 部知识库的完备与否对推荐结果的影响巨大,推 荐多样性问题以及计算量大等问题有待解决。 2.3 基于图嵌入的推荐生成 随着 Deepwalk[25]的提出,图嵌入技术开始受 到学术界以及工业界的关注。其基本原理是基于 随机游走等算法对图中节点进行采样生成节点序 列,然后通过神经网络或者是其他机器学习算法 将节点序列以及边映射到底维向量空间。图嵌入 作为一种更为广泛的图表示学习方法,已经被应 用到推荐领域,并且取得了较好的效果。 László等 [26]较早将图嵌入技术应用于推荐领 域。将 Movielens 中电影与用户嵌入到同一个向 量空间,进而计算用户与电影的空间距离,生成 推荐列表。Wang 等 [27]做了同样的工作,将医学知 识图谱、疾病-患者二部图、疾病-药物二部图分别 嵌入低维向量空间,为病患推荐更为安全的药物 治疗方式。通过加权平均将知识图谱与二部图结 合生成包含更加细粒度属性信息的患者和 药物向量。最终生成对给定患者的药物 top-k 列表。 Palumbo 等 [28]针对基于知识图谱的推荐生成 提出一种通用的向量化模型 entity2rec。利用一种 神经网络模型将知识图谱中的节点依据相连接的 属性值训练为向量的模式,通过余弦相似度计算 用户项目相关性,进而利用机器学习排序函数进 行推荐列表的生成。首先利用 SPARQL 语句将 知识图谱分解为属性子图,针对每个属性子图设 置目标函数: max xp ∑ e∈Kp (−logZe + ∑ ni∈N(e) xp(ni)· xp(e)) 生成特定属性的用户和项目的特征向量,其中: Ze = ∑ v∈Kp exp(xp(e)· xp(v)) 然后通过: ρp(u,i) =    s(xp(u), xp(i)), p = feedback 1 |R+(u)| ∑ i ′∈R+(u) s(xp(i), xp(i ′ )), 其他 计算用户项目之间的相关性。最后分别通过 机器学习算法 Adrank 和 LambdaMart 生成推荐 列表。 3 基于知识图谱的推荐系统关键技术 基于知识图谱的推荐系统综合了知识图谱和 传统推荐系统的特点,成为了一个新的研究主 题,目前正处于初始发展阶段。在第 2 章考察相 关研究工作的基础上,本节主要对第 1 章中提出 的基于知识图谱的框架中的关键技术和研究现状 进行进一步的分析。 第 2 期 常亮,等:知识图谱的推荐系统综述 ·211·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有