第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.201904064 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190906.1314.002.html 基于知识图谱和用户长短期偏好的个性化景点推荐 贾中浩,宾辰忠,古天龙,常亮,朱桂明,陈炜 (桂林电子科技大学广西可信软件重点实验室,广西桂林541004) 摘要:基于序列化的推荐算法在多个领域取得了不错的效果,但仍存在一些问题,如没有考虑所有项与项之 间的关系,推荐准确度会大大降低。因此提出一种基于知识图谱和用户长短期偏好(KG-ULSP)的个性化景点 推荐方法。通过引入知识图谱,使用网络表示学习方法,学习景点的特征向量表示,使得具有相似结构和相似 属性的景点在低维特征空间中的距离比较近,以此表示他们的高级语义特征。然后利用门控循环单元GU对 已学习到的景点特征向量进行序列化信息建模,进一步抽取景点的访问序列特征。另外,考虑到用户偏好可能 随时间发生变化,KG-ULSP模型同时学习用户的长期偏好和短期偏好,最终预测并返回用户可能感兴趣的推荐 列表。通过在真实旅游数据上的实验,验证了所提方法的有效性。 关键词:知识图谱:推荐算法;网络表示学习;门控循环单元;个性化景点推荐:长短期用户偏好:特征学习 中图分类号:TP301文献标志码:A文章编号:1673-4785(2020)05-0990-08 中文引用格式:贾中浩,宾辰忠,古天龙,等.基于知识图谱和用户长短期偏好的个性化景点推荐J几.智能系统学报,2020, 15(5):990-997. 英文引用格式:JIA Zhonghao,.BIN Chenzhong,GU Tianlong,ctal.Personalized attraction recommendation based on the know- ledge graph and users'long-term and short-term preferencesJ.CAAI transactions on intelligent systems,2020,15(5):990-997. Personalized attraction recommendation based on the knowledge graph and users'long-term and short-term preferences JIA Zhonghao,BIN Chenzhong,GU Tianlong,Chang Liang,Zhu Guiming,Chen Wei (Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,China) Abstract:The session-based recommendation algorithm has achieved good results in many fields.However,several problems,such as not considering the relationship between all items,will reduce the recommendation accuracy consider- ably.Therefore,a personalized attraction recommendation method based on the knowledge graph and users'long-term and short-term preferences(KG-ULSP)is proposed.The knowledge graph is derived using the network representation learning method and the feature vector representation of the learning attractions.The attractions with similar structure and attribute are close to each other in the low-dimensional space and express high-level semantic features.In addition, the sequence information is modeled by the gated recurrent unit and the access sequence information is further extracted by feature extraction.Moreover,given that the users'preferences may change with time,the KG-ULSP model learns both long-term and short-term preferences of the user and predicts and returns the list of recommendations that users may be interested in.The validity of the proposed method is verified by experiments on real tourism data. Keywords:knowledge graph;recommendation algorithm;network representation learning;gated recurrent unit;personalized attractions recommendation;users'long-term and short-term preference;feature learning 收稿日期:2019-04-26.网络出版日期:2019-09-06 随着中国人民消费水平的提高,人民对旅游 基金项目:国家自然科学基金项目(U1711263,U1501252,61572146: 的需求日益增加。在旅游领域,传统的推荐方法 广西自然科学基金项目(2016 GXNSFDA380006 AC16380122,AA17202024):广西高校中青年教师基 已经得到广泛的应用,但依旧存在许多问题,如 础能力提升项目(2018KY0203):广西研究生教育创 新计划项目(2019YCXS042,2019YCXS041). 项目冷启动和数据稀疏问题。知识图谱的出 通信作者:宾辰忠.E-mail:binchenzhong@guet.edu.cn. 现有效解决了这一问题,并被证明推荐效果远好
DOI: 10.11992/tis.201904064 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190906.1314.002.html 基于知识图谱和用户长短期偏好的个性化景点推荐 贾中浩,宾辰忠,古天龙,常亮,朱桂明,陈炜 (桂林电子科技大学 广西可信软件重点实验室,广西 桂林 541004) 摘 要:基于序列化的推荐算法在多个领域取得了不错的效果,但仍存在一些问题,如没有考虑所有项与项之 间的关系,推荐准确度会大大降低。因此提出一种基于知识图谱和用户长短期偏好 (KG-ULSP) 的个性化景点 推荐方法。通过引入知识图谱,使用网络表示学习方法,学习景点的特征向量表示,使得具有相似结构和相似 属性的景点在低维特征空间中的距离比较近,以此表示他们的高级语义特征。然后利用门控循环单元 GRU 对 已学习到的景点特征向量进行序列化信息建模,进一步抽取景点的访问序列特征。另外,考虑到用户偏好可能 随时间发生变化,KG-ULSP 模型同时学习用户的长期偏好和短期偏好,最终预测并返回用户可能感兴趣的推荐 列表。通过在真实旅游数据上的实验,验证了所提方法的有效性。 关键词:知识图谱;推荐算法;网络表示学习;门控循环单元;个性化景点推荐;长短期用户偏好;特征学习 中图分类号:TP301 文献标志码:A 文章编号:1673−4785(2020)05−0990−08 中文引用格式:贾中浩, 宾辰忠, 古天龙, 等. 基于知识图谱和用户长短期偏好的个性化景点推荐 [J]. 智能系统学报, 2020, 15(5): 990–997. 英文引用格式:JIA Zhonghao, BIN Chenzhong, GU Tianlong, et al. Personalized attraction recommendation based on the knowledge graph and users’ long-term and short-term preferences[J]. CAAI transactions on intelligent systems, 2020, 15(5): 990–997. Personalized attraction recommendation based on the knowledge graph and users’ long-term and short-term preferences JIA Zhonghao,BIN Chenzhong,GU Tianlong,Chang Liang,Zhu Guiming,Chen Wei (Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology, Guilin 541004, China) Abstract: The session-based recommendation algorithm has achieved good results in many fields. However, several problems, such as not considering the relationship between all items, will reduce the recommendation accuracy considerably. Therefore, a personalized attraction recommendation method based on the knowledge graph and users’ long-term and short-term preferences (KG-ULSP) is proposed. The knowledge graph is derived using the network representation learning method and the feature vector representation of the learning attractions. The attractions with similar structure and attribute are close to each other in the low-dimensional space and express high-level semantic features. In addition, the sequence information is modeled by the gated recurrent unit and the access sequence information is further extracted by feature extraction. Moreover, given that the users’ preferences may change with time, the KG-ULSP model learns both long-term and short-term preferences of the user and predicts and returns the list of recommendations that users may be interested in. The validity of the proposed method is verified by experiments on real tourism data. Keywords: knowledge graph; recommendation algorithm; network representation learning; gated recurrent unit; personalized attractions recommendation; users’ long-term and short-term preference; feature learning 随着中国人民消费水平的提高,人民对旅游 的需求日益增加。在旅游领域,传统的推荐方法 已经得到广泛的应用,但依旧存在许多问题,如 项目冷启动和数据稀疏问题[1-2]。知识图谱[3] 的出 现有效解决了这一问题,并被证明推荐效果远好 收稿日期:2019−04−26. 网络出版日期:2019−09−06. 基金项目:国家自然科学基金项目 (U1711263,U1501252,61572146); 广西自然科学基金项目 (2016GXNSFDA380006, AC16380122,AA17202024);广西高校中青年教师基 础能力提升项目 (2018KY0203);广西研究生教育创 新计划项目 (2019YCXS042,2019YCXS041). 通信作者:宾辰忠. E-mail:binchenzhong@guet.edu.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 贾中浩,等:基于知识图谱和用户长短期偏好的个性化景点推荐 ·991· 于传统的推荐算法。但是基于知识图谱的推 表明本文所提的方法比其他对方法的推荐效果要 荐系统也存在一些问题,如没有考虑用户访问序 好。本文贡献如下:1)本文将知识图谱作为辅助 列问题,因为随着时间的流转,用户兴趣爱好可 信息引入到景点推荐系统中,有效地解决传统推 能发生变化。近年来,不少相关学者开始对建模 荐系统存在的稀疏性和冷启动问题。2)第一次将 用户序列问题感兴趣,出现了一批基于会话的推 门控循环单元深度学习模型应用于旅游景点推荐 荐系统1,虽然建模了用户序列,但是都没有考 中。3)利用注意力机制网络建模用户长期偏好和 虑同一用户访问的项目与项目之间的关系,以及 短期偏好。4)本文提出了一种新的模型KG-ULSP 不同用户访问项目与项目之间的关系,这些模型 该模型使用网络学习方法学习景点的潜在向量表 往往不能很好的捕捉用户自身的个人偏好。因为 示,使用GRU建模用户序列问题。既考虑了景点 不同用户之间可能有相同的兴趣,不同的项目之 与景点间属性和结构上的相似性,又考虑了用户 间在属性上存在一定的相似性。如果没有考虑上 序列行为。 述问题,会使得推荐效果大大降低。 个性化景点推荐作为智慧旅游城市和位置服 1相关工作 务的重要课题之一,如何根据用户的历史访问数 1.1 网络表示学习 据和兴趣爱好做出精准推荐显得尤为重要。针对 网络嵌入方法(network embedding)旨在学 以上问题,本文提出了一种基于知识图谱和用户 习网络中节点的低维度潜在表示,所学习到的特 长短期偏好的个性化景点推荐方法,简称KG-ULSP。 征表示可以用作基于图的各种任务的特征,例如 图1为本文所提出的KG-ULSP个性化旅游景点 节点分类12.1刃、链接预测2刀和推荐17。Perozzi 推荐框架图。首先,将用户、景点及评分构建旅 等us提出DeepWalk通过将节点视为单词并生成 游景点知识图谱,使用网络表示学习中的具有代 短随机游走作为句子来弥补网络嵌人和单词嵌入 表性的方法Node2Vec,通过带偏执的随机游走 之间的差距,用Skip-gram和Hierarchical Soft- 策略,利用神经网络语言模型Word2 Vectol将景 maxo模型对随机游走序列中每个局部窗口内的 点映射到低维空间得到每个景点的特征向量表 节点对进行概率建模,最大化随机游走序列的似 示。然后将景点向量输入到门控循环单元(GU) 然概率。但DeepWalk在游走过程中选取下一个 网络训练得到关于景点序列的潜在向量表示。这 节点的方式是均匀随机分布的,没有考虑节点间 样得到的景点向量表示既包含了景点属性和网络 的权重。Node2Vec进一步扩展了DeepWalk算 结构语义信息,又包含了用户的历史访问景点序 法,定义了一个二阶随机游走,通过控制参数p 列信息。之后,使用注意力机制建模用户长期偏 和q,在宽度优先搜索(BFS)和深度优先搜索(DFS) 好和短期偏好,线性拼接用户的长期偏好和短期 达到一种平衡。BFS的好处是能够探究图中的结 偏好,预测每个景点在下一次访问的概率并生成 构性质,而DFS则能够探究出内容上的相似性。 用户可能喜欢景点的推荐列表。该方法在所爬取 为了能够更好的探究结点与节点之间的丰富关 的桂林旅游景点数据集上进行的大量实验,结果 系,本文使用Node2Vec将景点预训练。 知识 ©0.28 Sh 图谱 注意 GRU 线性 0.19 网络 力机 转换 Softmax © 0.55 化 ⊙0.48 图1 基于知识图谱和用户长短期偏好的个性化景点推荐方法框架图 Fig.1 Personalized attractions recommendation method based on knowledge map and users'short-term and long-term preferences 1.2基于知识图谱的推荐算法 虑到项目的多个属性,构建电影知识图谱属性子 自从2012年谷歌正式提出知识图谱1这一 图,如导演与电影、演员与电影、用户对电影的评 概念,不少学者纷纷将知识图谱用到各个领域。 分等多种属性,融合上述多源信息,使用排名函 知识图谱包含了实体之间丰富的语义关联,为推 数产生前N个推荐列表。Zhang等2]使用 荐系统提供了潜在的辅助信息来源。Oramas TransR2a、SDAE21、SCAE2分别对知识库中的结 等u引入开放数据库DBpedia,将音乐的上下文 构化知识、文本知识、图片知识进行向量化表示, 信息、标签、文本信息集合融合,采用混合推荐方 根据用户的隐式反馈,利用矩阵分解方法返回每 法推荐音乐。Palumbo等2o提出了Entity2vec,考 一个用户最有可能感兴趣的项目列表
于传统的推荐算法[4-5]。但是基于知识图谱的推 荐系统也存在一些问题,如没有考虑用户访问序 列问题,因为随着时间的流转,用户兴趣爱好可 能发生变化。近年来,不少相关学者开始对建模 用户序列问题感兴趣,出现了一批基于会话的推 荐系统[6-8] ,虽然建模了用户序列,但是都没有考 虑同一用户访问的项目与项目之间的关系,以及 不同用户访问项目与项目之间的关系,这些模型 往往不能很好的捕捉用户自身的个人偏好。因为 不同用户之间可能有相同的兴趣,不同的项目之 间在属性上存在一定的相似性。如果没有考虑上 述问题,会使得推荐效果大大降低。 个性化景点推荐作为智慧旅游城市和位置服 务的重要课题之一,如何根据用户的历史访问数 据和兴趣爱好做出精准推荐显得尤为重要。针对 以上问题,本文提出了一种基于知识图谱和用户 长短期偏好的个性化景点推荐方法,简称 KG-ULSP。 图 1 为本文所提出的 KG-ULSP 个性化旅游景点 推荐框架图。首先,将用户、景点及评分构建旅 游景点知识图谱,使用网络表示学习中的具有代 表性的方法 Node2Vec[9] ,通过带偏执的随机游走 策略,利用神经网络语言模型 Word2Vec[10] 将景 点映射到低维空间得到每个景点的特征向量表 示。然后将景点向量输入到门控循环单元 (GRU) 网络训练得到关于景点序列的潜在向量表示。这 样得到的景点向量表示既包含了景点属性和网络 结构语义信息,又包含了用户的历史访问景点序 列信息。之后,使用注意力机制建模用户长期偏 好和短期偏好,线性拼接用户的长期偏好和短期 偏好,预测每个景点在下一次访问的概率并生成 用户可能喜欢景点的推荐列表。该方法在所爬取 的桂林旅游景点数据集上进行的大量实验,结果 表明本文所提的方法比其他对方法的推荐效果要 好。本文贡献如下:1) 本文将知识图谱作为辅助 信息引入到景点推荐系统中,有效地解决传统推 荐系统存在的稀疏性和冷启动问题。2) 第一次将 门控循环单元深度学习模型应用于旅游景点推荐 中。3) 利用注意力机制网络建模用户长期偏好和 短期偏好。4) 本文提出了一种新的模型 KG-ULSP, 该模型使用网络学习方法学习景点的潜在向量表 示,使用 GRU 建模用户序列问题。既考虑了景点 与景点间属性和结构上的相似性,又考虑了用户 序列行为。 1 相关工作 1.1 网络表示学习 网络嵌入方法[11] (network embedding) 旨在学 习网络中节点的低维度潜在表示,所学习到的特 征表示可以用作基于图的各种任务的特征,例如 节点分类[12-17] 、链接预测[12-17] 和推荐[17]。Perozzi 等 [18] 提出 DeepWalk 通过将节点视为单词并生成 短随机游走作为句子来弥补网络嵌入和单词嵌入 之间的差距,用 Skip-gram[10] 和 Hierarchical Softmax [10] 模型对随机游走序列中每个局部窗口内的 节点对进行概率建模,最大化随机游走序列的似 然概率。但 DeepWalk 在游走过程中选取下一个 节点的方式是均匀随机分布的,没有考虑节点间 的权重。Node2Vec[9] 进一步扩展了 DeepWalk 算 法,定义了一个二阶随机游走,通过控制参数 p 和 q,在宽度优先搜索 (BFS) 和深度优先搜索 (DFS) 达到一种平衡。BFS 的好处是能够探究图中的结 构性质,而 DFS 则能够探究出内容上的相似性。 为了能够更好的探究结点与节点之间的丰富关 系,本文使用 Node2Vec 将景点预训练。 v1 v2 v3 v4 0.28 0.19 0.55 0.48 知识 图谱 向量 化 GRU 网络 注意 力机 制 线性 转换 Softmax v1 v2 v3 v4 Ss Sl Sh 图 1 基于知识图谱和用户长短期偏好的个性化景点推荐方法框架图 Fig. 1 Personalized attractions recommendation method based on knowledge map and users' short-term and long-term preferences 1.2 基于知识图谱的推荐算法 自从 2012 年谷歌正式提出知识图谱[3] 这一 概念,不少学者纷纷将知识图谱用到各个领域。 知识图谱包含了实体之间丰富的语义关联,为推 荐系统提供了潜在的辅助信息来源。Oramas 等 [19] 引入开放数据库 DBpedia,将音乐的上下文 信息、标签、文本信息集合融合,采用混合推荐方 法推荐音乐。Palumbo 等 [20] 提出了 Entity2vec,考 虑到项目的多个属性,构建电影知识图谱属性子 图,如导演与电影、演员与电影、用户对电影的评 分等多种属性,融合上述多源信息,使用排名函 数产生 前 N 个推荐列表。 Zhan g 等 [ 2 1 ] 使 用 TransR[22] 、SDAE[23] 、SCAE[24] 分别对知识库中的结 构化知识、文本知识、图片知识进行向量化表示, 根据用户的隐式反馈,利用矩阵分解方法返回每 一个用户最有可能感兴趣的项目列表。 第 5 期 贾中浩,等:基于知识图谱和用户长短期偏好的个性化景点推荐 ·991·
·992· 智能系统学报 第15卷 小明,象鼻山,芦笛岩,小红 步行街,小军,芦笛岩 49分 46分 人王府 象鼻山,小红,步行街,小军 芦笛岩,小军,靖江王府 小明 随机游走 向量化 46分 4.7分 小红,步行街,小军.芦笛岩 小 小明.日月双塔,小明 行 、街 龙 图2景点知识图谱向量化示例 Fig.2 Example of vectorization of knowledge graph of attractions 1.3序列化建模推荐 K=(E,R,S),其中E表示实体集合,R表示关系集 传统的基于会话的序列推荐只考虑了用户最 合,S表示三元组集合,对于三元组(4,3,),其中游 后一次的访问项目,没有考虑前面已经访问过的 客uEUCE是三元组的头实体,评分sESCR是 序列对后续的项目的影响。Hidasi等6提出的 三元组中实体之间的关系,景点i∈IcE\U是三 GRU4Rec是第一个将循环神经网络应用到会话 元组的尾实体。因为游客的兴趣偏好不同,有的 推荐上,采用并行的小批量处理训练,以及使用 游客喜欢山水,有的游客更喜欢历史文物古迹, 基于排序方法优化损失函数。Tan等M在GRU4- 因此游客对景点的评分直接反应了游客对景点的 Rec的基础上,提出GRU4Rec+方法,采用数据扩 偏好程度,故将评分作为知识图谱三元组的关系 充技术和数据分布变化方法,从而提高模型的性 能。Li等2利用注意机制从隐藏层状态捕获用 R。如三元组(小明,4.6分,象山公园)表示游客 小明对景点象山公园的评分是4.6分。使用Neo4j 户主要目的,结合序列行为作为最终的特征向量 表示,生成推荐。Liu等26提出了一种短期注意 图数据工具将所有的三元组存储起来。从图2中 力/记忆优先的网络模型STAMP,在建模长时间 可以清晰地看到不同的游客对相同的景点不同的 序列的用户点击行为时,着重加强用户近期行为 打分,从而直接反应了游客对该景点的偏好程度。 的影响。但是Wu等叨认为之前的工作不能够得 2.2.2随机游走序列 到用户的精确表示以及忽略了项目的过渡特性, 给定一个源节点”,随机游走一个长度为L的 提出将序列化问题转换为图的问题。然后经过图 序列S={v,2…,片表示随机游走过程中第i 神经网络(GNN)来学习每个项目的低维表示,同 个节点。游走的其起始节点是%=v,节点%通过 时经过注意力网络(attention network)来捕捉用户 下面的分布生成: 的短期兴趣,以达到捕获长期与短期兴趣共存的 πvx (v,x)∈E 向量表示。 P(y:=xh:-1=v)= Z (1) 0, 其他 2KG-ULSP模型介绍 式中:E表示知识图谱中边的集合;Z是正则化参 数;πw表示节点v和节点x之间的转移概率。由 2.1数据采集 式(2)给出: 利用网络爬虫工具从飞猪、携程、途牛等主 T =apg(1,x).Wvx (2) 流旅游网站爬取桂林景点中游客的游记评论信 式中:wx表示节点之间边上的权重,若节点之间 息、时间顺序,选取游客的历史游览景点序列以 没有权重,则将值取为1;ag表示边上的偏执,计 及对景点的评分。如游客小明游览的景点按时间 算如下: 序列为:象山公园(4.6分)一日月双塔(4.9分)→步 行街(4.3分)一→靖江王府(3.8分)→芦笛岩(42分)→ d,=0 漓江竹筏(4.6分)→十里画廊(4.5分)→兴坪古镇 Qpg(t,x)= 1 dix=1 (3) (4.5分),通过编码为每个实体赋值一个唯一的 id,按照此方式对所有景点进行编码转换。 9 d.=2 2.2知识图谱向量化 式中:d属于{0,1,2}表示节点1和x之间的最短 2.2.1构建知识图谱 路径。如图3所示。p和q是控制图游走的参 本文采用徐增林等2]定义的知识图谱,集合 数。参数p用来控制在游走过程中立即重新走到
小明,象鼻山,芦笛岩,小红, 步行街,小军,芦笛岩... 象鼻山,小红,步行街,小军, 芦笛岩,小军,靖江王府... 小红,步行街,小军,芦笛岩 小明,日月双塔,小明... ... 随机游走 小红 小军 小明 象鼻 山 步行 街 龙脊 梯田 靖江 王府 日月 双塔 象鼻 山 日月 双塔 芦笛 岩 小红 小军 小明 步行 街 龙脊 梯田 靖江 芦笛 王府 岩 向量化 4.9分 4.6分 4.6分 4.5分 4.5分 4.0分 4.7分 4.9 分 4.9 分 4.7 分 4.6 分 图 2 景点知识图谱向量化示例 Fig. 2 Example of vectorization of knowledge graph of attractions 1.3 序列化建模推荐 传统的基于会话的序列推荐只考虑了用户最 后一次的访问项目,没有考虑前面已经访问过的 序列对后续的项目的影响。Hidasi 等 [6] 提出的 GRU4Rec 是第一个将循环神经网络应用到会话 推荐上,采用并行的小批量处理训练,以及使用 基于排序方法优化损失函数。Tan 等 [7] 在 GRU4- Rec 的基础上,提出 GRU4Rec+方法,采用数据扩 充技术和数据分布变化方法,从而提高模型的性 能。Li 等 [25] 利用注意机制从隐藏层状态捕获用 户主要目的,结合序列行为作为最终的特征向量 表示,生成推荐。Liu 等 [26] 提出了一种短期注意 力/记忆优先的网络模型 STAMP,在建模长时间 序列的用户点击行为时,着重加强用户近期行为 的影响。但是 Wu 等 [27] 认为之前的工作不能够得 到用户的精确表示以及忽略了项目的过渡特性, 提出将序列化问题转换为图的问题。然后经过图 神经网络 (GNN) 来学习每个项目的低维表示,同 时经过注意力网络 (attention network) 来捕捉用户 的短期兴趣,以达到捕获长期与短期兴趣共存的 向量表示。 2 KG-ULSP 模型介绍 2.1 数据采集 利用网络爬虫工具从飞猪、携程、途牛等主 流旅游网站爬取桂林景点中游客的游记评论信 息、时间顺序,选取游客的历史游览景点序列以 及对景点的评分。如游客小明游览的景点按时间 序列为:象山公园 (4.6 分)→日月双塔 (4.9 分)→步 行街 (4.3 分)→靖江王府 (3.8 分)→芦笛岩 (4.2 分)→ 漓江竹筏 (4.6 分)→十里画廊 (4.5 分)→兴坪古镇 (4.5 分),通过编码为每个实体赋值一个唯一的 id,按照此方式对所有景点进行编码转换。 2.2 知识图谱向量化 2.2.1 构建知识图谱 本文采用徐增林等[28] 定义的知识图谱,集合 K = (E,R,S ) (u,s,i) u ∈ U ⊂ E s ∈ S ⊂ R i ∈ I ⊂ E\U ,其中 E 表示实体集合,R 表示关系集 合,S 表示三元组集合,对于三元组 ,其中游 客 是三元组的头实体,评分 是 三元组中实体之间的关系,景点 是三 元组的尾实体。因为游客的兴趣偏好不同,有的 游客喜欢山水,有的游客更喜欢历史文物古迹, 因此游客对景点的评分直接反应了游客对景点的 偏好程度,故将评分作为知识图谱三元组的关系 R。如三元组 (小明,4.6 分,象山公园) 表示游客 小明对景点象山公园的评分是 4.6 分。使用 Neo4j 图数据工具将所有的三元组存储起来。从图 2 中 可以清晰地看到不同的游客对相同的景点不同的 打分,从而直接反应了游客对该景点的偏好程度。 2.2.2 随机游走序列 S = { v1, v2 ··· vn} vi v0=v v0 给定一个源节点 v,随机游走一个长度为 L 的 序列 , 表示随机游走过程中第 i 个节点。游走的其起始节点是 ,节点 通过 下面的分布生成: P(vi = x|vi−1 = v) = πvx Z , (v, x) ∈ E 0, 其他 (1) πvx 式中:E 表示知识图谱中边的集合;Z 是正则化参 数; 表示节点 v 和节点 x 之间的转移概率。由 式 (2) 给出: πvx = αpq(t, x)·wvx (2) wvx αpq 式中: 表示节点之间边上的权重,若节点之间 没有权重,则将值取为 1; 表示边上的偏执,计 算如下: αpq(t, x) = 1 p , dt x = 0 1, dt x = 1 1 q , dt x = 2 (3) 式中: dtx 属于{0,1,2}表示节点 t 和 x 之间的最短 路径。如图 3 所示。p 和 q 是控制图游走的参 数。参数 p 用来控制在游走过程中立即重新走到 ·992· 智 能 系 统 学 报 第 15 卷
第5期 贾中浩,等:基于知识图谱和用户长短期偏好的个性化景点推荐 ·993· 已访问过的结点的可能性。若p>max(g,1),则下 更新门的输出,更新门用于控制前一时刻的状态 一个采样节点不太可能是上一个已经访问过的节 信息被代入到当前状态中的程度,更新门的值越 点t。若p1,则 2.3.2长短期偏好构建 随机游走的过程方式类似于广度优先搜索(DFS), 经过知识图谱和门控循环单元学习之后的景 实现结构上相似性。若g<1,则随机游走的过程 点向量既包含景点属性上语义信息,又包含景点 方式类似于宽度优先搜索(BFS),实现节点之间 的序列信息。虽然已经得到每个景点的特征向量 的同质性。部分节点随机游走过程示例图如图2 表示,按照传统方式可以根据余弦公式计算序列 所示。 与景点的相似度,然后做推荐并排序。但考虑到 2.2.3节点向量化 游客的偏好可能会随着时间的推移而发生改变, 利用神经网络语言方法Word2Vec中的Skip- 因此提出一种策略,将游客的长期偏好与当前偏 gram模型,将随机游走得到的序列节点映射到低 好结合,以便更准确地预测游客下一个要游玩的 维空间中,得到游客和景点的特征向量表示。如 景点。 果不同的游客对同一个景点的评分相同或接近, 对于游客u的游玩序列u={v1,V2,…,Van}, 那么映射到特征空间中两个游客向量的距离会比 使用游客最后一次游玩的景点作为游客“的短期 较接近。同样,如果同一个游客对不同的景点打 偏好表示是即s,=vn。使用注意力机制将每个景 分相同或者接近,那么映射到二维空间中的两个 点的权重(序列中的最后一个景点除外)与景点 景点的向量距离会比较接近。部分映射后的示例 向量相乘后累加得到该游客的长期偏好。式(9) 图如图2所示。 表示第i个景点的权重。游客的长期偏好如式(10) 2.3用户长短期偏好学习 所示。 2.3.1门控循环单元(GRU) ai=g'o(Wivn+W2v;+c) (9) 循环神经网络(RNN)在有关时间序列建模应 用上大获成功,GRU网络作为这一类的变体进一 (10) 步解决了梯度消失问题,在保证预测性能的同时 式中:q、W、W2随机初始化,q、W、W2都是控 降低了计算复杂度。对于知识图谱中的每个景点 制景点的权重。 v∈S,取景点访问序列中第1-1个景点的特征向 最后,将游客的长期偏好与当前偏好做线性 量表示为[1…门T。GRU单元模型参数表 拼接得该游客的最终向量表示。 示式如下: S=Wa[s:s] (11) d=w的…哈+b (4) 式中W3是控制长期偏好和当前偏好向量的权重。 =(Was+Uv) (5) 2.4损失函数 T=r(W,d+U,) (6) 通过游客向量表示与第ⅰ个待预测景点的向 =tanh(Wa+U(rov)) (7) 量做点积操作,得到该景点的预估评分。即 =(1-)o+⊙ (8) 乞=sThy (12) 将d作为GRU网络重置门的输入。t是t 将使用softmax函数归一化,得到每个景点 时刻重置门的输出,重置门控制前一状态有多少 的预测概率。即 信息被写入到当前的候选集,即评估景点序列中 =softmax(2) (13) 靠前面的景点对后面景点的影响有多大。重置门 对于每个用户序列4={1,2,…,Vn小,使用 值越小,表示前一状态的信息被写入的越少。同 BPTT优化损失函数直至收敛,其中y表示待预测 时a作为GRU网络更新门的输入。广是t时刻 景点
p > max(q,1) p 1,则 随机游走的过程方式类似于广度优先搜索 (DFS), 实现结构上相似性。若 q<1,则随机游走的过程 方式类似于宽度优先搜索 (BFS),实现节点之间 的同质性。部分节点随机游走过程示例图如图 2 所示。 2.2.3 节点向量化 利用神经网络语言方法 Word2Vec 中的 Skipgram 模型,将随机游走得到的序列节点映射到低 维空间中,得到游客和景点的特征向量表示。如 果不同的游客对同一个景点的评分相同或接近, 那么映射到特征空间中两个游客向量的距离会比 较接近。同样,如果同一个游客对不同的景点打 分相同或者接近,那么映射到二维空间中的两个 景点的向量距离会比较接近。部分映射后的示例 图如图 2 所示。 2.3 用户长短期偏好学习 2.3.1 门控循环单元 (GRU) v ∈ S [ v t−1 1 v t−1 2 ··· v t−1 n ] T 循环神经网络 (RNN) 在有关时间序列建模应 用上大获成功,GRU 网络作为这一类的变体进一 步解决了梯度消失问题,在保证预测性能的同时 降低了计算复杂度。对于知识图谱中的每个景点 ,取景点访问序列中第 t − 1 个景点的特征向 量表示为 。GRU 单元模型参数表 示式如下: a t s,i = Wα [ v t−1 1 v t−1 2 ··· v t−1 n ]T + b (4) z t s,i = σ(Wza t s,i +Uzv t−1 i ) (5) r t s,i = σ(Wra t s,i +Urv t−1 i ) (6) v˜ t s,i = tanh(Wo a t s,i +Uo(r t s,i ⊙v t−1 s,i )) (7) v t s,i = (1−z t s,i )⊙v t−1 s,i +z t s,i ⊙v˜ t s,i (8) a t s,i z t s,i a t s,i r t s,i 将 作为 GRU 网络重置门的输入。 是 t 时刻重置门的输出,重置门控制前一状态有多少 信息被写入到当前的候选集,即评估景点序列中 靠前面的景点对后面景点的影响有多大。重置门 值越小,表示前一状态的信息被写入的越少。同 时 作为 GRU 网络更新门的输入。 是 t 时刻 v˜ t s,i v t−1 i v t s,i 更新门的输出,更新门用于控制前一时刻的状态 信息被代入到当前状态中的程度,更新门的值越 大说明前一时刻的状态信息代入越多。 由前 一时刻隐藏层状态,当前状态和重置门组成。 是上一时刻隐藏层的输出, 是当前时刻隐藏层 的输出。从初始时刻开始,直至过程结束,最终 输出结果得到的是每个景点的潜在向量表示。 Wz Uz σ Wr Ur Wo Uo ⊙ 和 是重置门的权重矩阵, 是 sigmoid 函数。 和 是更新门的权重矩阵。 和 是候选状态下权重矩阵。 是 hadamard 函数,tanh 是双曲正切函数。 2.3.2 长短期偏好构建 经过知识图谱和门控循环单元学习之后的景 点向量既包含景点属性上语义信息,又包含景点 的序列信息。虽然已经得到每个景点的特征向量 表示,按照传统方式可以根据余弦公式计算序列 与景点的相似度,然后做推荐并排序。但考虑到 游客的偏好可能会随着时间的推移而发生改变, 因此提出一种策略,将游客的长期偏好与当前偏 好结合,以便更准确地预测游客下一个要游玩的 景点。 u = { vu,1 , vu,2,··· , vu,n } ss=vu,n sl 对于游客 u 的游玩序列 , 使用游客最后一次游玩的景点作为游客 u 的短期 偏好表示是即 。使用注意力机制将每个景 点的权重 (序列中的最后一个景点除外) 与景点 向量相乘后累加得到该游客的长期偏好。式 (9) 表示第 i 个景点的权重。游客的长期偏好 如式 (10) 所示。 ai = q Tσ(W1vn +W2vi + c) (9) sl = ∑m i=1 aivi (10) q T W1 W2 q 式中: 、 、 随机初始化, T、W1、W2 都是控 制景点的权重。 最后,将游客的长期偏好与当前偏好做线性 拼接得该游客的最终向量表示。 sh = W3[sl ;ss] (11) 式中 W3 是控制长期偏好和当前偏好向量的权重。 2.4 损失函数 通过游客向量表示与第 i 个待预测景点的向 量做点积操作,得到该景点的预估评分。即 zˆi = s T hvi (12) 将 zˆi 使用 softmax 函数归一化,得到每个景点 的预测概率。即 yˆ = softmax(zˆ) (13) u = { vu,1 , vu,2,··· , vu,n } 对于每个用户序列 ,使用 BPTT 优化损失函数直至收敛,其中 y 表示待预测 景点。 第 5 期 贾中浩,等:基于知识图谱和用户长短期偏好的个性化景点推荐 ·993·
·994· 智能系统学报 第15卷 56)=-】 y1og6)+a--y)log1(-》 的推荐列表里。HR值越大,说明命中率越高,推 (14) 荐效果越好。 3实验分析 hit W=1 HR@10= (15) 3.1数据 式中:N表示总测试次数,对于每次待测景点,hit 考虑到部分数据的不合理性,如某用户只去 取值1或者0,hit=1表示待预测的项目在排名列 过一个景点,或者几乎很少有人去过的景点。实 表L的前K个位置中,hit=1表示不在排名列表 验中过滤掉了序列长度小于2的用户和访问次数 L的前K个位置中。 少于10的景点,剩余18916条有效旅游数据,包 MRR@lO(Mean Reciprocal Rank平均倒数排 含2094名用户和203个景点,平均序列长度 名)表示正确推荐的项目位于排名第几位,取倒 9.03。按照GRU4Rec+m的处理方式,对于任一用 数后求平均值。当推荐的项目不在前10中,将值 户的输人u={1,V2,…,V小,产生一系列的序列 设为O。MRR值越大,表明正确的项目目位于排 和标签(《yi,Vu2),(l,V2,Va3,…,(Vu1,Va2,…,-i, 名列表的前面。 an),{vai,Va2,…,Vu-}是用户的序列,yan是用户下 1 一个要访问的项目,也是序列的标签。 」Rank(t) 3.2对比方法 MRR@10=L (16) N Random:该方法比较简单,随机推荐一些项 式中:Rank()表示待预测项目在L中的位置排名。 目给用户。 3.4参数设置 POP:受欢迎度预测是根据训练集中出现次 本文设置随机游走的长度L=20,p=1,窗口 数最多的项目来推荐。 大小win size=-10,向量维度F100,初始化学习率 Session-POP:相比POP根据训练集中所有项 learnning rate=-0.00l,批量bath size-=100,Adam算 目的出现次数排序,该方法推荐当前会话最受欢 法在众多实验中被证明都优于随机梯度下降(SGD) 迎的项目。 方法,本实验延用Adam算法,用来优化损失函 Item-KNN2:根据待预测项目的共现性,找 数,其他参数使用截断的标准高斯分布生成。 到同样访问过待预测项目的用户,计算待预测项 3.5实验结果分析 目与该用户访问序列中的其他项目之间的相似 3.5.1算法比较 性,把与目标景点相似度最高的景点从高到低排 如表1所示的实验结果表明,本文所提出的 序生成长度为K的推荐列表。该方法是传统推 KG-ULSP模型方法,在桂林旅游数据集上效果明 荐系统中常用的推荐方法之一。 显好于其他对比方法,证明了所提方法的有效性。 BPRMFI30:该方法通过随机梯度下降(SGD) 表1算法对比 算法优化成对的目标函数,是矩阵分解中常用的 Table 1 Algorithm comparison oo 方法之一。由于新用户没有可用的特征向量,因 评价指标 此使用其他用户已经访问过的项目的特征向量的 桂林旅游数据集 HR@10 MRR@10 平均值作为新用户的特征向量表示。 Random 4.2 1.37 NARM2:利用注意机制从隐藏层状态捕获 POP 26.76 8.22 用户主要兴趣,结合序列行为作为最终的特征向 S-POP 26.87 10.99 量表示,生成推荐列表。 Item-KNN 29.75 13.23 SR-GNN2m:SR-GNN在下一个点推荐上取得 BPRMF 27.97 11.01 了不错的效果。该方法考虑项目之间的联系,将 NARM 35.32 13.56 序列化问题转化为图,使用图结构构造相邻节点 SR-GNN 37.52 13.27 间的出入度矩阵。经过神经网络学习每个项目的 KG-ULSP 40.96 16.29 低维表示,抓住用户的长短期偏好。 3.3评估方法 与基于序列模型方法相比,POP、S-POP 考虑到用户在实际应用中可能会选择的项目 Item-KNN、BPRMF这类传统方法,其性能相对较 位于推荐列表的前几项。因此,本文采用以下推 差。说明在用户序列行为上,传统方法只考虑项 荐系统中常用的评价指标。 目之间的相似性来推荐显然已经不合适。 HR@lO(HitRate命中率)表示预测推荐列表 基于会话的推荐方法,如NARM、SR-GNN模 长度为10的项目中,正确推荐的项目是否在预测 型也取得了较好的结果,证明了循环神经网络这
ζ(ˆy) = − ∑m i=1 yi log(ˆyi)+(1−yi)log(1−yˆi) (14) 3 实验分析 3.1 数据 u = { vu,1 , vu,2,··· , vu,n } ({vu,1}, vu,2),({vu,1, vu,2}, vu,3),··· ,({vu,1, vu,2,··· , vu,n−1}, vu,n) {vu,1, vu,2,··· , vu,n−1} vu,n 考虑到部分数据的不合理性,如某用户只去 过一个景点,或者几乎很少有人去过的景点。实 验中过滤掉了序列长度小于 2 的用户和访问次数 少于 10 的景点,剩余 18 916 条有效旅游数据,包 含 2 094 名用户和 203 个景点,平均序列长度 9.03。按照 GRU4Rec+[7] 的处理方式,对于任一用 户的输入 ,产生一系列的序列 和标签 , 是用户的序列, 是用户下 一个要访问的项目,也是序列的标签。 3.2 对比方法 Random:该方法比较简单,随机推荐一些项 目给用户。 POP:受欢迎度预测是根据训练集中出现次 数最多的项目来推荐。 Session-POP:相比 POP 根据训练集中所有项 目的出现次数排序,该方法推荐当前会话最受欢 迎的项目。 Item-KNN[29] :根据待预测项目的共现性,找 到同样访问过待预测项目的用户,计算待预测项 目与该用户访问序列中的其他项目之间的相似 性,把与目标景点相似度最高的景点从高到低排 序生成长度为 K 的推荐列表。该方法是传统推 荐系统中常用的推荐方法之一。 BPRMF[30] :该方法通过随机梯度下降 (SGD) 算法优化成对的目标函数,是矩阵分解中常用的 方法之一。由于新用户没有可用的特征向量,因 此使用其他用户已经访问过的项目的特征向量的 平均值作为新用户的特征向量表示。 NARM[25] :利用注意机制从隐藏层状态捕获 用户主要兴趣,结合序列行为作为最终的特征向 量表示,生成推荐列表。 SR-GNN[27] :SR-GNN 在下一个点推荐上取得 了不错的效果。该方法考虑项目之间的联系,将 序列化问题转化为图,使用图结构构造相邻节点 间的出入度矩阵。经过神经网络学习每个项目的 低维表示,抓住用户的长短期偏好。 3.3 评估方法 考虑到用户在实际应用中可能会选择的项目 位于推荐列表的前几项。因此,本文采用以下推 荐系统中常用的评价指标。 HR@10(HitRate 命中率) 表示预测推荐列表 长度为 10 的项目中,正确推荐的项目是否在预测 的推荐列表里。HR 值越大,说明命中率越高,推 荐效果越好。 HR@10 = ∑N N=1 hit N (15) 式中:N 表示总测试次数,对于每次待测景点,hit 取值 1 或者 0,hit=1 表示待预测的项目在排名列 表 L 的前 K 个位置中,hit=1 表示不在排名列表 L 的前 K 个位置中。 MRR@10(Mean Reciprocal Rank 平均倒数排 名) 表示正确推荐的项目位于排名第几位,取倒 数后求平均值。当推荐的项目不在前 10 中,将值 设为 0。MRR 值越大,表明正确的项目目位于排 名列表的前面。 MRR@10 = ∑ t∈L 1 Rank(t) N (16) 式中: Rank(t) 表示待预测项目在 L 中的位置排名。 3.4 参数设置 本文设置随机游走的长度 L=20,p=q=1,窗口 大小 win_size=10,向量维度 d=100,初始化学习率 learnning_rate=0.001,批量 bath_size=100,Adam 算 法在众多实验中被证明都优于随机梯度下降 (SGD) 方法,本实验延用 Adam 算法,用来优化损失函 数,其他参数使用截断的标准高斯分布生成。 3.5 实验结果分析 3.5.1 算法比较 如表 1 所示的实验结果表明,本文所提出的 KG-ULSP 模型方法,在桂林旅游数据集上效果明 显好于其他对比方法,证明了所提方法的有效性。 表 1 算法对比 Table 1 Algorithm comparison % 桂林旅游数据集 评价指标 HR@10 MRR@10 Random 4.2 1.37 POP 26.76 8.22 S-POP 26.87 10.99 Item-KNN 29.75 13.23 BPRMF 27.97 11.01 NARM 35.32 13.56 SR-GNN 37.52 13.27 KG-ULSP 40.96 16.29 与基于序列模型方法相比, POP、 S-POP、 Item-KNN、BPRMF 这类传统方法,其性能相对较 差。说明在用户序列行为上,传统方法只考虑项 目之间的相似性来推荐显然已经不合适。 基于会话的推荐方法,如 NARM、SR-GNN 模 型也取得了较好的结果,证明了循环神经网络这 ·994· 智 能 系 统 学 报 第 15 卷
第5期 贾中浩,等:基于知识图谱和用户长短期偏好的个性化景点推荐 ·995· 类方法在处理时序信息和用户序列行为上的优 3.5.3不同的推荐列表长度对实验结果的影响 势,但与本文KG-ULSP方法相比,NARM仅使用 从图6和图7可以看出,在POP、S-POP 序列中的点表示当前用户向量,忽略了景点与景 Item-KNN、BPRMF这类传统方法中,在k为5和 点之间的关系。SR-GNN虽然使用图结构考虑到 10时,Item-KNN比其他4种传统方法在指标 了景点与景点之间的关系,但是它只考虑了用户 HR的效果好,这可能是因为部分景点的相似性 游览相邻景点之间出入度的关系,因为即使不是 比较高。在=15和=20时,S-POP比其他4种传 相邻的景点,景点在属性上也可能存在一定的相 统方法在指标HR的效果好,根据景点自身特性, 似性。 这是合理的,因为热门景点几乎是大家必去游玩 因此,本文KG-ULSP方法将知识图谱引入进 的地方。在NARM和SG-RNN这类基于会话的 来,用网络表示学习的方法预先学习到景点结构 推荐中,虽然都使用了深度学习中的循环神经网 以及属性上的特征信息,以及使用GRU建模用户 络方法,但从图6和图7中可以看到,随着推荐列 序列。同时,考虑到用户的兴趣可能发生转移, 表的增加,NARM、SR-GNN、KG-ULSP的指标 将用户长期偏好和短期偏好结合起来作为用户的 HR值和MRR值都在提升,但MRR增加的趋势 最终向量表示。其结果显示,KG-ULSP方法就 已经不是很明显。通过以上在不同的推荐列表长 HR@10指标分别比NARM、SR-GNN高出15.97%和 9.17%,KG-LSP方法在MRR@10指标上分别比 度下的各个模型方法的对比,本文所提出KG- NARM、SR-GNN高出20.13%和22.76%。 ULSP方法效果都明显好于所提出的对比方法。 3.52不同维度对实验结果的影响 60 从图4和图5可以看出,就桂林旅游数据集 55 50 而言,维度在d=50情况下HR@10、MRR@10的 ■Random 效果一般,随着维度的提升,推荐效果逐渐提升, % ■POP 效果在维度d=150时达到最佳,维度继续提升的 ■S-POP Item-KNN 情况下,有轻微的波动,但总体保持不变化的趋势。 ■BPRMF 20 ■NARM 43.0 15 ■SR-GNN 42.5 42.32 42.1642.2242.04 10 KG-LSP 42.0 41.5 10 15 40.96 0 41.0 推荐列表长度k 40.5 图6不同推荐列表长度下的HR@10 40.0 39.80 Fig.6 HR@10 of different recommendation list 39.5 39.0 18 38.5 16 50 100 150200250 300 维度d ■Random 12 ■POP 图4不同维度下的HR@10 ■S-POP Fig.4 HR@10 of different dimension Item-KNN ■BPRMF 18.0 17.5017.33174017.35 ■NARM 6 17.5 ■SR.GNN 17.0 ■KG-LSP 16.5 16.29 16.0 15.5 5 10 15 20 15.0 14.65 推荐列表长度k 14.5 图7不同推荐列表长度下的MRR@10 14.0 Fig.7 MRR@10 of different recommendation list 13.5 13.0 3.54不同偏好表示对实验结果的影响 50 100 150200250 300 维度d KG-ULP表示仅使用用户的长期偏好作为序 图5不同维度下的MRR@10 列的最终向量表示,KG-ULSP是本文所提出的方 Fig.5 MRR@10 of different dimension 法,结合了用户的长期偏好,又考虑了用户的当
类方法在处理时序信息和用户序列行为上的优 势,但与本文 KG-ULSP 方法相比,NARM 仅使用 序列中的点表示当前用户向量,忽略了景点与景 点之间的关系。SR-GNN 虽然使用图结构考虑到 了景点与景点之间的关系,但是它只考虑了用户 游览相邻景点之间出入度的关系,因为即使不是 相邻的景点,景点在属性上也可能存在一定的相 似性。 因此,本文 KG-ULSP 方法将知识图谱引入进 来,用网络表示学习的方法预先学习到景点结构 以及属性上的特征信息,以及使用 GRU 建模用户 序列。同时,考虑到用户的兴趣可能发生转移, 将用户长期偏好和短期偏好结合起来作为用户的 最终向量表示。其结果显示,KG-ULSP 方法就 HR@10 指标分别比 NARM、SR-GNN 高出 15.97% 和 9.17%,KG-LSP 方法在 MRR@10 指标上分别比 NARM、SR-GNN 高出 20.13% 和 22.76%。 3.5.2 不同维度对实验结果的影响 从图 4 和图 5 可以看出,就桂林旅游数据集 而言,维度在 d=50 情况下 HR@10、MRR@10 的 效果一般,随着维度的提升,推荐效果逐渐提升, 效果在维度 d=150 时达到最佳,维度继续提升的 情况下,有轻微的波动,但总体保持不变化的趋势。 38.5 39.0 39.5 40.0 40.5 41.0 41.5 42.0 42.5 43.0 50 100 150 200 250 300 HR@10/% 维度 d 39.80 40.96 42.32 42.16 42.22 42.04 图 4 不同维度下的 HR@10 Fig. 4 HR@10 of different dimension 13.0 13.5 14.0 14.5 15.0 15.5 16.0 16.5 17.0 17.5 18.0 50 100 150 200 250 300 MRR@10/% 维度 d 14.65 16.29 17.50 17.33 17.40 17.35 图 5 不同维度下的 MRR@10 Fig. 5 MRR@10 of different dimension 3.5.3 不同的推荐列表长度对实验结果的影响 从图 6 和图 7 可以看出,在 POP、S-POP、 Item-KNN、BPRMF 这类传统方法中,在 k 为 5 和 10 时 , Item-KNN 比其他 4 种传统方法在指标 HR 的效果好,这可能是因为部分景点的相似性 比较高。在 k=15 和 k=20 时,S-POP 比其他 4 种传 统方法在指标 HR 的效果好,根据景点自身特性, 这是合理的,因为热门景点几乎是大家必去游玩 的地方。在 NARM 和 SG-RNN 这类基于会话的 推荐中,虽然都使用了深度学习中的循环神经网 络方法,但从图 6 和图 7 中可以看到,随着推荐列 表的增加,NARM、SR-GNN、KG-ULSP 的指标 HR 值和 MRR 值都在提升,但 MRR 增加的趋势 已经不是很明显。通过以上在不同的推荐列表长 度下的各个模型方法的对比,本文所提出 KGULSP 方法效果都明显好于所提出的对比方法。 0 5 10 15 20 25 30 35 40 45 50 55 60 5 10 15 20 推荐列表长度 k Random POP S-POP Item-KNN BPRMF NARM 百分比/% SR-GNN KG-LSP 图 6 不同推荐列表长度下的 HR@10 Fig. 6 HR@10 of different recommendation list 0 2 4 6 8 10 12 14 16 18 5 10 15 20 百分比/% 推荐列表长度 k Random POP S-POP Item-KNN BPRMF NARM SR-GNN KG-LSP 图 7 不同推荐列表长度下的 MRR@10 Fig. 7 MRR@10 of different recommendation list 3.5.4 不同偏好表示对实验结果的影响 KG-ULP 表示仅使用用户的长期偏好作为序 列的最终向量表示,KG-ULSP 是本文所提出的方 法,结合了用户的长期偏好,又考虑了用户的当 第 5 期 贾中浩,等:基于知识图谱和用户长短期偏好的个性化景点推荐 ·995·
·996· 智能系统学报 第15卷 前偏好。从表2中可以看出,同时考虑用户的长 各个指标上均有所提升。 短期偏好效果比仅考虑用户的长期偏好的效果在 表2不同偏好下的HR值和MRR值 Table 2 HR values,MRR values of different preferences 评价指标 HR@5 MRR@5 HR@10 MRR@10 HR@15 MRR@15 HR@20 MRR@20 kG-ULP 23.80 11.16 40.92 13.14 51.04 14.14 58.48 14.51 kG-ULSP 27.76 14.09 40.96 16.29 52.76 17.07 59.24 17.67 4结束语 [7]TAN Y K,XU Xinxing,LIU Yong.Improved recurrent neural networks for session-based recommendations[EB/ 本文针对推荐系统序列化信息中没有考虑项 OL].[2018-10-15]htps://arxiv..org/abs/1606.08117,2016. 与项之间的关系这一问题,提出将知识图谱作为 [8]QUADRANA M.KARATZOGLOU A,HIDASI B,et al. 辅助信息引入到序列化建模上,同时考虑到用户 Personalizing session-based recommendations with hier- 的兴趣可能发生变化,提出将用户的长短期偏好 archical recurrent neural networks[C]//Proceedings of the 结合起来,即本文所提出的KG-ULSP方法。通过 Eleventh ACM Conference on Recommender Systems. 在旅游数据集的实验,以及其他一些列的实验对 Como,1taly,2017:130-137. 比,证明了KS-ULSP方法的有效性。未来,知识 [9]GROVER A,LESKOVEC J.node2vec:scalable feature 图谱和基于强化学习的推荐系统的结合、以及知 learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discov- 识图谱和其他辅助信息在推荐系统中的结合等相 ery and Data Mining.San Francisco,California,USA. 关问题值得更多的关注和研究。 2016:855-864. 参考文献: [10]MIKOLOV T,SUTSKEVER I,CHEN Kai,et al.Distrib- uted representations of words and phrases and their com- [1]CATHERINE R,COHEN W.Personalized recommenda- positionality [C]//Proceedings of the 26th International tions using knowledge graphs:a probabilistic logic pro- Conference on Neural Information Processing Systems. gramming approach[C]//Proceedings of the 10th ACM Lake Tahoe,Nevada,USA,2013:3111-3119. Conference on Recommender Systems.Boston,Massachu- [11]CHEN Haochen,PEROZZI B.AL-RFOU R,et al.A tu- setts.USA.2016:325-332. torial on network embeddings[EB/OL].[2018-11-15]ht- [2]DI NOIA T,OSTUNI VC,TOMEO P,et al.SPrank:se- tps://arxiv.org/abs/ar Xiv:1808.02590,2018 mantic path-based ranking for top-N recommendations us- [12]TANG Jian,QU Meng,WANG Mingzhe,et al.LINE: ing linked open data[J].ACM transactions on intelligent large-scale information network embedding[C]//Proceed- systems and technology,2016,8(1):9. ings of the 24th International Conference on World Wide [3]刘峤,李杨,段宏,等.知识图谱构建技术综述.计算机 Web.Florence,Italy,2015:1067-1077. 研究与发展,2016,53(3)582-600. [13]YANG Cheng,LIU Zhiyuan,ZHAO Deli,et al.Network LIU Qiao,LI Yang,DUAN Hong,et al.Knowledge graph representation learning with rich text information[C]//Pro- construction techniques[J].Journal of computer research ceedings of the 24th International Conference on Artifi- and development,2016,53(3):582-600. cial Intelligence.Buenos Aires,Argentina,2015: [4]PALUMBO E,RIZZO G,TRONCY R,et al.Knowledge 2111-2117. graph embeddings with node2vec for item recommenda- [14]CAO Shaosheng,LU Wei,XU Qiongkai.GraRep:learn- tion[C]//Proceedings of European Semantic Web Confer- ing graph representations with global structural informa- ence.Crete,Greece,2018:117-120. tion[Cl//Proceedings of the 24th ACM International on [5]YU Xiao,REN Xiang,SUN Yizhou,et al.Personalized en- Conference on Information and Knowledge Management tity recommendation:a heterogeneous information net- Melbourne,Australia,2015:891-900. work approach[C]//Proceedings of the 7th ACM Interna- [15]RIBEIRO L F R,SAVERESE P H P,FIGUEIREDO D R tional Conference on Web Search and Data Mining.New 2017.struc2vec:learning node representations from struc- York,USA.2014:283-292. tural identity[C]//Proceedings of the 23rd ACM SIGKDD [6]HIDASI B,KARATZOGLOU A,BALTRUNAS L,et al. International Conference on Knowledge Discovery and Session-based recommendations with recurrent neural net- Data Mining.Halifax,NS,Canada,2017:385-394. works[J].computer science,2015 [16]WANG Hongwei,WANG Jia,WANG Jialin,et al
前偏好。从表 2 中可以看出,同时考虑用户的长 短期偏好效果比仅考虑用户的长期偏好的效果在 各个指标上均有所提升。 表 2 不同偏好下的 HR 值和 MRR 值 Table 2 HR values, MRR values of different preferences 评价指标 HR@5 MRR@5 HR@10 MRR@10 HR@15 MRR@15 HR@20 MRR@20 kG-ULP 23.80 11.16 40.92 13.14 51.04 14.14 58.48 14.51 kG-ULSP 27.76 14.09 40.96 16.29 52.76 17.07 59.24 17.67 4 结束语 本文针对推荐系统序列化信息中没有考虑项 与项之间的关系这一问题,提出将知识图谱作为 辅助信息引入到序列化建模上,同时考虑到用户 的兴趣可能发生变化,提出将用户的长短期偏好 结合起来,即本文所提出的 KG-ULSP 方法。通过 在旅游数据集的实验,以及其他一些列的实验对 比,证明了 KS-ULSP 方法的有效性。未来,知识 图谱和基于强化学习的推荐系统的结合、以及知 识图谱和其他辅助信息在推荐系统中的结合等相 关问题值得更多的关注和研究。 参考文献: CATHERINE R, COHEN W. Personalized recommendations using knowledge graphs: a probabilistic logic programming approach[C]//Proceedings of the 10th ACM Conference on Recommender Systems. Boston, Massachusetts, USA, 2016: 325−332. [1] DI NOIA T, OSTUNI V C, TOMEO P, et al. SPrank: semantic path-based ranking for top-N recommendations using linked open data[J]. ACM transactions on intelligent systems and technology, 2016, 8(1): 9. [2] 刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述 [J]. 计算机 研究与发展, 2016, 53(3): 582–600. LIU Qiao, LI Yang, DUAN Hong, et al. Knowledge graph construction techniques[J]. Journal of computer research and development, 2016, 53(3): 582–600. [3] PALUMBO E, RIZZO G, TRONCY R, et al. Knowledge graph embeddings with node2vec for item recommendation[C]//Proceedings of European Semantic Web Conference. Crete, Greece, 2018: 117−120. [4] YU Xiao, REN Xiang, SUN Yizhou, et al. Personalized entity recommendation: a heterogeneous information network approach[C]//Proceedings of the 7th ACM International Conference on Web Search and Data Mining. New York, USA, 2014: 283−292. [5] HIDASI B, KARATZOGLOU A, BALTRUNAS L, et al. Session-based recommendations with recurrent neural networks[J]. computer science, 2015. [6] TAN Y K, XU Xinxing, LIU Yong. Improved recurrent neural networks for session-based recommendations[EB/ OL]. [2018-10-15] https://arxiv.org/abs/1606.08117, 2016. [7] QUADRANA M, KARATZOGLOU A, HIDASI B, et al. Personalizing session-based recommendations with hierarchical recurrent neural networks[C]//Proceedings of the Eleventh ACM Conference on Recommender Systems. Como, Italy, 2017: 130−137. [8] GROVER A, LESKOVEC J. node2vec: scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA, 2016: 855-864. [9] MIKOLOV T, SUTSKEVER I, CHEN Kai, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA, 2013: 3111−3119. [10] CHEN Haochen, PEROZZI B, AL-RFOU R, et al. A tutorial on network embeddings[EB/OL]. [2018-11-15] https://arxiv.org/abs/arXiv:1808.02590, 2018. [11] TANG Jian, QU Meng, WANG Mingzhe, et al. LINE: large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web. Florence, Italy, 2015: 1067−1077. [12] YANG Cheng, LIU Zhiyuan, ZHAO Deli, et al. Network representation learning with rich text information[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina, 2015: 2111−2117. [13] CAO Shaosheng, LU Wei, XU Qiongkai. GraRep: learning graph representations with global structural information[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne, Australia, 2015: 891−900. [14] RIBEIRO L F R, SAVERESE P H P, FIGUEIREDO D R. 2017. struc2vec: learning node representations from structural identity[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Halifax, NS, Canada, 2017: 385−394. [15] [16] WANG Hongwei, WANG Jia, WANG Jialin, et al. ·996· 智 能 系 统 学 报 第 15 卷
第5期 贾中浩,等:基于知识图谱和用户长短期偏好的个性化景点推荐 ·997· GraphGAN:graph representation learning with generat- short-term attention/memory priority model for session- ive adversarial nets[C]//Proceedings of AAAI Confer- based recommendation[C]//Proceedings of the 24th ACM ence on Artificial Intelligence.New Orleans,Lousiana, SIGKDD International Conference on Knowledge Dis- USA,2018:2508-2515. covery Data Mining.London,United Kingdom,2018: [17]WANG Daixin,CUI Peng,ZHU Wenwu.Structural deep 1831-1839. network embedding[C]//Proceedings of the 22nd ACM [27]WU Shu,TANG Yuyuan,ZHU Yangiao,et al.Session- SIGKDD International Conference on Knowledge Dis- based recommendation with graph neural networks[J]. covery and Data Mining.San Francisco,California,USA, Proceedings of the thirty-third AAAl conference on artifi- 2016:1225-1234 cial intelligence,2018,33(1):346-353. [18]PEROZZI B,AL-RFOU R,SKIENA S.DeepWalk:on- [28]徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述.电 line learning of social representations[C]//Proceedings of 子科技大学学报,2016,45(4):589-606. the 20th ACM SIGKDD International Conference on XU Zenglin,SHENG Yongpan,HE Lirong,et al.Review Knowledge Discovery and Data Mining.New York. on knowledge graph techniques[J].Journal of University USA.2014:701-710. of Electronic Science and Technology of China,2016, [19]ORAMAS S.OSTUNI V C.DI NOIA T.et al.Sound and 45(4):589-606. music recommendation with knowledge graphs[J].ACM [29]SARWAR B.KARYPIS G,KONSTAN J,et al.Item transactions on intelligent systems and technology,2017, 8(2):21. based collaborative filtering recommendation [20]PALUMBO E,RIZZO G.TRONCY R.entity2rec:learn- algorithms[Cl//Proceedings of the 10th International Con- ing user-item relatedness from knowledge graphs for top- ference on World Wide Web.Hong Kong,China,2001: N item recommendation[Cl//Proceedings of the Eleventh 285-295. ACM Conference on Recommender Systems.Como, [30]RENDLE S,FREUDENTHALER C,GANTNER Z,et al. Italy,2017:32-36. BPR:Bayesian personalized ranking from implicit feed- [21]ZHANG Fuzheng,YUAN N J,LIAN Defu,et al.Collab- back[C//Proceedings of the Twenty-Fifth Conference on orative knowledge base embedding for recommender sys- Uncertainty in Artificial Intelligence.Montreal,Quebec, tems[C]//Proceedings of the 22nd ACM SIGKDD Inter- Canada.2009:452-461. national Conference on Knowledge Discovery and Data 作者简介: Mining.San Francisco,California,USA,2016:353-362. 贾中浩,硕士研究生,主要研究方 [22]LIN Yankai,LIU Zhiyuan,SUN Maosong,et al.Learn- 向为机器学习、推荐系统。 ing entity and relation embeddings for knowledge graph completion[Cl//Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence.Austin Texas,USA, 2015. [23]VINCENT P.LAROCHELLE H,LAJOIE I,et al. Stacked denoising autoencoders:learning useful repres- 宾辰忠,博士研究生,主要研究方 entations in a deep network with a local denoising cri- 向为数据挖掘、智能推荐。 terion[J].Journal of machine learning research,2010,11: 3371-3408. [24]MASCI J,MEIER U,CIRESAN D,et al.Stacked convo- lutional auto-encoders for hierarchical feature extraction[C]//Proceedings of the 21st International Con- ference on Artificial Neural Networks.Espoo,Finland, 古天龙,教授,博士生导师,主要 2011:52-59 研究方向为形式化方法、知识工程与 [25]LI Jing,REN Pengjie,CHEN Zhumin,et al.Neural at- 符号推理、协议工程与移动计算、可信 tentive session-based recommendation[C]//Proceedings of 泛在网络、嵌人式系统。主持国家 the 2017 ACM on Conference on Information and Know- 863计划项目、国家自然科学基金、国 ledge Management.Singapore,Singapore,2017: 防预研重点项目、国防预研基金等 1419-1428 30余项。出版学术著作3部,发表学 [26]LIU Qiao,ZENG Yifu,MOKHOSI R,et al.STAMP: 术论文130余篇
GraphGAN: graph representation learning with generative adversarial nets[C]//Proceedings of AAAI Conference on Artificial Intelligence. New Orleans, Lousiana, USA, 2018: 2508−2515. WANG Daixin, CUI Peng, ZHU Wenwu. Structural deep network embedding[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA, 2016: 1225−1234. [17] PEROZZI B, AL-RFOU R, SKIENA S. DeepWalk: online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2014: 701−710. [18] ORAMAS S, OSTUNI V C, DI NOIA T, et al. Sound and music recommendation with knowledge graphs[J]. ACM transactions on intelligent systems and technology, 2017, 8(2): 21. [19] PALUMBO E, RIZZO G, TRONCY R. entity2rec: learning user-item relatedness from knowledge graphs for topN item recommendation[C]//Proceedings of the Eleventh ACM Conference on Recommender Systems. Como, Italy, 2017: 32−36. [20] ZHANG Fuzheng, YUAN N J, LIAN Defu, et al. Collaborative knowledge base embedding for recommender systems[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA, 2016: 353−362. [21] LIN Yankai, LIU Zhiyuan, SUN Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Austin Texas, USA, 2015. [22] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of machine learning research, 2010, 11: 3371–3408. [23] MASCI J, MEIER U, CIREŞAN D, et al. Stacked convolutional auto-encoders for hierarchical feature extraction[C]//Proceedings of the 21st International Conference on Artificial Neural Networks. Espoo, Finland, 2011: 52−59. [24] LI Jing, REN Pengjie, CHEN Zhumin, et al. Neural attentive session-based recommendation[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. Singapore, Singapore, 2017: 1419−1428. [25] [26] LIU Qiao, ZENG Yifu, MOKHOSI R, et al. STAMP: short-term attention/memory priority model for sessionbased recommendation[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London, United Kingdom, 2018: 1831−1839. WU Shu, TANG Yuyuan, ZHU Yanqiao, et al. Sessionbased recommendation with graph neural networks[J]. Proceedings of the thirty-third AAAI conference on artificial intelligence, 2018, 33(1): 346–353. [27] 徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述 [J]. 电 子科技大学学报, 2016, 45(4): 589–606. XU Zenglin, SHENG Yongpan, HE Lirong, et al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589–606. [28] SARWAR B, KARYPIS G, KONSTAN J, et al. Itembased collaborative filtering recommendation algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. Hong Kong, China, 2001: 285−295. [29] RENDLE S, FREUDENTHALER C, GANTNER Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]//Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence. Montreal, Quebec, Canada, 2009: 452−461. [30] 作者简介: 贾中浩,硕士研究生,主要研究方 向为机器学习、推荐系统。 宾辰忠,博士研究生,主要研究方 向为数据挖掘、智能推荐。 古天龙,教授,博士生导师,主要 研究方向为形式化方法、知识工程与 符号推理、协议工程与移动计算、可信 泛在网络、嵌入式系统。主持国家 863 计划项目、国家自然科学基金、国 防预研重点项目、国防预研基金等 30 余项。出版学术著作 3 部,发表学 术论文 130 余篇。 第 5 期 贾中浩,等:基于知识图谱和用户长短期偏好的个性化景点推荐 ·997·