化的衡量资源之间的相似性，挖掘用户的偏好，最后结合上下文信息生成推荐结果

正在加载图片...

·210· 智能系统学报第14卷化的衡量资源之间的相似性，挖掘用户的偏好，佳的方法。数据集是利用SPARQL语句处理DB- 最后结合上下文信息生成推荐结果。因此在引 pedia获取实验所需信息，数据格式为userID、入LOD之后，语义相似度的计算成为关键所在。 itemID、score。.推荐效果最佳的算法是hello 目前，语义相似计算的方法主要包括链接数据语 Wold(一个混合策略的利用LOD的推荐系统)，考义距离(linked data semantic distance)、基于隐式语虑数据集中书籍的类型、层级分类、作者信息等，义反馈的路径算法(SPrank)等。利用基于内容的方法进行推荐，基于余弦相似度 Passant等m较早地提出将LOD引入到推荐进行基于协同过滤的推荐，利用Wikidata中数据系统中。他认为用户的评分信息并不能充分地反的链入链出进行基于流行度的推荐。最后通过准映用户的偏好，还应该关注历史数据的语义信确率、召回率以及均方根误差的计算来评判推荐息，从而提出将链接开放数据库DBpedia引入到的准确性。音乐推荐中，计算知识库中资源的语义距离来完 Lu等2o将利用DBpedia、Geonames和成推荐任务。首先将已有的音乐数据集利用 Wikidata中的数据构建了关于全世界的旅游知识 SPARQL语句映射到DBpedia中以获取音乐资源图谱。包含1200多个景点类型，从而可以在很更为丰富的属性信息。然后基于LDSD过滤无用细的语义粒度上对景点进行刻画。通过categor- 的属性-值及错误信息。最后利用LDSD计算出 ies来表示用户的兴趣，并且为用户在每类cat- 相关实体的语义距离并利用SPARQL语句查询 cgoy上的兴趣度赋予一个得分值。一般采用两呈现出来。系统的优点在于不需要依靠传统的推种方式：frequency-based和time-based。.前者根据荐算法只需一组公开的数据集就可以实现推荐，用户访问某类景点的频率/次数来计算得分值。但是对新用户的问题没有提及，只是对现有用户后者根据用户在某类景点所待的时间长短来计算数据分析做出推荐。分值。文献[20]在这两种情况的基础上，在计算 Noia等u提出利用LOD语义丰富的特点来分值时，把各个景点在所位于的城市中的影响力提高基于内容的电影推荐系统的准确率。首先利也考虑进去。例如，如果A和B都是casino类型用SPARQL语句将DBpedia、LinkedMDB、Free- 的景点：A所位于的城市以casino类型的景点闻 base中电影相关RDF数据抽取出来用于对知识名于世，但B所位于的城市却不是以casino类型库中资源进行更加详细的描述，并通过向量空间的景点著称；Mary游览了A,Paul游览了B:Mary和模型(VSM)来计算资源之间的相似性，项目 Paul游览casino类型景点的频率和所花的时间都 m,和m,的相似性可以标识为一样多。则，在考虑了城市的影响力之后得到的 Wa4pwsn 结果是：Mary对casino类型景点的喜好程度比 simP(mi,m）= =1 Paul对casino类型景点的喜好程度更高。通过知识图谱中的信息，可以获得不同类型的景点在其式中：wap表示根据TF-IDF所得到的权重，TF为所位于的城市中的影响力。综合上面两个方面的优势，与采用简单本体的方法相比，文献「20]的工具有p属性的节点n的频率，IDF为电影总数与链接到资源n的电影数量之间比率的对数。然后作可以在更细的语义粒度上刻画景点类型，可以根据用户的评分记录为用户建模，用户“可以建更好地捕获游客的兴趣，最终得到更好的推荐效果。 Oramas等2研究基于知识图谱的声音和音乐模为 profile(u)=(<mj,vj>Ivj 1 if u likes mj. 的推荐，主要描述如何创建和利用知识图谱并结 v;=-1 otherwisel 合混合推荐引擎来完成推荐任务。文献[21]中构最后通过公式计算得分为用户进行topN推荐：建了声音和音乐两个知识图谱，首先分别从Free- ∑pap·simP(m,m） sound.org、Songfacts.com以及Last.fm中获取标广u,m,)=/prohie(a) P 签、文本描述信息以及用户收听和下载的信息， Iprofile(u) 遵循基于本体的方法，利用Babelfy(对于给定的 Noia等u总结了ESWC2014年利用LOD实单词返回相关的wordNet以及维基百科页面) 现书籍推荐系统的相关算法。其中推荐的任务主种用于实体链接和同义词消歧的最先进的工具，要包括3部分：冷启动环境下的评分预测、基于通过将它们与在线数据集中定义的实体关联，丰用户反馈做top-N推荐、基于内容的推荐系统的富从文本描述中提取的标签和关键词。其中识别多样性。主要简述数据集的特征以及推荐效果最的命名实体链接到DBpedia资源，消歧的单词链化的衡量资源之间的相似性，挖掘用户的偏好，最后结合上下文信息生成推荐结果。因此在引入 LOD 之后，语义相似度的计算成为关键所在。目前，语义相似计算的方法主要包括链接数据语义距离 (linked data semantic distance)、基于隐式语义反馈的路径算法 (SPrank) 等。 Passant 等 [17]较早地提出将 LOD 引入到推荐系统中。他认为用户的评分信息并不能充分地反映用户的偏好，还应该关注历史数据的语义信息，从而提出将链接开放数据库 DBpedia 引入到音乐推荐中，计算知识库中资源的语义距离来完成推荐任务。首先将已有的音乐数据集利用 SPARQL 语句映射到 DBpedia 中以获取音乐资源更为丰富的属性信息。然后基于 LDSD 过滤无用的属性-值及错误信息。最后利用 LDSD 计算出相关实体的语义距离并利用 SPARQL 语句查询呈现出来。系统的优点在于不需要依靠传统的推荐算法只需一组公开的数据集就可以实现推荐，但是对新用户的问题没有提及，只是对现有用户数据分析做出推荐。 Noia 等 [18]提出利用 LOD 语义丰富的特点来提高基于内容的电影推荐系统的准确率。首先利用 SPARQL 语句将 DBpedia、LinkedMDB、Freebase 中电影相关 RDF 数据抽取出来用于对知识库中资源进行更加详细的描述，并通过向量空间模型 (VSM) 来计算资源之间的相似性，项目 mi 和 mj 的相似性可以标识为 simp (mi ,mj) = ∑t n=1 wn,i,pwn, j,p √ ∑t n=1 w2 n,i,p √ ∑t n=1 w2 n, j,p 式中： wn,i,p表示根据 TF-IDF 所得到的权重，TF 为具有 p 属性的节点 n 的频率，IDF 为电影总数与链接到资源 n 的电影数量之间比率的对数。然后根据用户的评分记录为用户建模，用户 u 可以建模为 profile(u) = {< mj , vj > | vj = 1 if u likes mj , vj = −1 otherwise} 最后通过公式计算得分为用户进行 top-N 推荐： r˜(u,mi) = ∑ mj∈profile(u) vj . ∑ p αp ·simp (mj ,mi) P |profile(u)| Noia 等 [19]总结了 ESWC2014 年利用 LOD 实现书籍推荐系统的相关算法。其中推荐的任务主要包括 3 部分：冷启动环境下的评分预测、基于用户反馈做 top-N 推荐、基于内容的推荐系统的多样性。主要简述数据集的特征以及推荐效果最佳的方法。数据集是利用 SPARQL 语句处理 DBpedia 获取实验所需信息，数据格式为 userID、 itemID、score。推荐效果最佳的算法是 helloWorld(一个混合策略的利用 LOD 的推荐系统)，考虑数据集中书籍的类型、层级分类、作者信息等，利用基于内容的方法进行推荐，基于余弦相似度进行基于协同过滤的推荐，利用 Wikidata 中数据的链入链出进行基于流行度的推荐。最后通过准确率、召回率以及均方根误差的计算来评判推荐的准确性。 Lu 等 [ 2 0 ]将利用 DBpedia、 Geoname s 和 Wikidata 中的数据构建了关于全世界的旅游知识图谱。包含 1 200 多个景点类型，从而可以在很细的语义粒度上对景点进行刻画。通过 categories 来表示用户的兴趣，并且为用户在每类 category 上的兴趣度赋予一个得分值。一般采用两种方式：frequency-based 和 time-based。前者根据用户访问某类景点的频率/次数来计算得分值。后者根据用户在某类景点所待的时间长短来计算分值。文献[20]在这两种情况的基础上，在计算分值时，把各个景点在所位于的城市中的影响力也考虑进去。例如，如果 A 和 B 都是 casino 类型的景点；A 所位于的城市以 casino 类型的景点闻名于世，但 B 所位于的城市却不是以 casino 类型的景点著称；Mary 游览了 A，Paul 游览了 B；Mary 和 Paul 游览 casino 类型景点的频率和所花的时间都一样多。则，在考虑了城市的影响力之后得到的结果是：Mary 对 casino 类型景点的喜好程度比 Paul 对 casino 类型景点的喜好程度更高。通过知识图谱中的信息，可以获得不同类型的景点在其所位于的城市中的影响力。综合上面两个方面的优势，与采用简单本体的方法相比，文献[20]的工作可以在更细的语义粒度上刻画景点类型，可以更好地捕获游客的兴趣，最终得到更好的推荐效果。 Oramas 等 [21]研究基于知识图谱的声音和音乐的推荐，主要描述如何创建和利用知识图谱并结合混合推荐引擎来完成推荐任务。文献[21]中构建了声音和音乐两个知识图谱，首先分别从 Freesound.org、Songfacts.com 以及 Last.fm 中获取标签、文本描述信息以及用户收听和下载的信息，遵循基于本体的方法，利用 Babelfy(对于给定的单词返回相关的 wordNet 以及维基百科页面) 一种用于实体链接和同义词消歧的最先进的工具，通过将它们与在线数据集中定义的实体关联，丰富从文本描述中提取的标签和关键词。其中识别的命名实体链接到 DBpedia 资源，消歧的单词链 ·210· 智能系统学报第 14 卷

<<向上翻页向下翻页>>