正在加载图片...
·210· 智能系统学报 第14卷 化的衡量资源之间的相似性,挖掘用户的偏好, 佳的方法。数据集是利用SPARQL语句处理DB- 最后结合上下文信息生成推荐结果。因此在引 pedia获取实验所需信息,数据格式为userID、 入LOD之后,语义相似度的计算成为关键所在。 itemID、score。.推荐效果最佳的算法是hello 目前,语义相似计算的方法主要包括链接数据语 Wold(一个混合策略的利用LOD的推荐系统),考 义距离(linked data semantic distance)、基于隐式语 虑数据集中书籍的类型、层级分类、作者信息等, 义反馈的路径算法(SPrank)等。 利用基于内容的方法进行推荐,基于余弦相似度 Passant等m较早地提出将LOD引入到推荐 进行基于协同过滤的推荐,利用Wikidata中数据 系统中。他认为用户的评分信息并不能充分地反 的链入链出进行基于流行度的推荐。最后通过准 映用户的偏好,还应该关注历史数据的语义信 确率、召回率以及均方根误差的计算来评判推荐 息,从而提出将链接开放数据库DBpedia引入到 的准确性。 音乐推荐中,计算知识库中资源的语义距离来完 Lu等2o将利用DBpedia、Geonames和 成推荐任务。首先将已有的音乐数据集利用 Wikidata中的数据构建了关于全世界的旅游知识 SPARQL语句映射到DBpedia中以获取音乐资源 图谱。包含1200多个景点类型,从而可以在很 更为丰富的属性信息。然后基于LDSD过滤无用 细的语义粒度上对景点进行刻画。通过categor- 的属性-值及错误信息。最后利用LDSD计算出 ies来表示用户的兴趣,并且为用户在每类cat- 相关实体的语义距离并利用SPARQL语句查询 cgoy上的兴趣度赋予一个得分值。一般采用两 呈现出来。系统的优点在于不需要依靠传统的推 种方式:frequency-based和time-based。.前者根据 荐算法只需一组公开的数据集就可以实现推荐, 用户访问某类景点的频率/次数来计算得分值。 但是对新用户的问题没有提及,只是对现有用户 后者根据用户在某类景点所待的时间长短来计算 数据分析做出推荐。 分值。文献[20]在这两种情况的基础上,在计算 Noia等u提出利用LOD语义丰富的特点来 分值时,把各个景点在所位于的城市中的影响力 提高基于内容的电影推荐系统的准确率。首先利 也考虑进去。例如,如果A和B都是casino类型 用SPARQL语句将DBpedia、LinkedMDB、Free- 的景点:A所位于的城市以casino类型的景点闻 base中电影相关RDF数据抽取出来用于对知识 名于世,但B所位于的城市却不是以casino类型 库中资源进行更加详细的描述,并通过向量空间 的景点著称;Mary游览了A,Paul游览了B:Mary和 模型(VSM)来计算资源之间的相似性,项目 Paul游览casino类型景点的频率和所花的时间都 m,和m,的相似性可以标识为 一样多。则,在考虑了城市的影响力之后得到的 Wa4pwsn 结果是:Mary对casino类型景点的喜好程度比 simP(mi,m)= =1 Paul对casino类型景点的喜好程度更高。通过知 识图谱中的信息,可以获得不同类型的景点在其 式中:wap表示根据TF-IDF所得到的权重,TF为 所位于的城市中的影响力。综合上面两个方面的 优势,与采用简单本体的方法相比,文献「20]的工 具有p属性的节点n的频率,IDF为电影总数与 链接到资源n的电影数量之间比率的对数。然后 作可以在更细的语义粒度上刻画景点类型,可以 根据用户的评分记录为用户建模,用户“可以建 更好地捕获游客的兴趣,最终得到更好的推荐效果。 Oramas等2研究基于知识图谱的声音和音乐 模为 profile(u)=(<mj,vj>Ivj 1 if u likes mj. 的推荐,主要描述如何创建和利用知识图谱并结 v;=-1 otherwisel 合混合推荐引擎来完成推荐任务。文献[21]中构 最后通过公式计算得分为用户进行topN推荐: 建了声音和音乐两个知识图谱,首先分别从Free- ∑pap·simP(m,m) sound.org、Songfacts.com以及Last.fm中获取标 广u,m,)=/prohie(a) P 签、文本描述信息以及用户收听和下载的信息, Iprofile(u) 遵循基于本体的方法,利用Babelfy(对于给定的 Noia等u总结了ESWC2014年利用LOD实 单词返回相关的wordNet以及维基百科页面) 现书籍推荐系统的相关算法。其中推荐的任务主 种用于实体链接和同义词消歧的最先进的工具, 要包括3部分:冷启动环境下的评分预测、基于 通过将它们与在线数据集中定义的实体关联,丰 用户反馈做top-N推荐、基于内容的推荐系统的 富从文本描述中提取的标签和关键词。其中识别 多样性。主要简述数据集的特征以及推荐效果最 的命名实体链接到DBpedia资源,消歧的单词链化的衡量资源之间的相似性,挖掘用户的偏好, 最后结合上下文信息生成推荐结果。因此在引 入 LOD 之后,语义相似度的计算成为关键所在。 目前,语义相似计算的方法主要包括链接数据语 义距离 (linked data semantic distance)、基于隐式语 义反馈的路径算法 (SPrank) 等。 Passant 等 [17]较早地提出将 LOD 引入到推荐 系统中。他认为用户的评分信息并不能充分地反 映用户的偏好,还应该关注历史数据的语义信 息,从而提出将链接开放数据库 DBpedia 引入到 音乐推荐中,计算知识库中资源的语义距离来完 成推荐任务。首先将已有的音乐数据集利用 SPARQL 语句映射到 DBpedia 中以获取音乐资源 更为丰富的属性信息。然后基于 LDSD 过滤无用 的属性-值及错误信息。最后利用 LDSD 计算出 相关实体的语义距离并利用 SPARQL 语句查询 呈现出来。系统的优点在于不需要依靠传统的推 荐算法只需一组公开的数据集就可以实现推荐, 但是对新用户的问题没有提及,只是对现有用户 数据分析做出推荐。 Noia 等 [18]提出利用 LOD 语义丰富的特点来 提高基于内容的电影推荐系统的准确率。首先利 用 SPARQL 语句将 DBpedia、LinkedMDB、Free￾base 中电影相关 RDF 数据抽取出来用于对知识 库中资源进行更加详细的描述,并通过向量空间 模 型 (VSM) 来计算资源之间的相似性,项 目 mi 和 mj 的相似性可以标识为 simp (mi ,mj) = ∑t n=1 wn,i,pwn, j,p √ ∑t n=1 w2 n,i,p √ ∑t n=1 w2 n, j,p 式中: wn,i,p表示根据 TF-IDF 所得到的权重,TF 为 具有 p 属性的节点 n 的频率,IDF 为电影总数与 链接到资源 n 的电影数量之间比率的对数。然后 根据用户的评分记录为用户建模,用户 u 可以建 模为 profile(u) = {< mj , vj > | vj = 1 if u likes mj , vj = −1 otherwise} 最后通过公式计算得分为用户进行 top-N 推荐: r˜(u,mi) = ∑ mj∈profile(u) vj . ∑ p αp ·simp (mj ,mi) P |profile(u)| Noia 等 [19]总结了 ESWC2014 年利用 LOD 实 现书籍推荐系统的相关算法。其中推荐的任务主 要包括 3 部分:冷启动环境下的评分预测、基于 用户反馈做 top-N 推荐、基于内容的推荐系统的 多样性。主要简述数据集的特征以及推荐效果最 佳的方法。数据集是利用 SPARQL 语句处理 DB￾pedia 获取实验所需信息,数据格式为 userID、 itemID、score。推荐效果最佳的算法是 hello￾World(一个混合策略的利用 LOD 的推荐系统),考 虑数据集中书籍的类型、层级分类、作者信息等, 利用基于内容的方法进行推荐,基于余弦相似度 进行基于协同过滤的推荐,利用 Wikidata 中数据 的链入链出进行基于流行度的推荐。最后通过准 确率、召回率以及均方根误差的计算来评判推荐 的准确性。 Lu 等 [ 2 0 ]将 利 用 DBpedia、 Geoname s 和 Wikidata 中的数据构建了关于全世界的旅游知识 图谱。包含 1 200 多个景点类型,从而可以在很 细的语义粒度上对景点进行刻画。通过 categor￾ies 来表示用户的兴趣,并且为用户在每类 cat￾egory 上的兴趣度赋予一个得分值。一般采用两 种方式:frequency-based 和 time-based。前者根据 用户访问某类景点的频率/次数来计算得分值。 后者根据用户在某类景点所待的时间长短来计算 分值。文献[20]在这两种情况的基础上,在计算 分值时,把各个景点在所位于的城市中的影响力 也考虑进去。例如,如果 A 和 B 都是 casino 类型 的景点;A 所位于的城市以 casino 类型的景点闻 名于世,但 B 所位于的城市却不是以 casino 类型 的景点著称;Mary 游览了 A,Paul 游览了 B;Mary 和 Paul 游览 casino 类型景点的频率和所花的时间都 一样多。则,在考虑了城市的影响力之后得到的 结果是:Mary 对 casino 类型景点的喜好程度比 Paul 对 casino 类型景点的喜好程度更高。通过知 识图谱中的信息,可以获得不同类型的景点在其 所位于的城市中的影响力。综合上面两个方面的 优势,与采用简单本体的方法相比,文献[20]的工 作可以在更细的语义粒度上刻画景点类型,可以 更好地捕获游客的兴趣,最终得到更好的推荐效果。 Oramas 等 [21]研究基于知识图谱的声音和音乐 的推荐,主要描述如何创建和利用知识图谱并结 合混合推荐引擎来完成推荐任务。文献[21]中构 建了声音和音乐两个知识图谱,首先分别从 Free￾sound.org、Songfacts.com 以及 Last.fm 中获取标 签、文本描述信息以及用户收听和下载的信息, 遵循基于本体的方法,利用 Babelfy(对于给定的 单词返回相关的 wordNet 以及维基百科页面) 一 种用于实体链接和同义词消歧的最先进的工具, 通过将它们与在线数据集中定义的实体关联,丰 富从文本描述中提取的标签和关键词。其中识别 的命名实体链接到 DBpedia 资源,消歧的单词链 ·210· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有