正在加载图片...
.370 智能系统学报 第11卷 后续环节的相似度计算。 为了提高关键词之间相似度计算的准确率,我 表2用词向量计算出的关键词之间相似度 们在词向量的基础上加入了利用图模型计算的相似 Table 2 Similarity between keywords calculated by Word2Vec 度来综合衡量关键词之间的相似度,下面将重点介 关键词1 关键词2 相似度 绍一种用来计算相似度的基于图的随机游走算法。 香格里拉 香格里拉 1.0 由于目前我们已经人工手动搭建了一个领域实 香格里拉 云南省 0.25331938 体关系库,图2所示的就是一个典型的云南旅游领 香格里拉 民族 0.117823526 域相关实体的部分关系图谱,从图中我们认为“大 香格里拉 景点 0.4967134 理古城”与“大理市”之间的相似度要高于“乳扇”与 香格里拉 旅游 0.42981964 “大理市”之间的相似度,因为前两者之间是“位于” 香格里拉 香格里拉县 的关系直接相连,而后两者之间是通过“大理古城” 0.49656978 香格里拉 比重 这个中间实体相联系起来的,所以相比较而言,“乳 0.009633713 扇”与“大理市”之间的联系就要弱得多,同样,“特 2.4图模型的构建和应用 产”与“大理古城”之间的相似度要比“旅游景点”与 维基百科是目前世界上最大的在线百科全书, “大理古城”之间的相似度要弱得多,因为后者之间 其内容每天都会由世界各地的志愿者进行编辑和更 的路径更多,这些都与现实中实体之间的联系密切 新,有着很好的时效性,另外,维基百科的页面包含 程度相一致,而基于图的随机游走算法能将这种实 有类别信息、重定向信息、外部链接信息等,这些信 体之间的联系定量地表示出来。 息无形中为实体之间建立了语义上的关联,所以本 景点 文选择维基百科作为实体消歧的知识库。由于本文 是针对特定领域,本文抽取“旅游”分类信息下的所 有页面作为最终的知识库来源,这样我们在很大程 度上实现了消歧,例如,“香格里拉(科幻小说)”和 “香格里拉(电视剧)”就自然不在知识库中,也就在 古城 大理古城 一定程度上缩小了候选实体的范围。在此基础上, 1 我们搭建了一个领域实体关系标注平台,利用图数 据库No4j存储数据,这种图数据库与传统的关系 (a)从起始点出发 型数据库相比能够更准确有效地表示各个数据项之 间的复杂关系,将从维基百科中抽取到的领域实体 导入该平台的图数据库,通过人工标注的方式构建 了一个实体与实体之间的关系图谱,目的是通过利 用在该图谱上的随机游走算法辅助计算关键词之间 的相似度,目前该平台已经拥有13956个实体,8 127对关系。图2是部分实体及其之间的关系。 大理古城 位于 美食 (b)到达第2个顶点后选择下一个目标 2 个 大理市 乳扇 大研古城 古城 特产 别名 是 类 丽江古城 旅游景点 图2部分实体关系图谱 Fig.2 Part of the entity relationship mapping (c)到达第3个顶点后有两个选择后续环节的相似度计算。 表 2 用词向量计算出的关键词之间相似度 Table 2 Similarity between keywords calculated by Word2Vec 关键词 1 关键词 2 相似度 香格里拉 香格里拉 1.0 香格里拉 云南省 0.253 319 38 香格里拉 民族 0.117 823 526 香格里拉 景点 0.496 713 4 香格里拉 旅游 0.429 819 64 香格里拉 香格里拉县 0.496 569 78 香格里拉 比重 0.009 633 713 2.4 图模型的构建和应用 维基百科是目前世界上最大的在线百科全书, 其内容每天都会由世界各地的志愿者进行编辑和更 新,有着很好的时效性,另外,维基百科的页面包含 有类别信息、重定向信息、外部链接信息等,这些信 息无形中为实体之间建立了语义上的关联,所以本 文选择维基百科作为实体消歧的知识库。 由于本文 是针对特定领域,本文抽取“旅游”分类信息下的所 有页面作为最终的知识库来源,这样我们在很大程 度上实现了消歧,例如,“香格里拉(科幻小说)”和 “香格里拉(电视剧)”就自然不在知识库中,也就在 一定程度上缩小了候选实体的范围。 在此基础上, 我们搭建了一个领域实体关系标注平台,利用图数 据库 Neo4j 存储数据,这种图数据库与传统的关系 型数据库相比能够更准确有效地表示各个数据项之 间的复杂关系,将从维基百科中抽取到的领域实体 导入该平台的图数据库,通过人工标注的方式构建 了一个实体与实体之间的关系图谱,目的是通过利 用在该图谱上的随机游走算法辅助计算关键词之间 的相似度,目前该平台已经拥有 13 956 个实体,8 127 对关系。 图 2 是部分实体及其之间的关系。 图 2 部分实体关系图谱 Fig.2 Part of the entity relationship mapping 为了提高关键词之间相似度计算的准确率,我 们在词向量的基础上加入了利用图模型计算的相似 度来综合衡量关键词之间的相似度,下面将重点介 绍一种用来计算相似度的基于图的随机游走算法。 由于目前我们已经人工手动搭建了一个领域实 体关系库,图 2 所示的就是一个典型的云南旅游领 域相关实体的部分关系图谱,从图中我们认为“大 理古城”与“大理市”之间的相似度要高于“乳扇”与 “大理市”之间的相似度,因为前两者之间是“位于” 的关系直接相连,而后两者之间是通过“大理古城” 这个中间实体相联系起来的,所以相比较而言,“乳 扇”与“大理市”之间的联系就要弱得多,同样,“特 产”与“大理古城”之间的相似度要比“旅游景点”与 “大理古城”之间的相似度要弱得多,因为后者之间 的路径更多,这些都与现实中实体之间的联系密切 程度相一致,而基于图的随机游走算法能将这种实 体之间的联系定量地表示出来。 (a)从起始点出发 (b)到达第 2 个顶点后选择下一个目标 (c)到达第 3 个顶点后有两个选择 ·370· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有