小于 λ，则认为该实体指称在知识库中没有与之对应的目标实体，即空实体。

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部

正在加载图片...

第3期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·369- 小于入，则认为该实体指称在知识库中没有与之对点都获得一个分数，代表该点在图中的重要性，也就应的目标实体，即空实体。是该词语在文档中的重要性。表1为利用该算法确定的待消歧实体文本和对应的3个候选实体文本中 /实体指称确定候图模型选实体词向量的关键词，待消歧实体和候选实体1指的是香格里拉（景点名），候选实体2指的是香格里拉（酒店毽名)，候选实体3指的是香格里拉（城市名）。手工构建背景知识库百科表I用TextRank抽取的关键词的语料库文本最文本语料 Table 1 Keywords extracted by TextRank 待消歧实体候选实体1 候选实体2 候选实体3 人工构建提取若干关键词文本文本文本文本图模型基于图的随关键词交叉相似度 Word2Vee 得到词问量香格里拉香格里拉酒店藏族机游走模型计算取均值模型心中云南省香格里拉香格里拉 <是否大于岗值无指代实体出发民族亚洲民族 Y空实体判断寻找景点集团扎西取均值最大的作为目标实体位置旅游饭店传奇图1系统总体框架稻城香格里拉县商贸成长 Fig.1 Overall framework of system 2.3词向量的训练和应用 2.2关键词提取 Word2Vec是Google在2013年推出并开源的一关键词提取模块分为两个步骤：候选实体获取款将词表征为实数值向量的高效工具，其利用深度和关键词提取。候选实体获取实质上就是罗列出所学习的思想，可以通过训练把对文本内容的处理简有可能是待消歧的实体指称项的目标实体，由于中化为K维向量空间中的向量运算，而向量空间上的文语义的多样性，一个词通常有多种表达方式，同样相似度可以用来表示文本语义上的相似度。一个实体也可能有多种形式，例如，在维基百科的重 Word2Vec输出的词向量可以被用来做很多NLP相定向页面中，“驴友”与“背包客”指的是同一个实关的工作，比如聚类、找同义词、词性分析等。如果体，“虫草”与“冬虫夏草”指的也是同一实体。针对换个思路，把词当做特征，那么Word2Vec就可以把这种情况，利用维基百科离线数据库提供的3个特征映射到K维向量空间，可以为文本数据寻求更 SQL文件即可得到所有重定向的同义词，并且能得加深层次的特征表示，本文将K值选定为200维。到他们对应的页面信息和链接信息。本文主要利用该工具来实现指称项与目标实体关键词提取即在确定候选实体后，从待消歧实间的相似度计算，为了提高实验在旅游领域的准确体所在文本中抽取n个关键词，然后再从所有候选率，在选取训练语料时有针对性地选取旅游领域文实体在知识库中对应的文本中分别抽取n个关键本，这样就最大程度避免其他领域文本对词向量模词。这样做是因为本文中相似度计算的前提是假设型的精准度产生影响，本文一方面采用维基百科的待消歧背景文本与知识库中对应文本的主题一致，旅游分类下的文本来作为训练词向量模型的语料，在这个前提下，本文消歧任务实质已经转变为计算同时还加入了在各大旅游网站爬取的新闻语料。训待消歧实体指称所在背景文本与知识库中候选实体练完成后的模型能够比较准确地计算两个旅游领域对应文本之间的相似度。分别抽取两个文本各个词汇的相似度，效果比较理想。如表2所示为利用关键词，这里采用TextRank算法抽取权重最高的n 该工具计算出的背景文本中关键词“香格里拉”与个关键词，具体计算方法参照本文1.2节。根据词知识库中目标实体文本的7个关键词之间的相似与词之间在规定窗口大小内相互进行“投票”计算度，从图中可以发现其与“景点”、“旅游”等词语的出每个词在文档中的权重，在使用TextRank算法计相似度要明显高于“民族”、“比重”，这与现实世界算图中点的权重时，需要给图中的点指定任意的初中它们之间的语义关联程度相一致。通过词向量计值并递归计算直到某个词语分数收敛，收敛后每个算处理，进一步加强了实体词的领域相关性，有助于小于 λ，则认为该实体指称在知识库中没有与之对应的目标实体，即空实体。图１系统总体框架Ｆｉｇ．１Ｏｖｅｒａｌｌｆｒａｍｅｗｏｒｋｏｆｓｙｓｔｅｍ２．２关键词提取关键词提取模块分为两个步骤：候选实体获取和关键词提取。候选实体获取实质上就是罗列出所有可能是待消歧的实体指称项的目标实体，由于中文语义的多样性，一个词通常有多种表达方式，同样一个实体也可能有多种形式，例如，在维基百科的重定向页面中，“驴友” 与“背包客” 指的是同一个实体，“虫草”与“冬虫夏草”指的也是同一实体。针对这种情况，利用维基百科离线数据库提供的３个ＳＱＬ文件即可得到所有重定向的同义词，并且能得到他们对应的页面信息和链接信息。关键词提取即在确定候选实体后，从待消歧实体所在文本中抽取ｎ个关键词，然后再从所有候选实体在知识库中对应的文本中分别抽取ｎ个关键词。这样做是因为本文中相似度计算的前提是假设待消歧背景文本与知识库中对应文本的主题一致，在这个前提下，本文消歧任务实质已经转变为计算待消歧实体指称所在背景文本与知识库中候选实体对应文本之间的相似度。分别抽取两个文本各ｎ个关键词，这里采用ＴｅｘｔＲａｎｋ算法抽取权重最高的ｎ个关键词，具体计算方法参照本文１．２节。根据词与词之间在规定窗口大小内相互进行“投票” 计算出每个词在文档中的权重，在使用ＴｅｘｔＲａｎｋ算法计算图中点的权重时，需要给图中的点指定任意的初值并递归计算直到某个词语分数收敛，收敛后每个点都获得一个分数，代表该点在图中的重要性，也就是该词语在文档中的重要性。表１为利用该算法确定的待消歧实体文本和对应的３个候选实体文本中的关键词，待消歧实体和候选实体１指的是香格里拉（景点名），候选实体２指的是香格里拉（酒店名），候选实体３指的是香格里拉（城市名）。表１用ＴｅｘｔＲａｎｋ抽取的关键词Ｔａｂｌｅ１ＫｅｙｗｏｒｄｓｅｘｔｒａｃｔｅｄｂｙＴｅｘｔＲａｎｋ待消歧实体文本候选实体１文本候选实体２文本候选实体３文本香格里拉香格里拉酒店藏族心中云南省香格里拉香格里拉出发民族亚洲民族寻找景点集团扎西位置旅游饭店传奇稻城香格里拉县商贸成长２．３词向量的训练和应用Ｗｏｒｄ２Ｖｅｃ是Ｇｏｏｇｌｅ在２０１３年推出并开源的一款将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为Ｋ维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Ｗｏｒｄ２Ｖｅｃ输出的词向量可以被用来做很多ＮＬＰ相关的工作，比如聚类、找同义词、词性分析等。如果换个思路，把词当做特征，那么Ｗｏｒｄ２Ｖｅｃ就可以把特征映射到Ｋ维向量空间，可以为文本数据寻求更加深层次的特征表示，本文将Ｋ值选定为２００维。本文主要利用该工具来实现指称项与目标实体间的相似度计算，为了提高实验在旅游领域的准确率，在选取训练语料时有针对性地选取旅游领域文本，这样就最大程度避免其他领域文本对词向量模型的精准度产生影响，本文一方面采用维基百科的旅游分类下的文本来作为训练词向量模型的语料，同时还加入了在各大旅游网站爬取的新闻语料。训练完成后的模型能够比较准确地计算两个旅游领域词汇的相似度，效果比较理想。如表２所示为利用该工具计算出的背景文本中关键词“香格里拉” 与知识库中目标实体文本的７个关键词之间的相似度，从图中可以发现其与“景点”、“旅游”等词语的相似度要明显高于“民族”、“比重”，这与现实世界中它们之间的语义关联程度相一致。通过词向量计算处理，进一步加强了实体词的领域相关性，有助于第３期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·３６９·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部