正在加载图片...
·372· 智能系统学报 第11卷 2.5相似度计算 模型的训练,并在一个小型测试集上进行测试。本 2.2节中已经确定出权重最高的n个关键词, 文通过两个实验对所提出的方法进行了验证,实验 在此基础上分别用这n个关键词来作为文本的特征 一通过对关键词在不同个数下的对比试验,确定出 模型: 消歧准确率在关键词个数为多少时达到最高:在实 "g=(0g1,02,…,0n)。=(01,02,…,0m) 验二中加入了对空实体的判断,通过对空实体阈值 式中:,为带消歧实体指称所在背景文本的特征模 入的不断调优得出在不同关键词个数下准确率是否 型,.为知识库中候选实体对应文本的特征模型,心 有所提升,提升的程度如何以及最终的消歧准确率 为利用TextRank算法得出的文本关键词,词与词之 对比。 间的相似度用向量间的余弦值表示,具体计算如式 实验步骤如下: (3)所示: 1)利用旅游领域的百科语料对词向量空间模 w。·w 型进行训练; Sim(q.e)=a'Iw.1.I wI -+(1-a)sim(q,e) 2)利用2.2中的方法在待消歧实体指称所在的 (3) 文本中抽取n个关键词: 式中加号的前半部分是利用词向量求关键词之间的 3)用同样的方法在所有候选实体所在文本中 相似度,后半部分是利用基于图的随机游走算法计 分别抽取n个关键词: 算的关键词之间的相似度,其中w,为背景文本中关 4)利用2.3和2.4中包含有丰富语义信息的模 键词的词向量,w.为候选实体对应文本关键词的词 型将上面两步中的n个关键词分别进行交叉相似度 向量,通过参数α来决定这两种相似度计算方法的 计算,并且取平均值: 权重,这样我们就能得到背景文本与候选实体文本 5)选取其中相似度平均值最大的作为最终目 关键词两两进行计算后的相似度,一共能得到2个 标实体。 Sim(q,e),然后对它们求均值,用这个均值来表示 3.1语料的获取和模型的训练 两篇文档的相似度,具体公式如式(4)所示: 由于本文需要利用Word2Vec工具对词向量空 间模型进行训练,所以采用了维基百科2014年12 月的中文离线数据库,并提取其中的旅游分类下的 Average (4) n2 页面信息,共计71208条。将这些语料经过预处 最后利用上面计算的背景文本与候选实体文本 理,提取页面中的摘要信息,形成一篇篇的文本。接 的相似度,来对候选实体进行消歧,相似度最大的即 着编制爬取程序从国内几个著名的旅游网站爬取了 为目标实体。 相关的文本,与维基文本结合,共计75016篇。作 2.6空实体判断 为本次试验的训练语料。经过训练得到一个131M 由于知识库不可能做到非常全面,实际消歧过 的实验模型文件vectors.bin。 程中往往会出现空链接的现象,即待消歧的实体指 利用基于图的随机游走算法计算相似度时,图 称项在知识库中并没有与之对应的目标实体。这种 模型的构建是至关重要的一个环节,我们将上一个 情况有两种可能:1)在获取候选实体阶段通过直接 环节中得到的领域实体语料通过人工标注的方式构 匹配和同义词匹配两种方式都没有匹配到与之对应 建了一个领域实体关系图谱,通过在这张领域实体 的候选实体:2)在获取候选实体阶段匹配到至少一 关系网络上的随机游走算法来辅助计算关键词之间 个候选实体,但是实际上这个候选实体并不是语义 的相似度。 相关的。 3.2测试集的选取 第1种下情况将其直接返回NTL。第2种情况 实验所用来测试的是一个小规模的测试集,本 下通过设定一个阈值入,如果最终的相似度小于入, 文从某旅游网站上爬取了596篇旅游攻略作为测试 则认为实体指称项与候选实体语义上不相关,同样 文本,通过观察发现并不是每一篇文本中都包含有 返回NL。 存在歧义的实体指称,所以通过人工选取符合消歧 条件的文本共计135篇,从每一篇文本中人工标记 3 实验验证与结果分析 出存在歧义的旅游领域实体指称,并将其指向的知 本文利用维基百科的离线数据库实现对词向量 识库中对应实体标注出来用于对实验结果进行2.5 相似度计算 2.2 节中已经确定出权重最高的 n 个关键词, 在此基础上分别用这 n 个关键词来作为文本的特征 模型: vq = (wq1 ,wq2 ,…,wqn ) ve = (we1 ,we2 ,…,wen ) 式中:vq 为带消歧实体指称所在背景文本的特征模 型,ve 为知识库中候选实体对应文本的特征模型,w 为利用 TextRank 算法得出的文本关键词,词与词之 间的相似度用向量间的余弦值表示,具体计算如式 (3)所示: Sim(q,e) = α· we·wq | we |·| wq | + (1 - α)sim(q,e) (3) 式中加号的前半部分是利用词向量求关键词之间的 相似度,后半部分是利用基于图的随机游走算法计 算的关键词之间的相似度,其中 wq 为背景文本中关 键词的词向量,we 为候选实体对应文本关键词的词 向量,通过参数 α 来决定这两种相似度计算方法的 权重,这样我们就能得到背景文本与候选实体文本 关键词两两进行计算后的相似度,一共能得到 n 2 个 Sim(q,e),然后対它们求均值,用这个均值来表示 两篇文档的相似度,具体公式如式(4)所示: Average = ∑ n i ∑ n j Sim(qi,ej) n 2 (4) 最后利用上面计算的背景文本与候选实体文本 的相似度,来对候选实体进行消歧,相似度最大的即 为目标实体。 2.6 空实体判断 由于知识库不可能做到非常全面,实际消歧过 程中往往会出现空链接的现象,即待消歧的实体指 称项在知识库中并没有与之对应的目标实体。 这种 情况有两种可能:1)在获取候选实体阶段通过直接 匹配和同义词匹配两种方式都没有匹配到与之对应 的候选实体;2)在获取候选实体阶段匹配到至少一 个候选实体,但是实际上这个候选实体并不是语义 相关的。 第 1 种下情况将其直接返回 NIL。 第 2 种情况 下通过设定一个阈值 λ,如果最终的相似度小于 λ, 则认为实体指称项与候选实体语义上不相关,同样 返回 NIL。 3 实验验证与结果分析 本文利用维基百科的离线数据库实现对词向量 模型的训练,并在一个小型测试集上进行测试。 本 文通过两个实验对所提出的方法进行了验证,实验 一通过对关键词在不同个数下的对比试验,确定出 消歧准确率在关键词个数为多少时达到最高;在实 验二中加入了对空实体的判断,通过对空实体阈值 λ 的不断调优得出在不同关键词个数下准确率是否 有所提升,提升的程度如何以及最终的消歧准确率 对比。 实验步骤如下: 1)利用旅游领域的百科语料对词向量空间模 型进行训练; 2)利用 2.2 中的方法在待消歧实体指称所在的 文本中抽取 n 个关键词; 3)用同样的方法在所有候选实体所在文本中 分别抽取 n 个关键词; 4)利用 2.3 和 2.4 中包含有丰富语义信息的模 型将上面两步中的 n 个关键词分别进行交叉相似度 计算,并且取平均值; 5)选取其中相似度平均值最大的作为最终目 标实体。 3.1 语料的获取和模型的训练 由于本文需要利用 Word2Vec 工具对词向量空 间模型进行训练,所以采用了维基百科 2014 年 12 月的中文离线数据库,并提取其中的旅游分类下的 页面信息,共计 71 208 条。 将这些语料经过预处 理,提取页面中的摘要信息,形成一篇篇的文本。 接 着编制爬取程序从国内几个著名的旅游网站爬取了 相关的文本,与维基文本结合,共计 75 016 篇。 作 为本次试验的训练语料。 经过训练得到一个 131M 的实验模型文件 vectors.bin。 利用基于图的随机游走算法计算相似度时,图 模型的构建是至关重要的一个环节,我们将上一个 环节中得到的领域实体语料通过人工标注的方式构 建了一个领域实体关系图谱,通过在这张领域实体 关系网络上的随机游走算法来辅助计算关键词之间 的相似度。 3.2 测试集的选取 实验所用来测试的是一个小规模的测试集,本 文从某旅游网站上爬取了 596 篇旅游攻略作为测试 文本,通过观察发现并不是每一篇文本中都包含有 存在歧义的实体指称,所以通过人工选取符合消歧 条件的文本共计 135 篇,从每一篇文本中人工标记 出存在歧义的旅游领域实体指称,并将其指向的知 识库中对应实体标注出来用于对实验结果进行 ·372· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有