２．５相似度计算２．２节中已经确定出权重最高的ｎ个关键词，在此

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部

正在加载图片...

·372· 智能系统学报第11卷 2.5相似度计算模型的训练，并在一个小型测试集上进行测试。本 2.2节中已经确定出权重最高的n个关键词，文通过两个实验对所提出的方法进行了验证，实验在此基础上分别用这n个关键词来作为文本的特征一通过对关键词在不同个数下的对比试验，确定出模型：消歧准确率在关键词个数为多少时达到最高：在实 "g=（0g1,02,…,0n）。=（01,02,…,0m）验二中加入了对空实体的判断，通过对空实体阈值式中：，为带消歧实体指称所在背景文本的特征模入的不断调优得出在不同关键词个数下准确率是否型，.为知识库中候选实体对应文本的特征模型，心有所提升，提升的程度如何以及最终的消歧准确率为利用TextRank算法得出的文本关键词，词与词之对比。间的相似度用向量间的余弦值表示，具体计算如式实验步骤如下： (3)所示： 1)利用旅游领域的百科语料对词向量空间模 w。·w 型进行训练； Sim(q.e)=a'Iw.1.I wI -+(1-a)sim(q,e) 2)利用2.2中的方法在待消歧实体指称所在的 (3) 文本中抽取n个关键词：式中加号的前半部分是利用词向量求关键词之间的 3)用同样的方法在所有候选实体所在文本中相似度，后半部分是利用基于图的随机游走算法计分别抽取n个关键词：算的关键词之间的相似度，其中w,为背景文本中关 4)利用2.3和2.4中包含有丰富语义信息的模键词的词向量，w.为候选实体对应文本关键词的词型将上面两步中的n个关键词分别进行交叉相似度向量，通过参数α来决定这两种相似度计算方法的计算，并且取平均值：权重，这样我们就能得到背景文本与候选实体文本 5)选取其中相似度平均值最大的作为最终目关键词两两进行计算后的相似度，一共能得到2个标实体。 Sim(q,e),然后对它们求均值，用这个均值来表示 3.1语料的获取和模型的训练两篇文档的相似度，具体公式如式(4)所示：由于本文需要利用Word2Vec工具对词向量空间模型进行训练，所以采用了维基百科2014年12 月的中文离线数据库，并提取其中的旅游分类下的 Average (4) n2 页面信息，共计71208条。将这些语料经过预处最后利用上面计算的背景文本与候选实体文本理，提取页面中的摘要信息，形成一篇篇的文本。接的相似度，来对候选实体进行消歧，相似度最大的即着编制爬取程序从国内几个著名的旅游网站爬取了为目标实体。相关的文本，与维基文本结合，共计75016篇。作 2.6空实体判断为本次试验的训练语料。经过训练得到一个131M 由于知识库不可能做到非常全面，实际消歧过的实验模型文件vectors.bin。程中往往会出现空链接的现象，即待消歧的实体指利用基于图的随机游走算法计算相似度时，图称项在知识库中并没有与之对应的目标实体。这种模型的构建是至关重要的一个环节，我们将上一个情况有两种可能：1)在获取候选实体阶段通过直接环节中得到的领域实体语料通过人工标注的方式构匹配和同义词匹配两种方式都没有匹配到与之对应建了一个领域实体关系图谱，通过在这张领域实体的候选实体：2)在获取候选实体阶段匹配到至少一关系网络上的随机游走算法来辅助计算关键词之间个候选实体，但是实际上这个候选实体并不是语义的相似度。相关的。 3.2测试集的选取第1种下情况将其直接返回NTL。第2种情况实验所用来测试的是一个小规模的测试集，本下通过设定一个阈值入，如果最终的相似度小于入，文从某旅游网站上爬取了596篇旅游攻略作为测试则认为实体指称项与候选实体语义上不相关，同样文本，通过观察发现并不是每一篇文本中都包含有返回NL。存在歧义的实体指称，所以通过人工选取符合消歧条件的文本共计135篇，从每一篇文本中人工标记 3 实验验证与结果分析出存在歧义的旅游领域实体指称，并将其指向的知本文利用维基百科的离线数据库实现对词向量识库中对应实体标注出来用于对实验结果进行２．５相似度计算２．２节中已经确定出权重最高的ｎ个关键词，在此基础上分别用这ｎ个关键词来作为文本的特征模型：ｖｑ＝（ｗｑ１，ｗｑ２，…，ｗｑｎ）ｖｅ＝（ｗｅ１，ｗｅ２，…，ｗｅｎ）式中：ｖｑ为带消歧实体指称所在背景文本的特征模型，ｖｅ为知识库中候选实体对应文本的特征模型，ｗ为利用ＴｅｘｔＲａｎｋ算法得出的文本关键词，词与词之间的相似度用向量间的余弦值表示，具体计算如式（３）所示：Ｓｉｍ（ｑ，ｅ）＝ α· ｗｅ·ｗｑ｜ｗｅ｜·｜ｗｑ｜＋（１－ α）ｓｉｍ（ｑ，ｅ）（３）式中加号的前半部分是利用词向量求关键词之间的相似度，后半部分是利用基于图的随机游走算法计算的关键词之间的相似度，其中ｗｑ为背景文本中关键词的词向量，ｗｅ为候选实体对应文本关键词的词向量，通过参数 α 来决定这两种相似度计算方法的权重，这样我们就能得到背景文本与候选实体文本关键词两两进行计算后的相似度，一共能得到ｎ２个Ｓｉｍ（ｑ，ｅ），然后対它们求均值，用这个均值来表示两篇文档的相似度，具体公式如式（４）所示：Ａｖｅｒａｇｅ＝ ∑ ｎｉ ∑ ｎｊＳｉｍ（ｑｉ，ｅｊ）ｎ２（４）最后利用上面计算的背景文本与候选实体文本的相似度，来对候选实体进行消歧，相似度最大的即为目标实体。２．６空实体判断由于知识库不可能做到非常全面，实际消歧过程中往往会出现空链接的现象，即待消歧的实体指称项在知识库中并没有与之对应的目标实体。这种情况有两种可能：１）在获取候选实体阶段通过直接匹配和同义词匹配两种方式都没有匹配到与之对应的候选实体；２）在获取候选实体阶段匹配到至少一个候选实体，但是实际上这个候选实体并不是语义相关的。第１种下情况将其直接返回ＮＩＬ。第２种情况下通过设定一个阈值 λ，如果最终的相似度小于 λ，则认为实体指称项与候选实体语义上不相关，同样返回ＮＩＬ。３实验验证与结果分析本文利用维基百科的离线数据库实现对词向量模型的训练，并在一个小型测试集上进行测试。本文通过两个实验对所提出的方法进行了验证，实验一通过对关键词在不同个数下的对比试验，确定出消歧准确率在关键词个数为多少时达到最高；在实验二中加入了对空实体的判断，通过对空实体阈值 λ 的不断调优得出在不同关键词个数下准确率是否有所提升，提升的程度如何以及最终的消歧准确率对比。实验步骤如下：１）利用旅游领域的百科语料对词向量空间模型进行训练；２）利用２．２中的方法在待消歧实体指称所在的文本中抽取ｎ个关键词；３）用同样的方法在所有候选实体所在文本中分别抽取ｎ个关键词；４）利用２．３和２．４中包含有丰富语义信息的模型将上面两步中的ｎ个关键词分别进行交叉相似度计算，并且取平均值；５）选取其中相似度平均值最大的作为最终目标实体。３．１语料的获取和模型的训练由于本文需要利用Ｗｏｒｄ２Ｖｅｃ工具对词向量空间模型进行训练，所以采用了维基百科２０１４年１２月的中文离线数据库，并提取其中的旅游分类下的页面信息，共计７１２０８条。将这些语料经过预处理，提取页面中的摘要信息，形成一篇篇的文本。接着编制爬取程序从国内几个著名的旅游网站爬取了相关的文本，与维基文本结合，共计７５０１６篇。作为本次试验的训练语料。经过训练得到一个１３１Ｍ的实验模型文件ｖｅｃｔｏｒｓ．ｂｉｎ。利用基于图的随机游走算法计算相似度时，图模型的构建是至关重要的一个环节，我们将上一个环节中得到的领域实体语料通过人工标注的方式构建了一个领域实体关系图谱，通过在这张领域实体关系网络上的随机游走算法来辅助计算关键词之间的相似度。３．２测试集的选取实验所用来测试的是一个小规模的测试集，本文从某旅游网站上爬取了５９６篇旅游攻略作为测试文本，通过观察发现并不是每一篇文本中都包含有存在歧义的实体指称，所以通过人工选取符合消歧条件的文本共计１３５篇，从每一篇文本中人工标记出存在歧义的旅游领域实体指称，并将其指向的知识库中对应实体标注出来用于对实验结果进行 ·３７２· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部