验证。３．３实验结果与分析实验１本文就两种相似度计算方法的权重值

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部

正在加载图片...

第3期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·373. 验证。体与之对应，即所有的候选实体可能并不是目标实 3.3实验结果与分析体，而判断空实体时只考虑了在知识库中是否存在，实验1本文就两种相似度计算方法的权重值不存在则返回NL,如果存在，本文的方法是取相似 α的确定采用了一种自动调优的方法，我们的问题度均值最大的候选实体，这就不可避免地增加了系可以简化为C=a·A+(1-α)·B,要使实验效果相统的误差。对较好就是要使关键词之间的相似度值差异较大，实验3针对以上这种空实体，本文通过大量即使C的方差达到最大值，这时问题又可以简化为的实验，针对不同的关键词个数分别对其空实体阈求使得C方差最大时α的值。先给定α一个初始值入进行调优，最终结果如表3所示。值0.5，由于基于图的方法在本文中只是起到辅助表3调优后的空实体阈值入作用，所以将α每次增加0.05，记录取每个不同α Table 3 The empty entity threshold A after optimized 值的情况下C的方差值，实验结果如图4所示。关键词个数n 空实体阈值入准确率/% 5 0.1436 90.31 0.40 0.3666 0.35 0.2903 6 0.1193 86.75 0.30 0.2217 0.2581 。025 7 0.1107 92.27 0.1964 8020 0.1625 8 0.0988 83.57 0.15 0.1549 0.10 0.1003 9 0.0825 77.63 0.05 0.0326 0.0124 10 0.0611 71.98 0.500.550.600.650.700.750.800.850.900.95 a的值在加入空实体阈值入后，系统准确率在关键词个数为5、6、7、8时都有不同程度的提高，在9、10时图4不同值时对应的样本方差反而出现下降的趋势。经过分析发现，准确率的提 Fig.4 The sample variance of different a values 升程度随着关键词的增多而下降，这是因为关键词根据实验结果可以得出，当α的值取0.7时，相的权重是逐渐递减的，个数的增加会使相似度均值似度样本的方差达到最大值0.3666，说明此时关键发生不同程度的下降，这会对空实体阈值入的确定词之间的相似度分布最为稀疏，相似度值差异最大。造成一定影响，在判断空实体的时候容易将相似度实验2本文就关键词个数n的确定做了6组均值较低的目标实体判断为空实体，这就反而降低实验，分别测试n在取5、6、7、8、9、10时对消歧准确了系统的准确率。实验结果如图6所示。率的影响，实验结果如图5所示。 95 号 90 +未加 90.08 ·加入1 90 84.26 0 82.45 0 81.35 79.51 70 心 75.18 6 78910 关键词个数n 70 5 6 7 8910 图6加入空实体阔值后的结果比较关健词个数n Fig.6 Comparison with the result after adding an emp- ty entity threshold 图5不同关键词个数时系统准确率实验结果表明，在关键词个数取7，并且加入空 Fig.5 Accuracy of different number of keywords 实体阈值判断后，系统达到了最大的准确率根据实验结果发现，针对本文的测试集和知识 92.27%,这说明本文提出的方法能够在中文旅游领库，将关键词个数n定为7的时候准确率达到最大域实现较为理想的消歧结果，在与现有的主流消歧值90.08%。但是考虑到该知识库其实并不完备，并方法的对比中，优势较为明显。非所有的实体指称项在知识库中都有相应的目标实验证。３．３实验结果与分析实验１本文就两种相似度计算方法的权重值 α 的确定采用了一种自动调优的方法，我们的问题可以简化为Ｃ＝α·Ａ＋（１－α）·Ｂ，要使实验效果相对较好就是要使关键词之间的相似度值差异较大，即使Ｃ的方差达到最大值，这时问题又可以简化为求使得Ｃ方差最大时 α 的值。先给定 α 一个初始值０．５，由于基于图的方法在本文中只是起到辅助作用，所以将 α 每次增加０．０５，记录取每个不同 α 值的情况下Ｃ的方差值，实验结果如图４所示。图４不同 α 值时对应的样本方差Ｆｉｇ．４Ｔｈｅｓａｍｐｌｅｖａｒｉａｎｃｅｏｆｄｉｆｆｅｒｅｎｔ α ｖａｌｕｅｓ根据实验结果可以得出，当 α 的值取０．７时，相似度样本的方差达到最大值０．３６６６，说明此时关键词之间的相似度分布最为稀疏，相似度值差异最大。实验２本文就关键词个数ｎ的确定做了６组实验，分别测试ｎ在取５、６、７、８、９、１０时对消歧准确率的影响，实验结果如图５所示。图５不同关键词个数时系统准确率Ｆｉｇ．５Ａｃｃｕｒａｃｙｏｆｄｉｆｆｅｒｅｎｔｎｕｍｂｅｒｏｆｋｅｙｗｏｒｄｓ根据实验结果发现，针对本文的测试集和知识库，将关键词个数ｎ定为７的时候准确率达到最大值９０．０８％。但是考虑到该知识库其实并不完备，并非所有的实体指称项在知识库中都有相应的目标实体与之对应，即所有的候选实体可能并不是目标实体，而判断空实体时只考虑了在知识库中是否存在，不存在则返回ＮＩＬ，如果存在，本文的方法是取相似度均值最大的候选实体，这就不可避免地增加了系统的误差。实验３针对以上这种空实体，本文通过大量的实验，针对不同的关键词个数分别对其空实体阈值 λ 进行调优，最终结果如表３所示。表３调优后的空实体阈值 λ Ｔａｂｌｅ３Ｔｈｅｅｍｐｔｙｅｎｔｉｔｙｔｈｒｅｓｈｏｌｄ λ ａｆｔｅｒｏｐｔｉｍｉｚｅｄ关键词个数ｎ空实体阈值 λ 准确率／％５０．１４３６９０．３１６０．１１９３８６．７５７０．１１０７９２．２７８０．０９８８８３．５７９０．０８２５７７．６３１００．０６１１７１．９８在加入空实体阈值 λ 后，系统准确率在关键词个数为５、６、７、８时都有不同程度的提高，在９、１０时反而出现下降的趋势。经过分析发现，准确率的提升程度随着关键词的增多而下降，这是因为关键词的权重是逐渐递减的，个数的增加会使相似度均值发生不同程度的下降，这会对空实体阈值 λ 的确定造成一定影响，在判断空实体的时候容易将相似度均值较低的目标实体判断为空实体，这就反而降低了系统的准确率。实验结果如图６所示。图６加入空实体阈值后的结果比较Ｆｉｇ．６Ｃｏｍｐａｒｉｓｏｎｗｉｔｈｔｈｅｒｅｓｕｌｔａｆｔｅｒａｄｄｉｎｇａｎｅｍｐ⁃ ｔｙｅｎｔｉｔｙｔｈｒｅｓｈｏｌｄ实验结果表明，在关键词个数取７，并且加入空实体阈值判断后，系统达到了最大的准确率９２．２７％，这说明本文提出的方法能够在中文旅游领域实现较为理想的消歧结果，在与现有的主流消歧方法的对比中，优势较为明显。第３期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·３７３·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部