【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：1.46MB

第11卷第3期智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603048 网络出版地址：http://www.enki..net/kcms/detail/23.1538.TP.20160513.0958.036.html 一种结合词向量和图模型的特定领域实体消歧方法汪沛，线岩团2，郭剑毅2，文永华12，陈玮2，王红斌2 (1.昆明理工大学信息工程与自动化学院，云南昆明650500：2.昆明理工大学智能信息处理重点实验室，云南昆明 650500) 摘要：针对特定领域提出了一种结合词向量和图模型的方法来实现实体消歧。以旅游领域为例，首先选取维基百科离线数据库中的旅游分类下的页面内容构建领域知识库，然后用知识库中的文本和从各大旅游网站爬取到的旅游文本，通过词向量计算工具Wod2Vc构建词向量模型，结合人工标注的实体关系图谱，采用一种基于图的随机游走算法辅助计算相似度，使其能够较准确地计算旅游领域词与词之间的相似度。最后，提取待消歧实体的背景文本的若干关键词和知识库中候选实体文本的若干关键词，利用训练好的词向量模型结合图模型分别进行交叉相似度计算，把相似度均值最高的候选实体作为最终的目标实体。实验结果表明，这种新的相似度计算方法能够有效获取实体指称项与目标实体之间的相似度，从而能够较为准确地实现特定领域的实体消歧。关键词：实体消歧；实体链接：Word2Vec;图模型：随机游走：维基百科中图分类号：TP393文献标志码：A文章编号：1673-4785(2016)03-0366-09 中文引用格式：汪沛，线岩团，郭剑毅，等.一种结合词向量和图模型的特定领域实体消歧方法[J].智能系统学报，2016,11(3)： 366-375. 英文引用格式：WANG Pei,XIAN Yantuan,GUO Jianyi,etal.A novel method using word vector and graphical models for entity disambiguation in specific topic domains[J].CAAI transactions on intelligent systems,2016,11(3):366-375. A novel method using word vector and graphical models for entity disambiguation in specific topic domains WANG Pei',XIAN Yantuan'2,GUO Jianyi2,WEN Yonghua2,CHEN Wei'2,WANG Hongbin'2 (1.School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China; 2.Key Laboratory of Intelligent Information Processing,Kunming University of Science and Technology,Kunming 650500,China) Abstract:In this paper,a novel method based on word vector and graph models is proposed to deal with entity dis- ambiguation in specific topic domains.Take the tourism topic domain as an example.The method firstly chooses the web-pages of the tourism category in a Wikipedia offline database to build a knowledge base;then,the tool Word2Vec is used to build a word vector model with the texts in the knowledge base and texts taken from several tourism websites.Combined with a manual annotation graph,a random walk algorithm based on the graph is used to compute similarity to accurately calculate the similarity between words within the tourism domain.Next,the method extracts several keywords from the background text of the entity to be disambiguated and compares them with the keyword text in the knowledge base that describes the candidate entities.Finally,the method uses the trained Word2Vec model and graphical model to calculate the similarity between the keywords of name mention and the keywords of candidate entities.The method then chooses the candidate entities which have the maximum average similarity to the target entity.Experimental results show that this new method can effectively capture the similarity between name mention and a target entity;thus,it can accurately achieve entity disambiguation of a topic-specific domain. Keywords:entity disambiguation;entity linking;Word2Vec;Wikipedia;graphical model;random walking 收稿日期：2016-03-19.网络出版日期：2016-05-13. 实体链接是知识库构建的关键技术之一，其目基金项目：国家自然科学基金项目(61262041,61472168,61462054， 61562052):云南省自然科学基金重点项目(2013FA0B0). 的是将文本中已经获取到的命名实体链接到已有的通信作者：郭剑毅.E-mail:adc86@hotmail.com

第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０１６年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０４８网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０５１３．０９５８．０３６．ｈｔｍｌ一种结合词向量和图模型的特定领域实体消歧方法汪沛１，线岩团１，２，郭剑毅１，２，文永华１，２，陈玮１，２，王红斌１，２（１．昆明理工大学信息工程与自动化学院，云南昆明６５０５００；２．昆明理工大学智能信息处理重点实验室，云南昆明６５０５００）摘要：针对特定领域提出了一种结合词向量和图模型的方法来实现实体消歧。以旅游领域为例，首先选取维基百科离线数据库中的旅游分类下的页面内容构建领域知识库，然后用知识库中的文本和从各大旅游网站爬取到的旅游文本，通过词向量计算工具Ｗｏｒｄ２Ｖｅｃ构建词向量模型，结合人工标注的实体关系图谱，采用一种基于图的随机游走算法辅助计算相似度，使其能够较准确地计算旅游领域词与词之间的相似度。最后，提取待消歧实体的背景文本的若干关键词和知识库中候选实体文本的若干关键词，利用训练好的词向量模型结合图模型分别进行交叉相似度计算，把相似度均值最高的候选实体作为最终的目标实体。实验结果表明，这种新的相似度计算方法能够有效获取实体指称项与目标实体之间的相似度，从而能够较为准确地实现特定领域的实体消歧。关键词：实体消歧；实体链接；Ｗｏｒｄ２Ｖｅｃ；图模型；随机游走；维基百科中图分类号：ＴＰ３９３文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０３⁃０３６６⁃０９中文引用格式：汪沛，线岩团，郭剑毅，等．一种结合词向量和图模型的特定领域实体消歧方法［Ｊ］．智能系统学报，２０１６，１１（３）：３６６⁃３７５．英文引用格式：ＷＡＮＧＰｅｉ，ＸＩＡＮＹａｎｔｕａｎ，ＧＵＯＪｉａｎｙｉ，ｅｔａｌ．Ａｎｏｖｅｌｍｅｔｈｏｄｕｓｉｎｇｗｏｒｄｖｅｃｔｏｒａｎｄｇｒａｐｈｉｃａｌｍｏｄｅｌｓｆｏｒｅｎｔｉｔｙｄｉｓａｍｂｉｇｕａｔｉｏｎｉｎｓｐｅｃｉｆｉｃｔｏｐｉｃｄｏｍａｉｎｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（３）：３６６⁃３７５．ＡｎｏｖｅｌｍｅｔｈｏｄｕｓｉｎｇｗｏｒｄｖｅｃｔｏｒａｎｄｇｒａｐｈｉｃａｌｍｏｄｅｌｓｆｏｒｅｎｔｉｔｙｄｉｓａｍｂｉｇｕａｔｉｏｎｉｎｓｐｅｃｉｆｉｃｔｏｐｉｃｄｏｍａｉｎｓＷＡＮＧＰｅｉ１，ＸＩＡＮＹａｎｔｕａｎ１，２，ＧＵＯＪｉａｎｙｉ１，２，ＷＥＮＹｏｎｇｈｕａ１，２，ＣＨＥＮＷｅｉ１，２，ＷＡＮＧＨｏｎｇｂｉｎ１，２（１．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｕｔｏｍａｔｉｏｎ，ＫｕｎｍｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｋｕｎｍｉｎｇ６５０５００，Ｃｈｉｎａ；２．ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｔｅｌｌｉｇｅｎｔＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，ＫｕｎｍｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｋｕｎｍｉｎｇ６５０５００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｔｈｉｓｐａｐｅｒ，ａｎｏｖｅｌｍｅｔｈｏｄｂａｓｅｄｏｎｗｏｒｄｖｅｃｔｏｒａｎｄｇｒａｐｈｍｏｄｅｌｓｉｓｐｒｏｐｏｓｅｄｔｏｄｅａｌｗｉｔｈｅｎｔｉｔｙｄｉｓ⁃ ａｍｂｉｇｕａｔｉｏｎｉｎｓｐｅｃｉｆｉｃｔｏｐｉｃｄｏｍａｉｎｓ．Ｔａｋｅｔｈｅｔｏｕｒｉｓｍｔｏｐｉｃｄｏｍａｉｎａｓａｎｅｘａｍｐｌｅ．Ｔｈｅｍｅｔｈｏｄｆｉｒｓｔｌｙｃｈｏｏｓｅｓｔｈｅｗｅｂ－ｐａｇｅｓｏｆｔｈｅｔｏｕｒｉｓｍｃａｔｅｇｏｒｙｉｎａＷｉｋｉｐｅｄｉａｏｆｆｌｉｎｅｄａｔａｂａｓｅｔｏｂｕｉｌｄａｋｎｏｗｌｅｄｇｅｂａｓｅ；ｔｈｅｎ，ｔｈｅｔｏｏｌＷｏｒｄ２Ｖｅｃｉｓｕｓｅｄｔｏｂｕｉｌｄａｗｏｒｄｖｅｃｔｏｒｍｏｄｅｌｗｉｔｈｔｈｅｔｅｘｔｓｉｎｔｈｅｋｎｏｗｌｅｄｇｅｂａｓｅａｎｄｔｅｘｔｓｔａｋｅｎｆｒｏｍｓｅｖｅｒａｌｔｏｕｒｉｓｍｗｅｂｓｉｔｅｓ．Ｃｏｍｂｉｎｅｄｗｉｔｈａｍａｎｕａｌａｎｎｏｔａｔｉｏｎｇｒａｐｈ，ａｒａｎｄｏｍｗａｌｋａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅｇｒａｐｈｉｓｕｓｅｄｔｏｃｏｍｐｕｔｅｓｉｍｉｌａｒｉｔｙｔｏａｃｃｕｒａｔｅｌｙｃａｌｃｕｌａｔｅｔｈｅｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｗｏｒｄｓｗｉｔｈｉｎｔｈｅｔｏｕｒｉｓｍｄｏｍａｉｎ．Ｎｅｘｔ，ｔｈｅｍｅｔｈｏｄｅｘｔｒａｃｔｓｓｅｖｅｒａｌｋｅｙｗｏｒｄｓｆｒｏｍｔｈｅｂａｃｋｇｒｏｕｎｄｔｅｘｔｏｆｔｈｅｅｎｔｉｔｙｔｏｂｅｄｉｓａｍｂｉｇｕａｔｅｄａｎｄｃｏｍｐａｒｅｓｔｈｅｍｗｉｔｈｔｈｅｋｅｙｗｏｒｄｔｅｘｔｉｎｔｈｅｋｎｏｗｌｅｄｇｅｂａｓｅｔｈａｔｄｅｓｃｒｉｂｅｓｔｈｅｃａｎｄｉｄａｔｅｅｎｔｉｔｉｅｓ．Ｆｉｎａｌｌｙ，ｔｈｅｍｅｔｈｏｄｕｓｅｓｔｈｅｔｒａｉｎｅｄＷｏｒｄ２Ｖｅｃｍｏｄｅｌａｎｄｇｒａｐｈｉｃａｌｍｏｄｅｌｔｏｃａｌｃｕｌａｔｅｔｈｅｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｔｈｅｋｅｙｗｏｒｄｓｏｆｎａｍｅｍｅｎｔｉｏｎａｎｄｔｈｅｋｅｙｗｏｒｄｓｏｆｃａｎｄｉｄａｔｅｅｎｔｉｔｉｅｓ．Ｔｈｅｍｅｔｈｏｄｔｈｅｎｃｈｏｏｓｅｓｔｈｅｃａｎｄｉｄａｔｅｅｎｔｉｔｉｅｓｗｈｉｃｈｈａｖｅｔｈｅｍａｘｉｍｕｍａｖｅｒａｇｅｓｉｍｉｌａｒｉｔｙｔｏｔｈｅｔａｒｇｅｔｅｎｔｉｔｙ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｎｅｗｍｅｔｈｏｄｃａｎｅｆｆｅｃｔｉｖｅｌｙｃａｐｔｕｒｅｔｈｅｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｎａｍｅｍｅｎｔｉｏｎａｎｄａｔａｒｇｅｔｅｎｔｉｔｙ；ｔｈｕｓ，ｉｔｃａｎａｃｃｕｒａｔｅｌｙａｃｈｉｅｖｅｅｎｔｉｔｙｄｉｓａｍｂｉｇｕａｔｉｏｎｏｆａｔｏｐｉｃ－ｓｐｅｃｉｆｉｃｄｏｍａｉｎ．Ｋｅｙｗｏｒｄｓ：ｅｎｔｉｔｙｄｉｓａｍｂｉｇｕａｔｉｏｎ；ｅｎｔｉｔｙｌｉｎｋｉｎｇ；Ｗｏｒｄ２Ｖｅｃ；Ｗｉｋｉｐｅｄｉａ；ｇｒａｐｈｉｃａｌｍｏｄｅｌ；ｒａｎｄｏｍｗａｌｋｉｎｇ收稿日期：２０１６⁃０３⁃１９．网络出版日期：２０１６⁃０５⁃１３．基金项目：国家自然科学基金项目（６１２６２０４１，６１４７２１６８，６１４６２０５４，６１５６２０５２）；云南省自然科学基金重点项目（２０１３ＦＡ０３０）．通信作者：郭剑毅．Ｅ⁃ｍａｉｌ：ｇｊａｄｅ８６＠ｈｏｔｍａｉｌ．ｃｏｍ．实体链接是知识库构建的关键技术之一，其目的是将文本中已经获取到的命名实体链接到已有的

第3期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·367· 知识库中，实体消岐是实体链接的关键任务。由于在上面的例子中，很明显第一句中的“香格里海量数据中存在的实体指称通常可以对应到多个命拉”指的是某旅游胜地，第二句指的是某著名酒店名实体概念，这无疑对实体消歧造成了很大的障碍。品牌，但是如何让计算机也能将实体指称项准确链实体消歧的任务就是将这些存在歧义的实体指称在接到知识库中具有特定概念的实体仍然是自然语言众多的候选实体中匹配出对应的目标实体。目前实处理领域研究的热点和难点。体消歧任务分为两种类型：实体聚类消歧和实体链传统的消歧模型难以有效利用能反映领域特有接消歧山，实体聚类消歧就是利用聚类算法来对实属性的实体词特征。因此，本文针对旅游领域实体体进行消歧，而实体链接消歧则是借助外部知识库，间的关系较为复杂的特征，提出了一种结合词向量将待消歧命名实体指称链接到外部知识库中对应实和图模型的消歧方法，通过提取实体指称项背景文体来进行消歧。本文选择用后者来实现特定领域的本的若干关键词和候选实体文本的若干关键词，利实体消歧。用训练好的模型对这些关键词分别进行交叉相似度实体消歧的本质是计算实体指称项和候选实体计算，把相似度均值最高的候选实体作为最终的目的相似度，选择相似度最大的候选实体作为链接的标实体。目标实体2】。针对英文实体消岐，Bunescu和Pas- 1 ca[)提出了一种基于余弦相似度排序的方法来实现相关理论实体消歧。Bagga和Gideon4s]等将实体指称项的 1.1词向量上下文与候选实体的上下文分别表示成BOW(Bag 在自然语言处理中，要将自然语言理解的问题 of words)向量形式，利用向量空间模型实现了人名转化为机器学习的问题，就需将自然语言的符号数的消歧。韩先培等)提出一种基于图的实体消歧学化，其中最直观和常用的方法是One-hot表示法。方法，将指称项与实体通过带权的无向图连接起来，这种方法将每个词表示为一个很长的向量，其维数从而将指称项与实体、实体与实体间的语义关联通是词汇表大小，其中绝大多数元素为0，只有一个维过图的形式表征出来。上述工作主要是对英文的实度的值为1，这个维度就代表当前的词。体消歧，相比较而言，针对中文的实体消歧工作远远在自然语言处理中，常将One-hot表示采用稀落后于英文。在中文的实体消歧领域，王建勇等] 疏的方式进行存储，即为每个词分配一个数字D。利用一种基于图的GHOST算法，结合AP聚类算法该方法因其简单易用，广泛应用于各种自然语言处进行相似度计算，在人名消歧方面取得了较好的实理任务中，如N-gram模型中就采用这种词向量表示验结果。怀宝兴等)提出了一种基于概率主题模法。但这种表述方法也存在一定问题：其表示的任型的命名实体链接方法，在通用领域，通过构建歧义意两个词之间是孤立的，无法表示这两个词之间的词表，用LDA基于语义层面对文档建模和实体消依赖关系，从词向量上看不出两个词是否相关：采用岐：宁博等9]针对中文命名实体消歧问题提出了一稀疏表示法，在处理某些任务，如构建N-gram模型种基于异构知识库的层次聚类方法，将维基百科和时，会引起维数灾难问题。百度百科结合起来作为多源知识库，并利用Hadoop 而在机器学习领域，一般采用分布式表示(ds 平台进行层次聚类，从而实现实体消歧。另外，朱敏 tributed representation)的方法表示词向量，这种表等[1]提出了一种实体聚类消歧与百度百科词频的示法最早由Hinton!)提出，通常称为Word Repre-- 同类实体消歧相结合的消歧方法，通过构建同义词 sentation。这种方法将词用一种低维实数向量表示，表、优化知识库、改进拼音距离编辑算法等方式实现优点在于相似的词在距离上更接近，能体现出不同对中文微博的实体消歧。词之间的相关性，从而反映词之间的依赖关系。同同样在旅游领域也存在着大量的实体同名现时，较低的维度也使特征向量在应用时有一个可接象，在维基百科中“金花”一词有11个同名实体，受的复杂度。因此，新近提出的许多语言模型，如潜 “香格里拉”一词有12个同名实体，这无疑对消歧在语义分析(latent semantic analysis,LSA)模型、潜工作产生很大影响，例如，给定两个句子：在狄利克雷分布(latent dirichlet allocation,LDA)模 1)2014年，香格里拉县共接待国内外游客型以及目前流行的神经网络模型等，都采用这种方 1080.22万人次。法表示词向量213) 2)在结束了一天的旅程后我们选择了在香格本文利用旅游领域的丰富语料对词向量模型进里拉酒店入住。行训练，从而将抽取的关键词进行向量化表示，用这

知识库中，实体消岐是实体链接的关键任务。由于海量数据中存在的实体指称通常可以对应到多个命名实体概念，这无疑对实体消歧造成了很大的障碍。实体消歧的任务就是将这些存在歧义的实体指称在众多的候选实体中匹配出对应的目标实体。目前实体消歧任务分为两种类型：实体聚类消歧和实体链接消歧［１］，实体聚类消歧就是利用聚类算法来对实体进行消歧，而实体链接消歧则是借助外部知识库，将待消歧命名实体指称链接到外部知识库中对应实体来进行消歧。本文选择用后者来实现特定领域的实体消歧。实体消歧的本质是计算实体指称项和候选实体的相似度，选择相似度最大的候选实体作为链接的目标实体［２］。针对英文实体消岐，Ｂｕｎｅｓｃｕ和Ｐａｓ⁃ ｃａ［３］提出了一种基于余弦相似度排序的方法来实现实体消歧。Ｂａｇｇａ和Ｇｉｄｅｏｎ［４⁃５］等将实体指称项的上下文与候选实体的上下文分别表示成ＢＯＷ（Ｂａｇｏｆｗｏｒｄｓ）向量形式，利用向量空间模型实现了人名的消歧。韩先培等［６］提出一种基于图的实体消歧方法，将指称项与实体通过带权的无向图连接起来，从而将指称项与实体、实体与实体间的语义关联通过图的形式表征出来。上述工作主要是对英文的实体消歧，相比较而言，针对中文的实体消歧工作远远落后于英文。在中文的实体消歧领域，王建勇等［７］利用一种基于图的ＧＨＯＳＴ算法，结合ＡＰ聚类算法进行相似度计算，在人名消歧方面取得了较好的实验结果。怀宝兴等［８］提出了一种基于概率主题模型的命名实体链接方法，在通用领域，通过构建歧义词表，用ＬＤＡ基于语义层面对文档建模和实体消岐；宁博等［９］针对中文命名实体消歧问题提出了一种基于异构知识库的层次聚类方法，将维基百科和百度百科结合起来作为多源知识库，并利用Ｈａｄｏｏｐ平台进行层次聚类，从而实现实体消歧。另外，朱敏等［１０］提出了一种实体聚类消歧与百度百科词频的同类实体消歧相结合的消歧方法，通过构建同义词表、优化知识库、改进拼音距离编辑算法等方式实现对中文微博的实体消歧。同样在旅游领域也存在着大量的实体同名现象，在维基百科中“金花” 一词有１１个同名实体， “香格里拉”一词有１２个同名实体，这无疑对消歧工作产生很大影响，例如，给定两个句子：１）２０１４年，香格里拉县共接待国内外游客１０８０．２２万人次。２）在结束了一天的旅程后我们选择了在香格里拉酒店入住。在上面的例子中，很明显第一句中的“香格里拉”指的是某旅游胜地，第二句指的是某著名酒店品牌，但是如何让计算机也能将实体指称项准确链接到知识库中具有特定概念的实体仍然是自然语言处理领域研究的热点和难点。传统的消歧模型难以有效利用能反映领域特有属性的实体词特征。因此，本文针对旅游领域实体间的关系较为复杂的特征，提出了一种结合词向量和图模型的消歧方法，通过提取实体指称项背景文本的若干关键词和候选实体文本的若干关键词，利用训练好的模型对这些关键词分别进行交叉相似度计算，把相似度均值最高的候选实体作为最终的目标实体。１相关理论１．１词向量在自然语言处理中，要将自然语言理解的问题转化为机器学习的问题，就需将自然语言的符号数学化，其中最直观和常用的方法是Ｏｎｅ⁃ｈｏｔ表示法。这种方法将每个词表示为一个很长的向量，其维数是词汇表大小，其中绝大多数元素为０，只有一个维度的值为１，这个维度就代表当前的词。在自然语言处理中，常将Ｏｎｅ⁃ｈｏｔ表示采用稀疏的方式进行存储，即为每个词分配一个数字ＩＤ。该方法因其简单易用，广泛应用于各种自然语言处理任务中，如Ｎ⁃ｇｒａｍ模型中就采用这种词向量表示法。但这种表述方法也存在一定问题：其表示的任意两个词之间是孤立的，无法表示这两个词之间的依赖关系，从词向量上看不出两个词是否相关；采用稀疏表示法，在处理某些任务，如构建Ｎ⁃ｇｒａｍ模型时，会引起维数灾难问题。而在机器学习领域，一般采用分布式表示（ｄｉｓ⁃ ｔｒｉｂｕｔｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ）的方法表示词向量，这种表示法最早由Ｈｉｎｔｏｎ［１１］提出，通常称为ＷｏｒｄＲｅｐｒｅ⁃ ｓｅｎｔａｔｉｏｎ。这种方法将词用一种低维实数向量表示，优点在于相似的词在距离上更接近，能体现出不同词之间的相关性，从而反映词之间的依赖关系。同时，较低的维度也使特征向量在应用时有一个可接受的复杂度。因此，新近提出的许多语言模型，如潜在语义分析（ｌａｔｅｎｔｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ，ＬＳＡ）模型、潜在狄利克雷分布（ｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ，ＬＤＡ）模型以及目前流行的神经网络模型等，都采用这种方法表示词向量［１２⁃１３］。本文利用旅游领域的丰富语料对词向量模型进行训练，从而将抽取的关键词进行向量化表示，用这第３期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·３６７·

·368 智能系统学报第11卷若干个关键词向量来表征一篇文档，通过计算关键则的变动形式，如同一个人酒后乱步，所形成的随机词向量间的余弦相似度得出它们之间的关联程度，过程记录6。它的基本思想是，从一个或一系列顶进而得出文档之间的相似度。点开始遍历一张图，在任意一个顶点，遍历者将以概 l.2 TextRank算法率1-α游走到这个顶点的邻居顶点，以概率α随机同一文档中的大多数词语都是为表达同一主题跳跃到图中的任何一个顶点，称α跳转发生概率，服务的，它们之间具有一定的语义关系。和词语W 每次游走后得出一个概率分布，该概率分布刻画了有语义关系的词语越多，词语W越可能是表达文档图中每一个顶点被访问到的概率，用这个概率分布主题的重要词语，同时和词语W有语义关系的词语作为下一次游走的输人并反复迭代这一过程，当满的重要性也会影响词语W的重要性。根据这两个足一定前提条件时，这个概率分布会趋于收敛，收敛特性，本节引入基于图的排序算法用于抽取多文档后，即可以得到一个稳定的概率分布。近年来，随机关键词。基于图的排序算法是决定图中点重要性的游走算法逐渐开始吸引机器学习研究者的目光，并一种方法，它根据全局信息（图的结构）而不是局部开始被应用于半监督学习.1】、聚类分析192】、图信息来对节点排序。其基本理论是“投票”，当图中像分割[]和图的匹配[]等问题上。与随机游走相一个点A和另一个点B之间有连线时，那么点A就关的扩散核也被应用于242)基于核的学习等方面。给点B投票，点B获得的投票越多，点B就越重要；由于实体间的关系错综复杂，可以将这种关系更进一步，投票点A的重要性决定了其投票的重要抽象为一种图模型，本文在这种图模型上运用随机性，因此，点B的分数由其获得的投票和给B投票的游走算法可以将实体间的关联程度准确地表征点的分数共同决定。出来。 Mihalcea14]将在自然语言处理领域中应用的 2领域实体消歧基于图的排序算法称为TextRank,一般TextRank模型可以表示为一个加权的有向图。TextRank的思想 2.1系统流程来源于Google的PageRank算法，通过把文本分割本文提出的方法由4个模块构成分别为关键词成若干组成单元并建立图模型，利用投票机制对文提取模块、词向量模块、图模型模块和空实体判断本中的重要成分进行排序，仅利用单篇文档本身的模块。信息即可实现关键词抽取。本文采用该算法将文档在关键词提取模块中，分别利用TextRank算法表示为无向图G(V,E),由点集合V和边集合E组提取出待消歧的实体指称所在的背景文本的若干关成，E是V×V的子集，图中两点i,j之间边的权重为键词和候选实体对应的知识库描述文本的若干关键 W。对于一个给定的点V:,n(V)为指向该点的点词，这里提取的两组关键词用于后面的相似度计算。集合，Out(V:)为点V指向的点集合，点V,的分数在词向量模块中，抽取维基百科离线数据中旅定义为式(2)：游分类下的页面信息构建领域知识库，由于维基百 Ws(V)=(1-d)+d×∑ 10 科中包含大量的结构化信息，取该知识库的摘要信 —WS(V) a(∑ 0声息作为语料对词向量模型进行训练，这时，领域实体 VeOu(V) 都能通过该模型表征为一个向量，从而实现关键词 (2) 之间的相似度计算。式中：d为阻尼因数，取值范围为0~1，代表从图中在图模型模块中，人工构建一个领域实体关系某一特定点指向其他任意点的概率。通过这种算法图谱，通过在该图谱上的随机游走算法实现关键词我们可以获得每个词语在文档中的分数，从而可以之间相似度的计算。根据分数大小来进行关键词的排序。在空实体判断模块中，从待消歧实体指称所在本文利用该算法抽取文档中的关键词，分别用的文本中抽取若干关键词和从候选实体所在文本中抽取的关键词来表征待消歧实体指称项所在文本和抽取的关键词分别用本文提出的图模型与词向量方目标实体所在文本。法相结合进行交叉相似度计算取平均值，选择其中 1.3随机游走算法最大的相似度平均值，因为计算结果所对应的目标随机游走模型是在1905年Karl Pearsonti]首实体未必在我们的知识库中存在，这时通过比对该次提出的一种数学统计模型，它是一连串的轨迹组平均值与通过大量实验确定的空实体阈值入的大成的，其中每一次都是随机的。它能用来表示不规小，如果大于该阈值入，则该实体为目标实体，如果

若干个关键词向量来表征一篇文档，通过计算关键词向量间的余弦相似度得出它们之间的关联程度，进而得出文档之间的相似度。１．２ＴｅｘｔＲａｎｋ算法同一文档中的大多数词语都是为表达同一主题服务的，它们之间具有一定的语义关系。和词语Ｗ有语义关系的词语越多，词语Ｗ越可能是表达文档主题的重要词语，同时和词语Ｗ有语义关系的词语的重要性也会影响词语Ｗ的重要性。根据这两个特性，本节引入基于图的排序算法用于抽取多文档关键词。基于图的排序算法是决定图中点重要性的一种方法，它根据全局信息（图的结构）而不是局部信息来对节点排序。其基本理论是“投票”，当图中一个点Ａ和另一个点Ｂ之间有连线时，那么点Ａ就给点Ｂ投票，点Ｂ获得的投票越多，点Ｂ就越重要；更进一步，投票点Ａ的重要性决定了其投票的重要性，因此，点Ｂ的分数由其获得的投票和给Ｂ投票的点的分数共同决定。Ｍｉｈａｌｃｅａ［１４］将在自然语言处理领域中应用的基于图的排序算法称为ＴｅｘｔＲａｎｋ，一般ＴｅｘｔＲａｎｋ模型可以表示为一个加权的有向图。ＴｅｘｔＲａｎｋ的思想来源于Ｇｏｏｇｌｅ的ＰａｇｅＲａｎｋ算法，通过把文本分割成若干组成单元并建立图模型，利用投票机制对文本中的重要成分进行排序，仅利用单篇文档本身的信息即可实现关键词抽取。本文采用该算法将文档表示为无向图Ｇ（Ｖ，Ｅ），由点集合Ｖ和边集合Ｅ组成，Ｅ是Ｖ×Ｖ的子集，图中两点ｉ，ｊ之间边的权重为Ｗｊ。对于一个给定的点Ｖｉ，Ｉｎ（Ｖｉ）为指向该点的点集合，Ｏｕｔ（Ｖｉ）为点Ｖｉ指向的点集合，点Ｖｉ的分数定义为式（２）：ＷＳ（Ｖｉ）＝（１－ｄ）＋ｄ × Ｖ ∑ ｊ∈Ｉｎ（Ｖｉ）ｗｊｉＶ ∑ｋ∈Ｏｕｔ（Ｖｉ）ｗｊｋＷＳ（Ｖｊ）（２）式中：ｄ为阻尼因数，取值范围为０～１，代表从图中某一特定点指向其他任意点的概率。通过这种算法我们可以获得每个词语在文档中的分数，从而可以根据分数大小来进行关键词的排序。本文利用该算法抽取文档中的关键词，分别用抽取的关键词来表征待消歧实体指称项所在文本和目标实体所在文本。１．３随机游走算法随机游走模型是在１９０５年ＫａｒｌＰｅａｒｓｏｎ［１５］首次提出的一种数学统计模型，它是一连串的轨迹组成的，其中每一次都是随机的。它能用来表示不规则的变动形式，如同一个人酒后乱步，所形成的随机过程记录［１６］。它的基本思想是，从一个或一系列顶点开始遍历一张图，在任意一个顶点，遍历者将以概率１－α 游走到这个顶点的邻居顶点，以概率 α 随机跳跃到图中的任何一个顶点，称 α 跳转发生概率，每次游走后得出一个概率分布，该概率分布刻画了图中每一个顶点被访问到的概率，用这个概率分布作为下一次游走的输入并反复迭代这一过程，当满足一定前提条件时，这个概率分布会趋于收敛，收敛后，即可以得到一个稳定的概率分布。近年来，随机游走算法逐渐开始吸引机器学习研究者的目光，并开始被应用于半监督学习［１７⁃１８］、聚类分析［１９⁃２１］、图像分割［２２］和图的匹配［２３］等问题上。与随机游走相关的扩散核也被应用于［２４⁃２８］基于核的学习等方面。由于实体间的关系错综复杂，可以将这种关系抽象为一种图模型，本文在这种图模型上运用随机游走算法可以将实体间的关联程度准确地表征出来。２领域实体消歧２．１系统流程本文提出的方法由４个模块构成分别为关键词提取模块、词向量模块、图模型模块和空实体判断模块。在关键词提取模块中，分别利用ＴｅｘｔＲａｎｋ算法提取出待消歧的实体指称所在的背景文本的若干关键词和候选实体对应的知识库描述文本的若干关键词，这里提取的两组关键词用于后面的相似度计算。在词向量模块中，抽取维基百科离线数据中旅游分类下的页面信息构建领域知识库，由于维基百科中包含大量的结构化信息，取该知识库的摘要信息作为语料对词向量模型进行训练，这时，领域实体都能通过该模型表征为一个向量，从而实现关键词之间的相似度计算。在图模型模块中，人工构建一个领域实体关系图谱，通过在该图谱上的随机游走算法实现关键词之间相似度的计算。在空实体判断模块中，从待消歧实体指称所在的文本中抽取若干关键词和从候选实体所在文本中抽取的关键词分别用本文提出的图模型与词向量方法相结合进行交叉相似度计算取平均值，选择其中最大的相似度平均值，因为计算结果所对应的目标实体未必在我们的知识库中存在，这时通过比对该平均值与通过大量实验确定的空实体阈值 λ 的大小，如果大于该阈值 λ，则该实体为目标实体，如果 ·３６８· 智能系统学报第１１卷

第3期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·369- 小于入，则认为该实体指称在知识库中没有与之对点都获得一个分数，代表该点在图中的重要性，也就应的目标实体，即空实体。是该词语在文档中的重要性。表1为利用该算法确定的待消歧实体文本和对应的3个候选实体文本中 /实体指称确定候图模型选实体词向量的关键词，待消歧实体和候选实体1指的是香格里拉（景点名），候选实体2指的是香格里拉（酒店毽名)，候选实体3指的是香格里拉（城市名）。手工构建背景知识库百科表I用TextRank抽取的关键词的语料库文本最文本语料 Table 1 Keywords extracted by TextRank 待消歧实体候选实体1 候选实体2 候选实体3 人工构建提取若干关键词文本文本文本文本图模型基于图的随关键词交叉相似度 Word2Vee 得到词问量香格里拉香格里拉酒店藏族机游走模型计算取均值模型心中云南省香格里拉香格里拉 <是否大于岗值无指代实体出发民族亚洲民族 Y空实体判断寻找景点集团扎西取均值最大的作为目标实体位置旅游饭店传奇图1系统总体框架稻城香格里拉县商贸成长 Fig.1 Overall framework of system 2.3词向量的训练和应用 2.2关键词提取 Word2Vec是Google在2013年推出并开源的一关键词提取模块分为两个步骤：候选实体获取款将词表征为实数值向量的高效工具，其利用深度和关键词提取。候选实体获取实质上就是罗列出所学习的思想，可以通过训练把对文本内容的处理简有可能是待消歧的实体指称项的目标实体，由于中化为K维向量空间中的向量运算，而向量空间上的文语义的多样性，一个词通常有多种表达方式，同样相似度可以用来表示文本语义上的相似度。一个实体也可能有多种形式，例如，在维基百科的重 Word2Vec输出的词向量可以被用来做很多NLP相定向页面中，“驴友”与“背包客”指的是同一个实关的工作，比如聚类、找同义词、词性分析等。如果体，“虫草”与“冬虫夏草”指的也是同一实体。针对换个思路，把词当做特征，那么Word2Vec就可以把这种情况，利用维基百科离线数据库提供的3个特征映射到K维向量空间，可以为文本数据寻求更 SQL文件即可得到所有重定向的同义词，并且能得加深层次的特征表示，本文将K值选定为200维。到他们对应的页面信息和链接信息。本文主要利用该工具来实现指称项与目标实体关键词提取即在确定候选实体后，从待消歧实间的相似度计算，为了提高实验在旅游领域的准确体所在文本中抽取n个关键词，然后再从所有候选率，在选取训练语料时有针对性地选取旅游领域文实体在知识库中对应的文本中分别抽取n个关键本，这样就最大程度避免其他领域文本对词向量模词。这样做是因为本文中相似度计算的前提是假设型的精准度产生影响，本文一方面采用维基百科的待消歧背景文本与知识库中对应文本的主题一致，旅游分类下的文本来作为训练词向量模型的语料，在这个前提下，本文消歧任务实质已经转变为计算同时还加入了在各大旅游网站爬取的新闻语料。训待消歧实体指称所在背景文本与知识库中候选实体练完成后的模型能够比较准确地计算两个旅游领域对应文本之间的相似度。分别抽取两个文本各个词汇的相似度，效果比较理想。如表2所示为利用关键词，这里采用TextRank算法抽取权重最高的n 该工具计算出的背景文本中关键词“香格里拉”与个关键词，具体计算方法参照本文1.2节。根据词知识库中目标实体文本的7个关键词之间的相似与词之间在规定窗口大小内相互进行“投票”计算度，从图中可以发现其与“景点”、“旅游”等词语的出每个词在文档中的权重，在使用TextRank算法计相似度要明显高于“民族”、“比重”，这与现实世界算图中点的权重时，需要给图中的点指定任意的初中它们之间的语义关联程度相一致。通过词向量计值并递归计算直到某个词语分数收敛，收敛后每个算处理，进一步加强了实体词的领域相关性，有助于

小于 λ，则认为该实体指称在知识库中没有与之对应的目标实体，即空实体。图１系统总体框架Ｆｉｇ．１Ｏｖｅｒａｌｌｆｒａｍｅｗｏｒｋｏｆｓｙｓｔｅｍ２．２关键词提取关键词提取模块分为两个步骤：候选实体获取和关键词提取。候选实体获取实质上就是罗列出所有可能是待消歧的实体指称项的目标实体，由于中文语义的多样性，一个词通常有多种表达方式，同样一个实体也可能有多种形式，例如，在维基百科的重定向页面中，“驴友” 与“背包客” 指的是同一个实体，“虫草”与“冬虫夏草”指的也是同一实体。针对这种情况，利用维基百科离线数据库提供的３个ＳＱＬ文件即可得到所有重定向的同义词，并且能得到他们对应的页面信息和链接信息。关键词提取即在确定候选实体后，从待消歧实体所在文本中抽取ｎ个关键词，然后再从所有候选实体在知识库中对应的文本中分别抽取ｎ个关键词。这样做是因为本文中相似度计算的前提是假设待消歧背景文本与知识库中对应文本的主题一致，在这个前提下，本文消歧任务实质已经转变为计算待消歧实体指称所在背景文本与知识库中候选实体对应文本之间的相似度。分别抽取两个文本各ｎ个关键词，这里采用ＴｅｘｔＲａｎｋ算法抽取权重最高的ｎ个关键词，具体计算方法参照本文１．２节。根据词与词之间在规定窗口大小内相互进行“投票” 计算出每个词在文档中的权重，在使用ＴｅｘｔＲａｎｋ算法计算图中点的权重时，需要给图中的点指定任意的初值并递归计算直到某个词语分数收敛，收敛后每个点都获得一个分数，代表该点在图中的重要性，也就是该词语在文档中的重要性。表１为利用该算法确定的待消歧实体文本和对应的３个候选实体文本中的关键词，待消歧实体和候选实体１指的是香格里拉（景点名），候选实体２指的是香格里拉（酒店名），候选实体３指的是香格里拉（城市名）。表１用ＴｅｘｔＲａｎｋ抽取的关键词Ｔａｂｌｅ１ＫｅｙｗｏｒｄｓｅｘｔｒａｃｔｅｄｂｙＴｅｘｔＲａｎｋ待消歧实体文本候选实体１文本候选实体２文本候选实体３文本香格里拉香格里拉酒店藏族心中云南省香格里拉香格里拉出发民族亚洲民族寻找景点集团扎西位置旅游饭店传奇稻城香格里拉县商贸成长２．３词向量的训练和应用Ｗｏｒｄ２Ｖｅｃ是Ｇｏｏｇｌｅ在２０１３年推出并开源的一款将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为Ｋ维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Ｗｏｒｄ２Ｖｅｃ输出的词向量可以被用来做很多ＮＬＰ相关的工作，比如聚类、找同义词、词性分析等。如果换个思路，把词当做特征，那么Ｗｏｒｄ２Ｖｅｃ就可以把特征映射到Ｋ维向量空间，可以为文本数据寻求更加深层次的特征表示，本文将Ｋ值选定为２００维。本文主要利用该工具来实现指称项与目标实体间的相似度计算，为了提高实验在旅游领域的准确率，在选取训练语料时有针对性地选取旅游领域文本，这样就最大程度避免其他领域文本对词向量模型的精准度产生影响，本文一方面采用维基百科的旅游分类下的文本来作为训练词向量模型的语料，同时还加入了在各大旅游网站爬取的新闻语料。训练完成后的模型能够比较准确地计算两个旅游领域词汇的相似度，效果比较理想。如表２所示为利用该工具计算出的背景文本中关键词“香格里拉” 与知识库中目标实体文本的７个关键词之间的相似度，从图中可以发现其与“景点”、“旅游”等词语的相似度要明显高于“民族”、“比重”，这与现实世界中它们之间的语义关联程度相一致。通过词向量计算处理，进一步加强了实体词的领域相关性，有助于第３期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·３６９·

.370 智能系统学报第11卷后续环节的相似度计算。为了提高关键词之间相似度计算的准确率，我表2用词向量计算出的关键词之间相似度们在词向量的基础上加入了利用图模型计算的相似 Table 2 Similarity between keywords calculated by Word2Vec 度来综合衡量关键词之间的相似度，下面将重点介关键词1 关键词2 相似度绍一种用来计算相似度的基于图的随机游走算法。香格里拉香格里拉 1.0 由于目前我们已经人工手动搭建了一个领域实香格里拉云南省 0.25331938 体关系库，图2所示的就是一个典型的云南旅游领香格里拉民族 0.117823526 域相关实体的部分关系图谱，从图中我们认为“大香格里拉景点 0.4967134 理古城”与“大理市”之间的相似度要高于“乳扇”与香格里拉旅游 0.42981964 “大理市”之间的相似度，因为前两者之间是“位于” 香格里拉香格里拉县的关系直接相连，而后两者之间是通过“大理古城” 0.49656978 香格里拉比重这个中间实体相联系起来的，所以相比较而言，“乳 0.009633713 扇”与“大理市”之间的联系就要弱得多，同样，“特 2.4图模型的构建和应用产”与“大理古城”之间的相似度要比“旅游景点”与维基百科是目前世界上最大的在线百科全书， “大理古城”之间的相似度要弱得多，因为后者之间其内容每天都会由世界各地的志愿者进行编辑和更的路径更多，这些都与现实中实体之间的联系密切新，有着很好的时效性，另外，维基百科的页面包含程度相一致，而基于图的随机游走算法能将这种实有类别信息、重定向信息、外部链接信息等，这些信体之间的联系定量地表示出来。息无形中为实体之间建立了语义上的关联，所以本景点文选择维基百科作为实体消歧的知识库。由于本文是针对特定领域，本文抽取“旅游”分类信息下的所有页面作为最终的知识库来源，这样我们在很大程度上实现了消歧，例如，“香格里拉（科幻小说）”和 “香格里拉（电视剧）”就自然不在知识库中，也就在古城大理古城一定程度上缩小了候选实体的范围。在此基础上， 1 我们搭建了一个领域实体关系标注平台，利用图数据库No4j存储数据，这种图数据库与传统的关系 (a)从起始点出发型数据库相比能够更准确有效地表示各个数据项之间的复杂关系，将从维基百科中抽取到的领域实体导入该平台的图数据库，通过人工标注的方式构建了一个实体与实体之间的关系图谱，目的是通过利用在该图谱上的随机游走算法辅助计算关键词之间的相似度，目前该平台已经拥有13956个实体，8 127对关系。图2是部分实体及其之间的关系。大理古城位于美食 (b)到达第2个顶点后选择下一个目标 2 个大理市乳扇大研古城古城特产别名是类丽江古城旅游景点图2部分实体关系图谱 Fig.2 Part of the entity relationship mapping (c)到达第3个顶点后有两个选择

后续环节的相似度计算。表２用词向量计算出的关键词之间相似度Ｔａｂｌｅ２ＳｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｋｅｙｗｏｒｄｓｃａｌｃｕｌａｔｅｄｂｙＷｏｒｄ２Ｖｅｃ关键词１关键词２相似度香格里拉香格里拉１．０香格里拉云南省０．２５３３１９３８香格里拉民族０．１１７８２３５２６香格里拉景点０．４９６７１３４香格里拉旅游０．４２９８１９６４香格里拉香格里拉县０．４９６５６９７８香格里拉比重０．００９６３３７１３２．４图模型的构建和应用维基百科是目前世界上最大的在线百科全书，其内容每天都会由世界各地的志愿者进行编辑和更新，有着很好的时效性，另外，维基百科的页面包含有类别信息、重定向信息、外部链接信息等，这些信息无形中为实体之间建立了语义上的关联，所以本文选择维基百科作为实体消歧的知识库。由于本文是针对特定领域，本文抽取“旅游”分类信息下的所有页面作为最终的知识库来源，这样我们在很大程度上实现了消歧，例如，“香格里拉（科幻小说）”和 “香格里拉（电视剧）”就自然不在知识库中，也就在一定程度上缩小了候选实体的范围。在此基础上，我们搭建了一个领域实体关系标注平台，利用图数据库Ｎｅｏ４ｊ存储数据，这种图数据库与传统的关系型数据库相比能够更准确有效地表示各个数据项之间的复杂关系，将从维基百科中抽取到的领域实体导入该平台的图数据库，通过人工标注的方式构建了一个实体与实体之间的关系图谱，目的是通过利用在该图谱上的随机游走算法辅助计算关键词之间的相似度，目前该平台已经拥有１３９５６个实体，８１２７对关系。图２是部分实体及其之间的关系。图２部分实体关系图谱Ｆｉｇ．２Ｐａｒｔｏｆｔｈｅｅｎｔｉｔｙｒｅｌａｔｉｏｎｓｈｉｐｍａｐｐｉｎｇ为了提高关键词之间相似度计算的准确率，我们在词向量的基础上加入了利用图模型计算的相似度来综合衡量关键词之间的相似度，下面将重点介绍一种用来计算相似度的基于图的随机游走算法。由于目前我们已经人工手动搭建了一个领域实体关系库，图２所示的就是一个典型的云南旅游领域相关实体的部分关系图谱，从图中我们认为“大理古城”与“大理市”之间的相似度要高于“乳扇”与 “大理市”之间的相似度，因为前两者之间是“位于” 的关系直接相连，而后两者之间是通过“大理古城” 这个中间实体相联系起来的，所以相比较而言，“乳扇”与“大理市”之间的联系就要弱得多，同样，“特产”与“大理古城”之间的相似度要比“旅游景点”与 “大理古城”之间的相似度要弱得多，因为后者之间的路径更多，这些都与现实中实体之间的联系密切程度相一致，而基于图的随机游走算法能将这种实体之间的联系定量地表示出来。（ａ）从起始点出发（ｂ）到达第２个顶点后选择下一个目标（ｃ）到达第３个顶点后有两个选择 ·３７０· 智能系统学报第１１卷

第3期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·371. 表示为1/2。由于实体间的关系错综复杂，可以将这种关系抽象为一种图模型，本文在这种图模型上运用随机游走算法可以将实体间的关联程度准确地表征出来。取中心实体周围距离最近的p个实体构建实体关系图谱，如果待计算的两个实体都不在这个图谱中则将相似度设为0，反之，则用随机游走算法计算相似度。假设以图2中的“大理古城”为中心，则令初始矩阵AT=[10000000],“大理古城”经过一步游走到2、4、5等3个节点的概率都 (d)依概率到达下一个目标图3随机游走原理图是0.33，这种转移概率表示成一个p×p的矩阵，即为 Fig.3 Schematic diagram of random walk 8×8的矩阵M,对于α的确定，我们参照文献[】，将如图3所示我们从节点“大理古城”出发，在3 α的值设为0.5。个结点组成的图上随机游走，边上数字是转移概率，具体算法流程如下：图3(a)~(d)分别显示4种时刻的状态。图3(a) 1)给定初始化矩阵A,并令B=A; 中“大理古城”和“古城”之间只有一个单向的关系， 2)根据图中实体间的转移概率，生成矩阵M: 箭头的方向表示关系的方向，所以“大理古城”到 3)计算C=a·M·B+(1-a)A; “古城”之间的关系在矩阵中表示为1，图3（©）中 4)令B=C; “景点”和其他两个实体间均有一个单向的关系，所 5)重复步骤3)、4)，直到C达到稳定状态或者以“景点”和另外两个实体之间的关系在矩阵中都迭代次数超过某个阈值。 0.5 0 0.500.330.5 00 0 17 0.1650 0.33 00 0 0 1 0 0 0 0 0 00 0 0 00.5 0 0 0 0.1650 0.33 0 0 0 0 00.5 0.5 0 0 =0.5× +0.5× 0.1650 0.33 0 0 0 0 0 0.5 0 0 0 0 0.50 0 0 0 0 0 0 0 0 0 10.33 0 0 0 0 0 0 0 0 000.330.50 0 0 C M B 1-a A 12次迭代后矩阵C达到稳定状态，概率分布为 0.5716 0 0.500.330.50 0 0 「0.5716 0.1678 0.33 00 0 0 10 0 0.1678 0 0.0052 0 0 0 0 0 00.5 0 0.0052 0 0.1107 0.33 00 0 0 00.50.5 0.1107 0 =0.5× +0.5× 0.1054 0.33 00 0 0 0 0 0.5 0.1054 0 0.0270 0 0.50 0 0 0 0 0 0.0270 0 0.0209 0 010.33 0 0 0 0 0.0209 0 10.0446 0 000.330.50 0 0 0.0446 o 所以在经过多次迭代运算后，这种基于图的概点1与结点3的相似度最小，只有0.0052，这与图2 率分布会趋向于一个稳定值，从C矩阵我们可以看中展示的实际情况也比较相符，如此一来，我们就将出结点1与结点2、结点4、结点5的相似度较大，分这种图上的结点间的相似度实现了量化，并且实际别为0.1678、0.1107、0.1054，对应着图2中“大理效果与现实情况较为一致，可见该算法在辅助计算古城”与“乳扇”、“古城”、“大理市”的相似度，而结相似度时的实用价值

（ｄ）依概率到达下一个目标图３随机游走原理图Ｆｉｇ．３Ｓｃｈｅｍａｔｉｃｄｉａｇｒａｍｏｆｒａｎｄｏｍｗａｌｋ如图３所示我们从节点“大理古城”出发，在３个结点组成的图上随机游走，边上数字是转移概率，图３（ａ）～（ｄ）分别显示４种时刻的状态。图３（ａ）中“大理古城”和“古城”之间只有一个单向的关系，箭头的方向表示关系的方向，所以“大理古城” 到 “古城”之间的关系在矩阵中表示为１，图３（ｃ）中 “景点”和其他两个实体间均有一个单向的关系，所以“景点”和另外两个实体之间的关系在矩阵中都表示为１／２。由于实体间的关系错综复杂，可以将这种关系抽象为一种图模型，本文在这种图模型上运用随机游走算法可以将实体间的关联程度准确地表征出来。取中心实体周围距离最近的ｐ个实体构建实体关系图谱，如果待计算的两个实体都不在这个图谱中则将相似度设为０，反之，则用随机游走算法计算相似度。假设以图２中的“大理古城”为中心，则令初始矩阵 Α Τ ＝ [１０００００００] ，“大理古城”经过一步游走到２、４、５等３个节点的概率都是０．３３，这种转移概率表示成一个ｐ×ｐ的矩阵，即为８×８的矩阵Ｍ，对于 α 的确定，我们参照文献［２８］，将 α 的值设为０．５。具体算法流程如下：１）给定初始化矩阵Ａ，并令Ｂ＝Ａ；２）根据图中实体间的转移概率，生成矩阵Ｍ；３）计算Ｃ＝α·Ｍ·Ｂ＋（１－α）Ａ；４）令Ｂ＝Ｃ；５）重复步骤３）、４），直到Ｃ达到稳定状态或者迭代次数超过某个阈值。０．５０．１６５０００．１６５００．１６５００００ é ë ê ê ê ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ú ú ú ＝０．５ × ００．５００．３３０．５００００．３３００００１０００００００００．５００．３３００００００．５０．５０．３３０００００００．５００．５００００００００１０．３３００００００００．３３０．５０００ é ë ê ê ê ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ú ú ú ∗ １０００００００ é ë ê ê ê ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ú ú ú ＋０．５ × １０００００００ é ë ê ê ê ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ú ú ú Ｃ α ＭＢ１－α Ａ１２次迭代后矩阵Ｃ达到稳定状态，概率分布为０．５７１６０．１６７８０．００５２０．１１０７０．１０５４０．０２７００．０２０９０．０４４６ é ë ê ê ê ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ú ú ú ＝０．５ × ００．５００．３３０．５００００．３３００００１０００００００００．５００．３３００００００．５０．５０．３３０００００００．５００．５００００００００１０．３３００００００００．３３０．５０００ é ë ê ê ê ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ú ú ú ∗ ０．５７１６０．１６７８０．００５２０．１１０７０．１０５４０．０２７００．０２０９０．０４４６ é ë ê ê ê ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ú ú ú ＋０．５ × １０００００００ é ë ê ê ê ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ú ú ú 所以在经过多次迭代运算后，这种基于图的概率分布会趋向于一个稳定值，从Ｃ矩阵我们可以看出结点１与结点２、结点４、结点５的相似度较大，分别为０．１６７８、０．１１０７、０．１０５４，对应着图２中“大理古城”与“乳扇”、“古城”、“大理市”的相似度，而结点１与结点３的相似度最小，只有０．００５２，这与图２中展示的实际情况也比较相符，如此一来，我们就将这种图上的结点间的相似度实现了量化，并且实际效果与现实情况较为一致，可见该算法在辅助计算相似度时的实用价值。第３期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·３７１·

·372· 智能系统学报第11卷 2.5相似度计算模型的训练，并在一个小型测试集上进行测试。本 2.2节中已经确定出权重最高的n个关键词，文通过两个实验对所提出的方法进行了验证，实验在此基础上分别用这n个关键词来作为文本的特征一通过对关键词在不同个数下的对比试验，确定出模型：消歧准确率在关键词个数为多少时达到最高：在实 "g=（0g1,02,…,0n）。=（01,02,…,0m）验二中加入了对空实体的判断，通过对空实体阈值式中：，为带消歧实体指称所在背景文本的特征模入的不断调优得出在不同关键词个数下准确率是否型，.为知识库中候选实体对应文本的特征模型，心有所提升，提升的程度如何以及最终的消歧准确率为利用TextRank算法得出的文本关键词，词与词之对比。间的相似度用向量间的余弦值表示，具体计算如式实验步骤如下： (3)所示： 1)利用旅游领域的百科语料对词向量空间模 w。·w 型进行训练； Sim(q.e)=a'Iw.1.I wI -+(1-a)sim(q,e) 2)利用2.2中的方法在待消歧实体指称所在的 (3) 文本中抽取n个关键词：式中加号的前半部分是利用词向量求关键词之间的 3)用同样的方法在所有候选实体所在文本中相似度，后半部分是利用基于图的随机游走算法计分别抽取n个关键词：算的关键词之间的相似度，其中w,为背景文本中关 4)利用2.3和2.4中包含有丰富语义信息的模键词的词向量，w.为候选实体对应文本关键词的词型将上面两步中的n个关键词分别进行交叉相似度向量，通过参数α来决定这两种相似度计算方法的计算，并且取平均值：权重，这样我们就能得到背景文本与候选实体文本 5)选取其中相似度平均值最大的作为最终目关键词两两进行计算后的相似度，一共能得到2个标实体。 Sim(q,e),然后对它们求均值，用这个均值来表示 3.1语料的获取和模型的训练两篇文档的相似度，具体公式如式(4)所示：由于本文需要利用Word2Vec工具对词向量空间模型进行训练，所以采用了维基百科2014年12 月的中文离线数据库，并提取其中的旅游分类下的 Average (4) n2 页面信息，共计71208条。将这些语料经过预处最后利用上面计算的背景文本与候选实体文本理，提取页面中的摘要信息，形成一篇篇的文本。接的相似度，来对候选实体进行消歧，相似度最大的即着编制爬取程序从国内几个著名的旅游网站爬取了为目标实体。相关的文本，与维基文本结合，共计75016篇。作 2.6空实体判断为本次试验的训练语料。经过训练得到一个131M 由于知识库不可能做到非常全面，实际消歧过的实验模型文件vectors.bin。程中往往会出现空链接的现象，即待消歧的实体指利用基于图的随机游走算法计算相似度时，图称项在知识库中并没有与之对应的目标实体。这种模型的构建是至关重要的一个环节，我们将上一个情况有两种可能：1)在获取候选实体阶段通过直接环节中得到的领域实体语料通过人工标注的方式构匹配和同义词匹配两种方式都没有匹配到与之对应建了一个领域实体关系图谱，通过在这张领域实体的候选实体：2)在获取候选实体阶段匹配到至少一关系网络上的随机游走算法来辅助计算关键词之间个候选实体，但是实际上这个候选实体并不是语义的相似度。相关的。 3.2测试集的选取第1种下情况将其直接返回NTL。第2种情况实验所用来测试的是一个小规模的测试集，本下通过设定一个阈值入，如果最终的相似度小于入，文从某旅游网站上爬取了596篇旅游攻略作为测试则认为实体指称项与候选实体语义上不相关，同样文本，通过观察发现并不是每一篇文本中都包含有返回NL。存在歧义的实体指称，所以通过人工选取符合消歧条件的文本共计135篇，从每一篇文本中人工标记 3 实验验证与结果分析出存在歧义的旅游领域实体指称，并将其指向的知本文利用维基百科的离线数据库实现对词向量识库中对应实体标注出来用于对实验结果进行

２．５相似度计算２．２节中已经确定出权重最高的ｎ个关键词，在此基础上分别用这ｎ个关键词来作为文本的特征模型：ｖｑ＝（ｗｑ１，ｗｑ２，…，ｗｑｎ）ｖｅ＝（ｗｅ１，ｗｅ２，…，ｗｅｎ）式中：ｖｑ为带消歧实体指称所在背景文本的特征模型，ｖｅ为知识库中候选实体对应文本的特征模型，ｗ为利用ＴｅｘｔＲａｎｋ算法得出的文本关键词，词与词之间的相似度用向量间的余弦值表示，具体计算如式（３）所示：Ｓｉｍ（ｑ，ｅ）＝ α· ｗｅ·ｗｑ｜ｗｅ｜·｜ｗｑ｜＋（１－ α）ｓｉｍ（ｑ，ｅ）（３）式中加号的前半部分是利用词向量求关键词之间的相似度，后半部分是利用基于图的随机游走算法计算的关键词之间的相似度，其中ｗｑ为背景文本中关键词的词向量，ｗｅ为候选实体对应文本关键词的词向量，通过参数 α 来决定这两种相似度计算方法的权重，这样我们就能得到背景文本与候选实体文本关键词两两进行计算后的相似度，一共能得到ｎ２个Ｓｉｍ（ｑ，ｅ），然后対它们求均值，用这个均值来表示两篇文档的相似度，具体公式如式（４）所示：Ａｖｅｒａｇｅ＝ ∑ ｎｉ ∑ ｎｊＳｉｍ（ｑｉ，ｅｊ）ｎ２（４）最后利用上面计算的背景文本与候选实体文本的相似度，来对候选实体进行消歧，相似度最大的即为目标实体。２．６空实体判断由于知识库不可能做到非常全面，实际消歧过程中往往会出现空链接的现象，即待消歧的实体指称项在知识库中并没有与之对应的目标实体。这种情况有两种可能：１）在获取候选实体阶段通过直接匹配和同义词匹配两种方式都没有匹配到与之对应的候选实体；２）在获取候选实体阶段匹配到至少一个候选实体，但是实际上这个候选实体并不是语义相关的。第１种下情况将其直接返回ＮＩＬ。第２种情况下通过设定一个阈值 λ，如果最终的相似度小于 λ，则认为实体指称项与候选实体语义上不相关，同样返回ＮＩＬ。３实验验证与结果分析本文利用维基百科的离线数据库实现对词向量模型的训练，并在一个小型测试集上进行测试。本文通过两个实验对所提出的方法进行了验证，实验一通过对关键词在不同个数下的对比试验，确定出消歧准确率在关键词个数为多少时达到最高；在实验二中加入了对空实体的判断，通过对空实体阈值 λ 的不断调优得出在不同关键词个数下准确率是否有所提升，提升的程度如何以及最终的消歧准确率对比。实验步骤如下：１）利用旅游领域的百科语料对词向量空间模型进行训练；２）利用２．２中的方法在待消歧实体指称所在的文本中抽取ｎ个关键词；３）用同样的方法在所有候选实体所在文本中分别抽取ｎ个关键词；４）利用２．３和２．４中包含有丰富语义信息的模型将上面两步中的ｎ个关键词分别进行交叉相似度计算，并且取平均值；５）选取其中相似度平均值最大的作为最终目标实体。３．１语料的获取和模型的训练由于本文需要利用Ｗｏｒｄ２Ｖｅｃ工具对词向量空间模型进行训练，所以采用了维基百科２０１４年１２月的中文离线数据库，并提取其中的旅游分类下的页面信息，共计７１２０８条。将这些语料经过预处理，提取页面中的摘要信息，形成一篇篇的文本。接着编制爬取程序从国内几个著名的旅游网站爬取了相关的文本，与维基文本结合，共计７５０１６篇。作为本次试验的训练语料。经过训练得到一个１３１Ｍ的实验模型文件ｖｅｃｔｏｒｓ．ｂｉｎ。利用基于图的随机游走算法计算相似度时，图模型的构建是至关重要的一个环节，我们将上一个环节中得到的领域实体语料通过人工标注的方式构建了一个领域实体关系图谱，通过在这张领域实体关系网络上的随机游走算法来辅助计算关键词之间的相似度。３．２测试集的选取实验所用来测试的是一个小规模的测试集，本文从某旅游网站上爬取了５９６篇旅游攻略作为测试文本，通过观察发现并不是每一篇文本中都包含有存在歧义的实体指称，所以通过人工选取符合消歧条件的文本共计１３５篇，从每一篇文本中人工标记出存在歧义的旅游领域实体指称，并将其指向的知识库中对应实体标注出来用于对实验结果进行 ·３７２· 智能系统学报第１１卷

第3期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·373. 验证。体与之对应，即所有的候选实体可能并不是目标实 3.3实验结果与分析体，而判断空实体时只考虑了在知识库中是否存在，实验1本文就两种相似度计算方法的权重值不存在则返回NL,如果存在，本文的方法是取相似 α的确定采用了一种自动调优的方法，我们的问题度均值最大的候选实体，这就不可避免地增加了系可以简化为C=a·A+(1-α)·B,要使实验效果相统的误差。对较好就是要使关键词之间的相似度值差异较大，实验3针对以上这种空实体，本文通过大量即使C的方差达到最大值，这时问题又可以简化为的实验，针对不同的关键词个数分别对其空实体阈求使得C方差最大时α的值。先给定α一个初始值入进行调优，最终结果如表3所示。值0.5，由于基于图的方法在本文中只是起到辅助表3调优后的空实体阈值入作用，所以将α每次增加0.05，记录取每个不同α Table 3 The empty entity threshold A after optimized 值的情况下C的方差值，实验结果如图4所示。关键词个数n 空实体阈值入准确率/% 5 0.1436 90.31 0.40 0.3666 0.35 0.2903 6 0.1193 86.75 0.30 0.2217 0.2581 。025 7 0.1107 92.27 0.1964 8020 0.1625 8 0.0988 83.57 0.15 0.1549 0.10 0.1003 9 0.0825 77.63 0.05 0.0326 0.0124 10 0.0611 71.98 0.500.550.600.650.700.750.800.850.900.95 a的值在加入空实体阈值入后，系统准确率在关键词个数为5、6、7、8时都有不同程度的提高，在9、10时图4不同值时对应的样本方差反而出现下降的趋势。经过分析发现，准确率的提 Fig.4 The sample variance of different a values 升程度随着关键词的增多而下降，这是因为关键词根据实验结果可以得出，当α的值取0.7时，相的权重是逐渐递减的，个数的增加会使相似度均值似度样本的方差达到最大值0.3666，说明此时关键发生不同程度的下降，这会对空实体阈值入的确定词之间的相似度分布最为稀疏，相似度值差异最大。造成一定影响，在判断空实体的时候容易将相似度实验2本文就关键词个数n的确定做了6组均值较低的目标实体判断为空实体，这就反而降低实验，分别测试n在取5、6、7、8、9、10时对消歧准确了系统的准确率。实验结果如图6所示。率的影响，实验结果如图5所示。 95 号 90 +未加 90.08 ·加入1 90 84.26 0 82.45 0 81.35 79.51 70 心 75.18 6 78910 关键词个数n 70 5 6 7 8910 图6加入空实体阔值后的结果比较关健词个数n Fig.6 Comparison with the result after adding an emp- ty entity threshold 图5不同关键词个数时系统准确率实验结果表明，在关键词个数取7，并且加入空 Fig.5 Accuracy of different number of keywords 实体阈值判断后，系统达到了最大的准确率根据实验结果发现，针对本文的测试集和知识 92.27%,这说明本文提出的方法能够在中文旅游领库，将关键词个数n定为7的时候准确率达到最大域实现较为理想的消歧结果，在与现有的主流消歧值90.08%。但是考虑到该知识库其实并不完备，并方法的对比中，优势较为明显。非所有的实体指称项在知识库中都有相应的目标实

验证。３．３实验结果与分析实验１本文就两种相似度计算方法的权重值 α 的确定采用了一种自动调优的方法，我们的问题可以简化为Ｃ＝α·Ａ＋（１－α）·Ｂ，要使实验效果相对较好就是要使关键词之间的相似度值差异较大，即使Ｃ的方差达到最大值，这时问题又可以简化为求使得Ｃ方差最大时 α 的值。先给定 α 一个初始值０．５，由于基于图的方法在本文中只是起到辅助作用，所以将 α 每次增加０．０５，记录取每个不同 α 值的情况下Ｃ的方差值，实验结果如图４所示。图４不同 α 值时对应的样本方差Ｆｉｇ．４Ｔｈｅｓａｍｐｌｅｖａｒｉａｎｃｅｏｆｄｉｆｆｅｒｅｎｔ α ｖａｌｕｅｓ根据实验结果可以得出，当 α 的值取０．７时，相似度样本的方差达到最大值０．３６６６，说明此时关键词之间的相似度分布最为稀疏，相似度值差异最大。实验２本文就关键词个数ｎ的确定做了６组实验，分别测试ｎ在取５、６、７、８、９、１０时对消歧准确率的影响，实验结果如图５所示。图５不同关键词个数时系统准确率Ｆｉｇ．５Ａｃｃｕｒａｃｙｏｆｄｉｆｆｅｒｅｎｔｎｕｍｂｅｒｏｆｋｅｙｗｏｒｄｓ根据实验结果发现，针对本文的测试集和知识库，将关键词个数ｎ定为７的时候准确率达到最大值９０．０８％。但是考虑到该知识库其实并不完备，并非所有的实体指称项在知识库中都有相应的目标实体与之对应，即所有的候选实体可能并不是目标实体，而判断空实体时只考虑了在知识库中是否存在，不存在则返回ＮＩＬ，如果存在，本文的方法是取相似度均值最大的候选实体，这就不可避免地增加了系统的误差。实验３针对以上这种空实体，本文通过大量的实验，针对不同的关键词个数分别对其空实体阈值 λ 进行调优，最终结果如表３所示。表３调优后的空实体阈值 λ Ｔａｂｌｅ３Ｔｈｅｅｍｐｔｙｅｎｔｉｔｙｔｈｒｅｓｈｏｌｄ λ ａｆｔｅｒｏｐｔｉｍｉｚｅｄ关键词个数ｎ空实体阈值 λ 准确率／％５０．１４３６９０．３１６０．１１９３８６．７５７０．１１０７９２．２７８０．０９８８８３．５７９０．０８２５７７．６３１００．０６１１７１．９８在加入空实体阈值 λ 后，系统准确率在关键词个数为５、６、７、８时都有不同程度的提高，在９、１０时反而出现下降的趋势。经过分析发现，准确率的提升程度随着关键词的增多而下降，这是因为关键词的权重是逐渐递减的，个数的增加会使相似度均值发生不同程度的下降，这会对空实体阈值 λ 的确定造成一定影响，在判断空实体的时候容易将相似度均值较低的目标实体判断为空实体，这就反而降低了系统的准确率。实验结果如图６所示。图６加入空实体阈值后的结果比较Ｆｉｇ．６Ｃｏｍｐａｒｉｓｏｎｗｉｔｈｔｈｅｒｅｓｕｌｔａｆｔｅｒａｄｄｉｎｇａｎｅｍｐ⁃ ｔｙｅｎｔｉｔｙｔｈｒｅｓｈｏｌｄ实验结果表明，在关键词个数取７，并且加入空实体阈值判断后，系统达到了最大的准确率９２．２７％，这说明本文提出的方法能够在中文旅游领域实现较为理想的消歧结果，在与现有的主流消歧方法的对比中，优势较为明显。第３期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·３７３·

.374. 智能系统学报第11卷表4与主流消歧方法的比较 of the 49th Annual Meeting of the Association for Computa- Table 4 Comparison with other mainstream method of dis- tional Linguistics:Human Language Technologies-Volume ambiguation 1.Stroudsburg,PA,USA,2011:945-954. 方法名准确率 [7]FAN Xiaoming,WANG Jianyong,PU Xu,et al.On graph- based name disambiguation[].Journal of data and informa- Wikify 0.60 tion quality (JDIQ),2011,2(2):10. Cucerzan 0.71 [8]怀宝兴，宝腾飞，祝恒书，等。一种基于概率主题模型 M&W 0.83 的命名实体链接方法[J].软件学报，2014,25(9)： CSAW 0.87 2076-2087. HUAI Baoxing,BAO Tengfei,ZHU Hengshu,et al.Topic 本文方法 0.92 modeling approach to named entity linking[].Journal of 4 结束语 software,2014,25(9):2076-2087. [9]宁博，张菲菲.基于异构知识库的命名实体消歧[J刀].西本文针对特定领域消歧的特点，提出了一种结安邮电大学学报，2014,19(4)：70-76. 合词向量与图模型计算的方法，实现了特定领域实 NING Bo,ZHANG Feifei.Named entity disambiguation 体消歧。试验结果表明，相比已有的消歧方法，本文 based on heterogeneous knowledge base[J].Journal of Xi' 提出的方法能在特定领域实体消歧上取得较为理想 an university of posts and telecommunications,2014,19 (4):70-76. 的结果。下一步的工作在关键词个数的选择方面将 [10]朱敏，贾真，左玲，等.中文微博实体链接研究[J].北考虑根据词的权重动态来选择：另外对于空实体的京大学学报：自然科学版，2014,50(1)：73-78. 判断方法还有待改进。本文实验结果也将应用到其 ZHU Min,JIA Zhen,ZUO Ling,et al.Research on entity 他特定领域实验验证。 linking of chinese micro blog[J].Acta scientiarum natural- 参考文献 ium universitatis pekinensis,2014,50(1):73-78. [11]HINTON G E.Learning distributed representations of con- []赵军.命名实体识别、排歧和跨语言关联[J].中文信息 cepts[C]//Proceedings of the 8th annual conference of the 学报，2009,23(2)：3-17. cognitive science society.Amherst,USA,1986:1-12. ZHAO Jun.A survey on named entity recognition,disambig- [12]张剑，屈丹，李真.基于词向量特征的循环神经网络语 uation and cross-lingual coreference resolution[J].Journal 言模型[J].模式识别与人工智能，2015,28(4)：299- of Chinese information processing,2009,23(2):3-17. 305. [2]赵军，刘康，周光有，等.开放式文本信息抽取[J].中 ZHANG Jian,QU Dan,LI Zhen.Recurrent neural network 文信息学报，2011,25(6)：98-110. language model based on word vector features[J].Pattern ZHAO Jun,LIU Kang,ZHOU Guangyou,et al.Open infor- recognition and artificial intelligence,2015,28(4):299- mation extraction[J].Journal of Chinese information pro- 305. cessing,2011,25(6):98-110. [13]MIKOLOV T,CHEN Kai,CORRADO G,et al.Efficient [3]BUNESCU R C,PASCA M.Using encyelopedic knowledge estimation of word representations in vector space[C]// for named entity disambiguation[C]//Proceedings of the Proceedings of the International Conference on Learning 11st conference of the european chapter of the association for Representations.Scottsdale,Arizona,2013:1388-1429. computational linguistics.Trento,Italy,2006:9-16. [14]MIHALCEA R,TARAU P.TextRank:bringing order into [4]BAGGA A,BALDWIN B.Entity-based cross-document texts[C]//Proceedings of EMNLP-04and the 2004 Confer- coreferencing using the vector space model[C]//Proceed- ence on Empirical Methods in Natural Language Process- ings of the 17th international conference on computational ing.Spain,2004:404-411. linguistics-volume 1.association for computational linguis- [15]PEARSON K.The problem of the random walk J].Na- tics.Montreal,Canada,1998:79-85. ture,1905,72(1865):294. [5]MANN G S,YAROWSKY D.Unsupervised personal name [16]郑伟，王朝坤，刘璋，等.一种基于随机游走模型的多 disambiguation[C]//Proceedings of the 7th conference on 标签分类算法[J].计算机学报，2010,33(8)：1418- natural language learning at HLT-NAACL 2003-volume 4. 1426. Sapporo,Japan,2003:33-40. ZHENG Wei,WANG Chaokun,LIU Zhang,et al.A [6]HAN Xianpei,SUN Le.A generative entity-mention model multi-label classification algorithm based on random walk for linking entities with knowledge base [C]//Proceedings model[J].Chinese journal of computers,2010,33(8):

表４与主流消歧方法的比较Ｔａｂｌｅ４Ｃｏｍｐａｒｉｓｏｎｗｉｔｈｏｔｈｅｒｍａｉｎｓｔｒｅａｍｍｅｔｈｏｄｏｆｄｉｓ⁃ ａｍｂｉｇｕａｔｉｏｎ方法名准确率Ｗｉｋｉｆｙ０．６０Ｃｕｃｅｒｚａｎ０．７１Ｍ＆Ｗ０．８３ＣＳＡＷ０．８７本文方法０．９２４结束语本文针对特定领域消歧的特点，提出了一种结合词向量与图模型计算的方法，实现了特定领域实体消歧。试验结果表明，相比已有的消歧方法，本文提出的方法能在特定领域实体消歧上取得较为理想的结果。下一步的工作在关键词个数的选择方面将考虑根据词的权重动态来选择；另外对于空实体的判断方法还有待改进。本文实验结果也将应用到其他特定领域实验验证。参考文献：［１］赵军．命名实体识别、排歧和跨语言关联［Ｊ］．中文信息学报，２００９，２３（２）：３⁃１７．ＺＨＡＯＪｕｎ．Ａｓｕｒｖｅｙｏｎｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ，ｄｉｓａｍｂｉｇ⁃ ｕａｔｉｏｎａｎｄｃｒｏｓｓ⁃ｌｉｎｇｕａｌｃｏｒｅｆｅｒｅｎｃｅｒｅｓｏｌｕｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇ，２００９，２３（２）：３⁃１７．［２］赵军，刘康，周光有，等．开放式文本信息抽取［Ｊ］．中文信息学报，２０１１，２５（６）：９８⁃１１０．ＺＨＡＯＪｕｎ，ＬＩＵＫａｎｇ，ＺＨＯＵＧｕａｎｇｙｏｕ，ｅｔａｌ．Ｏｐｅｎｉｎｆｏｒ⁃ ｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅｉｎｆｏｒｍａｔｉｏｎｐｒｏ⁃ ｃｅｓｓｉｎｇ，２０１１，２５（６）：９８⁃１１０．［３］ＢＵＮＥＳＣＵＲＣ，ＰＡＳＣＡＭ．Ｕｓｉｎｇｅｎｃｙｃｌｏｐｅｄｉｃｋｎｏｗｌｅｄｇｅｆｏｒｎａｍｅｄｅｎｔｉｔｙｄｉｓａｍｂｉｇｕａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｓｔｃｏｎｆｅｒｅｎｃｅｏｆｔｈｅｅｕｒｏｐｅａｎｃｈａｐｔｅｒｏｆｔｈｅａｓｓｏｃｉａｔｉｏｎｆｏｒｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ．Ｔｒｅｎｔｏ，Ｉｔａｌｙ，２００６：９⁃１６．［４］ＢＡＧＧＡＡ，ＢＡＬＤＷＩＮＢ．Ｅｎｔｉｔｙ⁃ｂａｓｅｄｃｒｏｓｓ⁃ｄｏｃｕｍｅｎｔｃｏｒｅｆｅｒｅｎｃｉｎｇｕｓｉｎｇｔｈｅｖｅｃｔｏｒｓｐａｃｅｍｏｄｅｌ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅ１７ｔｈｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ⁃ｖｏｌｕｍｅ１．ａｓｓｏｃｉａｔｉｏｎｆｏｒｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓ⁃ ｔｉｃｓ．Ｍｏｎｔｒｅａｌ，Ｃａｎａｄａ，１９９８：７９⁃８５．［５］ＭＡＮＮＧＳ，ＹＡＲＯＷＳＫＹＤ．Ｕｎｓｕｐｅｒｖｉｓｅｄｐｅｒｓｏｎａｌｎａｍｅｄｉｓａｍｂｉｇｕａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈｃｏｎｆｅｒｅｎｃｅｏｎｎａｔｕｒａｌｌａｎｇｕａｇｅｌｅａｒｎｉｎｇａｔＨＬＴ⁃ＮＡＡＣＬ２００３⁃ｖｏｌｕｍｅ４．Ｓａｐｐｏｒｏ，Ｊａｐａｎ，２００３：３３⁃４０．［６］ＨＡＮＸｉａｎｐｅｉ，ＳＵＮＬｅ．Ａｇｅｎｅｒａｔｉｖｅｅｎｔｉｔｙ⁃ｍｅｎｔｉｏｎｍｏｄｅｌｆｏｒｌｉｎｋｉｎｇｅｎｔｉｔｉｅｓｗｉｔｈｋｎｏｗｌｅｄｇｅｂａｓｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａ⁃ ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ⁃Ｖｏｌｕｍｅ１．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ，２０１１：９４５⁃９５４．［７］ＦＡＮＸｉａｏｍｉｎｇ，ＷＡＮＧＪｉａｎｙｏｎｇ，ＰＵＸｕ，ｅｔａｌ．Ｏｎｇｒａｐｈ⁃ ｂａｓｅｄｎａｍｅｄｉｓａｍｂｉｇｕａｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｄａｔａａｎｄｉｎｆｏｒｍａ⁃ ｔｉｏｎｑｕａｌｉｔｙ（ＪＤＩＱ），２０１１，２（２）：１０．［８］怀宝兴，宝腾飞，祝恒书，等．一种基于概率主题模型的命名实体链接方法［Ｊ］．软件学报，２０１４，２５（９）：２０７６⁃２０８７．ＨＵＡＩＢａｏｘｉｎｇ，ＢＡＯＴｅｎｇｆｅｉ，ＺＨＵＨｅｎｇｓｈｕ，ｅｔａｌ．Ｔｏｐｉｃｍｏｄｅｌｉｎｇａｐｐｒｏａｃｈｔｏｎａｍｅｄｅｎｔｉｔｙｌｉｎｋｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌｏｆｓｏｆｔｗａｒｅ，２０１４，２５（９）：２０７６⁃２０８７．［９］宁博，张菲菲．基于异构知识库的命名实体消歧［Ｊ］．西安邮电大学学报，２０１４，１９（４）：７０⁃７６．ＮＩＮＧＢｏ，ＺＨＡＮＧＦｅｉｆｅｉ．Ｎａｍｅｄｅｎｔｉｔｙｄｉｓａｍｂｉｇｕａｔｉｏｎｂａｓｅｄｏｎｈｅｔｅｒｏｇｅｎｅｏｕｓｋｎｏｗｌｅｄｇｅｂａｓｅ［Ｊ］．ＪｏｕｒｎａｌｏｆＸｉ’ ａｎｕｎｉｖｅｒｓｉｔｙｏｆｐｏｓｔｓａｎｄｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１４，１９（４）：７０⁃７６．［１０］朱敏，贾真，左玲，等．中文微博实体链接研究［Ｊ］．北京大学学报：自然科学版，２０１４，５０（１）：７３⁃７８．ＺＨＵＭｉｎ，ＪＩＡＺｈｅｎ，ＺＵＯＬｉｎｇ，ｅｔａｌ．Ｒｅｓｅａｒｃｈｏｎｅｎｔｉｔｙｌｉｎｋｉｎｇｏｆｃｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇ［Ｊ］．Ａｃｔａｓｃｉｅｎｔｉａｒｕｍｎａｔｕｒａｌ⁃ ｉｕｍｕｎｉｖｅｒｓｉｔａｔｉｓｐｅｋｉｎｅｎｓｉｓ，２０１４，５０（１）：７３⁃７８．［１１］ＨＩＮＴＯＮＧＥ．Ｌｅａｒｎｉｎｇｄｉｓｔｒｉｂｕｔｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｏｆｃｏｎ⁃ ｃｅｐｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ８ｔｈａｎｎｕａｌｃｏｎｆｅｒｅｎｃｅｏｆｔｈｅｃｏｇｎｉｔｉｖｅｓｃｉｅｎｃｅｓｏｃｉｅｔｙ．Ａｍｈｅｒｓｔ，ＵＳＡ，１９８６：１⁃１２．［１２］张剑，屈丹，李真．基于词向量特征的循环神经网络语言模型［Ｊ］．模式识别与人工智能，２０１５，２８（４）：２９９⁃ ３０５．ＺＨＡＮＧＪｉａｎ，ＱＵＤａｎ，ＬＩＺｈｅｎ．Ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｌａｎｇｕａｇｅｍｏｄｅｌｂａｓｅｄｏｎｗｏｒｄｖｅｃｔｏｒｆｅａｔｕｒｅｓ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎａｎｄａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，２０１５，２８（４）：２９９⁃ ３０５．［１３］ＭＩＫＯＬＯＶＴ，ＣＨＥＮＫａｉ，ＣＯＲＲＡＤＯＧ，ｅｔａｌ．Ｅｆｆｉｃｉｅｎｔｅｓｔｉｍａｔｉｏｎｏｆｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎｖｅｃｔｏｒｓｐａｃｅ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ．Ｓｃｏｔｔｓｄａｌｅ，Ａｒｉｚｏｎａ，２０１３：１３８８⁃１４２９．［１４］ＭＩＨＡＬＣＥＡＲ，ＴＡＲＡＵＰ．ＴｅｘｔＲａｎｋ：ｂｒｉｎｇｉｎｇｏｒｄｅｒｉｎｔｏｔｅｘｔｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＥＭＮＬＰ⁃０４ａｎｄｔｈｅ２００４Ｃｏｎｆｅｒ⁃ ｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓ⁃ ｉｎｇ．Ｓｐａｉｎ，２００４：４０４⁃４１１．［１５］ＰＥＡＲＳＯＮＫ．Ｔｈｅｐｒｏｂｌｅｍｏｆｔｈｅｒａｎｄｏｍｗａｌｋ［Ｊ］．Ｎａ⁃ ｔｕｒｅ，１９０５，７２（１８６５）：２９４．［１６］郑伟，王朝坤，刘璋，等．一种基于随机游走模型的多标签分类算法［Ｊ］．计算机学报，２０１０，３３（８）：１４１８⁃ １４２６．ＺＨＥＮＧＷｅｉ，ＷＡＮＧＣｈａｏｋｕｎ，ＬＩＵＺｈａｎｇ，ｅｔａｌ．Ａｍｕｌｔｉ⁃ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｒａｎｄｏｍｗａｌｋｍｏｄｅｌ［Ｊ］．Ｃｈｉｎｅｓｅｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｓ，２０１０，３３（８）： ·３７４· 智能系统学报第１１卷

第3期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·375. 1418-1426 USA:University of Chicago,2002. [17]SZUMMER M,JAAKKOLA T.Partially labeled classifica- [26]LAFFERTY J,LEBANON G.Information diffusion kernels tion with Markov random walks[C]//Advances in neural [C]//Advances in neural information processing systems. information processing systems (NIPS).Cambridge, Cambridge,2002:375-382. 2002,14:945-952. [27]SMOLA A J,KONDOR R.Kernels and regularization on [18]ZHOU Dengyong.Learning from labeled and unlabeled da- graphs[M]//Learning theory and kernel machines.Berlin ta on a directed graph[C]//Proceedings of the 22nd inter- Heidelberg:Springer,2003:144-158. national conference on machine learning.New York,USA, [28]HU Jian,WANG Gang,LOCHOVSKY F,et al.Under- 2005:1036-1043. standing user's query intent with Wikipedia[C]//Proceed- [19]TISHBY N,SLONIM N.Data clustering by Markovian re- ings of the 18th International Conference on World Wide laxation and the information bottleneck method[C]//Pro- Web.Beijing,China,2009:471-480. ceedings of Neural Information Processing Systems.Van- 作者简介： couver,Canadian,2000:640-646. 汪沛，男，1990年生，硕士研究生， [20]HAREL D,KOREN Y.On clustering using random walks 主要研究方向为自然语言处理、信息 [M]//HARIHARAN R,VINAY V,MUKUND M.Foun- 抽取。 dations of software technology and theoretical computer sci- ence.Berlin Heidelberg:Springer,2001:18-41. [21]LUXBURG U V.A tutorial on spectral clustering[J].Sta- tistics and computing,2007,17(4):395-416. [22]GRADY L.Random walks for image segmentation [J]. 线岩团，男，1981年生，博士研究 IEEE transactions on pattern analysis and machine intelli- 生，主研方向为自然语言处理、信息抽 gence,2006,28(11):1768-1783. 取、机器翻译、机器学习。 [23]GORI M,MAGGINI M,SARTI L.Exact and approximate graph matching using random walks.[.IEEE transactions on Pattern analysis and machine intelligence,2005,27 (7):1100-1111. [24]KONDOR R I,LAFFERTY J.Diffusion kernels on graphs 郭剑毅，女，1964年生，教授，主要 and other discrete structures[C]//Proceedings of the 19th 研究领域为自然语言处理、信息抽取、 international conference on machine learning.Sydney, 机器学习。 Australia,2002:315-322. [25 BELKIN M,NIYOGI P.Laplacian eigenmaps for dimen- sionality reduction and data representation[R].Chicago

１４１８⁃１４２６．［１７］ＳＺＵＭＭＥＲＭ，ＪＡＡＫＫＯＬＡＴ．Ｐａｒｔｉａｌｌｙｌａｂｅｌｅｄｃｌａｓｓｉｆｉｃａ⁃ ｔｉｏｎｗｉｔｈＭａｒｋｏｖｒａｎｄｏｍｗａｌｋｓ［Ｃ］／／Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ（ＮＩＰＳ）．Ｃａｍｂｒｉｄｇｅ，２００２，１４：９４５⁃９５２．［１８］ＺＨＯＵＤｅｎｇｙｏｎｇ．Ｌｅａｒｎｉｎｇｆｒｏｍｌａｂｅｌｅｄａｎｄｕｎｌａｂｅｌｅｄｄａ⁃ ｔａｏｎａｄｉｒｅｃｔｅｄｇｒａｐｈ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２２ｎｄｉｎｔｅｒ⁃ ｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ，ＵＳＡ，２００５：１０３６⁃１０４３．［１９］ＴＩＳＨＢＹＮ，ＳＬＯＮＩＭＮ．ＤａｔａｃｌｕｓｔｅｒｉｎｇｂｙＭａｒｋｏｖｉａｎｒｅ⁃ ｌａｘａｔｉｏｎａｎｄｔｈｅｉｎｆｏｒｍａｔｉｏｎｂｏｔｔｌｅｎｅｃｋｍｅｔｈｏｄ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｖａｎ⁃ ｃｏｕｖｅｒ，Ｃａｎａｄｉａｎ，２０００：６４０⁃６４６．［２０］ＨＡＲＥＬＤ，ＫＯＲＥＮＹ．Ｏｎｃｌｕｓｔｅｒｉｎｇｕｓｉｎｇｒａｎｄｏｍｗａｌｋｓ［Ｍ］／／ＨＡＲＩＨＡＲＡＮＲ，ＶＩＮＡＹＶ，ＭＵＫＵＮＤＭ．Ｆｏｕｎ⁃ ｄａｔｉｏｎｓｏｆｓｏｆｔｗａｒｅｔｅｃｈｎｏｌｏｇｙａｎｄｔｈｅｏｒｅｔｉｃａｌｃｏｍｐｕｔｅｒｓｃｉ⁃ ｅｎｃｅ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２００１：１８⁃４１．［２１］ＬＵＸＢＵＲＧＵＶ．Ａｔｕｔｏｒｉａｌｏｎｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｓｔａ⁃ ｔｉｓｔｉｃｓａｎｄｃｏｍｐｕｔｉｎｇ，２００７，１７（４）：３９５⁃４１６．［２２］ＧＲＡＤＹＬ．Ｒａｎｄｏｍｗａｌｋｓｆｏｒｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉ⁃ ｇｅｎｃｅ，２００６，２８（１１）：１７６８⁃１７８３．［２３］ＧＯＲＩＭ，ＭＡＧＧＩＮＩＭ，ＳＡＲＴＩＬ．Ｅｘａｃｔａｎｄａｐｐｒｏｘｉｍａｔｅｇｒａｐｈｍａｔｃｈｉｎｇｕｓｉｎｇｒａｎｄｏｍｗａｌｋｓ．［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２００５，２７（７）：１１００⁃１１１１．［２４］ＫＯＮＤＯＲＲＩ，ＬＡＦＦＥＲＴＹＪ．Ｄｉｆｆｕｓｉｏｎｋｅｒｎｅｌｓｏｎｇｒａｐｈｓａｎｄｏｔｈｅｒｄｉｓｃｒｅｔｅｓｔｒｕｃｔｕｒｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇ．Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，２００２：３１５⁃３２２．［２５］ＢＥＬＫＩＮＭ，ＮＩＹＯＧＩＰ．Ｌａｐｌａｃｉａｎｅｉｇｅｎｍａｐｓｆｏｒｄｉｍｅｎ⁃ ｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎａｎｄｄａｔａｒｅｐｒｅｓｅｎｔａｔｉｏｎ［Ｒ］．Ｃｈｉｃａｇｏ，ＵＳＡ：ＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｃａｇｏ，２００２．［２６］ＬＡＦＦＥＲＴＹＪ，ＬＥＢＡＮＯＮＧ．Ｉｎｆｏｒｍａｔｉｏｎｄｉｆｆｕｓｉｏｎｋｅｒｎｅｌｓ［Ｃ］／／Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ．Ｃａｍｂｒｉｄｇｅ，２００２：３７５⁃３８２．［２７］ＳＭＯＬＡＡＪ，ＫＯＮＤＯＲＲ．Ｋｅｒｎｅｌｓａｎｄｒｅｇｕｌａｒｉｚａｔｉｏｎｏｎｇｒａｐｈｓ［Ｍ］／／Ｌｅａｒｎｉｎｇｔｈｅｏｒｙａｎｄｋｅｒｎｅｌｍａｃｈｉｎｅｓ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２００３：１４４⁃１５８．［２８］ＨＵＪｉａｎ，ＷＡＮＧＧａｎｇ，ＬＯＣＨＯＶＳＫＹＦ，ｅｔａｌ．Ｕｎｄｅｒ⁃ ｓｔａｎｄｉｎｇｕｓｅｒ＇ｓｑｕｅｒｙｉｎｔｅｎｔｗｉｔｈＷｉｋｉｐｅｄｉａ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅ１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２００９：４７１⁃４８０．作者简介：汪沛，男，１９９０年生，硕士研究生，主要研究方向为自然语言处理、信息抽取。线岩团，男，１９８１年生，博士研究生，主研方向为自然语言处理、信息抽取、机器翻译、机器学习。郭剑毅，女，１９６４年生，教授，主要研究领域为自然语言处理、信息抽取、机器学习。第３期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·３７５·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录