知识库中，实体消岐是实体链接的关键任务。由于海量数据中存在的实体指称通

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部

正在加载图片...

第3期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·367· 知识库中，实体消岐是实体链接的关键任务。由于在上面的例子中，很明显第一句中的“香格里海量数据中存在的实体指称通常可以对应到多个命拉”指的是某旅游胜地，第二句指的是某著名酒店名实体概念，这无疑对实体消歧造成了很大的障碍。品牌，但是如何让计算机也能将实体指称项准确链实体消歧的任务就是将这些存在歧义的实体指称在接到知识库中具有特定概念的实体仍然是自然语言众多的候选实体中匹配出对应的目标实体。目前实处理领域研究的热点和难点。体消歧任务分为两种类型：实体聚类消歧和实体链传统的消歧模型难以有效利用能反映领域特有接消歧山，实体聚类消歧就是利用聚类算法来对实属性的实体词特征。因此，本文针对旅游领域实体体进行消歧，而实体链接消歧则是借助外部知识库，间的关系较为复杂的特征，提出了一种结合词向量将待消歧命名实体指称链接到外部知识库中对应实和图模型的消歧方法，通过提取实体指称项背景文体来进行消歧。本文选择用后者来实现特定领域的本的若干关键词和候选实体文本的若干关键词，利实体消歧。用训练好的模型对这些关键词分别进行交叉相似度实体消歧的本质是计算实体指称项和候选实体计算，把相似度均值最高的候选实体作为最终的目的相似度，选择相似度最大的候选实体作为链接的标实体。目标实体2】。针对英文实体消岐，Bunescu和Pas- 1 ca[)提出了一种基于余弦相似度排序的方法来实现相关理论实体消歧。Bagga和Gideon4s]等将实体指称项的 1.1词向量上下文与候选实体的上下文分别表示成BOW(Bag 在自然语言处理中，要将自然语言理解的问题 of words)向量形式，利用向量空间模型实现了人名转化为机器学习的问题，就需将自然语言的符号数的消歧。韩先培等)提出一种基于图的实体消歧学化，其中最直观和常用的方法是One-hot表示法。方法，将指称项与实体通过带权的无向图连接起来，这种方法将每个词表示为一个很长的向量，其维数从而将指称项与实体、实体与实体间的语义关联通是词汇表大小，其中绝大多数元素为0，只有一个维过图的形式表征出来。上述工作主要是对英文的实度的值为1，这个维度就代表当前的词。体消歧，相比较而言，针对中文的实体消歧工作远远在自然语言处理中，常将One-hot表示采用稀落后于英文。在中文的实体消歧领域，王建勇等] 疏的方式进行存储，即为每个词分配一个数字D。利用一种基于图的GHOST算法，结合AP聚类算法该方法因其简单易用，广泛应用于各种自然语言处进行相似度计算，在人名消歧方面取得了较好的实理任务中，如N-gram模型中就采用这种词向量表示验结果。怀宝兴等)提出了一种基于概率主题模法。但这种表述方法也存在一定问题：其表示的任型的命名实体链接方法，在通用领域，通过构建歧义意两个词之间是孤立的，无法表示这两个词之间的词表，用LDA基于语义层面对文档建模和实体消依赖关系，从词向量上看不出两个词是否相关：采用岐：宁博等9]针对中文命名实体消歧问题提出了一稀疏表示法，在处理某些任务，如构建N-gram模型种基于异构知识库的层次聚类方法，将维基百科和时，会引起维数灾难问题。百度百科结合起来作为多源知识库，并利用Hadoop 而在机器学习领域，一般采用分布式表示(ds 平台进行层次聚类，从而实现实体消歧。另外，朱敏 tributed representation)的方法表示词向量，这种表等[1]提出了一种实体聚类消歧与百度百科词频的示法最早由Hinton!)提出，通常称为Word Repre-- 同类实体消歧相结合的消歧方法，通过构建同义词 sentation。这种方法将词用一种低维实数向量表示，表、优化知识库、改进拼音距离编辑算法等方式实现优点在于相似的词在距离上更接近，能体现出不同对中文微博的实体消歧。词之间的相关性，从而反映词之间的依赖关系。同同样在旅游领域也存在着大量的实体同名现时，较低的维度也使特征向量在应用时有一个可接象，在维基百科中“金花”一词有11个同名实体，受的复杂度。因此，新近提出的许多语言模型，如潜 “香格里拉”一词有12个同名实体，这无疑对消歧在语义分析(latent semantic analysis,LSA)模型、潜工作产生很大影响，例如，给定两个句子：在狄利克雷分布(latent dirichlet allocation,LDA)模 1)2014年，香格里拉县共接待国内外游客型以及目前流行的神经网络模型等，都采用这种方 1080.22万人次。法表示词向量213) 2)在结束了一天的旅程后我们选择了在香格本文利用旅游领域的丰富语料对词向量模型进里拉酒店入住。行训练，从而将抽取的关键词进行向量化表示，用这知识库中，实体消岐是实体链接的关键任务。由于海量数据中存在的实体指称通常可以对应到多个命名实体概念，这无疑对实体消歧造成了很大的障碍。实体消歧的任务就是将这些存在歧义的实体指称在众多的候选实体中匹配出对应的目标实体。目前实体消歧任务分为两种类型：实体聚类消歧和实体链接消歧［１］，实体聚类消歧就是利用聚类算法来对实体进行消歧，而实体链接消歧则是借助外部知识库，将待消歧命名实体指称链接到外部知识库中对应实体来进行消歧。本文选择用后者来实现特定领域的实体消歧。实体消歧的本质是计算实体指称项和候选实体的相似度，选择相似度最大的候选实体作为链接的目标实体［２］。针对英文实体消岐，Ｂｕｎｅｓｃｕ和Ｐａｓ⁃ ｃａ［３］提出了一种基于余弦相似度排序的方法来实现实体消歧。Ｂａｇｇａ和Ｇｉｄｅｏｎ［４⁃５］等将实体指称项的上下文与候选实体的上下文分别表示成ＢＯＷ（Ｂａｇｏｆｗｏｒｄｓ）向量形式，利用向量空间模型实现了人名的消歧。韩先培等［６］提出一种基于图的实体消歧方法，将指称项与实体通过带权的无向图连接起来，从而将指称项与实体、实体与实体间的语义关联通过图的形式表征出来。上述工作主要是对英文的实体消歧，相比较而言，针对中文的实体消歧工作远远落后于英文。在中文的实体消歧领域，王建勇等［７］利用一种基于图的ＧＨＯＳＴ算法，结合ＡＰ聚类算法进行相似度计算，在人名消歧方面取得了较好的实验结果。怀宝兴等［８］提出了一种基于概率主题模型的命名实体链接方法，在通用领域，通过构建歧义词表，用ＬＤＡ基于语义层面对文档建模和实体消岐；宁博等［９］针对中文命名实体消歧问题提出了一种基于异构知识库的层次聚类方法，将维基百科和百度百科结合起来作为多源知识库，并利用Ｈａｄｏｏｐ平台进行层次聚类，从而实现实体消歧。另外，朱敏等［１０］提出了一种实体聚类消歧与百度百科词频的同类实体消歧相结合的消歧方法，通过构建同义词表、优化知识库、改进拼音距离编辑算法等方式实现对中文微博的实体消歧。同样在旅游领域也存在着大量的实体同名现象，在维基百科中“金花” 一词有１１个同名实体， “香格里拉”一词有１２个同名实体，这无疑对消歧工作产生很大影响，例如，给定两个句子：１）２０１４年，香格里拉县共接待国内外游客１０８０．２２万人次。２）在结束了一天的旅程后我们选择了在香格里拉酒店入住。在上面的例子中，很明显第一句中的“香格里拉”指的是某旅游胜地，第二句指的是某著名酒店品牌，但是如何让计算机也能将实体指称项准确链接到知识库中具有特定概念的实体仍然是自然语言处理领域研究的热点和难点。传统的消歧模型难以有效利用能反映领域特有属性的实体词特征。因此，本文针对旅游领域实体间的关系较为复杂的特征，提出了一种结合词向量和图模型的消歧方法，通过提取实体指称项背景文本的若干关键词和候选实体文本的若干关键词，利用训练好的模型对这些关键词分别进行交叉相似度计算，把相似度均值最高的候选实体作为最终的目标实体。１相关理论１．１词向量在自然语言处理中，要将自然语言理解的问题转化为机器学习的问题，就需将自然语言的符号数学化，其中最直观和常用的方法是Ｏｎｅ⁃ｈｏｔ表示法。这种方法将每个词表示为一个很长的向量，其维数是词汇表大小，其中绝大多数元素为０，只有一个维度的值为１，这个维度就代表当前的词。在自然语言处理中，常将Ｏｎｅ⁃ｈｏｔ表示采用稀疏的方式进行存储，即为每个词分配一个数字ＩＤ。该方法因其简单易用，广泛应用于各种自然语言处理任务中，如Ｎ⁃ｇｒａｍ模型中就采用这种词向量表示法。但这种表述方法也存在一定问题：其表示的任意两个词之间是孤立的，无法表示这两个词之间的依赖关系，从词向量上看不出两个词是否相关；采用稀疏表示法，在处理某些任务，如构建Ｎ⁃ｇｒａｍ模型时，会引起维数灾难问题。而在机器学习领域，一般采用分布式表示（ｄｉｓ⁃ ｔｒｉｂｕｔｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ）的方法表示词向量，这种表示法最早由Ｈｉｎｔｏｎ［１１］提出，通常称为ＷｏｒｄＲｅｐｒｅ⁃ ｓｅｎｔａｔｉｏｎ。这种方法将词用一种低维实数向量表示，优点在于相似的词在距离上更接近，能体现出不同词之间的相关性，从而反映词之间的依赖关系。同时，较低的维度也使特征向量在应用时有一个可接受的复杂度。因此，新近提出的许多语言模型，如潜在语义分析（ｌａｔｅｎｔｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ，ＬＳＡ）模型、潜在狄利克雷分布（ｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ，ＬＤＡ）模型以及目前流行的神经网络模型等，都采用这种方法表示词向量［１２⁃１３］。本文利用旅游领域的丰富语料对词向量模型进行训练，从而将抽取的关键词进行向量化表示，用这第３期汪沛，等：一种结合词向量和图模型的特定领域实体消歧方法 ·３６７·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部