正在加载图片...
第3期 汪沛,等:一种结合词向量和图模型的特定领域实体消歧方法 ·367· 知识库中,实体消岐是实体链接的关键任务。由于 在上面的例子中,很明显第一句中的“香格里 海量数据中存在的实体指称通常可以对应到多个命 拉”指的是某旅游胜地,第二句指的是某著名酒店 名实体概念,这无疑对实体消歧造成了很大的障碍。 品牌,但是如何让计算机也能将实体指称项准确链 实体消歧的任务就是将这些存在歧义的实体指称在 接到知识库中具有特定概念的实体仍然是自然语言 众多的候选实体中匹配出对应的目标实体。目前实 处理领域研究的热点和难点。 体消歧任务分为两种类型:实体聚类消歧和实体链 传统的消歧模型难以有效利用能反映领域特有 接消歧山,实体聚类消歧就是利用聚类算法来对实 属性的实体词特征。因此,本文针对旅游领域实体 体进行消歧,而实体链接消歧则是借助外部知识库, 间的关系较为复杂的特征,提出了一种结合词向量 将待消歧命名实体指称链接到外部知识库中对应实 和图模型的消歧方法,通过提取实体指称项背景文 体来进行消歧。本文选择用后者来实现特定领域的 本的若干关键词和候选实体文本的若干关键词,利 实体消歧。 用训练好的模型对这些关键词分别进行交叉相似度 实体消歧的本质是计算实体指称项和候选实体 计算,把相似度均值最高的候选实体作为最终的目 的相似度,选择相似度最大的候选实体作为链接的 标实体。 目标实体2】。针对英文实体消岐,Bunescu和Pas- 1 ca[)提出了一种基于余弦相似度排序的方法来实现 相关理论 实体消歧。Bagga和Gideon4s]等将实体指称项的 1.1词向量 上下文与候选实体的上下文分别表示成BOW(Bag 在自然语言处理中,要将自然语言理解的问题 of words)向量形式,利用向量空间模型实现了人名 转化为机器学习的问题,就需将自然语言的符号数 的消歧。韩先培等)提出一种基于图的实体消歧 学化,其中最直观和常用的方法是One-hot表示法。 方法,将指称项与实体通过带权的无向图连接起来, 这种方法将每个词表示为一个很长的向量,其维数 从而将指称项与实体、实体与实体间的语义关联通 是词汇表大小,其中绝大多数元素为0,只有一个维 过图的形式表征出来。上述工作主要是对英文的实 度的值为1,这个维度就代表当前的词。 体消歧,相比较而言,针对中文的实体消歧工作远远 在自然语言处理中,常将One-hot表示采用稀 落后于英文。在中文的实体消歧领域,王建勇等] 疏的方式进行存储,即为每个词分配一个数字D。 利用一种基于图的GHOST算法,结合AP聚类算法 该方法因其简单易用,广泛应用于各种自然语言处 进行相似度计算,在人名消歧方面取得了较好的实 理任务中,如N-gram模型中就采用这种词向量表示 验结果。怀宝兴等)提出了一种基于概率主题模 法。但这种表述方法也存在一定问题:其表示的任 型的命名实体链接方法,在通用领域,通过构建歧义 意两个词之间是孤立的,无法表示这两个词之间的 词表,用LDA基于语义层面对文档建模和实体消 依赖关系,从词向量上看不出两个词是否相关:采用 岐:宁博等9]针对中文命名实体消歧问题提出了一 稀疏表示法,在处理某些任务,如构建N-gram模型 种基于异构知识库的层次聚类方法,将维基百科和 时,会引起维数灾难问题。 百度百科结合起来作为多源知识库,并利用Hadoop 而在机器学习领域,一般采用分布式表示(ds 平台进行层次聚类,从而实现实体消歧。另外,朱敏 tributed representation)的方法表示词向量,这种表 等[1]提出了一种实体聚类消歧与百度百科词频的 示法最早由Hinton!)提出,通常称为Word Repre-- 同类实体消歧相结合的消歧方法,通过构建同义词 sentation。这种方法将词用一种低维实数向量表示, 表、优化知识库、改进拼音距离编辑算法等方式实现 优点在于相似的词在距离上更接近,能体现出不同 对中文微博的实体消歧。 词之间的相关性,从而反映词之间的依赖关系。同 同样在旅游领域也存在着大量的实体同名现 时,较低的维度也使特征向量在应用时有一个可接 象,在维基百科中“金花”一词有11个同名实体, 受的复杂度。因此,新近提出的许多语言模型,如潜 “香格里拉”一词有12个同名实体,这无疑对消歧 在语义分析(latent semantic analysis,LSA)模型、潜 工作产生很大影响,例如,给定两个句子: 在狄利克雷分布(latent dirichlet allocation,LDA)模 1)2014年,香格里拉县共接待国内外游客 型以及目前流行的神经网络模型等,都采用这种方 1080.22万人次。 法表示词向量213) 2)在结束了一天的旅程后我们选择了在香格 本文利用旅游领域的丰富语料对词向量模型进 里拉酒店入住。 行训练,从而将抽取的关键词进行向量化表示,用这知识库中,实体消岐是实体链接的关键任务。 由于 海量数据中存在的实体指称通常可以对应到多个命 名实体概念,这无疑对实体消歧造成了很大的障碍。 实体消歧的任务就是将这些存在歧义的实体指称在 众多的候选实体中匹配出对应的目标实体。 目前实 体消歧任务分为两种类型:实体聚类消歧和实体链 接消歧[1] ,实体聚类消歧就是利用聚类算法来对实 体进行消歧,而实体链接消歧则是借助外部知识库, 将待消歧命名实体指称链接到外部知识库中对应实 体来进行消歧。 本文选择用后者来实现特定领域的 实体消歧。 实体消歧的本质是计算实体指称项和候选实体 的相似度,选择相似度最大的候选实体作为链接的 目标实体[2] 。 针对英文实体消岐,Bunescu 和 Pas⁃ ca [3]提出了一种基于余弦相似度排序的方法来实现 实体消歧。 Bagga 和 Gideon [4⁃5] 等将实体指称项的 上下文与候选实体的上下文分别表示成 BOW(Bag of words)向量形式,利用向量空间模型实现了人名 的消歧。 韩先培等[6] 提出一种基于图的实体消歧 方法,将指称项与实体通过带权的无向图连接起来, 从而将指称项与实体、实体与实体间的语义关联通 过图的形式表征出来。 上述工作主要是对英文的实 体消歧,相比较而言,针对中文的实体消歧工作远远 落后于英文。 在中文的实体消歧领域,王建勇等[7] 利用一种基于图的 GHOST 算法,结合 AP 聚类算法 进行相似度计算,在人名消歧方面取得了较好的实 验结果。 怀宝兴等[8] 提出了一种基于概率主题模 型的命名实体链接方法,在通用领域,通过构建歧义 词表,用 LDA 基于语义层面对文档建模和实体消 岐;宁博等[9]针对中文命名实体消歧问题提出了一 种基于异构知识库的层次聚类方法,将维基百科和 百度百科结合起来作为多源知识库,并利用 Hadoop 平台进行层次聚类,从而实现实体消歧。 另外,朱敏 等[ 10 ]提出了一种实体聚类消歧与百度百科词频的 同类实体消歧相结合的消歧方法,通过构建同义词 表、优化知识库、改进拼音距离编辑算法等方式实现 对中文微博的实体消歧。 同样在旅游领域也存在着大量的实体同名现 象,在维基百科中“金花” 一词有 11 个同名实体, “香格里拉”一词有 12 个同名实体,这无疑对消歧 工作产生很大影响,例如,给定两个句子: 1) 2014 年, 香 格 里 拉 县 共 接 待 国 内 外 游 客 1 080.22万人次。 2)在结束了一天的旅程后我们选择了在香格 里拉酒店入住。 在上面的例子中,很明显第一句中的“香格里 拉”指的是某旅游胜地,第二句指的是某著名酒店 品牌,但是如何让计算机也能将实体指称项准确链 接到知识库中具有特定概念的实体仍然是自然语言 处理领域研究的热点和难点。 传统的消歧模型难以有效利用能反映领域特有 属性的实体词特征。 因此,本文针对旅游领域实体 间的关系较为复杂的特征,提出了一种结合词向量 和图模型的消歧方法,通过提取实体指称项背景文 本的若干关键词和候选实体文本的若干关键词,利 用训练好的模型对这些关键词分别进行交叉相似度 计算,把相似度均值最高的候选实体作为最终的目 标实体。 1 相关理论 1.1 词向量 在自然语言处理中,要将自然语言理解的问题 转化为机器学习的问题,就需将自然语言的符号数 学化,其中最直观和常用的方法是 One⁃hot 表示法。 这种方法将每个词表示为一个很长的向量,其维数 是词汇表大小,其中绝大多数元素为 0,只有一个维 度的值为 1,这个维度就代表当前的词。 在自然语言处理中,常将 One⁃hot 表示采用稀 疏的方式进行存储,即为每个词分配一个数字 ID。 该方法因其简单易用,广泛应用于各种自然语言处 理任务中,如 N⁃gram 模型中就采用这种词向量表示 法。 但这种表述方法也存在一定问题:其表示的任 意两个词之间是孤立的,无法表示这两个词之间的 依赖关系,从词向量上看不出两个词是否相关;采用 稀疏表示法,在处理某些任务,如构建 N⁃gram 模型 时,会引起维数灾难问题。 而在机器学习领域,一般采用分布式表示( dis⁃ tributed representation) 的方法表示词向量,这种表 示法最早由 Hinton [11] 提出,通常称为 Word Repre⁃ sentation。 这种方法将词用一种低维实数向量表示, 优点在于相似的词在距离上更接近,能体现出不同 词之间的相关性,从而反映词之间的依赖关系。 同 时,较低的维度也使特征向量在应用时有一个可接 受的复杂度。 因此,新近提出的许多语言模型,如潜 在语义分析(latent semantic analysis, LSA)模型、潜 在狄利克雷分布 ( latent dirichlet allocation,LDA)模 型以及目前流行的神经网络模型等,都采用这种方 法表示词向量[12⁃13] 。 本文利用旅游领域的丰富语料对词向量模型进 行训练,从而将抽取的关键词进行向量化表示,用这 第 3 期 汪沛,等:一种结合词向量和图模型的特定领域实体消歧方法 ·367·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有