若干个关键词向量来表征一篇文档，通过计算关键词向量间的余弦相似度得出它们

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部

正在加载图片...

·368 智能系统学报第11卷若干个关键词向量来表征一篇文档，通过计算关键则的变动形式，如同一个人酒后乱步，所形成的随机词向量间的余弦相似度得出它们之间的关联程度，过程记录6。它的基本思想是，从一个或一系列顶进而得出文档之间的相似度。点开始遍历一张图，在任意一个顶点，遍历者将以概 l.2 TextRank算法率1-α游走到这个顶点的邻居顶点，以概率α随机同一文档中的大多数词语都是为表达同一主题跳跃到图中的任何一个顶点，称α跳转发生概率，服务的，它们之间具有一定的语义关系。和词语W 每次游走后得出一个概率分布，该概率分布刻画了有语义关系的词语越多，词语W越可能是表达文档图中每一个顶点被访问到的概率，用这个概率分布主题的重要词语，同时和词语W有语义关系的词语作为下一次游走的输人并反复迭代这一过程，当满的重要性也会影响词语W的重要性。根据这两个足一定前提条件时，这个概率分布会趋于收敛，收敛特性，本节引入基于图的排序算法用于抽取多文档后，即可以得到一个稳定的概率分布。近年来，随机关键词。基于图的排序算法是决定图中点重要性的游走算法逐渐开始吸引机器学习研究者的目光，并一种方法，它根据全局信息（图的结构）而不是局部开始被应用于半监督学习.1】、聚类分析192】、图信息来对节点排序。其基本理论是“投票”，当图中像分割[]和图的匹配[]等问题上。与随机游走相一个点A和另一个点B之间有连线时，那么点A就关的扩散核也被应用于242)基于核的学习等方面。给点B投票，点B获得的投票越多，点B就越重要；由于实体间的关系错综复杂，可以将这种关系更进一步，投票点A的重要性决定了其投票的重要抽象为一种图模型，本文在这种图模型上运用随机性，因此，点B的分数由其获得的投票和给B投票的游走算法可以将实体间的关联程度准确地表征点的分数共同决定。出来。 Mihalcea14]将在自然语言处理领域中应用的 2领域实体消歧基于图的排序算法称为TextRank,一般TextRank模型可以表示为一个加权的有向图。TextRank的思想 2.1系统流程来源于Google的PageRank算法，通过把文本分割本文提出的方法由4个模块构成分别为关键词成若干组成单元并建立图模型，利用投票机制对文提取模块、词向量模块、图模型模块和空实体判断本中的重要成分进行排序，仅利用单篇文档本身的模块。信息即可实现关键词抽取。本文采用该算法将文档在关键词提取模块中，分别利用TextRank算法表示为无向图G(V,E),由点集合V和边集合E组提取出待消歧的实体指称所在的背景文本的若干关成，E是V×V的子集，图中两点i,j之间边的权重为键词和候选实体对应的知识库描述文本的若干关键 W。对于一个给定的点V:,n(V)为指向该点的点词，这里提取的两组关键词用于后面的相似度计算。集合，Out(V:)为点V指向的点集合，点V,的分数在词向量模块中，抽取维基百科离线数据中旅定义为式(2)：游分类下的页面信息构建领域知识库，由于维基百 Ws(V)=(1-d)+d×∑ 10 科中包含大量的结构化信息，取该知识库的摘要信 —WS(V) a(∑ 0声息作为语料对词向量模型进行训练，这时，领域实体 VeOu(V) 都能通过该模型表征为一个向量，从而实现关键词 (2) 之间的相似度计算。式中：d为阻尼因数，取值范围为0~1，代表从图中在图模型模块中，人工构建一个领域实体关系某一特定点指向其他任意点的概率。通过这种算法图谱，通过在该图谱上的随机游走算法实现关键词我们可以获得每个词语在文档中的分数，从而可以之间相似度的计算。根据分数大小来进行关键词的排序。在空实体判断模块中，从待消歧实体指称所在本文利用该算法抽取文档中的关键词，分别用的文本中抽取若干关键词和从候选实体所在文本中抽取的关键词来表征待消歧实体指称项所在文本和抽取的关键词分别用本文提出的图模型与词向量方目标实体所在文本。法相结合进行交叉相似度计算取平均值，选择其中 1.3随机游走算法最大的相似度平均值，因为计算结果所对应的目标随机游走模型是在1905年Karl Pearsonti]首实体未必在我们的知识库中存在，这时通过比对该次提出的一种数学统计模型，它是一连串的轨迹组平均值与通过大量实验确定的空实体阈值入的大成的，其中每一次都是随机的。它能用来表示不规小，如果大于该阈值入，则该实体为目标实体，如果若干个关键词向量来表征一篇文档，通过计算关键词向量间的余弦相似度得出它们之间的关联程度，进而得出文档之间的相似度。１．２ＴｅｘｔＲａｎｋ算法同一文档中的大多数词语都是为表达同一主题服务的，它们之间具有一定的语义关系。和词语Ｗ有语义关系的词语越多，词语Ｗ越可能是表达文档主题的重要词语，同时和词语Ｗ有语义关系的词语的重要性也会影响词语Ｗ的重要性。根据这两个特性，本节引入基于图的排序算法用于抽取多文档关键词。基于图的排序算法是决定图中点重要性的一种方法，它根据全局信息（图的结构）而不是局部信息来对节点排序。其基本理论是“投票”，当图中一个点Ａ和另一个点Ｂ之间有连线时，那么点Ａ就给点Ｂ投票，点Ｂ获得的投票越多，点Ｂ就越重要；更进一步，投票点Ａ的重要性决定了其投票的重要性，因此，点Ｂ的分数由其获得的投票和给Ｂ投票的点的分数共同决定。Ｍｉｈａｌｃｅａ［１４］将在自然语言处理领域中应用的基于图的排序算法称为ＴｅｘｔＲａｎｋ，一般ＴｅｘｔＲａｎｋ模型可以表示为一个加权的有向图。ＴｅｘｔＲａｎｋ的思想来源于Ｇｏｏｇｌｅ的ＰａｇｅＲａｎｋ算法，通过把文本分割成若干组成单元并建立图模型，利用投票机制对文本中的重要成分进行排序，仅利用单篇文档本身的信息即可实现关键词抽取。本文采用该算法将文档表示为无向图Ｇ（Ｖ，Ｅ），由点集合Ｖ和边集合Ｅ组成，Ｅ是Ｖ×Ｖ的子集，图中两点ｉ，ｊ之间边的权重为Ｗｊ。对于一个给定的点Ｖｉ，Ｉｎ（Ｖｉ）为指向该点的点集合，Ｏｕｔ（Ｖｉ）为点Ｖｉ指向的点集合，点Ｖｉ的分数定义为式（２）：ＷＳ（Ｖｉ）＝（１－ｄ）＋ｄ × Ｖ ∑ ｊ∈Ｉｎ（Ｖｉ）ｗｊｉＶ ∑ｋ∈Ｏｕｔ（Ｖｉ）ｗｊｋＷＳ（Ｖｊ）（２）式中：ｄ为阻尼因数，取值范围为０～１，代表从图中某一特定点指向其他任意点的概率。通过这种算法我们可以获得每个词语在文档中的分数，从而可以根据分数大小来进行关键词的排序。本文利用该算法抽取文档中的关键词，分别用抽取的关键词来表征待消歧实体指称项所在文本和目标实体所在文本。１．３随机游走算法随机游走模型是在１９０５年ＫａｒｌＰｅａｒｓｏｎ［１５］首次提出的一种数学统计模型，它是一连串的轨迹组成的，其中每一次都是随机的。它能用来表示不规则的变动形式，如同一个人酒后乱步，所形成的随机过程记录［１６］。它的基本思想是，从一个或一系列顶点开始遍历一张图，在任意一个顶点，遍历者将以概率１－α 游走到这个顶点的邻居顶点，以概率 α 随机跳跃到图中的任何一个顶点，称 α 跳转发生概率，每次游走后得出一个概率分布，该概率分布刻画了图中每一个顶点被访问到的概率，用这个概率分布作为下一次游走的输入并反复迭代这一过程，当满足一定前提条件时，这个概率分布会趋于收敛，收敛后，即可以得到一个稳定的概率分布。近年来，随机游走算法逐渐开始吸引机器学习研究者的目光，并开始被应用于半监督学习［１７⁃１８］、聚类分析［１９⁃２１］、图像分割［２２］和图的匹配［２３］等问题上。与随机游走相关的扩散核也被应用于［２４⁃２８］基于核的学习等方面。由于实体间的关系错综复杂，可以将这种关系抽象为一种图模型，本文在这种图模型上运用随机游走算法可以将实体间的关联程度准确地表征出来。２领域实体消歧２．１系统流程本文提出的方法由４个模块构成分别为关键词提取模块、词向量模块、图模型模块和空实体判断模块。在关键词提取模块中，分别利用ＴｅｘｔＲａｎｋ算法提取出待消歧的实体指称所在的背景文本的若干关键词和候选实体对应的知识库描述文本的若干关键词，这里提取的两组关键词用于后面的相似度计算。在词向量模块中，抽取维基百科离线数据中旅游分类下的页面信息构建领域知识库，由于维基百科中包含大量的结构化信息，取该知识库的摘要信息作为语料对词向量模型进行训练，这时，领域实体都能通过该模型表征为一个向量，从而实现关键词之间的相似度计算。在图模型模块中，人工构建一个领域实体关系图谱，通过在该图谱上的随机游走算法实现关键词之间相似度的计算。在空实体判断模块中，从待消歧实体指称所在的文本中抽取若干关键词和从候选实体所在文本中抽取的关键词分别用本文提出的图模型与词向量方法相结合进行交叉相似度计算取平均值，选择其中最大的相似度平均值，因为计算结果所对应的目标实体未必在我们的知识库中存在，这时通过比对该平均值与通过大量实验确定的空实体阈值 λ 的大小，如果大于该阈值 λ，则该实体为目标实体，如果 ·３６８· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】一种结合词向量和图模型的特定领域实体消歧方法编辑部