正在加载图片...
.662. 智能系统学报 第12卷 靠近。现有的词向量学习方法大致可以分为基于 学习过程中,提出了高质量的词向量联合学习模型 神经网络学习词向量和基于矩阵分解学习词向量。 RCM。Liu等[1通过在训练skip-gram模型过程中 基于神经网络学习词向量是根据上下文与目标单 加入单词相似性排序信息约束词向量学习,提出了 词之间的关系建立语言模型,通过训练语言模型获 SWE模型,该模型通过单词间的3种语义关系,即 得词向量[6-1]。但有效词向量的获取是建立在训练 近反义关系、上下位关系及类别关系获取单词相似 大规模文本语料库的基础上,这无疑使计算成本很 性排序信息。Faruqui等[0)采用后处理的方式调整 高。近年来提出的CBOW和skip-gram模型去除 已经预先训练好的词向量,提出了Retro模型,该模 了神经网络结构中非线性隐层,使算法复杂度大大 型可以利用任意知识库信息调整由任意词向量模 降低,并且也获得了高效的词向量。CBOW根据上 型训练好的词向量,而无需重新训练词向量。 下文预测目标单词,skip-gam根据目标单词预测上 以上研究都是通过拓展神经网络词向量学习 下文单词。基于矩阵分解的词向量学习模型3-) 模型构建的。与之不同,本文提出的KbEMF模型 是通过分解从文本语料库中提取的矩阵(如共现矩 是基于矩阵分解学习词向量。该模型以ⅱ等)提 阵或由共现矩阵生成的PMI矩阵)得到低维连续的 出的EMF模型为框架加人领域知识约束项,使具有 词向量,并且文献[13]和文献[14]证明了矩阵分解 较强语义关系的词对学习到的词向量在实数空间 的词向量学习模型与skip-gram完全等价。 中的距离更近,也就是更加近似。与Faruqui等采 上述模型学习的词向量已被有效地应用于自 用后处理方式调整训练好的词向量方式不同, 然语言处理任务中,然而这些模型在学习词向量的 KbEMF是一个同时利用语料库和知识库学习词向 过程中仅使用了文本语料库信息,却忽略了单词间 量的联合模型,并且在单词类比推理和单词相似度 的语义信息。一旦遇到下列情形很难保证所得词 量两个实验任务中展示了它的优越性。 向量的质量:1)含义不同甚至完全相反的单词 (good/bad)往往出现在相似的上下文中,那么它们 1 矩阵分解词向量学习模型相关背景 的词向量必然十分相似,这明显与现实世界相悖; KbEMF模型是通过扩展矩阵分解词向量学习 2)对于两个含义相似的单词,其中一个出现在语料 模型构建的,本节介绍有关矩阵分解学习词向量涉 库中的次数极少,另外一个却频繁出现,或者它们 及的背景知识。 出现在不同的上下文中,那么最终它们学得的词向 矩阵分解给定一个矩阵X,矩阵分解的目标 量会有很大差别:3)大量上下文噪音的存在使学得 在于找到两个低秩的矩阵Y和Z,使得X≈YZ,因 的词向量不能准确反映出单词间的真实关系,甚至 此矩阵分解的目标函数可以用min叱(X,YZ)公式来 会误导整个词向量的训练过程。 表示,其中(表示将矩阵X近似分解为Z与Y的乘 为解决上述问题,本文考虑从领域知识库提取 积造成的损失。不同的损失函数得到不同的矩阵 语义信息并融入到词向量学习的过程中。这会给 分解模型,例如,非负矩阵分解21、概率矩阵分 词向量的学习带来下列优势。 解2]、最大边界矩阵分解] 首先,知识库明确定义了单词的语义关系 共现矩阵对于一个特定的训练语料库T,V (knife/fork都属于餐具,animal/dog具有范畴包含 是从该语料库中提取的全部单词生成的词汇表,当 关系等),引入这些语义关系约束词向量的学习,使 上下文窗口设定为L时,对任意的w:∈V,它的上下 学到的词向量具有更准确的关系。另外,相似单词 文单词为0-L,…,01,0#1,…,w+L,则共现矩阵X 出现在不同的上下文中或者出现频次存在较大差 的每个元素值#(0,c)表示0和c的共现次数,即上 异带来的词向量偏差问题,都可以通过知识库丰富 下文单词c出现在目标单词0上下文中的次数, 的语义信息予以修正。再者,知识库是各领域的权 威专家构建的,具有更高的可靠性。因此,引入语 #(o)=∑#(0,c)表示出现在0上下文中全部c 义信息约束词向量的学习是很有必要的。 的次数。同样地,#(c)=∑(0,c)表示c作为 目前融合语义信息学习词向量已有一些研究 上下文出现在语料库中的次数。 成果。Bian等[16)利用单词结构信息、语法信息及语 EMF模型skip-gram模型学得的词向量在多 义信息学习词向量,并取得了良好的效果。Xu 项自然语言处理任务中都取得了良好的表现,却没 等[)分别给取自于知识库的两类知识信息(R-NET 有清晰的理论原理解释。由此,EMF从表示学习的 和C-NET)建立正则约束函数,并将它们与skp 角度出发,重新定义了skip-am模型的目标函数, ram模型联合学习词向量,提出了RC-NET模型。 将其精确地解释为矩阵分解模型,把词向量解释为 Yu等[8]将单词间的语义相似信息融入到CBOW的 softmax损失下显示词向量d,关于表示字典C的一靠近。 现有的词向量学习方法大致可以分为基于 神经网络学习词向量和基于矩阵分解学习词向量。 基于神经网络学习词向量是根据上下文与目标单 词之间的关系建立语言模型,通过训练语言模型获 得词向量[6-12] 。 但有效词向量的获取是建立在训练 大规模文本语料库的基础上,这无疑使计算成本很 高。 近年来提出的 CBOW 和 skip⁃gram 模型[11]去除 了神经网络结构中非线性隐层,使算法复杂度大大 降低,并且也获得了高效的词向量。 CBOW 根据上 下文预测目标单词,skip⁃gram 根据目标单词预测上 下文单词。 基于矩阵分解的词向量学习模型[13-15] 是通过分解从文本语料库中提取的矩阵(如共现矩 阵或由共现矩阵生成的 PMI 矩阵)得到低维连续的 词向量,并且文献[13]和文献[14]证明了矩阵分解 的词向量学习模型与 skip⁃gram 完全等价。 上述模型学习的词向量已被有效地应用于自 然语言处理任务中,然而这些模型在学习词向量的 过程中仅使用了文本语料库信息,却忽略了单词间 的语义信息。 一旦遇到下列情形很难保证所得词 向量的质量: 1) 含义不同甚至完全相反的单词 (good / bad)往往出现在相似的上下文中,那么它们 的词向量必然十分相似,这明显与现实世界相悖; 2)对于两个含义相似的单词,其中一个出现在语料 库中的次数极少,另外一个却频繁出现,或者它们 出现在不同的上下文中,那么最终它们学得的词向 量会有很大差别;3)大量上下文噪音的存在使学得 的词向量不能准确反映出单词间的真实关系,甚至 会误导整个词向量的训练过程。 为解决上述问题,本文考虑从领域知识库提取 语义信息并融入到词向量学习的过程中。 这会给 词向量的学习带来下列优势。 首先, 知 识 库 明 确 定 义 了 单 词 的 语 义 关 系 (knife / fork 都属于餐具,animal / dog 具有范畴包含 关系等),引入这些语义关系约束词向量的学习,使 学到的词向量具有更准确的关系。 另外,相似单词 出现在不同的上下文中或者出现频次存在较大差 异带来的词向量偏差问题,都可以通过知识库丰富 的语义信息予以修正。 再者,知识库是各领域的权 威专家构建的,具有更高的可靠性。 因此,引入语 义信息约束词向量的学习是很有必要的。 目前融合语义信息学习词向量已有一些研究 成果。 Bian 等[16]利用单词结构信息、语法信息及语 义信息学习 词 向 量, 并 取 得 了 良 好 的 效 果。 Xu 等[17]分别给取自于知识库的两类知识信息(R⁃NET 和 C⁃NET) 建立正则约束函数,并将它们与 skip⁃ gram 模型联合学习词向量,提出了 RC⁃NET 模型。 Yu 等[18]将单词间的语义相似信息融入到 CBOW 的 学习过程中,提出了高质量的词向量联合学习模型 RCM。 Liu 等[19]通过在训练 skip⁃gram 模型过程中 加入单词相似性排序信息约束词向量学习,提出了 SWE 模型,该模型通过单词间的 3 种语义关系,即 近反义关系、上下位关系及类别关系获取单词相似 性排序信息。 Faruqui 等[20]采用后处理的方式调整 已经预先训练好的词向量,提出了 Retro 模型,该模 型可以利用任意知识库信息调整由任意词向量模 型训练好的词向量,而无需重新训练词向量。 以上研究都是通过拓展神经网络词向量学习 模型构建的。 与之不同,本文提出的 KbEMF 模型 是基于矩阵分解学习词向量。 该模型以 Li 等[13] 提 出的 EMF 模型为框架加入领域知识约束项,使具有 较强语义关系的词对学习到的词向量在实数空间 中的距离更近,也就是更加近似。 与 Faruqui 等采 用后处 理 方 式 调 整 训 练 好 的 词 向 量 方 式 不 同, KbEMF 是一个同时利用语料库和知识库学习词向 量的联合模型,并且在单词类比推理和单词相似度 量两个实验任务中展示了它的优越性。 1 矩阵分解词向量学习模型相关背景 KbEMF 模型是通过扩展矩阵分解词向量学习 模型构建的,本节介绍有关矩阵分解学习词向量涉 及的背景知识。 矩阵分解 给定一个矩阵 X,矩阵分解的目标 在于找到两个低秩的矩阵 Y 和 Z,使得 X≈YZ,因 此矩阵分解的目标函数可以用 min Y,Z ζ(X,YZ) 公式来 表示,其中 ζ 表示将矩阵 X 近似分解为 Z 与 Y 的乘 积造成的损失。 不同的损失函数得到不同的矩阵 分解模型, 例如, 非负矩阵分解[21] 、 概率矩阵分 解[22] 、最大边界矩阵分解[23] 。 共现矩阵 对于一个特定的训练语料库 T,V 是从该语料库中提取的全部单词生成的词汇表,当 上下文窗口设定为 L 时,对任意的 wi∈V,它的上下 文单词为wi-L ,…,wi-1 ,wi+1 ,…,wi+L ,则共现矩阵 X 的每个元素值#(w,c)表示 w 和 c 的共现次数,即上 下文单词 c 出现在目标单词 w 上下文中的次数, #(w) =∑c∈V #(w,c) 表示出现在 w 上下文中全部 c 的次数。 同样地, #(c) =∑w∈V #(w,c) 表示 c 作为 上下文出现在语料库中的次数。 EMF 模型 skip⁃gram 模型学得的词向量在多 项自然语言处理任务中都取得了良好的表现,却没 有清晰的理论原理解释。 由此,EMF 从表示学习的 角度出发,重新定义了 skip⁃gram 模型的目标函数, 将其精确地解释为矩阵分解模型,把词向量解释为 softmax 损失下显示词向量 dw 关于表示字典 C 的一 ·662· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有