（ａ）向量维度（ｂ）语义组合权重图１ＫｂＥＭＦ在不同向量维度和语

正在加载图片...

第5期陈培，等：融合语义信息的矩阵分解词向量学习模型 ·665 78.0 下面通过将KbEMF与EMF、Retro(CBOW)、 77.5 Retro(Skip-gram)、SWE进行比较来说明KbEMF的 77.0 优越性。Retro根据知识库信息对预先训练好的词 76.5 向量进行微调，该模型的缺点在于无法在语料库学 76.0 习词向量阶段利用丰富的语义信息。虽然SWE同 75.5 时利用了语义信息和语料库信息学习词向量，但该 75.0 模型的基础框架skip-gram只考虑了语料库的局部共现信息。本文提出的KEMF则克服了上述模型 74.5 00.010.11351015203050100 的弱点，同时利用语料信息和语义信息学习词向语义组合权重 (a)向量维度量，并且它所分解的共现矩阵覆盖了语料库的全局 78.0r 共现信息。表1展示了词频为3500时KEMF与 77.5 EMF,Retro(CBOW)、Retro(Skip-gram)5、SWE的单词推理正确率。 77.0 表1 KbEMF与其他方法的单词推理正确率 76.5 Table 1 Performance of KbEMF compared to other approaches 76.0 名方法 75.5 单词推理正确率 EMF 80.93 75. 50100150200250300350400 Retro(CBOW) 78.47 维度 (b)语义组合权重 Retro(Skip-gram） 77.30 图1 KbEMF在不同向量维度和语义组合权重的正确率 SWE 79.77 Fig.1 Performance when incorporating semantic knowledge KbEMF 83.01 related to word analogical reasoning for different 表1中KEMF对应的单词推理正确率最高，这 vector sizes and semantic combination weights 说明该模型所获取的词向量质量最优。图1(b)中随着语义组合权重增大，单词推理 3.4单词相似度量正确率在提升，继续增大正确率反而减小，说明过单词相似度量是评估词向量优劣的又一经典大或过小的语义组合权重都不利于学习词向量。实验。该实验把人工标注的词对相似度作为词对从该实验还可以看出，语义组合权重在[5,20]之间相似度的标准值，把计算得到的词对向量余弦值作单词推理正确率最高，词向量在该任务中表现最优。为词对相似度的估计值，然后计算词对相似度的标图2展示了在不同过滤词频下，KbEMF的单词准值与估计值之间的斯皮尔曼相关系数(spearman 推理正确率均在不同程度上高于EMF,尤其在词频 correlation coefficient),并将它作为词向量优劣的评为3500时效果最佳。对于不同词频，该实验均设价指标。斯皮尔曼相关系数的值越高表明单词对置语义组合权重y-10,尽管该参数值在某些词频相似度的估计值与标准值越一致，学习的词向量下不是最优的，却在一定程度上说明本文模型的普越好。遍适用性。由于单词相似度量希望相似度高或相关度高 84 e-KbEMF模型的词对间彼此更靠近，语义信息的融入使具有强语 0 +EMF模型义关系的词对获得更相似的词向量。那么计算所 7 得的关系词对向量的余弦值越大，词对相似度的标准值与估计值之间的斯皮尔曼相关系数就越高。 72 与单词类比推理实验过程类似，通过调整 68 10 KbEMF模型参数（词向量维度、语义组合权重以及 1.01.52.02.53.03.54.04.55.05.56.0 过滤词频次单词过滤词频)，获得单词相似度量实验中表现优图2不同过滤词频下EMF与KbEMF的正确率对比异的词向量。 Fig.2 Performance of KbEMF compared to EMF for 本实验比较了KbEMF与SWE、Retro在单词相 different word frequencies 似度量任务中的性能表现，结果展示在表2中。由（ａ）向量维度（ｂ）语义组合权重图１ＫｂＥＭＦ在不同向量维度和语义组合权重的正确率Ｆｉｇ．１Ｐｅｒｆｏｒｍａｎｃｅｗｈｅｎｉｎｃｏｒｐｏｒａｔｉｎｇｓｅｍａｎｔｉｃｋｎｏｗｌｅｄｇｅｒｅｌａｔｅｄｔｏｗｏｒｄａｎａｌｏｇｉｃａｌｒｅａｓｏｎｉｎｇｆｏｒｄｉｆｆｅｒｅｎｔｖｅｃｔｏｒｓｉｚｅｓａｎｄｓｅｍａｎｔｉｃｃｏｍｂｉｎａｔｉｏｎｗｅｉｇｈｔｓ图１（ｂ）中随着语义组合权重增大，单词推理正确率在提升，继续增大正确率反而减小，说明过大或过小的语义组合权重都不利于学习词向量。从该实验还可以看出，语义组合权重在［５，２０］之间单词推理正确率最高，词向量在该任务中表现最优。图２展示了在不同过滤词频下，ＫｂＥＭＦ的单词推理正确率均在不同程度上高于ＥＭＦ，尤其在词频为３５００时效果最佳。对于不同词频，该实验均设置语义组合权重 γ ＝１０，尽管该参数值在某些词频下不是最优的，却在一定程度上说明本文模型的普遍适用性。图２不同过滤词频下ＥＭＦ与ＫｂＥＭＦ的正确率对比Ｆｉｇ．２ＰｅｒｆｏｒｍａｎｃｅｏｆＫｂＥＭＦｃｏｍｐａｒｅｄｔｏＥＭＦｆｏｒｄｉｆｆｅｒｅｎｔｗｏｒｄｆｒｅｑｕｅｎｃｉｅｓ下面通过将ＫｂＥＭＦ与ＥＭＦ、Ｒｅｔｒｏ（ＣＢＯＷ）、Ｒｅｔｒｏ（Ｓｋｉｐ⁃ｇｒａｍ）５、ＳＷＥ进行比较来说明ＫｂＥＭＦ的优越性。Ｒｅｔｒｏ根据知识库信息对预先训练好的词向量进行微调，该模型的缺点在于无法在语料库学习词向量阶段利用丰富的语义信息。虽然ＳＷＥ同时利用了语义信息和语料库信息学习词向量，但该模型的基础框架ｓｋｉｐ⁃ｇｒａｍ只考虑了语料库的局部共现信息。本文提出的ＫｂＥＭＦ则克服了上述模型的弱点，同时利用语料信息和语义信息学习词向量，并且它所分解的共现矩阵覆盖了语料库的全局共现信息。表１展示了词频为３５００时ＫｂＥＭＦ与ＥＭＦ、Ｒｅｔｒｏ（ＣＢＯＷ）、Ｒｅｔｒｏ（Ｓｋｉｐ⁃ｇｒａｍ）５、ＳＷＥ的单词推理正确率。表１ＫｂＥＭＦ与其他方法的单词推理正确率Ｔａｂｌｅ１ＰｅｒｆｏｒｍａｎｃｅｏｆＫｂＥＭＦｃｏｍｐａｒｅｄｔｏｏｔｈｅｒａｐｐｒｏａｃｈｅｓ％方法单词推理正确率ＥＭＦ８０．９３Ｒｅｔｒｏ（ＣＢＯＷ）７８．４７Ｒｅｔｒｏ（Ｓｋｉｐ⁃ｇｒａｍ）７７．３０ＳＷＥ７９．７７ＫｂＥＭＦ８３．０１表１中ＫｂＥＭＦ对应的单词推理正确率最高，这说明该模型所获取的词向量质量最优。３．４单词相似度量单词相似度量是评估词向量优劣的又一经典实验。该实验把人工标注的词对相似度作为词对相似度的标准值，把计算得到的词对向量余弦值作为词对相似度的估计值，然后计算词对相似度的标准值与估计值之间的斯皮尔曼相关系数（ｓｐｅａｒｍａｎｃｏｒｒｅｌａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔ），并将它作为词向量优劣的评价指标。斯皮尔曼相关系数的值越高表明单词对相似度的估计值与标准值越一致，学习的词向量越好。由于单词相似度量希望相似度高或相关度高的词对间彼此更靠近，语义信息的融入使具有强语义关系的词对获得更相似的词向量。那么计算所得的关系词对向量的余弦值越大，词对相似度的标准值与估计值之间的斯皮尔曼相关系数就越高。与单词类比推理实验过程类似，通过调整ＫｂＥＭＦ模型参数（词向量维度、语义组合权重以及单词过滤词频），获得单词相似度量实验中表现优异的词向量。本实验比较了ＫｂＥＭＦ与ＳＷＥ、Ｒｅｔｒｏ在单词相似度量任务中的性能表现，结果展示在表２中。由第５期陈培，等：融合语义信息的矩阵分解词向量学习模型 ·６６５·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】融合语义信息的矩阵分解词向量学习模型