正在加载图片...
第5期 陈培,等:融合语义信息的矩阵分解词向量学习模型 ·665 78.0 下面通过将KbEMF与EMF、Retro(CBOW)、 77.5 Retro(Skip-gram)、SWE进行比较来说明KbEMF的 77.0 优越性。Retro根据知识库信息对预先训练好的词 76.5 向量进行微调,该模型的缺点在于无法在语料库学 76.0 习词向量阶段利用丰富的语义信息。虽然SWE同 75.5 时利用了语义信息和语料库信息学习词向量,但该 75.0 模型的基础框架skip-gram只考虑了语料库的局部 共现信息。本文提出的KEMF则克服了上述模型 74.5 00.010.11351015203050100 的弱点,同时利用语料信息和语义信息学习词向 语义组合权重 (a)向量维度 量,并且它所分解的共现矩阵覆盖了语料库的全局 78.0r 共现信息。表1展示了词频为3500时KEMF与 77.5 EMF,Retro(CBOW)、Retro(Skip-gram)5、SWE的单 词推理正确率。 77.0 表1 KbEMF与其他方法的单词推理正确率 76.5 Table 1 Performance of KbEMF compared to other approaches 76.0 名 方法 75.5 单词推理正确率 EMF 80.93 75. 50100150200250300350400 Retro(CBOW) 78.47 维度 (b)语义组合权重 Retro(Skip-gram) 77.30 图1 KbEMF在不同向量维度和语义组合权重的正确率 SWE 79.77 Fig.1 Performance when incorporating semantic knowledge KbEMF 83.01 related to word analogical reasoning for different 表1中KEMF对应的单词推理正确率最高,这 vector sizes and semantic combination weights 说明该模型所获取的词向量质量最优。 图1(b)中随着语义组合权重增大,单词推理 3.4单词相似度量 正确率在提升,继续增大正确率反而减小,说明过 单词相似度量是评估词向量优劣的又一经典 大或过小的语义组合权重都不利于学习词向量。 实验。该实验把人工标注的词对相似度作为词对 从该实验还可以看出,语义组合权重在[5,20]之间 相似度的标准值,把计算得到的词对向量余弦值作 单词推理正确率最高,词向量在该任务中表现最优。 为词对相似度的估计值,然后计算词对相似度的标 图2展示了在不同过滤词频下,KbEMF的单词 准值与估计值之间的斯皮尔曼相关系数(spearman 推理正确率均在不同程度上高于EMF,尤其在词频 correlation coefficient),并将它作为词向量优劣的评 为3500时效果最佳。对于不同词频,该实验均设 价指标。斯皮尔曼相关系数的值越高表明单词对 置语义组合权重y-10,尽管该参数值在某些词频 相似度的估计值与标准值越一致,学习的词向量 下不是最优的,却在一定程度上说明本文模型的普 越好。 遍适用性。 由于单词相似度量希望相似度高或相关度高 84 e-KbEMF模型 的词对间彼此更靠近,语义信息的融入使具有强语 0 +EMF模型 义关系的词对获得更相似的词向量。那么计算所 7 得的关系词对向量的余弦值越大,词对相似度的标 准值与估计值之间的斯皮尔曼相关系数就越高。 72 与单词类比推理实验过程类似,通过调整 68 10 KbEMF模型参数(词向量维度、语义组合权重以及 1.01.52.02.53.03.54.04.55.05.56.0 过滤词频次 单词过滤词频),获得单词相似度量实验中表现优 图2不同过滤词频下EMF与KbEMF的正确率对比 异的词向量。 Fig.2 Performance of KbEMF compared to EMF for 本实验比较了KbEMF与SWE、Retro在单词相 different word frequencies 似度量任务中的性能表现,结果展示在表2中。由(a)向量维度 (b)语义组合权重 图 1 KbEMF 在不同向量维度和语义组合权重的正确率 Fig.1 Performance when incorporating semantic knowledge related to word analogical reasoning for different vector sizes and semantic combination weights 图 1 ( b)中随着语义组合权重增大,单词推理 正确率在提升,继续增大正确率反而减小,说明过 大或过小的语义组合权重都不利于学习词向量。 从该实验还可以看出,语义组合权重在[5,20]之间 单词推理正确率最高,词向量在该任务中表现最优。 图 2 展示了在不同过滤词频下,KbEMF 的单词 推理正确率均在不同程度上高于 EMF,尤其在词频 为 3 500 时效果最佳。 对于不同词频,该实验均设 置语义组合权重 γ = 10,尽管该参数值在某些词频 下不是最优的,却在一定程度上说明本文模型的普 遍适用性。 图 2 不同过滤词频下 EMF 与 KbEMF 的正确率对比 Fig.2 Performance of KbEMF compared to EMF for different word frequencies 下面通过将 KbEMF 与 EMF、Retro ( CBOW)、 Retro(Skip⁃gram) 5 、SWE 进行比较来说明 KbEMF 的 优越性。 Retro 根据知识库信息对预先训练好的词 向量进行微调,该模型的缺点在于无法在语料库学 习词向量阶段利用丰富的语义信息。 虽然 SWE 同 时利用了语义信息和语料库信息学习词向量,但该 模型的基础框架 skip⁃gram 只考虑了语料库的局部 共现信息。 本文提出的 KbEMF 则克服了上述模型 的弱点,同时利用语料信息和语义信息学习词向 量,并且它所分解的共现矩阵覆盖了语料库的全局 共现信息。 表 1 展示了词频为 3 500 时 KbEMF 与 EMF、Retro(CBOW)、 Retro(Skip⁃gram) 5 、SWE 的单 词推理正确率。 表 1 KbEMF 与其他方法的单词推理正确率 Table 1 Performance of KbEMF compared to other approaches % 方法 单词推理正确率 EMF 80.93 Retro(CBOW) 78.47 Retro(Skip⁃gram) 77.30 SWE 79.77 KbEMF 83.01 表 1 中 KbEMF 对应的单词推理正确率最高,这 说明该模型所获取的词向量质量最优。 3.4 单词相似度量 单词相似度量是评估词向量优劣的又一经典 实验。 该实验把人工标注的词对相似度作为词对 相似度的标准值,把计算得到的词对向量余弦值作 为词对相似度的估计值,然后计算词对相似度的标 准值与估计值之间的斯皮尔曼相关系数( spearman correlation coefficient),并将它作为词向量优劣的评 价指标。 斯皮尔曼相关系数的值越高表明单词对 相似度的估计值与标准值越一致,学习的词向量 越好。 由于单词相似度量希望相似度高或相关度高 的词对间彼此更靠近,语义信息的融入使具有强语 义关系的词对获得更相似的词向量。 那么计算所 得的关系词对向量的余弦值越大,词对相似度的标 准值与估计值之间的斯皮尔曼相关系数就越高。 与单词 类 比 推 理 实 验 过 程 类 似, 通 过 调 整 KbEMF 模型参数(词向量维度、语义组合权重以及 单词过滤词频),获得单词相似度量实验中表现优 异的词向量。 本实验比较了 KbEMF 与 SWE、Retro 在单词相 似度量任务中的性能表现,结果展示在表 2 中。 由 第 5 期 陈培,等:融合语义信息的矩阵分解词向量学习模型 ·665·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有