算法ＫｂＥＭＦ算法的伪代码输入共现矩阵Ｘ，语义关系矩阵Ｓ，学习

正在加载图片...

·664. 智能系统学报第12卷算法KbEMF算法的伪代码 3.2实验设置输入共现矩阵X,语义关系矩阵S,学习率7，下列实验展示了由KEMF获取的词向量在不最大迭代次数K,k: 同任务中的性能表现。为保持实验效果的一致性，输出Wx,Cx 所有模型设置相同的参数。词向量维数统一设置 1)随机初始化：W。,C。为200，学习率设置为6×10-7，上下文窗口为5，迭 2)fori=1toK,执行代次数设置为300。 3)W=W- 另外，语义组合权重的大小也对实验有重要影 4)forj=1tok,执行响。对于单词类比推理和单词相似度量任务本文 5)W.=W+n[W-(ExI W-W)+y(L+L) 均采取相同的实验策略寻找最佳语义组合权重，下 w] 面以单词类比推理任务为例详细说明最佳语义组 6)j=j+1 7)C:=C- 合权重找寻的实验过程。设定y∈[0.01,100]，首先实验y=0.01,0.1,1,10,100的单词推理正确率， 8)forj=1tok,执行 9)C:=C:+(ExIcwX-X)W: 如图1(b)所示，y=0.01,0.1,1时KbEMF没有提升实验效果，因为语义信息所起作用太小：在y= 10)j=j+1 11)i=i+1 100时KbEMF实验效果反而更差，这是过分强调语义信息破坏了词向量的通用性：只有在y=10时 3实验与结果 KbEMF效果较好，则最佳语义组合权重在y=10附本节主要展示融合语义信息后获取的词向量近的可能性最大。然后在y∈[1,10]和y∈[10，在单词类比推理和单词相似度量任务上的性能表 100]采取同样的策略继续寻找下去，最终会得到最现。首先介绍实验数据集及实验设置，然后分别描佳组合权重。实验结果表明，不同任务在不同词频述每个实验的任务和结果，并分析实验结果。下的最优语义组合权重也不同。 3.1数据集 3.3单词类比推理本实验选择Ewik9'作为训练语料库，经过去给出一个问题a:b:c:d,a、b、c、d各表示一除原始语料库中HTML元数据、超链接等预处理操个单词其中d是未知的，类比推理任务的目标在作后，得到一个词汇量将近13亿的训练数据集。然于找到一个最合适的d使得a,b,c,d的词向量后通过设置单词过滤词频限制词汇表的大小，把低满足vec(d)与vec(b)-vec(a)+vec(c)的余弦距于设定过滤词频的单词剔除词汇表，因此，不同过离最近。例如，语义推理Germary:Berlin:: 滤词频产生不同大小的词汇表。 France:d,则需要找出一个向量vec(d),使它与本实验选用WordNet2作为知识库，WordNet2有 vec(Berlin)-vec(Germary)+vec(France)最近似， 120000同义词集合，其中包含150000单词。本文如果vec(d)对应的d是Paris则推理正确。同借助JWI从WordNet2中抽取单词间的语义关系：理，又如语法推理quick:quickly:slow:d,如果找同一个同义词集合内单词对的同义关系，以及不同到d是slowly则推理正确。该实验任务的评价指集合间单词对的上下位关系。标是推理出单词d的正确率，正确率越高，则不同的实验任务所用的测试数据集也不相同。在单词类比推理任务中，本文使用的测试集为 KbEMF学得的词向量越好。谷歌查询数据集(Google query dataset),该数据集本实验评估了不同参数设置对KbEMF模型影包含19544个问题，共14种关系类型，其中5种语响，图1是词频为6000次时，分别改变模型中词向义关系，9种语法关系。在单词相似度量任务中，本量维度及语义组合权重所绘制的。文使用下列3个数据集：Luong等2使用的稀有单从图1(a)可以看出，词向量维度小于200时，词，Finkelstein等2]使用的Wordsim-353(WS353) 随着词向量维度增加单词推理正确率在提升，词向数据集(RW),Huang等[o发布的上下文单词相似量维度在200~350之间实验效果趋向于稳定，因此数据集(SCWS)。它们分别包含2003、2034、353个在同时兼顾实验速度与效果的情况下，本文选择学单词对及相应的人工标注的相似度分值。习200维度的词向量。算法ＫｂＥＭＦ算法的伪代码输入共现矩阵Ｘ，语义关系矩阵Ｓ，学习率 η，最大迭代次数Ｋ，ｋ；输出ＷＫ，ＣＫ。１）随机初始化：Ｗ０，Ｃ０２）ｆｏｒｉ＝１ｔｏＫ，执行３）Ｗｉ＝Ｗｉ－１４）ｆｏｒｊ＝１ｔｏｋ，执行５）Ｗｉ＝Ｗｉ＋ η［Ｗｉ－１ＥＸＣＴ ( ｉ－１ＷｉＷ－Ｗ) ＋ γ（Ｌ＋ＬＴ）Ｗｉ］６）ｊ＝ｊ＋１７）Ｃｉ＝Ｃｉ－１８）ｆｏｒｊ＝１ｔｏｋ，执行９）Ｃｉ＝Ｃｉ＋ η ＥＸＣＴｉＷｉ ( Ｘ－Ｘ) ＷＴｉ１０）ｊ＝ｊ＋１１１）ｉ＝ｉ＋１３实验与结果本节主要展示融合语义信息后获取的词向量在单词类比推理和单词相似度量任务上的性能表现。首先介绍实验数据集及实验设置，然后分别描述每个实验的任务和结果，并分析实验结果。３．１数据集本实验选择Ｅｎｗｉｋ９１作为训练语料库，经过去除原始语料库中ＨＴＭＬ元数据、超链接等预处理操作后，得到一个词汇量将近１３亿的训练数据集。然后通过设置单词过滤词频限制词汇表的大小，把低于设定过滤词频的单词剔除词汇表，因此，不同过滤词频产生不同大小的词汇表。本实验选用ＷｏｒｄＮｅｔ２作为知识库，ＷｏｒｄＮｅｔ２有１２００００同义词集合，其中包含１５００００单词。本文借助ＪＷＩ３从ＷｏｒｄＮｅｔ２中抽取单词间的语义关系：同一个同义词集合内单词对的同义关系，以及不同集合间单词对的上下位关系。不同的实验任务所用的测试数据集也不相同。在单词类比推理任务中，本文使用的测试集为谷歌查询数据集（Ｇｏｏｇｌｅｑｕｅｒｙｄａｔａｓｅｔ４），该数据集包含１９５４４个问题，共１４种关系类型，其中５种语义关系，９种语法关系。在单词相似度量任务中，本文使用下列３个数据集：Ｌｕｏｎｇ等［２４］使用的稀有单词，Ｆｉｎｋｅｌｓｔｅｉｎ等［２５］使用的Ｗｏｒｄｓｉｍ⁃３５３（ＷＳ３５３）数据集（ＲＷ），Ｈｕａｎｇ等［６］发布的上下文单词相似数据集（ＳＣＷＳ）。它们分别包含２００３、２０３４、３５３个单词对及相应的人工标注的相似度分值。３．２实验设置下列实验展示了由ＫｂＥＭＦ获取的词向量在不同任务中的性能表现。为保持实验效果的一致性，所有模型设置相同的参数。词向量维数统一设置为２００，学习率设置为６ × １０－７，上下文窗口为５，迭代次数设置为３００。另外，语义组合权重的大小也对实验有重要影响。对于单词类比推理和单词相似度量任务本文均采取相同的实验策略寻找最佳语义组合权重，下面以单词类比推理任务为例详细说明最佳语义组合权重找寻的实验过程。设定 γ ∈ ［０．０１，１００］，首先实验 γ ＝０．０１，０．１，１，１０，１００的单词推理正确率，如图１（ｂ）所示， γ ＝０．０１，０．１，１时ＫｂＥＭＦ没有提升实验效果，因为语义信息所起作用太小；在 γ ＝１００时ＫｂＥＭＦ实验效果反而更差，这是过分强调语义信息破坏了词向量的通用性；只有在 γ ＝１０时ＫｂＥＭＦ效果较好，则最佳语义组合权重在 γ ＝１０附近的可能性最大。然后在 γ ∈ ［１，１０］和 γ ∈ ［１０，１００］采取同样的策略继续寻找下去，最终会得到最佳组合权重。实验结果表明，不同任务在不同词频下的最优语义组合权重也不同。３．３单词类比推理给出一个问题ａ ∶ ｂ ∶ ∶ｃ ∶ ｄ，ａ、ｂ、ｃ、ｄ各表示一个单词其中ｄ是未知的，类比推理任务的目标在于找到一个最合适的ｄ使得ａ，ｂ，ｃ，ｄ的词向量满足ｖｅｃ（ｄ）与ｖｅｃ（ｂ）－ｖｅｃ（ａ）＋ｖｅｃ（ｃ）的余弦距离最近。例如，语义推理Ｇｅｒｍａｒｙ ∶ Ｂｅｒｌｉｎ ∶ ∶ Ｆｒａｎｃｅ ∶ ｄ，则需要找出一个向量ｖｅｃ（ｄ），使它与ｖｅｃ（Ｂｅｒｌｉｎ） ⁃ｖｅｃ（Ｇｅｒｍａｒｙ）＋ｖｅｃ（Ｆｒａｎｃｅ）最近似，如果ｖｅｃ（ｄ）对应的ｄ是Ｐａｒｉｓ则推理正确。同理，又如语法推理ｑｕｉｃｋ：ｑｕｉｃｋｌｙ ∶ ∶ｓｌｏｗ ∶ ｄ，如果找到ｄ是ｓｌｏｗｌｙ则推理正确。该实验任务的评价指标是推理出单词ｄ的正确率，正确率越高，则ＫｂＥＭＦ学得的词向量越好。本实验评估了不同参数设置对ＫｂＥＭＦ模型影响，图１是词频为６０００次时，分别改变模型中词向量维度及语义组合权重所绘制的。从图１（ａ）可以看出，词向量维度小于２００时，随着词向量维度增加单词推理正确率在提升，词向量维度在２００～３５０之间实验效果趋向于稳定，因此在同时兼顾实验速度与效果的情况下，本文选择学习２００维度的词向量。 ·６６４· 智能系统学报第１２卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】融合语义信息的矩阵分解词向量学习模型