正在加载图片...
·664. 智能系统学报 第12卷 算法KbEMF算法的伪代码 3.2实验设置 输入共现矩阵X,语义关系矩阵S,学习率7, 下列实验展示了由KEMF获取的词向量在不 最大迭代次数K,k: 同任务中的性能表现。为保持实验效果的一致性, 输出Wx,Cx 所有模型设置相同的参数。词向量维数统一设置 1)随机初始化:W。,C。 为200,学习率设置为6×10-7,上下文窗口为5,迭 2)fori=1toK,执行 代次数设置为300。 3)W=W- 另外,语义组合权重的大小也对实验有重要影 4)forj=1tok,执行 响。对于单词类比推理和单词相似度量任务本文 5)W.=W+n[W-(ExI W-W)+y(L+L) 均采取相同的实验策略寻找最佳语义组合权重,下 w] 面以单词类比推理任务为例详细说明最佳语义组 6)j=j+1 7)C:=C- 合权重找寻的实验过程。设定y∈[0.01,100],首 先实验y=0.01,0.1,1,10,100的单词推理正确率, 8)forj=1tok,执行 9)C:=C:+(ExIcwX-X)W: 如图1(b)所示,y=0.01,0.1,1时KbEMF没有提 升实验效果,因为语义信息所起作用太小:在y= 10)j=j+1 11)i=i+1 100时KbEMF实验效果反而更差,这是过分强调语 义信息破坏了词向量的通用性:只有在y=10时 3实验与结果 KbEMF效果较好,则最佳语义组合权重在y=10附 本节主要展示融合语义信息后获取的词向量 近的可能性最大。然后在y∈[1,10]和y∈[10, 在单词类比推理和单词相似度量任务上的性能表 100]采取同样的策略继续寻找下去,最终会得到最 现。首先介绍实验数据集及实验设置,然后分别描 佳组合权重。实验结果表明,不同任务在不同词频 述每个实验的任务和结果,并分析实验结果。 下的最优语义组合权重也不同。 3.1数据集 3.3单词类比推理 本实验选择Ewik9'作为训练语料库,经过去 给出一个问题a:b:c:d,a、b、c、d各表示一 除原始语料库中HTML元数据、超链接等预处理操 个单词其中d是未知的,类比推理任务的目标在 作后,得到一个词汇量将近13亿的训练数据集。然 于找到一个最合适的d使得a,b,c,d的词向量 后通过设置单词过滤词频限制词汇表的大小,把低 满足vec(d)与vec(b)-vec(a)+vec(c)的余弦距 于设定过滤词频的单词剔除词汇表,因此,不同过 离最近。例如,语义推理Germary:Berlin:: 滤词频产生不同大小的词汇表。 France:d,则需要找出一个向量vec(d),使它与 本实验选用WordNet2作为知识库,WordNet2有 vec(Berlin)-vec(Germary)+vec(France)最近似, 120000同义词集合,其中包含150000单词。本文 如果vec(d)对应的d是Paris则推理正确。同 借助JWI从WordNet2中抽取单词间的语义关系: 理,又如语法推理quick:quickly:slow:d,如果找 同一个同义词集合内单词对的同义关系,以及不同 到d是slowly则推理正确。该实验任务的评价指 集合间单词对的上下位关系。 标是推理出单词d的正确率,正确率越高,则 不同的实验任务所用的测试数据集也不相同。 在单词类比推理任务中,本文使用的测试集为 KbEMF学得的词向量越好。 谷歌查询数据集(Google query dataset),该数据集 本实验评估了不同参数设置对KbEMF模型影 包含19544个问题,共14种关系类型,其中5种语 响,图1是词频为6000次时,分别改变模型中词向 义关系,9种语法关系。在单词相似度量任务中,本 量维度及语义组合权重所绘制的。 文使用下列3个数据集:Luong等2使用的稀有单 从图1(a)可以看出,词向量维度小于200时, 词,Finkelstein等2]使用的Wordsim-353(WS353) 随着词向量维度增加单词推理正确率在提升,词向 数据集(RW),Huang等[o发布的上下文单词相似 量维度在200~350之间实验效果趋向于稳定,因此 数据集(SCWS)。它们分别包含2003、2034、353个 在同时兼顾实验速度与效果的情况下,本文选择学 单词对及相应的人工标注的相似度分值。 习200维度的词向量。算法 KbEMF 算法的伪代码 输入 共现矩阵 X,语义关系矩阵 S,学习率 η, 最大迭代次数 K,k; 输出 WK ,CK 。 1)随机初始化: W0 ,C0 2)for i = 1 to K,执行 3)Wi =Wi-1 4)for j = 1 to k, 执行 5) Wi = Wi + η[Wi-1 EX CT ( i-1WiW - W) + γ(L + L T ) Wi ] 6)j = j+1 7) Ci = Ci-1 8)for j = 1 to k, 执行 9) Ci = Ci + η EX C T i Wi ( X - X) W T i 10)j = j+1 11)i = i+1 3 实验与结果 本节主要展示融合语义信息后获取的词向量 在单词类比推理和单词相似度量任务上的性能表 现。 首先介绍实验数据集及实验设置,然后分别描 述每个实验的任务和结果,并分析实验结果。 3.1 数据集 本实验选择 Enwik9 1 作为训练语料库,经过去 除原始语料库中 HTML 元数据、超链接等预处理操 作后,得到一个词汇量将近 13 亿的训练数据集。 然 后通过设置单词过滤词频限制词汇表的大小,把低 于设定过滤词频的单词剔除词汇表,因此,不同过 滤词频产生不同大小的词汇表。 本实验选用 WordNet 2 作为知识库,WordNet 2 有 120 000同义词集合,其中包含150 000单词。 本文 借助 JWI 3 从 WordNet 2 中抽取单词间的语义关系: 同一个同义词集合内单词对的同义关系,以及不同 集合间单词对的上下位关系。 不同的实验任务所用的测试数据集也不相同。 在单词类比推理任务中,本文使用的测试集为 谷歌查询数据集(Google query dataset 4 ),该数据集 包含19 544个问题,共 14 种关系类型,其中 5 种语 义关系,9 种语法关系。 在单词相似度量任务中,本 文使用下列 3 个数据集:Luong 等[24] 使用的稀有单 词,Finkelstein 等[25] 使用的 Wordsim⁃353 ( WS353) 数据集(RW),Huang 等[6] 发布的上下文单词相似 数据集(SCWS)。 它们分别包含 2003、2034、353 个 单词对及相应的人工标注的相似度分值。 3.2 实验设置 下列实验展示了由 KbEMF 获取的词向量在不 同任务中的性能表现。 为保持实验效果的一致性, 所有模型设置相同的参数。 词向量维数统一设置 为 200,学习率设置为 6 × 10 -7 ,上下文窗口为 5,迭 代次数设置为 300。 另外,语义组合权重的大小也对实验有重要影 响。 对于单词类比推理和单词相似度量任务本文 均采取相同的实验策略寻找最佳语义组合权重,下 面以单词类比推理任务为例详细说明最佳语义组 合权重找寻的实验过程。 设定 γ ∈ [0.01,100],首 先实验 γ = 0.01,0.1,1,10,100 的单词推理正确率, 如图 1 (b)所示, γ = 0.01,0.1,1 时 KbEMF 没有提 升实验效果,因为语义信息所起作用太小;在 γ = 100 时 KbEMF 实验效果反而更差,这是过分强调语 义信息破坏了词向量的通用性;只有在 γ = 10 时 KbEMF 效果较好,则最佳语义组合权重在 γ = 10 附 近的可能性最大。 然后在 γ ∈ [1,10]和 γ ∈ [10, 100]采取同样的策略继续寻找下去,最终会得到最 佳组合权重。 实验结果表明,不同任务在不同词频 下的最优语义组合权重也不同。 3.3 单词类比推理 给出一个问题 a ∶ b ∶ ∶c ∶ d,a、b、c、d 各表示一 个单词其中 d 是未知的,类比推理任务的目标在 于找到一个最合适的 d 使得 a, b, c, d 的词向量 满足 vec( d)与 vec( b) -vec( a) +vec( c) 的余弦距 离 最 近。 例 如, 语 义 推 理 Germary ∶ Berlin ∶ ∶ France ∶ d,则需要找出一个向量 vec( d) ,使它与 vec( Berlin) ⁃vec( Germary) +vec( France) 最近似, 如果 vec( d) 对应的 d 是 Paris 则推理正确。 同 理,又如语法推理 quick:quickly ∶ ∶slow ∶ d,如果找 到 d 是 slowly 则推理正确。 该实验任务的评价指 标 是 推 理 出 单 词 d 的 正 确 率, 正 确 率 越 高, 则 KbEMF 学得的词向量越好。 本实验评估了不同参数设置对 KbEMF 模型影 响,图 1 是词频为6 000次时,分别改变模型中词向 量维度及语义组合权重所绘制的。 从图 1 (a)可以看出,词向量维度小于 200 时, 随着词向量维度增加单词推理正确率在提升,词向 量维度在 200~350 之间实验效果趋向于稳定,因此 在同时兼顾实验速度与效果的情况下,本文选择学 习 200 维度的词向量。 ·664· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有