正在加载图片...
第5期 陈培,等:融合语义信息的矩阵分解词向量学习模型 ·663· 个隐表示,并直接显式地证明了skip-gram就是分解 tr(w S.w)tr(W S.W)-2tr(W'SW)= 词共现矩阵学习词向量的模型。这一证明为进一 tr(w'(S.+S-25)W) 步推广及拓展skip-gram提供了坚实理论基础。 最终所得语义约束模型为 EMF目标函数用(1)式表示: R=tr(W(S.+S-2s)W) (2) minw,wC)=-t(NCwW+∑.e(∑e) 式中:r(·)表示矩阵的迹;S,表示语义矩阵S第i 行全部元素值的加和,即S的第i行和:S,表示语义 (1) 矩阵S第j列全部元素值的加和,即S的第j列和; 式中:X为共现矩阵;W为单词矩阵:C为上下文矩 Sm表示以S:为对角元素值的对角矩阵,S表示以 阵,V中单词、上下文单词c对应的词向量构成W S,为对角元素值的对角矩阵。 和C的列向量,d.为单词w所在X列的列向量。 2.3模型融合 Sn=S.,1×S.2X…×S×…XS,m,表示S的笛卡尔 将语义约束模型R与EMF相结合,得到融合语 乘积,Sc={0,1,…,k #(w)#(c)k是一个 义信息的矩阵分解词向量学习模型KEMF: ∑.cev#(0,c) 参数。 0=-tr(x"c"w)+∑n(∑erc)+ wEV X'ES。 2融合语义信息的矩阵分解词向量学 ytr(W'(S +S-2S)W) (3) 式中y是语义组合权重,表示语义约束模型在联合 习模型 模型中所占的比重大小。y在词向量学习过程中扮 2.1提取语义信息并构建语义矩阵 演相当重要的角色,该参数设置值过小时会弱化先 本文选择WordNet做先验知识库。WordNet是 验知识对词向量学习的影响,若过大则会破坏词向 一个覆盖范围较广的英语词汇语义网,它把含义相 量学习的通用性,无论哪种情况都不利于词向量的 同的单词组织在同义词集合中,每个同义词集合都 学习。该模型目标在于最小化目标函数0,采用变 代表一个基本的语义概念,并且这些集合之间也由 量交替迭代策略求取最优解。当Y=0时表示没有 各种关系(例如整体部分关系、上下文关系)连接。 融合语义信息,即为EMF模型。 本文基于同义词集合及集合间的关系词构建 2.4模型求解 一个语义关系矩阵S∈Rx",它的每一个元素S,= 目标函数,即式(3)不是关于C和W的联合凸 S(:,w)表示词汇表V中第i个单词w:与第j个单 函数,但却是关于C或W的凸函数,因此本文采用 词心,之间的语义相关性。如果S,=0表示单词:与 被广泛应用于矩阵分解的变量交替迭代优化策略 w没有语义相关性,反之S,≠0则表示单词w:与0 求取模型的最优解。分别对C、W求偏导数,得到 具有相关性。简单起见,本文将语义关系矩阵S构 =(ExIc-)W 30 (4) 建成0-1矩阵,如果单词w:与w:具有上述语义关系 则令Sa=1,否则S:=0。 aW=C(ExIcmX-x)+(L+L)W (5) a 2.2构建语义约束模型 本文构建语义约束模型的前提是具有语义相 式中:L=S+S-2S;Ex1cwX位于w行c列的值是 关性的词对心:、心,学到的词向量更相似,在实数空 EncIwX(w,c)=Q(w,c)o(cTw),Q位于w行c列的 间中有更近的距离,本文采用向量的欧氏距离作为 值是Q(0,c)=k0)#(C+#(,0),0)= #(0,c) 度量词对相似程度的标尺,即d(w:,w)= 1+。。本文的优化更新策略为 1 w:一w,?。因此,语义约束模型可以表示为 R=∑Sg‖小w:-w,2= W-W+n[C(ExcTwX -X)+y(L+L)W] 是5w+听g-2) (6) C←C+n[(Ex1cmwX-X)W] (7) 在一次循环中先对W迭代更新,直到目标函数 O对W收敛为止,然后对C迭代更新,再次使目标 Sw0:+若s"w-22S和%= 函数O对C收敛,至此一次循环结束,依此循环下 I= 去直到最终目标函数关于C和W都收敛为止。个隐表示,并直接显式地证明了skip⁃gram就是分解 词共现矩阵学习词向量的模型。 这一证明为进一 步推广及拓展 skip⁃gram 提供了坚实理论基础。 EMF 目标函数用(1)式表示: minW,C ζ(X,WC)= -tr X T C T ( W) +∑w∈V ln ∑X′w∈Sw e X′ T wC T w ( ) (1) 式中:X 为共现矩阵;W 为单词矩阵;C 为上下文矩 阵,V 中单词 w、上下文单词 c 对应的词向量构成 W 和 C 的列向量,dw 为单词 w 所在 X 列的列向量。 Sw = Sw,1 ×Sw,2 ×…×Sw,c ×…×Sw,| V| ,表示 Sw,c的笛卡尔 乘积, Sw,c = { 0, 1, …, k #(w)#(c) ∑w,c∈V #(w,c) } k 是一个 参数。 2 融合语义信息的矩阵分解词向量学 习模型 2.1 提取语义信息并构建语义矩阵 本文选择 WordNet 做先验知识库。 WordNet 是 一个覆盖范围较广的英语词汇语义网,它把含义相 同的单词组织在同义词集合中,每个同义词集合都 代表一个基本的语义概念,并且这些集合之间也由 各种关系(例如整体部分关系、上下文关系)连接。 本文基于同义词集合及集合间的关系词构建 一个语义关系矩阵 S ∈ R V×V ,它的每一个元素Sij = S(wi,wj) 表示词汇表 V 中第 i 个单词wi 与第 j 个单 词 wj 之间的语义相关性。 如果 Sij = 0 表示单词wi 与 wj 没有语义相关性,反之 Sij ≠ 0 则表示单词 wi 与wj 具有相关性。 简单起见,本文将语义关系矩阵 S 构 建成 0-1 矩阵,如果单词 wi 与wj 具有上述语义关系 则令 Sij = 1,否则 Sij = 0。 2.2 构建语义约束模型 本文构建语义约束模型的前提是具有语义相 关性的词对 wi、wj 学到的词向量更相似,在实数空 间中有更近的距离,本文采用向量的欧氏距离作为 度 量 词 对 相 似 程 度 的 标 尺, 即 d wi,wj ( ) = wi - wj 2 。 因此,语义约束模型可以表示为 R = ∑wi ,wj∈V Sij wi - wj 2 = ∑ V i,j = 1 Sij(w T i wi + w T j wj - 2 w T i wj) = ∑ V i =1 (∑ V j =1 Sij) w T i wi +∑ V j =1 (∑ V i =1 Sij) w T j wj - 2∑ V i, j =1 Sij w T i wj = ∑ V i = 1 Siw T i wi + ∑ V j = 1 Sjw T j wj - 2∑ V i,j = 1 Sij w T i wj = tr(W T SrowW) + tr(W T ScolW) - 2tr(W T SW) = tr(W T (Srow + Scol - 2S)W) 最终所得语义约束模型为 R = tr(W T (Srow + Scol - 2S)W) (2) 式中:tr(·)表示矩阵的迹; Si 表示语义矩阵 S 第 i 行全部元素值的加和,即 S 的第 i 行和; Sj 表示语义 矩阵 S 第 j 列全部元素值的加和,即 S 的第 j 列和; Srow表示以 Si 为对角元素值的对角矩阵,Scol表示以 Sj 为对角元素值的对角矩阵。 2.3 模型融合 将语义约束模型 R 与 EMF 相结合,得到融合语 义信息的矩阵分解词向量学习模型 KbEMF: O =- tr X T C T ( W) + ∑w∈V ln ∑X′w∈Sw e X′ T wC T w ( ) + γtr(W T (Srow + Scol - 2S)W) (3) 式中 γ 是语义组合权重,表示语义约束模型在联合 模型中所占的比重大小。 γ 在词向量学习过程中扮 演相当重要的角色,该参数设置值过小时会弱化先 验知识对词向量学习的影响,若过大则会破坏词向 量学习的通用性,无论哪种情况都不利于词向量的 学习。 该模型目标在于最小化目标函数 O,采用变 量交替迭代策略求取最优解。 当 γ = 0 时表示没有 融合语义信息,即为 EMF 模型。 2.4 模型求解 目标函数,即式(3)不是关于 C 和 W 的联合凸 函数,但却是关于 C 或 W 的凸函数,因此本文采用 被广泛应用于矩阵分解的变量交替迭代优化策略 求取模型的最优解。 分别对 C、W 求偏导数,得到 ∂O ∂C = (EX CTW X - X) W T (4) ∂O ∂W = C(EX CTW X - X) + γ(L + L T )W (5) 式中:L = Srow +Scol -2S;EX| CTW X 位于 w 行 c 列的值是 EX| CTW X(w,c) = Q(w,c)σ c T ( w) ,Q 位于 w 行 c 列的 值 是 Q(w,c) = k #(w)#(c) #(w,c) + #(w,c),σ (x) = 1 1 + e -x 。 本文的优化更新策略为 W ← W + η C(EX| CTW X - X) + γ(L + L T [ )W] (6) C ← C + η[ (EX CTW X - X) W T ] (7) 在一次循环中先对 W 迭代更新,直到目标函数 O 对 W 收敛为止,然后对 C 迭代更新,再次使目标 函数 O 对 C 收敛,至此一次循环结束,依此循环下 去直到最终目标函数关于 C 和 W 都收敛为止。 第 5 期 陈培,等:融合语义信息的矩阵分解词向量学习模型 ·663·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有