正在加载图片...
第1期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·145· 与全局特征提取器序列的词嵌入,和使用2个互 同。本模型中采用2个独立的BERT词嵌入层, 相独立的BERT词嵌入层所产生的结果不完全相 原因在于该选择会小幅度提升算法的训练效果。 情感分类结果 线性分类网络 分类层 局部语义特征 全局语义特征 嵌套注意力机制 : (AOA) 嵌套注意力机制 注意力机制 (AOA) 语境动态加权模块 MHSA编码器 MHSA编码器 编码层 888 词嵌入层 局部特征提取器 全局特征提取器 局部特征提取器输入序列 全局特征提取器输入序列 输人层 图1 DFAOA-BERT模型结构 Fig.1 Structure of DFAOA-BERT model 2.3编码层 Q=XW四 (6) 本层的任务是将输入序列对应的词嵌入编 K=X.W (7) V=X.W 码成含有丰富语义信息的向量。词嵌入本身包 (8) 含的信息较为基础,基于循环神经网络的模型一 SDA(X)=Softmax QKT (9) 般使用长短时记忆网络来对词嵌入进行编码, 式中:W9、W、W均为权重矩阵;W9∈R4×d,; DFAOA-BERT则使用MHSA(multi-head self-at- W*∈R4×d:;WeR4×d。这3个矩阵中的权重属 tention)提取语义特征。MHSA的主要思想是通 过多个注意力函数来对每个单词计算注意力数 于模型的可训练参数。dg、d、d,是矩阵维度,三 值,将这多个注意力数值拼接在一起后进行激活 者的值都为d/h,其中,d是隐藏层维数,h是多 函数运算,其结果即为输人序列的语义表示。 头自注意力机制中的头数。根据每个注意力头 MHSA中的自注意力机制函数可以选用不同的 的SDA计算结果,可得到整个MHSA的输出O: 设计,DFAOA-BERT使用的是SDA(scaled dot SDA=SDAo⊕SDA1⊕·⊕SDAh-1 (10) product attention),相较于其他自注意力机制而 O-Tanh(SDAWMHSA) (11) 言,其优点在于既可以保证编码效果,又能够有 式中:⊕表示向量的拼接操作;WMsA是一个向量 效提高计算的效率。 矩阵;WMHSA E Rhd,×da:Tanh为激活函数。 令词嵌入层的输出为X,SDA的计算方式为 通过以上步骤,MHSA将基础的词嵌入编码与全局特征提取器序列的词嵌入,和使用 2 个互 相独立的 BERT 词嵌入层所产生的结果不完全相 同。本模型中采用 2 个独立的 BERT 词嵌入层, 原因在于该选择会小幅度提升算法的训练效果。 情感分类结果 线性分类网络 嵌套注意力机制 (AOA) 嵌套注意力机制 (AOA) 语境动态加权模块 MHSA 编码器 MHSA 编码器 ... e1 L 局部特征提取器 全局特征提取器 局部特征提取器输入序列 全局特征提取器输入序列 输入层 词嵌入层 编码层 注意力机制 L e2 L en ... e1 G Ge2 G en 分类层 全局语义特征 局部语义特征 图 1 DFAOA-BERT 模型结构 Fig. 1 Structure of DFAOA-BERT model 2.3 编码层 本层的任务是将输入序列对应的词嵌入编 码成含有丰富语义信息的向量。词嵌入本身包 含的信息较为基础,基于循环神经网络的模型一 般使用长短时记忆网络来对词嵌入进行编码, DFAOA-BERT 则使用 MHSA[9] (multi-head self-at￾tention) 提取语义特征。MHSA 的主要思想是通 过多个注意力函数来对每个单词计算注意力数 值,将这多个注意力数值拼接在一起后进行激活 函数运算,其结果即为输入序列的语义表示。 MHSA 中的自注意力机制函数可以选用不同的 设计,DFAOA-BERT 使用的是 SDA(scaled dot product attention),相较于其他自注意力机制而 言,其优点在于既可以保证编码效果,又能够有 效提高计算的效率。 令词嵌入层的输出为 Xe,SDA 的计算方式为 Q = XeWq (6) K = XeWk (7) V = XeWv (8) SDA(Xe) = Softmax( QKT √ dk ) V (9) Wq Wk Wv Wq ∈ R dh ×dq Wk ∈ R dh ×dk Wv ∈ R dh ×dv dq dk dv dh/h dh h O e 式中: 、 、 均为权重矩阵; ; ; 。这 3 个矩阵中的权重属 于模型的可训练参数。 、 、 是矩阵维度,三 者的值都为 ,其中, 是隐藏层维数, 是多 头自注意力机制中的头数。根据每个注意力头 的 SDA 计算结果,可得到整个 MHSA 的输出 : SDA = SDA0 ⊕SDA1 ⊕ ··· ⊕SDAh−1 (10) O e = Tanh( SDAWMHSA) (11) ⊕ WMHSA WMHSA ∈ R hdv ×dh Tanh 式中: 表示向量的拼接操作; 是一个向量 矩阵; ; 为激活函数。 通过以上步骤,MHSA 将基础的词嵌入编码 第 1 期 肖宇晗,等:基于双特征嵌套注意力的方面词情感分析算法 ·145·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有