正在加载图片...
·146· 智能系统学报 第16卷 为包含丰富信息的语义向量表示。为方便下文阐 short-term memory,Bi-LSTM)压缩维数、提取语义 释,记语境序列对应的语义编码为0,方面词序 信息。令he和h.分别为Bi-LSTM最后输出的语 列对应的语义编码为0:。 境隐藏状态和方面词隐藏状态,其计算方法为 2.4注意力机制 h=LSTM (O") DFAOA-BERT模型的注意力机制设计以 he=LSTM (O") (15) AOA为核心,相对于全局特征提取器而言,局部 he=五,ha 特征提取器额外设计了语境动态加权模块来增强 其获取局部关键信息的能力。 h=LSTM(O:) 1)语境动态加权模块。 h=LSTM (O) (16) 语境动态加权模块的设计思想在于,一个方 h ha,ha 面词的情感态度往往只与邻近的词有关,远距离 式中:he∈R2;haERmx2a;da是Bi-LSTM的隐藏 的词反而可能提供噪声信息而干扰模型的判断。 状态维数。 因此,从本质上讲,语境动态加权模块就是一个 获得以上结果之后,根据第1节阐述的AOA 位置相关的注意力机制,保留邻近词的积极作 原理,计算得出最终的AOA注意力数值y。 用,根据位置关系弱化远距离词的干扰。 2.5分类层 受Zeng等1m提出的局部情境焦点(local con- 设止、hS分别为局部特征提取器和全局特征 text focus.LCF)模型启发,DFAOA-BERT的语境 提取器中语境序列的Bi-LSTM隐藏状态输出, 动态加权模块定义了语义相关距离D,根据D来 y、y分别是局部特征提取器和全局特征提取器 判断如何给语境所对应的语义向量设定计算权重。 中的AOA数值,DFAOA-BERT最终的语义表示为 设输入的原语境序列为W={w1,w2,…,w,w+1,…, =(的)'y (17) w+m-1,…,w,其中{w,w+,…,w+m-}为方面词序 列,对语境序列中的任意单词w,(1≤j≤m),D的 =(ng) (18) 计算方法为 r=r人⊕r (19) o=p-+- 本模型将,视为情感分类所依据的最终分类 (12) 特征,通过一个线性网络将其映射到任务所要求 获得每个单词对应的语义相关距离之后,需 的结果空间,并使用softmax来计算方面词所对应 要设置语义相关距离的阈值T。,之后即可进行语 的情感态度为z的可能性: 境动态加权计算。对于语境序列中的任意单词 X=Wr+b (20) w,其语义编码向量所对应的权重s计算方式为 exp(X.) P(x=2)= (21) 1,D≤TD sj= 11- Dj-TD Di>Tp (13) ∑exp(K) n 对语境序列的每个单词按顺序计算权重,得 式中:W、b分别是线性网络的权重矩阵和偏 移。Z是情感分类结果的种类数,在本任务中,情 到权重矩阵S=(S1,2,…,S)。语境动态加权的最 感态度共有负面、中立、正面3种,故Z=3。 终输出O",即为语境序列的语义编码O与S相 在模型的训练方面,DFAOA-BERT采用交叉 乘的结果: 熵损失函数来计算训练损失,同时应用L2正则化 0"=0S (14) 来抑制过拟合现象。损失函数为 2)AOA机制。 AOA机制是DFAOA-BERT注意力机制的主 L=-∑,∑zI0=log(P(.=0+gf(2) 体部分,局部特征提取器和全局特征提取器都以 式中:()是指示函数;入是L2正则项;0是 此为核心。其主要设计思想与计算方法在第1节 DFAOA-BERT模型中所有可训参数的集合。 已作详细阐述。由于2个特征提取器在该部分的 3实验结果与分析 运算方式基本一致,下面以局部特征提取器为例 进行具体说明。 3.1数据集信息 考虑到BERT词嵌入的维数较高,进入AOA 本文在3个公开的方面词情感分析数据集上 模块后运算速度很慢,所以,DFAOA-BERT首先 进行了实验:SemEval2014任务4中的餐馆评论 使用双向长短时记忆网络(bi-directional long 数据集和笔记本评论数据集1),以及ACL-14O e c O e a 为包含丰富信息的语义向量表示。为方便下文阐 释,记语境序列对应的语义编码为 ,方面词序 列对应的语义编码为 。 2.4 注意力机制 DFAOA-BERT 模型的注意力机制设计以 AOA 为核心,相对于全局特征提取器而言,局部 特征提取器额外设计了语境动态加权模块来增强 其获取局部关键信息的能力。 1) 语境动态加权模块。 语境动态加权模块的设计思想在于,一个方 面词的情感态度往往只与邻近的词有关,远距离 的词反而可能提供噪声信息而干扰模型的判断。 因此,从本质上讲,语境动态加权模块就是一个 位置相关的注意力机制,保留邻近词的积极作 用,根据位置关系弱化远距离词的干扰。 D D W = {w1,w2,··· ,wi ,wi+1,··· , wi+m−1,··· ,wn} {wi ,wi+1,··· ,wi+m−1} wj(1 ⩽ j ⩽ n) D 受 Zeng 等 [17] 提出的局部情境焦点 (local con￾text focus, LCF) 模型启发,DFAOA-BERT 的语境 动态加权模块定义了语义相关距离 ,根据 来 判断如何给语境所对应的语义向量设定计算权重。 设输入的原语境序列为 ,其中 为方面词序 列,对语境序列中的任意单词 , 的 计算方法为 Dj = j− ( i+ ⌊m 2 ⌋) − ⌊m 2 ⌋ (12) TD wj sj 获得每个单词对应的语义相关距离之后,需 要设置语义相关距离的阈值 ,之后即可进行语 境动态加权计算。对于语境序列中的任意单词 ,其语义编码向量所对应的权重 计算方式为 sj =    1, Dj ⩽ TD 1− Dj −TD n , Dj > TD (13) S = (s1,s2,··· ,sn) O w O e c S 对语境序列的每个单词按顺序计算权重,得 到权重矩阵 。语境动态加权的最 终输出 ,即为语境序列的语义编码 与 相 乘的结果: O w = O e cS T (14) 2) AOA 机制。 AOA 机制是 DFAOA-BERT 注意力机制的主 体部分,局部特征提取器和全局特征提取器都以 此为核心。其主要设计思想与计算方法在第 1 节 已作详细阐述。由于 2 个特征提取器在该部分的 运算方式基本一致,下面以局部特征提取器为例 进行具体说明。 考虑到 BERT 词嵌入的维数较高,进入 AOA 模块后运算速度很慢,所以,DFAOA-BERT 首先 使用双向长短时记忆网络(bi-directional long hc ha short-term memory,Bi-LSTM)压缩维数、提取语义 信息。令 和 分别为 Bi-LSTM 最后输出的语 境隐藏状态和方面词隐藏状态,其计算方法为 ⇀ hc= ⇀ LSTM (O w ) ↼ hc= ↼ LSTM (O w ) hc = [ ⇀ hc , ↼ hc ] (15) ⇀ ha= ⇀ LSTM ( O e a ) ↼ ha= ↼ LSTM ( O e a ) ha = [ ⇀ ha, ↼ ha ] (16) hc ∈ R n×2dh ha ∈ R m×2dh 式中: ; ; dh 是 Bi-LSTM 的隐藏 状态维数。 γ 获得以上结果之后,根据第 1 节阐述的 AOA 原理,计算得出最终的 AOA 注意力数值 。 2.5 分类层 h L c h G c γ L γ G 设 、 分别为局部特征提取器和全局特征 提取器中语境序列的 Bi-LSTM 隐藏状态输出, 、 分别是局部特征提取器和全局特征提取器 中的 AOA 数值,DFAOA-BERT 最终的语义表示为 r L = ( h L c )T γ L (17) r G = ( h G c )T γ G (18) r = r L ⊕ r G (19) r softmax z 本模型将 视为情感分类所依据的最终分类 特征,通过一个线性网络将其映射到任务所要求 的结果空间,并使用 来计算方面词所对应 的情感态度为 的可能性: X = Wlr + bl (20) P(x = z) = exp(Xz) ∑Z i=1 exp(Xz) (21) Wl bl Z Z = 3 式中: 、 分别是线性网络的权重矩阵和偏 移。 是情感分类结果的种类数,在本任务中,情 感态度共有负面、中立、正面 3 种,故 。 L2 在模型的训练方面,DFAOA-BERT 采用交叉 熵损失函数来计算训练损失,同时应用 正则化 来抑制过拟合现象。损失函数为 L = − ∑ i ∑ z∈Z I(yi = z)log(P(yi = z))+λ||θ||2 (22) 式中: I(·) 是指示函数; λ 是 L2 正则项; θ 是 DFAOA-BERT 模型中所有可训参数的集合。 3 实验结果与分析 3.1 数据集信息 本文在 3 个公开的方面词情感分析数据集上 进行了实验:SemEval 2014 任务 4 中的餐馆评论 数据集和笔记本评论数据集[ 1 8 ] ,以及 ACL-14 ·146· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有