正在加载图片...
·144- 智能系统学报 第16卷 BERT还分别设计了全局和局部特征提取器,使 y=aBT (5) 得模型既能获得全面的语义信息,还能有效减小 情感干扰项的负面作用。实验证明,DFAOA 2本文模型 BERT在3个公开数据集上均取得了优异的成 给定包含方面词的语境序列W={w,W2,…, 绩,而在主实验基础上进行的子模块有效性实 wn}和方面词序列W={w,wW,…,Wn},DFAOA- 验,也充分证明了模型主要组成部分的设计合 BERT模型将输出方面词对应的情感分类结果, 理性。 且分类结果是负面、中立、正面中的一个。整体 1AOA注意力机制 模型结构如图1所示。宏观上可以分为4个部 分:输入层、局部特征提取器、全局特征提取器以 AOA机制由Cui等1提出,用于处理阅读理 及分类层。而局部特征提取器和全局特征提取器 解领域中的完形填空问题。它将完形填空任务转 可以细分为3个子模块:词嵌人层、编码层、注意 换为问答任务,把每个填空的候选项看作对文档 力机制。这2个提取器的设计要点都是以 的查询(query),并设计了一套算法,计算查询对 AOA为核心的注意力机制部分,最大的不同在于 文档的注意力数值以及文档对查询的注意力数 局部特征提取器中额外添加了语境动态加权模 值,将计算获得的双向注意力结果视为最终语义 块,词嵌入层和编码层的计算方式则基本相同。 匹配特征,在此基础上为每个候选项进行打分和 模型的介绍将围绕输入层、词嵌入层、编码 排序。 层、注意力机制模块以及分类层这5个部分展开。 Huang等)则对阅读理解领域的AOA进行 2.1输入层 了调整,将其应用到方面词情感分析任务中。方 对于局部特征提取器而言,输人序列就是包 面词被视为查询,方面词邻近的语境被看作是待 含方面词的语境序列以及方面词序列本身。全局 查询的文档,通过计算方面词和语境之间的双向 特征提取器的输入序列则有所不同,其语境序列 注意力数值来获得语义匹配特征,最终将产生的 需要经过特殊处理。受BERT-SPC模型)启发, 结果输入到情感分类层中。实验结果表明, 为了充分发挥BERT在本任务中的作用,全局特 AOA在方面词情感分析任务中有着优秀的表现, 征提取器将原语境序列处理成“[CLS]+原语境 能够帮助深度学习模型更为充分地利用方面词本 序列+[SEP]+方面词序列+[SEP]”的形式。其 身提供的信息以及它和语境之间的语义关联。 中,“[CLS]”和“[SEP]”是BERT使用的2种标记 设AOA的输入为方面词的语义编码h。和语 符号,前者是特殊分类向量标记符,聚集了分类 境的语义编码hc,其中,h。∈Rm,he∈R,m是方 相关的信息,后者是分隔符,在输入多个序列时 面词序列的长度(单词数),n是语境序列的长度, 用于分隔不同序列。将原语境序列处理成这种特 d是语义编码的维数。计算AOA数值的第1步 殊形式其实是将原格式转化成了BERT在处理文 是获取两者的语义联系矩阵M: 本分类任务时所要求的输入格式,从而充分发挥 M=hcht (1) 式中M∈Rm,M中第i行j列的元素表示语境序 BERT的效果。对于方面词序列,全局特征提取 列中第i个词和方面词序列中第j个词的语义匹 器与局部特征提取器的处理方式相同。 配分数。 2.2词嵌入层 接着,对M的列进行softmax操作,获得方面 DFAOA-BERT模型在该部分将单词一一映 词对语境的注意力数值a;对M的行进行softmax 射到低维向量空间中,映射方式选用BERT词嵌 入。与GloVe I6不同的是,BERT提供的是一个 操作,获得语境对方面词的注意力数值B。 exp(Mi 语义理解模型,而GloVe提供的只是一个词嵌入 ∑epM (2) 矩阵。 设GloVe提供的矩阵为M,则M∈RM,其 exp(Mi β= (3) 中,d。是词嵌入的维数,Ⅵ表示单词的总数,通过 ∑,exp(M) 矩阵M,可将任意单词w:映射成维数为d。的向 对B按列计算平均值获得B∈Rm,最后的 量。而BERT词嵌人层则是一个基于序列到序列 AOA注意力数值y∈R"则由a与B点乘得到: 技术的预训练语义理解模型,其参数并不是像 B)=- (4) GloVe这样固定不变的。因此,使用一个 BERT词嵌入层来获取局部特征提取器输入序列BERT 还分别设计了全局和局部特征提取器,使 得模型既能获得全面的语义信息,还能有效减小 情感干扰项的负面作用。实验证明,DFAOA￾BERT 在 3 个公开数据集上均取得了优异的成 绩,而在主实验基础上进行的子模块有效性实 验,也充分证明了模型主要组成部分的设计合 理性。 1 AOA 注意力机制 AOA 机制由 Cui 等 [15] 提出,用于处理阅读理 解领域中的完形填空问题。它将完形填空任务转 换为问答任务,把每个填空的候选项看作对文档 的查询 (query),并设计了一套算法,计算查询对 文档的注意力数值以及文档对查询的注意力数 值,将计算获得的双向注意力结果视为最终语义 匹配特征,在此基础上为每个候选项进行打分和 排序。 Huang 等 [3] 则对阅读理解领域的 AOA 进行 了调整,将其应用到方面词情感分析任务中。方 面词被视为查询,方面词邻近的语境被看作是待 查询的文档,通过计算方面词和语境之间的双向 注意力数值来获得语义匹配特征,最终将产生的 结果输入到情感分类层中。实验结果表明, AOA 在方面词情感分析任务中有着优秀的表现, 能够帮助深度学习模型更为充分地利用方面词本 身提供的信息以及它和语境之间的语义关联。 ha hc ha ∈ R md hc ∈ R nd m n d M 设 AOA 的输入为方面词的语义编码 和语 境的语义编码 ,其中, , , 是方 面词序列的长度 (单词数), 是语境序列的长度, 是语义编码的维数。计算 AOA 数值的第 1 步 是获取两者的语义联系矩阵 : M = hch T a (1) M ∈ R nm M i j i j 式中 , 中第 行 列的元素表示语境序 列中第 个词和方面词序列中第 个词的语义匹 配分数。 M softmax α M softmax β 接着,对 的列进行 操作,获得方面 词对语境的注意力数值 ;对 的行进行 操作,获得语境对方面词的注意力数值 。 αi j = exp( Mi j) ∑ i exp (Mi j) (2) βi j = exp( Mi j) ∑ j exp( Mi j) (3) β β¯ ∈ R m γ ∈ R n α β¯ 对 按列计算平均值获得 ,最后的 AOA 注意力数值 则由 与 点乘得到: β¯ j = 1 n ∑ i βi j (4) γ = αβ¯T (5) 2 本文模型 W = {w1,w2,··· , wn} Wt = {w t 1 ,w t 2 ,··· ,w t m } 给定包含方面词的语境序列 和方面词序列 , DFAOA￾BERT 模型将输出方面词对应的情感分类结果, 且分类结果是负面、中立、正面中的一个。整体 模型结构如图 1 所示。宏观上可以分为 4 个部 分:输入层、局部特征提取器、全局特征提取器以 及分类层。而局部特征提取器和全局特征提取器 可以细分为 3 个子模块:词嵌入层、编码层、注意 力机制。 这 2 个提取器的设计要点都是 以 AOA 为核心的注意力机制部分,最大的不同在于 局部特征提取器中额外添加了语境动态加权模 块,词嵌入层和编码层的计算方式则基本相同。 模型的介绍将围绕输入层、词嵌入层、编码 层、注意力机制模块以及分类层这 5 个部分展开。 2.1 输入层 对于局部特征提取器而言,输入序列就是包 含方面词的语境序列以及方面词序列本身。全局 特征提取器的输入序列则有所不同,其语境序列 需要经过特殊处理。受 BERT-SPC 模型[13] 启发, 为了充分发挥 BERT 在本任务中的作用,全局特 征提取器将原语境序列处理成“[CLS] + 原语境 序列 + [SEP] + 方面词序列 + [SEP]”的形式。其 中,“[CLS]”和“[SEP]”是 BERT 使用的 2 种标记 符号,前者是特殊分类向量标记符,聚集了分类 相关的信息,后者是分隔符,在输入多个序列时 用于分隔不同序列。将原语境序列处理成这种特 殊形式其实是将原格式转化成了 BERT 在处理文 本分类任务时所要求的输入格式,从而充分发挥 BERT 的效果。对于方面词序列,全局特征提取 器与局部特征提取器的处理方式相同。 2.2 词嵌入层 DFAOA-BERT 模型在该部分将单词一一映 射到低维向量空间中,映射方式选用 BERT 词嵌 入。与 GloVe [16] 不同的是,BERT 提供的是一个 语义理解模型,而 GloVe 提供的只是一个词嵌入 矩阵。 M M ∈ R de×|V| de |V| M wi de 设 GloVe 提供的矩阵为 ,则 ,其 中, 是词嵌入的维数, 表示单词的总数,通过 矩阵 ,可将任意单词 映射成维数为 的向 量。而 BERT 词嵌入层则是一个基于序列到序列 技术[4] 的预训练语义理解模型,其参数并不是像 GloV e 这样固定不变的。因此,使用一 个 BERT 词嵌入层来获取局部特征提取器输入序列 ·144· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有