正在加载图片...
巩敦卫等:融合多特征嵌入与注意力机制的中文电子病历命名实体识别 ·1193· 2.1多特征嵌入层 上下文中的含义.记特征为H=i:J,,与n,分 考虑到中文电子病历中存在的句间逻辑关系 是正反向特征向量,;是拼接符号.基于此,获得 弱、实体嵌套严重、标签数据缺乏等特点,为有效 双向LSTM输出的状态转移矩阵,记为M 提升NER模型性能,在输入表示层引入更多有效 2.3注意力机制层 特征.传统的字典匹配方法虽然可以有效解决中 传统的嵌入表示方法没有考虑字符之间的相 文电子病历文本中短句和弱逻辑关系问题,但是 关性,导致输入序列中的信息不能充分利用.为 单一的词嵌入容易因词典中关键词的缺乏而产生 此,引入注意力机制,深层提取词汇特征和语义信 识别误差.以字符表征为主,采用Lattice结构的字 息,从而对中文电子病历文本中与实体相关的字 词联合编码可以在字符特征中加人单词信息,从 符加以自动关注,忽略无用信息,兼顾长文本序列 而避免分词误差.基于此,本文将字符向量与领域 的局部特征 词典匹配后的单词,通过Lattice结构实现字词混 注意力机制源于对人类视觉的研究,已在机 合编码,得到表征向量;再与字形特征向量拼接, 器翻译、机器视觉等领域得到应用广泛考虑到 得到序列文本的多特征嵌入. 中文电子病历的短句式和句间弱逻辑特性,在中 为兼顾字符嵌入的计算代价和多特征嵌入的 间隐含层引入注意力机制,使不符合注意力模型 有效性,本文采用Glove实现字与词嵌入,为后续 的内容被弱化或者遗忘针对每个字符,注意力 的字词联合嵌入提供基础.基于维基百科、医疗 机制使所提模型聚焦于输入序列的其他信息,通 论坛、医疗典籍上获取的大规模医疗文本,采用 过获取更多线索,更好地对该字符进行编码.注意 Glove模型,将包含n个字符的医疗文本序列转换 力机制对不同字符的隐含层状态赋予不同的关注 为100维的字符向量.同理,对分词处理的文本序 权重,从而使语义特征可以集中在与医疗实体相 列,通过Glove训练,得到100维的词向量.进而, 关的字符上2 采用Lattice结构,将字词特征向量求均值后,得到 记双向LSTM输出向量为H:=:⊕h,第个 100维的字词向量序列V={w1,2,…,m.采用 字符在句子中的重要性量化为能量函数,式中 CNN提取汉字字形的局部特征0,为输入表示层 b为偏置分量 引人更多有效的语义特征.对于每个字符,采用 ei=tanh(WHi+b) (1) CNN计算字形表示,再通过CNN对所有字符进 行卷积与合并,获得字形级特征向量的序列 对e,进行归一化处理结果,记为 W={w1,w2,…,wn.进而,将W与上述字词特征向 exp(ei) Qi= (2) ∑exp(ei) 量V进行拼接,得到多特征嵌入表征U 2.2双向LSTM 由此,基于动态尺度计算注意力权重为 输入表示层的多特征向量U,经中间编码层, H=Hiai (3) 实现特征提取,虽然传统的循环神经网络 采用注意力权重分配方法来改变双向LSTM (Recurrent neural network,RNN)可以较好地建模词 输出的概率矩阵,可以兼顾更多局部特征,也就能 在句子中的语义且稳定性好,但是并行性弱、速度 改善CRF层的序列标注结果 慢,在处理长序列文本时会发生梯度消失或梯度 2.4条件随机场 爆炸,不适合学习长距离的语义信息2)LSTM在 CRF解码过程中,将重新分配权重后的双向 RNN结构中引入输入门、遗忘门和输出门,通过 LSTM概率矩阵输入,获得序列标签.记句子序列 门控机制选择性地改变需要保留的内容,捕获长 为X={x1x2x3,…,xn,其预测的标签序列为Y= 距离关联信息,有效克服了传统RNN模型在处理 y1y2y3,…ynl,则得分概率计算如下: 长序列文本时的梯度问题.记LSTM层的输出为 n×k维矩阵S=[Sijlnxk,其中,n为输入文本序列长 (4) 度,k为标签个数. i=l LSTM本质上是一种前向传播学习算法.为更 其中,M1表示从y转移到+的概率,N表示 加充分的利用上下文信息,将反向LSTM与之组 第i个词语被标记为y的概率,p(X,)表示输入句 合,构成双向LSTM,将同一输入变量的两个反向 子序列X被标记标签序列为Y的概率.当前样本 隐含层状态向量进行拼接,更高效的表示字符在 X的最佳标签序列具有最大(X,Y)值2.1    多特征嵌入层 考虑到中文电子病历中存在的句间逻辑关系 弱、实体嵌套严重、标签数据缺乏等特点,为有效 提升 NER 模型性能,在输入表示层引入更多有效 特征. 传统的字典匹配方法虽然可以有效解决中 文电子病历文本中短句和弱逻辑关系问题,但是 单一的词嵌入容易因词典中关键词的缺乏而产生 识别误差. 以字符表征为主,采用 Lattice 结构的字 词联合编码可以在字符特征中加入单词信息,从 而避免分词误差. 基于此,本文将字符向量与领域 词典匹配后的单词,通过 Lattice 结构实现字词混 合编码,得到表征向量;再与字形特征向量拼接, 得到序列文本的多特征嵌入. V = {v1, v2,··· , vn} W = {w1,w2,··· ,wn} W V U 为兼顾字符嵌入的计算代价和多特征嵌入的 有效性,本文采用 Glove 实现字与词嵌入,为后续 的字词联合嵌入提供基础. 基于维基百科、医疗 论坛、医疗典籍上获取的大规模医疗文本,采用 Glove 模型,将包含 n 个字符的医疗文本序列转换 为 100 维的字符向量. 同理,对分词处理的文本序 列,通过 Glove 训练,得到 100 维的词向量. 进而, 采用 Lattice 结构,将字词特征向量求均值后,得到 100 维 的 字 词 向 量 序 列 . 采 用 CNN 提取汉字字形的局部特征[20] ,为输入表示层 引入更多有效的语义特征. 对于每个字符,采用 CNN 计算字形表示,再通过 CNN 对所有字符进 行卷积与合并 ,获得字形级特征向量的序列 . 进而,将 与上述字词特征向 量 进行拼接,得到多特征嵌入表征 . 2.2    双向 LSTM U n×k S = [si j]n×k k 输入表示层的多特征向量 ,经中间编码层, 实 现 特 征 提 取 . 虽 然 传 统 的 循 环 神 经 网 络 (Recurrent neural network, RNN)可以较好地建模词 在句子中的语义且稳定性好,但是并行性弱、速度 慢,在处理长序列文本时会发生梯度消失或梯度 爆炸,不适合学习长距离的语义信息[23] . LSTM 在 RNN 结构中引入输入门、遗忘门和输出门,通过 门控机制选择性地改变需要保留的内容,捕获长 距离关联信息,有效克服了传统 RNN 模型在处理 长序列文本时的梯度问题. 记 LSTM 层的输出为 维矩阵 ,其中,n 为输入文本序列长 度, 为标签个数. LSTM 本质上是一种前向传播学习算法. 为更 加充分的利用上下文信息,将反向 LSTM 与之组 合,构成双向 LSTM,将同一输入变量的两个反向 隐含层状态向量进行拼接,更高效的表示字符在 H = [⃗ht ; ←−h t] ⃗ht ←−h t [·;·] M 上下文中的含义. 记特征为 , 与 分 是正反向特征向量, 是拼接符号. 基于此,获得 双向 LSTM 输出的状态转移矩阵,记为 . 2.3    注意力机制层 传统的嵌入表示方法没有考虑字符之间的相 关性,导致输入序列中的信息不能充分利用. 为 此,引入注意力机制,深层提取词汇特征和语义信 息,从而对中文电子病历文本中与实体相关的字 符加以自动关注,忽略无用信息,兼顾长文本序列 的局部特征. 注意力机制源于对人类视觉的研究,已在机 器翻译、机器视觉等领域得到应用广泛[24] . 考虑到 中文电子病历的短句式和句间弱逻辑特性,在中 间隐含层引入注意力机制,使不符合注意力模型 的内容被弱化或者遗忘[25] . 针对每个字符,注意力 机制使所提模型聚焦于输入序列的其他信息,通 过获取更多线索,更好地对该字符进行编码. 注意 力机制对不同字符的隐含层状态赋予不同的关注 权重,从而使语义特征可以集中在与医疗实体相 关的字符上[26] . Hi = [⃗hi ⊕ ←−h i] i ei b 记双向 LSTM 输出向量为 ,第 个 字符在句子中的重要性量化为能量函数 ,式中 为偏置分量. ei = tanh(WTHi +b) (1) 对 ei 进行归一化处理结果,记为 αi = exp(ei) ∑ i exp(ei) (2) 由此,基于动态尺度计算注意力权重为 H ′ i = Hi ·αi (3) 采用注意力权重分配方法来改变双向 LSTM 输出的概率矩阵,可以兼顾更多局部特征,也就能 改善 CRF 层的序列标注结果. 2.4    条件随机场 X= {x1,x2,x3,··· , xn} Y= {y1, y2,y3,···,yn} CRF 解码过程中,将重新分配权重后的双向 LSTM 概率矩阵输入,获得序列标签. 记句子序列 为 , 其 预 测 的 标 签 序 列 为 ,则得分概率计算如下: p(X,Y) = ∑n i=1 M′ yi ,yi+1 + ∑n i=1 Ni,yi (4) M′ yi ,yi+1 yi yi+1 Ni,yi yi p(X,Y) X Y X p(X,Y) 其中, 表示从 转移到 的概率, 表示 第 i 个词语被标记为 的概率, 表示输入句 子序列 被标记标签序列为 的概率. 当前样本 的最佳标签序列具有最大 值. 巩敦卫等: 融合多特征嵌入与注意力机制的中文电子病历命名实体识别 · 1193 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有