络卷积条件随机场模型[14]、基于字符与字典匹配实体联合编码的 Latt

正在加载图片...

1192 工程科学学报，第43卷，第9期络卷积条件随机场模型、基于字符与字典匹配于局部上下文窗口的连续词袋模型(Continuous 实体联合编码的Lattice-LSTM-CRF模型l、谷歌 bag of words,.CBOW)和跳读模型(Skip-Gram)等方公司开源的BERT模型等，也有不少学者将迁法仅利用局部文本数据进行训练，不能有效反映移学习、半监督学习引入NER任务中词汇的全局统计信息.为了克服全局矩阵分解和 (5)混合方法：Jiang等m将启发式规则与基局部上下文窗口方法的局限性，Pennington等2四基于机器学习的实体识别模型相融合，设计了一种于全局文本信息，提出一种融合全局矩阵分解和临床实体的混合识别系统.Wei等ls]则针对单一 Word2Vec的Glove方法，显著提升了词嵌入效果. 疾病的医疗实体识别，在条件随机场模型中引入 2融合多特征嵌入与注意力机制的中文电规则.龚乐君和张知菲提出基于领域词典与子病历命名实体识别 CRF双层标注的电子病历实体识别方法，调和平均值(F1 Score,.F1值)达到97.2%.Hu等2o1在 MFBAC算法在输入表示层引入字符、字形、 2017年全国知识图谱与语义计算大会的临床命名单词三个粒度的特征，并在BiLSTM-CRF中融入实体识别竞赛中，通过构建医疗实体规则，获得了注意力机制，兼顾局部特征，弥补了BiLSTM的不较好的医疗实体识别效果.通过合理集成词典、足，提升了命名实体识别效果.如图1所示，输入规则、统计学习、深度学习等方法，提升NER模型文本序列经Glove预训练，实现字符与单词嵌入，性能和实体识别效果. 并通过查表操作，依次将序列文本转换为对应向在构建NER模型时，通常采用词嵌人的方法，量；通过词典匹配，基于字词Lattice结构，实现字将词表示为向量，实现对中文电子病历文本的编词联合嵌人；采用CNN提取字形的部首局部特征码.词嵌入应该能充分挖掘词在上下文的语义特向量；通过双向长短期记忆网络(Long short term 征.传统的独热表示方法，不仅具有高稀疏性，而 memory,LSTM),对拼接后的特征向量实现特征提且无法刻画词的语义信息.基于此，研究人员分别取；基于注意力机制实现不同隐含层权重的重新提出基于全局矩阵分解和局部上下文窗口的词嵌分配：经CRF解码，获得全局序列最优标签.由此入方法四，全局矩阵分解方法虽然利用了全局语可见，多特征嵌入层、双向LSTM、注意力机制料特征，但是求解的计算规模较大.相比而言，基层、条件随机场是MFBAC算法的关键技术. Tags I-D I-D CRF layer CRF CRF CRF Attention layer Attention mechanism BiLSTM layer BiLSTM BiLSTM Multi-embeddings CNN Lattice CNN Lattice layer Embeddings Glyph character word Glyph character word Input 常年糖图1 MFBAC算法框架 Fig.1 MFBAC framework络卷积条件随机场模型[14]、基于字符与字典匹配实体联合编码的 Lattice-LSTM-CRF 模型[15]、谷歌公司开源的 BERT 模型[16] 等，也有不少学者将迁移学习、半监督学习引入 NER 任务中. （5）混合方法：Jiang 等[17] 将启发式规则与基于机器学习的实体识别模型相融合，设计了一种临床实体的混合识别系统. Wei 等[18] 则针对单一疾病的医疗实体识别，在条件随机场模型中引入规则. 龚乐君和张知菲[19] 提出基于领域词典与 CRF 双层标注的电子病历实体识别方法，调和平均值（ F1 Score， F1 值）达到 97.2%. Hu 等[20] 在 2017 年全国知识图谱与语义计算大会的临床命名实体识别竞赛中，通过构建医疗实体规则，获得了较好的医疗实体识别效果. 通过合理集成词典、规则、统计学习、深度学习等方法，提升 NER 模型性能和实体识别效果. 在构建 NER 模型时，通常采用词嵌入的方法，将词表示为向量，实现对中文电子病历文本的编码. 词嵌入应该能充分挖掘词在上下文的语义特征. 传统的独热表示方法，不仅具有高稀疏性，而且无法刻画词的语义信息. 基于此，研究人员分别提出基于全局矩阵分解和局部上下文窗口的词嵌入方法[21] . 全局矩阵分解方法虽然利用了全局语料特征，但是求解的计算规模较大. 相比而言，基于局部上下文窗口的连续词袋模型 (Continuous bag of words, CBOW) 和跳读模型（Skip-Gram）等方法仅利用局部文本数据进行训练，不能有效反映词汇的全局统计信息. 为了克服全局矩阵分解和局部上下文窗口方法的局限性，Pennington 等[22] 基于全局文本信息，提出一种融合全局矩阵分解和 Word2Vec 的 Glove 方法，显著提升了词嵌入效果. 2 融合多特征嵌入与注意力机制的中文电子病历命名实体识别 MFBAC 算法在输入表示层引入字符、字形、单词三个粒度的特征，并在 BiLSTM-CRF 中融入注意力机制，兼顾局部特征，弥补了 BiLSTM 的不足，提升了命名实体识别效果. 如图 1 所示，输入文本序列经 Glove 预训练，实现字符与单词嵌入，并通过查表操作，依次将序列文本转换为对应向量；通过词典匹配，基于字词 Lattice 结构，实现字词联合嵌入；采用 CNN 提取字形的部首局部特征向量；通过双向长短期记忆网络（Long short term memory，LSTM），对拼接后的特征向量实现特征提取；基于注意力机制实现不同隐含层权重的重新分配；经 CRF 解码，获得全局序列最优标签. 由此可见，多特征嵌入层、双向 LSTM、注意力机制层、条件随机场是 MFBAC 算法的关键技术. CNN Lattice CNN Lattice Attention mechanism CRF CRF CRF I-D I-D O Input Embeddings Multi-embeddings layer BiLSTM layer Attention layer Tags CRF layer BiLSTM BiLSTM Glyph character word Glyph character word ··· 常年糖尿病患者 ··· ··· ··· ··· ··· 图 1 MFBAC 算法框架 Fig.1 MFBAC framework · 1192 · 工程科学学报，第 43 卷，第 9 期

<<向上翻页向下翻页>>

点击下载：融合多特征嵌入与注意力机制的中文电子病历命名实体识别