正在加载图片...
1192 工程科学学报,第43卷,第9期 络卷积条件随机场模型、基于字符与字典匹配 于局部上下文窗口的连续词袋模型(Continuous 实体联合编码的Lattice-LSTM-CRF模型l、谷歌 bag of words,.CBOW)和跳读模型(Skip-Gram)等方 公司开源的BERT模型等,也有不少学者将迁 法仅利用局部文本数据进行训练,不能有效反映 移学习、半监督学习引入NER任务中 词汇的全局统计信息.为了克服全局矩阵分解和 (5)混合方法:Jiang等m将启发式规则与基 局部上下文窗口方法的局限性,Pennington等2四基 于机器学习的实体识别模型相融合,设计了一种 于全局文本信息,提出一种融合全局矩阵分解和 临床实体的混合识别系统.Wei等ls]则针对单一 Word2Vec的Glove方法,显著提升了词嵌入效果. 疾病的医疗实体识别,在条件随机场模型中引入 2融合多特征嵌入与注意力机制的中文电 规则.龚乐君和张知菲提出基于领域词典与 子病历命名实体识别 CRF双层标注的电子病历实体识别方法,调和 平均值(F1 Score,.F1值)达到97.2%.Hu等2o1在 MFBAC算法在输入表示层引入字符、字形、 2017年全国知识图谱与语义计算大会的临床命名 单词三个粒度的特征,并在BiLSTM-CRF中融入 实体识别竞赛中,通过构建医疗实体规则,获得了 注意力机制,兼顾局部特征,弥补了BiLSTM的不 较好的医疗实体识别效果.通过合理集成词典、 足,提升了命名实体识别效果.如图1所示,输入 规则、统计学习、深度学习等方法,提升NER模型 文本序列经Glove预训练,实现字符与单词嵌入, 性能和实体识别效果. 并通过查表操作,依次将序列文本转换为对应向 在构建NER模型时,通常采用词嵌人的方法, 量;通过词典匹配,基于字词Lattice结构,实现字 将词表示为向量,实现对中文电子病历文本的编 词联合嵌人;采用CNN提取字形的部首局部特征 码.词嵌入应该能充分挖掘词在上下文的语义特 向量;通过双向长短期记忆网络(Long short term 征.传统的独热表示方法,不仅具有高稀疏性,而 memory,LSTM),对拼接后的特征向量实现特征提 且无法刻画词的语义信息.基于此,研究人员分别 取;基于注意力机制实现不同隐含层权重的重新 提出基于全局矩阵分解和局部上下文窗口的词嵌 分配:经CRF解码,获得全局序列最优标签.由此 入方法四,全局矩阵分解方法虽然利用了全局语 可见,多特征嵌入层、双向LSTM、注意力机制 料特征,但是求解的计算规模较大.相比而言,基 层、条件随机场是MFBAC算法的关键技术. Tags I-D I-D CRF layer CRF CRF CRF Attention layer Attention mechanism BiLSTM layer BiLSTM BiLSTM Multi-embeddings CNN Lattice CNN Lattice layer Embeddings Glyph character word Glyph character word Input 常 年 糖 图1 MFBAC算法框架 Fig.1 MFBAC framework络卷积条件随机场模型[14]、基于字符与字典匹配 实体联合编码的 Lattice-LSTM-CRF 模型[15]、谷歌 公司开源的 BERT 模型[16] 等,也有不少学者将迁 移学习、半监督学习引入 NER 任务中. (5)混合方法:Jiang 等[17] 将启发式规则与基 于机器学习的实体识别模型相融合,设计了一种 临床实体的混合识别系统. Wei 等[18] 则针对单一 疾病的医疗实体识别,在条件随机场模型中引入 规则. 龚乐君和张知菲[19] 提出基于领域词典与 CRF 双层标注的电子病历实体识别方法 ,调和 平均值( F1 Score, F1 值)达到 97.2%. Hu 等[20] 在 2017 年全国知识图谱与语义计算大会的临床命名 实体识别竞赛中,通过构建医疗实体规则,获得了 较好的医疗实体识别效果. 通过合理集成词典、 规则、统计学习、深度学习等方法,提升 NER 模型 性能和实体识别效果. 在构建 NER 模型时,通常采用词嵌入的方法, 将词表示为向量,实现对中文电子病历文本的编 码. 词嵌入应该能充分挖掘词在上下文的语义特 征. 传统的独热表示方法,不仅具有高稀疏性,而 且无法刻画词的语义信息. 基于此,研究人员分别 提出基于全局矩阵分解和局部上下文窗口的词嵌 入方法[21] . 全局矩阵分解方法虽然利用了全局语 料特征,但是求解的计算规模较大. 相比而言,基 于局部上下文窗口的连续词袋模型 (Continuous bag of words, CBOW) 和跳读模型(Skip-Gram)等方 法仅利用局部文本数据进行训练,不能有效反映 词汇的全局统计信息. 为了克服全局矩阵分解和 局部上下文窗口方法的局限性,Pennington 等[22] 基 于全局文本信息,提出一种融合全局矩阵分解和 Word2Vec 的 Glove 方法,显著提升了词嵌入效果. 2    融合多特征嵌入与注意力机制的中文电 子病历命名实体识别 MFBAC 算法在输入表示层引入字符、字形、 单词三个粒度的特征,并在 BiLSTM-CRF 中融入 注意力机制,兼顾局部特征,弥补了 BiLSTM 的不 足,提升了命名实体识别效果. 如图 1 所示,输入 文本序列经 Glove 预训练,实现字符与单词嵌入, 并通过查表操作,依次将序列文本转换为对应向 量;通过词典匹配,基于字词 Lattice 结构,实现字 词联合嵌入;采用 CNN 提取字形的部首局部特征 向量;通过双向长短期记忆网络(Long short term memory,LSTM),对拼接后的特征向量实现特征提 取;基于注意力机制实现不同隐含层权重的重新 分配;经 CRF 解码,获得全局序列最优标签. 由此 可见,多特征嵌入层、双向 LSTM、注意力机制 层、条件随机场是 MFBAC 算法的关键技术. CNN Lattice CNN Lattice Attention mechanism CRF CRF CRF I-D I-D O Input Embeddings Multi-embeddings layer BiLSTM layer Attention layer Tags CRF layer BiLSTM BiLSTM Glyph character word Glyph character word ··· 常年糖尿病患者 ··· ··· ··· ··· ··· 图 1    MFBAC 算法框架 Fig.1    MFBAC framework · 1192 · 工程科学学报,第 43 卷,第 9 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有