derived from characters,_中国高校课件下载中心

点击下载：《工程科学学报》：融合多特征嵌入与注意力机制的中文电子病历命名实体识别

正在加载图片...

巩敦卫等：融合多特征嵌入与注意力机制的中文电子病历命名实体识别 .1191· derived from characters,words,and glyphs in the input presentation layer,an attention machine was introduced to the hidden layer of the bidirectional long short-term memory network to make the model focus on the characters related to the medical entities.Finally,the optimal labels for the five types of entities in Chinese electronic medical records,including diseases,body parts,symptoms,drugs,and operations,were obtained.The experimental results for the open and self-built Chinese electronic medical records,recognition accuracy, recall rate,and FI value of the proposed algorithm are all better than 97%,which shows that the proposed algorithm can effectively identify various entities in Chinese electronic medical records. KEY WORDS Chinese;electronic medical records;named entity recognition;multifeature embedding;attention mechanism 电子病历主要用来记录患者过往病史、所患表示层的多特征嵌入：最后，在中间编码层，通过疾病及症状表现、体征检查数据、诊疗意见及治 BiLSTM实现字符在句子中的语义特征提取，并采疗效果等一系列与患者健康状况相关的重要信息山用注意力机制实现不同隐含层的权重分配，使语随着医疗行业的信息化建设推进，用于记录患者义特征提取聚焦在与实体词汇相关的特征上：进临床治疗信息的电子病历也逐步完善.基于电子而，通过CRF解码，获得全局序列最优标签病历的智能诊疗、患者画像构建及其病程追踪也 1电子病历的命名实体识别方法概述逐渐成为智慧医疗领域的热点问题-]为充分挖掘患者诊疗数据中的隐含特征和病症关联关系，命名实体识别用于抽取序列文本中具有特定高效准确的命名实体识别(Named entity recognition, 意义的实体，比如：人名、地名、时间等，并将其归 NER)是电子病历文本信息抽取的关键.虽然电子类到预定义的类别中例，已被广泛应用于金融、互病历的命名实体识别已有较丰富的研究成果，但联网搜索、智慧医疗等领域90目前，命名实体是面向中文电子病历的相关研究相对较少.特别识别方法主要有：是，复杂的中文语言结构使中文电子病历文本存 (1)基于词典匹配的方法：该类方法需要先构在专用词汇多、语言结构不规范、实体嵌套严重、建领域词典，再通过匹配算法，完成命名实体识中文词语边界模糊等特点，传统的命名实体识别别，从而有效提升实体识别率山面向电子病历所模型难于获得满意的分类效果适用的专病词库，通常从搜狗词库和维基百科词针对生物医学文本，研究人员先后提出词典条中获得，再通过添加同义词、缩写词加以扩充与规则的统计学方法，基于Transformer编码的命为强化医学词典的个性化信息，可以对电子病历名实体识别模型阿、长短期记忆网络模型条件随文本、医学文献先进行分词处理，再提取具有较大 61(Bidirectional long short-term memory with 词频一逆向文件频率的若干词加入到领域词典中 conditional random field,BiLSTM-CRF)和用于解决虽然基于词典匹配的方法对词识别率较高，但是疾病名称和实体标记不一致问题的Dic-At-BiLSTM- 由于中文医疗实体数量众多、个性化词汇丰富、难 CF模型M等.然而，上述方法没有充分考虑中文以完整的词典，所以容易导致对新词的错误识别电子病历的文本特性.为进一步提高中文电子病 (2)基于规则的方法：根据生成的大量规则.利历文本的命名实体识别准确性，本文提出一种融用实体的上下文信息，完成命名实体识别.但是，规合多特征嵌入与注意力机制的中文电子病历命名则依赖于领域专家经验，且不同领域之间的规则实体识别模型(Multi-feature embedding-BiLSTM- 可移植性差.Kraus等☒通过构建大量的正则表 Attention-CRF,MFBAC).该模型针对中文电子病达式，用于识别临床记录中的药品、剂量等医疗实体历的文本特点，首先将单词特征引入NER模型的 (3)基于统计机器学习的方法：常见的统计机输入表示层，以充分利用众多的专用医学词汇；其器学习方法有支持向量机、最大嫡、隐马尔可夫次，针对中文电子病历的稀疏标注数据和弱句子模型、条件随机场(Conditional random fields..CRF) 逻辑，采用Glove预训练与词典匹配，通过字词等.这些方法不需要过多的人工干预，但依赖于大 Lattice结构实现字词联合嵌入，从而解决传统字规模的标注数据集)和选择的特征符向量表达中文电子病历文本时存在的局限性； (4)基于深度学习的方法：该方法采用端到端再次，结合汉字字形的语义信息，通过卷积神经网的模型训练与自动特征提取，不需要对数据进行络(Convolutional neural networks,CNN)提取字形局人工处理.针对电子病历文本，研究人员先后提出部特征，与上述字词特征充分融合，最终实现输入一类Transformer编码模型间、双向长短期记忆网derived from characters, words, and glyphs in the input presentation layer, an attention machine was introduced to the hidden layer of the bidirectional long short-term memory network to make the model focus on the characters related to the medical entities. Finally, the optimal labels for the five types of entities in Chinese electronic medical records, including diseases, body parts, symptoms, drugs, and operations, were obtained. The experimental results for the open and self-built Chinese electronic medical records, recognition accuracy, recall rate, and F1 value of the proposed algorithm are all better than 97%, which shows that the proposed algorithm can effectively identify various entities in Chinese electronic medical records. KEY WORDS Chinese；electronic medical records；named entity recognition；multifeature embedding；attention mechanism 电子病历主要用来记录患者过往病史、所患疾病及症状表现、体征检查数据、诊疗意见及治疗效果等一系列与患者健康状况相关的重要信息[1] . 随着医疗行业的信息化建设推进，用于记录患者临床治疗信息的电子病历也逐步完善. 基于电子病历的智能诊疗、患者画像构建及其病程追踪也逐渐成为智慧医疗领域的热点问题[2−3] . 为充分挖掘患者诊疗数据中的隐含特征和病症关联关系，高效准确的命名实体识别（Named entity recognition, NER）是电子病历文本信息抽取的关键. 虽然电子病历的命名实体识别已有较丰富的研究成果，但是面向中文电子病历的相关研究相对较少. 特别是，复杂的中文语言结构使中文电子病历文本存在专用词汇多、语言结构不规范、实体嵌套严重、中文词语边界模糊等特点，传统的命名实体识别模型难于获得满意的分类效果[4] . 针对生物医学文本，研究人员先后提出词典与规则的统计学方法，基于 Transformer 编码的命名实体识别模型[5]、长短期记忆网络模型条件随机场 [6] （ Bidirectional long short-term memory with conditional random field，BiLSTM-CRF）和用于解决疾病名称和实体标记不一致问题的 Dic-Att-BiLSTMCRF 模型[7] 等. 然而，上述方法没有充分考虑中文电子病历的文本特性. 为进一步提高中文电子病历文本的命名实体识别准确性，本文提出一种融合多特征嵌入与注意力机制的中文电子病历命名实体识别模型（ Multi-feature embedding-BiLSTMAttention-CRF，MFBAC）. 该模型针对中文电子病历的文本特点，首先将单词特征引入 NER 模型的输入表示层，以充分利用众多的专用医学词汇；其次，针对中文电子病历的稀疏标注数据和弱句子逻辑，采用 Glove 预训练与词典匹配，通过字词 Lattice 结构实现字词联合嵌入，从而解决传统字符向量表达中文电子病历文本时存在的局限性；再次，结合汉字字形的语义信息，通过卷积神经网络（Convolutional neural networks，CNN）提取字形局部特征，与上述字词特征充分融合，最终实现输入表示层的多特征嵌入；最后，在中间编码层，通过 BiLSTM 实现字符在句子中的语义特征提取，并采用注意力机制实现不同隐含层的权重分配，使语义特征提取聚焦在与实体词汇相关的特征上；进而，通过 CRF 解码，获得全局序列最优标签. 1 电子病历的命名实体识别方法概述命名实体识别用于抽取序列文本中具有特定意义的实体，比如：人名、地名、时间等，并将其归类到预定义的类别中[8] ，已被广泛应用于金融、互联网搜索、智慧医疗等领域[9−10] . 目前，命名实体识别方法主要有：（1）基于词典匹配的方法：该类方法需要先构建领域词典，再通过匹配算法，完成命名实体识别，从而有效提升实体识别率[11] . 面向电子病历所适用的专病词库，通常从搜狗词库和维基百科词条中获得，再通过添加同义词、缩写词加以扩充. 为强化医学词典的个性化信息，可以对电子病历文本、医学文献先进行分词处理，再提取具有较大词频−逆向文件频率的若干词加入到领域词典中. 虽然基于词典匹配的方法对词识别率较高，但是由于中文医疗实体数量众多、个性化词汇丰富、难以完整的词典，所以容易导致对新词的错误识别[12] . （2）基于规则的方法：根据生成的大量规则，利用实体的上/下文信息，完成命名实体识别. 但是，规则依赖于领域专家经验，且不同领域之间的规则可移植性差. Kraus 等[12] 通过构建大量的正则表达式，用于识别临床记录中的药品、剂量等医疗实体. （3）基于统计机器学习的方法：常见的统计机器学习方法有支持向量机、最大熵、隐马尔可夫模型、条件随机场 (Conditional random fields，CRF) 等. 这些方法不需要过多的人工干预，但依赖于大规模的标注数据集[13] 和选择的特征. （4）基于深度学习的方法：该方法采用端到端的模型训练与自动特征提取，不需要对数据进行人工处理. 针对电子病历文本，研究人员先后提出一类 Transformer 编码模型[5]、双向长短期记忆网巩敦卫等：融合多特征嵌入与注意力机制的中文电子病历命名实体识别 · 1191 ·

<<向上翻页向下翻页>>

点击下载：《工程科学学报》：融合多特征嵌入与注意力机制的中文电子病历命名实体识别