正在加载图片...
巩敦卫等:融合多特征嵌入与注意力机制的中文电子病历命名实体识别 .1191· derived from characters,words,and glyphs in the input presentation layer,an attention machine was introduced to the hidden layer of the bidirectional long short-term memory network to make the model focus on the characters related to the medical entities.Finally,the optimal labels for the five types of entities in Chinese electronic medical records,including diseases,body parts,symptoms,drugs,and operations,were obtained.The experimental results for the open and self-built Chinese electronic medical records,recognition accuracy, recall rate,and FI value of the proposed algorithm are all better than 97%,which shows that the proposed algorithm can effectively identify various entities in Chinese electronic medical records. KEY WORDS Chinese;electronic medical records;named entity recognition;multifeature embedding;attention mechanism 电子病历主要用来记录患者过往病史、所患 表示层的多特征嵌入:最后,在中间编码层,通过 疾病及症状表现、体征检查数据、诊疗意见及治 BiLSTM实现字符在句子中的语义特征提取,并采 疗效果等一系列与患者健康状况相关的重要信息山 用注意力机制实现不同隐含层的权重分配,使语 随着医疗行业的信息化建设推进,用于记录患者 义特征提取聚焦在与实体词汇相关的特征上:进 临床治疗信息的电子病历也逐步完善.基于电子 而,通过CRF解码,获得全局序列最优标签 病历的智能诊疗、患者画像构建及其病程追踪也 1电子病历的命名实体识别方法概述 逐渐成为智慧医疗领域的热点问题-]为充分挖 掘患者诊疗数据中的隐含特征和病症关联关系, 命名实体识别用于抽取序列文本中具有特定 高效准确的命名实体识别(Named entity recognition, 意义的实体,比如:人名、地名、时间等,并将其归 NER)是电子病历文本信息抽取的关键.虽然电子 类到预定义的类别中例,已被广泛应用于金融、互 病历的命名实体识别已有较丰富的研究成果,但 联网搜索、智慧医疗等领域90目前,命名实体 是面向中文电子病历的相关研究相对较少.特别 识别方法主要有: 是,复杂的中文语言结构使中文电子病历文本存 (1)基于词典匹配的方法:该类方法需要先构 在专用词汇多、语言结构不规范、实体嵌套严重、 建领域词典,再通过匹配算法,完成命名实体识 中文词语边界模糊等特点,传统的命名实体识别 别,从而有效提升实体识别率山面向电子病历所 模型难于获得满意的分类效果 适用的专病词库,通常从搜狗词库和维基百科词 针对生物医学文本,研究人员先后提出词典 条中获得,再通过添加同义词、缩写词加以扩充 与规则的统计学方法,基于Transformer编码的命 为强化医学词典的个性化信息,可以对电子病历 名实体识别模型阿、长短期记忆网络模型条件随 文本、医学文献先进行分词处理,再提取具有较大 61(Bidirectional long short-term memory with 词频一逆向文件频率的若干词加入到领域词典中 conditional random field,BiLSTM-CRF)和用于解决 虽然基于词典匹配的方法对词识别率较高,但是 疾病名称和实体标记不一致问题的Dic-At-BiLSTM- 由于中文医疗实体数量众多、个性化词汇丰富、难 CF模型M等.然而,上述方法没有充分考虑中文 以完整的词典,所以容易导致对新词的错误识别 电子病历的文本特性.为进一步提高中文电子病 (2)基于规则的方法:根据生成的大量规则.利 历文本的命名实体识别准确性,本文提出一种融 用实体的上下文信息,完成命名实体识别.但是,规 合多特征嵌入与注意力机制的中文电子病历命名 则依赖于领域专家经验,且不同领域之间的规则 实体识别模型(Multi-feature embedding-BiLSTM- 可移植性差.Kraus等☒通过构建大量的正则表 Attention-CRF,MFBAC).该模型针对中文电子病 达式,用于识别临床记录中的药品、剂量等医疗实体 历的文本特点,首先将单词特征引入NER模型的 (3)基于统计机器学习的方法:常见的统计机 输入表示层,以充分利用众多的专用医学词汇;其 器学习方法有支持向量机、最大嫡、隐马尔可夫 次,针对中文电子病历的稀疏标注数据和弱句子 模型、条件随机场(Conditional random fields..CRF) 逻辑,采用Glove预训练与词典匹配,通过字词 等.这些方法不需要过多的人工干预,但依赖于大 Lattice结构实现字词联合嵌入,从而解决传统字 规模的标注数据集)和选择的特征 符向量表达中文电子病历文本时存在的局限性; (4)基于深度学习的方法:该方法采用端到端 再次,结合汉字字形的语义信息,通过卷积神经网 的模型训练与自动特征提取,不需要对数据进行 络(Convolutional neural networks,CNN)提取字形局 人工处理.针对电子病历文本,研究人员先后提出 部特征,与上述字词特征充分融合,最终实现输入 一类Transformer编码模型间、双向长短期记忆网derived from characters, words, and glyphs in the input presentation layer, an attention machine was introduced to the hidden layer of the bidirectional long short-term memory network to make the model focus on the characters related to the medical entities. Finally, the optimal labels for the five types of entities in Chinese electronic medical records, including diseases, body parts, symptoms, drugs, and operations, were obtained. The experimental results for the open and self-built Chinese electronic medical records, recognition accuracy, recall rate, and F1 value of the proposed algorithm are all better than 97%, which shows that the proposed algorithm can effectively identify various entities in Chinese electronic medical records. KEY WORDS    Chinese;electronic medical records;named entity recognition;multifeature embedding;attention mechanism 电子病历主要用来记录患者过往病史、所患 疾病及症状表现、体征检查数据、诊疗意见及治 疗效果等一系列与患者健康状况相关的重要信息[1] . 随着医疗行业的信息化建设推进,用于记录患者 临床治疗信息的电子病历也逐步完善. 基于电子 病历的智能诊疗、患者画像构建及其病程追踪也 逐渐成为智慧医疗领域的热点问题[2−3] . 为充分挖 掘患者诊疗数据中的隐含特征和病症关联关系, 高效准确的命名实体识别(Named entity recognition, NER)是电子病历文本信息抽取的关键. 虽然电子 病历的命名实体识别已有较丰富的研究成果,但 是面向中文电子病历的相关研究相对较少. 特别 是,复杂的中文语言结构使中文电子病历文本存 在专用词汇多、语言结构不规范、实体嵌套严重、 中文词语边界模糊等特点,传统的命名实体识别 模型难于获得满意的分类效果[4] . 针对生物医学文本,研究人员先后提出词典 与规则的统计学方法,基于 Transformer 编码的命 名实体识别模型[5]、长短期记忆网络模型条件随 机 场 [6] ( Bidirectional  long  short-term  memory  with conditional random field,BiLSTM-CRF)和用于解决 疾病名称和实体标记不一致问题的 Dic-Att-BiLSTM￾CRF 模型[7] 等. 然而,上述方法没有充分考虑中文 电子病历的文本特性. 为进一步提高中文电子病 历文本的命名实体识别准确性,本文提出一种融 合多特征嵌入与注意力机制的中文电子病历命名 实体识别模型 ( Multi-feature  embedding-BiLSTM￾Attention-CRF,MFBAC). 该模型针对中文电子病 历的文本特点,首先将单词特征引入 NER 模型的 输入表示层,以充分利用众多的专用医学词汇;其 次,针对中文电子病历的稀疏标注数据和弱句子 逻辑,采用 Glove 预训练与词典匹配,通过字词 Lattice 结构实现字词联合嵌入,从而解决传统字 符向量表达中文电子病历文本时存在的局限性; 再次,结合汉字字形的语义信息,通过卷积神经网 络(Convolutional neural networks,CNN)提取字形局 部特征,与上述字词特征充分融合,最终实现输入 表示层的多特征嵌入;最后,在中间编码层,通过 BiLSTM 实现字符在句子中的语义特征提取,并采 用注意力机制实现不同隐含层的权重分配,使语 义特征提取聚焦在与实体词汇相关的特征上;进 而,通过 CRF 解码,获得全局序列最优标签. 1    电子病历的命名实体识别方法概述 命名实体识别用于抽取序列文本中具有特定 意义的实体,比如:人名、地名、时间等,并将其归 类到预定义的类别中[8] ,已被广泛应用于金融、互 联网搜索、智慧医疗等领域[9−10] . 目前,命名实体 识别方法主要有: (1)基于词典匹配的方法:该类方法需要先构 建领域词典,再通过匹配算法,完成命名实体识 别,从而有效提升实体识别率[11] . 面向电子病历所 适用的专病词库,通常从搜狗词库和维基百科词 条中获得,再通过添加同义词、缩写词加以扩充. 为强化医学词典的个性化信息,可以对电子病历 文本、医学文献先进行分词处理,再提取具有较大 词频−逆向文件频率的若干词加入到领域词典中. 虽然基于词典匹配的方法对词识别率较高,但是 由于中文医疗实体数量众多、个性化词汇丰富、难 以完整的词典,所以容易导致对新词的错误识别[12] . (2)基于规则的方法:根据生成的大量规则,利 用实体的上/下文信息,完成命名实体识别. 但是,规 则依赖于领域专家经验,且不同领域之间的规则 可移植性差. Kraus 等[12] 通过构建大量的正则表 达式,用于识别临床记录中的药品、剂量等医疗实体. (3)基于统计机器学习的方法:常见的统计机 器学习方法有支持向量机、最大熵、隐马尔可夫 模型、条件随机场 (Conditional random fields,CRF) 等. 这些方法不需要过多的人工干预,但依赖于大 规模的标注数据集[13] 和选择的特征. (4)基于深度学习的方法:该方法采用端到端 的模型训练与自动特征提取,不需要对数据进行 人工处理. 针对电子病历文本,研究人员先后提出 一类 Transformer 编码模型[5]、双向长短期记忆网 巩敦卫等: 融合多特征嵌入与注意力机制的中文电子病历命名实体识别 · 1191 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有