工程科学学报 Chinese Journal of Engineering 基于领域词典与CRF双层标注的中文电子病历实体识别 龚乐君张知菲 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF GONG Le-jun.ZHANG Zhi-fei 引用本文: 龚乐君,张知菲.基于领域词典与CRF双层标注的中文电子病历实体识别.工程科学学报,2020,42(4):469-475.doi: 10.13374-issn2095-9389.2019.09.04.004 GONG Le-jun,ZHANG Zhi-fei.Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF[J].Chinese Journal of Engineering,2020,42(4):469-475.doi: 10.13374j.issn2095-9389.2019.09.04.004 在线阅读View online::htps/ldoi.org/10.13374/.issn2095-9389.2019.09.04.004 您可能感兴趣的其他文章 Articles you may be interested in 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报.2020.42(4:476htps:loi.org10.13374.issn2095-9389.2019.09.17.002 电子鼻研究进展及在中国白酒检测的应用 Review of electronic-nose technologies and application for Chinese liquor identification 工程科学学报.2017,39(4:475htps:/1doi.org10.13374issn2095-9389.2017.04.001 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报.2019,41(9:1201 https:doi.org10.13374.issn2095-9389.2019.09.012 弱光照条件下交通标志检测与识别 Traffic signs detection and recognition under low illumination conditions 工程科学学报.优先发表https:ldoi.org10.13374j.issn2095-9389.2019.08.14.003 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报.2020.42(4:500 https::/1doi.org/10.13374.issn2095-9389.2019.09.13.003
基于领域词典与CRF双层标注的中文电子病历实体识别 龚乐君 张知菲 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF GONG Le-jun, ZHANG Zhi-fei 引用本文: 龚乐君, 张知菲. 基于领域词典与CRF双层标注的中文电子病历实体识别[J]. 工程科学学报, 2020, 42(4): 469-475. doi: 10.13374/j.issn2095-9389.2019.09.04.004 GONG Le-jun, ZHANG Zhi-fei. Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF[J]. Chinese Journal of Engineering, 2020, 42(4): 469-475. doi: 10.13374/j.issn2095-9389.2019.09.04.004 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.09.04.004 您可能感兴趣的其他文章 Articles you may be interested in 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报. 2020, 42(4): 476 https://doi.org/10.13374/j.issn2095-9389.2019.09.17.002 电子鼻研究进展及在中国白酒检测的应用 Review of electronic-nose technologies and application for Chinese liquor identification 工程科学学报. 2017, 39(4): 475 https://doi.org/10.13374/j.issn2095-9389.2017.04.001 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报. 2019, 41(9): 1201 https://doi.org/10.13374/j.issn2095-9389.2019.09.012 弱光照条件下交通标志检测与识别 Traffic signs detection and recognition under low illumination conditions 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2019.08.14.003 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报. 2020, 42(4): 500 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003
工程科学学报.第42卷,第4期:469-475.2020年4月 Chinese Journal of Engineering,Vol.42,No.4:469-475,April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.04.004;http://cje.ustb.edu.cn 基于领域词典与CRF双层标注的中文电子病历实体识别 龚乐君12)四,张知菲2) 1)南京邮电大学计算机学院、软件学院、网络空间安全学院,南京2100232)江苏省大数据安全与智能处理重点实验室,南京210023 ☒通信作者,E-mail:gj98226@163.com 摘要医疗实体识别是电子病历文本信息抽取的基本任务,针对中文电子病历文本复合实体较多、实体长度较长、句子成 分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CR℉)的双层 标注模型.该模型通过对外部资源的统计分析构建医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,将领域 词典识别的准确性和机器学习的自动性融为一体,从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体,该 模型在测试数据中的宏精确率为96.7%、宏召回率为97.7%、宏F1值为97.2%.同时对比分析了采用注意力机制的深度神经 网络的识别效果,因受到领域数据集大小的限制,在该测试数据集中后者表现不佳.实验结果表明了该双层标注模型对中文 医疗实体识别的高效性 关键词中文电子病历:医疗实体识别:领域词典:条件随机场:注意力机制 分类号TP391.1 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF GONG Le-jun2,ZHANG Zhi-fei2 1)School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China 2)Jiangsu Key Lab of Big Data Security Intelligent Processing,Nanjing 210023,China Corresponding author,E-mail:glj98226@163.com ABSTRACT As a document recorded by professional medical personnel,electronic medical records contain a large and important clinical resource.How to use a large amount of potential information in electronic medical records has become one of the major research directions.Chinese electronic medical records are knowledge-intensive,in which the data has considerable research value.However, they have more complex entities because of the language features of Chinese,and the composite entity is long.These sentences components in the text are missing.Moreover,the boundaries of clinical entities are often unclear.Labeling corpus is a job that requires a great deal of manpower because of the technical language used in a given text.Therefore,the recognition of Chinese clinical named entities is a hard problem.Considering these characteristics of Chinese electronic medical records,this paper proposed a double-layer annotation model that combined with a domain dictionary and conditional random field(CRF).A medical domain dictionary was constructed by statistical analysis method,and combined with CRF to mark two different granularity labeling operations.The manually constructed medical domain dictionary has extremely high accuracy for the recognition of registered words,and machine learning could automatically recognize unregistered words.This work integrated the two aspects based on these advantages.With the proposed method, diseases,symptoms,drugs,and operations could be recognized from Chinese electronic medical records.Using the test dataset,the 收稿日期:2019-09-04 基金项目:国家自然科学基金资助项目(61502243.61502247.61572263):浙江省智慧医疗工程技术研究中心资助项目(2016E10011):中国 博士后基金资助项目(2018M632349):江苏省高校自然科学基金资助项目(16KJB520003)
基于领域词典与 CRF 双层标注的中文电子病历实体识别 龚乐君1,2) 苣,张知菲1,2) 1) 南京邮电大学计算机学院、软件学院、网络空间安全学院,南京 210023 2) 江苏省大数据安全与智能处理重点实验室,南京 210023 苣通信作者,E-mail:glj98226@163.com 摘 要 医疗实体识别是电子病历文本信息抽取的基本任务. 针对中文电子病历文本复合实体较多、实体长度较长、句子成 分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状,提出了一种基于领域词典和条件随机场(CRF)的双层 标注模型. 该模型通过对外部资源的统计分析构建医疗领域词典,再结合条件随机场,进行了两次不同粒度的标注,将领域 词典识别的准确性和机器学习的自动性融为一体,从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体. 该 模型在测试数据中的宏精确率为 96.7%、宏召回率为 97.7%、宏 F1 值为 97.2%. 同时对比分析了采用注意力机制的深度神经 网络的识别效果,因受到领域数据集大小的限制,在该测试数据集中后者表现不佳. 实验结果表明了该双层标注模型对中文 医疗实体识别的高效性. 关键词 中文电子病历;医疗实体识别;领域词典;条件随机场;注意力机制 分类号 TP391.1 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF GONG Le-jun1,2) 苣 ,ZHANG Zhi-fei1,2) 1) School of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210023, China 2) Jiangsu Key Lab of Big Data Security & Intelligent Processing, Nanjing 210023, China 苣 Corresponding author, E-mail: glj98226@163.com ABSTRACT As a document recorded by professional medical personnel, electronic medical records contain a large and important clinical resource. How to use a large amount of potential information in electronic medical records has become one of the major research directions. Chinese electronic medical records are knowledge-intensive, in which the data has considerable research value. However, they have more complex entities because of the language features of Chinese, and the composite entity is long. These sentences components in the text are missing. Moreover, the boundaries of clinical entities are often unclear. Labeling corpus is a job that requires a great deal of manpower because of the technical language used in a given text. Therefore, the recognition of Chinese clinical named entities is a hard problem. Considering these characteristics of Chinese electronic medical records, this paper proposed a double-layer annotation model that combined with a domain dictionary and conditional random field (CRF). A medical domain dictionary was constructed by statistical analysis method, and combined with CRF to mark two different granularity labeling operations. The manually constructed medical domain dictionary has extremely high accuracy for the recognition of registered words, and machine learning could automatically recognize unregistered words. This work integrated the two aspects based on these advantages. With the proposed method, diseases, symptoms, drugs, and operations could be recognized from Chinese electronic medical records. Using the test dataset, the 收稿日期: 2019−09−04 基金项目: 国家自然科学基金资助项目(61502243,61502247,61572263);浙江省智慧医疗工程技术研究中心资助项目(2016E10011);中国 博士后基金资助项目(2018M632349);江苏省高校自然科学基金资助项目(16KJB520003) 工程科学学报,第 42 卷,第 4 期:469−475,2020 年 4 月 Chinese Journal of Engineering, Vol. 42, No. 4: 469−475, April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.04.004; http://cje.ustb.edu.cn
470 工程科学学报,第42卷,第4期 Macro-P with 96.7%,the Macro-R with 97.7%and the Macro-F1 with 97.2%were obtained.The recognition performance of the proposed method was greatly improved compared with that of a single-layer model.The recognition effect of deep neural network with attention was also analyzed,which did not perform well due to the size of the domain dataset.The experimental results show the efficiency of the double-layer annotation model for the named entity recognition of Chinese electronic medical records. KEY WORDS Chinese electronic medical records;clinical named entity recognition;medical domain dictionary;conditional random field;attention 近些年来,医疗信息化以及大批在线问诊网 (2)中文电子病历中的医疗实体长度不定,大 站、病例交流网站的迅猛发展产生了海量的电子 部分医疗实体长度长于通用实体.医疗实体构成 病历.电子病历中包含了大量重要的临床资源.如 结构较为复杂,存在大量的嵌套、别名、缩略词等 何利用电子病历所包含的大量潜在信息,成为目 问题,没有严格的构词规律可以遵循20 前热门的研究方向之一,作为文本挖掘的基础任 (3)在中文电子病历的不同部分,医疗实体的 务,命名实体识别在病历文本中需要识别的实体 类别属性有所差异,进行命名实体标注时存在分 类型主要为疾病名称、症状、医疗人员采取的措 类模糊的问题,无法清晰判断某些命名实体之间 施(包括检查措施和治疗措施)、药品名称等医疗 的界限.常见的是症状表现的实体也经常出现在疾 实体 病实体名中,这种互相交叉包含的情况大量存在. 有研究表明,在中文电子病历中,实体分布的 针对以上问题,本文提出了一种基于领域词典 密集程度远高于通用领域文本川中文电子病历语 与条件随机场(Conditional random field,CRF)的预标 料中实体字符所占比例接近中文通用语料的 注-二次标注双层标注模型(Double layer annotation 2倍,这说明了中文电子病历是一种知识密集型的 model,DLAM).DLAM并不着眼于人工选择词法、 文本,其数据具有相当的研究价值 句法特征,也并非单纯的基于词典的命名实体识 命名实体识别任务,常常被作为序列标注任 别,而是将两者结合起来,通过一次预标注-二次精 务来处理)机器学习中特征的选择情况将会直接 确标注的形式将人工构建的准确性和机器学习的 影响实体识别的效果,因此大部分中文医疗实体 自动性融为一体.实验结果表明,该双层标注模型 识别研究集中于构造和选择不同特征.wang等) 能够很好地完成中文医疗实体识别任务 利用字符位置信息和短分句对症状实体进行识 1相关方法 别,在中医文本语料上达到了95.12%的F1值.文 献[4-)研究了语言符号特征、词性特征、关键词 中文医疗实体识别问题可转化为序列标注 特征、词典特征、分词特征、词块特征等多特征组 问题.序列标注问题即对于输入序列A=a1,…,an 合与多种学习器组合对病历实体识别的影响.随 和标签集合L,确定输出标签序列B=b1,…,bm 着深度学习阁技术的发展,利用深度神经网络对 (b:∈L,1≤i≤m).其本质是对输人序列中每个元素 中文医疗实体识别的相关研究9]也在进行,其模 根据上下文进行分类 型基本为序列模型一循环神经网络(Recurrent 基于词典与规则的实体识别方法虽然人工开 neural networks,RNN)及其变体 销大,但对登录词的识别效率极高,领域词典包含 英文电子病历命名实体识别的相关研究 的领域特征信息也非常丰富,因此考虑通过构建 已经形成了相当完善的模式.相比之下,中文电子 小规模的领域词典,将词典的准确性与机器学习 病历命名实体识别工作刚展开不久,缺少充足的 发现未登录词的能力结合起来 标注语料.除此之外,中文医疗实体识别仍存在以 1.1统计方法构建领域词典 下难点: 中文病历文本的语言特征和用词构成与通用 (1)中文电子病历中的医疗实体数量众多、类 文本差异甚大,在由病历文本构建领域词典的过 型丰富,难以建立大而全的疾病、药品或是科室检 程中,为了使领域词典中收录的词更具有领域专 查等医学关键词词典.对于固定不变的医学词典 业性,使用新闻语料作为筛选语料库 而言,病历文本中将不断地有新的未登录词出现 病历文本经过分词后提取每份文本中T℉ 这些新的医疗实体变化多样,更加难以收录 IDF2]值最大的前50词W={w,1≤i≤501,计算w;在
Macro-P with 96.7%, the Macro-R with 97.7% and the Macro-F1 with 97.2% were obtained. The recognition performance of the proposed method was greatly improved compared with that of a single-layer model. The recognition effect of deep neural network with attention was also analyzed, which did not perform well due to the size of the domain dataset. The experimental results show the efficiency of the double-layer annotation model for the named entity recognition of Chinese electronic medical records. KEY WORDS Chinese electronic medical records;clinical named entity recognition;medical domain dictionary;conditional random field;attention 近些年来,医疗信息化以及大批在线问诊网 站、病例交流网站的迅猛发展产生了海量的电子 病历. 电子病历中包含了大量重要的临床资源. 如 何利用电子病历所包含的大量潜在信息,成为目 前热门的研究方向之一. 作为文本挖掘的基础任 务,命名实体识别在病历文本中需要识别的实体 类型主要为疾病名称、症状、医疗人员采取的措 施(包括检查措施和治疗措施)、药品名称等医疗 实体. 有研究表明,在中文电子病历中,实体分布的 密集程度远高于通用领域文本[1] . 中文电子病历语 料中实体字符所占比例接近中文通用语料 的 2 倍,这说明了中文电子病历是一种知识密集型的 文本,其数据具有相当的研究价值. 命名实体识别任务,常常被作为序列标注任 务来处理[2] . 机器学习中特征的选择情况将会直接 影响实体识别的效果,因此大部分中文医疗实体 识别研究集中于构造和选择不同特征. Wang 等[3] 利用字符位置信息和短分句对症状实体进行识 别,在中医文本语料上达到了 95.12% 的 F1 值. 文 献 [4−7] 研究了语言符号特征、词性特征、关键词 特征、词典特征、分词特征、词块特征等多特征组 合与多种学习器组合对病历实体识别的影响. 随 着深度学习[8] 技术的发展,利用深度神经网络对 中文医疗实体识别的相关研究[9−13] 也在进行,其模 型基本为序列模型——循环神经网络(Recurrent neural networks, RNN)及其变体. 英文电子病历命名实体识别的相关研究[14−19] 已经形成了相当完善的模式. 相比之下,中文电子 病历命名实体识别工作刚展开不久,缺少充足的 标注语料. 除此之外,中文医疗实体识别仍存在以 下难点: (1)中文电子病历中的医疗实体数量众多、类 型丰富,难以建立大而全的疾病、药品或是科室检 查等医学关键词词典. 对于固定不变的医学词典 而言,病历文本中将不断地有新的未登录词出现. 这些新的医疗实体变化多样,更加难以收录. (2)中文电子病历中的医疗实体长度不定,大 部分医疗实体长度长于通用实体. 医疗实体构成 结构较为复杂,存在大量的嵌套、别名、缩略词等 问题,没有严格的构词规律可以遵循[20] . (3)在中文电子病历的不同部分,医疗实体的 类别属性有所差异,进行命名实体标注时存在分 类模糊的问题,无法清晰判断某些命名实体之间 的界限. 常见的是症状表现的实体也经常出现在疾 病实体名中,这种互相交叉包含的情况大量存在. 针对以上问题,本文提出了一种基于领域词典 与条件随机场(Conditional random field, CRF)的预标 注-二次标注双层标注模型(Double layer annotation model, DLAM). DLAM 并不着眼于人工选择词法、 句法特征,也并非单纯的基于词典的命名实体识 别,而是将两者结合起来,通过一次预标注-二次精 确标注的形式将人工构建的准确性和机器学习的 自动性融为一体. 实验结果表明,该双层标注模型 能够很好地完成中文医疗实体识别任务. 1 相关方法 A = a1,··· ,an B = b1,··· ,bn (bi ∈ L,1 ⩽ i ⩽ n) 中文医疗实体识别问题可转化为序列标注 问题. 序列标注问题即对于输入序列 和标签集 合 L,确定输出标签序列 . 其本质是对输入序列中每个元素 根据上下文进行分类. 基于词典与规则的实体识别方法虽然人工开 销大,但对登录词的识别效率极高,领域词典包含 的领域特征信息也非常丰富. 因此考虑通过构建 小规模的领域词典,将词典的准确性与机器学习 发现未登录词的能力结合起来. 1.1 统计方法构建领域词典 中文病历文本的语言特征和用词构成与通用 文本差异甚大,在由病历文本构建领域词典的过 程中,为了使领域词典中收录的词更具有领域专 业性,使用新闻语料作为筛选语料库. W={wi |1 ⩽ i ⩽ 50} wi 病历文本经过分词后提取每份文本 中 TFIDF[21] 值最大的前 50 词 ,计算 在 · 470 · 工程科学学报,第 42 卷,第 4 期
龚乐君等:基于领域词典与CF双层标注的中文电子病历实体识别 471. 新闻语料库中的归一化词频tf,m为预先设置的阈 (7)输出:标注结果 值,当满足f;≤m时,将w加入领域词典中 详细过程如图1所示 12基于领域词典和CRF的双层标注模型DLAM CRF是一种无向概率图模型,其优点在于为 Basic feature set 一个位置进行标注的过程中可以利用丰富的内部 及上下文特征信息四由于考虑了输出标签序列 Input CRF 的联合概率分布,线性链条件随机场被大量应用 于序列标注问题 本研究中提出的基于领域词典与CRF的双层 Domain dictionary 标注模型DLAM是在标准线性链条件随机场的前 面增加一层基于领域词典匹配的预标注层 Results of the first Output ayer annotation 中文电子病历医疗实体识别任务中,输入序 列X为中文电子病历文本,输出序列Y为对应的 图1基于领域词典与CRF的双层标注模型 标签序列.在给定输入序列X=1,…,的情况下, Fig.I Double-layer annotation model 通过领域词典匹配得到预标注序列D=d1,…,dn,最 2实验数据 大化输出标签序列Y的联合条件概率的似然估 计.对于输入序列X,最有可能的输出标签序列Y: 由于国内对患者隐私的保护政策,医院电子 Y argmax P(ylx,d) (1) 病历较难获得.因此,选择从“爱爱医”网站上爬取 了1064份呼吸科病历文本和30262份不限科室病 DLAM将预标注结果序列D和输入序列X共 历文本作为实验数据.1064份呼吸科电子病历中 同作为CRF的输入.因此,DLAM中的条件随机 的864份用于1.1节所述统计方法构建领域词典, 场为给定XD条件下的联合条件概率P=(YX,D) 200份在参考文献[23]以及英文I2B2、UMLS语 在随机变量X取值为x的条件下,随机变量D取 义类型的基础上,标注出疾病、症状、药品、操 值为d,随机变量Y的条件概率如下: 作四类医疗实体.标注规范如下: P(ylx,d)= (1)疾病:医生对患者做出的诊断或以“病”、 Z(x exp k40-y,x,d,)+4s0,x,d,i) “症”作为结尾的实体统称为疾病.如“肺内隔 il 离症” (2) (2)症状:由疾病导致的不适表现、异常表现、 Z闭=∑ep∑e6-1..xd+∑6.xd. 正常或异常的检查结果或者患者的不健康状态以 0 及患者自述中的病史介绍.如“声音嘶哑”、“无结 (3) 核病史” 与标准线性链条件随机场类似,式(2)、(3)中 (3)药品:诊疗过程中给予患者的具体药物名 和s是特征函数,和山是对应的权值.Z()是规 称或药物类别.如“地塞米松”、“抗生素” 范化因子,求和是在所有可能的输出序列上进行 (4)操作:包括检查项目和诊疗手段.检查项 的.模型的训练过程即是在特征函数下,训练其对 目是指,为了发现、证实或是否认疾病,希望得到 应的权值 更多关于疾病的信息而施加给患者的检查项目 DLAM算法步骤如下: 诊疗手段是指,为了缓解不适症状或者解决疾病 (1)输入:病历文本序列X=x1,…,xn 而施加给患者的干预措施和治疗程序.如“拍胸 (2)构建领域词典S, 片”、“抗感染”、“胸腔穿刺术” (3)文本与词典进行匹配的结果为SnX; 表1所示为训练、测试语料数据分布 (4)打碎S∩nX结果形成基元,得到一层标注序 另外,在本研究中,为了验证DLAM模型效果, 列:D=d1,…,dn 选择注意力深度神经网络BiLSTM-Attention-CRF (5)抽取文本的基本特征集F=f,…, 作为参照.因此,30262份不限科室未标注电子病历 (6)将一层标注结果D及文本特征F投入CRF 使用Word2vec工具,采用skip-gram模型,基于字 模型,得到二层标注序列Y=y1,…ym 粒度分别训练出50维、150维、300维的字嵌入
tfi tfi ⩽ m wi 新闻语料库中的归一化词频 ,m 为预先设置的阈 值,当满足 时,将 加入领域词典中. 1.2 基于领域词典和 CRF 的双层标注模型 DLAM CRF 是一种无向概率图模型,其优点在于为 一个位置进行标注的过程中可以利用丰富的内部 及上下文特征信息[22] . 由于考虑了输出标签序列 的联合概率分布,线性链条件随机场被大量应用 于序列标注问题. 本研究中提出的基于领域词典与 CRF 的双层 标注模型 DLAM 是在标准线性链条件随机场的前 面增加一层基于领域词典匹配的预标注层. X = x1,··· , xn D=d1,··· ,dn 中文电子病历医疗实体识别任务中,输入序 列 X 为中文电子病历文本,输出序列 Y 为对应的 标签序列. 在给定输入序列 的情况下, 通过领域词典匹配得到预标注序列 ,最 大化输出标签序列 Y 的联合条件概率的似然估 计. 对于输入序列 X,最有可能的输出标签序列 Y: Y = argmax y P(y|x,d) (1) P = (Y|X,D) DLAM 将预标注结果序列 D 和输入序列 X 共 同作为 CRF 的输入. 因此,DLAM 中的条件随机 场为给定 X,D 条件下的联合条件概率 . 在随机变量 X 取值为 x 的条件下,随机变量 D 取 值为 d,随机变量 Y 的条件概率如下: P(y|x,d) = 1 Z (x) exp ∑ i,k λktk (yi−1, yi , x,d,i)+ ∑ i,l µlsl(yi , x,d,i) (2) Z (x)= ∑ y exp ∑ i,k λktk (yi−1, yi , x,d,i)+ ∑ i,l µlsl(yi , x,d,i) (3) tk sl λk µl Z (x) 与标准线性链条件随机场类似,式(2)、(3)中 和 是特征函数, 和 是对应的权值. 是规 范化因子,求和是在所有可能的输出序列上进行 的. 模型的训练过程即是在特征函数下,训练其对 应的权值. DLAM 算法步骤如下: (1)输入:病历文本序列 X = x1,··· , xn; (2)构建领域词典 S; (3)文本与词典进行匹配的结果为 S ∩ X ; S ∩ X D=d1,··· ,dn (4)打碎 结果形成基元,得到一层标注序 列: ; (5)抽取文本的基本特征集 F = f1,··· , fn; Y = y1,··· , yn (6)将一层标注结果 D 及文本特征 F 投入 CRF 模型,得到二层标注序列 ; (7)输出:标注结果. 详细过程如图 1 所示. 2 实验数据 由于国内对患者隐私的保护政策,医院电子 病历较难获得. 因此,选择从“爱爱医”网站上爬取 了 1064 份呼吸科病历文本和 30262 份不限科室病 历文本作为实验数据. 1064 份呼吸科电子病历中 的 864 份用于 1.1 节所述统计方法构建领域词典, 200 份在参考文献 [23] 以及英文 I2B2、 UMLS 语 义类型[24] 的基础上,标注出疾病、症状、药品、操 作四类医疗实体. 标注规范如下: (1)疾病:医生对患者做出的诊断或以“病”、 “症”作为结尾的实体统称为疾病. 如“肺内隔 离症”. (2)症状:由疾病导致的不适表现、异常表现、 正常或异常的检查结果或者患者的不健康状态以 及患者自述中的病史介绍. 如“声音嘶哑”、“无结 核病史”. (3)药品:诊疗过程中给予患者的具体药物名 称或药物类别. 如“地塞米松”、“抗生素”. (4)操作:包括检查项目和诊疗手段. 检查项 目是指,为了发现、证实或是否认疾病,希望得到 更多关于疾病的信息而施加给患者的检查项目. 诊疗手段是指,为了缓解不适症状或者解决疾病 而施加给患者的干预措施和治疗程序. 如“拍胸 片”、“抗感染”、“胸腔穿刺术”. 表 1 所示为训练、测试语料数据分布. 另外,在本研究中,为了验证 DLAM 模型效果, 选择注意力深度神经网络 BiLSTM-Attention-CRF 作为参照. 因此,30262 份不限科室未标注电子病历 使用 Word2vec 工具,采用 skip-gram 模型,基于字 粒度分别训练出 50 维、150 维、300 维的字嵌入. F Y CRF Output Results of the first layer annotation Basic feature set Input Domain dictionary X D 图 1 基于领域词典与 CRF 的双层标注模型 Fig.1 Double-layer annotation model 龚乐君等: 基于领域词典与 CRF 双层标注的中文电子病历实体识别 · 471 ·
472 工程科学学报,第42卷,第4期 表1训练集、测试集实体分布情况 出,在句子成分缺失的短句中也能直接代指器官 Table 1 Distribution of entities among the training set and the test set 的某部分.如:“左下” Dataset Diseases Symptoms Drugs Operations Total (4)否定:病历文本中常有描述患者并未出现 Training set 701 2648 546 2138 6033 某些症状或并未患某种疾病的情况,直接通过词 Test set 273 1043 208 918 2442 典匹配无法判断这种情况,可能造成语义相反 如:“无”、“未闻及” 对于实体识别的序列标注任务,标签由两部 3 分构成:实体类别和实体中的位置.本研究采用 实验结果及讨论 BIO表示法以字符为最小标注单位来表征该字符 为了综合考虑模型在整个数据集上的性能, 的标签.BIO表示法中,B代表位于实体的开始位 本文中采用宏平均指标(Macro-Average).宏平均 置,1表示位于实体内部,O代表不为实体.因此, 是指每一类性能指标的算数平均值,具体可分为: 标注语料中共包含4类实体,9类标签 宏精确率(Macro-P)、宏召回率(Macro-R)和宏 领域词典的构建除了1.1节所述统计方法外, F1值(Macro-F1) 还借助了外部专业资源,来源有: P (1)互动百科“呼吸系统疾病”全部词条以及 每个词条“概述”部分的分词结果; Macro-P= (4) N (2)“中国公众健康网”上“肺和呼吸相关疾 病”全部词条以及每种疾病页面的“相关症状”和 了Ri “相关药品”; Macro-R=i= N (5) (3)CHPO“呼吸系统异常”全部条目,不仅包 2 x Macro-P×Macro-R 括实体本身,还包括其HP编码 Macro-F1 (6) Macro-P+Macro-R 以上多种途径构建出的初始词典经过去重、 其中,N表示实体类别总数,P:表示每一类实体的 人工去除噪音、人工分类,最后整合成共3943词 精确率,R,表示每一类实体的召回率 的“呼吸科领域词典”,其中包括疾病、症状、操 以不采用预标注层、仅使用语言符号特征和 作、药品、关键词、器官、位置、否定八类.表2展 上下文特征的单层CRF作为基线,首先讨论领域 示了该领域词典的构成. 词典是否对CRF标注产生积极影响.上下文窗口 除与医疗实体识别任务中目标实体相同的四 大小均设置为5.表3所示为该组对比实验结果 类外,领域词典中还额外定义了四种类型的关键 可以看到,双层标注模型DLAM同时结合了 词.这是因为中文病历文本存在复合实体较多、 领域词典的准确性和CF的自动学习能力,将中 短句内句子成分缺失严重的问题.为了更好地识 文医疗实体的识别效果得到了极大提升.不同于 别出医疗实体,考虑在利用领域词典进行的预标 单层CRF宏精确率和宏召回率相差较大的情况, 注部分采用范围更广的关键词匹配策略,不仅标 DLAM的宏精确率和宏召回率几乎相等,达到了 注出目标实体类型,也标注出对目标实体的修饰 一个很好的平衡 关键词.具体含义如下: 第二组对比实验是研究采用了注意力机制] (1)关键词:提示将出现症状,因对关键词的 的深度神经网络BiLSTM-Attention-CRF2阿对中文 症状描述多样,所以单独列出.如:“食欲” 医疗实体的识别效果.根据预训练的不同字嵌入 (2)器官:指人体器官或部分肢体,因同一症 维度和一组随机初始化embedding向量进行对比. 状可能发生于不同器官或器官的不同范围而单独 表4为该组对比实验结果, 列出.如:“肺” 从实验结果可以看出,预训练字嵌入的质量 (3)位置:为了描述器官的某部分而单独列 对深度神经网络的识别结果会产生较大影响.字 表2领域词典构成情况 Table 2 Distribution among the domain dictionary Type Diseases Symptoms Operations Drugs Keywords Organs Location Privative Amount 1212 934 611 777 30 351 16 12
对于实体识别的序列标注任务,标签由两部 分构成:实体类别和实体中的位置. 本研究采用 BIO 表示法以字符为最小标注单位来表征该字符 的标签. BIO 表示法中,B 代表位于实体的开始位 置,I 表示位于实体内部,O 代表不为实体. 因此, 标注语料中共包含 4 类实体,9 类标签. 领域词典的构建除了 1.1 节所述统计方法外, 还借助了外部专业资源,来源有: (1)互动百科“呼吸系统疾病”全部词条以及 每个词条“概述”部分的分词结果; (2)“中国公众健康网”上“肺和呼吸相关疾 病”全部词条以及每种疾病页面的“相关症状”和 “相关药品”; (3)CHPO“呼吸系统异常”全部条目,不仅包 括实体本身,还包括其 HP 编码. 以上多种途径构建出的初始词典经过去重、 人工去除噪音、人工分类,最后整合成共 3943 词 的“呼吸科领域词典”,其中包括疾病、症状、操 作、药品、关键词、器官、位置、否定八类. 表 2 展 示了该领域词典的构成. 除与医疗实体识别任务中目标实体相同的四 类外,领域词典中还额外定义了四种类型的关键 词. 这是因为中文病历文本存在复合实体较多、 短句内句子成分缺失严重的问题. 为了更好地识 别出医疗实体,考虑在利用领域词典进行的预标 注部分采用范围更广的关键词匹配策略,不仅标 注出目标实体类型,也标注出对目标实体的修饰 关键词. 具体含义如下: (1)关键词:提示将出现症状,因对关键词的 症状描述多样,所以单独列出. 如:“食欲”. (2)器官:指人体器官或部分肢体,因同一症 状可能发生于不同器官或器官的不同范围而单独 列出. 如:“肺”. ( 3)位置:为了描述器官的某部分而单独列 出,在句子成分缺失的短句中也能直接代指器官 的某部分. 如:“左下”. (4)否定:病历文本中常有描述患者并未出现 某些症状或并未患某种疾病的情况,直接通过词 典匹配无法判断这种情况,可能造成语义相反. 如:“无”、“未闻及”. 3 实验结果及讨论 为了综合考虑模型在整个数据集上的性能, 本文中采用宏平均指标(Macro-Average). 宏平均 是指每一类性能指标的算数平均值,具体可分为: 宏精确率 ( Macro-P) 、宏召回率 ( Macro-R) 和 宏 F1 值(Macro-F1). Macro-P = ∑ N i=1 Pi N (4) Macro-R = ∑ N i=1 Ri N (5) Macro-F1 = 2×Macro-P×Macro-R Macro-P+Macro-R (6) Pi Ri 其中,N 表示实体类别总数, 表示每一类实体的 精确率, 表示每一类实体的召回率. 以不采用预标注层、仅使用语言符号特征和 上下文特征的单层 CRF 作为基线,首先讨论领域 词典是否对 CRF 标注产生积极影响. 上下文窗口 大小均设置为 5. 表 3 所示为该组对比实验结果. 可以看到,双层标注模型 DLAM 同时结合了 领域词典的准确性和 CRF 的自动学习能力,将中 文医疗实体的识别效果得到了极大提升. 不同于 单层 CRF 宏精确率和宏召回率相差较大的情况, DLAM 的宏精确率和宏召回率几乎相等,达到了 一个很好的平衡. 第二组对比实验是研究采用了注意力机制[25] 的深度神经网络 BiLSTM-Attention-CRF[26] 对中文 医疗实体的识别效果. 根据预训练的不同字嵌入 维度和一组随机初始化 embedding 向量进行对比. 表 4 为该组对比实验结果. 从实验结果可以看出,预训练字嵌入的质量 对深度神经网络的识别结果会产生较大影响. 字 表 1 训练集、测试集实体分布情况 Table 1 Distribution of entities among the training set and the test set Dataset Diseases Symptoms Drugs Operations Total Training set 701 2648 546 2138 6033 Test set 273 1043 208 918 2442 表 2 领域词典构成情况 Table 2 Distribution among the domain dictionary Type Diseases Symptoms Operations Drugs Keywords Organs Location Privative Amount 1212 934 611 777 30 351 16 12 · 472 · 工程科学学报,第 42 卷,第 4 期
龚乐君等:基于领域词典与CF双层标注的中文电子病历实体识别 473· 表3CRF对比实验结果 100 99.06 95.74 98.75 98.23 90 Table 3 Comparison experiment results of CRF % 81.27 80 79.12 Model Marco-P Marco-R Marco-F1 70 67.82 60 Baseline(Single-layer CRF) 83.3 68.1 68.1 50 DLAM 96.7 97.7 97.2 40 30 表4 BiLSTM-Attention-CRF对比实验结果 2 10 Table 4 Comparison experiment results of BiL.STM-Attention-CRF 01 Diseases Symptoms Drugs Operations Different characters embedding Marco-P Marco-R Marco-F1 Category of clinical entity ■DLAM■BiLSTM-Attention-CRF Randomly initializes embedding 69.52 69.70 69.38 50-dimension embedding 53.42 54.31 53.74 图3DLAM与BiLSTM-Attention-CRF实体级别召回率对比 Fig.3 DLAM and BiLSTM-Attention-CRF recall comparison on entity 150-dimension embedding 73.43 77.85 75.54 300-dimension embedding 55.3661.03 57.88 CRF与DLAM识别效果相差最大的是药品实体 这是因为药品名大多较生僻,其构词方式与病历 嵌入维度过小,会导致丢失隐含的语义信息:字嵌 中其他部分的自由文本相差较大,深度神经网络 入维度过大,则会带来噪音字嵌入维度应如何设 很难学到其上下文关系.而领域词典中一旦登录 置与训练语料的大小、语料的语言特点有关 了某种药品,就能够很好的识别出来.对于呼吸科 值得注意的是,深度神经网络相比单层CRF能 病历,常见药品出现的频率高,作用相似的药品其 明显提高医疗实体的召回率 名称构词方式也类似,因此识别效果较好 以150维字嵌入的结果作为BiLSTM-Attention- 本文还对DLAM识别结果中的错例进行了进 CF进行中文医疗实体识别的最好结果,从实体 一步的分析.DLAM对四类实体的识别效果趋于 级别以精确率P和召回率R作为标准,比较DLAM 稳定,因长实体缺少部分构词成分而造成的错例 模型与BiLSTM-Attention-.CRF的识别效果.如 主要存在于疾病实体和症状实体中,具体表现在 图2,图3所示 对长实体中的修饰成分识别效果不佳.例如,“间 9943 96.55 99.01 100 97.69 变性B细胞非霍奇金淋巴瘤”仅能识别出“非霍奇 90 金淋巴瘤”,“肋以下呈大片状致密影”被识别为 80 78.63 73.38 72.32 0 69.39 “大片状致密影”.修饰成分中的器官指向通常携 带了重要的医疗信息,目前DLAM仍会丢失部分 50 40 此类信息.值得注意的是,DLAM通过结合机器学 习自动学习文本上下文特征的能力,能容错医疗 20 文本中的错别字,如成功识别“腹不(部)平软” 10 0 此外,如表5所示对比了DLAM与文献[27]中 Diseases Symptoms Drugs Operations Category of clinical entity 基于多特征融合的CRF以及以字嵌入和分割信息 DLAM BiLSTM-Attention-CRF 作为BiLSTM-CRF输人特征的医疗实体识别方 图2DLAM与BiLSTM-Attention-CRF实体级别精确率对比 法.由于两项研究都是基于自标注语料完成的,导 Fig.2 DLAM and BiLSTM-Attention-CRF precision comparison on 致单纯的结果对比并无意义.但文献[27刀中为了 entity 达到较好的识别效果,融合了如词袋、词性、位置 由图2,图3可看出,虽然关于通用语料的研 等多项特征;而DLAM在CRF阶段仅使用上下文 究表明:采用了注意力机制的深度神经网络对句 特征,主要是通过第一层预标注来获取更多的语 间的长期依赖有较好学习能力2但在具体的专 义隐含信息 业领域中,BiLSTM-Attention-CRF仍然难以学到复 4结论 杂的专业特征.而DLAM采用领域词典预标注的 方式很好地解决了这一问题 本文针对中文电子病历文本复合实体较多、 本文识别的四类实体中,BiLSTM-Attention- 实体长度较长、句子成分缺失严重、实体边界不
嵌入维度过小,会导致丢失隐含的语义信息;字嵌 入维度过大,则会带来噪音. 字嵌入维度应如何设 置与训练语料的大小、语料的语言特点有关. 值得注意的是,深度神经网络相比单层 CRF 能 明显提高医疗实体的召回率. 以 150 维字嵌入的结果作为 BiLSTM-AttentionCRF 进行中文医疗实体识别的最好结果,从实体 级别以精确率 P 和召回率 R 作为标准,比较 DLAM 模 型 与 BiLSTM-Attention-CRF 的 识 别 效 果 . 如 图 2,图 3 所示. 由图 2,图 3 可看出,虽然关于通用语料的研 究表明:采用了注意力机制的深度神经网络对句 间的长期依赖有较好学习能力[25] . 但在具体的专 业领域中,BiLSTM-Attention-CRF 仍然难以学到复 杂的专业特征. 而 DLAM 采用领域词典预标注的 方式很好地解决了这一问题. 本文识别的四类实体中 , BiLSTM-AttentionCRF 与 DLAM 识别效果相差最大的是药品实体. 这是因为药品名大多较生僻,其构词方式与病历 中其他部分的自由文本相差较大,深度神经网络 很难学到其上下文关系. 而领域词典中一旦登录 了某种药品,就能够很好的识别出来. 对于呼吸科 病历,常见药品出现的频率高,作用相似的药品其 名称构词方式也类似,因此识别效果较好. 本文还对 DLAM 识别结果中的错例进行了进 一步的分析. DLAM 对四类实体的识别效果趋于 稳定. 因长实体缺少部分构词成分而造成的错例 主要存在于疾病实体和症状实体中,具体表现在 对长实体中的修饰成分识别效果不佳. 例如,“间 变性 B 细胞非霍奇金淋巴瘤”仅能识别出“非霍奇 金淋巴瘤”,“肋以下呈大片状致密影”被识别为 “大片状致密影”. 修饰成分中的器官指向通常携 带了重要的医疗信息,目前 DLAM 仍会丢失部分 此类信息. 值得注意的是,DLAM 通过结合机器学 习自动学习文本上下文特征的能力,能容错医疗 文本中的错别字,如成功识别“腹不(部)平软”. 此外,如表 5 所示对比了 DLAM 与文献 [27] 中 基于多特征融合的 CRF 以及以字嵌入和分割信息 作为 BiLSTM-CRF 输入特征的医疗实体识别方 法. 由于两项研究都是基于自标注语料完成的,导 致单纯的结果对比并无意义. 但文献 [27] 中为了 达到较好的识别效果,融合了如词袋、词性、位置 等多项特征;而 DLAM 在 CRF 阶段仅使用上下文 特征,主要是通过第一层预标注来获取更多的语 义隐含信息. 4 结论 本文针对中文电子病历文本复合实体较多、 实体长度较长、句子成分缺失严重、实体边界不 表 3 CRF 对比实验结果 Table 3 Comparison experiment results of CRF % Model Marco-P Marco-R Marco-F1 Baseline(Single-layer CRF) 83.3 68.1 68.1 DLAM 96.7 97.7 97.2 表 4 BiLSTM-Attention-CRF 对比实验结果 Table 4 Comparison experiment results of BiLSTM-Attention-CRF % Different characters embedding Marco-P Marco-R Marco-F1 Randomly initializes embedding 69.52 69.70 69.38 50-dimension embedding 53.42 54.31 53.74 150-dimension embedding 73.43 77.85 75.54 300-dimension embedding 55.36 61.03 57.88 100 Precision/% 90 80 70 60 50 40 30 20 10 0 Diseases Symptoms Category of clinical entity Drugs Operations DLAM BiLSTM-Attention-CRF 99.43 96.55 99.01 97.69 78.63 69.39 73.38 72.32 图 2 DLAM 与 BiLSTM-Attention-CRF 实体级别精确率对比 Fig.2 DLAM and BiLSTM-Attention-CRF precision comparison on entity 100 99.06 81.27 95.74 79.12 98.75 67.82 98.23 83.2 Recall/% 90 80 70 60 50 40 30 20 10 0 Diseases Symptoms Category of clinical entity Drugs Operations DLAM BiLSTM-Attention-CRF 图 3 DLAM 与 BiLSTM-Attention-CRF 实体级别召回率对比 Fig.3 DLAM and BiLSTM-Attention-CRF recall comparison on entity 龚乐君等: 基于领域词典与 CRF 双层标注的中文电子病历实体识别 · 473 ·
474 工程科学学报,第42卷,第4期 表5DLAM与现有模型结果对比 [7 Zhang X W,LiZ.Chinese electronic medical record named entity recognition based on multi-feature fusion.Softw Guide,2017, Table 5 Comparison of DLAM and existing model results o 16(2):128 Model Marco-P Marco-R Marco-F1 (张祥伟,李智.基于多特征融合的中文电子病历命名实体识别. CRF multi-features7 92.03 87.09 89.49 软件导刊,2017,16(2):128) BiLSTM-CRFR网 91.12 89.74 90.43 [8] Yu L,Jin L Z,Wang M F,et al.Recognition of human hypoxic DLAM 96.70 97.70 97.20 state based on deep learning.Chin J Eng,2019,41(6):817 (于露,金龙哲,王梦飞,等.基于深度学习的人体低氧状态识别 清的语言特点,对中文电子病历中的四类实体- 工程科学学报,2019,41(6):817) 疾病、症状、药品、操作进行命名实体识别研究 [9] Xia Y B,Zhen J L,Zhao Y F,et al.Deep learning based named (1)结合电子病历文本通过统计分析构建了 entity recognition of electronic medical record.Electron Sci 个小规模的医疗领域词典. Technol,2018,31(11:31 (夏宇彬,郑建立,赵逸凡,等基于深度学习的电子病历命名实 (2)将经典序列标注算法CF与富含领域知 体识别.电子科技,2018.31(11):31) 识的词典相结合,提出了一种预标注-二次标注的 [10]Li F,Zhang M S,Tian B,et al.Recognizing irregular entities in 双层标注模型DLAM.通过一次预标注-二次精确 biomedical text via deep neural networks.Pattern Recognit Lett, 标注两种不同粒度的标注完成对中文医疗实体的 2018,105:105 识别.经过实验验证,DLAM在测试集上的宏精确 [11]Liu Z J,Yang M,Wang X L,et al.Entity recognition from clinical 率为96.7%、宏召回率为97.7%、宏F1值为97.2%, texts via recurrent neural networks.BMC Med Inf Decis Making, 可准确地对中文医疗实体进行识别 2017,17(Suppl2):67 (3)对比分析采用注意力机制的深度神经网络 [12]Chowdhury S,Dong X S,Qian L J,et al.A multitask bi- directional RNN model for named entity recognition on Chinese 的识别效果,结果表明提出的双层标注模型DLAM electronic medical records.BMC Bioinf,2018,19(Suppl 17):499 在测试数据集上表现优越于深度神经网络 [13]Shen Z.Named Entity Recognition for Chinese Electronic Record with Neural Nenwork[Dissertation].Beijing:Beijing University of 参考文献 Posts and Telecommunications,2018 1]Zhang L B.Word Segmentation and Named Entity Mining Based (申站基于神经网络的中文电子病历命名实体识别[学位论文] on Semi Supervised Learning for Chinese EMR[Dissertation] 北京:北京邮电大学,2018) Harbin:Harbin Institute of Technology,2014 [14]Wei QK,Chen T,Xu R F,et al.Disease named entity recognition (张立邦.基于半监督学习的中文电子病历分词和名实体挖掘 by combining conditional random fields and bidirectional recurrent [学位论文].哈尔滨:哈尔滨工业大学,2014) neural networks.Database,2016,2016:baw140 [2]Huang Z H,Xu W,Yu K.Bidirectional LSTM-CRF Models for [15]Wu Y H,Yang X,Bian J,et al.Combine factual medical Sequence Tagging[J/OL].arXiv preprint.(2015-08-09)[2019-09- knowledge and distributed word representation to improve clinical 04].https://arxiv.org/abs/1508.01991 named entity recognition.AML4 Annu Symp Proc,2018,2018: [3]Wang Y Q,Yu Z H,Chen L et al.Supervised methods for 1110 symptom name recognition in free-text clinical records of [16]Jagannatha A N,Yu H.Bidirectional RNN for medical event traditional Chinese medicine:an empirical study.J Biomed Inf, detection in electronic health records /Proceedings of the 2016 2014,47:91 Conference of the North American Chapter of the Association for [4]Xu Y,Wang Y N,Liu T R,et al.Joint segmentation and named Computational Linguistics:Human Language Technologies. entity recognition using dual decomposition in Chinese discharge California,2016:473 summaries.J Am Med Inf Assoc,2014,21(el):e84 [17]Rajkomar A,Oren E,Chen K,et al.Scalable and accurate deep [5]Lei J B,Tang BZ,Lu X Q,et al.A comprehensive study of named learning with electronic health records[J/OL].arXiv preprint. entity recognition in Chinese clinical text.J Am Med Inf Assoc, (2018-05-11)[2019-09-041.htps://arxiv.org/abs/1801.07860 2014,21(5):808 [18]Wang Y,Wang L,Rastegar-Mojarad M,et al.Clinical information [6] Xu Y,Ge YQ.Wang Q,et al.Medical name entity recognition extraction applications:a literature review.JBiomed Inf,2018,77: and application in Chinese admission record of stroke patients 34 based on CRF and RUTA rule.J Sun Yat-sen Univ Med Sci,2018 [19]Luka G,Andrey K,Paul G,et al.Named entity recognition in 39(3):455 electronic health records using transfer learning bootstrapped (许源,葛艳秋,王强,等.基于CRF与RUTA规则相结合的卒中 neural networks[J/OL].arYry preprint.(2019-07-29)[2019-09- 入院记录医学实体识别及应用.中山大学学报(医学版),2018 04].https://arxiv.org/abs/1901.01592 39(3):455) [20]Li W,Zhao D Z,Li B,et al.Combining CRF and rule based
清的语言特点,对中文电子病历中的四类实体—— 疾病、症状、药品、操作进行命名实体识别研究. (1)结合电子病历文本通过统计分析构建了 一个小规模的医疗领域词典. (2)将经典序列标注算法 CRF 与富含领域知 识的词典相结合,提出了一种预标注–二次标注的 双层标注模型 DLAM. 通过一次预标注-二次精确 标注两种不同粒度的标注完成对中文医疗实体的 识别. 经过实验验证,DLAM 在测试集上的宏精确 率为 96.7%、宏召回率为 97.7%、宏 F1 值为 97.2%, 可准确地对中文医疗实体进行识别. (3)对比分析采用注意力机制的深度神经网络 的识别效果,结果表明提出的双层标注模型 DLAM 在测试数据集上表现优越于深度神经网络. 参 考 文 献 Zhang L B. Word Segmentation and Named Entity Mining Based on Semi Supervised Learning for Chinese EMR[Dissertation]. Harbin: Harbin Institute of Technology, 2014 (张立邦. 基于半监督学习的中文电子病历分词和名实体挖掘 [学位论文]. 哈尔滨: 哈尔滨工业大学, 2014) [1] Huang Z H, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J/OL]. arXiv preprint. (2015-08-09) [2019-09- 04]. https://arxiv.org/abs/1508.01991 [2] Wang Y Q, Yu Z H, Chen L, et al. Supervised methods for symptom name recognition in free-text clinical records of traditional Chinese medicine: an empirical study. J Biomed Inf, 2014, 47: 91 [3] Xu Y, Wang Y N, Liu T R, et al. Joint segmentation and named entity recognition using dual decomposition in Chinese discharge summaries. J Am Med Inf Assoc, 2014, 21(e1): e84 [4] Lei J B, Tang B Z, Lu X Q, et al. A comprehensive study of named entity recognition in Chinese clinical text. J Am Med Inf Assoc, 2014, 21(5): 808 [5] Xu Y, Ge Y Q, Wang Q, et al. Medical name entity recognition and application in Chinese admission record of stroke patients based on CRF and RUTA rule. J Sun Yat-sen Univ Med Sci, 2018, 39(3): 455 (许源, 葛艳秋, 王强, 等. 基于CRF与RUTA规则相结合的卒中 入院记录医学实体识别及应用. 中山大学学报(医学版), 2018, 39(3):455) [6] Zhang X W, Li Z. Chinese electronic medical record named entity recognition based on multi-feature fusion. Softw Guide, 2017, 16(2): 128 (张祥伟, 李智. 基于多特征融合的中文电子病历命名实体识别. 软件导刊, 2017, 16(2):128) [7] Yu L, Jin L Z, Wang M F, et al. Recognition of human hypoxic state based on deep learning. Chin J Eng, 2019, 41(6): 817 (于露, 金龙哲, 王梦飞, 等. 基于深度学习的人体低氧状态识别. 工程科学学报, 2019, 41(6):817) [8] Xia Y B, Zhen J L, Zhao Y F, et al. Deep learning based named entity recognition of electronic medical record. Electron Sci Technol, 2018, 31(11): 31 (夏宇彬, 郑建立, 赵逸凡, 等. 基于深度学习的电子病历命名实 体识别. 电子科技, 2018, 31(11):31) [9] Li F, Zhang M S, Tian B, et al. Recognizing irregular entities in biomedical text via deep neural networks. Pattern Recognit Lett, 2018, 105: 105 [10] Liu Z J, Yang M, Wang X L, et al. Entity recognition from clinical texts via recurrent neural networks. BMC Med Inf Decis Making, 2017, 17(Suppl 2): 67 [11] Chowdhury S, Dong X S, Qian L J, et al. A multitask bidirectional RNN model for named entity recognition on Chinese electronic medical records. BMC Bioinf, 2018, 19(Suppl 17): 499 [12] Shen Z. Named Entity Recognition for Chinese Electronic Record with Neural Network[Dissertation]. Beijing: Beijing University of Posts and Telecommunications, 2018 (申站.基于神经网络的中文电子病历命名实体识别[学位论文]. 北京: 北京邮电大学, 2018) [13] Wei Q K, Chen T, Xu R F, et al. Disease named entity recognition by combining conditional random fields and bidirectional recurrent neural networks. Database, 2016, 2016: baw140 [14] Wu Y H, Yang X, Bian J, et al. Combine factual medical knowledge and distributed word representation to improve clinical named entity recognition. AMIA Annu Symp Proc, 2018, 2018: 1110 [15] Jagannatha A N, Yu H. Bidirectional RNN for medical event detection in electronic health records // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. California, 2016: 473 [16] Rajkomar A, Oren E, Chen K, et al. Scalable and accurate deep learning with electronic health records[J/OL]. arXiv preprint. (2018-05-11) [2019-09-04]. https://arxiv.org/abs/1801.07860 [17] Wang Y, Wang L, Rastegar-Mojarad M, et al. Clinical information extraction applications: a literature review. J Biomed Inf, 2018, 77: 34 [18] Luka G, Andrey K, Paul G, et al. Named entity recognition in electronic health records using transfer learning bootstrapped neural networks[J/OL]. arXiv preprint. (2019-07-29) [2019-09- 04]. https://arxiv.org/abs/1901.01592 [19] [20] Li W, Zhao D Z, Li B, et al. Combining CRF and rule based 表 5 DLAM 与现有模型结果对比 Table 5 Comparison of DLAM and existing model results % Model Marco-P Marco-R Marco-F1 CRF_multi-features[27] 92.03 87.09 89.49 BiLSTM-CRF[27] 91.12 89.74 90.43 DLAM 96.70 97.70 97.20 · 474 · 工程科学学报,第 42 卷,第 4 期
龚乐君等:基于领域词典与CF双层标注的中文电子病历实体识别 475· medical named entity recognition.Appl Res Comput,2015,32(4): (杨锦锋,关毅,何彬,等.中文电子病历命名实体和实体关系语 1082 料库构建.软件学报,2016,27(11):2725) (栗伟,赵大哲,李博,等.CRF与规则相结合的医学病历实体识 [24]Uzuner O,South B R,Shen S Y,et al.2010 i2b2/VA challenge on 别.计算机应用研究,2015.32(4):1082) concepts,assertions,and relations in clinical text.JAm Med Inf [21]Shi C Y,Xu Z J,Yang X J.Study of TFIDF algorithm.J Comput Ass0c,2011,18(5):552 4ppl,2009,29(Suppl1上:167 [25]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you (施聪莺,徐朝军,杨晓江T℉IDF算法研究综述.计算机应用, need[J/0L.arXivy preprint.(2017-12-06)[2019-09-041 2009,29(增刊1):167) https://arxiv.org/abs/1706.03762 [22]Li H,Statistical learning methods.Beijing:Tsinghua University [26]Luo L,Yang Z,Yang P.et al.An attention-based BiLSTM-CRF Press,2012 approach to document level chemical named entity recognition. (李航.统计学习方法.北京:清华大学出版社,2012) Bioinformatics,2018,34(8):1381 [23]Yang J F,Guan Y,He B,et al.Corpus construction for named [27]Zhang Y,Wang X W,Hou Z,et al.Clinical named entity entities and entity relations on Chinese electronic medical records recognition from Chinese electronic health records via machine JSom,2016.27(11):2725 learning methods.JMIR Med Inf,2018,6(4):e50
medical named entity recognition. Appl Res Comput, 2015, 32(4): 1082 (栗伟, 赵大哲, 李博, 等. CRF与规则相结合的医学病历实体识 别. 计算机应用研究, 2015, 32(4):1082) Shi C Y, Xu Z J, Yang X J. Study of TFIDF algorithm. J Comput Appl, 2009, 29(Suppl 1): 167 (施聪莺, 徐朝军, 杨晓江. TFIDF算法研究综述. 计算机应用, 2009, 29(增刊 1):167) [21] Li H, Statistical learning methods. Beijing: Tsinghua University Press, 2012 (李航. 统计学习方法. 北京: 清华大学出版社, 2012) [22] Yang J F, Guan Y, He B, et al. Corpus construction for named entities and entity relations on Chinese electronic medical records. J Softw, 2016, 27(11): 2725 [23] (杨锦锋, 关毅, 何彬, 等. 中文电子病历命名实体和实体关系语 料库构建. 软件学报, 2016, 27(11):2725) Uzuner O, South B R, Shen S Y, et al. 2010 i2b2/VA challenge on concepts, assertions, and relations in clinical text. J Am Med Inf Assoc, 2011, 18(5): 552 [24] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J/OL]. arXiv preprint. (2017-12-06) [2019-09-04]. https://arxiv.org/abs/1706.03762 [25] Luo L, Yang Z, Yang P, et al. An attention-based BiLSTM-CRF approach to document level chemical named entity recognition. Bioinformatics, 2018, 34(8): 1381 [26] Zhang Y, Wang X W, Hou Z, et al. Clinical named entity recognition from Chinese electronic health records via machine learning methods. JMIR Med Inf, 2018, 6(4): e50 [27] 龚乐君等: 基于领域词典与 CRF 双层标注的中文电子病历实体识别 · 475 ·