基于领域词典与CRF双层标注的中文电子病历实体识别

医疗实体识别是电子病历文本信息抽取的基本任务。针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状，提出了一种基于领域词典和条件随机场（CRF）的双层标注模型。该模型通过对外部资源的统计分析构建医疗领域词典，再结合条件随机场，进行了两次不同粒度的标注，将领域词典识别的准确性和机器学习的自动性融为一体，从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体。该模型在测试数据中的宏精确率为96.7%、宏召回率为97.7%、宏F1值为97.2%。同时对比分析了采用注意力机制的深度神经网络的识别效果，因受到领域数据集大小的限制，在该测试数据集中后者表现不佳。实验结果表明了该双层标注模型对中文医疗实体识别的高效性。

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：729.77KB

工程科学学报 Chinese Journal of Engineering 基于领域词典与CRF双层标注的中文电子病历实体识别龚乐君张知菲 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF GONG Le-jun.ZHANG Zhi-fei 引用本文：龚乐君，张知菲.基于领域词典与CRF双层标注的中文电子病历实体识别.工程科学学报，2020,42(4)：469-475.doi: 10.13374-issn2095-9389.2019.09.04.004 GONG Le-jun,ZHANG Zhi-fei.Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF[J].Chinese Journal of Engineering,2020,42(4):469-475.doi: 10.13374j.issn2095-9389.2019.09.04.004 在线阅读View online::htps/ldoi.org/10.13374/.issn2095-9389.2019.09.04.004 您可能感兴趣的其他文章 Articles you may be interested in 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报.2020.42(4：476htps:loi.org10.13374.issn2095-9389.2019.09.17.002 电子鼻研究进展及在中国白酒检测的应用 Review of electronic-nose technologies and application for Chinese liquor identification 工程科学学报.2017,39(4：475htps:/1doi.org10.13374issn2095-9389.2017.04.001 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报.2019,41(9：1201 https:doi.org10.13374.issn2095-9389.2019.09.012 弱光照条件下交通标志检测与识别 Traffic signs detection and recognition under low illumination conditions 工程科学学报.优先发表https:ldoi.org10.13374j.issn2095-9389.2019.08.14.003 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报.2020.42(4：500 https::/1doi.org/10.13374.issn2095-9389.2019.09.13.003

基于领域词典与CRF双层标注的中文电子病历实体识别龚乐君张知菲 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF GONG Le-jun, ZHANG Zhi-fei 引用本文: 龚乐君, 张知菲. 基于领域词典与CRF双层标注的中文电子病历实体识别[J]. 工程科学学报, 2020, 42(4): 469-475. doi: 10.13374/j.issn2095-9389.2019.09.04.004 GONG Le-jun, ZHANG Zhi-fei. Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF[J]. Chinese Journal of Engineering, 2020, 42(4): 469-475. doi: 10.13374/j.issn2095-9389.2019.09.04.004 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.09.04.004 您可能感兴趣的其他文章 Articles you may be interested in 基于数控机床设备故障领域的命名实体识别 Named entity recognition based on equipment and fault field of CNC machine tools 工程科学学报. 2020, 42(4): 476 https://doi.org/10.13374/j.issn2095-9389.2019.09.17.002 电子鼻研究进展及在中国白酒检测的应用 Review of electronic-nose technologies and application for Chinese liquor identification 工程科学学报. 2017, 39(4): 475 https://doi.org/10.13374/j.issn2095-9389.2017.04.001 基于BiLSTM的公共安全事件触发词识别 Public security event trigger identification based on Bidirectional LSTM 工程科学学报. 2019, 41(9): 1201 https://doi.org/10.13374/j.issn2095-9389.2019.09.012 弱光照条件下交通标志检测与识别 Traffic signs detection and recognition under low illumination conditions 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2019.08.14.003 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报. 2020, 42(4): 500 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003

工程科学学报.第42卷，第4期：469-475.2020年4月 Chinese Journal of Engineering,Vol.42,No.4:469-475,April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.04.004;http://cje.ustb.edu.cn 基于领域词典与CRF双层标注的中文电子病历实体识别龚乐君12)四，张知菲2) 1)南京邮电大学计算机学院、软件学院、网络空间安全学院，南京2100232)江苏省大数据安全与智能处理重点实验室，南京210023 ☒通信作者，E-mail:gj98226@163.com 摘要医疗实体识别是电子病历文本信息抽取的基本任务，针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状，提出了一种基于领域词典和条件随机场(CR℉)的双层标注模型.该模型通过对外部资源的统计分析构建医疗领域词典，再结合条件随机场，进行了两次不同粒度的标注，将领域词典识别的准确性和机器学习的自动性融为一体，从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体，该模型在测试数据中的宏精确率为96.7%、宏召回率为97.7%、宏F1值为97.2%.同时对比分析了采用注意力机制的深度神经网络的识别效果，因受到领域数据集大小的限制，在该测试数据集中后者表现不佳.实验结果表明了该双层标注模型对中文医疗实体识别的高效性关键词中文电子病历：医疗实体识别：领域词典：条件随机场：注意力机制分类号TP391.1 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF GONG Le-jun2,ZHANG Zhi-fei2 1)School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China 2)Jiangsu Key Lab of Big Data Security Intelligent Processing,Nanjing 210023,China Corresponding author,E-mail:glj98226@163.com ABSTRACT As a document recorded by professional medical personnel,electronic medical records contain a large and important clinical resource.How to use a large amount of potential information in electronic medical records has become one of the major research directions.Chinese electronic medical records are knowledge-intensive,in which the data has considerable research value.However, they have more complex entities because of the language features of Chinese,and the composite entity is long.These sentences components in the text are missing.Moreover,the boundaries of clinical entities are often unclear.Labeling corpus is a job that requires a great deal of manpower because of the technical language used in a given text.Therefore,the recognition of Chinese clinical named entities is a hard problem.Considering these characteristics of Chinese electronic medical records,this paper proposed a double-layer annotation model that combined with a domain dictionary and conditional random field(CRF).A medical domain dictionary was constructed by statistical analysis method,and combined with CRF to mark two different granularity labeling operations.The manually constructed medical domain dictionary has extremely high accuracy for the recognition of registered words,and machine learning could automatically recognize unregistered words.This work integrated the two aspects based on these advantages.With the proposed method, diseases,symptoms,drugs,and operations could be recognized from Chinese electronic medical records.Using the test dataset,the 收稿日期：2019-09-04 基金项目：国家自然科学基金资助项目(61502243.61502247.61572263)：浙江省智慧医疗工程技术研究中心资助项目(2016E10011):中国博士后基金资助项目(2018M632349):江苏省高校自然科学基金资助项目(16KJB520003)

基于领域词典与 CRF 双层标注的中文电子病历实体识别龚乐君1,2) 苣，张知菲1,2) 1) 南京邮电大学计算机学院、软件学院、网络空间安全学院，南京 210023 2) 江苏省大数据安全与智能处理重点实验室，南京 210023 苣通信作者，E-mail：glj98226@163.com 摘要医疗实体识别是电子病历文本信息抽取的基本任务. 针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不清的语言特点以及标注语料难以获取的现状，提出了一种基于领域词典和条件随机场（CRF）的双层标注模型. 该模型通过对外部资源的统计分析构建医疗领域词典，再结合条件随机场，进行了两次不同粒度的标注，将领域词典识别的准确性和机器学习的自动性融为一体，从中文电子病历文本中识别出疾病、症状、药品、操作四类医疗实体. 该模型在测试数据中的宏精确率为 96.7%、宏召回率为 97.7%、宏 F1 值为 97.2%. 同时对比分析了采用注意力机制的深度神经网络的识别效果，因受到领域数据集大小的限制，在该测试数据集中后者表现不佳. 实验结果表明了该双层标注模型对中文医疗实体识别的高效性. 关键词中文电子病历；医疗实体识别；领域词典；条件随机场；注意力机制分类号 TP391.1 Clinical named entity recognition from Chinese electronic medical records using a double-layer annotation model combining a domain dictionary with CRF GONG Le-jun1,2) 苣，ZHANG Zhi-fei1,2) 1) School of Computer Science, Nanjing University of Posts and Telecommunications, Nanjing 210023, China 2) Jiangsu Key Lab of Big Data Security & Intelligent Processing, Nanjing 210023, China 苣 Corresponding author, E-mail: glj98226@163.com ABSTRACT As a document recorded by professional medical personnel, electronic medical records contain a large and important clinical resource. How to use a large amount of potential information in electronic medical records has become one of the major research directions. Chinese electronic medical records are knowledge-intensive, in which the data has considerable research value. However, they have more complex entities because of the language features of Chinese, and the composite entity is long. These sentences components in the text are missing. Moreover, the boundaries of clinical entities are often unclear. Labeling corpus is a job that requires a great deal of manpower because of the technical language used in a given text. Therefore, the recognition of Chinese clinical named entities is a hard problem. Considering these characteristics of Chinese electronic medical records, this paper proposed a double-layer annotation model that combined with a domain dictionary and conditional random field (CRF). A medical domain dictionary was constructed by statistical analysis method, and combined with CRF to mark two different granularity labeling operations. The manually constructed medical domain dictionary has extremely high accuracy for the recognition of registered words, and machine learning could automatically recognize unregistered words. This work integrated the two aspects based on these advantages. With the proposed method, diseases, symptoms, drugs, and operations could be recognized from Chinese electronic medical records. Using the test dataset, the 收稿日期: 2019−09−04 基金项目: 国家自然科学基金资助项目（61502243，61502247，61572263）；浙江省智慧医疗工程技术研究中心资助项目（2016E10011）；中国博士后基金资助项目（2018M632349）；江苏省高校自然科学基金资助项目（16KJB520003）工程科学学报，第 42 卷，第 4 期：469−475，2020 年 4 月 Chinese Journal of Engineering, Vol. 42, No. 4: 469−475, April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.04.004; http://cje.ustb.edu.cn

470 工程科学学报，第42卷，第4期 Macro-P with 96.7%,the Macro-R with 97.7%and the Macro-F1 with 97.2%were obtained.The recognition performance of the proposed method was greatly improved compared with that of a single-layer model.The recognition effect of deep neural network with attention was also analyzed,which did not perform well due to the size of the domain dataset.The experimental results show the efficiency of the double-layer annotation model for the named entity recognition of Chinese electronic medical records. KEY WORDS Chinese electronic medical records;clinical named entity recognition;medical domain dictionary;conditional random field;attention 近些年来，医疗信息化以及大批在线问诊网 (2)中文电子病历中的医疗实体长度不定，大站、病例交流网站的迅猛发展产生了海量的电子部分医疗实体长度长于通用实体.医疗实体构成病历.电子病历中包含了大量重要的临床资源.如结构较为复杂，存在大量的嵌套、别名、缩略词等何利用电子病历所包含的大量潜在信息，成为目问题，没有严格的构词规律可以遵循20 前热门的研究方向之一，作为文本挖掘的基础任 (3)在中文电子病历的不同部分，医疗实体的务，命名实体识别在病历文本中需要识别的实体类别属性有所差异，进行命名实体标注时存在分类型主要为疾病名称、症状、医疗人员采取的措类模糊的问题，无法清晰判断某些命名实体之间施（包括检查措施和治疗措施）、药品名称等医疗的界限.常见的是症状表现的实体也经常出现在疾实体病实体名中，这种互相交叉包含的情况大量存在. 有研究表明，在中文电子病历中，实体分布的针对以上问题，本文提出了一种基于领域词典密集程度远高于通用领域文本川中文电子病历语与条件随机场(Conditional random field,CRF)的预标料中实体字符所占比例接近中文通用语料的注-二次标注双层标注模型(Double layer annotation 2倍，这说明了中文电子病历是一种知识密集型的 model,DLAM).DLAM并不着眼于人工选择词法、文本，其数据具有相当的研究价值句法特征，也并非单纯的基于词典的命名实体识命名实体识别任务，常常被作为序列标注任别，而是将两者结合起来，通过一次预标注-二次精务来处理)机器学习中特征的选择情况将会直接确标注的形式将人工构建的准确性和机器学习的影响实体识别的效果，因此大部分中文医疗实体自动性融为一体.实验结果表明，该双层标注模型识别研究集中于构造和选择不同特征.wang等) 能够很好地完成中文医疗实体识别任务利用字符位置信息和短分句对症状实体进行识 1相关方法别，在中医文本语料上达到了95.12%的F1值.文献[4-)研究了语言符号特征、词性特征、关键词中文医疗实体识别问题可转化为序列标注特征、词典特征、分词特征、词块特征等多特征组问题.序列标注问题即对于输入序列A=a1,…,an 合与多种学习器组合对病历实体识别的影响.随和标签集合L,确定输出标签序列B=b1,…,bm 着深度学习阁技术的发展，利用深度神经网络对 (b:∈L,1≤i≤m).其本质是对输人序列中每个元素中文医疗实体识别的相关研究9]也在进行，其模根据上下文进行分类型基本为序列模型一循环神经网络(Recurrent 基于词典与规则的实体识别方法虽然人工开 neural networks,RNN)及其变体销大，但对登录词的识别效率极高，领域词典包含英文电子病历命名实体识别的相关研究的领域特征信息也非常丰富，因此考虑通过构建已经形成了相当完善的模式.相比之下，中文电子小规模的领域词典，将词典的准确性与机器学习病历命名实体识别工作刚展开不久，缺少充足的发现未登录词的能力结合起来标注语料.除此之外，中文医疗实体识别仍存在以 1.1统计方法构建领域词典下难点：中文病历文本的语言特征和用词构成与通用 (1)中文电子病历中的医疗实体数量众多、类文本差异甚大，在由病历文本构建领域词典的过型丰富，难以建立大而全的疾病、药品或是科室检程中，为了使领域词典中收录的词更具有领域专查等医学关键词词典.对于固定不变的医学词典业性，使用新闻语料作为筛选语料库而言，病历文本中将不断地有新的未登录词出现病历文本经过分词后提取每份文本中T℉ 这些新的医疗实体变化多样，更加难以收录 IDF2]值最大的前50词W={w,1≤i≤501，计算w;在

Macro-P with 96.7%, the Macro-R with 97.7% and the Macro-F1 with 97.2% were obtained. The recognition performance of the proposed method was greatly improved compared with that of a single-layer model. The recognition effect of deep neural network with attention was also analyzed, which did not perform well due to the size of the domain dataset. The experimental results show the efficiency of the double-layer annotation model for the named entity recognition of Chinese electronic medical records. KEY WORDS Chinese electronic medical records；clinical named entity recognition；medical domain dictionary；conditional random field；attention 近些年来，医疗信息化以及大批在线问诊网站、病例交流网站的迅猛发展产生了海量的电子病历. 电子病历中包含了大量重要的临床资源. 如何利用电子病历所包含的大量潜在信息，成为目前热门的研究方向之一. 作为文本挖掘的基础任务，命名实体识别在病历文本中需要识别的实体类型主要为疾病名称、症状、医疗人员采取的措施（包括检查措施和治疗措施）、药品名称等医疗实体. 有研究表明，在中文电子病历中，实体分布的密集程度远高于通用领域文本[1] . 中文电子病历语料中实体字符所占比例接近中文通用语料的 2 倍，这说明了中文电子病历是一种知识密集型的文本，其数据具有相当的研究价值. 命名实体识别任务，常常被作为序列标注任务来处理[2] . 机器学习中特征的选择情况将会直接影响实体识别的效果，因此大部分中文医疗实体识别研究集中于构造和选择不同特征. Wang 等[3] 利用字符位置信息和短分句对症状实体进行识别，在中医文本语料上达到了 95.12% 的 F1 值. 文献 [4−7] 研究了语言符号特征、词性特征、关键词特征、词典特征、分词特征、词块特征等多特征组合与多种学习器组合对病历实体识别的影响. 随着深度学习[8] 技术的发展，利用深度神经网络对中文医疗实体识别的相关研究[9−13] 也在进行，其模型基本为序列模型——循环神经网络（Recurrent neural networks, RNN）及其变体. 英文电子病历命名实体识别的相关研究[14−19] 已经形成了相当完善的模式. 相比之下，中文电子病历命名实体识别工作刚展开不久，缺少充足的标注语料. 除此之外，中文医疗实体识别仍存在以下难点：（1）中文电子病历中的医疗实体数量众多、类型丰富，难以建立大而全的疾病、药品或是科室检查等医学关键词词典. 对于固定不变的医学词典而言，病历文本中将不断地有新的未登录词出现. 这些新的医疗实体变化多样，更加难以收录. （2）中文电子病历中的医疗实体长度不定，大部分医疗实体长度长于通用实体. 医疗实体构成结构较为复杂，存在大量的嵌套、别名、缩略词等问题，没有严格的构词规律可以遵循[20] . （3）在中文电子病历的不同部分，医疗实体的类别属性有所差异，进行命名实体标注时存在分类模糊的问题，无法清晰判断某些命名实体之间的界限. 常见的是症状表现的实体也经常出现在疾病实体名中，这种互相交叉包含的情况大量存在. 针对以上问题，本文提出了一种基于领域词典与条件随机场（Conditional random field, CRF）的预标注-二次标注双层标注模型（Double layer annotation model, DLAM）. DLAM 并不着眼于人工选择词法、句法特征，也并非单纯的基于词典的命名实体识别，而是将两者结合起来，通过一次预标注-二次精确标注的形式将人工构建的准确性和机器学习的自动性融为一体. 实验结果表明，该双层标注模型能够很好地完成中文医疗实体识别任务. 1 相关方法 A = a1,··· ,an B = b1,··· ,bn (bi ∈ L,1 ⩽ i ⩽ n) 中文医疗实体识别问题可转化为序列标注问题. 序列标注问题即对于输入序列和标签集合 L，确定输出标签序列 . 其本质是对输入序列中每个元素根据上下文进行分类. 基于词典与规则的实体识别方法虽然人工开销大，但对登录词的识别效率极高，领域词典包含的领域特征信息也非常丰富. 因此考虑通过构建小规模的领域词典，将词典的准确性与机器学习发现未登录词的能力结合起来. 1.1 统计方法构建领域词典中文病历文本的语言特征和用词构成与通用文本差异甚大，在由病历文本构建领域词典的过程中，为了使领域词典中收录的词更具有领域专业性，使用新闻语料作为筛选语料库. W={wi |1 ⩽ i ⩽ 50} wi 病历文本经过分词后提取每份文本中 TFIDF[21] 值最大的前 50 词，计算在 · 470 · 工程科学学报，第 42 卷，第 4 期

龚乐君等：基于领域词典与CF双层标注的中文电子病历实体识别 471. 新闻语料库中的归一化词频tf,m为预先设置的阈 (7)输出：标注结果值，当满足f;≤m时，将w加入领域词典中详细过程如图1所示 12基于领域词典和CRF的双层标注模型DLAM CRF是一种无向概率图模型，其优点在于为 Basic feature set 一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息四由于考虑了输出标签序列 Input CRF 的联合概率分布，线性链条件随机场被大量应用于序列标注问题本研究中提出的基于领域词典与CRF的双层 Domain dictionary 标注模型DLAM是在标准线性链条件随机场的前面增加一层基于领域词典匹配的预标注层 Results of the first Output ayer annotation 中文电子病历医疗实体识别任务中，输入序列X为中文电子病历文本，输出序列Y为对应的图1基于领域词典与CRF的双层标注模型标签序列.在给定输入序列X=1,…,的情况下， Fig.I Double-layer annotation model 通过领域词典匹配得到预标注序列D=d1,…,dn,最 2实验数据大化输出标签序列Y的联合条件概率的似然估计.对于输入序列X,最有可能的输出标签序列Y: 由于国内对患者隐私的保护政策，医院电子 Y argmax P(ylx,d) (1) 病历较难获得.因此，选择从“爱爱医”网站上爬取了1064份呼吸科病历文本和30262份不限科室病 DLAM将预标注结果序列D和输入序列X共历文本作为实验数据.1064份呼吸科电子病历中同作为CRF的输入.因此，DLAM中的条件随机的864份用于1.1节所述统计方法构建领域词典，场为给定XD条件下的联合条件概率P=(YX,D) 200份在参考文献[23]以及英文I2B2、UMLS语在随机变量X取值为x的条件下，随机变量D取义类型的基础上，标注出疾病、症状、药品、操值为d,随机变量Y的条件概率如下：作四类医疗实体.标注规范如下： P(ylx,d)= (1)疾病：医生对患者做出的诊断或以“病”、 Z(x exp k40-y,x,d,)+4s0,x,d,i) “症”作为结尾的实体统称为疾病.如“肺内隔 il 离症” (2) (2)症状：由疾病导致的不适表现、异常表现、 Z闭=∑ep∑e6-1..xd+∑6.xd. 正常或异常的检查结果或者患者的不健康状态以 0 及患者自述中的病史介绍.如“声音嘶哑”、“无结 (3) 核病史” 与标准线性链条件随机场类似，式(2)、(3)中 (3)药品：诊疗过程中给予患者的具体药物名和s是特征函数，和山是对应的权值.Z()是规称或药物类别.如“地塞米松”、“抗生素” 范化因子，求和是在所有可能的输出序列上进行 (4)操作：包括检查项目和诊疗手段.检查项的.模型的训练过程即是在特征函数下，训练其对目是指，为了发现、证实或是否认疾病，希望得到应的权值更多关于疾病的信息而施加给患者的检查项目 DLAM算法步骤如下：诊疗手段是指，为了缓解不适症状或者解决疾病 (1)输入：病历文本序列X=x1,…,xn 而施加给患者的干预措施和治疗程序.如“拍胸 (2)构建领域词典S, 片”、“抗感染”、“胸腔穿刺术” (3)文本与词典进行匹配的结果为SnX; 表1所示为训练、测试语料数据分布 (4)打碎S∩nX结果形成基元，得到一层标注序另外，在本研究中，为了验证DLAM模型效果，列：D=d1,…,dn 选择注意力深度神经网络BiLSTM-Attention-CRF (5)抽取文本的基本特征集F=f,…, 作为参照.因此，30262份不限科室未标注电子病历 (6)将一层标注结果D及文本特征F投入CRF 使用Word2vec工具，采用skip-gram模型，基于字模型，得到二层标注序列Y=y1,…ym 粒度分别训练出50维、150维、300维的字嵌入

tfi tfi ⩽ m wi 新闻语料库中的归一化词频，m 为预先设置的阈值，当满足时，将加入领域词典中. 1.2 基于领域词典和 CRF 的双层标注模型 DLAM CRF 是一种无向概率图模型，其优点在于为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息[22] . 由于考虑了输出标签序列的联合概率分布，线性链条件随机场被大量应用于序列标注问题. 本研究中提出的基于领域词典与 CRF 的双层标注模型 DLAM 是在标准线性链条件随机场的前面增加一层基于领域词典匹配的预标注层. X = x1,··· , xn D=d1,··· ,dn 中文电子病历医疗实体识别任务中，输入序列 X 为中文电子病历文本，输出序列 Y 为对应的标签序列. 在给定输入序列的情况下，通过领域词典匹配得到预标注序列，最大化输出标签序列 Y 的联合条件概率的似然估计. 对于输入序列 X，最有可能的输出标签序列 Y： Y = argmax y P(y|x,d) （1） P = (Y|X,D) DLAM 将预标注结果序列 D 和输入序列 X 共同作为 CRF 的输入. 因此，DLAM 中的条件随机场为给定 X,D 条件下的联合条件概率 . 在随机变量 X 取值为 x 的条件下，随机变量 D 取值为 d，随机变量 Y 的条件概率如下： P(y|x,d) = 1 Z (x) exp   ∑ i,k λktk (yi−1, yi , x,d,i)+ ∑ i,l µlsl(yi , x,d,i)   （2） Z (x)= ∑ y exp   ∑ i,k λktk (yi−1, yi , x,d,i)+ ∑ i,l µlsl(yi , x,d,i)   （3） tk sl λk µl Z (x) 与标准线性链条件随机场类似，式（2）、（3）中和是特征函数，和是对应的权值. 是规范化因子，求和是在所有可能的输出序列上进行的. 模型的训练过程即是在特征函数下，训练其对应的权值. DLAM 算法步骤如下：（1）输入：病历文本序列 X = x1,··· , xn；（2）构建领域词典 S; （3）文本与词典进行匹配的结果为 S ∩ X ； S ∩ X D=d1,··· ,dn （4）打碎结果形成基元，得到一层标注序列： ; （5）抽取文本的基本特征集 F = f1,··· , fn; Y = y1,··· , yn （6）将一层标注结果 D 及文本特征 F 投入 CRF 模型，得到二层标注序列 ; （7）输出：标注结果. 详细过程如图 1 所示. 2 实验数据由于国内对患者隐私的保护政策，医院电子病历较难获得. 因此，选择从“爱爱医”网站上爬取了 1064 份呼吸科病历文本和 30262 份不限科室病历文本作为实验数据. 1064 份呼吸科电子病历中的 864 份用于 1.1 节所述统计方法构建领域词典， 200 份在参考文献 [23] 以及英文 I2B2、 UMLS 语义类型[24] 的基础上，标注出疾病、症状、药品、操作四类医疗实体. 标注规范如下：（1）疾病：医生对患者做出的诊断或以“病”、 “症”作为结尾的实体统称为疾病. 如“肺内隔离症”. （2）症状：由疾病导致的不适表现、异常表现、正常或异常的检查结果或者患者的不健康状态以及患者自述中的病史介绍. 如“声音嘶哑”、“无结核病史”. （3）药品：诊疗过程中给予患者的具体药物名称或药物类别. 如“地塞米松”、“抗生素”. （4）操作：包括检查项目和诊疗手段. 检查项目是指，为了发现、证实或是否认疾病，希望得到更多关于疾病的信息而施加给患者的检查项目. 诊疗手段是指，为了缓解不适症状或者解决疾病而施加给患者的干预措施和治疗程序. 如“拍胸片”、“抗感染”、“胸腔穿刺术”. 表 1 所示为训练、测试语料数据分布. 另外，在本研究中，为了验证 DLAM 模型效果，选择注意力深度神经网络 BiLSTM-Attention-CRF 作为参照. 因此，30262 份不限科室未标注电子病历使用 Word2vec 工具，采用 skip-gram 模型，基于字粒度分别训练出 50 维、150 维、300 维的字嵌入. F Y CRF Output Results of the first layer annotation Basic feature set Input Domain dictionary X D 图 1 基于领域词典与 CRF 的双层标注模型 Fig.1 Double-layer annotation model 龚乐君等：基于领域词典与 CRF 双层标注的中文电子病历实体识别 · 471 ·

472 工程科学学报，第42卷，第4期表1训练集、测试集实体分布情况出，在句子成分缺失的短句中也能直接代指器官 Table 1 Distribution of entities among the training set and the test set 的某部分.如：“左下” Dataset Diseases Symptoms Drugs Operations Total (4)否定：病历文本中常有描述患者并未出现 Training set 701 2648 546 2138 6033 某些症状或并未患某种疾病的情况，直接通过词 Test set 273 1043 208 918 2442 典匹配无法判断这种情况，可能造成语义相反如：“无”、“未闻及” 对于实体识别的序列标注任务，标签由两部 3 分构成：实体类别和实体中的位置.本研究采用实验结果及讨论 BIO表示法以字符为最小标注单位来表征该字符为了综合考虑模型在整个数据集上的性能，的标签.BIO表示法中，B代表位于实体的开始位本文中采用宏平均指标(Macro-Average).宏平均置，1表示位于实体内部，O代表不为实体.因此，是指每一类性能指标的算数平均值，具体可分为：标注语料中共包含4类实体，9类标签宏精确率(Macro-P)、宏召回率(Macro-R)和宏领域词典的构建除了1.1节所述统计方法外， F1值(Macro-F1) 还借助了外部专业资源，来源有： P (1)互动百科“呼吸系统疾病”全部词条以及每个词条“概述”部分的分词结果； Macro-P= (4) N (2)“中国公众健康网”上“肺和呼吸相关疾病”全部词条以及每种疾病页面的“相关症状”和了Ri “相关药品”； Macro-R=i= N (5) (3)CHPO“呼吸系统异常”全部条目，不仅包 2 x Macro-P×Macro-R 括实体本身，还包括其HP编码 Macro-F1 (6) Macro-P+Macro-R 以上多种途径构建出的初始词典经过去重、其中，N表示实体类别总数，P:表示每一类实体的人工去除噪音、人工分类，最后整合成共3943词精确率，R,表示每一类实体的召回率的“呼吸科领域词典”，其中包括疾病、症状、操以不采用预标注层、仅使用语言符号特征和作、药品、关键词、器官、位置、否定八类.表2展上下文特征的单层CRF作为基线，首先讨论领域示了该领域词典的构成. 词典是否对CRF标注产生积极影响.上下文窗口除与医疗实体识别任务中目标实体相同的四大小均设置为5.表3所示为该组对比实验结果类外，领域词典中还额外定义了四种类型的关键可以看到，双层标注模型DLAM同时结合了词.这是因为中文病历文本存在复合实体较多、领域词典的准确性和CF的自动学习能力，将中短句内句子成分缺失严重的问题.为了更好地识文医疗实体的识别效果得到了极大提升.不同于别出医疗实体，考虑在利用领域词典进行的预标单层CRF宏精确率和宏召回率相差较大的情况，注部分采用范围更广的关键词匹配策略，不仅标 DLAM的宏精确率和宏召回率几乎相等，达到了注出目标实体类型，也标注出对目标实体的修饰一个很好的平衡关键词.具体含义如下：第二组对比实验是研究采用了注意力机制] (1)关键词：提示将出现症状，因对关键词的的深度神经网络BiLSTM-Attention-CRF2阿对中文症状描述多样，所以单独列出.如：“食欲” 医疗实体的识别效果.根据预训练的不同字嵌入 (2)器官：指人体器官或部分肢体，因同一症维度和一组随机初始化embedding向量进行对比. 状可能发生于不同器官或器官的不同范围而单独表4为该组对比实验结果，列出.如：“肺” 从实验结果可以看出，预训练字嵌入的质量 (3)位置：为了描述器官的某部分而单独列对深度神经网络的识别结果会产生较大影响.字表2领域词典构成情况 Table 2 Distribution among the domain dictionary Type Diseases Symptoms Operations Drugs Keywords Organs Location Privative Amount 1212 934 611 777 30 351 16 12

对于实体识别的序列标注任务，标签由两部分构成：实体类别和实体中的位置. 本研究采用 BIO 表示法以字符为最小标注单位来表征该字符的标签. BIO 表示法中，B 代表位于实体的开始位置，I 表示位于实体内部，O 代表不为实体. 因此，标注语料中共包含 4 类实体，9 类标签. 领域词典的构建除了 1.1 节所述统计方法外，还借助了外部专业资源，来源有：（1）互动百科“呼吸系统疾病”全部词条以及每个词条“概述”部分的分词结果；（2）“中国公众健康网”上“肺和呼吸相关疾病”全部词条以及每种疾病页面的“相关症状”和 “相关药品”；（3）CHPO“呼吸系统异常”全部条目，不仅包括实体本身，还包括其 HP 编码. 以上多种途径构建出的初始词典经过去重、人工去除噪音、人工分类，最后整合成共 3943 词的“呼吸科领域词典”，其中包括疾病、症状、操作、药品、关键词、器官、位置、否定八类. 表 2 展示了该领域词典的构成. 除与医疗实体识别任务中目标实体相同的四类外，领域词典中还额外定义了四种类型的关键词. 这是因为中文病历文本存在复合实体较多、短句内句子成分缺失严重的问题. 为了更好地识别出医疗实体，考虑在利用领域词典进行的预标注部分采用范围更广的关键词匹配策略，不仅标注出目标实体类型，也标注出对目标实体的修饰关键词. 具体含义如下：（1）关键词：提示将出现症状，因对关键词的症状描述多样，所以单独列出. 如：“食欲”. （2）器官：指人体器官或部分肢体，因同一症状可能发生于不同器官或器官的不同范围而单独列出. 如：“肺”. （ 3）位置：为了描述器官的某部分而单独列出，在句子成分缺失的短句中也能直接代指器官的某部分. 如：“左下”. （4）否定：病历文本中常有描述患者并未出现某些症状或并未患某种疾病的情况，直接通过词典匹配无法判断这种情况，可能造成语义相反. 如：“无”、“未闻及”. 3 实验结果及讨论为了综合考虑模型在整个数据集上的性能，本文中采用宏平均指标（Macro-Average）. 宏平均是指每一类性能指标的算数平均值，具体可分为：宏精确率（ Macro-P）、宏召回率（ Macro-R）和宏 F1 值（Macro-F1）. Macro-P = ∑ N i=1 Pi N （4） Macro-R = ∑ N i=1 Ri N （5） Macro-F1 = 2×Macro-P×Macro-R Macro-P+Macro-R （6） Pi Ri 其中，N 表示实体类别总数，表示每一类实体的精确率，表示每一类实体的召回率. 以不采用预标注层、仅使用语言符号特征和上下文特征的单层 CRF 作为基线，首先讨论领域词典是否对 CRF 标注产生积极影响. 上下文窗口大小均设置为 5. 表 3 所示为该组对比实验结果. 可以看到，双层标注模型 DLAM 同时结合了领域词典的准确性和 CRF 的自动学习能力，将中文医疗实体的识别效果得到了极大提升. 不同于单层 CRF 宏精确率和宏召回率相差较大的情况， DLAM 的宏精确率和宏召回率几乎相等，达到了一个很好的平衡. 第二组对比实验是研究采用了注意力机制[25] 的深度神经网络 BiLSTM-Attention-CRF[26] 对中文医疗实体的识别效果. 根据预训练的不同字嵌入维度和一组随机初始化 embedding 向量进行对比. 表 4 为该组对比实验结果. 从实验结果可以看出，预训练字嵌入的质量对深度神经网络的识别结果会产生较大影响. 字表 1 训练集、测试集实体分布情况 Table 1 Distribution of entities among the training set and the test set Dataset Diseases Symptoms Drugs Operations Total Training set 701 2648 546 2138 6033 Test set 273 1043 208 918 2442 表 2 领域词典构成情况 Table 2 Distribution among the domain dictionary Type Diseases Symptoms Operations Drugs Keywords Organs Location Privative Amount 1212 934 611 777 30 351 16 12 · 472 · 工程科学学报，第 42 卷，第 4 期

龚乐君等：基于领域词典与CF双层标注的中文电子病历实体识别 473· 表3CRF对比实验结果 100 99.06 95.74 98.75 98.23 90 Table 3 Comparison experiment results of CRF % 81.27 80 79.12 Model Marco-P Marco-R Marco-F1 70 67.82 60 Baseline(Single-layer CRF) 83.3 68.1 68.1 50 DLAM 96.7 97.7 97.2 40 30 表4 BiLSTM-Attention-CRF对比实验结果 2 10 Table 4 Comparison experiment results of BiL.STM-Attention-CRF 01 Diseases Symptoms Drugs Operations Different characters embedding Marco-P Marco-R Marco-F1 Category of clinical entity ■DLAM■BiLSTM-Attention-CRF Randomly initializes embedding 69.52 69.70 69.38 50-dimension embedding 53.42 54.31 53.74 图3DLAM与BiLSTM-Attention-CRF实体级别召回率对比 Fig.3 DLAM and BiLSTM-Attention-CRF recall comparison on entity 150-dimension embedding 73.43 77.85 75.54 300-dimension embedding 55.3661.03 57.88 CRF与DLAM识别效果相差最大的是药品实体这是因为药品名大多较生僻，其构词方式与病历嵌入维度过小，会导致丢失隐含的语义信息：字嵌中其他部分的自由文本相差较大，深度神经网络入维度过大，则会带来噪音字嵌入维度应如何设很难学到其上下文关系.而领域词典中一旦登录置与训练语料的大小、语料的语言特点有关了某种药品，就能够很好的识别出来.对于呼吸科值得注意的是，深度神经网络相比单层CRF能病历，常见药品出现的频率高，作用相似的药品其明显提高医疗实体的召回率名称构词方式也类似，因此识别效果较好以150维字嵌入的结果作为BiLSTM-Attention- 本文还对DLAM识别结果中的错例进行了进 CF进行中文医疗实体识别的最好结果，从实体一步的分析.DLAM对四类实体的识别效果趋于级别以精确率P和召回率R作为标准，比较DLAM 稳定，因长实体缺少部分构词成分而造成的错例模型与BiLSTM-Attention-.CRF的识别效果.如主要存在于疾病实体和症状实体中，具体表现在图2，图3所示对长实体中的修饰成分识别效果不佳.例如，“间 9943 96.55 99.01 100 97.69 变性B细胞非霍奇金淋巴瘤”仅能识别出“非霍奇 90 金淋巴瘤”，“肋以下呈大片状致密影”被识别为 80 78.63 73.38 72.32 0 69.39 “大片状致密影”.修饰成分中的器官指向通常携带了重要的医疗信息，目前DLAM仍会丢失部分 50 40 此类信息.值得注意的是，DLAM通过结合机器学习自动学习文本上下文特征的能力，能容错医疗 20 文本中的错别字，如成功识别“腹不（部）平软” 10 0 此外，如表5所示对比了DLAM与文献[27]中 Diseases Symptoms Drugs Operations Category of clinical entity 基于多特征融合的CRF以及以字嵌入和分割信息 DLAM BiLSTM-Attention-CRF 作为BiLSTM-CRF输人特征的医疗实体识别方图2DLAM与BiLSTM-Attention-CRF实体级别精确率对比法.由于两项研究都是基于自标注语料完成的，导 Fig.2 DLAM and BiLSTM-Attention-CRF precision comparison on 致单纯的结果对比并无意义.但文献[27刀中为了 entity 达到较好的识别效果，融合了如词袋、词性、位置由图2，图3可看出，虽然关于通用语料的研等多项特征；而DLAM在CRF阶段仅使用上下文究表明：采用了注意力机制的深度神经网络对句特征，主要是通过第一层预标注来获取更多的语间的长期依赖有较好学习能力2但在具体的专义隐含信息业领域中，BiLSTM-Attention-CRF仍然难以学到复 4结论杂的专业特征.而DLAM采用领域词典预标注的方式很好地解决了这一问题本文针对中文电子病历文本复合实体较多、本文识别的四类实体中，BiLSTM-Attention- 实体长度较长、句子成分缺失严重、实体边界不

嵌入维度过小，会导致丢失隐含的语义信息；字嵌入维度过大，则会带来噪音. 字嵌入维度应如何设置与训练语料的大小、语料的语言特点有关. 值得注意的是，深度神经网络相比单层 CRF 能明显提高医疗实体的召回率. 以 150 维字嵌入的结果作为 BiLSTM-AttentionCRF 进行中文医疗实体识别的最好结果，从实体级别以精确率 P 和召回率 R 作为标准，比较 DLAM 模型与 BiLSTM-Attention-CRF 的识别效果 . 如图 2，图 3 所示. 由图 2，图 3 可看出，虽然关于通用语料的研究表明：采用了注意力机制的深度神经网络对句间的长期依赖有较好学习能力[25] . 但在具体的专业领域中，BiLSTM-Attention-CRF 仍然难以学到复杂的专业特征. 而 DLAM 采用领域词典预标注的方式很好地解决了这一问题. 本文识别的四类实体中， BiLSTM-AttentionCRF 与 DLAM 识别效果相差最大的是药品实体. 这是因为药品名大多较生僻，其构词方式与病历中其他部分的自由文本相差较大，深度神经网络很难学到其上下文关系. 而领域词典中一旦登录了某种药品，就能够很好的识别出来. 对于呼吸科病历，常见药品出现的频率高，作用相似的药品其名称构词方式也类似，因此识别效果较好. 本文还对 DLAM 识别结果中的错例进行了进一步的分析. DLAM 对四类实体的识别效果趋于稳定. 因长实体缺少部分构词成分而造成的错例主要存在于疾病实体和症状实体中，具体表现在对长实体中的修饰成分识别效果不佳. 例如，“间变性 B 细胞非霍奇金淋巴瘤”仅能识别出“非霍奇金淋巴瘤”，“肋以下呈大片状致密影”被识别为 “大片状致密影”. 修饰成分中的器官指向通常携带了重要的医疗信息，目前 DLAM 仍会丢失部分此类信息. 值得注意的是，DLAM 通过结合机器学习自动学习文本上下文特征的能力，能容错医疗文本中的错别字，如成功识别“腹不（部）平软”. 此外，如表 5 所示对比了 DLAM 与文献 [27] 中基于多特征融合的 CRF 以及以字嵌入和分割信息作为 BiLSTM-CRF 输入特征的医疗实体识别方法. 由于两项研究都是基于自标注语料完成的，导致单纯的结果对比并无意义. 但文献 [27] 中为了达到较好的识别效果，融合了如词袋、词性、位置等多项特征；而 DLAM 在 CRF 阶段仅使用上下文特征，主要是通过第一层预标注来获取更多的语义隐含信息. 4 结论本文针对中文电子病历文本复合实体较多、实体长度较长、句子成分缺失严重、实体边界不表 3 CRF 对比实验结果 Table 3 Comparison experiment results of CRF % Model Marco-P Marco-R Marco-F1 Baseline（Single-layer CRF） 83.3 68.1 68.1 DLAM 96.7 97.7 97.2 表 4 BiLSTM-Attention-CRF 对比实验结果 Table 4 Comparison experiment results of BiLSTM-Attention-CRF % Different characters embedding Marco-P Marco-R Marco-F1 Randomly initializes embedding 69.52 69.70 69.38 50-dimension embedding 53.42 54.31 53.74 150-dimension embedding 73.43 77.85 75.54 300-dimension embedding 55.36 61.03 57.88 100 Precision/% 90 80 70 60 50 40 30 20 10 0 Diseases Symptoms Category of clinical entity Drugs Operations DLAM BiLSTM-Attention-CRF 99.43 96.55 99.01 97.69 78.63 69.39 73.38 72.32 图 2 DLAM 与 BiLSTM-Attention-CRF 实体级别精确率对比 Fig.2 DLAM and BiLSTM-Attention-CRF precision comparison on entity 100 99.06 81.27 95.74 79.12 98.75 67.82 98.23 83.2 Recall/% 90 80 70 60 50 40 30 20 10 0 Diseases Symptoms Category of clinical entity Drugs Operations DLAM BiLSTM-Attention-CRF 图 3 DLAM 与 BiLSTM-Attention-CRF 实体级别召回率对比 Fig.3 DLAM and BiLSTM-Attention-CRF recall comparison on entity 龚乐君等：基于领域词典与 CRF 双层标注的中文电子病历实体识别 · 473 ·

474 工程科学学报，第42卷，第4期表5DLAM与现有模型结果对比 [7 Zhang X W,LiZ.Chinese electronic medical record named entity recognition based on multi-feature fusion.Softw Guide,2017, Table 5 Comparison of DLAM and existing model results o 16(2):128 Model Marco-P Marco-R Marco-F1 (张祥伟，李智.基于多特征融合的中文电子病历命名实体识别. CRF multi-features7 92.03 87.09 89.49 软件导刊，2017,16(2)：128) BiLSTM-CRFR网 91.12 89.74 90.43 [8] Yu L,Jin L Z,Wang M F,et al.Recognition of human hypoxic DLAM 96.70 97.70 97.20 state based on deep learning.Chin J Eng,2019,41(6):817 (于露，金龙哲，王梦飞，等.基于深度学习的人体低氧状态识别清的语言特点，对中文电子病历中的四类实体- 工程科学学报，2019,41(6)：817) 疾病、症状、药品、操作进行命名实体识别研究 [9] Xia Y B,Zhen J L,Zhao Y F,et al.Deep learning based named (1)结合电子病历文本通过统计分析构建了 entity recognition of electronic medical record.Electron Sci 个小规模的医疗领域词典. Technol,2018,31(11:31 (夏宇彬，郑建立，赵逸凡，等基于深度学习的电子病历命名实 (2)将经典序列标注算法CF与富含领域知体识别.电子科技，2018.31(11)：31) 识的词典相结合，提出了一种预标注-二次标注的 [10]Li F,Zhang M S,Tian B,et al.Recognizing irregular entities in 双层标注模型DLAM.通过一次预标注-二次精确 biomedical text via deep neural networks.Pattern Recognit Lett, 标注两种不同粒度的标注完成对中文医疗实体的 2018,105:105 识别.经过实验验证，DLAM在测试集上的宏精确 [11]Liu Z J,Yang M,Wang X L,et al.Entity recognition from clinical 率为96.7%、宏召回率为97.7%、宏F1值为97.2%， texts via recurrent neural networks.BMC Med Inf Decis Making, 可准确地对中文医疗实体进行识别 2017,17(Suppl2):67 (3)对比分析采用注意力机制的深度神经网络 [12]Chowdhury S,Dong X S,Qian L J,et al.A multitask bi- directional RNN model for named entity recognition on Chinese 的识别效果，结果表明提出的双层标注模型DLAM electronic medical records.BMC Bioinf,2018,19(Suppl 17):499 在测试数据集上表现优越于深度神经网络 [13]Shen Z.Named Entity Recognition for Chinese Electronic Record with Neural Nenwork[Dissertation].Beijing:Beijing University of 参考文献 Posts and Telecommunications,2018 1]Zhang L B.Word Segmentation and Named Entity Mining Based (申站基于神经网络的中文电子病历命名实体识别[学位论文] on Semi Supervised Learning for Chinese EMR[Dissertation] 北京：北京邮电大学，2018) Harbin:Harbin Institute of Technology,2014 [14]Wei QK,Chen T,Xu R F,et al.Disease named entity recognition (张立邦.基于半监督学习的中文电子病历分词和名实体挖掘 by combining conditional random fields and bidirectional recurrent [学位论文].哈尔滨：哈尔滨工业大学，2014) neural networks.Database,2016,2016:baw140 [2]Huang Z H,Xu W,Yu K.Bidirectional LSTM-CRF Models for [15]Wu Y H,Yang X,Bian J,et al.Combine factual medical Sequence Tagging[J/OL].arXiv preprint.(2015-08-09)[2019-09- knowledge and distributed word representation to improve clinical 04].https://arxiv.org/abs/1508.01991 named entity recognition.AML4 Annu Symp Proc,2018,2018: [3]Wang Y Q,Yu Z H,Chen L et al.Supervised methods for 1110 symptom name recognition in free-text clinical records of [16]Jagannatha A N,Yu H.Bidirectional RNN for medical event traditional Chinese medicine:an empirical study.J Biomed Inf, detection in electronic health records /Proceedings of the 2016 2014,47:91 Conference of the North American Chapter of the Association for [4]Xu Y,Wang Y N,Liu T R,et al.Joint segmentation and named Computational Linguistics:Human Language Technologies. entity recognition using dual decomposition in Chinese discharge California,2016:473 summaries.J Am Med Inf Assoc,2014,21(el):e84 [17]Rajkomar A,Oren E,Chen K,et al.Scalable and accurate deep [5]Lei J B,Tang BZ,Lu X Q,et al.A comprehensive study of named learning with electronic health records[J/OL].arXiv preprint. entity recognition in Chinese clinical text.J Am Med Inf Assoc, (2018-05-11)[2019-09-041.htps://arxiv.org/abs/1801.07860 2014,21(5):808 [18]Wang Y,Wang L,Rastegar-Mojarad M,et al.Clinical information [6] Xu Y,Ge YQ.Wang Q,et al.Medical name entity recognition extraction applications:a literature review.JBiomed Inf,2018,77: and application in Chinese admission record of stroke patients 34 based on CRF and RUTA rule.J Sun Yat-sen Univ Med Sci,2018 [19]Luka G,Andrey K,Paul G,et al.Named entity recognition in 39(3):455 electronic health records using transfer learning bootstrapped (许源，葛艳秋，王强，等.基于CRF与RUTA规则相结合的卒中 neural networks[J/OL].arYry preprint.(2019-07-29)[2019-09- 入院记录医学实体识别及应用.中山大学学报（医学版），2018 04].https://arxiv.org/abs/1901.01592 39(3):455) [20]Li W,Zhao D Z,Li B,et al.Combining CRF and rule based

清的语言特点，对中文电子病历中的四类实体—— 疾病、症状、药品、操作进行命名实体识别研究. （1）结合电子病历文本通过统计分析构建了一个小规模的医疗领域词典. （2）将经典序列标注算法 CRF 与富含领域知识的词典相结合，提出了一种预标注–二次标注的双层标注模型 DLAM. 通过一次预标注-二次精确标注两种不同粒度的标注完成对中文医疗实体的识别. 经过实验验证，DLAM 在测试集上的宏精确率为 96.7%、宏召回率为 97.7%、宏 F1 值为 97.2%，可准确地对中文医疗实体进行识别. （3）对比分析采用注意力机制的深度神经网络的识别效果，结果表明提出的双层标注模型 DLAM 在测试数据集上表现优越于深度神经网络. 参考文献 Zhang L B. Word Segmentation and Named Entity Mining Based on Semi Supervised Learning for Chinese EMR[Dissertation]. Harbin: Harbin Institute of Technology, 2014 （张立邦. 基于半监督学习的中文电子病历分词和名实体挖掘 [学位论文]. 哈尔滨: 哈尔滨工业大学, 2014） [1] Huang Z H, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J/OL]. arXiv preprint. (2015-08-09) [2019-09- 04]. https://arxiv.org/abs/1508.01991 [2] Wang Y Q, Yu Z H, Chen L, et al. Supervised methods for symptom name recognition in free-text clinical records of traditional Chinese medicine: an empirical study. J Biomed Inf, 2014, 47: 91 [3] Xu Y, Wang Y N, Liu T R, et al. Joint segmentation and named entity recognition using dual decomposition in Chinese discharge summaries. J Am Med Inf Assoc, 2014, 21（e1）: e84 [4] Lei J B, Tang B Z, Lu X Q, et al. A comprehensive study of named entity recognition in Chinese clinical text. J Am Med Inf Assoc, 2014, 21（5）: 808 [5] Xu Y, Ge Y Q, Wang Q, et al. Medical name entity recognition and application in Chinese admission record of stroke patients based on CRF and RUTA rule. J Sun Yat-sen Univ Med Sci, 2018, 39（3）: 455 （许源, 葛艳秋, 王强, 等. 基于CRF与RUTA规则相结合的卒中入院记录医学实体识别及应用. 中山大学学报(医学版), 2018, 39（3）：455） [6] Zhang X W, Li Z. Chinese electronic medical record named entity recognition based on multi-feature fusion. Softw Guide, 2017, 16（2）: 128 （张祥伟, 李智. 基于多特征融合的中文电子病历命名实体识别. 软件导刊, 2017, 16（2）：128） [7] Yu L, Jin L Z, Wang M F, et al. Recognition of human hypoxic state based on deep learning. Chin J Eng, 2019, 41（6）: 817 （于露, 金龙哲, 王梦飞, 等. 基于深度学习的人体低氧状态识别. 工程科学学报, 2019, 41（6）：817） [8] Xia Y B, Zhen J L, Zhao Y F, et al. Deep learning based named entity recognition of electronic medical record. Electron Sci Technol, 2018, 31（11）: 31 （夏宇彬, 郑建立, 赵逸凡, 等. 基于深度学习的电子病历命名实体识别. 电子科技, 2018, 31（11）：31） [9] Li F, Zhang M S, Tian B, et al. Recognizing irregular entities in biomedical text via deep neural networks. Pattern Recognit Lett, 2018, 105: 105 [10] Liu Z J, Yang M, Wang X L, et al. Entity recognition from clinical texts via recurrent neural networks. BMC Med Inf Decis Making, 2017, 17（Suppl 2）: 67 [11] Chowdhury S, Dong X S, Qian L J, et al. A multitask bidirectional RNN model for named entity recognition on Chinese electronic medical records. BMC Bioinf, 2018, 19（Suppl 17）: 499 [12] Shen Z. Named Entity Recognition for Chinese Electronic Record with Neural Network[Dissertation]. Beijing: Beijing University of Posts and Telecommunications, 2018 （申站.基于神经网络的中文电子病历命名实体识别[学位论文]. 北京: 北京邮电大学, 2018） [13] Wei Q K, Chen T, Xu R F, et al. Disease named entity recognition by combining conditional random fields and bidirectional recurrent neural networks. Database, 2016, 2016: baw140 [14] Wu Y H, Yang X, Bian J, et al. Combine factual medical knowledge and distributed word representation to improve clinical named entity recognition. AMIA Annu Symp Proc, 2018, 2018: 1110 [15] Jagannatha A N, Yu H. Bidirectional RNN for medical event detection in electronic health records // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. California, 2016: 473 [16] Rajkomar A, Oren E, Chen K, et al. Scalable and accurate deep learning with electronic health records[J/OL]. arXiv preprint. (2018-05-11) [2019-09-04]. https://arxiv.org/abs/1801.07860 [17] Wang Y, Wang L, Rastegar-Mojarad M, et al. Clinical information extraction applications: a literature review. J Biomed Inf, 2018, 77: 34 [18] Luka G, Andrey K, Paul G, et al. Named entity recognition in electronic health records using transfer learning bootstrapped neural networks[J/OL]. arXiv preprint. (2019-07-29) [2019-09- 04]. https://arxiv.org/abs/1901.01592 [19] [20] Li W, Zhao D Z, Li B, et al. Combining CRF and rule based 表 5 DLAM 与现有模型结果对比 Table 5 Comparison of DLAM and existing model results % Model Marco-P Marco-R Marco-F1 CRF_multi-features[27] 92.03 87.09 89.49 BiLSTM-CRF[27] 91.12 89.74 90.43 DLAM 96.70 97.70 97.20 · 474 · 工程科学学报，第 42 卷，第 4 期

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录