正在加载图片...
工程科学学报.第43卷.第9期:1190-1196.2021年9月 Chinese Journal of Engineering,Vol.43,No.9:1190-1196,September 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.12.006;http://cje.ustb.edu.cn 融合多特征嵌入与注意力机制的中文电子病历命名实 体识别 巩敦卫,2),张永凯,2,郭一楠2区,王斌2,樊宽鲁》,火焱 1)中国矿业大学信息与控制工程学院.徐州2211162)中国矿业大学人工智能研究院智慧医疗研究中心,徐州2211163)徐州医科大学 第二附属医院内分泌科,徐州2210004)中国矿业大学附属医院内分泌科,徐州221116 ☒通信作者,E-mail:nanfly@126.com 摘要中文电子病历文本包含大量嵌套实体、句子语法结构复杂、句式偏短.为有效识别其医疗实体,提出一种融合多特 征嵌人与注意力机制的命名实体识别算法,在输人表示层融合字符、单词、字形三个粒度的特征,并在双向长短期记忆网络 的隐含层引入注意力机制,使算法在捕获特征时更加关注于医疗实体相关的字符,最终实现对中文电子病历中疾病、身体部 位、症状、药物、操作五类实体的最优标注,面向开源和自建糖尿病数据集的实验结果中所提算法的实体识别准确率、召回 率和F1值都达到97%以上,表明其可以更加有效地识别中文电子病历中各类实体. 关键词中文:电子病历:命名实体识别;多特征嵌入:注意力机制 分类号TP391.1 Named entity recognition of Chinese electronic medical records based on multifeature embedding and attention mechanism GONG Dun-wei2),ZHANG Yong-kai2),GUO Yi-nan2,WANG Bin 2,FAN Kuan-lu,HUO Yan 1)School of Information and Control Engineering.China University of Mining and Technology,Xuzhou 221116,China 2)Intelligent Medical Center,Institute of Artificial Intelligence,China University of Mining and Technology,Xuzhou 221116,China 3)Department of Endocrinology,the Second Affiliated Hospital of Xuzhou Medical University,Xuzhou 221000,China 4)Department of Endocrinology,Affiliated Hospital of China University of Mining and Technology,Xuzhou 221116,China Corresponding author,E-mail:nanfly@126.com ABSTRACT Medical records,as an essential part of the health care records of residents,save all the information about the clinical treatment of patients,which are traditionally written by doctors on paper.With the development of information technologies,electronic medical records that are more easily saved and managed gradually replace the traditional ones.Intelligent auxiliary diagnosis,patients' portrait construction,and disease prediction based on medical reports have become research hotspots in the field of intelligent medical care.To fully discover the hidden relationship between symptoms and diseases from the documents saved in electronic medical records, the development of an efficient named entity recognition algorithm is the key issue.Although several studies have been conducted on it, there is relatively little research on the information extraction of Chinese electronic medical records.To the best of our knowledge,the documents in Chinese electronic medical records contain a large number of nested named entities and short sentences.Moreover,there is weak logic among the sentences,causing a complex syntax structure.To effectively recognize the medical entities,a novel named entity recognition method based on multifeature embedding and attention mechanism was proposed.After embedding three types of features 收稿日期:2021-01-12 基金项目:国家自然科学基金资助项目(61973305,61773384):中国矿业大学中央高校基本科研业务费专项资金资助项目(2020ZDPY0302)融合多特征嵌入与注意力机制的中文电子病历命名实 体识别 巩敦卫1,2),张永凯1,2),郭一楠1,2) 苣,王    斌1,2),樊宽鲁3),火    焱4) 1) 中国矿业大学信息与控制工程学院,徐州 221116    2) 中国矿业大学人工智能研究院智慧医疗研究中心,徐州 221116    3) 徐州医科大学 第二附属医院内分泌科,徐州 221000    4) 中国矿业大学附属医院内分泌科,徐州 221116 苣通信作者,E-mail:nanfly@126.com 摘    要    中文电子病历文本包含大量嵌套实体、句子语法结构复杂、句式偏短. 为有效识别其医疗实体,提出一种融合多特 征嵌入与注意力机制的命名实体识别算法,在输入表示层融合字符、单词、字形三个粒度的特征,并在双向长短期记忆网络 的隐含层引入注意力机制,使算法在捕获特征时更加关注于医疗实体相关的字符,最终实现对中文电子病历中疾病、身体部 位、症状、药物、操作五类实体的最优标注. 面向开源和自建糖尿病数据集的实验结果中所提算法的实体识别准确率、召回 率和 F1 值都达到 97% 以上,表明其可以更加有效地识别中文电子病历中各类实体. 关键词    中文;电子病历;命名实体识别;多特征嵌入;注意力机制 分类号    TP391.1 Named entity recognition of Chinese electronic medical records based on multifeature embedding and attention mechanism GONG Dun-wei1,2) ,ZHANG Yong-kai1,2) ,GUO Yi-nan1,2) 苣 ,WANG Bin1,2) ,FAN Kuan-lu3) ,HUO Yan4) 1) School of Information and Control Engineering, China University of Mining and Technology, Xuzhou 221116, China 2) Intelligent Medical Center, Institute of Artificial Intelligence, China University of Mining and Technology, Xuzhou 221116, China 3) Department of Endocrinology, the Second Affiliated Hospital of Xuzhou Medical University, Xuzhou 221000, China 4) Department of Endocrinology, Affiliated Hospital of China University of Mining and Technology, Xuzhou 221116, China 苣 Corresponding author, E-mail: nanfly@126.com ABSTRACT    Medical records, as an essential part of the health care records of residents, save all the information about the clinical treatment of patients, which are traditionally written by doctors on paper. With the development of information technologies, electronic medical records that are more easily saved and managed gradually replace the traditional ones. Intelligent auxiliary diagnosis, patients’ portrait construction, and disease prediction based on medical reports have become research hotspots in the field of intelligent medical care. To fully discover the hidden relationship between symptoms and diseases from the documents saved in electronic medical records, the development of an efficient named entity recognition algorithm is the key issue. Although several studies have been conducted on it, there is relatively little research on the information extraction of Chinese electronic medical records. To the best of our knowledge, the documents in Chinese electronic medical records contain a large number of nested named entities and short sentences. Moreover, there is weak logic among the sentences, causing a complex syntax structure. To effectively recognize the medical entities, a novel named entity recognition method based on multifeature embedding and attention mechanism was proposed. After embedding three types of features 收稿日期: 2021−01−12 基金项目: 国家自然科学基金资助项目(61973305,61773384);中国矿业大学中央高校基本科研业务费专项资金资助项目(2020ZDPY0302) 工程科学学报,第 43 卷,第 9 期:1190−1196,2021 年 9 月 Chinese Journal of Engineering, Vol. 43, No. 9: 1190−1196, September 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.12.006; http://cje.ustb.edu.cn
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有