正在加载图片...
472 工程科学学报,第42卷,第4期 表1训练集、测试集实体分布情况 出,在句子成分缺失的短句中也能直接代指器官 Table 1 Distribution of entities among the training set and the test set 的某部分.如:“左下” Dataset Diseases Symptoms Drugs Operations Total (4)否定:病历文本中常有描述患者并未出现 Training set 701 2648 546 2138 6033 某些症状或并未患某种疾病的情况,直接通过词 Test set 273 1043 208 918 2442 典匹配无法判断这种情况,可能造成语义相反 如:“无”、“未闻及” 对于实体识别的序列标注任务,标签由两部 3 分构成:实体类别和实体中的位置.本研究采用 实验结果及讨论 BIO表示法以字符为最小标注单位来表征该字符 为了综合考虑模型在整个数据集上的性能, 的标签.BIO表示法中,B代表位于实体的开始位 本文中采用宏平均指标(Macro-Average).宏平均 置,1表示位于实体内部,O代表不为实体.因此, 是指每一类性能指标的算数平均值,具体可分为: 标注语料中共包含4类实体,9类标签 宏精确率(Macro-P)、宏召回率(Macro-R)和宏 领域词典的构建除了1.1节所述统计方法外, F1值(Macro-F1) 还借助了外部专业资源,来源有: P (1)互动百科“呼吸系统疾病”全部词条以及 每个词条“概述”部分的分词结果; Macro-P= (4) N (2)“中国公众健康网”上“肺和呼吸相关疾 病”全部词条以及每种疾病页面的“相关症状”和 了Ri “相关药品”; Macro-R=i= N (5) (3)CHPO“呼吸系统异常”全部条目,不仅包 2 x Macro-P×Macro-R 括实体本身,还包括其HP编码 Macro-F1 (6) Macro-P+Macro-R 以上多种途径构建出的初始词典经过去重、 其中,N表示实体类别总数,P:表示每一类实体的 人工去除噪音、人工分类,最后整合成共3943词 精确率,R,表示每一类实体的召回率 的“呼吸科领域词典”,其中包括疾病、症状、操 以不采用预标注层、仅使用语言符号特征和 作、药品、关键词、器官、位置、否定八类.表2展 上下文特征的单层CRF作为基线,首先讨论领域 示了该领域词典的构成. 词典是否对CRF标注产生积极影响.上下文窗口 除与医疗实体识别任务中目标实体相同的四 大小均设置为5.表3所示为该组对比实验结果 类外,领域词典中还额外定义了四种类型的关键 可以看到,双层标注模型DLAM同时结合了 词.这是因为中文病历文本存在复合实体较多、 领域词典的准确性和CF的自动学习能力,将中 短句内句子成分缺失严重的问题.为了更好地识 文医疗实体的识别效果得到了极大提升.不同于 别出医疗实体,考虑在利用领域词典进行的预标 单层CRF宏精确率和宏召回率相差较大的情况, 注部分采用范围更广的关键词匹配策略,不仅标 DLAM的宏精确率和宏召回率几乎相等,达到了 注出目标实体类型,也标注出对目标实体的修饰 一个很好的平衡 关键词.具体含义如下: 第二组对比实验是研究采用了注意力机制] (1)关键词:提示将出现症状,因对关键词的 的深度神经网络BiLSTM-Attention-CRF2阿对中文 症状描述多样,所以单独列出.如:“食欲” 医疗实体的识别效果.根据预训练的不同字嵌入 (2)器官:指人体器官或部分肢体,因同一症 维度和一组随机初始化embedding向量进行对比. 状可能发生于不同器官或器官的不同范围而单独 表4为该组对比实验结果, 列出.如:“肺” 从实验结果可以看出,预训练字嵌入的质量 (3)位置:为了描述器官的某部分而单独列 对深度神经网络的识别结果会产生较大影响.字 表2领域词典构成情况 Table 2 Distribution among the domain dictionary Type Diseases Symptoms Operations Drugs Keywords Organs Location Privative Amount 1212 934 611 777 30 351 16 12对于实体识别的序列标注任务,标签由两部 分构成:实体类别和实体中的位置. 本研究采用 BIO 表示法以字符为最小标注单位来表征该字符 的标签. BIO 表示法中,B 代表位于实体的开始位 置,I 表示位于实体内部,O 代表不为实体. 因此, 标注语料中共包含 4 类实体,9 类标签. 领域词典的构建除了 1.1 节所述统计方法外, 还借助了外部专业资源,来源有: (1)互动百科“呼吸系统疾病”全部词条以及 每个词条“概述”部分的分词结果; (2)“中国公众健康网”上“肺和呼吸相关疾 病”全部词条以及每种疾病页面的“相关症状”和 “相关药品”; (3)CHPO“呼吸系统异常”全部条目,不仅包 括实体本身,还包括其 HP 编码. 以上多种途径构建出的初始词典经过去重、 人工去除噪音、人工分类,最后整合成共 3943 词 的“呼吸科领域词典”,其中包括疾病、症状、操 作、药品、关键词、器官、位置、否定八类. 表 2 展 示了该领域词典的构成. 除与医疗实体识别任务中目标实体相同的四 类外,领域词典中还额外定义了四种类型的关键 词. 这是因为中文病历文本存在复合实体较多、 短句内句子成分缺失严重的问题. 为了更好地识 别出医疗实体,考虑在利用领域词典进行的预标 注部分采用范围更广的关键词匹配策略,不仅标 注出目标实体类型,也标注出对目标实体的修饰 关键词. 具体含义如下: (1)关键词:提示将出现症状,因对关键词的 症状描述多样,所以单独列出. 如:“食欲”. (2)器官:指人体器官或部分肢体,因同一症 状可能发生于不同器官或器官的不同范围而单独 列出. 如:“肺”. ( 3)位置:为了描述器官的某部分而单独列 出,在句子成分缺失的短句中也能直接代指器官 的某部分. 如:“左下”. (4)否定:病历文本中常有描述患者并未出现 某些症状或并未患某种疾病的情况,直接通过词 典匹配无法判断这种情况,可能造成语义相反. 如:“无”、“未闻及”. 3    实验结果及讨论 为了综合考虑模型在整个数据集上的性能, 本文中采用宏平均指标(Macro-Average). 宏平均 是指每一类性能指标的算数平均值,具体可分为: 宏精确率 ( Macro-P) 、宏召回率 ( Macro-R) 和 宏 F1 值(Macro-F1). Macro-P = ∑ N i=1 Pi N (4) Macro-R = ∑ N i=1 Ri N (5) Macro-F1 = 2×Macro-P×Macro-R Macro-P+Macro-R (6) Pi Ri 其中,N 表示实体类别总数, 表示每一类实体的 精确率, 表示每一类实体的召回率. 以不采用预标注层、仅使用语言符号特征和 上下文特征的单层 CRF 作为基线,首先讨论领域 词典是否对 CRF 标注产生积极影响. 上下文窗口 大小均设置为 5. 表 3 所示为该组对比实验结果. 可以看到,双层标注模型 DLAM 同时结合了 领域词典的准确性和 CRF 的自动学习能力,将中 文医疗实体的识别效果得到了极大提升. 不同于 单层 CRF 宏精确率和宏召回率相差较大的情况, DLAM 的宏精确率和宏召回率几乎相等,达到了 一个很好的平衡. 第二组对比实验是研究采用了注意力机制[25] 的深度神经网络 BiLSTM-Attention-CRF[26] 对中文 医疗实体的识别效果. 根据预训练的不同字嵌入 维度和一组随机初始化 embedding 向量进行对比. 表 4 为该组对比实验结果. 从实验结果可以看出,预训练字嵌入的质量 对深度神经网络的识别结果会产生较大影响. 字 表 1    训练集、测试集实体分布情况 Table 1    Distribution of entities among the training set and the test set Dataset Diseases Symptoms Drugs Operations Total Training set 701 2648 546 2138 6033 Test set 273 1043 208 918 2442 表 2 领域词典构成情况 Table 2 Distribution among the domain dictionary Type Diseases Symptoms Operations Drugs Keywords Organs Location Privative Amount 1212 934 611 777 30 351 16 12 · 472 · 工程科学学报,第 42 卷,第 4 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有