正在加载图片...
.1194 工程科学学报,第43卷,第9期 3实验结果与分析 设为3×3,通道数选取64、128、256和512:BiLSTM- Att-CRF的隐含层节点数选取300,dropout层参数 为有效验证所提算法的有效性,本文以CCKS2017 设置为0.5,Adam优化算法的学习率为0.00l,batch 开源数据集和自建糖尿病中文电子病历集作为实 size设为64,epoch选取80.采用准确率P、召回 验数据来源,通过与主流模型的多组对比实验,深 率R和F1作为NER模型评价指标P 入分析所提命名实体识别方法性能.所有实验是 3.2实验结果对比分析 在intel Xeon Silver4210@2.20GHz处理器、256GB 实验一:基于相同的BiLSTM-CRF结构,在输 内存、Nvidia Quadro P5000计算条件下进行,模型 入表示层分别采用字符嵌入(Char embedding)、字 搭建采用开源框架TensorFlow1.l4实现 形嵌人(Font embedding)、字词联合嵌入(CW 3.1实验数据集和参数设置 Embedding))、字词形嵌入(CWF embedding,对比分 自建糖尿病中文电子病历集共500份,参考 析所提算法中多特征嵌入的合理性与必要性.不 CCKS2017开源数据集,采用BIO标注体系统一进 同特征嵌入下的命名实体识别性能均值如表3所 行标注.BIO标注体系中,B代表实体的开始位 示.可见,单独使用字符嵌入优于单独字形嵌人; 置,I代表实体的内部,O代表非实体部分.相应的 将字符与单词特征通过Lattice结构联合嵌入,其 命名实体包含疾病、症状、身体部位、药品、检查 效果优于单纯使用字符嵌入或词嵌入,表明单词 操作五种类别,如表1所示 特征可以显著表达中文电子病历文本中的实体关 系.相比而言,所提字词形多特征嵌入比字词联合 表1命名实体类别 Table 1 Types of named entities 嵌入具有更优识别性能,并且随着引入特征的增 加,命名实体识别性能显著改善,表明引入的多类 The entity class Identifier Definition of categories 特征符合中文电子病历特点,可以有效增强模型 Diseases B-diseases I-diseases Terms of various diseases 性能. Symptom B-symptom I-symptomAbnormal physical manifestations Body B-body I-body Various parts of the human body 表3不同特征嵌人下的命名实体识别性能 Drug B-drug I-drug The names of various medicines Table 3 Performance of NER embedding different features Test B-test I-test Various physical examinations Model P/% R/% F1/% Font embedding-BiLSTM-CRF 79.51 80.35 79.72 从CCKS2017开源数据集和自建数据集中,随 Char embedding-BiLSTM-CRF 88.61 87.43 87.96 机选取800份糖尿病中文电子病历构成数据集, Word embedding-BiLSTM-CRF 85.82 86.87 86.32 其中,80%作为训练集,20%作为测试集.训练集 CW embedding-BiLSTM-CRF 86.58 87.23 87.62 和测试集中各类实体分布,如表2所示 CWF embedding-BiLSTM-CRF 96.24 97.25 96.94 表2训练集与测试集医疗实体分布 实验二:基于实验一的五种输入表示层嵌入 Table 2 Distribution of training and test datasets for medical entities 方式,在BiLSTM-CRF结构中引入注意力机制,构 Dataset Training data Test data 成BiLSTM-At-CRF,其识别性能如表4所示.通 Diseases 856 382 过与实验一的命名实体识别性能对比,表明引入 Symptom 3845 1526 注意力机制可以显著提升NER模型性能.这是因 Body 563 214 为,注意力机制通过重新计算各个隐含层的权重 Dru吗 657 289 分布,弥补了双向LSTM对多特征嵌入信息的提 Test 3426 1647 取不足,通过更加合理的编码层特征提取,有效改 Total 9347 4058 善模型的实体识别性能. 实验三:为充分验证所提模型的合理性,将其 为实现多特征嵌人,从维基百科与医疗论坛 与其他主流算法进行性能对比.其他主流算法的 上爬取1000万条句子作为训练语料,词向量和字 输入表示层均采用字符嵌入.由表5所示的不同 符维度设置为100,窗口尺寸设为8:用于字形局部 算法识别效果可知,本文所提MFBAC方法的识别 特征提取的CNN采用l3层,选用TrueType字体 性能均优于其他主流算法,表明引入多特征嵌入 将每个汉字渲染为48×48的8位灰度位图:卷积核 和注意力机制对识别语言结构特殊的中文电子病3    实验结果与分析 为有效验证所提算法的有效性,本文以CCKS2017 开源数据集和自建糖尿病中文电子病历集作为实 验数据来源,通过与主流模型的多组对比实验,深 入分析所提命名实体识别方法性能. 所有实验是 在 intel Xeon Silver 4210@2.20 GHz 处理器、256 GB 内存、Nvidia Quadro P5000 计算条件下进行,模型 搭建采用开源框架 TensorFlow 1.14 实现. 3.1    实验数据集和参数设置 自建糖尿病中文电子病历集共 500 份,参考 CCKS2017 开源数据集,采用 BIO 标注体系统一进 行标注. BIO 标注体系中,B 代表实体的开始位 置,I 代表实体的内部,O 代表非实体部分. 相应的 命名实体包含疾病、症状、身体部位、药品、检查 操作五种类别,如表 1 所示. 表 1 命名实体类别 Table 1   Types of named entities The entity class Identifier Definition of categories Diseases B-diseases I-diseases Terms of various diseases Symptom B-symptom I-symptomAbnormal physical manifestations Body B-body I-body Various parts of the human body Drug B-drug I-drug The names of various medicines Test B-test I-test Various physical examinations 从 CCKS2017 开源数据集和自建数据集中,随 机选取 800 份糖尿病中文电子病历构成数据集, 其中,80% 作为训练集,20% 作为测试集. 训练集 和测试集中各类实体分布,如表 2 所示. 表 2 训练集与测试集医疗实体分布 Table 2   Distribution of training and test datasets for medical entities Dataset Training data Test data Diseases 856 382 Symptom 3845 1526 Body 563 214 Drug 657 289 Test 3426 1647 Total 9347 4058 为实现多特征嵌入,从维基百科与医疗论坛 上爬取 1000 万条句子作为训练语料,词向量和字 符维度设置为 100,窗口尺寸设为 8;用于字形局部 特征提取的 CNN 采用 13 层,选用 TrueType 字体 将每个汉字渲染为 48×48 的 8 位灰度位图;卷积核 设为 3×3,通道数选取 64、128、256 和 512;BiLSTM￾Att-CRF 的隐含层节点数选取 300,dropout 层参数 设置为 0.5, Adam 优化算法的学习率为 0.001,batch size 设为 64,epoch 选取 80. 采用准确率 P、召回 率 R 和 F1 作为 NER 模型评价指标[25] . 3.2    实验结果对比分析 实验一:基于相同的 BiLSTM-CRF 结构,在输 入表示层分别采用字符嵌入 (Char embedding)、字 形 嵌 入 (Font  embedding)、 字 词 联 合 嵌 入 (CW Embedding)、字词形嵌入 (CWF embedding),对比分 析所提算法中多特征嵌入的合理性与必要性. 不 同特征嵌入下的命名实体识别性能均值如表 3 所 示. 可见,单独使用字符嵌入优于单独字形嵌入; 将字符与单词特征通过 Lattice 结构联合嵌入,其 效果优于单纯使用字符嵌入或词嵌入,表明单词 特征可以显著表达中文电子病历文本中的实体关 系. 相比而言,所提字词形多特征嵌入比字词联合 嵌入具有更优识别性能,并且随着引入特征的增 加,命名实体识别性能显著改善,表明引入的多类 特征符合中文电子病历特点,可以有效增强模型 性能. 表 3 不同特征嵌入下的命名实体识别性能 Table 3   Performance of NER embedding different features Model P/% R/% F1/% Font embedding-BiLSTM-CRF 79.51 80.35 79.72 Char embedding-BiLSTM-CRF 88.61 87.43 87.96 Word embedding-BiLSTM-CRF 85.82 86.87 86.32 CW embedding-BiLSTM-CRF 86.58 87.23 87.62 CWF embedding-BiLSTM-CRF 96.24 97.25 96.94 实验二:基于实验一的五种输入表示层嵌入 方式,在 BiLSTM-CRF 结构中引入注意力机制,构 成 BiLSTM-Att-CRF,其识别性能如表 4 所示. 通 过与实验一的命名实体识别性能对比,表明引入 注意力机制可以显著提升 NER 模型性能. 这是因 为,注意力机制通过重新计算各个隐含层的权重 分布,弥补了双向 LSTM 对多特征嵌入信息的提 取不足,通过更加合理的编码层特征提取,有效改 善模型的实体识别性能. 实验三:为充分验证所提模型的合理性,将其 与其他主流算法进行性能对比. 其他主流算法的 输入表示层均采用字符嵌入. 由表 5 所示的不同 算法识别效果可知,本文所提 MFBAC 方法的识别 性能均优于其他主流算法,表明引入多特征嵌入 和注意力机制对识别语言结构特殊的中文电子病 · 1194 · 工程科学学报,第 43 卷,第 9 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有