正在加载图片...
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·827· 的样本多为“噪声”,开始产生“负迁移”现象,应停 2)对比实验与分析 止迁移,选用得到最佳识别结果的K值作为最佳 LSTM-CRF、BiLSTM-CRF和BiLSTM-CNN- 迁移阈值。因此,接下来反馈值K分别取400和 CRFs三种模型下迁移前后对比实验结果如表9 500进行对比实验。 所示。 表93种网络模型迁移前后实验结果 Table 9 Experimental results before and after transfer of three network models 无迁移(K=0) K取最佳阈值 评价指标 P R 及 F LSTM-CRF 0.5936 0.4319 0.5000 0.6516 0.5834 0.6156 BiLSTM-CRF 0.6051 0.4528 0.5180 0.6815 0.5928 0.6341 BiLSTM-CNN-CRFs 0.6528 0.4637 0.5422 0.7096 0.7299 0.7196 结果表明,3种模型采用F-KNST算法迁移后 线网站获取医疗健康咨询数据,通过网页去重、 的P、R、F值均比迁移前提升很多,F值分别提升 xml解析和Html标签去除后得到共计100万篇作 23.1%、22.4%和32.7%,BiLSTM-CNN-CRFs模型 为源域数据集。 相比其他2种模型的P、R、F值亦有较大提升,迁 本文在进行医疗实体识别时同样采用字标注 移前的F值分别提升8.4%、4.7%,采用F-KNST 方法对医疗实体进行标注,采用BO标注法,具 算法迁移后的F值分别提升16.9%、13.5%,亦有 体实体类别与标注编码如表11所示。 效证明了本文构建的用于领域命名实体识别的 BiLSTM-CNN-CRFs深度学习网络模型相较于其 表11医疗实体标注方法 他模型的优越性。 Table 11 Medical entity labeling method 3.2医疗领域命名实体识别 实体类别 标注编码 3.2.1数据准备 身体部位 B-body/I-body 本文采用CCKS2017任务二提供的电子病 症状和体征 B-sas/I-sas 历命名实体识别语料作为迁移学习目标域样本, 检查和检验 B-che/l-che 共计1200篇。 疾病和诊断 B-dis/I-dis CCKS2017任务二的电子病历语料数据集来 源于真实电子病历经脱敏处理后形成的标注数 治疗 B-tre/l-tre 据,电子病历按照数据组织不同分为:一般项目、 非实体 0 病史特征、诊疗过程、出院情况。该数据集已经 详细标注了实体名称、实体起始终止位置与实体 3.2.2实验设计及参数设置 所属类别等。CCKS的电子病历语料规定的抽取 本文实验使用TensorFlow框架编写深度学习 实体如表10所示5类实体类别。 网络模型。为验证反馈K近邻迁移学习算法的 有效性,本文保证实验中其他因素的一致性,故 表10医疗实体类别及其含义 Table 10 Medical entity categories and their meanings 实验环境、Doc2Vec参数、Word2Vec参数与模型 医疗实体类别 含义 参数表均与3.1.2节中参数保持一致。设置F- 身体部位 疾病、症状和体征发生的人体解剖学部位 KNST算法中初始值K=100,以100为步长分别获 取7组数据构成7组目标域扩展集。 症状和体征 患者主观感受、体征表现 3.2.3实验结果与分析 受病因损害后发生的异常声明活动与识别 疾病和诊断 本实验评价指标与3.1.3中(5)式完全一致。 所患疾病 检查和检验 通过医疗技术与设备提供诊断治疗的依据 本实验采用CCKS的标准测试集进行实验结果测 治疗 干预或改变特定健康状态,解除病痛 试,验证集按照8:2的比例从训练集中切分得 到。分别使用LSTM-CRF模型、BiLSTM-CRF模 为了保证迁移学习的质量,本文编写网络爬 型和BiLSTM-CNN-CRFs模型对迁移和非迁移方 虫分别从医疗资讯网2,、好医生在线2等医疗在 法进行对比实验。的样本多为“噪声”,开始产生“负迁移”现象,应停 止迁移,选用得到最佳识别结果的 K 值作为最佳 迁移阈值。因此,接下来反馈值 K 分别取 400 和 500 进行对比实验。 2) 对比实验与分析 LSTM-CRF、BiLSTM-CRF 和 BiLSTM-CNN￾CRFs 三种模型下迁移前后对比实验结果如表 9 所示。 表 9 3 种网络模型迁移前后实验结果 Table 9 Experimental results before and after transfer of three network models 评价指标 无迁移(K=0) K取最佳阈值 P R F P R F LSTM-CRF 0.5936 0.4319 0.5000 0.6516 0.5834 0.6156 BiLSTM-CRF 0.6051 0.4528 0.5180 0.6815 0.5928 0.6341 BiLSTM-CNN-CRFs 0.6528 0.4637 0.5422 0.7096 0.7299 0.7196 结果表明,3 种模型采用 F-KNST 算法迁移后 的 P、R、F 值均比迁移前提升很多,F 值分别提升 23.1%、22.4% 和 32.7%,BiLSTM-CNN-CRFs 模型 相比其他 2 种模型的 P、R、F 值亦有较大提升,迁 移前的 F 值分别提升 8.4%、4.7%,采用 F-KNST 算法迁移后的 F 值分别提升 16.9%、13.5%,亦有 效证明了本文构建的用于领域命名实体识别的 BiLSTM-CNN-CRFs 深度学习网络模型相较于其 他模型的优越性。 3.2 医疗领域命名实体识别 3.2.1 数据准备 本文采用 CCKS 2017[19] 任务二提供的电子病 历命名实体识别语料作为迁移学习目标域样本, 共计 1 200 篇。 CCKS 2017 任务二的电子病历语料数据集来 源于真实电子病历经脱敏处理后形成的标注数 据,电子病历按照数据组织不同分为:一般项目、 病史特征、诊疗过程、出院情况。该数据集已经 详细标注了实体名称、实体起始终止位置与实体 所属类别等。CCKS 的电子病历语料规定的抽取 实体如表 10 所示 5 类实体类别。 表 10 医疗实体类别及其含义 Table 10 Medical entity categories and their meanings 医疗实体类别 含义 身体部位 疾病、症状和体征发生的人体解剖学部位 症状和体征 患者主观感受、体征表现 疾病和诊断 受病因损害后发生的异常声明活动与识别 所患疾病 检查和检验 通过医疗技术与设备提供诊断治疗的依据 治疗 干预或改变特定健康状态,解除病痛 为了保证迁移学习的质量,本文编写网络爬 虫分别从医疗资讯网[20] 、好医生在线[21] 等医疗在 线网站获取医疗健康咨询数据,通过网页去重、 xml 解析和 Html 标签去除后得到共计 100 万篇作 为源域数据集。 本文在进行医疗实体识别时同样采用字标注 方法对医疗实体进行标注,采用 BIO 标注法,具 体实体类别与标注编码如表 11 所示。 表 11 医疗实体标注方法 Table 11 Medical entity labeling method 实体类别 标注编码 身体部位 B-body/I-body 症状和体征 B-sas/I-sas 检查和检验 B-che/I-che 疾病和诊断 B-dis/I-dis 治疗 B-tre/I-tre 非实体 O 3.2.2 实验设计及参数设置 本文实验使用 TensorFlow 框架编写深度学习 网络模型。为验证反馈 K 近邻迁移学习算法的 有效性,本文保证实验中其他因素的一致性,故 实验环境、Doc2Vec 参数、Word2Vec 参数与模型 参数表均与 3.1.2 节中参数保持一致。设置 F￾KNST 算法中初始值 K=100,以 100 为步长分别获 取 7 组数据构成 7 组目标域扩展集。 3.2.3 实验结果与分析 本实验评价指标与 3.1.3 中 (5) 式完全一致。 本实验采用 CCKS 的标准测试集进行实验结果测 试,验证集按照 8:2 的比例从训练集中切分得 到。分别使用 LSTM-CRF 模型、BiLSTM-CRF 模 型和 BiLSTM-CNN-CRFs 模型对迁移和非迁移方 法进行对比实验。 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·827·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有