正在加载图片...
优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第35卷第7期 式表示出来。医学领域的实体抽取是从医学数据源中提取出特续提升模型性能,从小样本中进行学习,自我探索逐步学习新 定类型的命名实体。本节将医学实体的抽取方法归纳为三类:知识,形成一个交互学习过程。 于医学词典及规则的方法、基于医学数据源的统计学和机器 3)深度学习方法 学习方法以及深度学习方法。 深度学习近年来开始被广泛应用于命名实体识别,最具代 1)基于医学词典及规则的方法 表性的模型是2011年 Collobert(301提出的一个深层神经网络模 该方法通过人工定义规则和模式匹配生成词典或使用现有型,其效果和性能超过了传统算法。Sahu等人所提出的CNN 医学词典从语料中抽取医学实体,该方法是具有挑战性的。首与RNN级联的方法生成词嵌入特征,其结果优于目前最好的 先,目前没有完整的字典囊括所有类型的生物命名实体,所以算法且不需要过多的特征工程。 简单的文本匹配算法是不足以应对实体识别的。其次,相同的在医学领域,We等人基于CRF和双向RNN生成特征 单词或短语其意义可根据上下文的改变而指代不同的物体(如,再使用SWM进行疾病命名实体识别。目前医学信息命名实体 铁蛋白可以是生物物质或实验室测试方法)。再次,许多生物或识别任务中最主流的深度学习模型是 BILSTM-CRE模型, 药物实体同时拥有多个名称(如PTEN和MMAC1指代相同的 Jagannatha等人对比了CRF, BILSTM, BILSTM-CRE三种 基因)。因此,基于医学词典及规则只在最早期被广泛使用。模型,以及一些它们的改进模型,在英文电子病历命名实体识 Friedman等人[21]通过自定义语义模式和语法来识别电子病历别的效果,实验结果表明所有基于LSTM的模型都比CRF效 中的医学信息。Wu[22]等人使用了clHV和 SNOMED-CT两果更好,并且 BILSTM结合CRF模型能够进一步提高评测结果 个医学词典得到了不错的实验结果。虽然该方法能达到很高的2%-5%的准确率。 准确度,但无法彻底解决上述问题,也过分依赖专家编写的词1.2.2实体抽取 典和规则,无法适应医学领域词汇不断涌现的现实情况。 本文将医学实体关系抽取归结为两类:a)同类型医学实体 2)基于医学数据源和数学模型的机器学习方法 层级关系抽取,如疾病的“肠胃病-慢性胃炎”等:b)不同类 该方法通过使用统计学和机器学习方法,结合医学数据源型关系抽取,如“疾病-症状”等。 的特点训练模型,进行实体识别。在英文医学实体抽取方面 1)同类型医学实体层级关系抽取 最具代表性的标注语料是12B2201024发布的英文电子病历标 类型医学实体层级关系相对较为单一,主要是is-a和 注语料。另外,还有 Semeval4、 NTCIR等评测,以及NCB25]part-of关系。由于医学有其严谨的学科体系和行业规范,因此 语料库等,都提供了英文医学实体标注数据 此类关系往往在医学词典、百科、信息标准中进行 目前常用方法有隐马尔可夫模型(HMM),条件随机场模 ICD-10、 SNOMED等医疗词典或医疗数据库重点关注 型(CRF),支持向量机模型(SM)等。 Kazama等人6使用医学专业术语、受限词汇的分类和概念标准化工作,权威且涵 SVM模型进行生物医学命名实体识别,引入了POS,词缓存,盖范围广,在数量和质量上都有所保障,被医疗行业广泛认可 无监督训练得到的HMM状态等特征。该方法在GENA语料是抽取层级间实体关系的首选来源。针对具体的医疗词典、知 库中准确率高于最大熵标记方法,并能较高效地应用于大规模识库提供的数据格式和开放AP接口,可通过爬虫、正则表达 语料集。Zhou等人2通过一系列特征训练HMM模型,包括词式、D2R映射等技术从中抽取分层结构,抽取三元组来匹配 构成特征,形态特征,POS,语义触发,文献内名称别名等。添加上下位关系 其识别准确率达66.5%,在 GENIA语料库中的召回率达66.6%。 2)不同类型医学实体关系抽取 综合以上方法,Chen和 Friedman28利用 MEDLEE系统来识别 不同类型医学实体间的语义关系识别大致基于两大不同数 与生物医学文本中与表型信息相对应的短语。该系统使用自然据源而实现。一是百科或其他结构化数据源,如 Medline,UMLS 语言技术来识别期刊文章摘要中存在的表型短语。生物医学的等:二是半结构化的电子病历。 实体识别常常可使用较小的表型相关术语的知识库。Chen和 学实体类型相对有限(主要是疾病、症状、治疗、药品 Friedman9自动导入与语义类别相关的数千个UMLS术语,如等),目前通常在两个实体间预定义好要抽取的关系类型,再将 细胞体功能和细胞功能障碍,以及哺乳动物本体中的几百个术抽取任务转换为分类问题来处理。如何预定义实体关系目前尚 语:并手动添加了几百个术语。实验结果表明,其实体识别准未有统一的标准,这取决于医学知识图谱构建过程中模式图的 确率达640%,召回率达77.1%。虽然结果不高,但为之后的设置、实体识别情况、语料来源、构建目的及应用场景等,如 研究人员提供了一条可行的思路。 在12B22010评测中,将电子病历中的实体关系分成了医疗问 在医学领域,命名实体识别的痛点在于数据质量的良莠不题与医疗问题、医疗问题与治疗、医疗问题与检查三类 齐以及人工标注的专业性要求高。目前有专门研究如何降低对 近几年, Uzuner团队在句子层面抽取了六类医疗实体关 于数据标注依赖的硏究,其原理主要是利用海量未标注数据持系,使用实体顺序和距离、链接语法和词汇特征来训练6个 SVM分类器,通过对比实验,指出词汇特征在实体关系识别中 //www.senseval.org/ //research. nii ac jp/ntcir 的重要作用。在此基础上,基于 Medline摘要, Frunza等[36]优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第 35 卷第 7 期 式表示出来。医学领域的实体抽取是从医学数据源中提取出特 定类型的命名实体。本节将医学实体的抽取方法归纳为三类: 基于医学词典及规则的方法、基于医学数据源的统计学和机器 学习方法以及深度学习方法。 1)基于医学词典及规则的方法 该方法通过人工定义规则和模式匹配生成词典或使用现有 医学词典从语料中抽取医学实体,该方法是具有挑战性的。首 先,目前没有完整的字典囊括所有类型的生物命名实体,所以 简单的文本匹配算法是不足以应对实体识别的。其次,相同的 单词或短语其意义可根据上下文的改变而指代不同的物体(如, 铁蛋白可以是生物物质或实验室测试方法)。再次,许多生物或 药物实体同时拥有多个名称(如 PTEN 和 MMAC1 指代相同的 基因)。因此,基于医学词典及规则只在最早期被广泛使用。 Friedman 等人[21]通过自定义语义模式和语法来识别电子病历 中的医学信息。Wu[22]等人使用了 CHV[23]和 SNOMED-CT 两 个医学词典得到了不错的实验结果。虽然该方法能达到很高的 准确度,但无法彻底解决上述问题,也过分依赖专家编写的词 典和规则,无法适应医学领域词汇不断涌现的现实情况。 2)基于医学数据源和数学模型的机器学习方法 该方法通过使用统计学和机器学习方法,结合医学数据源 的特点训练模型,进行实体识别。在英文医学实体抽取方面, 最具代表性的标注语料是 I2B2 2010[24]发布的英文电子病历标 注语料。另外,还有 SemEval4、NTCIR5等评测,以及 NCBI[25] 语料库等,都提供了英文医学实体标注数据。 目前常用方法有隐马尔可夫模型(HMM),条件随机场模 型(CRF),支持向量机模型(SVM)等。Kazama 等人[26]使用 SVM 模型进行生物医学命名实体识别,引入了 POS,词缓存, 无监督训练得到的 HMM 状态等特征。该方法在 GENIA 语料 库中准确率高于最大熵标记方法,并能较高效地应用于大规模 语料集。Zhou 等人[27]通过一系列特征训练 HMM 模型,包括词 的构成特征,形态特征,POS,语义触发,文献内名称别名等。 其识别准确率达66.5%,在GENIA语料库中的召回率达66.6%。 综合以上方法,Chen 和 Friedman[28]利用 MEDLEE 系统来识别 与生物医学文本中与表型信息相对应的短语。该系统使用自然 语言技术来识别期刊文章摘要中存在的表型短语。生物医学的 实体识别常常可使用较小的表型相关术语的知识库。Chen 和 Friedman[29]自动导入与语义类别相关的数千个 UMLS 术语,如 细胞体功能和细胞功能障碍,以及哺乳动物本体中的几百个术 语;并手动添加了几百个术语。实验结果表明,其实体识别准 确率达 64.0%,召回率达 77.1%。虽然结果不高,但为之后的 研究人员提供了一条可行的思路。 在医学领域,命名实体识别的痛点在于数据质量的良莠不 齐以及人工标注的专业性要求高。目前有专门研究如何降低对 于数据标注依赖的研究,其原理主要是利用海量未标注数据持 4 http://www.senseval.org/ 5 http://research.nii.ac.jp/ntcir 续提升模型性能,从小样本中进行学习,自我探索逐步学习新 知识,形成一个交互学习过程。 3)深度学习方法 深度学习近年来开始被广泛应用于命名实体识别,最具代 表性的模型是 2011 年 Collobert[30]提出的一个深层神经网络模 型,其效果和性能超过了传统算法。Sahu 等人[31]所提出的 CNN 与 RNN 级联的方法生成词嵌入特征,其结果优于目前最好的 算法且不需要过多的特征工程。 在医学领域,We 等人[32]基于 CRF 和双向 RNN 生成特征, 再使用 SVM 进行疾病命名实体识别。目前医学信息命名实体 识别任务中最主流的深度学习模型是 BiLSTM-CRF 模型, Jagannatha 等人[33]对比了 CRF,BiLSTM,BiLSTM-CRF 三种 模型,以及一些它们的改进模型,在英文电子病历命名实体识 别的效果,实验结果表明所有基于 LSTM 的模型都比 CRF 效 果更好,并且 BiLSTM 结合 CRF 模型能够进一步提高评测结果 2%-5%的准确率。 1.2.2 实体抽取 本文将医学实体关系抽取归结为两类:a)同类型医学实体 层级关系抽取,如疾病的“肠胃病-慢性胃炎”等;b)不同类 型关系抽取,如“疾病-症状”等。 1)同类型医学实体层级关系抽取 同类型医学实体层级关系相对较为单一,主要是 is-a 和 part-of 关系。由于医学有其严谨的学科体系和行业规范,因此 此类关系往往在医学词典、百科、信息标准中进行。 ICD-10[34]、SNOMED 等医疗词典或医疗数据库重点关注 医学专业术语、受限词汇的分类和概念标准化工作,权威且涵 盖范围广,在数量和质量上都有所保障,被医疗行业广泛认可, 是抽取层级间实体关系的首选来源。针对具体的医疗词典、知 识库提供的数据格式和开放 API 接口,可通过爬虫、正则表达 式、D2R 映射等技术从中抽取分层结构,抽取三元组来匹配、 添加上下位关系。 2)不同类型医学实体关系抽取 不同类型医学实体间的语义关系识别大致基于两大不同数 据源而实现。一是百科或其他结构化数据源,如 Medline,UMLS 等;二是半结构化的电子病历。 医学实体类型相对有限(主要是疾病、症状、治疗、药品 等),目前通常在两个实体间预定义好要抽取的关系类型,再将 抽取任务转换为分类问题来处理。如何预定义实体关系目前尚 未有统一的标准,这取决于医学知识图谱构建过程中模式图的 设置、实体识别情况、语料来源、构建目的及应用场景等,如 在 I2B2 2010 评测中,将电子病历中的实体关系分成了医疗问 题与医疗问题、医疗问题与治疗、医疗问题与检查三类。 近几年,Uzuner 团队[35]在句子层面抽取了六类医疗实体关 系,使用实体顺序和距离、链接语法和词汇特征来训练 6 个 SVM 分类器,通过对比实验,指出词汇特征在实体关系识别中 的重要作用。在此基础上,基于 Medline 摘要,Frunza 等[36]
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有