正在加载图片...
优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第35卷第7期 说模式图是数据图的模具。 法由于表示能力有限且缺乏灵活性,不再作为主要的知识表示 著名的通用知识图谱中有,谷歌“ Knowledge Graph”[]、方法,更多是作为医学知识表示的辅助或补充。 搜狗“知立方”1、YAGO[2]、 DBpedia3]等,它们具有规模大 本体表示法以网络的形式表示知识,即以(实体1,关系, 领域宽,包含大量常识等特点。目前,医学是知识图谱应用最实体2)三元组来表示相关联的两个节点(实体),在知识图谱 广的垂直领域之一,如上海曙光医院构建的中医药知识图谱凹、國提出之后逐渐得到认可。它借鉴了语义网表示法但又有所区 本体医疗知识库 SNOMED-CT2, IBM Watson Health3等应用近别:本体关注的是实体固有特征,比后者更聚焦,更深入,因 两年也开始进入人们视线 而也具有更大的发展潜力。而本体的描述语言也多种多样:主 知识图谱是智能大数据的前沿研究问题,它以独有的技术要有RDF和RDFS、DAML、OWL等。使用本体表示医学术 优势顺应了信息化时代的发展,比如渐增式的数据模式设计:语可以提升数据整合能力:建立强大、可互操作的医疗信息系 良好的数据集成:现有RDF、OWL等标准支持:语义搜索和统:满足重用共享传输医疗数据的需求:提供基于不同语义标 知识推理能力等。在医学领域,随着区域卫生信息化及医疗信准的统计聚合。医学领域本体的构建,需要深入分析医学术语 息系统的发展,积累了海量的医学数据。如何从这些数据中提的结构和概念,才能将晦涩甚至是跨语言的医学知识有效地表 炼信息,并加以管理、共享及应用,是推进医学智能化的关键达出来。目前的医学知识本体库有:医学概念知识库 问题,是医学知识检索、临床诊断、医疗质量管理、电子病历 L inkBasel9, TAMBIS本体库(IaO1等等 及健康档案智能化处理的基础。 知识图谱的节点个数影响着网络的结构复杂度及推理的效 本文首先介绍了医学知识图谱的构建技术,主要涉及到医率和难度。知识表示学习借助机器学习,将研究对象的语义信 学知识表示:医学知识抽取,包括实体、关系、属性的抽取:息表示为稠密低维向量,有效解决数据稀疏问题,从而提升知 医学知识融合:医学知识推理和质量评估五个部分。然后介绍识融合和推理性能間。低维向量表示是一种分布式表示 了基于医学知识图谱的包括检索、问答、决策等的应用现状 ( distributed representation)12,它模仿人脑中使用多个神经元 最后对医学知识图谱的研究、应用重点,面临的挑战以及未来存储对象的工作机制,使用多维度向量表示对象的语义信息 的发展趋势进行了展望。 知识表示学习中的代表模型有:结构化表示法( Structu Embedding,SE)I,单层神经网络模型( single layer model 1医学知识图谱构建 SLM)叫,隐变量模型( latent factor model,LFM)S,基于 本文将医学知识图谱构建技术归纳为五部分,即医学知识 TransE[1!6]的翻译模型等等。这些模型考虑实体间的协同性和 的表示、抽取、融合、推理以及质量评估。通过从大量的结构计算开销,用向量表示实体,再对表示实体的向量或关系进行 化或非结构化的医学数据中提取出实体、关系、属性等知识图相应的矩阵变换,提出评价函数来衡量实体间的相关性,并为 谱的组成元素,选择合理高效的方式存入知识库。医学知识融之后的知识补全和推理提供重要参考。 Kleyko等人证明了分 合对医学知识库内容进行消歧和链接,增强知识库内部的逻辑布式表示方法表示医学图像进行分类精度能够与最佳经典方法 性和表达能力,并通过人工或自动的方式为医学知识图谱更新相同: Henriksson等人18对比使用多种知识表示方法表示EHR 旧知识或补充新知识。借助知识推理,推出缺失事实,自动完中4类记录:诊断记录,药物使用记录,治疗方法和病程记录 成疾病诊断与治疗。质量评估则是保障数据的重要手段,提高显然,知识表示学习无疑为医学知识图谱的知识表示开辟了新 医学知识图谱的可信度和准确度。 思路。 1.1医学知识表示 12医学知识抽取 知识表示是为描述世界所做的一组约定,是知识符号化、 医学知识图谱的构建主要是从非结构化数据中人工或自动 形式化、模式化的过程,主要研究计算机存储知识的方法,其地提取实体、关系和属性。人工提取是通过专家依据一定规则 表示方式影响系统的知识获取、存储及运用的效率。然而医学收集并整理相关信息,提取知识。目前通过人工构建的医学知 数据种类繁杂,存储方式不一,电子病历格式和标准不同,经识库包括临床医学知识库、 SNOMED-CT、ICD-10等。自动 常涉及交叉领域等特点,导致医学领域与其他领域在知识表示提取则是利用机器学习、人工智能、数据挖掘等信息抽取技术 方面有所差异,同时也给医学领域的知识表示带来极大的挑战。从数据源中自动提取出知识图谱的基本组成元素。自动构建医 早期医疗知识库运用的知识表示方法有:谓词逻辑表示法,学知识库的典型例子有一体化医学语言系统UMLS。人工提 产生式表示法,框架表示法,语义网表示法等等。比如,取的代价太大,知识的自动提取是目前重点的研究方向,也是 SNOMED-CT,早期的MYCⅣN系统间,大肠杆菌数据库将来构建知识图谱的趋势。本节主要介绍如何自动从数据源中 EcoCyc[7等。随着知识图谱中知识增长、关系复杂化,这些方抽取知识和信息,包括实体、关系和属性抽取 1.2.1实体抽取 识别文本中的生物医学实体,其目的在于通过识别关键概 www.snomed.org 念进一步提取关系和其他信息,并将识别的概念以标准化的形 VWw优先出版 袁凯琦,等:医学知识图谱构建技术与研究进展 第 35 卷第 7 期 说模式图是数据图的模具。 著名的通用知识图谱中有,谷歌“Knowledge Graph”[1]、 搜狗“知立方”1、YAGO[2]、DBpedia[3]等,它们具有规模大、 领域宽,包含大量常识等特点。目前,医学是知识图谱应用最 广的垂直领域之一,如上海曙光医院构建的中医药知识图谱[4]、 本体医疗知识库 SNOMED-CT2,IBM Watson Health3等应用近 两年也开始进入人们视线。 知识图谱是智能大数据的前沿研究问题,它以独有的技术 优势顺应了信息化时代的发展,比如渐增式的数据模式设计; 良好的数据集成;现有 RDF、OWL 等标准支持;语义搜索和 知识推理能力等。在医学领域,随着区域卫生信息化及医疗信 息系统的发展,积累了海量的医学数据。如何从这些数据中提 炼信息,并加以管理、共享及应用,是推进医学智能化的关键 问题,是医学知识检索、临床诊断、医疗质量管理、电子病历 及健康档案智能化处理的基础。 本文首先介绍了医学知识图谱的构建技术,主要涉及到医 学知识表示;医学知识抽取,包括实体、关系、属性的抽取; 医学知识融合;医学知识推理和质量评估五个部分。然后介绍 了基于医学知识图谱的包括检索、问答、决策等的应用现状。 最后对医学知识图谱的研究、应用重点,面临的挑战以及未来 的发展趋势进行了展望。 1 医学知识图谱构建 本文将医学知识图谱构建技术归纳为五部分,即医学知识 的表示、抽取、融合、推理以及质量评估。通过从大量的结构 化或非结构化的医学数据中提取出实体、关系、属性等知识图 谱的组成元素,选择合理高效的方式存入知识库。医学知识融 合对医学知识库内容进行消歧和链接,增强知识库内部的逻辑 性和表达能力,并通过人工或自动的方式为医学知识图谱更新 旧知识或补充新知识。借助知识推理,推出缺失事实,自动完 成疾病诊断与治疗。质量评估则是保障数据的重要手段,提高 医学知识图谱的可信度和准确度。 1.1 医学知识表示 知识表示是为描述世界所做的一组约定,是知识符号化、 形式化、模式化的过程[5],主要研究计算机存储知识的方法,其 表示方式影响系统的知识获取、存储及运用的效率。然而医学 数据种类繁杂,存储方式不一,电子病历格式和标准不同,经 常涉及交叉领域等特点,导致医学领域与其他领域在知识表示 方面有所差异,同时也给医学领域的知识表示带来极大的挑战。 早期医疗知识库运用的知识表示方法有:谓词逻辑表示法, 产生式表示法,框架表示法,语义网表示法等等。比如, SNOMED-CT,早期的 MYCIN 系统[6],大肠杆菌数据库 EcoCyc[7]等。随着知识图谱中知识增长、关系复杂化,这些方 1 https://www.sogou.com/ 2 http://www.snomed.org/ 3 http://www-935.ibm.com/industries/hea lthcare/index.html 法由于表示能力有限且缺乏灵活性,不再作为主要的知识表示 方法,更多是作为医学知识表示的辅助或补充。 本体表示法以网络的形式表示知识,即以(实体 1,关系, 实体 2)三元组来表示相关联的两个节点(实体),在知识图谱 [8]提出之后逐渐得到认可。它借鉴了语义网表示法但又有所区 别:本体关注的是实体固有特征,比后者更聚焦,更深入,因 而也具有更大的发展潜力。而本体的描述语言也多种多样:主 要有 RDF 和 RDF-S、DAML、OWL 等。使用本体表示医学术 语可以提升数据整合能力:建立强大、可互操作的医疗信息系 统;满足重用共享传输医疗数据的需求;提供基于不同语义标 准的统计聚合。 医学领域本体的构建,需要深入分析医学术语 的结构和概念,才能将晦涩甚至是跨语言的医学知识有效地表 达 出 来 。 目 前 的 医 学 知 识 本 体 库 有 : 医 学 概 念 知 识 库 LinkBase[9],TAMBIS 本体库 (TaO)[10]等等。 知识图谱的节点个数影响着网络的结构复杂度及推理的效 率和难度。知识表示学习借助机器学习,将研究对象的语义信 息表示为稠密低维向量,有效解决数据稀疏问题,从而提升知 识融合和推理性能[11]。低维向量表示是一种分布式表示 (distributed representation)[12],它模仿人脑中使用多个神经元 存储对象的工作机制,使用多维度向量表示对象的语义信息。 知识表示学习中的代表模型有:结构化表示法(Structure Embedding,SE)[13],单层神经网络模型(single layer model, SLM)[14],隐变量模型(latent factor model,LFM)[15],基于 TransE[16]的翻译模型等等。这些模型考虑实体间的协同性和 计算开销,用向量表示实体,再对表示实体的向量或关系进行 相应的矩阵变换,提出评价函数来衡量实体间的相关性,并为 之后的知识补全和推理提供重要参考。Kleyko 等人[17]证明了分 布式表示方法表示医学图像进行分类精度能够与最佳经典方法 相同;Henriksson 等人[18]对比使用多种知识表示方法表示 EHR 中 4 类记录:诊断记录,药物使用记录,治疗方法和病程记录。 显然,知识表示学习无疑为医学知识图谱的知识表示开辟了新 思路。 1.2 医学知识抽取 医学知识图谱的构建主要是从非结构化数据中人工或自动 地提取实体、关系和属性。人工提取是通过专家依据一定规则 收集并整理相关信息,提取知识。目前通过人工构建的医学知 识库包括临床医学知识库[19]、SNOMED-CT、ICD-10 等。自动 提取则是利用机器学习、人工智能、数据挖掘等信息抽取技术, 从数据源中自动提取出知识图谱的基本组成元素。自动构建医 学知识库的典型例子有一体化医学语言系统 UMLS[20]。人工提 取的代价太大,知识的自动提取是目前重点的研究方向,也是 将来构建知识图谱的趋势。本节主要介绍如何自动从数据源中 抽取知识和信息,包括实体、关系和属性抽取。 1.2.1 实体抽取 识别文本中的生物医学实体,其目的在于通过识别关键概 念进一步提取关系和其他信息,并将识别的概念以标准化的形
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有