正在加载图片...
D01:10.13374.isml00103x.2007.s2.104 第29卷增刊2 北京科技大学学报 Vol.29 SuppL 2 2007年12月 Journal of University of Science and Technology Beijing Dec.2007 基于图分析的领域知识获取技术 张德政阿孜古丽刘洁卉 北京科技大学信息工程学院.北京100083 摘要知识获取技术制约着知识系统的研究和应用.有效地从文本中提取领域知识成为知识获取的重要途径.本文提出了 基于本体和图分析的领域知识获取技术,分析了本体数据结构、本体概念的实例化以及基于图分析的语义场构造方法.建立 了具有广泛适用性的文本知识获取系统框架,实现了原型系统.通过针对中医医案的中医领域知识获取实验验证,取得了较 好的效果. 关键词本体;图分析:知识获取 分类号TP182 知识获取是专家系统乃至其他知识系统的亟待 中介性(Betweenness),信息(Information),特征向量 解决的问题.在关联规则数据挖掘研究基础上,数 (Eigenvector)等g. 据挖掘逐渐拓展到Wb挖掘、生物信息等包含大量 这两类方法分别从传统意义下的数据挖掘角度 复杂类型数据的众多实际应用领域?.数据挖掘 和图属性分析的角度考虑了知识获取.这些方法在 与知识发现部分地解决了知识获取问题,对于多关 各自的适应范围内取得了较好的效果.但对于深层 系并蕴含复杂结构的知识的获取迄今没有有效的方 次知识、隐性知识以及小样本数据情况下知识获取 法.充分利用已有知识,来获取知识结构中的那些 受到局限,同时目前也未见到其他有效方法.同时, 未知关系,或利用领域常识来获取更具针对性和概 在实际应用中图结构的构造制约着相关技术的应 括性的知识,已经成为知识获取,知识发现研究的重 用. 点到.本文依据认知机理,从领域基础知识出发,通 挖掘作为从文本中获取知识的技术之一已经有 过文本处理,建立概念之间的关系,进而通过分析概 着深入的研究.文本挖掘通过分类聚类、自动文摘 念构成的图结构特征来获取领域专家感兴趣的知 等技术从大量文档中抽取有用的结构与模式,所获 识. 取的知识为层次较高的抽象知识).中医医案是一 1知识获取的相关工作 类特殊的文档,名老中医学术思想与临证经验是通 过传承,实践以及创新而形成的独特知识体系,知识 对于多关系以及结构知识获取的研究工作主要 隐含在名老中医辨证施治过程以及所形成的医案之 包括两类:一类是针对挖掘特定的知识结构,获取知 中.有效地获取医案中的知识,深层次挖掘隐藏在 识结构的频繁子图,其工作主要集中在基于图的算 诊疗过程中的隐性知识,最大限度地获取与保留名 法研究上,如AGM9和FSG)等子图的挖掘算法, 医数十年积累的诊疗经验,是实现中医传承亟待解 算法都利用邻接矩阵分别对图的顶点和边进行逐层 决的关键问题之一,由于疾病机理的复杂性和中医 构造,以最终获取频繁的子图.另一类是从图中寻 诊疗的个性化特征,相似或相近疾病或病证的数量 找某种有用的属性信息,如度、最短路、路径中包含 较少,对于小样本医案采用常规文本挖掘技术来获 的信息量等,来凸现图节点间的关系或差异.通过 取深层次知识的难度较大. 充分地反映出节点在图中的位置特性,将图中节点 基于应用与理论研究需求驱动,将领域知识与 的显著性进行“放大”来定义节点的重要性:度量方 图结构分析融合在一起来获取文本中的知识,并研 法主要包括节点的度(Deg ree),亲近度(Closeness), 发了相应的软件系统KAS(Know ledge Acquisition 收稿日期:2007-10-12 System).系统构建了中医领域本体知识库,实现中 基金项目:国家“十一五”科技支撑计划基金资助项目(No. 医文本处理相关技术,进而基于图结构分析来完成 2007BAI10B06):国家“863"计划基金资助项目(No. 个体知识的实例化,获取名老中医诊疗个性化的独 2003AA115220) 作者简介:张德政(1964一),男,副教授,博士 特的知识基于图分析的领域知识获取技术 张德政 阿孜古丽 刘洁卉 北京科技大学信息工程学院, 北京 100083 摘 要 知识获取技术制约着知识系统的研究和应用, 有效地从文本中提取领域知识成为知识获取的重要途径.本文提出了 基于本体和图分析的领域知识获取技术, 分析了本体数据结构、本体概念的实例化以及基于图分析的语义场构造方法.建立 了具有广泛适用性的文本知识获取系统框架, 实现了原型系统.通过针对中医医案的中医领域知识获取实验验证, 取得了较 好的效果. 关键词 本体;图分析;知识获取 分类号 TP182 收稿日期:2007-10-12 基金 项目:国 家“ 十 一五” 科 技支 撑计划 基金 资助项 目 ( No . 2007BAI10B06) ;国家“ 863” 计划基金资助项目( No . 2003AA115220) 作者简介:张德政( 1964—) , 男, 副教授, 博士 知识获取是专家系统乃至其他知识系统的亟待 解决的问题 .在关联规则数据挖掘研究基础上, 数 据挖掘逐渐拓展到 Web 挖掘 、生物信息等包含大量 复杂类型数据的众多实际应用领域[ 1-2] .数据挖掘 与知识发现部分地解决了知识获取问题, 对于多关 系并蕴含复杂结构的知识的获取迄今没有有效的方 法.充分利用已有知识, 来获取知识结构中的那些 未知关系, 或利用领域常识来获取更具针对性和概 括性的知识, 已经成为知识获取、知识发现研究的重 点[ 3] .本文依据认知机理, 从领域基础知识出发, 通 过文本处理, 建立概念之间的关系, 进而通过分析概 念构成的图结构特征来获取领域专家感兴趣的知 识. 1 知识获取的相关工作 对于多关系以及结构知识获取的研究工作主要 包括两类 :一类是针对挖掘特定的知识结构, 获取知 识结构的频繁子图, 其工作主要集中在基于图的算 法研究上, 如 AGM [ 4] 和 FSG [ 5] 等子图的挖掘算法, 算法都利用邻接矩阵分别对图的顶点和边进行逐层 构造, 以最终获取频繁的子图 .另一类是从图中寻 找某种有用的属性信息, 如度 、最短路、路径中包含 的信息量等, 来凸现图节点间的关系或差异.通过 充分地反映出节点在图中的位置特性, 将图中节点 的显著性进行“放大” 来定义节点的重要性;度量方 法主要包括节点的度( Deg ree) , 亲近度( Closeness) , 中介性( Betweenness) , 信息( Information) , 特征向量 ( Eigenvector) 等[ 6] . 这两类方法分别从传统意义下的数据挖掘角度 和图属性分析的角度考虑了知识获取.这些方法在 各自的适应范围内取得了较好的效果.但对于深层 次知识、隐性知识以及小样本数据情况下知识获取 受到局限, 同时目前也未见到其他有效方法.同时, 在实际应用中图结构的构造制约着相关技术的应 用 . 挖掘作为从文本中获取知识的技术之一已经有 着深入的研究.文本挖掘通过分类聚类、自动文摘 等技术从大量文档中抽取有用的结构与模式, 所获 取的知识为层次较高的抽象知识[ 7] .中医医案是一 类特殊的文档, 名老中医学术思想与临证经验是通 过传承 、实践以及创新而形成的独特知识体系, 知识 隐含在名老中医辨证施治过程以及所形成的医案之 中 .有效地获取医案中的知识, 深层次挖掘隐藏在 诊疗过程中的隐性知识, 最大限度地获取与保留名 医数十年积累的诊疗经验, 是实现中医传承亟待解 决的关键问题之一 .由于疾病机理的复杂性和中医 诊疗的个性化特征, 相似或相近疾病或病证的数量 较少, 对于小样本医案采用常规文本挖掘技术来获 取深层次知识的难度较大. 基于应用与理论研究需求驱动, 将领域知识与 图结构分析融合在一起来获取文本中的知识, 并研 发了相应的软件系统 KAS ( Know ledge Acquisition System) .系统构建了中医领域本体知识库, 实现中 医文本处理相关技术, 进而基于图结构分析来完成 个体知识的实例化, 获取名老中医诊疗个性化的独 特的知识. 第 29 卷 增刊 2 2007 年 12 月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.29 Suppl.2 Dec.2007 DOI :10.13374/j .issn1001 -053x.2007.s2.104
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有