D01:10.13374.isml00103x.2007.s2.104 第29卷增刊2 北京科技大学学报 Vol.29 SuppL 2 2007年12月 Journal of University of Science and Technology Beijing Dec.2007 基于图分析的领域知识获取技术 张德政阿孜古丽刘洁卉 北京科技大学信息工程学院.北京100083 摘要知识获取技术制约着知识系统的研究和应用.有效地从文本中提取领域知识成为知识获取的重要途径.本文提出了 基于本体和图分析的领域知识获取技术,分析了本体数据结构、本体概念的实例化以及基于图分析的语义场构造方法.建立 了具有广泛适用性的文本知识获取系统框架,实现了原型系统.通过针对中医医案的中医领域知识获取实验验证,取得了较 好的效果. 关键词本体;图分析:知识获取 分类号TP182 知识获取是专家系统乃至其他知识系统的亟待 中介性(Betweenness),信息(Information),特征向量 解决的问题.在关联规则数据挖掘研究基础上,数 (Eigenvector)等g. 据挖掘逐渐拓展到Wb挖掘、生物信息等包含大量 这两类方法分别从传统意义下的数据挖掘角度 复杂类型数据的众多实际应用领域?.数据挖掘 和图属性分析的角度考虑了知识获取.这些方法在 与知识发现部分地解决了知识获取问题,对于多关 各自的适应范围内取得了较好的效果.但对于深层 系并蕴含复杂结构的知识的获取迄今没有有效的方 次知识、隐性知识以及小样本数据情况下知识获取 法.充分利用已有知识,来获取知识结构中的那些 受到局限,同时目前也未见到其他有效方法.同时, 未知关系,或利用领域常识来获取更具针对性和概 在实际应用中图结构的构造制约着相关技术的应 括性的知识,已经成为知识获取,知识发现研究的重 用. 点到.本文依据认知机理,从领域基础知识出发,通 挖掘作为从文本中获取知识的技术之一已经有 过文本处理,建立概念之间的关系,进而通过分析概 着深入的研究.文本挖掘通过分类聚类、自动文摘 念构成的图结构特征来获取领域专家感兴趣的知 等技术从大量文档中抽取有用的结构与模式,所获 识. 取的知识为层次较高的抽象知识).中医医案是一 1知识获取的相关工作 类特殊的文档,名老中医学术思想与临证经验是通 过传承,实践以及创新而形成的独特知识体系,知识 对于多关系以及结构知识获取的研究工作主要 隐含在名老中医辨证施治过程以及所形成的医案之 包括两类:一类是针对挖掘特定的知识结构,获取知 中.有效地获取医案中的知识,深层次挖掘隐藏在 识结构的频繁子图,其工作主要集中在基于图的算 诊疗过程中的隐性知识,最大限度地获取与保留名 法研究上,如AGM9和FSG)等子图的挖掘算法, 医数十年积累的诊疗经验,是实现中医传承亟待解 算法都利用邻接矩阵分别对图的顶点和边进行逐层 决的关键问题之一,由于疾病机理的复杂性和中医 构造,以最终获取频繁的子图.另一类是从图中寻 诊疗的个性化特征,相似或相近疾病或病证的数量 找某种有用的属性信息,如度、最短路、路径中包含 较少,对于小样本医案采用常规文本挖掘技术来获 的信息量等,来凸现图节点间的关系或差异.通过 取深层次知识的难度较大. 充分地反映出节点在图中的位置特性,将图中节点 基于应用与理论研究需求驱动,将领域知识与 的显著性进行“放大”来定义节点的重要性:度量方 图结构分析融合在一起来获取文本中的知识,并研 法主要包括节点的度(Deg ree),亲近度(Closeness), 发了相应的软件系统KAS(Know ledge Acquisition 收稿日期:2007-10-12 System).系统构建了中医领域本体知识库,实现中 基金项目:国家“十一五”科技支撑计划基金资助项目(No. 医文本处理相关技术,进而基于图结构分析来完成 2007BAI10B06):国家“863"计划基金资助项目(No. 个体知识的实例化,获取名老中医诊疗个性化的独 2003AA115220) 作者简介:张德政(1964一),男,副教授,博士 特的知识
基于图分析的领域知识获取技术 张德政 阿孜古丽 刘洁卉 北京科技大学信息工程学院, 北京 100083 摘 要 知识获取技术制约着知识系统的研究和应用, 有效地从文本中提取领域知识成为知识获取的重要途径.本文提出了 基于本体和图分析的领域知识获取技术, 分析了本体数据结构、本体概念的实例化以及基于图分析的语义场构造方法.建立 了具有广泛适用性的文本知识获取系统框架, 实现了原型系统.通过针对中医医案的中医领域知识获取实验验证, 取得了较 好的效果. 关键词 本体;图分析;知识获取 分类号 TP182 收稿日期:2007-10-12 基金 项目:国 家“ 十 一五” 科 技支 撑计划 基金 资助项 目 ( No . 2007BAI10B06) ;国家“ 863” 计划基金资助项目( No . 2003AA115220) 作者简介:张德政( 1964—) , 男, 副教授, 博士 知识获取是专家系统乃至其他知识系统的亟待 解决的问题 .在关联规则数据挖掘研究基础上, 数 据挖掘逐渐拓展到 Web 挖掘 、生物信息等包含大量 复杂类型数据的众多实际应用领域[ 1-2] .数据挖掘 与知识发现部分地解决了知识获取问题, 对于多关 系并蕴含复杂结构的知识的获取迄今没有有效的方 法.充分利用已有知识, 来获取知识结构中的那些 未知关系, 或利用领域常识来获取更具针对性和概 括性的知识, 已经成为知识获取、知识发现研究的重 点[ 3] .本文依据认知机理, 从领域基础知识出发, 通 过文本处理, 建立概念之间的关系, 进而通过分析概 念构成的图结构特征来获取领域专家感兴趣的知 识. 1 知识获取的相关工作 对于多关系以及结构知识获取的研究工作主要 包括两类 :一类是针对挖掘特定的知识结构, 获取知 识结构的频繁子图, 其工作主要集中在基于图的算 法研究上, 如 AGM [ 4] 和 FSG [ 5] 等子图的挖掘算法, 算法都利用邻接矩阵分别对图的顶点和边进行逐层 构造, 以最终获取频繁的子图 .另一类是从图中寻 找某种有用的属性信息, 如度 、最短路、路径中包含 的信息量等, 来凸现图节点间的关系或差异.通过 充分地反映出节点在图中的位置特性, 将图中节点 的显著性进行“放大” 来定义节点的重要性;度量方 法主要包括节点的度( Deg ree) , 亲近度( Closeness) , 中介性( Betweenness) , 信息( Information) , 特征向量 ( Eigenvector) 等[ 6] . 这两类方法分别从传统意义下的数据挖掘角度 和图属性分析的角度考虑了知识获取.这些方法在 各自的适应范围内取得了较好的效果.但对于深层 次知识、隐性知识以及小样本数据情况下知识获取 受到局限, 同时目前也未见到其他有效方法.同时, 在实际应用中图结构的构造制约着相关技术的应 用 . 挖掘作为从文本中获取知识的技术之一已经有 着深入的研究.文本挖掘通过分类聚类、自动文摘 等技术从大量文档中抽取有用的结构与模式, 所获 取的知识为层次较高的抽象知识[ 7] .中医医案是一 类特殊的文档, 名老中医学术思想与临证经验是通 过传承 、实践以及创新而形成的独特知识体系, 知识 隐含在名老中医辨证施治过程以及所形成的医案之 中 .有效地获取医案中的知识, 深层次挖掘隐藏在 诊疗过程中的隐性知识, 最大限度地获取与保留名 医数十年积累的诊疗经验, 是实现中医传承亟待解 决的关键问题之一 .由于疾病机理的复杂性和中医 诊疗的个性化特征, 相似或相近疾病或病证的数量 较少, 对于小样本医案采用常规文本挖掘技术来获 取深层次知识的难度较大. 基于应用与理论研究需求驱动, 将领域知识与 图结构分析融合在一起来获取文本中的知识, 并研 发了相应的软件系统 KAS ( Know ledge Acquisition System) .系统构建了中医领域本体知识库, 实现中 医文本处理相关技术, 进而基于图结构分析来完成 个体知识的实例化, 获取名老中医诊疗个性化的独 特的知识. 第 29 卷 增刊 2 2007 年 12 月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.29 Suppl.2 Dec.2007 DOI :10.13374/j .issn1001 -053x.2007.s2.104
Vol.29 SuppL 2 张德政等:基于图分析的领域知识获取技术 195。 一核或者说是次序为k的核,当且仅当对任意ⅴ∈ 2 结构知识及知识获取 W:deg(v)≥k并且H是具有这个特性的最大子 复杂知识体系显化于知识结构之中就构成了一 图.顶点v的核数是包含这个顶点的核的最高次 类结构知识.结构知识表现为知识节点以及知识节 序. 点之间的关系,其中知识节点是由领域知识体系中 知识获取过程都是以原有的知识为基础来获取 的概念构成的,概念之间的连线,对应于概念节点之 新的知识.用一种清晰的方法把领域知识分解为一 间的语义联系.为了获取特定文本中的知识,需要 组知识元以及它们之间的相互关系,这些知识元和 首先将文本中的概念及其之间的关系组织成相应的 相互关系组织在一起就构成了领域本体,即生成一 数据结构,这里引入图论的方法8.如果将知识结 个领域知识库.在中医领域,通过对领域概念和概 构中的概念定义为图的顶点,概念之间的联系定义 念关系的组织成本体即生成了中医基础知识库. 为图的边,知识结构可用有向图结构来表示.一个 利用领域知识通过演绎推理可以获取个性化的知 有向图D是一个三元组(V,E,f),其中V是一个 识.为了把本体知识库存储起来,组织了邻接链表 非空的集合,它的元素称为有向图D的结点,E是 作为图的存储结构,便于图的遍历和查找.在这些 一个集合,它的元素称为有向图D的弧(边),f是 资源的基础上,可以建立知识获取的系统框架.对 一个从E到VXV上的映射(函数),例如,V={a, 文档进行分析处理,生成了新的知识,达到了知识获 b,c,d},E={e1,e2,e3,e4,e5,e6,且f(e)= 取的目的10g ,f(a)=,f(e3)=, 3系统结构与功能 f(es)=c,d,f(es)=,D=(V, E,f)是一个有向图,如图1所示. 利用上述理论和相关技术来构造基于本体的领 域知识获取系统一KA$.系统主要包括文本预处 理模块、知识库模块和知识获取等模块系统结构如 图2所示.文本预处理模块负责对文本进行词法分 析,提取出文本的特征词.知识库模块负责中医领 域本体的组织,数据结构表示.知识获取模块负责 图1知识结构的有向图示例 文本特征词的实例化,组织形成语义场,完成获取知 识. 个性化的独特的知识可用通过演绎推理来获 取,即知识结构中所包含的独特的、规律性的知识. 词库 结果 管理 司库 分 在知识结构中,知识是通过知识结构的图结构特征 检索 标注 文本预 标准 来表示的.常见的图结构特征有:度、核数的度指标 医案 管理 处理 化特 证词 以及接近度等指标9 数据 库 挖掘 语义 (I)度(degree).度代表图中某一个节点与之 中医 知识 相连的边的数目.在知识结构中表达一类语义联 获取 语义 识 网络 知识 系,用无方向图来定义 数据 社会 (2)子图(subg roup).一个图G的子图G的 化 网 定义为:G的点集是G的点集的一个子集,并且 G中的线集L,也是G的线集的一个子集G中 图2知识获取系统结构图 的所有线也必须是G中所有点之间的线.由于L。 3.1文本预处理 是L的一个子集图G中的两点可能包含在子图 中文分词是基础工作,系统采用基于统计模型 中,但是,图G中的连接这两个点之间的线不一定 的最大概率法进行分词.最大概率法相当于一元语 在子图G。中 法模型,每次选择出现概率最大的路径作为切分结 (3)核数(coes).设图G=(V,E)是一个图. 果.运用一元语法模型可以达到90%以上的切分正 V是顶点集合,并且L是线集合(边或弧),用n表 确率.利用大规模的中医语料库和成熟的n元语法 示顶点的个数n=|小并且用m表示边的个数m 统计模型,可将切分正确率提高很多, =|L.由集合W产生的子图H=(W,LW)是k 在对文本进行分词处理后,系统采用了预制停
2 结构知识及知识获取 复杂知识体系显化于知识结构之中就构成了一 类结构知识.结构知识表现为知识节点以及知识节 点之间的关系, 其中知识节点是由领域知识体系中 的概念构成的, 概念之间的连线, 对应于概念节点之 间的语义联系.为了获取特定文本中的知识, 需要 首先将文本中的概念及其之间的关系组织成相应的 数据结构, 这里引入图论的方法[ 8] .如果将知识结 构中的概念定义为图的顶点, 概念之间的联系定义 为图的边, 知识结构可用有向图结构来表示.一个 有向图 D 是一个三元组( V , E , f ) , 其中 V 是一个 非空的集合, 它的元素称为有向图 D 的结点, E 是 一个集合, 它的元素称为有向图 D 的弧( 边), f 是 一个从E 到 V ×V 上的映射(函数), 例如, V ={a, b, c, d}, E ={e1, e2, e3, e4, e5, e6}, 且 f ( e1) = , f ( e2 ) =, f ( e3 ) =, f ( e4) =, f ( e5) =, 则 D =( V , E , f )是一个有向图, 如图 1 所示 . 图 1 知识结构的有向图示例 个性化的独特的知识可用通过演绎推理来获 取, 即知识结构中所包含的独特的、规律性的知识 . 在知识结构中, 知识是通过知识结构的图结构特征 来表示的 .常见的图结构特征有 :度 、核数的度指标 以及接近度等指标 [ 9] . ( 1) 度( degree) .度代表图中某一个节点与之 相连的边的数目.在知识结构中表达一类语义联 系, 用无方向图来定义. ( 2) 子图( subg roup) .一个图 G 的子图 Gs 的 定义为:Gs 的点集是 G 的点集的一个子集, 并且 Gs 中的线集 L s 也是 G 的线集的一个子集, Gs 中 的所有线也必须是 G 中所有点之间的线.由于 Ls 是 L 的一个子集, 图 G 中的两点可能包含在子图 中, 但是, 图 G 中的连接这两个点之间的线不一定 在子图Gs 中. ( 3) 核数( cores) .设图 G =( V, E) 是一个图 . V 是顶点集合, 并且 L 是线集合(边或弧) .用 n 表 示顶点的个数 n = V 并且用 m 表示边的个数 m = L .由集合 W 产生的子图H =( W, L W)是 k -核或者说是次序为 k 的核, 当且仅当对任意 v ∈ W :deg ( v ) ≥k 并且 H 是具有这个特性的最大子 图 .顶点 v 的核数是包含这个顶点的核的最高次 序 . 知识获取过程都是以原有的知识为基础来获取 新的知识.用一种清晰的方法把领域知识分解为一 组知识元以及它们之间的相互关系, 这些知识元和 相互关系组织在一起就构成了领域本体, 即生成一 个领域知识库.在中医领域, 通过对领域概念和概 念关系的组织成本体, 即生成了中医基础知识库. 利用领域知识通过演绎推理可以获取个性化的知 识 .为了把本体知识库存储起来, 组织了邻接链表 作为图的存储结构, 便于图的遍历和查找 .在这些 资源的基础上, 可以建立知识获取的系统框架 .对 文档进行分析处理, 生成了新的知识, 达到了知识获 取的目的[ 10] . 3 系统结构与功能 利用上述理论和相关技术来构造基于本体的领 域知识获取系统———KAS .系统主要包括文本预处 理模块 、知识库模块和知识获取等模块, 系统结构如 图 2 所示.文本预处理模块负责对文本进行词法分 析,提取出文本的特征词.知识库模块负责中医领 域本体的组织、数据结构表示.知识获取模块负责 文本特征词的实例化, 组织形成语义场, 完成获取知 识 . 图2 知识获取系统结构图 3.1 文本预处理 中文分词是基础工作, 系统采用基于统计模型 的最大概率法进行分词 .最大概率法相当于一元语 法模型, 每次选择出现概率最大的路径作为切分结 果 .运用一元语法模型可以达到 90 %以上的切分正 确率.利用大规模的中医语料库和成熟的 n 元语法 统计模型, 可将切分正确率提高很多 . 在对文本进行分词处理后, 系统采用了预制停 Vol.29 Suppl.2 张德政等:基于图分析的领域知识获取技术 · 195 ·
。196 北京科技大学学报 2007年增刊2 用词库的方法可以达到滤词和抽取特征词的作用. 对知识库中的概念及关系组织成网状数据结 首先对大量病例病案进行切分和标注,训练出词频 构,以各个概念名称作为头结点,与它相关的概念和 和词性的信息,把词性为助词、代词、介词、语气词、 概念之间的关系作为邻接链表的结点.概念抽取后 语素词作为停用词的候选词汇.从候选停用词中, 得到的是相关的特征词的集合,为了对应到本体的 选择那些可能会在文本中频繁使用,而无宜于语义 概念,需要对特征词进行本体术语概念的标准化. 表达的词语作为停用词.本文最终构造停用词800 这里采用统一词库的方法,把标准术语概念和特征 个,包括符号40个.在对文本进行滤词后,可以抽 词之间作映射.一个本体概念可以对应多个特征词 取出特征词,结合本体概念词库和本体概念同义词 和不规范词汇. 库,抽取出文档对应本体网络的标准概念 3.2知识库 4基于图的知识获取 知识结构与本体及其关系有着很好的对应性. 4.1概念实例化 本体中的关系表示概念之间、概念和个体实例之间 概念标准化后,就可以对文本分析而来的概念 的关联.领域本体是用于描述指定领域知识的本 进行实例化的映射.把与文档相关的概念以及概念 体,它由概念、关系和子领域本体组成.开发一个本 间的关系从本体知识库中抽取出来,形成多个概念 体的过程包括定义本体中的类、定义概念之间的关 及概念关系的语对.把这些语对再组织成网状的数 系.通过添加特定的属性插件赋值信息和限制条 据结构形式,在此基础上就可以进行语义场的构建. 件,就可以建立起一个知识库.本文构建了中医领 4.2概念语义场 域本体知识库,并将部分中医领域本体中药症关系 语义场指语义有关联的词共同构成的一个集或 采用可视化的形式表示出来如图3所示 区,场内每个成员的意义取决于与成分之间的相互 制约关系.语义场形式上是词语的集合,实质上是 概念凭借语义关系共同作用、相互关联的一个集合. 按照其语义关系,可将语义场划分为聚合场和联想 场.为了完成知识获取,本文主要构造聚合场,即由 相关概念之间类聚关系而形成的概念集合1☒. 4.3知识获取 将文档中抽取出的概念作为原子概念,由原子 概念与知识库中的概念相匹配,并根据知识库中概 念之间的二元关系建立原子概念的语义链.根据两 图3知识库本体关系示意图 个概念之间的二元关系,就可以建立资源的语义链. 基于本体结构以及图与数据结构的对应关系, 利用语义链结构与知识库中概念语义网络模型相对 本文构建了中医领域本体的网状数据结构山,定义 应,其中节点表示概念,有向边表示类型化的语义 了结点类型和邻接表内条目类型如下: 链.在语义链的基础上就可以构建语义场,如对某 Struct Vertex顶点基本信息 一味药材构造语义场,可以构造与药材归经、药物功 效、药病、药证、味、性和药毒等多种关系的语义场 string name;∥本体概念结点 利用语义场和图结构的性质就可以获取由文档概念 vectoradj∥邻接结点 语义场所隐含的知识,如计算图结构中重要概念的 Vertex*pev;∥前一个结点 核心性的算法.对于一个给定图G=(V,L),连续 int scratch;∥相关信息 删除度数小于k的顶点以及和这些顶点相关的边, 余下的图就是k一核.算法结构如下: ∥邻接表内条目 输入:图G=(V,L) struct Edge 输出:每个顶点的核数表 compute the degrees of vertices; Vertex*dest;第二个本体概念结点 order the set of vertices V in increasing order of string relation;∥概念间的结点关系 their degrees; }; for each vV in the order do begin
用词库的方法, 可以达到滤词和抽取特征词的作用 . 首先对大量病例病案进行切分和标注, 训练出词频 和词性的信息, 把词性为助词 、代词、介词、语气词 、 语素词作为停用词的候选词汇.从候选停用词中, 选择那些可能会在文本中频繁使用, 而无宜于语义 表达的词语作为停用词.本文最终构造停用词 800 个, 包括符号 40 个 .在对文本进行滤词后, 可以抽 取出特征词, 结合本体概念词库和本体概念同义词 库, 抽取出文档对应本体网络的标准概念. 3.2 知识库 知识结构与本体及其关系有着很好的对应性 . 本体中的关系表示概念之间、概念和个体实例之间 的关联.领域本体是用于描述指定领域知识的本 体, 它由概念、关系和子领域本体组成 .开发一个本 体的过程包括定义本体中的类 、定义概念之间的关 系.通过添加特定的属性插件赋值信息和限制条 件, 就可以建立起一个知识库 .本文构建了中医领 域本体知识库, 并将部分中医领域本体中药症关系 采用可视化的形式表示出来, 如图 3 所示. 图 3 知识库本体关系示意图 基于本体结构以及图与数据结构的对应关系, 本文构建了中医领域本体的网状数据结构 [ 11] , 定义 了结点类型和邻接表内条目类型如下: Struct Vertex ∥顶点基本信息 { string name ;∥本体概念结点 vector adj;∥邻接结点 Vertex *prev ;∥前一个结点 int scratch ;∥相关信息 }; ∥邻接表内条目 struct Edge { Vertex *dest ;∥第二个本体概念结点 string relation ;∥概念间的结点关系 }; 对知识库中的概念及关系组织成网状数据结 构, 以各个概念名称作为头结点, 与它相关的概念和 概念之间的关系作为邻接链表的结点.概念抽取后 得到的是相关的特征词的集合, 为了对应到本体的 概念, 需要对特征词进行本体术语概念的标准化. 这里采用统一词库的方法, 把标准术语概念和特征 词之间作映射.一个本体概念可以对应多个特征词 和不规范词汇. 4 基于图的知识获取 4.1 概念实例化 概念标准化后, 就可以对文本分析而来的概念 进行实例化的映射 .把与文档相关的概念以及概念 间的关系从本体知识库中抽取出来, 形成多个概念 及概念关系的语对 .把这些语对再组织成网状的数 据结构形式, 在此基础上就可以进行语义场的构建. 4.2 概念语义场 语义场指语义有关联的词共同构成的一个集或 区, 场内每个成员的意义取决于与成分之间的相互 制约关系 .语义场形式上是词语的集合, 实质上是 概念凭借语义关系共同作用 、相互关联的一个集合. 按照其语义关系, 可将语义场划分为聚合场和联想 场 .为了完成知识获取, 本文主要构造聚合场, 即由 相关概念之间类聚关系而形成的概念集合[ 12] . 4.3 知识获取 将文档中抽取出的概念作为原子概念, 由原子 概念与知识库中的概念相匹配, 并根据知识库中概 念之间的二元关系建立原子概念的语义链 .根据两 个概念之间的二元关系, 就可以建立资源的语义链. 利用语义链结构与知识库中概念语义网络模型相对 应, 其中节点表示概念, 有向边表示类型化的语义 链 .在语义链的基础上就可以构建语义场, 如对某 一味药材构造语义场, 可以构造与药材归经、药物功 效 、药病、药证 、味、性和药毒等多种关系的语义场. 利用语义场和图结构的性质就可以获取由文档概念 语义场所隐含的知识, 如计算图结构中重要概念的 核心性的算法.对于一个给定图 G =( V, L), 连续 删除度数小于 k 的顶点以及和这些顶点相关的边, 余下的图就是 k -核.算法结构如下: 输入:图 G =( V, L) 输出:每个顶点的核数表 compute the degrees of vertices ; order the set of vertices V in increasing order of their deg rees ; fo r each v ∈ V in the order do begin · 196 · 北 京 科 技 大 学 学 报 2007 年 增刊 2
Vol.29 SuppL 2 张德政等:基于图分析的领域知识获取技术 197。 core[v]=degree[v] 其他药味的关注度较低.甘味、苦味药物的关注程 for each uNeighbors(v)do 度均在0.7以上,最小值也在0.5以上.在医案中, if degree[u]>>degreel v]then begin 所用药物归经的受关注程度依次为肝经、脾经、肺 degree[v]:=degree[u]-1; 经.对医案症状分析中可以看出,主要症状为苔白、 reorder V acco rdingly 脉细、失眠和肋痛,其出现度均在05以上.在治法 end 中,以通络、益气养阴、柔肝为主要方法,体现了中医 end; 的综合辨证治疗的方式. 5实验验证 6结论 为了验证算法的有效性,对我国中医肝病专家 本文就基于本体的领域知识获取技术进行了探 钱英教授诊断肝病医案进行了分析.在所分析的病 讨,通过本体所表达的概念知识之间的关系与图结 例中病人主要症状为:脉沉细,舌质淡,苔白厚,舌下 构分析的有机结合,提供了一类文本知识获取技术. 静脉粗,手末梢暗,眠差.钱英教授认为肝藏血,主 结合中医医案知识获取,构造了KAS原形系统,通 疏泄,达阳气于四末,慢性肝病患者,常有痰、瘀阻于 过实例检验验证了技术方法与系统的有效性. 肝络,出现手背末梢发暗.舌下静脉曲张、增粗亦往 往为肝络不通之表现.人体为统一的整体,有诸内 参考文献 必形诸外,体内血液循环受阻亦必形之于外.医案 【】周勇.数据挖掘技术发展综述.中国科技信息,2005.35(16: 35 按语给出病机分析与治疗是痰湿致肝络不通,湿郁 [2 Cheng L H.MuC C.Credit scoring with a data mining appmoach 阻络,气阴两虚,补气益阴,化湿通络,其中以气阴两 based on support vector machines.Expert Systems with Applica 虚为病机的主要方面.本医案辨为气阴两虚、湿郁 tions.2007.(33):847 阻络,用益气养阴、化湿通络之法治疗. L习陆汝矜.人工智能.北京:科学出版社,2000 利用KAS系统对此病案进行分析,如图4所 [4 Inokuchi A.An apriori_based algorithm for mining frequent sub- structures from graph data //PD KK2000.Lyon France 2000 示,可以看出,本医案遣方用药以凉性、温性药物受 【习Kuramochi M.Frequent subgraph discovery∥CDM200l.San 关注程度较高.均在0.5以上,而微寒性药物关注度 Jose,USA.2001 较低.用药药味以甘、苦、咸、辛者关注程度较高,关 [6 Waserman S,Faust K.Social net work amalysis:methods and ap 注程度最高者为甘味,其次为苦味,再次为咸味,而 plcations.Cambridge:Cambridge University Press.1994 【了吕东煜党齐民.基于文本挖掘的可视化竞争情报.计算机应 用与软件,2005(2):50 【习肖位枢.图论及其算法.北京:航空工业出版社,2005 I9 Warg Y.Xu J,Xi Y.The core and coritivity of a system.Jour- nal of Systems Engineering and Electronics,1993.4(2):1 10 Zhu Z.Mining inter enttity semantic relation using improved transductive learing//Pmoceedings of the Second Intemationl Joint Conference on Natural Languge Pmcesing IJCNLP- 05).Jeju Island.2005 11]Weiss M A.Data Structures and Problem Solving Using C++. 2nd.Pearson Education Inc,2000 图4KAS系统肝病医案分析结果 [12】宋炜,张铭.语义网简明教程.北京高等教育出版社,2004
core[ v] :=deg ree[ v ] ; for each u∈Neighbors( v ) do if degree[ u] >degree[ v] then begin deg ree[ v ] :=degree[ u] -1 ; reorder V acco rdingly end end ; 5 实验验证 为了验证算法的有效性, 对我国中医肝病专家 钱英教授诊断肝病医案进行了分析.在所分析的病 例中病人主要症状为 :脉沉细, 舌质淡, 苔白厚, 舌下 静脉粗, 手末梢暗, 眠差.钱英教授认为肝藏血, 主 疏泄, 达阳气于四末, 慢性肝病患者, 常有痰、瘀阻于 肝络, 出现手背末梢发暗 .舌下静脉曲张、增粗亦往 往为肝络不通之表现.人体为统一的整体, 有诸内 必形诸外, 体内血液循环受阻亦必形之于外.医案 按语给出病机分析与治疗是痰湿致肝络不通, 湿郁 阻络, 气阴两虚, 补气益阴, 化湿通络, 其中以气阴两 虚为病机的主要方面.本医案辨为气阴两虚 、湿郁 阻络, 用益气养阴、化湿通络之法治疗. 利用 KAS 系统对此病案进行分析, 如图 4 所 示, 可以看出, 本医案遣方用药以凉性、温性药物受 关注程度较高, 均在 0.5 以上, 而微寒性药物关注度 较低 .用药药味以甘、苦、咸、辛者关注程度较高, 关 注程度最高者为甘味, 其次为苦味, 再次为咸味, 而 图 4 KAS系统肝病医案分析结果 其他药味的关注度较低 .甘味 、苦味药物的关注程 度均在 0.7 以上, 最小值也在 0.5 以上.在医案中, 所用药物归经的受关注程度依次为肝经、脾经、肺 经 .对医案症状分析中可以看出, 主要症状为苔白、 脉细、失眠和肋痛, 其出现度均在 0.5 以上.在治法 中, 以通络、益气养阴、柔肝为主要方法, 体现了中医 的综合辨证治疗的方式 . 6 结论 本文就基于本体的领域知识获取技术进行了探 讨, 通过本体所表达的概念知识之间的关系与图结 构分析的有机结合, 提供了一类文本知识获取技术. 结合中医医案知识获取, 构造了 KAS 原形系统, 通 过实例检验验证了技术方法与系统的有效性. 参 考 文 献 [ 1] 周勇.数据挖掘技术发展综述.中国科技信息, 2005, 35( 16) : 35 [ 2] Cheng L H, Mu C C .Credit scoring with a dat a mining approach based on support vector machines.Expert Systems with Applications, 2007, ( 33) :847 [ 3] 陆汝矜.人工智能.北京:科学出版社, 2000 [ 4] Inokuchi A .An apriori-based algorithm for mining frequent substructures from graph data ∥PDKK2000.Lyon France, 2000 [ 5] Kuramochi M .Frequent subgraph discovery ∥CDM 2001.San Jose, USA, 2001 [ 6] Wasserman S, Faust K .S ocial network analysis:methods and applications.Cambridge :Camb ridge University Press, 1994 [ 7] 吕东煜, 党齐民.基于文本挖掘的可视化竞争情报.计算机应 用与软件, 2005( 2) :50 [ 8] 肖位枢.图论及其算法.北京:航空工业出版社, 2005 [ 9] Wang Y, Xu J, Xi Y .The core and coritivity of a system .Journal of Systems Engineering and Electronics, 1993, 4( 2) :1 [ 10] Zhu Z.Mining inter-enttit y semantic relation using improved transductive learing ∥Proceedings of the Second Int ernationl Joint Conf erence on Natural Language Processing ( IJCNLP- 05) .Jeju Island, 2005 [ 11] Weiss M A .Data Structures and Problem S olving Using C ++. 2nd.Pearson Education Inc, 2000 [ 12] 宋炜, 张铭.语义网简明教程.北京:高等教育出版社, 2004 Vol.29 Suppl.2 张德政等:基于图分析的领域知识获取技术 · 197 ·
。198· 北京科技大学学报 2007年增刊2 Domain know ledge acquisition on basis of graph analysis ZHANG Dezheng,Aziguli,LIU Jiehui Irfomation Engineering of School,University of Science and Technobgy Beijing.Beijing 100083.China ABSTRACI Know ledge acquisition technique gives constrains to study and application of know ledge system, therefore,effective extraction of domain knowledge from text becomes the major approach to know ledge acquisi- tion.Domain knowledge acquisition technique based on theories of ontology and graph analysis is proposed,data structure of ontology,instantiation of ontology concept and construction of semantic field are discussed.Frame of text know ledge acquisition system is constructed,which is of general applicability,and the prototype system has been realized.By experimental verification of domain knowledge acquisition in Traditional Chinese M edicine,the system achieved good results. KEY WORDS ontology;graph analysis;know ledge acquisition
Domain know ledge acquisition on basis of graph analysis ZHANG Dezheng, Aziguli, LIU Jiehui Inf ormation Engineering of School, University of S cience and Technology Beijing, Beijing 100083, China ABSTRACT Know ledge acquisition technique gives constrains to study and application of know ledge system, therefore, effective ex traction of domain knowledge from text becomes the major approach to know ledge acquisition .Domain knowledge acquisition technique based on theories of o ntology and g raph analysisis proposed, data structure of ontology , instantiation of ontology concept and construction of semantic field are discussed .Frame of tex t know ledge acquisition sy stem is constructed, w hich is of general applicability , and the prototype system has been realized .By experimental verification of domain knowledge acquisition in Traditional Chinese M edicine, the system achieved good results . KEY WORDS ontology ;g raph analysis ;know ledge acquisition · 198 · 北 京 科 技 大 学 学 报 2007 年 增刊 2