2 结构知识及知识获取复杂知识体系显化于知识结构之中就构成了一类结构知

正在加载图片...

Vol.29 SuppL 2 张德政等：基于图分析的领域知识获取技术 195。一核或者说是次序为k的核，当且仅当对任意ⅴ∈ 2 结构知识及知识获取 W:deg(v)≥k并且H是具有这个特性的最大子复杂知识体系显化于知识结构之中就构成了一图.顶点v的核数是包含这个顶点的核的最高次类结构知识.结构知识表现为知识节点以及知识节序. 点之间的关系，其中知识节点是由领域知识体系中知识获取过程都是以原有的知识为基础来获取的概念构成的，概念之间的连线，对应于概念节点之新的知识.用一种清晰的方法把领域知识分解为一间的语义联系.为了获取特定文本中的知识，需要组知识元以及它们之间的相互关系，这些知识元和首先将文本中的概念及其之间的关系组织成相应的相互关系组织在一起就构成了领域本体，即生成一数据结构，这里引入图论的方法8.如果将知识结个领域知识库.在中医领域，通过对领域概念和概构中的概念定义为图的顶点，概念之间的联系定义念关系的组织成本体即生成了中医基础知识库. 为图的边，知识结构可用有向图结构来表示.一个利用领域知识通过演绎推理可以获取个性化的知有向图D是一个三元组(V,E,f),其中V是一个识.为了把本体知识库存储起来，组织了邻接链表非空的集合，它的元素称为有向图D的结点，E是作为图的存储结构，便于图的遍历和查找.在这些一个集合，它的元素称为有向图D的弧（边），f是资源的基础上，可以建立知识获取的系统框架.对一个从E到VXV上的映射（函数），例如，V={a, 文档进行分析处理，生成了新的知识，达到了知识获 b,c,d},E={e1,e2,e3,e4,e5,e6,且f(e)= 取的目的10g <a,b>,f(a)=<c,b>,f(e3)=<b,c>, 3系统结构与功能 f(es)=c,d,f(es)=<d,b>,D=(V, E,f)是一个有向图，如图1所示. 利用上述理论和相关技术来构造基于本体的领域知识获取系统一KA$.系统主要包括文本预处理模块、知识库模块和知识获取等模块系统结构如图2所示.文本预处理模块负责对文本进行词法分析，提取出文本的特征词.知识库模块负责中医领域本体的组织，数据结构表示.知识获取模块负责图1知识结构的有向图示例文本特征词的实例化，组织形成语义场，完成获取知识. 个性化的独特的知识可用通过演绎推理来获取，即知识结构中所包含的独特的、规律性的知识. 词库结果管理司库分在知识结构中，知识是通过知识结构的图结构特征检索标注文本预标准来表示的.常见的图结构特征有：度、核数的度指标医案管理处理化特证词以及接近度等指标9 数据库挖掘语义 (I)度(degree).度代表图中某一个节点与之中医知识相连的边的数目.在知识结构中表达一类语义联获取语义识网络知识系，用无方向图来定义数据社会 (2)子图(subg roup).一个图G的子图G的化网定义为：G的点集是G的点集的一个子集，并且 G中的线集L,也是G的线集的一个子集G中图2知识获取系统结构图的所有线也必须是G中所有点之间的线.由于L。 3.1文本预处理是L的一个子集图G中的两点可能包含在子图中文分词是基础工作，系统采用基于统计模型中，但是，图G中的连接这两个点之间的线不一定的最大概率法进行分词.最大概率法相当于一元语在子图G。中法模型，每次选择出现概率最大的路径作为切分结 (3)核数(coes).设图G=(V,E)是一个图. 果.运用一元语法模型可以达到90%以上的切分正 V是顶点集合，并且L是线集合（边或弧），用n表确率.利用大规模的中医语料库和成熟的n元语法示顶点的个数n=|小并且用m表示边的个数m 统计模型，可将切分正确率提高很多， =|L.由集合W产生的子图H=(W,LW)是k 在对文本进行分词处理后，系统采用了预制停2 结构知识及知识获取复杂知识体系显化于知识结构之中就构成了一类结构知识.结构知识表现为知识节点以及知识节点之间的关系, 其中知识节点是由领域知识体系中的概念构成的, 概念之间的连线, 对应于概念节点之间的语义联系.为了获取特定文本中的知识, 需要首先将文本中的概念及其之间的关系组织成相应的数据结构, 这里引入图论的方法[ 8] .如果将知识结构中的概念定义为图的顶点, 概念之间的联系定义为图的边, 知识结构可用有向图结构来表示.一个有向图 D 是一个三元组( V , E , f ) , 其中 V 是一个非空的集合, 它的元素称为有向图 D 的结点, E 是一个集合, 它的元素称为有向图 D 的弧( 边), f 是一个从E 到 V ×V 上的映射(函数), 例如, V ={a, b, c, d}, E ={e1, e2, e3, e4, e5, e6}, 且 f ( e1) = <a, b >, f ( e2 ) =<c, b >, f ( e3 ) =<b, c >, f ( e4) =<c, d >, f ( e5) =<d, b >, 则 D =( V , E , f )是一个有向图, 如图 1 所示 . 图 1 知识结构的有向图示例个性化的独特的知识可用通过演绎推理来获取, 即知识结构中所包含的独特的、规律性的知识 . 在知识结构中, 知识是通过知识结构的图结构特征来表示的 .常见的图结构特征有 :度、核数的度指标以及接近度等指标 [ 9] . ( 1) 度( degree) .度代表图中某一个节点与之相连的边的数目.在知识结构中表达一类语义联系, 用无方向图来定义. ( 2) 子图( subg roup) .一个图 G 的子图 Gs 的定义为:Gs 的点集是 G 的点集的一个子集, 并且 Gs 中的线集 L s 也是 G 的线集的一个子集, Gs 中的所有线也必须是 G 中所有点之间的线.由于 Ls 是 L 的一个子集, 图 G 中的两点可能包含在子图中, 但是, 图 G 中的连接这两个点之间的线不一定在子图Gs 中. ( 3) 核数( cores) .设图 G =( V, E) 是一个图 . V 是顶点集合, 并且 L 是线集合(边或弧) .用 n 表示顶点的个数 n = V 并且用 m 表示边的个数 m = L .由集合 W 产生的子图H =( W, L W)是 k -核或者说是次序为 k 的核, 当且仅当对任意 v ∈ W :deg ( v ) ≥k 并且 H 是具有这个特性的最大子图 .顶点 v 的核数是包含这个顶点的核的最高次序 . 知识获取过程都是以原有的知识为基础来获取新的知识.用一种清晰的方法把领域知识分解为一组知识元以及它们之间的相互关系, 这些知识元和相互关系组织在一起就构成了领域本体, 即生成一个领域知识库.在中医领域, 通过对领域概念和概念关系的组织成本体, 即生成了中医基础知识库. 利用领域知识通过演绎推理可以获取个性化的知识 .为了把本体知识库存储起来, 组织了邻接链表作为图的存储结构, 便于图的遍历和查找 .在这些资源的基础上, 可以建立知识获取的系统框架 .对文档进行分析处理, 生成了新的知识, 达到了知识获取的目的[ 10] . 3 系统结构与功能利用上述理论和相关技术来构造基于本体的领域知识获取系统———KAS .系统主要包括文本预处理模块、知识库模块和知识获取等模块, 系统结构如图 2 所示.文本预处理模块负责对文本进行词法分析,提取出文本的特征词.知识库模块负责中医领域本体的组织、数据结构表示.知识获取模块负责文本特征词的实例化, 组织形成语义场, 完成获取知识 . 图2 知识获取系统结构图 3.1 文本预处理中文分词是基础工作, 系统采用基于统计模型的最大概率法进行分词 .最大概率法相当于一元语法模型, 每次选择出现概率最大的路径作为切分结果 .运用一元语法模型可以达到 90 %以上的切分正确率.利用大规模的中医语料库和成熟的 n 元语法统计模型, 可将切分正确率提高很多 . 在对文本进行分词处理后, 系统采用了预制停 Vol.29 Suppl.2 张德政等:基于图分析的领域知识获取技术 · 195 ·

<<向上翻页向下翻页>>

点击下载：基于图分析的领域知识获取技术