正在加载图片...
Vol.29 SuppL 2 张德政等:基于图分析的领域知识获取技术 195。 一核或者说是次序为k的核,当且仅当对任意ⅴ∈ 2 结构知识及知识获取 W:deg(v)≥k并且H是具有这个特性的最大子 复杂知识体系显化于知识结构之中就构成了一 图.顶点v的核数是包含这个顶点的核的最高次 类结构知识.结构知识表现为知识节点以及知识节 序. 点之间的关系,其中知识节点是由领域知识体系中 知识获取过程都是以原有的知识为基础来获取 的概念构成的,概念之间的连线,对应于概念节点之 新的知识.用一种清晰的方法把领域知识分解为一 间的语义联系.为了获取特定文本中的知识,需要 组知识元以及它们之间的相互关系,这些知识元和 首先将文本中的概念及其之间的关系组织成相应的 相互关系组织在一起就构成了领域本体,即生成一 数据结构,这里引入图论的方法8.如果将知识结 个领域知识库.在中医领域,通过对领域概念和概 构中的概念定义为图的顶点,概念之间的联系定义 念关系的组织成本体即生成了中医基础知识库. 为图的边,知识结构可用有向图结构来表示.一个 利用领域知识通过演绎推理可以获取个性化的知 有向图D是一个三元组(V,E,f),其中V是一个 识.为了把本体知识库存储起来,组织了邻接链表 非空的集合,它的元素称为有向图D的结点,E是 作为图的存储结构,便于图的遍历和查找.在这些 一个集合,它的元素称为有向图D的弧(边),f是 资源的基础上,可以建立知识获取的系统框架.对 一个从E到VXV上的映射(函数),例如,V={a, 文档进行分析处理,生成了新的知识,达到了知识获 b,c,d},E={e1,e2,e3,e4,e5,e6,且f(e)= 取的目的10g <a,b>,f(a)=<c,b>,f(e3)=<b,c>, 3系统结构与功能 f(es)=c,d,f(es)=<d,b>,D=(V, E,f)是一个有向图,如图1所示. 利用上述理论和相关技术来构造基于本体的领 域知识获取系统一KA$.系统主要包括文本预处 理模块、知识库模块和知识获取等模块系统结构如 图2所示.文本预处理模块负责对文本进行词法分 析,提取出文本的特征词.知识库模块负责中医领 域本体的组织,数据结构表示.知识获取模块负责 图1知识结构的有向图示例 文本特征词的实例化,组织形成语义场,完成获取知 识. 个性化的独特的知识可用通过演绎推理来获 取,即知识结构中所包含的独特的、规律性的知识. 词库 结果 管理 司库 分 在知识结构中,知识是通过知识结构的图结构特征 检索 标注 文本预 标准 来表示的.常见的图结构特征有:度、核数的度指标 医案 管理 处理 化特 证词 以及接近度等指标9 数据 库 挖掘 语义 (I)度(degree).度代表图中某一个节点与之 中医 知识 相连的边的数目.在知识结构中表达一类语义联 获取 语义 识 网络 知识 系,用无方向图来定义 数据 社会 (2)子图(subg roup).一个图G的子图G的 化 网 定义为:G的点集是G的点集的一个子集,并且 G中的线集L,也是G的线集的一个子集G中 图2知识获取系统结构图 的所有线也必须是G中所有点之间的线.由于L。 3.1文本预处理 是L的一个子集图G中的两点可能包含在子图 中文分词是基础工作,系统采用基于统计模型 中,但是,图G中的连接这两个点之间的线不一定 的最大概率法进行分词.最大概率法相当于一元语 在子图G。中 法模型,每次选择出现概率最大的路径作为切分结 (3)核数(coes).设图G=(V,E)是一个图. 果.运用一元语法模型可以达到90%以上的切分正 V是顶点集合,并且L是线集合(边或弧),用n表 确率.利用大规模的中医语料库和成熟的n元语法 示顶点的个数n=|小并且用m表示边的个数m 统计模型,可将切分正确率提高很多, =|L.由集合W产生的子图H=(W,LW)是k 在对文本进行分词处理后,系统采用了预制停2 结构知识及知识获取 复杂知识体系显化于知识结构之中就构成了一 类结构知识.结构知识表现为知识节点以及知识节 点之间的关系, 其中知识节点是由领域知识体系中 的概念构成的, 概念之间的连线, 对应于概念节点之 间的语义联系.为了获取特定文本中的知识, 需要 首先将文本中的概念及其之间的关系组织成相应的 数据结构, 这里引入图论的方法[ 8] .如果将知识结 构中的概念定义为图的顶点, 概念之间的联系定义 为图的边, 知识结构可用有向图结构来表示.一个 有向图 D 是一个三元组( V , E , f ) , 其中 V 是一个 非空的集合, 它的元素称为有向图 D 的结点, E 是 一个集合, 它的元素称为有向图 D 的弧( 边), f 是 一个从E 到 V ×V 上的映射(函数), 例如, V ={a, b, c, d}, E ={e1, e2, e3, e4, e5, e6}, 且 f ( e1) = <a, b >, f ( e2 ) =<c, b >, f ( e3 ) =<b, c >, f ( e4) =<c, d >, f ( e5) =<d, b >, 则 D =( V , E , f )是一个有向图, 如图 1 所示 . 图 1 知识结构的有向图示例 个性化的独特的知识可用通过演绎推理来获 取, 即知识结构中所包含的独特的、规律性的知识 . 在知识结构中, 知识是通过知识结构的图结构特征 来表示的 .常见的图结构特征有 :度 、核数的度指标 以及接近度等指标 [ 9] . ( 1) 度( degree) .度代表图中某一个节点与之 相连的边的数目.在知识结构中表达一类语义联 系, 用无方向图来定义. ( 2) 子图( subg roup) .一个图 G 的子图 Gs 的 定义为:Gs 的点集是 G 的点集的一个子集, 并且 Gs 中的线集 L s 也是 G 的线集的一个子集, Gs 中 的所有线也必须是 G 中所有点之间的线.由于 Ls 是 L 的一个子集, 图 G 中的两点可能包含在子图 中, 但是, 图 G 中的连接这两个点之间的线不一定 在子图Gs 中. ( 3) 核数( cores) .设图 G =( V, E) 是一个图 . V 是顶点集合, 并且 L 是线集合(边或弧) .用 n 表 示顶点的个数 n = V 并且用 m 表示边的个数 m = L .由集合 W 产生的子图H =( W, L W)是 k -核或者说是次序为 k 的核, 当且仅当对任意 v ∈ W :deg ( v ) ≥k 并且 H 是具有这个特性的最大子 图 .顶点 v 的核数是包含这个顶点的核的最高次 序 . 知识获取过程都是以原有的知识为基础来获取 新的知识.用一种清晰的方法把领域知识分解为一 组知识元以及它们之间的相互关系, 这些知识元和 相互关系组织在一起就构成了领域本体, 即生成一 个领域知识库.在中医领域, 通过对领域概念和概 念关系的组织成本体, 即生成了中医基础知识库. 利用领域知识通过演绎推理可以获取个性化的知 识 .为了把本体知识库存储起来, 组织了邻接链表 作为图的存储结构, 便于图的遍历和查找 .在这些 资源的基础上, 可以建立知识获取的系统框架 .对 文档进行分析处理, 生成了新的知识, 达到了知识获 取的目的[ 10] . 3 系统结构与功能 利用上述理论和相关技术来构造基于本体的领 域知识获取系统———KAS .系统主要包括文本预处 理模块 、知识库模块和知识获取等模块, 系统结构如 图 2 所示.文本预处理模块负责对文本进行词法分 析,提取出文本的特征词.知识库模块负责中医领 域本体的组织、数据结构表示.知识获取模块负责 文本特征词的实例化, 组织形成语义场, 完成获取知 识 . 图2 知识获取系统结构图 3.1 文本预处理 中文分词是基础工作, 系统采用基于统计模型 的最大概率法进行分词 .最大概率法相当于一元语 法模型, 每次选择出现概率最大的路径作为切分结 果 .运用一元语法模型可以达到 90 %以上的切分正 确率.利用大规模的中医语料库和成熟的 n 元语法 统计模型, 可将切分正确率提高很多 . 在对文本进行分词处理后, 系统采用了预制停 Vol.29 Suppl.2 张德政等:基于图分析的领域知识获取技术 · 195 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有