正在加载图片...
。196 北京科技大学学报 2007年增刊2 用词库的方法可以达到滤词和抽取特征词的作用. 对知识库中的概念及关系组织成网状数据结 首先对大量病例病案进行切分和标注,训练出词频 构,以各个概念名称作为头结点,与它相关的概念和 和词性的信息,把词性为助词、代词、介词、语气词、 概念之间的关系作为邻接链表的结点.概念抽取后 语素词作为停用词的候选词汇.从候选停用词中, 得到的是相关的特征词的集合,为了对应到本体的 选择那些可能会在文本中频繁使用,而无宜于语义 概念,需要对特征词进行本体术语概念的标准化. 表达的词语作为停用词.本文最终构造停用词800 这里采用统一词库的方法,把标准术语概念和特征 个,包括符号40个.在对文本进行滤词后,可以抽 词之间作映射.一个本体概念可以对应多个特征词 取出特征词,结合本体概念词库和本体概念同义词 和不规范词汇. 库,抽取出文档对应本体网络的标准概念 3.2知识库 4基于图的知识获取 知识结构与本体及其关系有着很好的对应性. 4.1概念实例化 本体中的关系表示概念之间、概念和个体实例之间 概念标准化后,就可以对文本分析而来的概念 的关联.领域本体是用于描述指定领域知识的本 进行实例化的映射.把与文档相关的概念以及概念 体,它由概念、关系和子领域本体组成.开发一个本 间的关系从本体知识库中抽取出来,形成多个概念 体的过程包括定义本体中的类、定义概念之间的关 及概念关系的语对.把这些语对再组织成网状的数 系.通过添加特定的属性插件赋值信息和限制条 据结构形式,在此基础上就可以进行语义场的构建. 件,就可以建立起一个知识库.本文构建了中医领 4.2概念语义场 域本体知识库,并将部分中医领域本体中药症关系 语义场指语义有关联的词共同构成的一个集或 采用可视化的形式表示出来如图3所示 区,场内每个成员的意义取决于与成分之间的相互 制约关系.语义场形式上是词语的集合,实质上是 概念凭借语义关系共同作用、相互关联的一个集合. 按照其语义关系,可将语义场划分为聚合场和联想 场.为了完成知识获取,本文主要构造聚合场,即由 相关概念之间类聚关系而形成的概念集合1☒. 4.3知识获取 将文档中抽取出的概念作为原子概念,由原子 概念与知识库中的概念相匹配,并根据知识库中概 念之间的二元关系建立原子概念的语义链.根据两 图3知识库本体关系示意图 个概念之间的二元关系,就可以建立资源的语义链. 基于本体结构以及图与数据结构的对应关系, 利用语义链结构与知识库中概念语义网络模型相对 本文构建了中医领域本体的网状数据结构山,定义 应,其中节点表示概念,有向边表示类型化的语义 了结点类型和邻接表内条目类型如下: 链.在语义链的基础上就可以构建语义场,如对某 Struct Vertex顶点基本信息 一味药材构造语义场,可以构造与药材归经、药物功 效、药病、药证、味、性和药毒等多种关系的语义场 string name;∥本体概念结点 利用语义场和图结构的性质就可以获取由文档概念 vector<Edge>adj∥邻接结点 语义场所隐含的知识,如计算图结构中重要概念的 Vertex*pev;∥前一个结点 核心性的算法.对于一个给定图G=(V,L),连续 int scratch;∥相关信息 删除度数小于k的顶点以及和这些顶点相关的边, 余下的图就是k一核.算法结构如下: ∥邻接表内条目 输入:图G=(V,L) struct Edge 输出:每个顶点的核数表 compute the degrees of vertices; Vertex*dest;第二个本体概念结点 order the set of vertices V in increasing order of string relation;∥概念间的结点关系 their degrees; }; for each vV in the order do begin用词库的方法, 可以达到滤词和抽取特征词的作用 . 首先对大量病例病案进行切分和标注, 训练出词频 和词性的信息, 把词性为助词 、代词、介词、语气词 、 语素词作为停用词的候选词汇.从候选停用词中, 选择那些可能会在文本中频繁使用, 而无宜于语义 表达的词语作为停用词.本文最终构造停用词 800 个, 包括符号 40 个 .在对文本进行滤词后, 可以抽 取出特征词, 结合本体概念词库和本体概念同义词 库, 抽取出文档对应本体网络的标准概念. 3.2 知识库 知识结构与本体及其关系有着很好的对应性 . 本体中的关系表示概念之间、概念和个体实例之间 的关联.领域本体是用于描述指定领域知识的本 体, 它由概念、关系和子领域本体组成 .开发一个本 体的过程包括定义本体中的类 、定义概念之间的关 系.通过添加特定的属性插件赋值信息和限制条 件, 就可以建立起一个知识库 .本文构建了中医领 域本体知识库, 并将部分中医领域本体中药症关系 采用可视化的形式表示出来, 如图 3 所示. 图 3 知识库本体关系示意图 基于本体结构以及图与数据结构的对应关系, 本文构建了中医领域本体的网状数据结构 [ 11] , 定义 了结点类型和邻接表内条目类型如下: Struct Vertex ∥顶点基本信息 { string name ;∥本体概念结点 vector <Edge >adj;∥邻接结点 Vertex *prev ;∥前一个结点 int scratch ;∥相关信息 }; ∥邻接表内条目 struct Edge { Vertex *dest ;∥第二个本体概念结点 string relation ;∥概念间的结点关系 }; 对知识库中的概念及关系组织成网状数据结 构, 以各个概念名称作为头结点, 与它相关的概念和 概念之间的关系作为邻接链表的结点.概念抽取后 得到的是相关的特征词的集合, 为了对应到本体的 概念, 需要对特征词进行本体术语概念的标准化. 这里采用统一词库的方法, 把标准术语概念和特征 词之间作映射.一个本体概念可以对应多个特征词 和不规范词汇. 4 基于图的知识获取 4.1 概念实例化 概念标准化后, 就可以对文本分析而来的概念 进行实例化的映射 .把与文档相关的概念以及概念 间的关系从本体知识库中抽取出来, 形成多个概念 及概念关系的语对 .把这些语对再组织成网状的数 据结构形式, 在此基础上就可以进行语义场的构建. 4.2 概念语义场 语义场指语义有关联的词共同构成的一个集或 区, 场内每个成员的意义取决于与成分之间的相互 制约关系 .语义场形式上是词语的集合, 实质上是 概念凭借语义关系共同作用 、相互关联的一个集合. 按照其语义关系, 可将语义场划分为聚合场和联想 场 .为了完成知识获取, 本文主要构造聚合场, 即由 相关概念之间类聚关系而形成的概念集合[ 12] . 4.3 知识获取 将文档中抽取出的概念作为原子概念, 由原子 概念与知识库中的概念相匹配, 并根据知识库中概 念之间的二元关系建立原子概念的语义链 .根据两 个概念之间的二元关系, 就可以建立资源的语义链. 利用语义链结构与知识库中概念语义网络模型相对 应, 其中节点表示概念, 有向边表示类型化的语义 链 .在语义链的基础上就可以构建语义场, 如对某 一味药材构造语义场, 可以构造与药材归经、药物功 效 、药病、药证 、味、性和药毒等多种关系的语义场. 利用语义场和图结构的性质就可以获取由文档概念 语义场所隐含的知识, 如计算图结构中重要概念的 核心性的算法.对于一个给定图 G =( V, L), 连续 删除度数小于 k 的顶点以及和这些顶点相关的边, 余下的图就是 k -核.算法结构如下: 输入:图 G =( V, L) 输出:每个顶点的核数表 compute the degrees of vertices ; order the set of vertices V in increasing order of their deg rees ; fo r each v ∈ V in the order do begin · 196 · 北 京 科 技 大 学 学 报 2007 年 增刊 2
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有