用词库的方法, 可以达到滤词和抽取特征词的作用 . 首先对大量病例病案进行

正在加载图片...

。196 北京科技大学学报 2007年增刊2 用词库的方法可以达到滤词和抽取特征词的作用. 对知识库中的概念及关系组织成网状数据结首先对大量病例病案进行切分和标注，训练出词频构，以各个概念名称作为头结点，与它相关的概念和和词性的信息，把词性为助词、代词、介词、语气词、概念之间的关系作为邻接链表的结点.概念抽取后语素词作为停用词的候选词汇.从候选停用词中，得到的是相关的特征词的集合，为了对应到本体的选择那些可能会在文本中频繁使用，而无宜于语义概念，需要对特征词进行本体术语概念的标准化. 表达的词语作为停用词.本文最终构造停用词800 这里采用统一词库的方法，把标准术语概念和特征个，包括符号40个.在对文本进行滤词后，可以抽词之间作映射.一个本体概念可以对应多个特征词取出特征词，结合本体概念词库和本体概念同义词和不规范词汇. 库，抽取出文档对应本体网络的标准概念 3.2知识库 4基于图的知识获取知识结构与本体及其关系有着很好的对应性. 4.1概念实例化本体中的关系表示概念之间、概念和个体实例之间概念标准化后，就可以对文本分析而来的概念的关联.领域本体是用于描述指定领域知识的本进行实例化的映射.把与文档相关的概念以及概念体，它由概念、关系和子领域本体组成.开发一个本间的关系从本体知识库中抽取出来，形成多个概念体的过程包括定义本体中的类、定义概念之间的关及概念关系的语对.把这些语对再组织成网状的数系.通过添加特定的属性插件赋值信息和限制条据结构形式，在此基础上就可以进行语义场的构建. 件，就可以建立起一个知识库.本文构建了中医领 4.2概念语义场域本体知识库，并将部分中医领域本体中药症关系语义场指语义有关联的词共同构成的一个集或采用可视化的形式表示出来如图3所示区，场内每个成员的意义取决于与成分之间的相互制约关系.语义场形式上是词语的集合，实质上是概念凭借语义关系共同作用、相互关联的一个集合. 按照其语义关系，可将语义场划分为聚合场和联想场.为了完成知识获取，本文主要构造聚合场，即由相关概念之间类聚关系而形成的概念集合1☒. 4.3知识获取将文档中抽取出的概念作为原子概念，由原子概念与知识库中的概念相匹配，并根据知识库中概念之间的二元关系建立原子概念的语义链.根据两图3知识库本体关系示意图个概念之间的二元关系，就可以建立资源的语义链. 基于本体结构以及图与数据结构的对应关系，利用语义链结构与知识库中概念语义网络模型相对本文构建了中医领域本体的网状数据结构山，定义应，其中节点表示概念，有向边表示类型化的语义了结点类型和邻接表内条目类型如下：链.在语义链的基础上就可以构建语义场，如对某 Struct Vertex顶点基本信息一味药材构造语义场，可以构造与药材归经、药物功效、药病、药证、味、性和药毒等多种关系的语义场 string name;∥本体概念结点利用语义场和图结构的性质就可以获取由文档概念 vector<Edge>adj∥邻接结点语义场所隐含的知识，如计算图结构中重要概念的 Vertex*pev;∥前一个结点核心性的算法.对于一个给定图G=(V,L),连续 int scratch;∥相关信息删除度数小于k的顶点以及和这些顶点相关的边，余下的图就是k一核.算法结构如下： ∥邻接表内条目输入：图G=(V,L) struct Edge 输出：每个顶点的核数表 compute the degrees of vertices; Vertex*dest;第二个本体概念结点 order the set of vertices V in increasing order of string relation;∥概念间的结点关系 their degrees; }; for each vV in the order do begin用词库的方法, 可以达到滤词和抽取特征词的作用 . 首先对大量病例病案进行切分和标注, 训练出词频和词性的信息, 把词性为助词、代词、介词、语气词、语素词作为停用词的候选词汇.从候选停用词中, 选择那些可能会在文本中频繁使用, 而无宜于语义表达的词语作为停用词.本文最终构造停用词 800 个, 包括符号 40 个 .在对文本进行滤词后, 可以抽取出特征词, 结合本体概念词库和本体概念同义词库, 抽取出文档对应本体网络的标准概念. 3.2 知识库知识结构与本体及其关系有着很好的对应性 . 本体中的关系表示概念之间、概念和个体实例之间的关联.领域本体是用于描述指定领域知识的本体, 它由概念、关系和子领域本体组成 .开发一个本体的过程包括定义本体中的类、定义概念之间的关系.通过添加特定的属性插件赋值信息和限制条件, 就可以建立起一个知识库 .本文构建了中医领域本体知识库, 并将部分中医领域本体中药症关系采用可视化的形式表示出来, 如图 3 所示. 图 3 知识库本体关系示意图基于本体结构以及图与数据结构的对应关系, 本文构建了中医领域本体的网状数据结构 [ 11] , 定义了结点类型和邻接表内条目类型如下: Struct Vertex ∥顶点基本信息 { string name ;∥本体概念结点 vector <Edge >adj;∥邻接结点 Vertex ＊prev ;∥前一个结点 int scratch ;∥相关信息 }; ∥邻接表内条目 struct Edge { Vertex ＊dest ;∥第二个本体概念结点 string relation ;∥概念间的结点关系 }; 对知识库中的概念及关系组织成网状数据结构, 以各个概念名称作为头结点, 与它相关的概念和概念之间的关系作为邻接链表的结点.概念抽取后得到的是相关的特征词的集合, 为了对应到本体的概念, 需要对特征词进行本体术语概念的标准化. 这里采用统一词库的方法, 把标准术语概念和特征词之间作映射.一个本体概念可以对应多个特征词和不规范词汇. 4 基于图的知识获取 4.1 概念实例化概念标准化后, 就可以对文本分析而来的概念进行实例化的映射 .把与文档相关的概念以及概念间的关系从本体知识库中抽取出来, 形成多个概念及概念关系的语对 .把这些语对再组织成网状的数据结构形式, 在此基础上就可以进行语义场的构建. 4.2 概念语义场语义场指语义有关联的词共同构成的一个集或区, 场内每个成员的意义取决于与成分之间的相互制约关系 .语义场形式上是词语的集合, 实质上是概念凭借语义关系共同作用、相互关联的一个集合. 按照其语义关系, 可将语义场划分为聚合场和联想场 .为了完成知识获取, 本文主要构造聚合场, 即由相关概念之间类聚关系而形成的概念集合[ 12] . 4.3 知识获取将文档中抽取出的概念作为原子概念, 由原子概念与知识库中的概念相匹配, 并根据知识库中概念之间的二元关系建立原子概念的语义链 .根据两个概念之间的二元关系, 就可以建立资源的语义链. 利用语义链结构与知识库中概念语义网络模型相对应, 其中节点表示概念, 有向边表示类型化的语义链 .在语义链的基础上就可以构建语义场, 如对某一味药材构造语义场, 可以构造与药材归经、药物功效、药病、药证、味、性和药毒等多种关系的语义场. 利用语义场和图结构的性质就可以获取由文档概念语义场所隐含的知识, 如计算图结构中重要概念的核心性的算法.对于一个给定图 G =( V, L), 连续删除度数小于 k 的顶点以及和这些顶点相关的边, 余下的图就是 k -核.算法结构如下: 输入:图 G =( V, L) 输出:每个顶点的核数表 compute the degrees of vertices ; order the set of vertices V in increasing order of their deg rees ; fo r each v ∈ V in the order do begin · 196 · 北京科技大学学报 2007 年增刊 2

<<向上翻页向下翻页>>

点击下载：基于图分析的领域知识获取技术