正在加载图片...
维告瓷讯htp://www,cqvip.com Vol.22 No.1 阿砖佑等:共十知识发魏系统的展性研究 87 3,3双库协同的技术实现 4.2演示系统及应用 双库协同机制的技术实现的关键是要根据 我们的工作主要侧重在整个知识发现过程 中断协调算法与启发协调算法构造R型协调器 的机理、KDD扩展性结构和运行机制、以及软 与S型协调器、R型协调器的主要任务是当从 件系统的系列性开发.其主要特点为宏观与做 真实数据库的大量数据中经聚焦生成规则 观相结台、抽象与具体相结合、理论与应用相 i知识)后,使KDD进程产生“中断",搜索知识 结,作此基础上,我们经历了从机理研究、算法、 库中付应位置有无此生成规则的重复、冗余与 编稈的全过程,开发了覆盖与扩展了现存软件 矛盾.若有,则取消该生成规则或相应处理后返 所有功能的KDD*软件,称为自主性KDD*软 回KDD的“始端”:若无.则继续KDD进程,即 件.从理论上基本解决了双库协同的机理及其 进行评价与入库、S型协调器的主要功能是在 技术实现、并初步用于实际领域中. 以属性为基础的知识库建库原则卜,通过搜索 知识发现理论和方法的应用范围广闭.在 知识库中“知识结点"的不关联念,以发现“知识 决策支特、商业行为论证、分析预测及科学研究 短缺”,产生“创见意象”、从而启发与激活真实 中表现出良好的应用前景.以发掘关联规则为 数据库中相应的“数据类“,以产尘“定向发掘进 例,以美国某地区社会调查结果的部分数据资 程””KDD*知识发现的开放体系结构,即在知 料来简单介绍KDD*软件,真实数据库内的属 识发现的基础上融入双协同机制,用基础知 性包括调查对象的工作状况、婚姻状况、初婚年 识库去制约与驱动知识发现过程,改变了数据 龄、小孩年龄、教育年限、年收入状祝、自我感觉 发掘和知识发岘的固有的运行机制,形成了在 等17个因素、 结构与功能上相对的与般数据发掘和知识发 根据专家感兴趣方向进行数据发掘(即为 现的的-一个开放、优化扩体. KDD过程)首先选择专家感兴趣的属性进行数 据发掘,如下图所示的选择“教育程度”作为条 4KDD*的实现与应用 件,“91年收入”作为结果.所发现的知识表示 成规则的形式,见下图3. 4.1KDD*系统的实现 主要包括如下儿个步骤: (1)预处理.对原始数据进行包括数据净化、 数值化与特定转换等在内的处理、形成发掘数 据库DMDB,以供数据发掘过程使用. (2)聚焦.即从发掘数据库里进行数据的选 择,进行聚焦的方法主要是利用聚类分析和判 别分析.指导数据聚焦的方式有:〈)通过人机 父互由专家提出感兴趣的内容,让专家来指导 数据发掘的方向.(ⅱ)利用启发式协调器进行定 4w」 时 向的数据发掘. (3)求取假设款则.在本系统中主要是抽取 图3所获取的规则Fig3 Rules Discovery 因果关联规则,从而进·步丰富基础知识库,使 利用启发型协调器进行自动发掘关联规则 用的发掘方法是统计归纳推理法,” (即DD*过程), (4)双库协同机制.即采用中断型协调器、 启发型协调器是根据知识库中知识短缺, 启发型协调器,分别对所获得的假设规则进行 来自动发掘知识,然后再通过领域专家介入或 处理和利用关联强度激发数据聚焦进行数据发 相应的评价方法加以筛选.还以上面的数据库 掘、 为例,KDD*发现结果如图4所示. (5)评价.这一环节1要州于对所获得的假 由此可见,新的动态知识库系统较传统的 设规则进行价值评定,以决定所得的规则是否 知识库内涵知识的数量和深度都有了较大的扩 存入知识库.将经评价认可的规则作为新知识 展,有效地克服了领域专家的自身局限. 存入衍生知识库中,确 炳 儒 等 :关 十 知 识 发 现 系 统 的扩 展 性研 究 3.3双库协 同的技术 实现 双库 协 同机制 的技术 实 现 的关键 是要 根据 中断 协 调算 法 与启发 协 调算 法构造 R型 协调 器 与 S型 协调 器 ,R型 协 调器 的主 要任 务是 当从 真 实数 据 库 的 大 量 数据 中经 聚 焦 lm生 成 规 则 (知 识)后 ,使 KDD进程 产 生“q断 ”,搜 索 知 识 库 中对应 位 置 有无 此 生 成 规 则 的重 复 、冗 余 与 矛 盾 .若 有 ,则 取 消 该 生 成 规 则 或 相 应 处 理 后 返 回 KDD的 “始 端”;若 无 ,刚继 续 KDD进 程 ,即 进 行 评价 与入 库 ,S型 协调 器 的主要 功能 是在 以属 性 为基 础 的知 识 库 建库 原 则 F,通 过搜 索 知 识库 中“知 识结 点”的小 关 鹱态 以发现 “知识 短 缺 ”,产 生 “创 见 意 象 ”,从 而 启 发 与激 活 真 实 数 据库 中相应 的“数 据类 ”,以产 生“定 向发 掘进 程 ” .KDD 知识 发现 的开 放体 系结 构 ,即在 知 识 发 现 的 摹 础 上 融 入 取 协 唰 机 制 ,用 基 础 知 识库 去 制 约 与 驱 动 知 识 发 现 过 程 改 变 了数 据 发掘 和知 识 发现 的同 有 的运 行 机制 ,形 成 了在 结构 与功 能上 相 对 的与 般 数据发 掘 和知 识发 现 的 的 一 个 开 放 、优 化 扩 体 . 4 KDD*的实 现 与应 用 4.1KDD 系 统 的实 现 主 要 包 括 如 下 几 个 步 骤 : (1)预 处理 .对 原始数据 进行包 括数据 净化 、 数 值化 与特 定转 换 等在 内 的处理 ,形成 发掘 数 据 库 DMDB,以 供 数据 发掘 过程 使 . (2)聚 焦 .即从 发掘 数据 库里 进行 数据 的选 择 .进 行 聚焦 的方 法主 要 是 利用 聚 类 分析 和 判 别分 析 .指 导数 据 聚焦 的 方式 有 :(i)通 过 人 机 交 互 由专 家提 出感 兴 趣 的 内容 ,让 专 家 来指 导 数据 发掘 的方 向.(“)利用 启 发式协 调器 进行 定 向 的 数 据 发 掘 . L3)求 取假 设规 则 ,在 本 系统 中主要 是抽 取 因果关联 规则 ,从而 进… 步丰 富基 础知 识库 .使 用 的 发掘方 法 是 统计 归纳推 理法 . 【4)取 序 协同 机制 .即采 用 中断型 协 调器 、 启 发 型 协 调 器 ,分 别 对 所 获 得 的 假 设 规 则 进 行 处理 和利 用关 联强 度激 发数 据聚 焦进行 数据 发 掘 , (5)评 价 .这一 环节主 要用 于对所 获得的假 设 规则 进行 价 值评 定 ,以决 定所 得 的规 则 是 否 存 入知 识 库 .将 经评 价 认可 的规 则 作为 新 知识 存 入 衍 生 知 识 库 中 . 4.2 演 示 系统 及应 用 我 们 的 工 作 主 要 侧 重 在 整 个 知 识 发 现 过 程 的机理 、KDD 扩展 性 结 构和 运行 机制 、以及 软 件 系统 的系 列性 开 发 .其 主 要特 点为 宏观 与 微 观 干门结 合、抽 象 与 具体 相 结 合 、理 论 与应 用 相 结 ,存 此基 础 上 ,我们 经历 了从机 理研 究 、算 法 、 编稃 的全 过程 ,开 发 了覆 盖 与扩 展 了现 存 软 件 所 有 功 能 的 KDD+软件 ,称 为 自主 性 KDD*软 件 .从 理 论 }基 本解 决 了双 库协 同的机 理 及 其 技 术实 现 ,并 初步用 于 实 际领 域 中 . 知 识发 现理 论和 方法 的应用 范 围广 阔 .在 决策 支持 、商 业 行为论 证 、分 析预 测及 科学 研 究 中 表现 出 良好 的应 用 前 景 .以发 掘 关联 规 则为 例 ,以美 国某 地 区社 会 调 查结 果 的部 分 数据 资 料 来 简 单 介绍 KDDt软件 .真 实数 据 库 内的属 性 包括 调 查对 象 的工 作状 况 、婚 姻状 况 、初 婚年 龄 、小孩 年龄 、教 育年 限 、年 收入状 况 、自我 感觉 等 l7个 因 素 . 根 据 专家感 兴 趣方 向进 行数 据 发 掘 (即为 KDD过 程 )首先选 择 专家 感 兴趣 的属 性进 行 数 据 发 掘 ,如下 图所示 的选 择“教育 程 度 ”作 为条 , “91年 收 入”作 为 结果 .所 发 现 的知识 表 示 成 州 m0的形 式 ,见 下 图 3. 画 羲圈 :: i 五 :幽拜蒜篇童囊器瞥霜面谳丽商翥蔓—一 — 竺—J 巴 图 3 所 获 取 的 规 别 Fig3RulesDiscovery 利用 启发 型 协调器 进 行 自动 发掘关 联规 则 t即 KDD 过 程 ). 启发 型协 调 器 是 根据 知 识 库 中知 识 短 缺 , 来 自动 发掘 知 识 ,然 后再 通 过领 域 专 家介 入 或 柙 应 的评 价 方法 加 以筛选 .还 以 卜面 的数 据 库 为例 ,KDD+发 现 结 果如 图 4所 示 . 由此 可 见 ,新 的动 态知 识 库系 统 较传 统 的 知 识库 内涵 知识 的数 量 和深度 都 有 了较 大 的扩 展 ,有 效 地克 服 了领 域 专 家 的 自身 局 限 . 维普资讯 http://www.cqvip.com
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有