D0I:10.13374/i.issn1001053x.2002.03.073 第24卷第2期 北京科技大学学报 VoL.24 No.2 2002年4月 Journal of University of Science and Technology Beijing Apr.2002 知识发现系统内在机理 杨炳儒周颖 北京科技大学信息「程学院,北京100083 摘要介绍了杨炳儒教授独立提出的知识发现系统内在机理中的3个机制一双库协同 机制、双基融合机制、信息扩张机制,及在其上构建的KDD*,KDK*,KD(D&K),ESKD结构模型, 并介绍了在知识表示方法、发现算法与自动评价方法等方面的创新性成果 关键词知识发现;体系结构;内在机理;KD(D&K)系统;KDD*系统:KDK*系统 分类号TP18:TP391 最近的Gartner报告列举了5项在今后3一 知科学与智能系统等多学科交叉结合的角度, 5年内对工业将产生重要影响的关键技术,其 将其视为一个开放和不断进化的系统,以认知 中KDD和人工智能首位,同时这份报告将并行 自主性为核心,研究知识发现的系统结构、方 计算机体系结构和KDD(Knowledge Discovery in 法、进程与运行机制,提出了双库协同机制、双 Database)的研究列入今后5年内应该投资的l0 基融合机制和信息扩张机制;进而提出了基于 个新技术领域 双库协同机制的KDD扩展结构—KDD*系 目前国际上KDD的研究主要是以知识发 统、基于双基融合机制的KDK*系统、基于信息 现的任务描述、知识评价与知识表示为主线,有 扩张机制的KD(D&K)系统以及基于KD(D&K) 效的知识发现算法为中心,这是在相当长的时 模型的广义诊断型专家系统ESKD:并认为条 间内保持的主流与基调.然而,数据发掘的局限 件已成熟,规范与罗列出了可能的专题研究方 性,正是源于对知识发现系统内在规律性缺乏 向与技术路线,初步构建了知识发现系统的体 研究与认识.若将KDD局限于一个封闭的模式 系结构(见图1).经中国科学技术信息研究所查 中,不可避免地会带来一系列的问题;而若把知 各实际领域的应用(如农业、远程教有 识发现及其相关的一些进程作为一个宏观的开 应用层 气象、金融、市场预测…油气预测等) 放的整体来考虑,会在一定程度上解决以上问 题.另外当前对于KDD主流技术的研究已取得 软件层 知识发现系统各类引擎(软件系列)开发 方 了一定的成果,对算法的研究已不局限于以往 法 预处理「知识表知识发 知识评价后处理 的一些传统算法,而涉及到了粗糙集、遗传算 方法」儿示方法 掘方法与优化方法方法 法、概念格、小波分析等一些相关的技术方法 这不仅为KDD系统的整体体系结构的构建提 结 知识发现新结构模型 供了基础,而且在客观上也要求为KDD系统提 KDD KDD+ KDK* KD(D&K)ESKD 供一个理论上的体系框架,将各种相关领域的 层 ■ 研究统一起来.这些成为在KDD领域里开拓新 内在机理研究 的研究方向的基本背景 机理层 双库协 双基融 信息扩 核心概念 1知识发现系统体系结构 同机制 合机制 张机制 的研究 纵观知识发现的理论和技术方法的发展状 基础层 逻辑基础 哲学基础 方法论基础 况和存在问题,笔者于1997年从知识发现、认 图1知识发现系统的体系结构图 Fig.1 Architecture of knowledge discovery system 收稿日期2001-1106杨炳儒男,58,教授,博导 *国家自然科学基金重点资助课题No.69835001),教育部科技重点资助项目(No.[20001175)
第 卷 第 期 年 月 北 京 科 技 大 学 学 报 心 知识发现 系统 内在机理 杨 炳儒 周 颖 北京科技大学信息工程学院 , 北京 摘 要 介绍 了杨炳儒教授独 立 提 出 的知识发现 系统 内在机理 中的 个机制— 双库协 同 机制 、 双基融合机制 、 信息扩张机制 , 及在其上构建的 , , , 结构模型 , 并介绍 了在知识表示 方法 、 发现算法 与 自动评价方法等方 面 的创新性成果 关键词 知识发现 体系结构 内在机理 系统 系统 系统 分 类号 最近 的 报告列举 了 项 在今后 一 年 内对工 业 将产生重 要 影 响的关键技术 , 其 中 和 人工智 能首位 , 同时这份报告将 并行 计算机体系结构和 幼 心 汀 的研究列 人今后 年 内应 该投资的 个新技术领域 〔,」 目前 国际上 的研究 主要 是 以 知识发 现 的任务描述 、 知识评价与知识表示 为主线 , 有 效的知识发现算法 为 中心 「 , 这 是在相 当长 的时 间 内保持的主流与基调 然而 , 数据发掘 的局 限 性 , 正 是 源 于 对知识发现 系统 内在规 律性缺乏 研究与认识 若将 局 限于 一个封闭的模式 中 , 不 可避免地会带来一 系列 的问题 而若把知 识发现及其相关的一些进程作为一个宏观 的开 放 的整 体来考虑 , 会在一 定程 度 上 解 决 以上 问 题 另外 当前对于 主 流技术 的研究 已 取得 了一 定 的成果 , 对算法 的研究 已不局 限于 以往 的一 些传统算法 , 而涉及 到 了粗糙集 、 遗传算 法 、 概念格 、 小波分析等一些 相关的技术方法 「 这不 仅 为 系统 的整 体体系结构 的构 建提 供 了基础 , 而 且 在 客观上 也要 求为 系统提 供一个理论上 的体系框架 , 将各种 相关领 域 的 研究统一起来 这些成 为在 领域里开 拓新 的研究方 向的基本背景 知科学 与智能 系统等多学 科交叉 结合 的角度 , 将其视 为一个 开放 和 不 断进 化 的 系统 , 以认知 自主性 为核 心 , 研究 知识发 现 的系统结构 、 方 法 、 进 程 与运 行机制 , 提 出 了双库协 同机制 、 双 基融合机制和 信息扩张机制 飞进 而提 出了基于 双 库协 同机 制 的 扩 展 结构— 系 统 、 基 于 双基融合机制的 系统 、 基 于 信息 扩 张机制 的 系统 以及 基于 模型 的广 义诊 断型 专家 系统 并认 为条 件 已 成熟 , 规范与罗 列 出了 可 能 的专题研究方 向与技术路线 , 初步构建 了知识发 现 系统 的体 系结构 见 图 经 中国科学技术信息研究所查 应用层 一险需 卿孺需觑 — 一 — 不 软件层 一画面赢 系统客奚弓画画邃亘远亘 —— 一 布 一与模才庸陈户矢一心尤型刃一卜匡卜 一发法 一日一构塘万门训 ‘ 一识方新下阵、经结沪。不一断榨弘 ︸ 一一知掘现肠月川日川一袱… 发汪叶晨庸雇 一层 法技术方层结构模型 机理 知识发现 系统体系结构 纵观知识发现 的理论和技术方法 的发展状 况 和存在 问题 , 笔者 于 年从知识发现 、 认 收稿 日期 一 一 杨炳儒 男 , , 教授 , 博导 基础 图 知 识发 现 系统 的体 系结构 图 国家 自然科学基金重点资助课题 教育部科技重点 资助项 目困 」 DOI :10.13374/j .issn1001—053x.2002.03.073
3464 北京科技大学学报 2002年第2期 新检索证明:对内在机理的研究是一项具有国 基于双库协同机制的KDD*系统是KDD技术 内外创新性的研究,在国内外已公开发表的文 与双库协同机制相融合的一种知识发现的新结 献中未见与本研究方向密切相关的报道.这充 构.即构建数据库与基础知识库的内在联系“通 分表明了本研究方向在国内外相关领域的创新 道”,从而用基础知识库去制约与驱动KDD的 性一开拓了知识发现领域的内在机理研究的 发掘过程,改变KDD固有的运行机制,在结构 新方向 与功能上形成了相对于KDD而言的一一个开放 的、优化的扩体.同时该机制的提出可以诱导出 2内在机理研究 新的、有效的知识发现的结构模型,并产生具有 2.1双库协同机制 高效、高扩展性的知识发现算法 双库协同机制即挖掘数据库与挖掘知识库 2,2双基融合机制 双基融合机制即KDD与KDK在综合基的 在KDD进程中的协同机制 (1)定义.在给定真实数据库和基础知识库 知识发现系统中的融合机制. 的前提下,在数据发掘过程中,具备以下特征的 (1)定义.双基融合机制是指在基于数据库 KDD中的运行机制为双库协同机制阿:①在真 与基于知识库(综合基上)的知识发现系统中, 实数据库上,按数据子类结构形式所构成的发 具有下列内涵的机制:①KDK(Knowledge Dis- 掘数据库的可达范畴与基于属性间关系的发掘 covery in Knowledge base)过程要依赖于数据库. 知识库的推理范畴之间构建范畴间的等价关 即将在KDK过程中发掘出的新知识随时送入 数据库中,以数据库中的数据来验证新知识.② 系;2个范畴的等价关系为定向发掘和定向搜 索奠定理论基础.②在KDD聚焦过程中,除依 KDK的过程要依赖于KDD的发掘过程.即在 据用户需求确定聚焦外,通过启发协调算法可 KDK中发掘出的某些特定的新知识可送入 以形成依发掘知识库中知识短缺而生成的机器 KDD过程中进行验证,看KDK中发现的规则 自身提供的聚焦方向,进而形成在数据库中的 在KDD过程中是否能被发现.这一过程本质上 定向发掘算法和进程).③在获得假设规则到知 是确定KDK中发现的新规则在现实中是否有 识评价的过程中产生的中断进程,即先不对假 意义.③KDK依赖于固有知识库.即KDK过程 设规则进行评价,而是通过中断协调算法到发 中发现的新知识要实时的、定向的嵌入固有知 掘知识库中进行定向搜索(算法和进程),以期 识库,以验证新知识与原有知识是否冗余、矛盾 发现产生的假设规则与知识库中原有的知识是 和重复 否重复、冗余和矛盾,并作相应处理,即对知识 (2)论证了KDK模型与KDD模型各要素间 库进行实时维护 的对应关系,建立KDD与KDK过程的协同对 应模型.在双基融合机制下构造了一个基于事 (2)在双库协同机制的研究中,给出了一系 列定义,并演绎出重要的结构对应定理,还提出 实的知识发现算法,得到了有效的验证:并用卡 及实现了启发协调算法与中断协调算法.以下 尔纳普的归纳逻辑来建立KDK自身的评估体 给出结构对应定理 系,从而建立了KDK的整体结构框架.这样做 定理(结构对应定理).对于论域X,在相应 使得KDK摆脱了长期以来只能借助人机对话进 的知识子库与数据子库中,关于知识结点的拓 行评价的窘境,机器自身有了客观的评价标准。 扑空间是同一泛同伦型的空间. 制的本质在于在具有综合基的知识发现系统 (3)意义.双库协同机制基本上解决了数据 中,构建KDD与KDK的相互制约的内在联系, 发掘过程中对领域固有的基础知识库的实时维 使它们能够相辅相成,是一种机器智能的较高 护,同时在一定程度上,解决了认知自主性的问 境界 题.即利用启发型协调器,实现了计算机自动发 23信息扩张机制 现“知识短缺”,系统自身根据知识短缺产生创 该机制把信息扩散理论的结果经合理修 见意向,形成定向发掘:对挖掘出来的知识通过 正,有针对性地移植到知识发现系统中,建立双 中断型协调器,对知识库进行实时管理与维护 库协同、双基融合的信息开放系统中信息扩张
北 京 科 技 大 学 学 报 年 第 期 新检索证 明 对 内在 机理 的研究是一项具有 国 内外创新性 的研究 , 在国 内外 已公开发表 的文 献 中未见 与本研究 方 向密切 相关的报道 这充 分表明了本研究方 向在 国 内外相关领域 的创新 性— 开 拓 了知识发 现领域的 内在机理研究的 新方 向 内在机理研究 双库协同机制 双库协 同机制即挖掘数据库与挖掘知识库 在 进程 中的协 同机制 定 义 在 给定 真实数据库和基础知 识库 的前提下 , 在数据发掘过程 中 , 具备以下特征的 中的运行机制 为双库协 同机制 ,, ①在 真 实数据库上 , 按数据子类结构形式所构成 的发 掘数据库的可达范畴与基于 属性间关系的发掘 知识 库 的推理 范畴之 间构 建 范 畴 间 的等价关 系 个范畴的等价关系为 定 向发掘 和定 向搜 索奠定理论基础 ②在 聚焦 过程 中 , 除依 据用 户需 求确定聚焦外 , 通过启发协调算法 可 以形成依发掘知识库中知识短缺而 生成 的机器 自身提供的 聚焦方 向 , 进而形成在数据库 中的 定 向发掘 算法和 进程 ③在获得假设规则到知 识评价 的过程 中产生 的 中断进程 , 即先不对假 设规则进行评价 , 而是通过 中断协调算法 到 发 掘知识库 中进行定 向搜索 算法和进程 , 以期 发现产 生 的假设规则 与知识库 中原有的知识是 否 重 复 、 冗余 和 矛 盾 , 并作相应处理 , 即对知识 库进行实时维护 在双库协 同机制 的研究 中 , 给 出了一 系 列 定义 , 并演绎出重要 的结构对应定理 , 还提 出 及 实现 了启发协调算法 与 中断协调算法 以下 给出结构对应定理 , 定 理 结构对应定理 对于论域 , 在相应 的知识子 库与数据子库中 , 关于 知识结点的拓 扑空 间 浏价 》 与关于数据子类 结构 的拓扑空 间 , 是 同一泛 同伦型 的 空 间 意义 双库协 同机制基本上解决 了数据 发掘过程 中对领域 固有的基础知识库的实时维 护 , 同时在一定程度上 , 解决了认知 自主性 的问 题 即利用启发型协调器 , 实现 了计算机 自动发 现 “ 知识短缺 ” , 系统 自身根据知识短缺产生创 见 意 向 , 形成定 向发掘 对挖掘出来 的知识通 过 中断型协调器 , 对知识库进行实时管理与维护 基于双库协 同机制 的 , 系统是 技术 与双库协同机制相融合的一种知识发现 的新结 构 即构建数据库与基础知识库的内在联系 “ 通 道 ” , 从而用基础 知识库去 制约与驱动 的 发掘过程 , 改变 固有 的运 行机制 , 在结构 与功 能上形成 了相对于 而 言的一 个开 放 的 、 优化的扩体 同时该机制的提 出可 以诱导 出 新 的 、 有效的知识发现的结构模型 , 并产生具有 高效 、 高扩展性 的知识发现算法 , 双基融合机制 双基融合机制 即 与 在综合基的 知识发现 系统 中的融合机 制 定义 双基融合机制是指在基 于 数据库 与基 于 知识库 综合基上 的 知识发现 系统 中 , 具有下 列 内涵 的机制 ① 肠 力 电 过程要依赖于数据库 即将在 过程 中发掘 出的新知识随时送人 数据库中 , 以数据库中的数据来验证新知识 , ② 的过程要依赖于 的发掘过程 即在 〕 中 发 掘 出 的 某 些 特 定 的 新 知识 可 送 人 过程 中进行验证 , 看 中发现 的规则 在 〕 过程 中是否 能被发现 这一过程本质上 是确定 中发现 的新规则 在现实 中是否有 意义 ③ 依赖于 固有知识库 即 过程 中发现 的新知识要实时的 、 定 向的嵌人 固有 知 识库 , 以验证新知识与原有知识是否冗余 、 矛盾 和 重 复 论证 了 模型 与 模型 各要 素间 的对应关系 , 建立 与 过程 的协 同对 应模型 , 在 双基融合机制下 构造 了 一个基于 事 实的知识发现算法 , 得到 了有效 的验证 并用卡 尔纳普 的 归纳逻辑来建立 自身的评估体 系 , 从而建立 了 的整体结构框架 这样做 使得 摆脱 了长期以来只能借助人机对话进 行评价的窘境 , 机器 自身有 了客观的评价标准 从 以 上 种 内涵 可 以看 出 , 双基 融合机 制 的本 质在 于 在 具有综 合基 的 知 识 发 现 系统 中 , 构建 与 的相互 制约 的 内在联 系 , 使它们能够相辅相成 , 是一 种机器智能的 较高 境界 信息扩张机制 该 机 制把 信息 扩 散理 论 的结果 经 合理 修 正 , 有针对性地移植到知识发现系统 中 , 建立双 库协同 、 双基融合 的信息开放 系统 中信息扩张
Vol.24 杨炳儒等:知识发现系统内在机理 …347. 的模型,并研究这个模型的性质和运动机理:把 3内在机理诱导的扩展性结构模型 信息扩散的计算思维运用到知识发现过程中 去,以寻求在知识库与数据库的动态扩张下,知 (I)KDD*兰KDD+双库协同机制(符号+表 识信度,优化与算法复杂性等变化规律.信息扩 示在KDD技术的基础上融人双库协同机制). 张机制的研究是多学科交叉的结果,它涉及到 (2)KDK*KDK+双基融合机制(符号+表 认知科学、人工智能、计算机逻辑、理论物理、哲 示在KDK技术的基础上融入双基融合机制). 学、突变论、耗散理论、混沌理论、计算机科学、 (3)将KDD*,KDK*与信息扩张机制相结合, 系统科学等多个学科. 形成具有多抽象级、不同知识层次的多层递阶、 上述的3个机制从认知结构与智能结构的 综合集成的知识发现系统KDD&K)(见图2). 角度刻划了知识发现过程中的内在机理,奠定 图2所示知识库经基础一衍生一合成一综 了知识发现的理论基础、优化了知识发现的结 合一扩展的提升过程,只是完成了第1个发现 构、完善了知识发现的运行机制、完备了知识发 (认识)阶段,即第1个抽象级.以第1个抽象级 现的功能、扩展了知识发现的应用 的扩展知识库作为第2个抽象级的基础知识库, 扩展知识库(几容性处弹) E层 (扩展知识层) 作为下个抽象级的 基础知识车 广义综合归纳推理机 推理 假设 评估 综合知!库 -D层 目标规则(公理) 冗容性处理 (综合知识层) T 性 型协调器 集成推理机 规则组推理 描述框架推理 因果归纳与演泽推理 食 合成知识库 -C层 (合成知识层) 冗容性处理 B层 (衍生知识层) 结果 衍生知识库 (分类器一 -如A层) 结果评价 S型协调器 冗容性处 规则(知识)生成 R型协调器 A层 取 聚焦 (基础知识层) 闭户需求 基础知识库 (由专家知识和领域 知识的获取构成) 真实数据库 过程性知识描述性知阅联性知识 规则架+规则体)(描述结构)(语言场) 预处理 黑板结构 图2KD(D&)结构图 Fig.2 Overall Structure of KD(D&K)
叭】 杨炳 儒等 知 识 发现 系统 内在机理 的模型 , 并研究这个模型 的性质和运 动机理 把 信息扩 散 的 计算思 维运 用 到 知 识 发现过程 中 去 , 以 寻求在 知识库与数据库的动态扩张下 , 知 识信度 、 优化与算法复杂性等变化规律 信息扩 张机制 的研究是多学科交叉 的结果 , 它涉及到 认知科学 、 人工智能 、 计算机逻辑 、 理论物理 、 哲 学 、 突 变论 、 耗散理论 、 混沌 理论 、 计算机科学 、 系统科学等多个学科 上述 的 个机制从认知结构与智能结构 的 角度刻划 了知识发现过程 中的 内在机理 , 奠定 了知识发现 的理论基础 、 优化 了知识发现 的结 构 、 完善了知识发现的运行机制 、 完备了知识发 现的功能 、 扩展 了知识发现 的应用 内在机理诱导的扩展性结构模型 要 双库协 同机制 符号十 表 示在 技术的基础 上 融人双库协 同机制 皇 双基融合机制 符号 表 示 在 技术的基础 上 融人双基融合机制 将 〕 , 与信息扩张机制相结合 , 形成具有多抽象级 、 不 同知识层次的多层递阶 、 综合集 成 的知识发现 系统 见 图 图 所示知识库经基础 一衍生 一合成一综 合一扩展 的提升过程 , 只 是完成 了第 个发现 认识 阶段 , 即第 个抽象级 以第 个抽象级 的扩展知识库作为第 个抽象级的基础 知识库 , 扩展知识层 层 综合知识层 扩展知识咋冗育性处理 卜 日 评估 目标规则 ‘公理, 冗容性处理 规则组推理 因果归纳与演泽推理 合成知识库 衍生知识库 分类器— 如 层 人 机 交 互 用户需求 真实黔 库 预处理 层 合成知识层 层 衍生知识层 层 基础知识层 图 结构图 代 毋承
·348 北京科技大学学报 2002年第2期 按类似于第1个抽象级的各个发现环节运行, 基于内在机理研究,具体而论是基于“知识短 完成第2个抽象级.如此往复,在认识发展与时 缺”(利用有向超图)进行“定向挖掘”;而Apriori 空环境变迁的不同阶段,不断使知识丰富与升 算法是基于组合论的数据库全局搜索 级,不断使认识深化.由此可以看出该系统的基 (2)基本流程(或基于的模型)不同.Marad- 本特征:①具有多个抽象级、不同知识层面的多 bcm算法是一条一条短缺知识的挖掘;而Apriori 层递阶、综合集成的知识发现系统的总体框架 算法是所有的规则一并挖掘. 与运行机制;②双库(即数据库与知识库)在知 (3)基础不同.Maradbcm算法是基于规则强 识发现过程中具有协同机制;③综合了数据发 度,它考虑了主观和客观两个方面,即考虑了用 掘技术与推理机制(即使KDD与KDK统一在 户的聚焦(感兴趣度),并涵盖了Apriori算法的 一个过程中),综合了KDD发掘的知识与知识 支持度阈值 库的知识,进而再生新知识;④强调知识发现过 (4)发现知识的量不同.Maradbcm算法考虑 程中的认知自主性,即突出知识的自动发现(获 了知识库,能真正发现新颖的、用户感兴趣的知 取),仅在一个发现周期(即一个抽象级)的“始 识,这正是符合了KDD定义,而Apriori算法是 点”与“末端”通过人机交互建立与领域专家的 把满足条件的规则全部挖掘出来;另外,由于 联系 Maradbcm算法中的支持度可以设置得比较小 (4)基于知识发现系统KD(D&K)的广义 (因为该算法主要是由规则强度来聚焦的),即 诊断型专家系统ESKD,详细内容可参见参考文 对短缺知识的删除是比较谨慎的,因此Marad 献[7 bcm算法部分地克服了Apriori算法的一个缺 陷,即遗漏重要的规则 4内在机理引发的技术方法 (S)Maradbcm算法.可融入KDD中形成新 4.1新的知识表示方法一语言场与语言值结 的开放型的结构模型—KDD*,整个算法实现 构表示法 的运算背景是KDD*结构;而Apriori算法是原 定义.C=<D,I,N,≤心,若满足下列条件:D 有的封闭系统KDD 为R上交叉闭区间的集合(基础变量论域):N≠Φ 43因果关联规则的自动评价方法 为语言值的有限集;sw为N上的全序关系; 针对因果关联规则,提出了一种全新的自 I:N一D为标准值映射,满足保序性,则称C为语 动评价方法,其主要特征是: 言场 (1)采用全新的知识表示方法一语言场和 在此基础上,给出语言值结构的定义与相 语言值结构. 关的若干实现 (2)采用因果关系定性推理机制(它不必考 利用语言场理论对连续属性进行离散化, 虑各种数据的概率分布情况) 方法简单,计算时间短,并可以根据专家(用户) (3)将认证逻辑的分析方法应用到因果关联 的意愿来划分连续属性,从而用自然语言来描 规则的评价中,实现了对这种规则形式的后验 述最后得到的规则,使之更易于被用户所理解, 评价 因此这种方法较为实用 (4)具有通用性和交互性.即此评价方法可 4.2关联规则发现的新算法一Maradbcm算法 以在不同的领域中应用,因为因果关系是普遍 本文作者独立提出的Maradbcm算法(min- 存在的. ing association rules algorithms based on double- 同时对于有些经常变化的数值,可以让用 bases cooperating mechanism)是基于双库协同机 户随时进行补充和修改,不过当所需要的值确 制的关联规则挖掘算法,体现了内在机理研究 定后,推理机制和评价方法的实现都是由计算 对当前KDD主流发展的重要作用 机自动完成的.其中,(1)和(2)是最关键的特征, Maradbcm算法与通常公认的具权威性的 也是提出该方法的基础.也只有以语言场理论 挖掘关联规则的Apriori算法的主要共同,点是 为基础和在因果关系定性推理机制下,才能将 两者在本质上都是基于统计方法的.两者的主 认证逻辑的分析方法运用到评价过程中,并使 要区别(或优于Apriori算法)在于以下5个方面: 其可以进行定量的分析,从而使该方法具有科 (l)基于的学术思想不同.Maradbcm算法是 学性与可实现性
北 京 科 技 按类 似于 第 个抽象级 的各个发现环 节运行 , 完成第 个抽象级 如此往复 , 在认识发展与时 空 环 境变迁 的不 同阶段 , 不 断使知识丰富与升 级 , 不 断使认识深化 由此可 以 看 出该系统 的基 本特征 ①具有多个抽象级 、 不 同知识层 面 的多 层递 阶 、 综合集成 的知识发现 系统 的总体框架 与运行机制 ②双库 即数据库与知识库 在知 识发现过程 中具有协 同机制 ③综合 了 数据发 掘技术 与推理机制 即使 与 统一在 一个过 程 中 , 综合 了 发掘 的知识与知识 库的知识 , 进而再生新知识 ④强调 知识发现过 程 中的认知 自主性 , 即突 出知识 的 自动发现 获 取 , 仅在一个发现 周期 即一个抽象级 的 “ 始 点 ” 与 “ 末端 ” 通过人机交互建立 与领域专家 的 联 系 基 于 知识发现系统 勒 的广义 诊断型 专家系统 ,详细 内容可参见参考文 献 内在机理引发的技术方法 新的知 识表示 方法— 语 言场 与语言值结 构表示法 定 义 , , , 丛户 , 若满 足 下 列 条件 为 上 交叉 闭 区 间的集合 基础变量论域 羊 必 为 语 言 值 的有 限集 ‘ 、 为 上 的 全 序关 系 一 为标准值映射 , 满足保序性 , 则称 为语 言场 在此基础 上 , 给出语言值结构 的定义 与相 关 的若 干 实现 利用 语 言场理论对 连 续 属 性 进行离散化 , 方法简单 , 计算时 间短 , 并可 以根据专家 用 户 的 意 愿来 划分连续 属 性 , 从而用 自然 语言来描 述最后得到 的规则 , 使之更易 于被用户所理解 , 因此这种 方法较 为实用 关联规则发现的新算法— 算法 本文作者独 立 提 出的 算法 是基于 双库协 同机 制 的关联规则挖掘算法 , 体现 了 内在机理研究 对 当前 主 流 发展 的重要作用 算法 与通 常公认 的具权威性 的 挖掘关联 规则 的 算法 的主要共 同点是 两 者在 本质上 都是基于统计方法 的 两者 的 主 要 区别 或优于 算法 在于 以下 个方面 基于 的学术思想 不 同 算法是 大 学 学 报 年 第 期 基于 内在机理研究 , 具体而论是基于 “ 知识短 缺,’ 利 用有 向超 图 进行 “ 定 向挖掘 ” 而 算法是基于组合论 的数据库全局 搜索 基本流 程 或基于 的模型 不 同 算法是一条一条短缺知识的挖掘 而 算法是所有 的规则一并挖掘 基础不 同 算法是基于规则强 度 , 它考虑 了 主观和客观两个方面 , 即考虑 了用 户 的聚焦 感兴趣 度 , 并涵盖 了 却 算法 的 支持度 阑值 发现知识的量不 同 算法考虑 了知识库 , 能真正发现新颖 的 、 用 户感兴趣 的知 识 , 这正是符合 了 定义 , 而 算法是 把满足条件 的规则全部 挖掘 出来 另 外 , 由于 算法 中的支持度 可 以 设置得 比较小 因为该算法 主要是 由规则强 度来 聚焦 的 , 即 对短 缺知识 的删 除是 比较谨慎 的 , 因此 算法部分地 克服 了 算法 的一个缺 陷 , 即遗漏重要 的规则 算法 可 融 入 中形成新 的开放型 的结构模型— , 整个算法实现 的运算背景是 结构 而 却 算法 是原 有 的封闭 系统 因果关联规则 的 自动评价方法 针对 因果关联规则 , 提 出 了一 种 全新 的 自 动评价方法 , 其 主要特征是 采用全新 的知识表示方法— 语言场和 语言值结构 采用 因果关系定性推理机制 它 不 必 考 虑各种数据 的概率分布情况 将认证逻辑 的分析方法应用 到 因果关联 规则 的评价 中 , 实现 了对 这种 规则 形 式 的后 验 评价 仔 具有通用性和 交互性 即此评价方法可 以在不 同的领域 中应用 , 因为 因果关系是普遍 存在 的 同时对于有些经常变化 的数值 , 可 以 让用 户 随时进行补充和 修改 不 过 当所需要 的值确 定后 , 推理机制 和评价方法 的实现都是 由计算 机 自动完成 的 其 中 , 和 是最关键 的特征 , 也是提 出该方法 的基础 也 只 有 以语言场理论 为基础 和 在 因果关系定性推理机制下 , 才能将 认证逻 辑 的分析方法运 用 到评价过程 中 , 并使 其可 以进行定量 的分析 , 从而 使该方法具有科 学性 与可实现性
Vol.24 杨炳儒等:知识发现系统内在机理 ·349· 5结论 2 Piatetsky Shapiro G,Matheus C J.Knowledge Discovery Work-bench for Exploring Business Databases[J].Inter- 本文介绍了知识发现系统体系结构,并就 national Journal of Intelligent Systems,1992,7:675 其中的内在机理层,结构模型层,方法技术层上 3 Yoon J P,Kerschberg L.A Frame work for Knowledge Dis- 所作的研究进行了介绍.也相应的开发了 covery and Evolution in Databases[J].IEEE Transactions on Knowledge and Data Eng,1993.5:973 KDD*,KDK*的软件系统,并将它们应用到了农 4杨炳儒.知识1程与知识发现M北京:冶金工业出 业知识发现系统,远程教育,气象短期预报和油 版社,2000 气预测等方面,取得了很好的运行效果.知识发 5杨炳儒.关于KDD的一类开放系统KDD*的研究U). 现的内在机理研究侧重于从问题的总体结构提 计算机科学,2000.27(2):83 出解决方案,而不是考虑孤立的某一过程 6 Yang Bingru.KD(D&K)and Double-Bases Cooperating Mechanism[J].Journal of System Engineering and Elec- 参考文献 tronic5,1999,10(2:48 1 Anand SS.Bell D A,Hughs J G.EDM:A General Fra 7 Yang Bingru.ESKD-A New Structure of Export System mework for Data Mining Based on Evidence Theory[J]. Based on Knowledge DiscoveryfJ].J of Univ of Sci and Data Knowledge Eng,1996,18:189 Tech Beijing,2000,7(1):63 Inner Mechanisms'Research of Knowledge Discovery System YANG Bingru,ZHOU Ying Information Engineering School,UST Beijing,Beijing 100083,China ABSTRACT The inner mechanisms that were put forward solely by the author Yang Bingru are introduced: cooperation mechanism of double bases,fusion mechanism of double basis and diffusion mechanism of in- formation.Then expansibility structural model of KDD are described:KDD*,KDK*,KD(D&K)and ESKD. And some innovational productions are introduced such as a new method of knowledge representation,mining algorithm,automatic evaluation algorithm. KEY WORDS knowledge discovery;architechture;inner mechanism;KD(D&K)system;KDD*system; KDK*system
杨炳孺等 知 识 发现 系统 内在 机理 一 结论 本文介绍 了知 识 发现系统体系结构 , 并就 其 中的 内在机理层 , 结 构模型层 , 方 法技术层 上 所 作 的 研 究 进 行 了 介 绍 也 相 应 的 开 发 了 , 的软件 系统 , 并将它 们应用 到 了农 业 知识发现 系统 ,远 程 教育 , 气象短 期预报 和 油 气预测 等方 面 ,取得 了很好 的运 行效果 知识发 现 的 内在机理研究侧重 于从 问题的总体结构提 出解决方 案 , 而不 是 考虑孤立 的某一 过程 参 考 文 献 , , 「 , , , 一 【 」 , , , 〔 , , 杨炳儒 知识 程 与知识发 现 【 」北京 冶金 工业 出 版社 , 杨炳儒 关于 的一 类 开 放 系统 的研 究 计算机科 学 , , 一 【 , , 一 , , , , 口 巧 , 乏弓 , , 、 恤 , 幻〕 , , 知 , ,