正在加载图片...
·348 北京科技大学学报 2002年第2期 按类似于第1个抽象级的各个发现环节运行, 基于内在机理研究,具体而论是基于“知识短 完成第2个抽象级.如此往复,在认识发展与时 缺”(利用有向超图)进行“定向挖掘”;而Apriori 空环境变迁的不同阶段,不断使知识丰富与升 算法是基于组合论的数据库全局搜索 级,不断使认识深化.由此可以看出该系统的基 (2)基本流程(或基于的模型)不同.Marad- 本特征:①具有多个抽象级、不同知识层面的多 bcm算法是一条一条短缺知识的挖掘;而Apriori 层递阶、综合集成的知识发现系统的总体框架 算法是所有的规则一并挖掘. 与运行机制;②双库(即数据库与知识库)在知 (3)基础不同.Maradbcm算法是基于规则强 识发现过程中具有协同机制;③综合了数据发 度,它考虑了主观和客观两个方面,即考虑了用 掘技术与推理机制(即使KDD与KDK统一在 户的聚焦(感兴趣度),并涵盖了Apriori算法的 一个过程中),综合了KDD发掘的知识与知识 支持度阈值 库的知识,进而再生新知识;④强调知识发现过 (4)发现知识的量不同.Maradbcm算法考虑 程中的认知自主性,即突出知识的自动发现(获 了知识库,能真正发现新颖的、用户感兴趣的知 取),仅在一个发现周期(即一个抽象级)的“始 识,这正是符合了KDD定义,而Apriori算法是 点”与“末端”通过人机交互建立与领域专家的 把满足条件的规则全部挖掘出来;另外,由于 联系 Maradbcm算法中的支持度可以设置得比较小 (4)基于知识发现系统KD(D&K)的广义 (因为该算法主要是由规则强度来聚焦的),即 诊断型专家系统ESKD,详细内容可参见参考文 对短缺知识的删除是比较谨慎的,因此Marad 献[7 bcm算法部分地克服了Apriori算法的一个缺 陷,即遗漏重要的规则 4内在机理引发的技术方法 (S)Maradbcm算法.可融入KDD中形成新 4.1新的知识表示方法一语言场与语言值结 的开放型的结构模型—KDD*,整个算法实现 构表示法 的运算背景是KDD*结构;而Apriori算法是原 定义.C=<D,I,N,≤心,若满足下列条件:D 有的封闭系统KDD 为R上交叉闭区间的集合(基础变量论域):N≠Φ 43因果关联规则的自动评价方法 为语言值的有限集;sw为N上的全序关系; 针对因果关联规则,提出了一种全新的自 I:N一D为标准值映射,满足保序性,则称C为语 动评价方法,其主要特征是: 言场 (1)采用全新的知识表示方法一语言场和 在此基础上,给出语言值结构的定义与相 语言值结构. 关的若干实现 (2)采用因果关系定性推理机制(它不必考 利用语言场理论对连续属性进行离散化, 虑各种数据的概率分布情况) 方法简单,计算时间短,并可以根据专家(用户) (3)将认证逻辑的分析方法应用到因果关联 的意愿来划分连续属性,从而用自然语言来描 规则的评价中,实现了对这种规则形式的后验 述最后得到的规则,使之更易于被用户所理解, 评价 因此这种方法较为实用 (4)具有通用性和交互性.即此评价方法可 4.2关联规则发现的新算法一Maradbcm算法 以在不同的领域中应用,因为因果关系是普遍 本文作者独立提出的Maradbcm算法(min- 存在的. ing association rules algorithms based on double- 同时对于有些经常变化的数值,可以让用 bases cooperating mechanism)是基于双库协同机 户随时进行补充和修改,不过当所需要的值确 制的关联规则挖掘算法,体现了内在机理研究 定后,推理机制和评价方法的实现都是由计算 对当前KDD主流发展的重要作用 机自动完成的.其中,(1)和(2)是最关键的特征, Maradbcm算法与通常公认的具权威性的 也是提出该方法的基础.也只有以语言场理论 挖掘关联规则的Apriori算法的主要共同,点是 为基础和在因果关系定性推理机制下,才能将 两者在本质上都是基于统计方法的.两者的主 认证逻辑的分析方法运用到评价过程中,并使 要区别(或优于Apriori算法)在于以下5个方面: 其可以进行定量的分析,从而使该方法具有科 (l)基于的学术思想不同.Maradbcm算法是 学性与可实现性北 京 科 技 按类 似于 第 个抽象级 的各个发现环 节运行 , 完成第 个抽象级 如此往复 , 在认识发展与时 空 环 境变迁 的不 同阶段 , 不 断使知识丰富与升 级 , 不 断使认识深化 由此可 以 看 出该系统 的基 本特征 ①具有多个抽象级 、 不 同知识层 面 的多 层递 阶 、 综合集成 的知识发现 系统 的总体框架 与运行机制 ②双库 即数据库与知识库 在知 识发现过程 中具有协 同机制 ③综合 了 数据发 掘技术 与推理机制 即使 与 统一在 一个过 程 中 , 综合 了 发掘 的知识与知识 库的知识 , 进而再生新知识 ④强调 知识发现过 程 中的认知 自主性 , 即突 出知识 的 自动发现 获 取 , 仅在一个发现 周期 即一个抽象级 的 “ 始 点 ” 与 “ 末端 ” 通过人机交互建立 与领域专家 的 联 系 基 于 知识发现系统 勒 的广义 诊断型 专家系统 ,详细 内容可参见参考文 献 内在机理引发的技术方法 新的知 识表示 方法— 语 言场 与语言值结 构表示法 定 义 , , , 丛户 , 若满 足 下 列 条件 为 上 交叉 闭 区 间的集合 基础变量论域 羊 必 为 语 言 值 的有 限集 ‘ 、 为 上 的 全 序关 系 一 为标准值映射 , 满足保序性 , 则称 为语 言场 在此基础 上 , 给出语言值结构 的定义 与相 关 的若 干 实现 利用 语 言场理论对 连 续 属 性 进行离散化 , 方法简单 , 计算时 间短 , 并可 以根据专家 用 户 的 意 愿来 划分连续 属 性 , 从而用 自然 语言来描 述最后得到 的规则 , 使之更易 于被用户所理解 , 因此这种 方法较 为实用 关联规则发现的新算法— 算法 本文作者独 立 提 出的 算法 是基于 双库协 同机 制 的关联规则挖掘算法 , 体现 了 内在机理研究 对 当前 主 流 发展 的重要作用 算法 与通 常公认 的具权威性 的 挖掘关联 规则 的 算法 的主要共 同点是 两 者在 本质上 都是基于统计方法 的 两者 的 主 要 区别 或优于 算法 在于 以下 个方面 基于 的学术思想 不 同 算法是 大 学 学 报 年 第 期 基于 内在机理研究 , 具体而论是基于 “ 知识短 缺,’ 利 用有 向超 图 进行 “ 定 向挖掘 ” 而 算法是基于组合论 的数据库全局 搜索 基本流 程 或基于 的模型 不 同 算法是一条一条短缺知识的挖掘 而 算法是所有 的规则一并挖掘 基础不 同 算法是基于规则强 度 , 它考虑 了 主观和客观两个方面 , 即考虑 了用 户 的聚焦 感兴趣 度 , 并涵盖 了 却 算法 的 支持度 阑值 发现知识的量不 同 算法考虑 了知识库 , 能真正发现新颖 的 、 用 户感兴趣 的知 识 , 这正是符合 了 定义 , 而 算法是 把满足条件 的规则全部 挖掘 出来 另 外 , 由于 算法 中的支持度 可 以 设置得 比较小 因为该算法 主要是 由规则强 度来 聚焦 的 , 即 对短 缺知识 的删 除是 比较谨慎 的 , 因此 算法部分地 克服 了 算法 的一个缺 陷 , 即遗漏重要 的规则 算法 可 融 入 中形成新 的开放型 的结构模型— , 整个算法实现 的运算背景是 结构 而 却 算法 是原 有 的封闭 系统 因果关联规则 的 自动评价方法 针对 因果关联规则 , 提 出 了一 种 全新 的 自 动评价方法 , 其 主要特征是 采用全新 的知识表示方法— 语言场和 语言值结构 采用 因果关系定性推理机制 它 不 必 考 虑各种数据 的概率分布情况 将认证逻辑 的分析方法应用 到 因果关联 规则 的评价 中 , 实现 了对 这种 规则 形 式 的后 验 评价 仔 具有通用性和 交互性 即此评价方法可 以在不 同的领域 中应用 , 因为 因果关系是普遍 存在 的 同时对于有些经常变化 的数值 , 可 以 让用 户 随时进行补充和 修改 不 过 当所需要 的值确 定后 , 推理机制 和评价方法 的实现都是 由计算 机 自动完成 的 其 中 , 和 是最关键 的特征 , 也是提 出该方法 的基础 也 只 有 以语言场理论 为基础 和 在 因果关系定性推理机制下 , 才能将 认证逻 辑 的分析方法运 用 到评价过程 中 , 并使 其可 以进行定量 的分析 , 从而 使该方法具有科 学性 与可实现性
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有