正在加载图片...
·204· 北京科技大学学报 1999年第2期 用户感兴趣的或者与先前的知识有矛盾.Jong P. 量.针对兴趣度的主观度量,文献[12]将其分为 Yoon与Larry Kerschberg针对这个问题提出 未期望到的(Unexpectedness)以及可操作的 了一个数据库中知识发现与进化的概念.提出了 (Actionability). 利用数据库查询以发现新知识,使用正反两个方 G.Piatetsy-Shapiro2o1等对数据库发掘的应用 面的例子来发现新知识以及新旧知识的协调一 状况给出了全面的介绍,概括起来,这些应用主 致,对数据库中例外的特征化以及随着知识与数 要包括市场分析与预测,瑕疵检测、制造业、通 据库的同步进化, 讯、天文学、保险业、市场经营、医学、金融业、在 (6)在数据发掘中,大量的工作是关于关联 线服务、商场顾客交易、证券市场与期货市场的 规则、分类规则、簇集规则等某种特定规则的发 客户交易、nternet上的巨量数据处理等, 掘研究.由于数据库的规模巨大,数据的广泛分 布,一些数据发掘算法的计算复杂性,等等都呼 4急待研究的部分专题与新构想 唤高效发掘算法的研究.Cheung D W).等人对 4.1急待研究的部分专题 分布式数据库的关联规则的发掘提出了一种有 (1)并行或分布的发掘算法的开发研究; 效算法DMA(Distributed Mining of Association (2)在多个抽象级上,在不同知识层面上发 rules).因为需要大量的额外通讯开销,将串行算 掘多种知识的有效方法; 法直接用于分布式数据库的效率不高;DMA生 (3)灵活方便的数据发掘语言与接口; 成一个小的候选集,且对每个候选集为支持数目 (4)在高级数据发掘系统中的知识发现技术 交换仅需要O()个信息,这里n是分布式数据库 及其应用系统的开发; 的分布点数.因此,DMA具有很高的性能 (5)发现到的知识与专家定义的知识的集 (7)数据发掘除了集成方法或一般框架上的 成;数据安全与数据保密. 研究和对某种特定规则的研究外,对特定数据库 4.2一个新构想 的数据发掘也进行了大量的工作,如交易数据库 突破原有的仅以数据库为基础的知识发现 (Transaction Databases)6,刃,空间数据库(Spatial 系统及其核心概念-认知自主性,形成基于数据 Databases)M、时态数据库(Temporal Databases)h 库与知识库的具有扩展性核心概念的知识发现 以及面向对象数据库”、演绎数据库,等等. 系统KD(D&K).其基本结构(多层递阶,综合集 (8)Hongjun Lu等提出了利用神经网络发 成)与运行机制的构想如图1所示. 掘符号分类规则的方法,与基于决策树的方法相 比,他们提出的方法具有更小的分类出错率,抽 用户需求 控制 取的规则也更简洁;不同的是,抽出规则的时间 消耗比基于决策树的方法(如C4.5)来得长. 真实数据 聚焦 规则(知识)生成 结果评价 结果 2.3结果评价 评价的依据主要有统计原理、认知特性、数 据空间抽象、附加证据领域知识及内部反馈.一 数据库 协调器 知识库 再生 般在进行综合评价时,是若干个依据并行使用以 使评价保持客观性. 领域知识 专家知识 3知识发现系统的核心概念及应用 图1 知识发掘的新构想 KDD的核心概念是认知自主性,它规定了 参考文献 KDD的基本特征,据此,要求知识发现系统在没 有“教师”的引导下独立完成知识获取任务;而认 1 Chen W M.Data Mining:an Overview from An 知自主性的核心是系统在现实条件下的生成能 Database Perspective.IEEE Trans on Knowledge and 力、评价能力及两者之间的有机结合. Data Eng,1996(8):866 感兴趣度(Interestingness)是衡量发掘出来的 2 Fayyad U.Knowledge Discovery and Data Mining: 知识的质量指标,可分为主观度量与客观度 Towards a Unifying Framework.In:Proc of KDD-96. Menlo Park,CA:AAAI Press,1996.82北 京 科 技 大 学 学 报 年 第 期 用 户 感 兴趣 的 或 者 与先前 的知 识 有 矛 盾 与 咫 ‘ 针 对 这 个 问题 提 出 了一个数据 库 中知 识 发现 与进化 的概 念 提 出 了 利 用 数 据库 查 询 以 发 现新 知 识 , 使用 正 反 两个 方 面 的 例 子 来 发 现 新 知 识 以 及 新 旧 知 识 的 协 调 一 致 , 对数 据 库 中例外 的 特 征 化 以 及 随 着 知 识 与数 据库 的 同步进化 在 数 据 发 掘 中 , 大 量 的工 作 是 关 于 关 联 规则 、 分 类 规则 、 簇 集 规 则 等 某 种 特 定 规则 的 发 掘 研 究 由于 数 据 库 的 规模 巨 大 , 数 据 的 广 泛 分 布 , 一 些 数 据 发 掘 算 法 的 计 算 复 杂 性 , 等 等 都 呼 唤高效 发掘 算 法 的研究 等人 对 分 布 式 数 据 库 的 关 联 规则 的 发 掘 提 出 了 一 种 有 效 算 法 因 为 需 要 大 量 的额 外 通 讯 开 销 , 将 串行算 法 直 接 用 于 分 布 式 数 据 库 的 效 率 不 高 生 成 一 个小 的候 选集 , 且 对每个 候 选集 为支 持数 目 交换仅需 要 。 个 信息 , 这 里 月 是 分 布 式 数据库 的分布 点数 因此 , 具 有 很 高 的性 能 数 据 发 掘 除 了 集 成 方 法 或 一 般 框 架上 的 研 究 和 对 某 种 特 定 规则 的研 究 外 , 对特 定 数 据库 的数 据 发 掘 也 进 行 了 大 量 的工 作 , 如 交 易 数 据 库 梦 ,, 、 空 间 数 据 库 , 、 时态数 据库 “ 以及 面 向对象数据库 ” 、 演 绎数据库 , 等等 自 等 ‘, 提 出 了利 用神经 网络发 掘符 号 分 类规则 的方 法 , 与基 于 决 策树 的方 法 相 比 , 他 们 提 出 的 方 法 具 有 更 小 的 分 类 出 错 率 , 抽 取 的规 则 也 更 简 洁 不 同 的是 , 抽 出规则 的 时 间 消耗 比基 于决策树 的方 法 如 来得 长 结果评价 评 价 的 依 据 主 要 有 统 计 原理 、 认 知 特 性 、 数 据 空 间 抽 象 、 附 加 证 据 领 域 知 识 及 内部 反 馈 一 般在 进 行 综合评价 时 , 是 若 干 个依据并 行 使用 以 使评价保持客观性 量 针 对兴趣 度 的 主 观 度 量 , 文 献 【 将其分 为 未 期 望 到 的 田 以 及 可 操 作 的 一 等 对数 据库发掘 的应 用 状 况 给 出 了全 面 的 介 绍 , 概 括 起 来 , 这 些 应 用 主 要 包 括 市 场 分 析 与 预 测 , 瑕 疵 检 测 、 制 造 业 、 通 讯 、 天 文 学 、 保 险 业 、 市 场 经 营 、 医 学 、 金 融 业 、 在 线服 务 、 商场顾 客 交 易 、 证券 市 场 与 期 货 市 场 的 客户交易 、 上 的 巨量 数据处理等 急待研究的部分专题与新构想 急待研究 的部分专题 并行或分布 的发掘算法 的开发研究 在 多个抽 象级 上 , 在 不 同知 识 层 面上 发 掘多种知识 的有效方法 灵活方便的数据发掘语言与接 口 在 高级 数据发掘 系 统 中的知 识发现技术 及 其应用系统的开发 发 现 到 的 知 识 与 专家 定 义 的 知 识 的集 成 数据安全 与数据保密 一个新构想 突破 原 有 的仅 以 数据库 为基 础 的 知 识 发 现 系 统及 其核 心概 念 一 认 知 自主 性 , 形 成 基 于 数 据 库 与 知识 库 的具 有 扩展 性 核 心 概 念 的 知 识 发 现 系 统 其基 本结构 多 层 递 阶 , 综 合集 成 与运行机制的构想如 图 所示 用 户需求 真实数据 · 领域知识 专家知识 知识发现 系统的核心概念及应用 的 核 心 概 念 是 认 知 自主 性 , 它 规 定 了 的基 本 特 征 据 此 , 要 求 知 识 发 现 系 统 在 没 有 “ 教 师 ” 的 引 导下 独 立 完 成 知 识 获取 任务 而 认 知 自主 性 的 核 心 是 系 统 在 现 实 条 件 下 的 生 成 能 力 、 评价 能力及 两者之 间 的有机结合 感兴趣度 玩 是 衡量 发掘 出来 的 知 识 的 质 量 指 标 , 可 分 为 主 观 度 量 与 客 观 度 图 知识发掘的新构想 参 考 文 献 · , 」 一 肛 ,
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有