正在加载图片...
告瓷讯htp://www,cqvip.com 第22卷第1期 北京科技大学学报 Vol.22 No.1 2000年2月 Journal of University of Science and Technology Beijing Fcb.2000 关于知识发现系统的扩展性研究 件-8羽 杨炳儒 张德政 TP3升3 北京H技大学信息.L程学皖.化京00083 TP18 摘要在总结和分析月前基于数据库的知识发现竹理论,技术和方法现状的基础上:,对知识 女现的发展趋势进行了探索.介绍了在作者先前提山的基于双库协同机制的知识发现理论的 基出|.,就整个知口发现过程的机理、KDD扩展性结构和运行机制所进行的深入研究, 关键词数据挖掘:知识发现:双库协饲机制 分类号TP182 扩展赶,数据摩 1数据挖掘及知识发现的现状 模糊逻辑和粗糙集理论等" 数据挖掘和知识发现的应用对象从结构性 数据库及数据仓库技术的应用积累了大量 数据源发展到半结构性及非结构性数据源,包 的企业管理、金融活动、商业泛作、工程技术及 括关系数据库、面向对象数据库、空闻关系数据 科学研究等各行业和领域的大量数据及丰富的 库,推理数据库、多媒体数据库、时态数据库、文 信息资料:Internet的延展使得信息量剧增、各 本数据源、图像数据源及音频和视频数据源等, 类wb数据库、电子邮件和网内包含着丰富 近年来,数据挖斑和知识发现的理论研究表 的信息资源.在这些数据和资料中隐藏着各种 现出多学科交叉和多种技术方法融台及数据挖 不同领域的可满足不同需求的信息,但这些信 掘的泛化和识发现的统-一化特征.因而,需要 息通常是传统的分析方法和分析工其所无法提 有种新的知识发现体系来实现知识发规的统 供的.因而,数据挖掘及基于数据库的知识发现 ·和完备性以及认知自主性, 系统(Knowledge Discovery Based on Database. KDD)应运而生,数据挖掘是为了解决传统分析 2新的知识发现结构一KDD* 方法的不足,并针对大规模数据的分析处理而 出现的,数据挖掘可从人量数据中提取出隐藏 数据挖掘和知识发现发展到今天,已取得了 在数据之后的有用的信息,基于数据库的知识 重大进展,同时也出现了富有挑战性的生长点, 发现是识别数据中有效的、新颖的、潜在有用的 其中较为重要的是:(【)突破基丁数据库的知识 和最终可被理解的模式的非平凡过程,知识发 发现的封闭系统,而与知识库协同起来,由基础 现借助各种数据挖掘方法来获取各类知识,其 知识库制约与驱动KDD,从而发现新知识:(2) 中包括分类规则、预测模型、相似模式、聚类、关 目前多于具体发掘技术的研究,应提升到在宏 联规则、序列模式、依赖关系或依赖模型、异常 观背景下多个抽象级、不同知识层面上的知识 和趋势等. 发现系统的一般性框架的研究:(3)数据库的知 各个领域都从不同的角度利刑机应的理论 识发现与知识库的知识进化成有机融台,统一 和分析力法进行着数据挖掘的研究和开发「 在知识发现的全部运行过程中:〔4)发掘出知识 作,数据挖掘和知识发现所采用的方法涉及到 的可理解性,先验知识在数据发掘〔知识发现) 机器学习、统计分析、数据库分析、模式识别、机 中的应用问题:(5)实用化系统和开发工具的研 器发现、人工智能、知识获取、神经网络、数据可 制 视化、不确定性推理、智能数据分析、遗传算法、 针对上述认识与逻辑发展的必然,作者于 I997年从知识发现、认知科学与智能系统交叉 1999-2-06收稿杨炳情?.56:,教授,尊导 国家自然科学金资助课题No.698350011 结合的角度,提出了双库协同机制5.通过不断 的研究和开发,提出了基于双库协同机制的扩第 22卷 第 1期 2000年 2月 8 北 京 科 技 大 学 学 报 JournalofUniversityofScienceandTechnologyBeijing V0I.22 No.1 Feb.20o0 关于 知识 发现 系统 的扩展性研 究 杨 炳 儒 张德政 北京 科技 大学信息 上程 学 院,北京 100083 弋 /3 T?/f 摘 要 在 总结 和 分 析 目前基 r数 据 库 的 知 识 发 现 的理 隆、技 术 和 方 浊 现状 的 基 础 】..列 知 识 发 现 的 发 艘 趋 势 进 行 了探 索 介 绍 了在 作 者 先 前 提 … 的基 于 双 库 协 同机 制 的 知 识 发 现 理 论 的 基 础 就 整 个 葺¨识 发现 过 程 的 机 理 、KDD扩 展 性 结 构和 运 行 机 制 所进 行 的潇 入 研究 . 关键 词 数 据 挖 掘 知 识 发 现 ;双 库 协 机 制 分 类 号 TP182 1数 据 挖掘 及 知 识 发 现 的 现状 数 据 库 及 数 据 仓 库 技 术 的 庸 积 累 丁大 量 的 企 业 管 理 、金 融 活 动 、商 业 运 作 、工 程 技 术 及 科学研 究等 并 行业和 领 域 的大 量数 据 及丰 富 的 信 息 资 料 ;Internet的 延 展 使 啬息 量 剧 增 ,各 类 Web数据 库 、电子 邮件 和 嘲 必内包 含着 丰 富 的信 息 资 源 .在这 些 数 据 和 资 料 中 隐藏 着各 种 不 同 领 域 的 可 满 足 不 削 需 求 的 信 息 ,但 这 些 信 息 通 常 是 传 统 的 分 析 方 法 和 分 析 工 具 所 无 法 提 供 的 .因 而 ,数 据 挖 掘 及 基 1『数 据 库 的 知 识 发 现 系 统 (KnowledgeDiscoveryBased onDatabase, KDD)应 运 而 生 ,数 据 挖 掘 是 为 了解 决 传 统 分 析 方 法 的不 足 ,并针 对 大 规 模数 据 的分 析 处理 而 出 现 的 ,数 据 挖 掘 可 从 大 量 数 据 中 提 取 出 隐 藏 在 数 据 之 后 的 有 用 的 信 息 ,基 于 数 据 库 的 知 识 发现 是 识别数 据 中有 效 的 、新 颖 的 、潜在 有用 的 和 虽 终 可 被 理 解 的 模 式 的 非 平 凡 过 程 ,知 识 发 现借 助 各 种 数据 挖 掘 方 法 来 获取 各 类 知 识 ,其 中 包 括 分 类 规 则 、预 测 模 型 、相 似 模 式 、聚 类 、关 联 规 则 、序 列模 式 、依 赖 关 系或 依赖 模 、异 常 和 趋 势 等 . 各 个领 域 都 从不 f『J角 度利 刚 相应 的理 论 和 分 析 方 法 进 行 着 数 据 挖 掘 的 研 究 和 开 发 一r 作 ,数 据 挖 掘 和 知 识发 现 所采 用 的方 法涉 及 到 机器 学 习 、统计 分 析 、数 据库 分 析 、模 式 识别 、机 器 发现 、人 工 智 能 、知 识 获 取 、神 经 网 络 、数 据 可 视 化 、不 确 定 性 推 理 、智 能 数 据 分 析 、遗 传 算 法 、 1999—124)6 收稿 杨 炳儒 要.56岁 .教授 ,博 导 ·国家 自然科 学 牲 盘 资 助课 题 (No69835001I 撅 盥 掘 模 糊 逻辑 和粗 糙集 理论 等” 数 据 挖 掘 和 知识 发 现 的府 用 对 象 从 结构 性 数 据 源 发 展到 半 结 构性 及 非 结构 性 数据 源 ,包 括 关 系数 据 库 、面 向对 象数 据 库 、空 间关 系数 据 库 推 理数 据 库 、多媒 体数 据 库 、时态 数 据库 、文 本 数据 源 、图像数 据 源 及音 频 和视 频 数 据源 等 . 近 年来 ,数据挖 掘和 知 识发 现 的理 论研 究表 现 出多学 科 交 叉和 多种技 术 方 法融 合及 数据 挖 掘 的泛 化和 知识 发 现 的统 一 化特 征 . 而 ,需要 有 种新 的知 识发 现 体 系来 实现 知 识发现 的统 和 完备 性 以及认 知 自主性 , 2 新 的知 识发 现结 构— — KDD 数 据挖 掘和 知 识发现 发展到 今天 ,已取得 了 重 大 进 展 ,同 时 也 出 现 了富 有 挑 战 性 的 生 长 点 , 其 中较 为 重 要 的 是 ;(1)突 破 基 于 数 据 库 的 知 识 发 现 的 封 闭 系 统 ,而 知 识 库 协 起 来 ,由基 础 知 识 库 制 约 与 驱 动 KDD,从 而 发 现 新 知 识 :(2) 目前 多于 具体 发掘 技术 的研 究 ,应 提 升 到在 宏 观 背 景 F多个抽 象 级 、不 同 知 识屡 面 的知 识 发 现 系 统 的 一 般 性 框 架 的 研 究 ;(3)数 据 库 的 知 识 发 现 与 知识 库 的 知识 进化 应有 机 融 合 ,统 一 在 知 识发 现 的全 部 运 行过 程 中:(4)发掘 出知 识 的 可 理 解 性 ,先 验 知 识 在 数 据 发 捌 (知 识 发 现 ) 中 的 应 用 问 题 ;(5)实 用 化 系 统 和 开 发 T 具 的 研 制 . 针 埘 上述 认 识 与 逻 辑 发 展 的 必 然 , 作 者 于 1997年 从 知 识 发 现 、认 知 科 学 与 智 能 系 统 交 叉 结 合 的角 度 ,提 出 了双库 协 同机 制 .通 过 不 断 的研 究和 开 照 ,提 出 了基 于 双 库协 同机 制 的扩 维普资讯 http://www.cqvip.com
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有