D0I:10.13374/i.issn1001-053x.1999.02.058 第21卷第2期 北京科技大学学报 Vol.21 No.2 1999年 2月 Journal of University of Science and Technlogy Beijing Apr.1999 数据发掘与数据库中知识发现 杨炳儒刘发升 北京科技大学信息工程学院,北京100083 摘要对数据发掘发展的研究现状及知识发现系统的研究趋势进行分析与探索,在此基础上从 一般框架和特定问题的结合上提出新的构想, 关键词数据发掘;数据库;知识库;知识发现系统 分类号TP18,TP391 数据发掘(Data Mining)是指对真实数据库 1数据发掘的知识种类 (具有大数据量、不完全性、不确定性、结构性、稀 疏性等特征)中数据所隐藏的、先前未知的及具 1.1关联规则(association rules) 有潜在应用价值的信息进行非平凡抽取,这些信 关联规则是类似于下列形式的规则:“AA… 息包括知识规则、约束和正则性等等”,通过数据 AAn→B,A…ABn”,这里A(ie{1,…,n}与B,e 发掘,感兴趣的知识、正则性或高层信息可以从 {1,“,m})是属性值的集合,这些属性值来源于 数据库相关数据集中抽取出来并从不同角度进 数据库中一组相关数据.例如,人们可能发现,从 行研究. 一大组交易数据中,有如以下的规则:在一次交 数据发掘(或KDD)已经并将继续与犹如机 易中,如果一个顾客买一种品牌的牛奶,她(他) 器学习、模式识别、数据库、数理统计、人工智能、 通常买另一品牌的面包,股票市场也常有关联 专家系统知识获取、数据可视化以及高性能计算 现象的出现, 等领域的交叉研究相联系.统一的目标是从大数 1.2分类规则(classif近cation rules) 据库的原始粗糙的数据中提取高级别的知识, 数据发掘的一个重要应用是对巨量数据进 在具体的数据发掘的研究领域,数据发掘与机器 行分类.数据分类是基于一组数据的某些属性的 学习及模式识别交迭在一起;数据发掘集中在寻 值进行的,例如,一个汽车经销商需要按对汽车 找可解释为有用或者感兴趣的知识的可理解摸 的喜好对倾客进行分类以使销售人员知道接近 式上.在探索性的数据分析方法中,数据发掘采 谁,新型号的汽车目录可以直接邮给那些需要标 用了很多统计方法;与统计学的传统方法相比, 识特征的顾客以便寻求最大的商业机会山. 数据发掘更多地采用模型抽取方法2~引.数据发 l.3数据聚类(data clustering) 掘是为了面向应用领域的研究.对特定的应用领 它的基本思想是,在对数据进行分析的过程 域,特定的数据发掘技术将会涉及到各种不同的 中,在考虑数据间的“距离”的同时,更侧重考虑 领域,开拓特定的研究方法的应用, 某些数据间具有类的共同内涵基本上,数据聚类 近年来,随着大型专家系统与复杂巨系统研 是对1组数据进行分组,这种分组基于如下的原 究的深人发展,KDD(Knowledge Discovery in 理:最大的组内相似性和最小的组间相似性. Databases)的扩展性研究势在必行.为此本文提 1.4序列规则(sequence rules,sequential 出一类构建在数据库与知识库综合基上的知识 atterns) 发现系统(视为KDD的扩体)的新构想,并对其 可用如下的例子描述序列规则(或称为时序 应用进行研究, 模式):一个顾客租看影片“Star Wars',然后租 “Empire Strikes Back”,再租“Return of the 1998-1003收稿杨炳儒男,54岁,数授,博导 Judi”;注意到这些租借事物的发生不一定是连着 *国家基金会资助对外交流与合作项目(N0.69950120130) 的.像这样一次事件的发生会导致某些事件的相
第 卷 ,年 第 期 月 北 京 科 技 大 学 学 报 却 一 数据发掘与数据库 中知 识发现 杨 炳儒 刘发升 北 京 科技 大学信息工程 学 院 , 北 京 摘 要 对数据发掘 发展 的研究现状及 知识发现系统 的研究趋势进行分析与探索 , 在此基础上从 一般框架 和 特定 问题 的结合 上提 出新 的构想 关键词 数据 发掘 数据库 知 识库 知 识发现系统 分类号 , 数 据 发 掘 是 指 对真 实 数 据 库 具 有 大 数 据 量 、 不 完 全 性 、 不 确 定性 、 结 构性 、 稀 疏 性 等 特 征 中数 据 所 隐藏 的 、 先 前 未 知 的及 具 有 潜在 应 用 价 值 的信 息 进 行 非平 凡抽 取 , 这些 信 息包括 知 识 规则 、 约束和 正 则性 等等川 通 过数据 发 掘 , 感 兴 趣 的 知 识 、 正 则 性 或 高 层 信 息 可 以 从 数 据 库 相 关 数 据 集 中抽 取 出来 并 从 不 同角 度 进 行研究 数据 发 掘 或 已 经 并 将 继 续 与 犹 如机 器 学 习 、 模 式 识别 、 数据库 、 数理 统计 、 人 工 智能 、 专家 系 统 知 识 获 取 、 数 据 可 视 化 以 及 高性 能计算 等 领 域 的交 叉 研 究 相 联 系 统一 的 目标是从大数 据库 的 原 始 粗糙 的 数 据 中提 取 高级 别 的 知识 在 具体 的 数据 发 掘 的研究 领 域 , 数据 发 掘 与机器 学 习及 模 式 识 别 交 迭 在 一起 数据 发掘集 中在 寻 找 可 解 释 为 有 用 或 者 感 兴 趣 的 知 识 的可 理 解 模 式 上 在 探 索 性 的 数 据 分 析 方 法 中 , 数 据 发 掘 采 用 了很 多 统 计 方 法 与 统 计 学 的 传统 方 法 相 比 , 数 据 发 掘 更 多 地 采 用 模 型 抽 取 方 法〔卜’ 数 据 发 掘是 为 了面 向应 用领 域 的研究 对特定 的应用领 域 , 特 定 的数 据 发 掘 技 术 将 会涉 及 到 各种 不 同的 领域 , 开拓 特定 的研究 方 法 的应用 近 年来 , 随着 大 型 专家系 统 与复杂 巨 系 统研 究 的 深 人 发 展 , 肋 肠 卿 的 扩 展 性 研 究 势 在 必 行 为 此 本 文 提 出一 类 构 建 在 数据 库 与 知 识 库 综 合基 上 的 知 识 发 现 系 统 视 为 的 扩 体 的新 构 想 , 并 对其 应用进行研究 一 一 收稿 杨炳儒 男 , 岁 , 教授 , 博 导 国 家基金 会资助对外交流 与合作项 目 数据发掘的知识种类 关联规 胜 关联规则是类似于下列形 式 的规则 “ , 二 入 凡 ,“ ‘ 二 “ 军 , 这 里 燕 汇 卜 一 。 与 乓仃‘ , … , 是 属 性 值 的集合 , 这 些 属 性 值 来源 于 数据库 中一组相 关数据 例如 , 人们 可 能 发 现 , 从 一 大 组 交 易数据 中 , 有 如 以下 的规则 在 一 次 交 易 中 , 如果 一 个顾 客 买 一 种 品 牌 的 牛 奶 , 她 他 通 常买 另 一 品牌 的面 包川 股 票 市 场 也 常 有 关联 现象的出现 分类规则 ,, 一 数据 发掘 的一 个 重 要 应 用 是 对 巨 量 数据进 行 分类 数据分类是 基于 一组 数据 的某些 属 性 的 值进行 的 例 如 , 一 个 汽 车经 销 商需 要 按 对汽 车 的喜好对顾 客 进 行 分类 以 使销 售 人 员 知 道 接 近 谁 , 新 型 号 的汽 车 目录 可 以 直接 邮给那些需要 标 识 特征 的顾客 以便寻求最大 的商业机 会川 数据聚类 一 它 的基 本思 想 是 , 在 对数据进行 分 析 的过程 中 , 在 考 虑 数 据 间 的 “ 距 离 ” 的 同 时 , 更 侧 重 考虑 某 些 数据 间具有类 的共 同 内涵 基本上 , 数据 聚类 是 对 组 数据进 行 分组 , 这 种分 组 基 于 如下 的原 理 最 大 的组 内相 似性 和 最小 的组 间相 似性川 序 列规则 一 , 可 用 如下 的例 子 描 述 序 列 规则 或 称 为 时序 模 式 一 个 顾 客 租 看 影 片 “ ” , 然 后 租 “ , 再 租 “ ” 注 意 到 这 些 租借事物 的发 生不 一定是 连着 的 像这 样 一 次事件 的发 生 会 导致某些 事件 的相 DOI :10.13374/j .issn1001-053x.1999.02.058
Vol.21 No.2 杨炳儒等:数据发掘与数据库中知识发现 ·203· 1.5相似(similarity)模式 理非完全信息的方法, 时态(temporal)或空间-时态(spatio-temporal) ④提出了一整套的知识表示、数据表示及数 的数据大量存在于计算机中,这些数据库例子包 据操作与知识发现的方法, 括:股票价格指数的金融数据库、医疗数据库、多 ⑤在强规则的发掘及空间数据库的发掘上 媒体数据库,等等.在时态或空间·时态数据库中 对提出的方法进行了检验, 搜索相似模式是为发现和预测风险、因果联系及 G.Shafer的证据理论、Zadeh的可信度理论 关联于特定模式的趋势川 和最近国内发展起来的未确知数学都是关于不 根据数据发掘的不同应用对象,还有许多其 完全信息的表达与处理的系统方法,本框架基于 他的与特定应用领域相关的知识的发掘,但大多 可信度理论可望对不完全信息的数据发掘提供 数目前的研究应用,其发掘的知识的种类可以归 系统的方法,基于证据理论在数据发掘中的应用 纳为上述几种. 还有一些其他的研究,如文献[9];关于不完全信 息的数据发掘也有一些研究,如文献[10]. 2数据发掘方法与技术 (3)针对目前各种各样的数据发掘技术,在 在数据发掘的研究与开发上已有很多进展, Wei-Ming Shen与Bing Leng提出了无监督关系 许多数据发掘技术与系统已经开发出来.对数据 模式学习的基于元模式(元查询)的自动发掘集 发掘方法及系统可采用不同的分类准则,包括基 成方法.该方法不同于工具箱式的集成方法, 于研究的数据库的种类进行分类,基于发现的知 他们提出的元模式(meta-pattern)的概念便于自动 识的种类进行分类以及基于采用的技术的种类 利用归纳、演绎及人的指导之间的相互依赖.由 进行分类.对基于发现的知识的种类进行分类可 于元模式具有普遍的机制,因此,可望在人指导 参考文献[1,2]. 下与数据发掘开发者自己偏好的演绎及归纳技 对于数据发掘算法采用的技术,主要包括机 术集成, 器学习、统计学、证据理论、人工神经网络、现代 (4)可视化已成为整个计算机行业的一种趋 数学分析方法以及集成方法,等等,由于数据发 势,也是数据发掘领域的主要研究方向之一,在 掘涉及到多学科领域,不同的应用领域采用的技 数据发掘领域中自动知识发现与可视化有许多 术也不尽相同. 共同之处,可视化的数据发掘也有助于数据分析 2.1数据发掘方法与技术的一般性研究 的解释,并且在大数据集的发掘方面也有很大的 (I)R.Agrawal等综合机器学习与数据库技 潜力.G.Piatetsky-Shapiro等开发的知识发现平 术,对3类数据发掘问题即分类、关联及序列作为 台KDW(Knowledge Discovery Workbench)2是 一个统一的蕴裁于巨量数据中的规则发现来处 一个数据探测的交互式可视化数据发掘系统.该 理,给出了一个统一模型和规则发现过程的几个 系统集成了几种数据发掘技术如数据簇集,数据 基本运算,并给出了数据发掘问题如何映射到模 可视化、汇总、分类及数据变更的发现(iscovery 型和通过提出的基本运算如何解决发现问题的 of Changes).贯穿于整个系统采用了领域知识辅 方法,他们提出的利用基本操作构造的分类器算 助初始发现的聚焦、限制性的搜索以及揭示出的 法CDP不仅能有效地发掘分类规则,而且还具有 模式的评价和发现的结果的有意义呈示,在处理 D3的精度.D3是目前最好的分类器之一. 大数据库方面系统采用的是统计估计技术;统计 (2)S.Anand等提出基于证据理论 方法同时还用在系统的不确定性模式的处理上. (Evidence Theory)的数据发掘一般框架EDM, 在大数据库发掘的可视化技术方面,大多都 具有以下几个特点: 集成了多种数据发掘技术,都可发掘多种形式的 ①固有的并行性,在此框架内开发的算法是 知识规则.除了KDW外,有代表性的还有 并行的,对大数据集的知识发掘有好的效率,并 Daniel A.Keim等开发的多维数据库可视化发掘 且对并行的、分布的和异质的数据库都适用, 系统VisDB). ②用户的先验知识与先前发现的知识可以 (5)实际发掘中发掘的知识质量如何,严重 耦合到发现过程中 依赖于数据库的特征表示以及现存的知识与已 ③提出了基于证据理论的、在发掘过程中处 发现的知识如何协调一致;发现的知识可能不是
杨炳儒等 数据发掘 与数据库中知识发现 相似 加 模式 时态 或 空 间 一 时态 印 。 一 的数据大量 存 在 于 计算机 中 , 这 些 数 据库 例子 包 括 股 票 价 格 指 数 的金 融 数据 库 、 医疗 数 据库 、 多 媒体数据库 , 等 等 在 时态或空 间 一 时态数 据库 中 搜索相 似模式 是 为发现 和 预测 风 险 、 因果 联 系及 关联 于特定模式 的趋 势川 根 据 数据发 掘 的不 同应 用 对象 , 还 有 许多 其 他 的 与特定 应 用 领 域相 关 的 知 识 的发掘 , 但大 多 数 目前 的研 究应 用 , 其 发 掘 的知 识 的种类 可 以 归 纳为上 述几种 数据发掘方法 与技术 在 数 据 发 掘 的研 究 与 开 发 上 已 有 很 多 进 展 , 许多 数据 发 掘 技 术 与 系 统 已 经 开 发 出来 对数 据 发掘 方 法 及 系 统可 采 用 不 同的分类 准 则 , 包括 基 于 研 究 的数据库 的 种 类 进 行分类 , 基 于 发 现 的知 识 的种 类 进 行 分 类 以 及 基 于 采 用 的技 术 的 种 类 进 行分 类 对基 于 发 现 的知 识 的种 类 进 行分 类 可 参考 文献【 , 对于 数据 发掘算法 采 用 的技 术 , 主要 包括 机 器 学 习 、 统计学 、 证 据理 论 、 人 工 神 经 网 络 、 现 代 数学 分 析方 法 以 及 集 成 方 法 , 等等 由于 数 据 发 掘涉及到 多学科领 域 , 不 同的应用 领 域采用 的技 术也不尽相 同 数据发掘方法与技术的一般性研究 等 综合机器学习与数据库技 术 , 对 类数据发掘 问题 即分类 、 关联及序列作为 一 个 统 一 的 蕴 藏于 巨 量 数据 中 的规则 发 现来处 理 , 给 出 了 一 个统一模型 和规则 发 现 过 程 的几个 基本运算 , 并 给 出 了数据发掘 问题如 何 映射到模 型 和 通 过 提 出 的基 本 运 算如何解 决发 现 问题 的 方法 他们提 出的利用 基 本操 作构造 的分类 器 算 法 不仅能有效地发掘分类规则 , 而且 还具有 的精度 是 目前最好 的分类器之 一 等 提 出 基 于 证 据 理 论 叮 的 数 据 发 掘 一 般 框 架 , 具有 以 下 几个特点 ① 固有 的并 行性 在 此 框架 内开 发 的算 法 是 并行 的 , 对大 数据 集 的 知 识 发 掘 有 好 的效 率 、 并 且 对并行 的 、 分布 的和异质 的数据库都适 用 ② 用 户 的先 验 知 识 与先 前 发现 的 知 识 可 以 祸合到发现过程 中 ③ 提 出 了基 于 证 据理 论 的 、 在 发 掘 过 程 中处 理 非 完全信息 的方 法 ④ 提 出 了一 整 套 的知 识 表 示 、 数 据 表示 及 数 据操作 与知 识 发现 的方 法 ⑤ 在 强 规 则 的 发 掘 及 空 间 数据 库 的 发 掘 上 对提 出的方 法进行 了检验 的 证 据 理 论 、 的 可 信 度 理 论 和 最 近 国 内发 展 起 来 的 未 确 知 数 学 都 是 关 于 不 完 全 信 息 的表 达 与处理 的 系 统方 法 本框架 基 于 可 信 度 理 论 可 望 对不 完 全 信 息 的数据 发 掘 提 供 系 统 的方 法 基 于 证 据理 论在 数据 发 掘 中的应 用 还 有 一些 其他 的研 究 , 如 文 献 【 关于 不 完全 信 息 的数据 发掘 也有一些研究 , 如 文 献【 针 对 目前 各 种 各 样 的 数 据 发 掘 技 术 , 在 一 与 提 出 了无监 督关 系 模 式 学 习 的基 于 元 模 式 元 查 询 的 自动 发 掘 集 成 方 法川 该 方 法 不 同于 工 具 箱 式 的 集 成 方 法 , 他们提 出的元模 式 一 的概念便于 自动 利 用 归 纳 、 演 绎 及 人 的 指 导之 间 的相 互 依 赖 由 于 元 模 式 具 有 普遍 的机 制 , 因 此 , 可 望 在 人 指 导 下 与 数 据 发 掘 开 发 者 自己 偏 好 的演 绎 及 归 纳 技 术集成 可视化 已 成 为整个计算机行 业 的一种 趋 势 , 也 是 数 据发 掘 领 域 的 主 要 研 究 方 向之 一 在 数 据 发 掘 领 域 中 自动 知 识 发 现 与 可 视 化 有 许 多 共 同之处 , 可 视化 的数 据发掘 也有 助 于 数据分 析 的解释 , 并且 在大数据集的发掘 方 面 也有 很大 的 潜力 幼 一 等 开发 的知识 发 现平 台 叮 比 ‘, 是 一 个数据探测 的交互 式 可 视化 数 据 发掘 系 统 该 系 统集 成 了几 种 数 据 发 掘 技 术 如 数 据簇 集 , 数据 可 视 化 、 汇 总 、 分 类 及 数 据 变 更 的 发 现 贯 穿于 整 个系 统采 用 了领 域 知 识辅 助 初 始 发 现 的 聚焦 、 限制性 的搜 索 以 及 揭 示 出 的 模式 的评价 和 发现 的结 果 的有 意 义呈 示 在处理 大 数据库方 面 系 统 采 用 的是 统计估计技 术 统计 方 法 同时还 用 在 系 统 的不 确 定 性 模 式 的处理 上 在 大数 据库 发 掘 的 可 视 化技 术方 面 , 大 多 都 集 成 了 多 种 数据 发掘 技 术 , 都 可 发 掘 多 种 形 式 的 知 识 规 则 除 了 外 , 有 代 表 性 的 还 有 而 等 开 发 的多 维 数据 库可 视 化 发掘 系 统 ” 实 际 发 掘 中发掘 的知 识 质 量 如何 , 严 重 依 赖 于 数 据 库 的特 征 表 示 以 及 现 存 的 知 识 与 已 发 现 的知 识 如何 协调 一致 发 现 的知识 可能不是
·204· 北京科技大学学报 1999年第2期 用户感兴趣的或者与先前的知识有矛盾.Jong P. 量.针对兴趣度的主观度量,文献[12]将其分为 Yoon与Larry Kerschberg针对这个问题提出 未期望到的(Unexpectedness)以及可操作的 了一个数据库中知识发现与进化的概念.提出了 (Actionability). 利用数据库查询以发现新知识,使用正反两个方 G.Piatetsy-Shapiro2o1等对数据库发掘的应用 面的例子来发现新知识以及新旧知识的协调一 状况给出了全面的介绍,概括起来,这些应用主 致,对数据库中例外的特征化以及随着知识与数 要包括市场分析与预测,瑕疵检测、制造业、通 据库的同步进化, 讯、天文学、保险业、市场经营、医学、金融业、在 (6)在数据发掘中,大量的工作是关于关联 线服务、商场顾客交易、证券市场与期货市场的 规则、分类规则、簇集规则等某种特定规则的发 客户交易、nternet上的巨量数据处理等, 掘研究.由于数据库的规模巨大,数据的广泛分 布,一些数据发掘算法的计算复杂性,等等都呼 4急待研究的部分专题与新构想 唤高效发掘算法的研究.Cheung D W).等人对 4.1急待研究的部分专题 分布式数据库的关联规则的发掘提出了一种有 (1)并行或分布的发掘算法的开发研究; 效算法DMA(Distributed Mining of Association (2)在多个抽象级上,在不同知识层面上发 rules).因为需要大量的额外通讯开销,将串行算 掘多种知识的有效方法; 法直接用于分布式数据库的效率不高;DMA生 (3)灵活方便的数据发掘语言与接口; 成一个小的候选集,且对每个候选集为支持数目 (4)在高级数据发掘系统中的知识发现技术 交换仅需要O()个信息,这里n是分布式数据库 及其应用系统的开发; 的分布点数.因此,DMA具有很高的性能 (5)发现到的知识与专家定义的知识的集 (7)数据发掘除了集成方法或一般框架上的 成;数据安全与数据保密. 研究和对某种特定规则的研究外,对特定数据库 4.2一个新构想 的数据发掘也进行了大量的工作,如交易数据库 突破原有的仅以数据库为基础的知识发现 (Transaction Databases)6,刃,空间数据库(Spatial 系统及其核心概念-认知自主性,形成基于数据 Databases)M、时态数据库(Temporal Databases)h 库与知识库的具有扩展性核心概念的知识发现 以及面向对象数据库”、演绎数据库,等等. 系统KD(D&K).其基本结构(多层递阶,综合集 (8)Hongjun Lu等提出了利用神经网络发 成)与运行机制的构想如图1所示. 掘符号分类规则的方法,与基于决策树的方法相 比,他们提出的方法具有更小的分类出错率,抽 用户需求 控制 取的规则也更简洁;不同的是,抽出规则的时间 消耗比基于决策树的方法(如C4.5)来得长. 真实数据 聚焦 规则(知识)生成 结果评价 结果 2.3结果评价 评价的依据主要有统计原理、认知特性、数 据空间抽象、附加证据领域知识及内部反馈.一 数据库 协调器 知识库 再生 般在进行综合评价时,是若干个依据并行使用以 使评价保持客观性. 领域知识 专家知识 3知识发现系统的核心概念及应用 图1 知识发掘的新构想 KDD的核心概念是认知自主性,它规定了 参考文献 KDD的基本特征,据此,要求知识发现系统在没 有“教师”的引导下独立完成知识获取任务;而认 1 Chen W M.Data Mining:an Overview from An 知自主性的核心是系统在现实条件下的生成能 Database Perspective.IEEE Trans on Knowledge and 力、评价能力及两者之间的有机结合. Data Eng,1996(8):866 感兴趣度(Interestingness)是衡量发掘出来的 2 Fayyad U.Knowledge Discovery and Data Mining: 知识的质量指标,可分为主观度量与客观度 Towards a Unifying Framework.In:Proc of KDD-96. Menlo Park,CA:AAAI Press,1996.82
北 京 科 技 大 学 学 报 年 第 期 用 户 感 兴趣 的 或 者 与先前 的知 识 有 矛 盾 与 咫 ‘ 针 对 这 个 问题 提 出 了一个数据 库 中知 识 发现 与进化 的概 念 提 出 了 利 用 数 据库 查 询 以 发 现新 知 识 , 使用 正 反 两个 方 面 的 例 子 来 发 现 新 知 识 以 及 新 旧 知 识 的 协 调 一 致 , 对数 据 库 中例外 的 特 征 化 以 及 随 着 知 识 与数 据库 的 同步进化 在 数 据 发 掘 中 , 大 量 的工 作 是 关 于 关 联 规则 、 分 类 规则 、 簇 集 规 则 等 某 种 特 定 规则 的 发 掘 研 究 由于 数 据 库 的 规模 巨 大 , 数 据 的 广 泛 分 布 , 一 些 数 据 发 掘 算 法 的 计 算 复 杂 性 , 等 等 都 呼 唤高效 发掘 算 法 的研究 等人 对 分 布 式 数 据 库 的 关 联 规则 的 发 掘 提 出 了 一 种 有 效 算 法 因 为 需 要 大 量 的额 外 通 讯 开 销 , 将 串行算 法 直 接 用 于 分 布 式 数 据 库 的 效 率 不 高 生 成 一 个小 的候 选集 , 且 对每个 候 选集 为支 持数 目 交换仅需 要 。 个 信息 , 这 里 月 是 分 布 式 数据库 的分布 点数 因此 , 具 有 很 高 的性 能 数 据 发 掘 除 了 集 成 方 法 或 一 般 框 架上 的 研 究 和 对 某 种 特 定 规则 的研 究 外 , 对特 定 数 据库 的数 据 发 掘 也 进 行 了 大 量 的工 作 , 如 交 易 数 据 库 梦 ,, 、 空 间 数 据 库 , 、 时态数 据库 “ 以及 面 向对象数据库 ” 、 演 绎数据库 , 等等 自 等 ‘, 提 出 了利 用神经 网络发 掘符 号 分 类规则 的方 法 , 与基 于 决 策树 的方 法 相 比 , 他 们 提 出 的 方 法 具 有 更 小 的 分 类 出 错 率 , 抽 取 的规 则 也 更 简 洁 不 同 的是 , 抽 出规则 的 时 间 消耗 比基 于决策树 的方 法 如 来得 长 结果评价 评 价 的 依 据 主 要 有 统 计 原理 、 认 知 特 性 、 数 据 空 间 抽 象 、 附 加 证 据 领 域 知 识 及 内部 反 馈 一 般在 进 行 综合评价 时 , 是 若 干 个依据并 行 使用 以 使评价保持客观性 量 针 对兴趣 度 的 主 观 度 量 , 文 献 【 将其分 为 未 期 望 到 的 田 以 及 可 操 作 的 一 等 对数 据库发掘 的应 用 状 况 给 出 了全 面 的 介 绍 , 概 括 起 来 , 这 些 应 用 主 要 包 括 市 场 分 析 与 预 测 , 瑕 疵 检 测 、 制 造 业 、 通 讯 、 天 文 学 、 保 险 业 、 市 场 经 营 、 医 学 、 金 融 业 、 在 线服 务 、 商场顾 客 交 易 、 证券 市 场 与 期 货 市 场 的 客户交易 、 上 的 巨量 数据处理等 急待研究的部分专题与新构想 急待研究 的部分专题 并行或分布 的发掘算法 的开发研究 在 多个抽 象级 上 , 在 不 同知 识 层 面上 发 掘多种知识 的有效方法 灵活方便的数据发掘语言与接 口 在 高级 数据发掘 系 统 中的知 识发现技术 及 其应用系统的开发 发 现 到 的 知 识 与 专家 定 义 的 知 识 的集 成 数据安全 与数据保密 一个新构想 突破 原 有 的仅 以 数据库 为基 础 的 知 识 发 现 系 统及 其核 心概 念 一 认 知 自主 性 , 形 成 基 于 数 据 库 与 知识 库 的具 有 扩展 性 核 心 概 念 的 知 识 发 现 系 统 其基 本结构 多 层 递 阶 , 综 合集 成 与运行机制的构想如 图 所示 用 户需求 真实数据 · 领域知识 专家知识 知识发现 系统的核心概念及应用 的 核 心 概 念 是 认 知 自主 性 , 它 规 定 了 的基 本 特 征 据 此 , 要 求 知 识 发 现 系 统 在 没 有 “ 教 师 ” 的 引 导下 独 立 完 成 知 识 获取 任务 而 认 知 自主 性 的 核 心 是 系 统 在 现 实 条 件 下 的 生 成 能 力 、 评价 能力及 两者之 间 的有机结合 感兴趣度 玩 是 衡量 发掘 出来 的 知 识 的 质 量 指 标 , 可 分 为 主 观 度 量 与 客 观 度 图 知识发掘的新构想 参 考 文 献 · , 」 一 肛 ,
Vol.21 No.2 杨炳儒等:数据发掘与数据库中知识发现 ·205· 3 Fayyad U.Automated Analysis and Explanation of edge Discovery Systems.IEEE Trans on Knowledge Image Databases:Results,Progress,and Challenges. and Data Eng,1996(8):970 Journal of Intelligent Information Systems,1995(4):7 13 Keim D A.Visualization Techniques for Mining 4 Major J A.EFD:A Hybrid Knowledge/Statistical-Based Large Databases:A Comparison.IEEE Trans on Knowl- System for the Detection of Fraud.International Jour- edge and Data Eng,1996(8):923 nal of Intelligent Systems,1992(7):687 14 Yoon J P.A Framework for Knowledge Discovery 5 Gur-Ali O.Induction of Rules Subject to A Quality and Evolution in Databases.IEEE Trans on Knowl- Constraint:Probabilistic Inductive Learning.IEEE edge and Data Eng,1993(5):973 Trans on Knowledge and Data Eng,1993(5):979 15 Cheung O W.Efficient Mining of Association Rules 6 Agrawal R.Mining Sequential Patterns.In:Proc.11th in Distributed Databases.IEEE Trans on Knowledge Int'l Conf Data Eng.1995.3 and Data Eng,1996(8):911 7 Agrawal R.Data Mining:A Performance Perspective. 16 Kline N.Computing Temporal Aggregates.In:Proc. IEEE Trans on Knowledge and Data Eng,1993(5):IIth Int'l Conf.Data Eng.1995.222 914 17 Huang Y.An Efficient Inductive Method for Object- 8 Anand S S.EDM:A General Framework for Data riented Database Using Attribute Entropy.IEEE Trans Mining Based on Evidence Theory.Data Knowl- on Knowledge and Data Eng,1996(8):946 edge Eng,1996,18:189 18 Goh C.Knowledge Discovery in Deductive Databases 9 Bell D A.From Data Properties to Evidence.IEEE With Large Deduction Results:the First Step.IEEE Trans on Knowledge and Data Eng,1993(5):965 Trans on Knowledge and Data Eng,1996(8):952 10 Scheine R.Finding Latent Variable Models in Large 19 Lu Hongjun.Effective Data Mining Using Neural Databases.International Journal of Intelligent Systems, Networks.IEEE Trans on Knowledge and Data Eng, 1992(7):609 1996(8):957 11 Shen W A Meta-pattern Based Automated Discov- 20 Piatetsky-Shapiro G.An Overview of Issues in ery Loop for Integrated Data Mining-unsupervised Developing Industrial Data Mining and Knowledge Learning of Relational Patterns.IEEE Trans on Knowl- Discovery Applications.In:Proc of KDD-96.Menlo edge and Data Eng,1996(8):898 Park.CA:AAAl Press,1996.89 12 Silberschatz A.What Makes Interesting in Knowl- Data Mining and Knowledge Discovery in Databases Yang Bingru,Liu Fasheng Information Engineering School,UST Beijing.Beijing 100083,China ABSTRACTS Analyze and explore about the actuality of data mining and the trend of knowledge discovery system,and presents new conception on the conjion of general framework and specific problem. KEY WORDS data mining;database;knowledge database;knowledge discovery system
杨炳儒等 数据发掘 与数据库 中知识发现 刀 , , · , 沙 一 功 , ‘ , , , 和 , , , 匕 , 一 一 班 」 比 助 , 刀 , 加 吐之 血 , 以 , 血 , , , · 五 , 叼 免 从适 刀 , 幼 一 一 , , , , , , 助