正在加载图片...
D0I:10.13374/i.issn1001-053x.1999.02.058 第21卷第2期 北京科技大学学报 Vol.21 No.2 1999年 2月 Journal of University of Science and Technlogy Beijing Apr.1999 数据发掘与数据库中知识发现 杨炳儒刘发升 北京科技大学信息工程学院,北京100083 摘要对数据发掘发展的研究现状及知识发现系统的研究趋势进行分析与探索,在此基础上从 一般框架和特定问题的结合上提出新的构想, 关键词数据发掘;数据库;知识库;知识发现系统 分类号TP18,TP391 数据发掘(Data Mining)是指对真实数据库 1数据发掘的知识种类 (具有大数据量、不完全性、不确定性、结构性、稀 疏性等特征)中数据所隐藏的、先前未知的及具 1.1关联规则(association rules) 有潜在应用价值的信息进行非平凡抽取,这些信 关联规则是类似于下列形式的规则:“AA… 息包括知识规则、约束和正则性等等”,通过数据 AAn→B,A…ABn”,这里A(ie{1,…,n}与B,e 发掘,感兴趣的知识、正则性或高层信息可以从 {1,“,m})是属性值的集合,这些属性值来源于 数据库相关数据集中抽取出来并从不同角度进 数据库中一组相关数据.例如,人们可能发现,从 行研究. 一大组交易数据中,有如以下的规则:在一次交 数据发掘(或KDD)已经并将继续与犹如机 易中,如果一个顾客买一种品牌的牛奶,她(他) 器学习、模式识别、数据库、数理统计、人工智能、 通常买另一品牌的面包,股票市场也常有关联 专家系统知识获取、数据可视化以及高性能计算 现象的出现, 等领域的交叉研究相联系.统一的目标是从大数 1.2分类规则(classif近cation rules) 据库的原始粗糙的数据中提取高级别的知识, 数据发掘的一个重要应用是对巨量数据进 在具体的数据发掘的研究领域,数据发掘与机器 行分类.数据分类是基于一组数据的某些属性的 学习及模式识别交迭在一起;数据发掘集中在寻 值进行的,例如,一个汽车经销商需要按对汽车 找可解释为有用或者感兴趣的知识的可理解摸 的喜好对倾客进行分类以使销售人员知道接近 式上.在探索性的数据分析方法中,数据发掘采 谁,新型号的汽车目录可以直接邮给那些需要标 用了很多统计方法;与统计学的传统方法相比, 识特征的顾客以便寻求最大的商业机会山. 数据发掘更多地采用模型抽取方法2~引.数据发 l.3数据聚类(data clustering) 掘是为了面向应用领域的研究.对特定的应用领 它的基本思想是,在对数据进行分析的过程 域,特定的数据发掘技术将会涉及到各种不同的 中,在考虑数据间的“距离”的同时,更侧重考虑 领域,开拓特定的研究方法的应用, 某些数据间具有类的共同内涵基本上,数据聚类 近年来,随着大型专家系统与复杂巨系统研 是对1组数据进行分组,这种分组基于如下的原 究的深人发展,KDD(Knowledge Discovery in 理:最大的组内相似性和最小的组间相似性. Databases)的扩展性研究势在必行.为此本文提 1.4序列规则(sequence rules,sequential 出一类构建在数据库与知识库综合基上的知识 atterns) 发现系统(视为KDD的扩体)的新构想,并对其 可用如下的例子描述序列规则(或称为时序 应用进行研究, 模式):一个顾客租看影片“Star Wars',然后租 “Empire Strikes Back”,再租“Return of the 1998-1003收稿杨炳儒男,54岁,数授,博导 Judi”;注意到这些租借事物的发生不一定是连着 *国家基金会资助对外交流与合作项目(N0.69950120130) 的.像这样一次事件的发生会导致某些事件的相第 卷 ,年 第 期 月 北 京 科 技 大 学 学 报 却 一 数据发掘与数据库 中知 识发现 杨 炳儒 刘发升 北 京 科技 大学信息工程 学 院 , 北 京 摘 要 对数据发掘 发展 的研究现状及 知识发现系统 的研究趋势进行分析与探索 , 在此基础上从 一般框架 和 特定 问题 的结合 上提 出新 的构想 关键词 数据 发掘 数据库 知 识库 知 识发现系统 分类号 , 数 据 发 掘 是 指 对真 实 数 据 库 具 有 大 数 据 量 、 不 完 全 性 、 不 确 定性 、 结 构性 、 稀 疏 性 等 特 征 中数 据 所 隐藏 的 、 先 前 未 知 的及 具 有 潜在 应 用 价 值 的信 息 进 行 非平 凡抽 取 , 这些 信 息包括 知 识 规则 、 约束和 正 则性 等等川 通 过数据 发 掘 , 感 兴 趣 的 知 识 、 正 则 性 或 高 层 信 息 可 以 从 数 据 库 相 关 数 据 集 中抽 取 出来 并 从 不 同角 度 进 行研究 数据 发 掘 或 已 经 并 将 继 续 与 犹 如机 器 学 习 、 模 式 识别 、 数据库 、 数理 统计 、 人 工 智能 、 专家 系 统 知 识 获 取 、 数 据 可 视 化 以 及 高性 能计算 等 领 域 的交 叉 研 究 相 联 系 统一 的 目标是从大数 据库 的 原 始 粗糙 的 数 据 中提 取 高级 别 的 知识 在 具体 的 数据 发 掘 的研究 领 域 , 数据 发 掘 与机器 学 习及 模 式 识 别 交 迭 在 一起 数据 发掘集 中在 寻 找 可 解 释 为 有 用 或 者 感 兴 趣 的 知 识 的可 理 解 模 式 上 在 探 索 性 的 数 据 分 析 方 法 中 , 数 据 发 掘 采 用 了很 多 统 计 方 法 与 统 计 学 的 传统 方 法 相 比 , 数 据 发 掘 更 多 地 采 用 模 型 抽 取 方 法〔卜’ 数 据 发 掘是 为 了面 向应 用领 域 的研究 对特定 的应用领 域 , 特 定 的数 据 发 掘 技 术 将 会涉 及 到 各种 不 同的 领域 , 开拓 特定 的研究 方 法 的应用 近 年来 , 随着 大 型 专家系 统 与复杂 巨 系 统研 究 的 深 人 发 展 , 肋 肠 卿 的 扩 展 性 研 究 势 在 必 行 为 此 本 文 提 出一 类 构 建 在 数据 库 与 知 识 库 综 合基 上 的 知 识 发 现 系 统 视 为 的 扩 体 的新 构 想 , 并 对其 应用进行研究 一 一 收稿 杨炳儒 男 , 岁 , 教授 , 博 导 国 家基金 会资助对外交流 与合作项 目 数据发掘的知识种类 关联规 胜 关联规则是类似于下列形 式 的规则 “ , 二 入 凡 ,“ ‘ 二 “ 军 , 这 里 燕 汇 卜 一 。 与 乓仃‘ , … , 是 属 性 值 的集合 , 这 些 属 性 值 来源 于 数据库 中一组相 关数据 例如 , 人们 可 能 发 现 , 从 一 大 组 交 易数据 中 , 有 如 以下 的规则 在 一 次 交 易 中 , 如果 一 个顾 客 买 一 种 品 牌 的 牛 奶 , 她 他 通 常买 另 一 品牌 的面 包川 股 票 市 场 也 常 有 关联 现象的出现 分类规则 ,, 一 数据 发掘 的一 个 重 要 应 用 是 对 巨 量 数据进 行 分类 数据分类是 基于 一组 数据 的某些 属 性 的 值进行 的 例 如 , 一 个 汽 车经 销 商需 要 按 对汽 车 的喜好对顾 客 进 行 分类 以 使销 售 人 员 知 道 接 近 谁 , 新 型 号 的汽 车 目录 可 以 直接 邮给那些需要 标 识 特征 的顾客 以便寻求最大 的商业机 会川 数据聚类 一 它 的基 本思 想 是 , 在 对数据进行 分 析 的过程 中 , 在 考 虑 数 据 间 的 “ 距 离 ” 的 同 时 , 更 侧 重 考虑 某 些 数据 间具有类 的共 同 内涵 基本上 , 数据 聚类 是 对 组 数据进 行 分组 , 这 种分 组 基 于 如下 的原 理 最 大 的组 内相 似性 和 最小 的组 间相 似性川 序 列规则 一 , 可 用 如下 的例 子 描 述 序 列 规则 或 称 为 时序 模 式 一 个 顾 客 租 看 影 片 “ ” , 然 后 租 “ , 再 租 “ ” 注 意 到 这 些 租借事物 的发 生不 一定是 连着 的 像这 样 一 次事件 的发 生 会 导致某些 事件 的相 DOI :10.13374/j .issn1001-053x.1999.02.058
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有