浙江大学远程教育学院 DISTANCELEARN I NGSCHOOLOFZHEJI ANGUN I VERS I TY 任课教师:王灿 课程代码:0703004 课程名称:数据挖掘 第910讲 教师E-mai:sjwj@dlc.zju.edu.cn
9-10 王 灿 数据挖掘 sjwj@dlc.zju.edu.cn 0703004
数据挖掘原语、语言和系 统结构
数据挖掘原语、语言和系 统结构
为什么要数据挖掘原语和语言? 个完全自动(不需要人为干预或指导)的数据挖掘 机器只可能是“一只疯了的怪兽”。 ¤会产生大量模式(重新把知识淹没) 口会涵盖所有数据,使得挖掘效率低下 ¤大部分有价值的模式集可能被忽略 ¤挖掘岀的模式可能难以理解,缺乏有效性、新颖性和实用 性——令人不感兴趣。 ■没有精确的指令和规则,数据挖掘系统就没法使用。 ■用数据挖掘原语和语言来指导数据挖掘
为什么要数据挖掘原语和语言? ◼ 一个完全自动(不需要人为干预或指导)的数据挖掘 机器只可能是“一只疯了的怪兽”。 ❑ 会产生大量模式(重新把知识淹没) ❑ 会涵盖所有数据,使得挖掘效率低下 ❑ 大部分有价值的模式集可能被忽略 ❑ 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用 性——令人不感兴趣。 ◼ 没有精确的指令和规则,数据挖掘系统就没法使用。 ◼ 用数据挖掘原语和语言来指导数据挖掘
数据挖掘原语的组成部分 数据挖掘原语应该包括以下部分: 口说明数据库的部分或用户感兴趣的数据集 a要挖掘的知识类型 口用于指导挖掘的背景知识 口模式评估、兴趣度量 a如何显示发现的知识 数据挖掘原语用于用户和数据挖掘系统通信,让用户 能从不同的角度和深度审查和发现结果,并指导挖掘 过程
数据挖掘原语的组成部分 ◼ 数据挖掘原语应该包括以下部分: ❑ 说明数据库的部分或用户感兴趣的数据集 ❑ 要挖掘的知识类型 ❑ 用于指导挖掘的背景知识 ❑ 模式评估、兴趣度量 ❑ 如何显示发现的知识 ◼ 数据挖掘原语用于用户和数据挖掘系统通信,让用户 能从不同的角度和深度审查和发现结果,并指导挖掘 过程
说明数据挖掘任务的原语 任务相关的数据 口数据库(仓库)名、数据立方体、选择条件、相关属性、分 组条件 挖掘的知识类型 口特征化、区分、关联、分类/预测、聚类 背景知识 ¤概念分层,关联的确信度 模式兴趣度度量 ¤简单性、确定性、实用性、新颖性 发现模式的可视化 a规则、表、图表、图、判定树
说明数据挖掘任务的原语 ◼ 任务相关的数据 ❑ 数据库(仓库)名、数据立方体、选择条件、相关属性、分 组条件 ◼ 挖掘的知识类型 ❑ 特征化、区分、关联、分类/预测、聚类 ◼ 背景知识 ❑ 概念分层,关联的确信度 ◼ 模式兴趣度度量 ❑ 简单性、确定性、实用性、新颖性 ◼ 发现模式的可视化 ❑ 规则、表、图表、图、判定树…
任务相关的数据 用户感兴趣的只是数据库或数据仓库的一个子集。 ¤相关的操作:DB一选择、投影、连接、聚集等;DW一切片、 切块 初始数据关系 数据子集选择过程产生的新的数据关系 ¤可挖掘的视图 用于数据挖掘相关任务的数据集
任务相关的数据 ◼ 用户感兴趣的只是数据库或数据仓库的一个子集。 ❑ 相关的操作:DB-选择、投影、连接、聚集等;DW-切片、 切块 ❑ 初始数据关系 ◼ 数据子集选择过程产生的新的数据关系 ❑ 可挖掘的视图 ◼ 用于数据挖掘相关任务的数据集
任务相关的数据——例子 挖掘加拿大顾客和他们常在 AllElectronics购买 的商品间的关联规则 口数据库(仓库)名( e.g. AllElectronics db) 口包含相关数据的表或数据立方体名( e.g. item, customer, purchases, item sold 口选择相关数据的条件(今年、加拿大) 口相关的属性或维(tem表的name和prce, customer表的 Income和age)
任务相关的数据——例子 ◼ 挖掘加拿大顾客和他们常在AllElectronics购买 的商品间的关联规则 ❑ 数据库(仓库)名 (e.g. AllElectronics_db) ❑ 包含相关数据的表或数据立方体名(e.g. item, customer, purchases, item_sold) ❑ 选择相关数据的条件(今年、加拿大) ❑ 相关的属性或维(item表的name和price, customer表的income和age)
要挖掘的知识类型 ■要挖掘的知识类型将决定使用什么数据挖掘功 能 ¤概念描述(特征化和区分),关联规则,分类/预测」 聚类和演化分析等 模式模板 ¤又称元模式或元规则,用来指定所发现模式所必须 匹配的条件,用于指导挖掘过程
要挖掘的知识类型 ◼ 要挖掘的知识类型将决定使用什么数据挖掘功 能。 ❑ 概念描述(特征化和区分),关联规则,分类/预测, 聚类和演化分析等 ◼ 模式模板 ❑ 又称元模式或元规则,用来指定所发现模式所必须 匹配的条件,用于指导挖掘过程
关联规则元模式——例子 ■研究 ElEctronics的顾客购买习惯,使用如下关联规 a PX: customer, W)AQX,Y=>buys(X, Z Ⅹ-- customer表的关键字 PQ-谓词变量 W,Y,Z-对象变量 模板具体化 aage(X,“30..39”)^ Income(X,“40k.49k)=>buys(X,“"VCR”) [22%,60%] a occupation(x,“ student)∧age(,“20..29”)=>buys(X, computer) [1.4%, 70%]
关联规则元模式——例子 ◼ 研究AllElectronics的顾客购买习惯,使用如下关联规 则: ❑ P(X: customer, W) ∧ Q(X, Y) =>buys(X, Z) ◼ X---customer表的关键字 ◼ P,Q---谓词变量 ◼ W, Y, Z---对象变量 ◼ 模板具体化 ❑ age(X, “30…39”) ∧ income(X, “40k…49k”)=>buys(X, “VCR”) [2.2%, 60%] ❑ occupation(x, “student”) ∧ age(X, “20…29”)=>buys(X, “computer”) [1.4%, 70%]
背景知识:概念分层 背景知识是关于挖掘领域的知 a概念分层是背景知识的一种,它允许在多个抽象层 上发现知识 概念分层以树形结构的节点集来表示,其中每 个节点本身代表一个概念,根节点称为al,而 叶节点则对应于维的原始数据值。 口概念分层中,自顶向底进行层的标识,即叫.0层, 向下依次为1,2,3等层
背景知识:概念分层 ◼ 背景知识是关于挖掘领域的知识 ❑ 概念分层是背景知识的一种,它允许在多个抽象层 上发现知识。 ◼ 概念分层以树形结构的节点集来表示,其中每 个节点本身代表一个概念,根节点称为all,而 叶节点则对应于维的原始数据值。 ❑ 概念分层中,自顶向底进行层的标识,即all为0层, 向下依次为1,2,3等层