数据挖掘——期末复习
数据挖掘——期末复习
第一章、数据挖掘概论
第一章、数据挖掘概论
数据挖掘:数据库中的知识挖掘(KDD) 口数据挖掘——知识挖掘 模式评估 的核心 数据挖掘 任务相关数据 数据仓库 选择 数据清理 数据集成 数据库
数据挖掘: 数据库中的知识挖掘(KDD) ❑ 数据挖掘——知识挖掘 的核心 数据清理 数据集成 数据库 数据仓库 任务相关数据 选择 数据挖掘 模式评估
知识挖掘的步骤 了解应用领域 口了解相关的知识和应用的目标 创建目标数据集:选择数据 数据清理和预处理:(这个可能要占全过程60%的工作量) 数据缩减和变换 ¤找到有用的特征,维数缩减/变量缩减,不变量的表示。 ■选择数据挖掘的功能 ¤数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析 等 选择挖掘算法 数据挖掘:寻找感兴趣的模式 模式评估和知识表示 口可视化,转换,消除冗余模式等等 运用发现的知识
知识挖掘的步骤 ◼ 了解应用领域 ❑ 了解相关的知识和应用的目标 ◼ 创建目标数据集: 选择数据 ◼ 数据清理和预处理: (这个可能要占全过程60%的工作量) ◼ 数据缩减和变换 ❑ 找到有用的特征,维数缩减/变量缩减,不变量的表示。 ◼ 选择数据挖掘的功能 ❑ 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析 等. ◼ 选择挖掘算法 ◼ 数据挖掘: 寻找感兴趣的模式 ◼ 模式评估和知识表示 ❑ 可视化,转换,消除冗余模式等等 ◼ 运用发现的知识
体系结构:典型数据挖掘系统 图形用户界面 模式评估 数据挖掘引擎 知识库 数据库或数据仓库服务器 数据清洗 数据集成 过滤 数据库 数据仓库
体系结构:典型数据挖掘系统 数据仓库 数据清洗 过滤 数据库 数据库或数据仓库服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 数据集成
数据挖掘的主要功能 概念/类描述:特性化和区分 a归纳,总结和对比数据的特性 关联分析 口发现数据之闺的关联规则,这些规则展示属性一值频繁的在给定的数据中所一 起出现的条件 分类和预测 口通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对 象类。 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析 孤立点分析 口常孤文点被作为二噪音”惑异常被丢弃,但在欺骗检测中却可以通过对罕见 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势
数据挖掘的主要功能 ◼ 概念/类描述: 特性化和区分 ❑ 归纳,总结和对比数据的特性。 ◼ 关联分析 ❑ 发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一 起出现的条件。 ◼ 分类和预测 ❑ 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对 象类。 ◼ 聚类分析 ❑ 将类似的数据归类到一起,形成一个新的类别进行分析。 ◼ 孤立点分析 ❑ 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见 事件进行孤立点分析而得到结论。 ◼ 趋势和演变分析 ❑ 描述行为随时间变化的对象的发展规律或趋势
数据挖掘:多个学科的融合 数据库系统 统计学 机器学习 数据挖掘 可视化 算法 其他学科
数据挖掘:多个学科的融合 数据挖掘 数据库系统 统计学 算法 其他学科 机器学习 可视化
数据挖掘的主要问题 挖掘方法 口在不同的数据类型中挖掘不同类型的知识,eg,生物数据,流式数据,Web数据 口性能:算法的有效性、可仲缩性和并行处理 模式评估:兴趣度问题 背景知识的合并 处理噪声何不完全数据 ¤并行,分布式和增量挖掘算法 a新发现知识与已有知识的集成:知识融合 用户交互 ¤数据挖掘査询语言和特定的数据挖掘 数据挖掘结果的表示和显示 多个抽象层的交互知识挖掘 应用和社会因素 ¤特定域的数据挖掘&不可视的数据挖掘 数据安全,完整和保密的保护
数据挖掘的主要问题 ◼ 挖掘方法 ❑ 在不同的数据类型中挖掘不同类型的知识, e.g., 生物数据, 流式数据, Web数据 ❑ 性能: 算法的有效性、可伸缩性和并行处理 ❑ 模式评估: 兴趣度问题 ❑ 背景知识的合并 ❑ 处理噪声何不完全数据 ❑ 并行, 分布式和增量挖掘算法 ❑ 新发现知识与已有知识的集成: 知识融合 ◼ 用户交互 ❑ 数据挖掘查询语言和特定的数据挖掘 ❑ 数据挖掘结果的表示和显示 ❑ 多个抽象层的交互知识挖掘 ◼ 应用和社会因素 ❑ 特定域的数据挖掘 & 不可视的数据挖掘 ❑ 数据安全,完整和保密的保护
第二章、数据仓库和OLAP技术
第二章、数据仓库和OLAP技术
什么是数据仓库 数据仓库的定义很多,但却很难有一种严格的定义 ¤它是一个提供决策支持功能的数据库,它与公司的操作数据 库分开维护。 ¤为统一的历史数据分析提供坚实的平台,对信息处理提供支 持 “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”-W.H. Inmon(数据仓库构造方面的领头设计 师) 建立数据仓库( data warehousing) 口构造和使用数据仓库的过程
什么是数据仓库? ◼ 数据仓库的定义很多,但却很难有一种严格的定义 ❑ 它是一个提供决策支持功能的数据库,它与公司的操作数据 库分开维护。 ❑ 为统一的历史数据分析提供坚实的平台,对信息处理提供支 持 ◼ “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon(数据仓库构造方面的领头设计 师) ◼ 建立数据仓库(data warehousing): ❑ 构造和使用数据仓库的过程