数据挖掘 主讲教师:王灿 E-mail:wcan@zju.edu.cn
数 据 挖 掘 主讲教师:王灿 E-mail: wcan@zju.edu.cn
教科书和参考书 数据挖掘 教科书 ¤数据挖掘:概念与技术, Jiawei han 和 Micheline Kamber著,机械工业出 版社(2001) 中文版英文影 参考书 印版 ¤数据挖掘原理, David hand, Heikki Mannila和 Padhraic Smyth著,机械工数挖 业出版社(2003)
教科书和参考书 ◼ 教科书 ❑ 数据挖掘:概念与技术,Jiawei Han 和Micheline Kamber 著,机械工业出 版社(2001) ◼ 参考书 ❑ 数据挖掘原理, David Hand, Heikki Mannila和Padhraic Smyth著,机械工 业出版社 (2003) 中文版 英文影 印版
数据挖掘的发展动力 需要是发明之母 数据爆炸问题 口自动数据收集工具和成熟的数据库技术使得大量的 数据被收集,存储在数据库、数据仓库或其他信息 库中以待分析 我们拥有丰富的数据,但却缺乏有用的信息 ■解决方法:数据仓库技术和数据挖掘技术 口数据仓库( Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规 则,规律,模式,约東)
数据挖掘的发展动力 ---需要是发明之母 ◼ 数据爆炸问题 ❑ 自动数据收集工具和成熟的数据库技术使得大量的 数据被收集,存储在数据库、数据仓库或其他信息 库中以待分析。 ◼ 我们拥有丰富的数据,但却缺乏有用的信息 ◼ 解决方法:数据仓库技术和数据挖掘技术 ❑ 数据仓库(Data Warehouse)和在线分析处理(OLAP) ❑ 数据挖掘:在大量的数据中挖掘感兴趣的知识(规 则,规律,模式,约束)
数据库技术的演化(1) 1960s和以前: a文件系统 1970s: 口层次数据库和网状数据库 1980s早期 关系数据模型,关系数据库管理系统( RDBMS)的实 现
数据库技术的演化 (1) ◼ 1960s和以前: ❑ 文件系统 ◼ 1970s: ❑ 层次数据库和网状数据库 ◼ 1980s早期: ❑ 关系数据模型, 关系数据库管理系统(RDBMS)的实 现
数据库技术的演化(2 1980s晚期 口各种高级数据库系统(扩展的关系数据库,面向对象数据库等 等 口面向应用的数据库系统(空间数据库,时序数据库,多媒体 数据库等等) 1990s: ¤数据挖掘,数据仓库,多媒体数据库和网络数据库 2000s ¤流数据管理和挖掘 ¤基于各种应用的数据挖掘 口XML数据库和整合的信息系统
数据库技术的演化 (2) ◼ 1980s晚期: ❑ 各种高级数据库系统(扩展的关系数据库,面向对象数据库等 等.) ❑ 面向应用的数据库系统 (空间数据库,时序数据库,多媒体 数据库等等) ◼ 1990s: ❑ 数据挖掘, 数据仓库, 多媒体数据库和网络数据库 ◼ 2000s ❑ 流数据管理和挖掘 ❑ 基于各种应用的数据挖掘 ❑ XML数据库和整合的信息系统
什么是数据挖掘? 数据挖掘(从数据中发现知识) ¤从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的 先前未知的和可能有用的模式或知识 ¤挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用 词) ■数据挖掘的替换词 ¤数据库中的知识挖掘(KDD) ¤知识提炼 ¤数据/模式分析 口数据考古 ¤数据捕捞、信息收获等等
什么是数据挖掘? ◼ 数据挖掘 (从数据中发现知识) ❑ 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、 先前未知的和可能有用的模式或知识 ❑ 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用 词) ◼ 数据挖掘的替换词 ❑ 数据库中的知识挖掘(KDD) ❑ 知识提炼、 ❑ 数据/模式分析 ❑ 数据考古 ❑ 数据捕捞、信息收获等等
数据挖掘:数据库中的知识挖掘(KDD) 口数据挖掘——知识挖掘 模式评估 的核心 数据挖掘 任务相关数据 数据仓库 选择 数据清理 数据集成 数据库
数据挖掘: 数据库中的知识挖掘(KDD) ❑ 数据挖掘——知识挖掘 的核心 数据清理 数据集成 数据库 数据仓库 任务相关数据 选择 数据挖掘 模式评估
KDD的步骤 从KDD对数据挖掘的定义中可以看到当前研究 领域对数据挖掘的狭义和广义认识 1.数据清理:(这个可能要占全过程60%的工作量) 2.数据集成 3.数据选择 4.数据变换 5.数据挖掘(选择适当的算法来找到感兴趣的模式) 6.模式评估 7.知识表示
KDD的步骤 ◼ 从KDD对数据挖掘的定义中可以看到当前研究 领域对数据挖掘的狭义和广义认识 1. 数据清理: (这个可能要占全过程60%的工作量) 2. 数据集成 3. 数据选择 4. 数据变换 5. 数据挖掘(选择适当的算法来找到感兴趣的模式) 6. 模式评估 7. 知识表示
典型数据挖掘系统的体系结构 图形用户界面 模式评估 数据挖掘引擎 知识库 数据库或数据仓库服务器 数据清洗 数据集成 过滤 数据库 数据仓库
典型数据挖掘系统的体系结构 数据仓库 数据清洗 过滤 数据库 数据库或数据仓库服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 数据集成
并非所有的东西都是数据挖掘 基于数据仓库的OLAP系统 D OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据 进行多种复杂的处理。 机器学习系统,数据统计分析系统 口这些系统所处理的数据容量往往很有限。 信息系统 ¤专注于数据的查询处理 ■相比于上述系统,数据挖掘系统关注更广的范围,是 个多学科的融合
并非所有的东西都是数据挖掘 ◼ 基于数据仓库的OLAP系统 ❑ OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据 进行多种复杂的处理。 ◼ 机器学习系统,数据统计分析系统 ❑ 这些系统所处理的数据容量往往很有限。 ◼ 信息系统 ❑ 专注于数据的查询处理。 ◼ 相比于上述系统,数据挖掘系统关注更广的范围,是 一个多学科的融合