第15章数据仓库技术 本章概迷 本章的学习目标 至要内容 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第1页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第1页 第15章 数据仓库技术 本章概述 本章的学习目标 主要内容
本章概述 前一章研究了用于广度计算的分布式数据库技术 现在开始研究实现深度计算的数据仓库技术。在 过去的几十年中,数据库技术主要是研究数据的 采集和处理,或者说主要用于在线事务处理。然 而,随着事务数据的逐渐积累和增加,如何充分 利用现有数据的价值,成为了数据库技术的研究 重点。今后,作为全球经济及技术管理者的信息 作者必须重视数据的战略价值,所面对的问题 不是简单地处理数据而是如何充分地便用数据 本章通过具体的数据仓库产品,研究数据仓库的 技术和特征。 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第2页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第2页 本章概述 ⚫ 前一章研究了用于广度计算的分布式数据库技术, 现在开始研究实现深度计算的数据仓库技术。在 过去的几十年中,数据库技术主要是研究数据的 采集和处理,或者说主要用于在线事务处理。然 而,随着事务数据的逐渐积累和增加,如何充分 利用现有数据的价值,成为了数据库技术的研究 重点。今后,作为全球经济及技术管理者的信息 工作者必须重视数据的战略价值,所面对的问题 不是简单地处理数据而是如何充分地使用数据。 ⚫ 本章通过具体的数据仓库产品,研究数据仓库的 技术和特征
本章的学习目标 ●理解数据仓库的概念和特征 ●理解和掌握数据挖掘技术的特点 ●理解和掌握数据中心库技术的特点 ●了解数据仓库的支持工具的特点 ●理解和掌握数据仓库的实现步骤 ●理解数据的粒度、分割和元数据的特点 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第3页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第3页 本章的学习目标 ⚫ 理解数据仓库的概念和特征 ⚫ 理解和掌握数据挖掘技术的特点 ⚫ 理解和掌握数据中心库技术的特点 ⚫ 了解数据仓库的支持工具的特点 ⚫ 理解和掌握数据仓库的实现步骤 ⚫ 理解数据的粒度、分割和元数据的特点
主要内容 151概述 152数据挖掘和数据中心库 153数据仓库的支持工具 154数据仓库的实现步骤 155数据的粒度、分割和元数据 156本章小结 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第4页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第4页 主要内容 15.1 概述 15.2 数据挖掘和数据中心库 15.3 数据仓库的支持工具 15.4 数据仓库的实现步骤 15.5 数据的粒度、分割和元数据 15.6 本章小结
151概述 数据仓库就是面向主题的、综合的、不同时间的 稳定的数据集合,用于支持经营管理中的决策制 定过程。也就是说,数据仓库是一个处理过程, 该过程从历史的角度组织和存储数据,并能集成 地进行数据分析。简而言之,数据仓库就是一个 大的数据库,存储了该公司所有业务数据,例如, 在线事务处理( On Line Transaction Processing,oLTP)系统中获取的综合数据, 这些数据可能驻留在许多不同的数据源中。这些 数据源可能是文档、层次型数据库、网络结构化 的数据库、反向列表数据库、关系型数据库或者 更常见的由上述系统组成的混合系统。 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第5页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第5页 15.1 概述 ⚫ 数据仓库就是面向主题的、综合的、不同时间的、 稳定的数据集合,用于支持经营管理中的决策制 定过程。也就是说,数据仓库是一个处理过程, 该过程从历史的角度组织和存储数据,并能集成 地进行数据分析。简而言之,数据仓库就是一个 大的数据库,存储了该公司所有业务数据,例如, 在线事务处理(OnLine Transaction Processing,OLTP)系统中获取的综合数据, 这些数据可能驻留在许多不同的数据源中。这些 数据源可能是文档、层次型数据库、网络结构化 的数据库、反向列表数据库、关系型数据库或者 更常见的由上述系统组成的混合系统
数据仓库特征 ●数据仓库可以辅助决策支持和在线分析处 #E (On Line Analytical Processing OLAP)应用程序。 ●数据仓库除了具有传统数据库管理系统的 共享性、完整性、数据独立性外,还具有 下列特征:统一性和一致性;面向主题; 历史性;只读性。 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第6页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第6页 数据仓库特征 ⚫ 数据仓库可以辅助决策支持和在线分析处 理(OnLine Analytical Processing, OLAP)应用程序。 ⚫ 数据仓库除了具有传统数据库管理系统的 共享性、完整性、数据独立性外,还具有 下列特征:统一性和一致性;面向主题; 历史性;只读性
主要内容 151概述 152数据挖掘和数据中心库 153数据仓库的支持工具 154数据仓库的实现步骤 155数据的粒度、分割和元数据 156本章小结 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第7页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第7页 主要内容 15.1 概述 15.2 数据挖掘和数据中心库 15.3 数据仓库的支持工具 15.4 数据仓库的实现步骤 15.5 数据的粒度、分割和元数据 15.6 本章小结
152数据挖掘和数据中心库 ●数据挖掘技术和数据中心库技术是数据仓 库体系的重要组成部分。 ●下面详细介绍数据挖掘技术和数据中心库 技术。 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第8页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第8页 15.2 数据挖掘和数据中心库 ⚫ 数据挖掘技术和数据中心库技术是数据仓 库体系的重要组成部分。 ⚫ 下面详细介绍数据挖掘技术和数据中心库 技术
数据挖掘技术 ●对大型的、复杂的、信息丰富的数据集的理解实 际上是所有的商业、科学、工程领域的共同需要, 在商务领域,公司和顾客的数据逐渐被认为是 种战略资产。在当今的竞争世界中,吸取隐藏在 这些数据后面的有用知识并利用这些知识的能力 变得愈加重要。 ●运用基于计算机的方法,包括新技术,从而在数 据中获得有用的知识的整个过程,叫做数据挖掘。 ●数据挖掘是一个反复迭代的过程 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第9页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第9页 数据挖掘技术 ⚫ 对大型的、复杂的、信息丰富的数据集的理解实 际上是所有的商业、科学、工程领域的共同需要, 在商务领域,公司和顾客的数据逐渐被认为是一 种战略资产。在当今的竞争世界中,吸取隐藏在 这些数据后面的有用知识并利用这些知识的能力 变得愈加重要。 ⚫ 运用基于计算机的方法,包括新技术,从而在数 据中获得有用的知识的整个过程,叫做数据挖掘。 ⚫ 数据挖掘是一个反复迭代的过程
数据挖掘的基本任务 分类—预测学习功能的发现,此功能将一个数据项分到 几个预定义类中的一类。 回归——预测学习功能的发现,此功能将一个数据项映射 到一个真值预测变量。 聚类 种普遍的描述性任务,寻求以确定有限的一组 类或簇来描述数据。 总结概括——一项附加的描述任务,寻找对集或子集数据 的简单描述的方法。 ●关联建模——发现描述变量之间或者数据集或数据集的· 部分的特征之间的重要的相关性的本地模型 ●变化和偏差检测——发现数据集中最重要的变化。 数据库系统原理与应用教程(第二版) 第15章数据仓库技术 第10页
数据库系统原理与应用教程(第二版) 第15章 数据仓库技术 第10页 数据挖掘的基本任务 ⚫ 分类——预测学习功能的发现,此功能将一个数据项分到 几个预定义类中的一类。 ⚫ 回归——预测学习功能的发现,此功能将一个数据项映射 到一个真值预测变量。 ⚫ 聚类——一种普遍的描述性任务,寻求以确定有限的一组 类或簇来描述数据。 ⚫ 总结概括——一项附加的描述任务,寻找对集或子集数据 的简单描述的方法。 ⚫ 关联建模——发现描述变量之间或者数据集或数据集的一 部分的特征之间的重要的相关性的本地模型。 ⚫ 变化和偏差检测——发现数据集中最重要的变化