河南财经学院 Henan University of Fit nance an Id Economics 分布式数据库系统及其应用 崔明义 (mycu369@126cm) 计算机应用技术2007级研究生
崔明义 (mycui369@126.com) 计算机应用技术2007级研究生
第11章数据仓库和数据挖掘 1.数据仓库 2.联机分析处理(OLAP) 3.知识发现和数据挖掘
1. 数据仓库 2. 联机分析处理(OLAP) 3. 知识发现和数据挖掘 第11章 数据仓库和数据挖掘
1数据仓库 1.1数据仓库的定义、特征和结构 数据仓库的定义 Inmon的经典定义:数据仓库是面向主题的、集成 的、非易变的、随时间变化的数据集合,用以支持 经营管理中的决策制定过程 数据仓库的特征 主题和面向主题 数据是集成的 数据是非易变的 数据随时间变化
• 数据仓库的定义 – Inmon的经典定义:数据仓库是面向主题的、集成 的、非易变的、随时间变化的数据集合,用以支持 经营管理中的决策制定过程 • 数据仓库的特征 – 主题和面向主题 – 数据是集成的 – 数据是非易变的 – 数据随时间变化 1.1 数据仓库的定义、特征和结构 1 数据仓库
1数据仓库 1.1数据仓库的定义、特征和结构 从数据库到数据仓库 数据库用于事务处理,也叫操作型处理,是指对数 据库联机进行日常操作 数据仓库用于决策支持,也叫分析型处理 传统的数据库支持联机事务处理( Online transaction Processing, OLTP) 数据仓库支持联机分析处理( Online Analysis Processing, OLAP
• 从数据库到数据仓库 – 数据库用于事务处理,也叫操作型处理,是指对数 据库联机进行日常操作 – 数据仓库用于决策支持,也叫分析型处理 – 传统的数据库支持联机事务处理(Online Transaction Processing, OLTP) – 数据仓库支持联机分析处理(Online Analysis Processing, OLAP) 1.1 数据仓库的定义、特征和结构 1 数据仓库
1数据仓库 1.1数据仓库的定义、特征和结构 操作型数据和分析型数据的区别 事务型处理数据 分析型处理数据 细节的 综合的,或提炼的 在存取瞬间是准确的 代表过去的数据 可更新 不可更新,只读的 操作需求事先可知道 操作需求事先不知 生命周期符合SDLC 完全不同的生命周期 对性能要求高 对性能要求宽松 个时刻操作一个单元 个时刻操作一组数据 事务驱动 分析驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量大 支持日常操作 支持管理需求
• 操作型数据和分析型数据的区别 1.1 数据仓库的定义、特征和结构 1 数据仓库 事务型处理数据 分析型处理数据 细节的 综合的,或提炼的 在存取瞬间是准确的 代表过去的数据 可更新 不可更新,只读的 操作需求事先可知道 操作需求事先不知 生命周期符合SDLC 完全不同的生命周期 对性能要求高 对性能要求宽松 一个时刻操作一个单元 一个时刻操作一组数据 事务驱动 分析驱动 面向应用 面向分析 一次操作数据量小 一次操作数据量大 支持日常操作 支持管理需求
1数据仓库 1.1数据仓库的定义、特征和结构 前端应用工具 数据仓库工具层 OLAP 数据挖掘工具 最终用户 多维分析工具 DSS/ EIS ■■■ 数据挖掘 数据仓库的 回流 高度综合数据 般概念结构 数据库 清洗 数据仓库层 羟度综合 其他数据输入 数据 重新格式化 当前细节数据 元数据 备注:" 表示关系型数据 早期细节数据 H:表示多维数据
1.1 数据仓库的定义、特征和结构 1 数据仓库 高度综合数据 轻度综合 数据 早期细节数据 备注: " " " " 数 据 仓 库 工 具 层 多维分析工具 数据挖掘工具 前端应用工具 最终用户 : 表示关系型数据 : 表示多维数据 数据仓库的一 般概念结构 元 数 据 当前细节数据 数 据 仓 库 层 数据库 其他数据输入 清洗 回流 重新格式化 OLAP DSS/ EIS 数据挖掘
1数据仓库 12数据仓库的元数据 元数据的定义 通常被定义为“关于数据的数据” CIESIN的定义:元数据是关于数据和信息资源的描 述信息。它们描述、指示或者补充与之相关的信息 的内容 USGS的定乂:元数据描述数据的内容、质量、条 件和其他特征,元数据帮助人们定位数据和理解数 据 IEEE提出了的一个比较系统的定义:元数据是关于 信息实体的语义、结构、存储、管理和使用的信息, 以及实体之间的关系、导出/派生的信息和历史记录
• 元数据的定义 – 通常被定义为“关于数据的数据” – CIESIN的定义:元数据是关于数据和信息资源的描 述信息。它们描述、指示或者补充与之相关的信息 的内容 – USGS的定义:元数据描述数据的内容、质量、条 件和其他特征,元数据帮助人们定位数据和理解数 据 – IEEE提出了的一个比较系统的定义:元数据是关于 信息实体的语义、结构、存储、管理和使用的信息, 以及实体之间的关系、导出/派生的信息和历史记录 等 1.2 数据仓库的元数据 1 数据仓库
1数据仓库 12数据仓库的元数据 数据仓库中元数据的分类 从操作型环境相数据仓库环境转换而建立的元数据, 包括数据字典信息、主题信息、外部和非结构化数 据信息及其在数据仓库中的转换规则等 为管理数据仓库中的数据而建立的元数据,一方面, 要划分不同的粒度层次,选择分割策略,建立索引。 另一方面,数据仓库中包含着较长时期内的数据, 不同时期不同的需求使得其数据从“形式”到“内 容”都可能不同 用来与多维模型/前端工具之间建立映射的元数据, 也称为DSS元数据,包括数据的抽取历史、抽取粒 度和广义索引等信息
• 数据仓库中元数据的分类 – 从操作型环境相数据仓库环境转换而建立的元数据, 包括数据字典信息、主题信息、外部和非结构化数 据信息及其在数据仓库中的转换规则等 – 为管理数据仓库中的数据而建立的元数据,一方面, 要划分不同的粒度层次,选择分割策略,建立索引。 另一方面,数据仓库中包含着较长时期内的数据, 不同时期不同的需求使得其数据从“形式”到“内 容”都可能不同。 – 用来与多维模型/前端工具之间建立映射的元数据, 也称为DSS元数据,包括数据的抽取历史、抽取粒 度和广义索引等信息。 1.2 数据仓库的元数据 1 数据仓库
1数据仓库 12数据仓库的元数据 数据仓库中元数据的内容 数据仓库的主题描述:主题名,主题的公共码键,有关描述 信息等 外部数据和非结构化数据的描述:外部数据源名,存储地点, 存储内容简述 记录系统定义:主题名,属性名,数据源系统,源表名,源 属性名 逻辑模型的定义:如关系名,属性1,属性2,属性3,,属 性 数据进入数据仓库的转换规则 数据的抽取历史 粒度的定义 数据分割的定义 广义索引:广义索引名,属性1,属性2,…,属性n 有关存储路径和结构的描述
• 数据仓库中元数据的内容 – 数据仓库的主题描述:主题名,主题的公共码键,有关描述 信息等。 – 外部数据和非结构化数据的描述:外部数据源名,存储地点, 存储内容简述。 – 记录系统定义:主题名,属性名,数据源系统,源表名,源 属性名。 – 逻辑模型的定义:如关系名,属性1,属性2,属性3,…,属 性n – 数据进入数据仓库的转换规则 – 数据的抽取历史 – 粒度的定义 – 数据分割的定义 – 广义索引:广义索引名,属性1,属性2,…,属性n – 有关存储路径和结构的描述 1.2 数据仓库的元数据 1 数据仓库
1数据仓库 13数据仓库的数据模型 基本概念 变量:也称度量,是指数据的实际含义,即描述数 据“是什么”,如销售量等 维:是人们观察数据的特定角度。通常时间都是 个维,还有地理位置。 维层次:维存在细节程度不同的多个描述方面,这 些描述方面称作维层次 维成员:维的取值称为该维的一个维成员 多维数组:可表示为(维1,维2,,维n,变量) 数据单元:多维数组的取值称为数据单元 多维数据库:以多维方式来组织和显示数据,多维 数据库可理解为一个“超立方”块结构
• 基本概念 – 变量:也称度量,是指数据的实际含义,即描述数 据“是什么”,如销售量等 – 维:是人们观察数据的特定角度。通常时间都是一 个维,还有地理位置。 – 维层次:维存在细节程度不同的多个描述方面,这 些描述方面称作维层次。 – 维成员:维的取值称为该维的一个维成员。 – 多维数组:可表示为(维1,维2,…,维n,变量) – 数据单元:多维数组的取值称为数据单元 – 多维数据库:以多维方式来组织和显示数据,多维 数据库可理解为一个“超立方”块结构 1.3 数据仓库的数据模型 1 数据仓库