数据仓库 Data warehouse 赵卫东博士 复旦大学软件学院 wdzhao@fudan.edu.cn
1 数据仓库 Data Warehouse 赵卫东 博士 复旦大学软件学院 wdzhao@fudan.edu.cn
事务型处理 事务型处理:即操作型处理,是指对数据库的联机操作 处理OLTP。事务型处理是用来协助企业对响应事件或 事务的日常商务活动进行处理。它是事件驱动、面向应 用的,通常是对一个或一组记录的增、删、改以及简单 查询等(大量、简单、重复和例行性)。 在事务型处理环境中,数据库要求能支持日常事务中的 大量事务,用户对数据的存取操作频率高而每次操作处 理的时间短
2 事务型处理 n 事务型处理:即操作型处理,是指对数据库的联机操作 处理OLTP。事务型处理是用来协助企业对响应事件或 事务的日常商务活动进行处理。它是事件驱动、面向应 用的,通常是对一个或一组记录的增、删、改以及简单 查询等(大量、简单、重复和例行性)。 n 在事务型处理环境中,数据库要求能支持日常事务中的 大量事务,用户对数据的存取操作频率高而每次操作处 理的时间短
分析型处理 分析型处理:用于管理 Operational Informational 人员的决策分析,例如 Data Data Access DSS、EIS和多维分析等 Data Warehouse 它帮助决策者分析数据 Environment 以察看趋向、判断问题。 分析型处理经常要访问 Data 大量的历史数据,支持 Warehouse 复杂的查询。 分析型处理过程中经常 用到外部数据,这部分 数据不是由事务型处理 系统产生的,而是来自 于其他外部数据源
3 分析型处理 n 分析型处理:用于管理 人员的决策分析,例如 DSS、 EIS和多维分析等。 它帮助决策者分析数据 以察看趋向、判断问题。 n 分析型处理经常要访问 大量的历史数据,支持 复杂的查询。 n 分析型处理过程中经常 用到外部数据,这部分 数据不是由事务型处理 系统产生的,而是来自 于其他外部数据源
事务型处理数据和分析型处理数据的区别 特性 OLTP 特征 操作处理 信息处理 面向 事务 分析 用户 办事员、DBA、数据库专业人员 知识工人(如经理、主管、分析员) 功能 日常操作 长期信息需求,决策支持 DB设计 基于E-R,面向应用 星形/雪花,面向主题 数据 当前的;确保最新 历史的;跨时间维护 汇 原始的,高度详细 汇总的,统一的 视图 详细,一般关系 汇总的,多维的 工作单位 短的、简单事务 复杂查询 存取 读/写 大多为读 关注 数据进入 信息输出 操作 主关键字上索引/散列 大量扫描 访问记录数 数十个 数百万 用户数 数千 数百 DB规模 10OMB到GB 100GB到TB 优先 高性能,高可用性 高灵活性,端点用户自治 度量 事务吞吐量 查询吞吐量,响应时间
4 事务型处理数据和分析型处理数据的区别 特性 OLTP OLAP 特征 面向 用户 功能 DB 设计 数据 汇总 视图 工作单位 存取 关注 操作 访问记录数 用户数 DB规模 优先 度量 操作处理 事务 办事员、DBA、数据库专业人员 日常操作 基于E-R,面向应用 当前的;确保最新 原始的,高度详细 详细,一般关系 短的、简单事务 读/写 数据进入 主关键字上索引/散列 数十个 数千 100MB到GB 高性能,高可用性 事务吞吐量 信息处理 分析 知识工人(如经理、主管、分析员) 长期信息需求,决策支持 星形/雪花,面向主题 历史的;跨时间维护 汇总的,统一的 汇总的,多维的 复杂查询 大多为读 信息输出 大量扫描 数百万 数百 100GB到TB 高灵活性,端点用户自治 查询吞吐量,响应时间
数据库系统的局限性 数据库适于存储高度结构化的目 client Internet 常事务细节数据,而决策型数据 applicati 多为厉史性、汇总性或计算性数 Application la owsers 据,多表现为静态数据,不需直 接更新,但可周期性刷新。 决分析型数据是多维性,分析 ■在事务处理环境中,决策者可能 并不关心具体的细节信息,在决 策分析环境中,如果这些细节数 据量太大一方面会严重影响分析 效率,另一方面这些细节数据会 document 分散决策者的注意力。 Data managemen Oracle la DB2 5
5 数据库系统的局限性 n 数据库适于存储高度结构化的日 常事务细节数据,而决策型数据 多为历史性、汇总性或计算性数 据,多表现为静态数据,不需直 接更新,但可周期性刷新。 n 决策分析型数据是多维性,分析 内容复杂。 n 在事务处理环境中,决策者可能 并不关心具体的细节信息,在决 策分析环境中,如果这些细节数 据量太大一方面会严重影响分析 效率,另一方面这些细节数据会 分散决策者的注意力。 DB2 Oracle SQL Server Excel spreadsheet XML document Internet client SSL applications Browsers Data management layer Application layer Web servers
数据库系统的局限性(续) 当事务型处理环境和分析型处理环境在同一个数据库系统中, 事务型处理对数据的存取操作频率高,操作处理的时间短, 而分析型处理可能需要连续运行几个小时,从而消耗大量的 系统资源。 决策型分析数据的数据量大,这些数据有来自企业内部的, 也有来自企业外部的。来自企业外部的数据又可能来自不同 的数据库系统,在分析时如果直接对这些数据操作会造成分 析的混乱。对于外部数据中的一些非结构化数据,数据库系 统常常是无能为力
6 数据库系统的局限性(续) n 当事务型处理环境和分析型处理环境在同一个数据库系统中, 事务型处理对数据的存取操作频率高,操作处理的时间短, 而分析型处理可能需要连续运行几个小时,从而消耗大量的 系统资源。 n 决策型分析数据的数据量大,这些数据有来自企业内部的, 也有来自企业外部的。来自企业外部的数据又可能来自不同 的数据库系统,在分析时如果直接对这些数据操作会造成分 析的混乱。对于外部数据中的一些非结构化数据,数据库系 统常常是无能为力
多库系统的限制 可用性:源站点或通信网络故障将导致系统瘫痪,源站点不能 通过网络在线联入多库系统。 响应速度:全局査询多级转换和通信传输,延迟和低层效率影 响响应速度。 系统性能:总体性能取决于源站点中性能最低的系统,影响系 统性能的发挥; 系统开销:每次査询要启动多个局部系统,通信和运行开销大
7 多库系统的限制 n 可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能 通过网络在线联入多库系统。 n 响应速度:全局查询多级转换和通信传输, 延迟和低层效率影 响响应速度。 n 系统性能:总体性能取决于源站点中性能最低的系统, 影响系 统性能的发挥; n 系统开销:每次查询要启动多个局部系统, 通信和运行开销大
实施数据仓库的条件 ■数据积累已达到一定规模 面临激烈的市场竞争 ■在IT方面的资金能得到保障
8 实施数据仓库的条件 n 数据积累已达到一定规模 n 面临激烈的市场竞争 n 在IT方面的资金能得到保障
数据仓库的发展 自从NcR公司为 Wal mart建立了第一个数据仓库。 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美 企业,结果表明:数据仓库为企亚提供 的收益。 分式对绿接态速发晨,不数携爸库体结构久数能上球 为若个分布式对象,这些分布式对象不仅可以直接用子建立数 据仓库,还可以在应用程序中向用户提供调用的接口。 数据 研究成巢髮震成芳藺用声品 库方面已经进行了10多年的研究,并将 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案
9 数据仓库的发展 n 自从NCR公司为Wal Mart建立了第一个数据仓库。 n 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美 企业,结果表明:数据仓库为企业提供了巨大的收益。 n 早期的数据仓库大都采用当时流行的客户/服务器结构。近年来 分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分 为若干个分布式对象,这些分布式对象不仅可以直接用于建立数 据仓库,还可以在应用程序中向用户提供调用的接口。 n IBM的实验室在数据仓库方面已经进行了10多年的研究,并将 研究成果发展成为商用产品。 n 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案
数据仓库( Data Warehouse) 数据仓库用来保存从多个数据库或其它信息源选取的数据,并为 上层应用提供统一用户接口,完成数据査询和分析。支持整个 企业范围的主要业务来建立的,主要特点是,包含大量面向整个 企业的综合信息及导出信息。 n数据仓库是作为DSs服务基础的分析型DB,用来存放大容量的 只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、 带有时间属性的、面向主题及不可更新的数据集合。 n以1992年 WHInmon出版《 Building the Data Warehouse》 为标志,数据仓库发展速度很快。 WHInmon被誉为数据仓库 之父。 WHInmon对数据仓库所下的定义:数据仓库是面向主题的 集成的、稳定的、随时间变化的数据集合,用以支持管理决策的 过程 10
10 数据仓库(Data Warehouse) n 数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为 上层应用提供统一 用户接口,完成数据查询和分析。支持整个 企业范围的主要业务来建立的,主要特点是,包含大量面向整个 企业的综合信息及导出信息。 n 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的 只读数据,为制定决策提供所需要的信息。 n 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、 带有时间属性的、面向主题及不可更新的数据集合。 n 以1992年W H Inmon出版《Building the Data Warehouse》 为标志,数据仓库发展速度很快。 W H Inmon被誉为数据仓库 之父。 n W H Inmon对数据仓库所下的定义:数据仓库是面向主题的、 集成的、稳定的、随时间变化的数据集合,用以支持管理决策的 过程