在线分析处理 Online Analytical Processing 赵卫东博士 复旦大学软件学院 wdzhao@fudan.edu.cn
在线分析处理 Online Analytical Processing 赵卫东 博士 复旦大学软件学院 wdzhao@fudan.edu.cn
OLAP发展背景 60年代,关系数据库之父 E.F. Codd提出了关系模型,促进 了联机事务处理(OLTP)的发展(数据以表格的形式而非文件 方式存储)。1993年, E.F. Codo提出了oLAP概念,认为 oLTP已不能满足终端用户对数据库查询分析的需要,SQL对 大型数据库进行的简单查询也不能满足终端用户分析的要求。 用户的决策分析需要对关系数据库进行大量计算才能得到结 果,而查询的结果并不能满足决策者提出的需求。因此 E.F. Codd提出了多维数据库和多维分析的概念,即OLAP OLAP是目前 RDBMS不可缺少的功能,可以作为一个独立 的oLAP服务器实现,也可以集成在 RDBMS中
OLAP发展背景 ◼ 60年代,关系数据库之父E.F.Codd提出了关系模型,促进 了联机事务处理(OLTP)的发展(数据以表格的形式而非文件 方式存储)。1993年,E.F.Codd提出了OLAP概念,认为 OLTP已不能满足终端用户对数据库查询分析的需要,SQL对 大型数据库进行的简单查询也不能满足终端用户分析的要求。 用户的决策分析需要对关系数据库进行大量计算才能得到结 果,而查询的结果并不能满足决策者提出的需求。因此, E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。 ◼ OLAP是目前RDBMS不可缺少的功能,可以作为一个独立 的OLAP服务器实现,也可以集成在RDBMS中
什么是0LAP? 定义1:oLAP(联机分析处理)是针对特定问题的联机数据访 问和分析。通过对信息(维数据)的多种可能的观察形式进行快 速、稳定一致和交互性的存取,允许管理决策人员对数据进行 深入观察。 ■定义2:oLAP(联机分析处理)是使分析人员、管理人员或执 行人员能够从多种角度对从原始数据中转化出来的、能够真正 为用户所理解的、并真实反映企业维特性的信息进行快速、 致、交互地存取,从而获得对数据的更深入了解的一类软件技 术。(OLAP委员会的定义) oLAP的目标是满足决策支持或多维环境特定的查询和报表需 求,它的技术核心是“维”这个概念,因此OLAP也可以说是 多维数据分析工具的集合
什么是OLAP? ◼ 定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访 问和分析。通过对信息(维数据)的多种可能的观察形式进行快 速、稳定一致和交互性的存取,允许管理决策人员对数据进行 深入观察。 ◼ 定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或执 行人员能够从多种角度对从原始数据中转化出来的、能够真正 为用户所理解的、并真实反映企业维特性的信息进行快速、一 致、交互地存取,从而获得对数据的更深入了解的一类软件技 术。(OLAP委员会的定义) ◼ OLAP的目标是满足决策支持或多维环境特定的查询和报表需 求,它的技术核心是“维”这个概念,因此OLAP也可以说是 多维数据分析工具的集合
0LAP决策分析 ■0LAP分析属于验证驱动型发现:用户首先提出 自己的假设,然后利用0LAP工具检索查询以验 证或否定假设
OLAP决策分析 ◼ OLAP分析属于验证驱动型发现:用户首先提出 自己的假设,然后利用OLAP工具检索查询以验 证或否定假设
0LAP的数据源 Data Warehouses Data marts. ODS oLtP legacy ERP Flat files Spreadsheets ■■■■■■■■■■■■■
OLAP的数据源 OLTP & Legacy ERP Flat Files Data Warehouses, Data Marts, ODS Spreadsheets
0LAP基本概念 维:是人们观察数据的特定角度,是 考虑问题时的一类属性(时间维、地 卷烟销售分析 理维等) 维的层次:人们观察数据的某个特定 角度(即某个维)还可以存在细节程度 不同的各个描述方面(时间维:日期 月份、季度、年)。 的盛员;的个取值是教据项 产品 时间财务指标 在某维中位置的描述。(某年集肯某 日”是在时间维上位置的描述) 多维数组:维和变量的组合表示 个多维数组可以表示为:(维1,维 2,…,维n,变量)。(时间,地区, 产品,销售额) 数据单元单元格):多维数组的取值。国产烟进囗烟Q1Q203a4收入销 (2000年1月,上海,笔记本电脑, $100000
OLAP基本概念 ◼ 维:是人们观察数据的特定角度,是 考虑问题时的一类属性 (时间维、地 理维等)。 ◼ 维的层次:人们观察数据的某个特定 角度(即某个维)还可以存在细节程度 不同的各个描述方面(时间维:日期、 月份、季度、年)。 ◼ 维的成员:维的一个取值。是数据项 在某维中位置的描述。(“某年某月某 日”是在时间维上位置的描述) ◼ 多维数组:维和变量的组合表示。一 个多维数组可以表示为:(维1,维 2,…,维n,变量)。(时间,地区, 产品,销售额) ◼ 数据单元(单元格):多维数组的取值。 (2000 年1 月,上海,笔记本电脑, $100000) 产品 时间 财务指标 国产烟 进口烟 Q1 Q2 Q3 Q4 收入 开销 卷烟销售分析
0LAP特性 快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部分分析要求做出反应。客户/服务器体系结构 一两层或三层C/S结构。 可分析性:LAP系统应能处理与应用有关的任何逻辑分析和统计 分析。 ■多维性:多维性是叽LAP的关键属性。系统必须提供对数据的多维 视图和分析,包括对层次维和多重层次维的完全支持。 信息性:不论数据量有多大,也不管数据存储在何处,0LAP系统 应能及时获得信息,并且管理大容量信息
OLAP特性 ◼ 快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部分分析要求做出反应。客户/服务器体系结构 -两层或三层C/S结构。 ◼ 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计 分析。 ◼ 多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维 视图和分析,包括对层次维和多重层次维的完全支持。 ◼ 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统 应能及时获得信息,并且管理大容量信息
0LAP工具的分类标准 分成多维数据库工具(MLAP)、关系型数据库工具( ROLAP)和 桌面型数据库工具。 支持多维数据库工具的是多维数据库,而不是传统上的关系型数 据库,数据存储不采用传统关系模型所使用的记录及表等方式, 而采用矩阵(多维矩阵)方式来存储数据。 与多维数据库工具相比,关系型0LAP工具在数据库层次上有标准 的关系模型和标准的数据访问方式及其编程接口,工具与数据库 的互联性较好 桌面型0LAP工具是指在微机环境下开发的支持简单多维分 析的用户工具,这些工具没有自己的数据存储,而把用户 提交的查询翻译成对数据源的查询,然后从数据源中提取 结果数据,并将这些结果数据合成最终的结果返回给客户
OLAP工具的分类标准 ◼ 分成多维数据库工具(MOLAP)、关系型数据库工具(ROLAP)和 桌面型数据库工具。 ◼ 支持多维数据库工具的是多维数据库,而不是传统上的关系型数 据库,数据存储不采用传统关系模型所使用的记录及表等方式, 而采用矩阵(多维矩阵)方式来存储数据。 ◼ 与多维数据库工具相比,关系型OLAP工具在数据库层次上有标准 的关系模型和标准的数据访问方式及其编程接口,工具与数据库 的互联性较好。 ◼ 桌面型OLAP工具是指在微机环境下开发的支持简单多维分 析的用户工具,这些工具没有自己的数据存储,而把用户 提交的查询翻译成对数据源的查询,然后从数据源中提取 结果数据,并将这些结果数据合成最终的结果返回给客户
OLAP多维数据结构 超立方结构( Hypercube)多维数据集 立方体或超立方结构指用三维或更多的维数来 描述一个对象,每个维彼此垂直。 数据的测量值发生在维的交叉点上,数据空间的 各个部分都有相同的维属性(收缩超立方结构, 这种结构的数据密度更大,数据的维数更少,并 可加入额外的分析维)
OLAP多维数据结构 ◼ 超立方结构(Hypercube) 多维数据集 ◼ 立方体或超立方结构指用三维或更多的维数来 描述一个对象,每个维彼此垂直。 ◼ 数据的测量值发生在维的交叉点上,数据空间的 各个部分都有相同的维属性 (收缩超立方结构, 这种结构的数据密度更大,数据的维数更少,并 可加入额外的分析维)
客户种类数量分布多维立方 冬戶种类数量分布根袤 UST NUM 3,200 3.200 1,6OD 1.,600 Middle VIP Customer Ineffective Normal cu Ineffective na. Male Norma Customer. Effective CUST AGE, CUST SEx CUSTTYPE, CUST STATUS Normal Custome VIP Custome Effective Ineffective Effective Ineffective MiddleFemale2,954 Male 1,390 157 Female Male 172 24 Young Female 6 Male 1,254 11 132
客户种类数量分布多维立方