
第四讲 第二篇企业信息管理技术平台 一一第二章数据库与数据仓库 2.1数据库系统概述 2.1.1数据库系统的组成与结构 数据库系统:是指在计算机环境下引进数据库技术后构成的整个 系统。 一个完整的数据库系统由数据库、数据库管理系统、数据库用户 (包括数据库管理员)和支持数据库运行的各种计算机软件与硬件构 成。 数据库是长期存储在计算机内的、有组织的、可共享的数据集合。 数据库管理系统(DWS):是为数据库的建立、使用和维护而配 置的软件,它建立在操作系统的基础上,对数据库进行统一的管理和 控制。数据库管理系统是数据库系统的核心,是用户访问数据库的接 口。 数据库管埋员(DBM):是管理和维护数据库正常运转的专职人员。 其职责是维护和管理数据库,使之处于最佳状态。 2.1.2数据库系统的特点 数据库系统特点:(1)数据结构化。(2)数据共享。(3)可控冗 余度。(4)有较高的数据独立性。(5)统一的管理和控制。(6)数据
第四讲 第二篇 企业信息管理技术平台 ——第二章 数据库与数据仓库 2.1 数据库系统概述 2.1.1 数据库系统的组成与结构 数据库系统:是指在计算机环境下引进数据库技术后构成的整个 系统。 一个完整的数据库系统由数据库、数据库管理系统、数据库用户 (包括数据库管理员)和支持数据库运行的各种计算机软件与硬件构 成。 数据库是长期存储在计算机内的、有组织的、可共享的数据集合。 数据库管理系统(DBMS):是为数据库的建立、使用和维护而配 置的软件,它建立在操作系统的基础上,对数据库进行统一的管理和 控制。数据库管理系统是数据库系统的核心,是用户访问数据库的接 口。 数据库管理员(DBA):是管理和维护数据库正常运转的专职人员。 其职责是维护和管理数据库,使之处于最佳状态。 2.1.2 数据库系统的特点 数据库系统特点:(1)数据结构化。(2)数据共享。(3)可控冗 余度。(4)有较高的数据独立性。(5)统一的管理和控制。(6)数据

库管理系统成为用户与数据库之间的接口。(7)对数据的操作不一定 以记录为单位,也可以数据项为单位,增加了系统的灵活性。 2.1.3数据库管理系统的功能 DMS是数据库系统的核心。其功能包括: 1、数据库的定义功能 DWS提供数据定义语言(DDL)定义数据库的三级结构,包括外 模式、概念模式、内模式及其相互之间的映像,定义数据的完整性, 安全控制等约束。 2、数据库的操纵功能 数据库管理系统提供数据操纵语言(L)实现对数据库中数据 的操作。基本的数据操作分成两类四种:检索(查询)和更新(插入、 删除、修改)。 3、数据库的保护功能 (1)数据库的恢复。(2)数据库的并发控制。(3)数据库的完 整性控制。(4)数据库的安全性控制。 4、数据库的维护功能 数据库管理系统有许多实用程序提供给数据库管理员(DBA)运 行数据库系统时使用,主要的实用程序有:(1)数据装载程序。(2) 备份程序。(3)文件重组织程序。(4)性能监控程序。 2.2关系数据库 2.2.1关系棋型中的基本概念 关系的直观解释是二维表:在数学上它定义为笛卡尔积的子集
库管理系统成为用户与数据库之间的接口。(7)对数据的操作不一定 以记录为单位,也可以数据项为单位,增加了系统的灵活性。 2.1.3 数据库管理系统的功能 DBMS 是数据库系统的核心。其功能包括: 1、数据库的定义功能 DBMS 提供数据定义语言(DDL)定义数据库的三级结构,包括外 模式、概念模式、内模式及其相互之间的映像,定义数据的完整性、 安全控制等约束。 2、数据库的操纵功能 数据库管理系统提供数据操纵语言(DML)实现对数据库中数据 的操作。基本的数据操作分成两类四种:检索(查询)和更新(插入、 删除、修改)。 3、数据库的保护功能 (1)数据库的恢复。(2)数据库的并发控制。(3)数据库的完 整性控制。(4)数据库的安全性控制。 4、数据库的维护功能 数据库管理系统有许多实用程序提供给数据库管理员(DBA)运 行数据库系统时使用,主要的实用程序有:(1)数据装载程序。(2) 备份程序。(3)文件重组织程序。(4)性能监控程序。 2.2 关系数据库 2.2.1 关系模型中的基本概念 关系的直观解释是二维表;在数学上它定义为笛卡尔积的子集

关系模型中涉及的基本概念包括:(1)关系。(2)元组。(3)属 性。(4)主码(PK)。(5)外码(K)。(6)域。(7)关系模型。 关系必须满足如下性质:关系中每个元组(记录)的分量必须是 原子的,即表的每一列都是不可再分的:表中每一列的值只能取自同 一个域:表中列的次序可以任意交换:表中行的次序可以任意交换: 表中不允许出现完全相同的两行。 2.2.2关系模型中的三类完整性约束规则 1、实体完整性约束规则 这是指关系中的主码不允许取空值。 2、引用完整性钓束规则 这也称为参照完整性规则,是指不能引用不存在的记录。 3、用户定义的完整性约束规则 这是指对关系模式中的各个数据的数据类型、长度、取值范围等 的约束,由用户通过关系DBS提供的数据语言进行统一控制。 2.2.3结构化查询语言 结构化查询语言(SQL):是操作和检索关系数据库的事实上的标 准语言。 SL由四部分组成:(1)数据定义。(2)数据操纵。(3)数据控 制。(4)嵌入式SL的使用规定 SQL主要特点:(1)SQL类似于英语的自然语言,简洁、易用。 (2)SQL是一种非过程语言。(3)SQL是一种面向集合的语言,(4) SL既是自含式语言,又是嵌入式语言。(5)SQL集数据查询、数据
关系模型中涉及的基本概念包括:(1)关系。(2)元组。(3)属 性。(4)主码(PK)。(5)外码(FK)。(6)域。(7)关系模型。 关系必须满足如下性质:关系中每个元组(记录)的分量必须是 原子的,即表的每一列都是不可再分的;表中每一列的值只能取自同 一个域;表中列的次序可以任意交换;表中行的次序可以任意交换; 表中不允许出现完全相同的两行。 2.2.2 关系模型中的三类完整性约束规则 1、实体完整性约束规则 这是指关系中的主码不允许取空值。 2、引用完整性约束规则 这也称为参照完整性规则,是指不能引用不存在的记录。 3、用户定义的完整性约束规则 这是指对关系模式中的各个数据的数据类型、长度、取值范围等 的约束,由用户通过关系 DBMS 提供的数据语言进行统一控制。 2.2.3 结构化查询语言 结构化查询语言(SQL):是操作和检索关系数据库的事实上的标 准语言。 SQL 由四部分组成:(1)数据定义。(2)数据操纵。(3)数据控 制。(4)嵌入式 SQL 的使用规定。 SQL 主要特点:(1)SQL 类似于英语的自然语言,简洁、易用。 (2)SQL 是一种非过程语言。(3)SQL 是一种面向集合的语言。(4) SQL 既是自含式语言,又是嵌入式语言。(5)SQL 集数据查询、数据

定义、数据操纵、数据控制等功能于一体。 2.2.4关系数据库产品 按照关系数据模型构建的数据库称为关系数据库。关系数据库有 两大类:基于个人电脑(PC)的数据库和大型数据库。 2.3数据库设计 2.3.1数据库设计概述 对于数据库应用开发人员来说,使现实世界的信息流计算机化, 并对计算机化的信息进行各种操作,就是要考虑如何利用DWS、系 统软件和相关的硬件系统,将用户的要求转化成有效的数据结构,并 使数据库结构易于适应用户新的要求的过程,这个过程称为数据库设 计或数据建模。 数据库设计是指在特定的DBS环境下开发数据库应用系统,并 非设计DMS本身。数据库设计所涉及的内容包括结构特性设计和行 为特性设计两个方面。结构特性设计是指数据库总体概念的设计,它 是一个反映不同用户数据需求的、实现数据共享的系统。结构特性是 静态的。行为特性设计是指数据库用户的业务活动设计。用户通常通 过应用程序访问和操作数据库,与结构特性有关。 确切地说,数据库设计是指对于一个给定的环境,提供一个确定 最优数据模型与处理模式的逻辑设计以及一个确定数据库存储结构 与存取方法的物理设计,建立起既能反映现实世界信息和信息联系, 满足用户数据要求和加工要求,又能被某个DWS所接受,还能实现 系统目标,并有效存取数据的数据库
定义、数据操纵、数据控制等功能于一体。 2.2.4 关系数据库产品 按照关系数据模型构建的数据库称为关系数据库。关系数据库有 两大类:基于个人电脑(PC)的数据库和大型数据库。 2.3 数据库设计 2.3.1 数据库设计概述 对于数据库应用开发人员来说,使现实世界的信息流计算机化, 并对计算机化的信息进行各种操作,就是要考虑如何利用 DBMS、系 统软件和相关的硬件系统,将用户的要求转化成有效的数据结构,并 使数据库结构易于适应用户新的要求的过程,这个过程称为数据库设 计或数据建模。 数据库设计是指在特定的 DBMS 环境下开发数据库应用系统,并 非设计 DBMS 本身。数据库设计所涉及的内容包括结构特性设计和行 为特性设计两个方面。结构特性设计是指数据库总体概念的设计,它 是一个反映不同用户数据需求的、实现数据共享的系统。结构特性是 静态的。行为特性设计是指数据库用户的业务活动设计。用户通常通 过应用程序访问和操作数据库,与结构特性有关。 确切地说,数据库设计是指对于一个给定的环境,提供一个确定 最优数据模型与处理模式的逻辑设计以及一个确定数据库存储结构 与存取方法的物理设计,建立起既能反映现实世界信息和信息联系, 满足用户数据要求和加工要求,又能被某个 DBMS 所接受,还能实现 系统目标,并有效存取数据的数据库

数据库设计的基本原则是:(1)简单性,即所创建的数据结构应 尽可能直观,并且使得用户易于理解。(2)非冗余性,即在数据库中 没有重复的属性、记录和文件。 2.3.2数据库设计的步骤 对数据库系统生存期的划分,一般分为七个阶段:规划阶段、需 求分析阶段、概念设计阶段、逻辑设计阶段、物理设计阶段、实现阶 段、运行和维护阶段。 各阶段的工作如下: 1、规划阶段 规划阶段对建立数据库的必要性及可行性进行分析,确定数据库 系统在组织中和信息系统中的地位以及各个数据库之间的关系。 2、需求分析阶段 需求分析是整个数据库设计过程中比较复杂的一步,也是最重要 的一步,该阶段的任务是从数据库设计的角度出发,对组织要处理的 对象(组织、部门、企业等)进行详细调查,在了解原系统的概况 确定新系统功能的过程中,收集支持系统目标的基础数据及其处理。 3、概念设计阶段 概念设计是指把用户的信息要求统一到一个整体逻辑结构中。 4、逻辑设计阶段 逻辑设计的任务是把概念结构设计阶段设计好的基本实体一 联系模型转换为与选用的具体机器上的DBMS所支持的数据模型相符 合的逻辑结构,然后进行规范化,使之符合一定的范式要求
数据库设计的基本原则是:(1)简单性,即所创建的数据结构应 尽可能直观,并且使得用户易于理解。(2)非冗余性,即在数据库中 没有重复的属性、记录和文件。 2.3.2 数据库设计的步骤 对数据库系统生存期的划分,一般分为七个阶段:规划阶段、需 求分析阶段、概念设计阶段、逻辑设计阶段、物理设计阶段、实现阶 段、运行和维护阶段。 各阶段的工作如下: 1、规划阶段 规划阶段对建立数据库的必要性及可行性进行分析,确定数据库 系统在组织中和信息系统中的地位以及各个数据库之间的关系。 2、需求分析阶段 需求分析是整个数据库设计过程中比较复杂的一步,也是最重要 的一步。该阶段的任务是从数据库设计的角度出发,对组织要处理的 对象(组织、部门、企业等)进行详细调查,在了解原系统的概况、 确定新系统功能的过程中,收集支持系统目标的基础数据及其处理。 3、概念设计阶段 概念设计是指把用户的信息要求统一到一个整体逻辑结构中。 4、逻辑设计阶段 逻辑设计的任务是把概念结构设计阶段设计好的基本实体—— 联系模型转换为与选用的具体机器上的 DBMS 所支持的数据模型相符 合的逻辑结构,然后进行规范化,使之符合一定的范式要求

5、物理设计阶段 数据库物理设计的主要内容是确定数据库的存储结构和数据的 存放位置。 6、实现阶段 完成数据库的物理设计之后,设计人员就要用DS提供的数据 定义语言和其他实用程序将数据库逻辑设计和物理设计结果严格描 述出来,成为DWS可以接受的源代码,再经过调试产生目标模式, 然后就可以组织数据入库了。 7、运行和维护阶段 该阶段的工作主要是收集和记录系统实际运行的数据。 2.3.3数据库概念设计 概念设计的目标是产生反映组织信息需求的数据库概念结构,即 概念模型。 表达概念模型最常用的工具是实体一联系图(E—R图),它是 一种常用的概念模型设计工具。E一R图的基本概念是实体和联系。E 一R图用图形化的方法直观地描述了实体及其之间的关系。 ER图会用到下列一些术语:1、实体与实体集:2、属性:3、 域:4、键:5、联系与联系集。 2.3.4数据库逻辑设计 数据库逻辑设计的主要内容包括:E一R模型转换为关系模式: 对关系模式进行规范化,优化设计,即从提高效率出发,对模式进行 调整和改普
5、物理设计阶段 数据库物理设计的主要内容是确定数据库的存储结构和数据的 存放位置。 6、实现阶段 完成数据库的物理设计之后,设计人员就要用 DBMS 提供的数据 定义语言和其他实用程序将数据库逻辑设计和物理设计结果严格描 述出来,成为 DBMS 可以接受的源代码,再经过调试产生目标模式, 然后就可以组织数据入库了。 7、运行和维护阶段 该阶段的工作主要是收集和记录系统实际运行的数据。 2.3.3 数据库概念设计 概念设计的目标是产生反映组织信息需求的数据库概念结构,即 概念模型。 表达概念模型最常用的工具是实体——联系图(E—R 图),它是 一种常用的概念模型设计工具。E—R 图的基本概念是实体和联系。E —R 图用图形化的方法直观地描述了实体及其之间的关系。 E—R 图会用到下列一些术语:1、实体与实体集;2、属性;3、 域;4、键;5、联系与联系集。 2.3.4 数据库逻辑设计 数据库逻辑设计的主要内容包括:E—R 模型转换为关系模式; 对关系模式进行规范化,优化设计,即从提高效率出发,对模式进行 调整和改善

1、E一R模型向关系模型的转化 构造E一R图的目的是借助于反映现实世界的E一R图导出关系模 型,再通过关系型DBMS的DDL定义成关系数据库。 E一R模型中的主要成分是实体类型利和联系类型。 E一R图转换为关系模型的规则: 规则1:对于实体类型,可以这样转换:将每个实体类型转换成 一个关系模式,实体的属性即为关系模式的属性,实体标识符即为关 系模式的键。简单说,E一R图中的每个实体集,都应转换为一个关 系模式。 规则2:若实体间的联系是1:1的,可以在两个实体类型转换 成的两个关系模式中任意一个关系模式的属性中加入另一个关系模 式的键和联系类型的属性。 规则3:若实体间的联系是1:的,则两个实体分别应转换为 一个关系,把实体中的所有属性都对应设置为关系的字段。 规则4:若实体间的联系是m:n的,则将两个实体分别转换为 一个关系,将联系类型也转换成关系模式。其属性为两端实体类型的 键加上联系类型的属性,而键为两端实体键的组合。 2、关系模式的规范化 给出一组数据,如何构造一个合适于它们的数据库模式,是数据 库的逻辑设计需要考虑的问题。不好的关系模式设计存在下列问题: 数据冗余、更新异常、插入异常、删除异常。关系数据库逻辑设计的 一个有力工具是关系数据库的规范化理论
1、E—R 模型向关系模型的转化 构造E—R 图的目的是借助于反映现实世界的E—R图导出关系模 型,再通过关系型 DBMS 的 DDL 定义成关系数据库。 E—R 模型中的主要成分是实体类型和联系类型。 E—R 图转换为关系模型的规则: 规则 1:对于实体类型,可以这样转换:将每个实体类型转换成 一个关系模式,实体的属性即为关系模式的属性,实体标识符即为关 系模式的键。简单说,E—R 图中的每个实体集,都应转换为一个关 系模式。 规则 2:若实体间的联系是 1:1 的,可以在两个实体类型转换 成的两个关系模式中任意一个关系模式的属性中加入另一个关系模 式的键和联系类型的属性。 规则 3:若实体间的联系是 1:n 的,则两个实体分别应转换为 一个关系,把实体中的所有属性都对应设置为关系的字段。 规则 4:若实体间的联系是 m :n 的,则将两个实体分别转换为 一个关系,将联系类型也转换成关系模式。其属性为两端实体类型的 键加上联系类型的属性,而键为两端实体键的组合。 2、关系模式的规范化 给出一组数据,如何构造一个合适于它们的数据库模式,是数据 库的逻辑设计需要考虑的问题。不好的关系模式设计存在下列问题: 数据冗余、更新异常、插入异常、删除异常。关系数据库逻辑设计的 一个有力工具是关系数据库的规范化理论

2.4数据仓库、联机分析处理与数据挖掘 2.4.1数据仓库 数据仓库(Dm):是面向主题的、集成的、与时间密切相关的、 相对稳定的数据集合,其目的是支持管理人员业务分析与决策的制 定。 Dm是面向主题的。主题是指企业或组织的高层实体,如顾客、 销售商、产晶、活动等。面向主题是与传统数据库面向应用相对应的。 面向主题的数据库设计将产生相对稳定的数据库应用软件产品。 D丽是集成的。由于事务型系统是面向过程或功能的,从而导致 在不同的应用系统中会出现数据编码的不一致、数据量度标准的不一 致等不合理现象。嘴很好地解决了以上问题。在DW中,通过集成, 数据在命名、量度标准、编码结构以及数据的物理属性等方面均收得 了一致。 D师中的数据是与时间密切相关的。D嘴中的数据代表了事物在很 长的时间段内的变化。中的数据一旦确定,则通常不再进行更改。 D丽是稳定的。在事务型系统中,数据库中的数据经常以记录为 单位进行插入、删除和修改等操作。但DW的主要目的是为管理人员 的决策提供查询帮助,因此,D调中的数据操作极为简单。通常DW中 的数据操作有两种类型:数据的载入和存取(无须修改)。因此D嘴中 的数据是相对稳定的。 Dm不是对传统的操作型数据库的替代。DW和操作型数据库在企 业的信息环境中承担着不同的任务(高层决策分析和日常操作性处
2.4 数据仓库、联机分析处理与数据挖掘 2.4.1 数据仓库 数据仓库(DW):是面向主题的、集成的、与时间密切相关的、 相对稳定的数据集合,其目的是支持管理人员业务分析与决策的制 定。 DW 是面向主题的。主题是指企业或组织的高层实体,如顾客、 销售商、产品、活动等。面向主题是与传统数据库面向应用相对应的。 面向主题的数据库设计将产生相对稳定的数据库应用软件产品。 DW 是集成的。由于事务型系统是面向过程或功能的,从而导致 在不同的应用系统中会出现数据编码的不一致、数据量度标准的不一 致等不合理现象。DW 很好地解决了以上问题。在 DW 中,通过集成, 数据在命名、量度标准、编码结构以及数据的物理属性等方面均取得 了一致。 DW 中的数据是与时间密切相关的。DW 中的数据代表了事物在很 长的时间段内的变化。DW 中的数据一旦确定,则通常不再进行更改。 DW 是稳定的。在事务型系统中,数据库中的数据经常以记录为 单位进行插入、删除和修改等操作。但 DW 的主要目的是为管理人员 的决策提供查询帮助,因此,DW 中的数据操作极为简单。通常 DW 中 的数据操作有两种类型:数据的载入和存取(无须修改)。因此 DW 中 的数据是相对稳定的。 DW 不是对传统的操作型数据库的替代。DW 和操作型数据库在企 业的信息环境中承担着不同的任务(高层决策分析和日常操作性处

理),并发挥着不同的作用。用于高层决策的嘴需要丰富的数据基础, 存储的数据量庞大,同时要使DW真正发挥作用,还要有高层分析工 具,因而Dm的成本一般比较高。 2.4.2联机分析处理 联机分析处理(0AP):是一门软件技术,专门设计用于支持复 杂分析操作、侧重对决策人员和高层管理人员的决策支持,可以应分 析人员要求快速、灵活地进行大数据量的复杂查询处理,并以直观地 形式提供查询结果。 2.4.3数据挖据技术 1、数据挖掘的概念 数据挖掘(M):是从数据库或D嘴中发现并提取隐藏在其中的模 式信息的一种技术,目的是帮助决策者寻找数据之间潜在的关系,发 现被忽略的要素,而这些信息对预测趋势和决策行为是十分有用的。 2、模式类型 通过DW能够发现的模式有如下几种:(1)关联:(2)序列:(3) 分类;(4)聚类:(5)预测。 2.4.4数据仓库、联机分析处理、数据挖掘之间的关系 Dm只是进行分析决策的基础,除此之外,其在管理和决策方面 的价值还必须借助强有力的数据分析工具才能体现。OLAP和DM作为 数据分析工具代表了不同的数据处理分析层次。(书41页图) 2.4.5数据仓库、联机分析处理、数据挖掘之间的应用 D丽的最终用户可以分为两大类:信息使用者和知识挖掘者。DW
理),并发挥着不同的作用。用于高层决策的 DW 需要丰富的数据基础, 存储的数据量庞大,同时要使 DW 真正发挥作用,还要有高层分析工 具,因而 DW 的成本一般比较高。 2.4.2 联机分析处理 联机分析处理(OLAP):是一门软件技术,专门设计用于支持复 杂分析操作、侧重对决策人员和高层管理人员的决策支持,可以应分 析人员要求快速、灵活地进行大数据量的复杂查询处理,并以直观地 形式提供查询结果。 2.4.3 数据挖掘技术 1、数据挖掘的概念 数据挖掘(DM):是从数据库或 DW 中发现并提取隐藏在其中的模 式信息的一种技术,目的是帮助决策者寻找数据之间潜在的关系,发 现被忽略的要素,而这些信息对预测趋势和决策行为是十分有用的。 2、模式类型 通过 DM 能够发现的模式有如下几种:(1)关联;(2)序列;(3) 分类;(4)聚类;(5)预测。 2.4.4 数据仓库、联机分析处理、数据挖掘之间的关系 DW 只是进行分析决策的基础,除此之外,其在管理和决策方面 的价值还必须借助强有力的数据分析工具才能体现。OLAP 和 DM 作为 数据分析工具代表了不同的数据处理分析层次。(书 41 页图) 2.4.5 数据仓库、联机分析处理、数据挖掘之间的应用 DW 的最终用户可以分为两大类:信息使用者和知识挖掘者。DW

的信息使用者以一种可以预测的、重复的方式来使用师,其主要应 用是在管理控制层上利用D嘴监控企业战略实施的效果,即通过对经 营状况的关键指标的监控,判断某一经营战略是否有效,且将具体的 评价效果反馈给知识挖掘者。 D嘴的知识挖掘者对D嘴的应用主要涉及两个方面:一是对从不知 晓的企业运营的内在知识进行挖掘,希望挖掘出隐含在企业数据中的 一些商业知识、商业模式,为制定企业发展战略、培养企业核心竞争 力提供帮助:二是针对企业过去的成功或失败经验,探索成功或失败 的原因,使企业维续保持成功或免蹈覆撒。 W技术在企业决策支持中有广泛的应用前景,典型的应用包括: (1)客户的细分, (2)客户赢利能力分析。 (3)客户的获取与保持分析 (4)市场营销中的应用
的信息使用者以一种可以预测的、重复的方式来使用 DW,其主要应 用是在管理控制层上利用 DW 监控企业战略实施的效果,即通过对经 营状况的关键指标的监控,判断某一经营战略是否有效,且将具体的 评价效果反馈给知识挖掘者。 DW 的知识挖掘者对 DW 的应用主要涉及两个方面:一是对从不知 晓的企业运营的内在知识进行挖掘,希望挖掘出隐含在企业数据中的 一些商业知识、商业模式,为制定企业发展战略、培养企业核心竞争 力提供帮助;二是针对企业过去的成功或失败经验,探索成功或失败 的原因,使企业继续保持成功或免蹈覆辙。 DM 技术在企业决策支持中有广泛的应用前景,典型的应用包括: (1)客户的细分。 (2)客户赢利能力分析。 (3)客户的获取与保持分析。 (4)市场营销中的应用