
第五节数据仓库与数据挖掘技术 一、数据仓库 (一)数据仓库概念 数据仓库是近年来才提出的新概念。数据仓库之父Bi11 Inmon在1991年出版的 《Building the Data Warehouse》一书中所提出的定义被广泛接受,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的 (Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。传统数据库主要面向业务处理,而数据仓库面向复杂数据分析、高层决 策支持。数据仓库提供来自种类不同的应用系统的集成化和历史化的数据,为有关部门或企 业进行全局范围的战略决策和长期趋势分析提供了有效的支持。数据仓库使用户拥有任意提 取数据的自由,而不干扰业务数据库的正常运行。当前,一些企业已经在传统数据处理方面 有了较丰富的经验,他们采用数据仓库希望能从中得到更多好处,例如,以合理的代价取得 有效的决策支持、促进企业中业务处理过程的重组、改善并强化对客户的服务、强化企业的 资产/负债管理、促进市场优化、加速资金周转、帮助实现企业的规模优化。 (二)数据仓库特点 1.数据仓库是面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库 中的数据是按照一定的主题域进行组织的。 2.数据仓库是集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇 总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业 的一致的全局信息。 3.数据仓库是相对稳定的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询 操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4.数据仓库是反映历史变化
第五节 数据仓库与数据挖掘技术 一、数据仓库 (一)数据仓库概念 数据仓库是近年来才提出的新概念。数据仓库之父 Bill Inmon 在 1991 年出版的 《Building the Data Warehouse》一书中所提出的定义被广泛接受,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的 (Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。传统数据库主要面向业务处理,而数据仓库面向复杂数据分析、高层决 策支持。数据仓库提供来自种类不同的应用系统的集成化和历史化的数据,为有关部门或企 业进行全局范围的战略决策和长期趋势分析提供了有效的支持。数据仓库使用户拥有任意提 取数据的自由,而不干扰业务数据库的正常运行。当前,一些企业已经在传统数据处理方面 有了较丰富的经验,他们采用数据仓库希望能从中得到更多好处,例如,以合理的代价取得 有效的决策支持、促进企业中业务处理过程的重组、改善并强化对客户的服务、强化企业的 资产/负债管理、促进市场优化、加速资金周转、帮助实现企业的规模优化。 (二)数据仓库特点 1.数据仓库是面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库 中的数据是按照一定的主题域进行组织的。 2.数据仓库是集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇 总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业 的一致的全局信息。 3.数据仓库是相对稳定的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询 操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4.数据仓库是反映历史变化

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数 据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋 势做出定量分析和预测。 (三)数据仓库的实现方式 数据仓库是一个过程而不是一个项目。数据仓库系统是一个信息提供平台,他从业务处 理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据 中获取信息和知识。 从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存 储(Data Storage)、数据访问(Data Access)三个关键部分。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库 不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营 的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给 相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是 一个工程,是一个过程。 二、数据挖掘 数据采掘(Data Mining),就是从大型数据库的数据中提取人们感兴趣的知识。这些知 识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念(Concepts)、规则(Rules)、 规律(Regularities)、模式(Patterns)等形式。这种定义把数据采掘的对象定义为数据 库。而更广义的说法是数据采掘意味着在一些事实或观察数据的集合中寻找模式的决策支持 过程。数据采掘的对象不仅是数据库,也可以是文件系统,或其它任何组织在一起的数据集 合,例如WWW信息资源。 在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等 关键技术。 1.数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过 抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。 数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数 据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源 的变化,使系统更便于管理和维护。 2.数据的存储和管理
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数 据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋 势做出定量分析和预测。 (三)数据仓库的实现方式 数据仓库是一个过程而不是一个项目。数据仓库系统是一个信息提供平台,他从业务处 理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据 中获取信息和知识。 从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存 储(Data Storage)、数据访问(Data Access)三个关键部分。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库 不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营 的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给 相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是 一个工程,是一个过程。 二、数据挖掘 数据采掘(Data Mining),就是从大型数据库的数据中提取人们感兴趣的知识。这些知 识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念(Concepts)、规则(Rules)、 规律(Regularities)、模式(Patterns)等形式。这种定义把数据采掘的对象定义为数据 库。而更广义的说法是数据采掘意味着在一些事实或观察数据的集合中寻找模式的决策支持 过程。数据采掘的对象不仅是数据库,也可以是文件系统,或其它任何组织在一起的数据集 合,例如 WWW 信息资源。 在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等 关键技术。 1.数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过 抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。 数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数 据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源 的变化,使系统更便于管理和维护。 2.数据的存储和管理

数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的 表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累 积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量 的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库 的功能,将普通关系数据库改造成适合担当数据仓库的服务器。 3.数据的展现 在数据展现方面主要的方式有以下几种方式: (1)查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询: (2)报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表: (3)可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模 拟、计算机动画技术表现复杂数据及其相互关系: (4)统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析: (5)挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。 三、数据仓库与数据挖据的应用 数据挖掘在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的数据仓储或数 据库,皆可利用数据挖掘工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售 业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。 于销售数据中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,其它 包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例:直效行销强调 的分众概念与数据库行销方式在导入Data Mining的技术后,使直效行销的发展性更为强大, 例如利用Data Mining分析顾客群之消费行为与交易纪录,结合基本数据,并依其对品牌价 值等级的高低来区隔顾客,进而达到差异化行销的目的:制造业对Data Mining的需求多运 用在品质控管方面,由制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效 率。 近来,电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(Fraud Detection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,Data Mining 可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目 的。财务金融业可以利用Data Mining来分析市场动向,并预测个别公司的营运以及股价 走向。Data Mining的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流 程控制的效率
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的 表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累 积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量 的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库 的功能,将普通关系数据库改造成适合担当数据仓库的服务器。 3.数据的展现 在数据展现方面主要的方式有以下几种方式: (1)查询:实现预定义查询、动态查询、OLAP 查询与决策支持智能查询; (2)报表:产生关系数据表格、复杂表格、OLAP 表格、报告以及各种综合报表; (3)可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模 拟、计算机动画技术表现复杂数据及其相互关系; (4)统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析; (5)挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的识。 三、数据仓库与数据挖掘的应用 数据挖掘在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的数据仓储或数 据库,皆可利用数据挖掘工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售 业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。 于销售数据中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,其它 包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例;直效行销强调 的分众概念与数据库行销方式在导入Data Mining的技术后,使直效行销的发展性更为强大, 例如利用 Data Mining 分析顾客群之消费行为与交易纪录,结合基本数据,并依其对品牌价 值等级的高低来区隔顾客,进而达到差异化行销的目的;制造业对 Data Mining 的需求多运 用在品质控管方面,由制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效 率。 近来,电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(Fraud Detection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,Data Mining 可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目 的。财务金融业可以利用 Data Mining 来分析市场动向,并预测个别公司的营运以及股价 走向。Data Mining 的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流 程控制的效率

【本章小结】 本章分五节介绍企业管理信息化所需的计算机软硬件平台: 第一节计算机基础知识介绍了电子计算机的产生、发展、特点、分类、应用及工作原理。 通过本节学习,主要让大家了解计算机的基础知识。 第二节计算机硬件系统及其选择介绍了计算机硬件系统的基本组成、计算机的总线结构 及企业信息化计算机选型。通过本节学习,主要让大家了解组成计算机硬件系统的常用部件 及其功能,了解什么是计算机的总线以及总线的作用和分类,并能根据企业信息化的需要进 行计算机的选型。 第三节计算机软件系统及其选择介绍了计算机软件系统的构成及企业信息化软件系统 选型。通过本节学习,让大家了解到什么是软件、系统软件和应用软件及构成计算机软件系 统的组成部分,了解企业信息化所需要的软件系统的组成。 第四节计算机网络系统及其构建介绍了计算机网络的分类、计算机网络体系结构及互联 网及其应用。通过本节学习,让大家了解什么是计算机网络以及按网络距离、拓扑结构对计 算机网络进行的分类,并对计算机网络体系结构有个初浅的认识。 第五节数据仓库与数据挖掘技术介绍了企业管理信息化数据处理的两个关键技术数据 仓库和数据挖掘技术。通过本节学习,让大家了解数据仓库与数据挖掘的基本概念及其应用
【本章小结】 本章分五节介绍企业管理信息化所需的计算机软硬件平台: 第一节计算机基础知识介绍了电子计算机的产生、发展、特点、分类、应用及工作原理。 通过本节学习,主要让大家了解计算机的基础知识。 第二节计算机硬件系统及其选择介绍了计算机硬件系统的基本组成、计算机的总线结构 及企业信息化计算机选型。通过本节学习,主要让大家了解组成计算机硬件系统的常用部件 及其功能,了解什么是计算机的总线以及总线的作用和分类,并能根据企业信息化的需要进 行计算机的选型。 第三节计算机软件系统及其选择介绍了计算机软件系统的构成及企业信息化软件系统 选型。通过本节学习,让大家了解到什么是软件、系统软件和应用软件及构成计算机软件系 统的组成部分,了解企业信息化所需要的软件系统的组成。 第四节计算机网络系统及其构建介绍了计算机网络的分类、计算机网络体系结构及互联 网及其应用。通过本节学习,让大家了解什么是计算机网络以及按网络距离、拓扑结构对计 算机网络进行的分类,并对计算机网络体系结构有个初浅的认识。 第五节数据仓库与数据挖掘技术介绍了企业管理信息化数据处理的两个关键技术数据 仓库和数据挖掘技术。通过本节学习,让大家了解数据仓库与数据挖掘的基本概念及其应用