忘電子工掌出社 第13章 SQL Server的数据仓库设计与使用 13.1 SQL Server数据仓库开发工具及应 用 ·13.2 erver数据仓库的创建 ·13.3 SQL Server数据仓库访间与操纵 ·13.4 Server中的数据提取与加载 ·13.5 SQL Server中的数据挖掘工具与应用
第13章 SQL Server 的数据仓库设计与使用 • 13.1 SQL Server 数据仓库开发工具及应 用 • 13.2 SQL Server 数据仓库的创建 • 13.3 SQL Server 数据仓库访问与操纵 • 13.4 SQL Server 中的数据提取与加载 • 13.5 SQL Server 中的数据挖掘工具与应用
3% QL Server数据仓库开发工具及应用 131.1数据仓库的基本概念 数据仓库是面向主题的、综合的、以时间为变量的、非易变性的 数据集合,用来支持管理决策 13.1.2数据仓库架构 报告、查询工 元数据 具 外部数据源 数据提取、转 换、加载 数据仓库 OLAP工具 (数据提取、转换层ETL) 管理平台 知识库 数据挖掘 工具 返回目录
13.1 SQL Server 数据仓库开发工具及应用 • 13.1.1 数据仓库的基本概念 • 数据仓库是面向主题的、综合的、以时间为变量的、非易变性的 数据集合,用来支持管理决策 • 13.1.2 数据仓库架构 • 返回目录
些 QL Servers数据仓库开发工具 · SQL Server有许多应用于数据仓库的工具,为数据仓库的设计、仓 建、分析和应用提供了完整的解决方案 1.关系数据库 2.数据转换服务 3.复制 4.分析服务( Analysis Services) 分析服务提供联机分析处理(OLAP)技术,用以组织大量的数据仓 库数据供客户端工具进行快速分析,并提供先进的数据挖掘技术以 分析和发现数据仓库数据内的信息 5. English Query English Query通过用英语进行查询,提供对数据仓库数据的访问。 6.元数据服务( Meta Data services) 在 SQL Server的多种不同工具中,有许多可将中央知识库的元数据 存储在msdb系统数据库中。 SQL Server元数据服务提供用于査看这 些元数据的浏览器,并提供用于开发自定义元数据应用程序的应用 程序接口。对于每个分析服务器,有一个称作“ Analysis Services知 识库”的知识库,以便为分析服务器的对象(多维数据集、维度等) 存储元数据
• 13.1.3 SQL Server数据仓库开发工具 • SQL Server有许多应用于数据仓库的工具,为数据仓库的设计、创 建、分析和应用提供了完整的解决方案。 • 1. 关系数据库 • 2. 数据转换服务 • 3. 复制 • 4. 分析服务(Analysis Services) • 分析服务提供联机分析处理 (OLAP) 技术,用以组织大量的数据仓 库数据供客户端工具进行快速分析,并提供先进的数据挖掘技术以 分析和发现数据仓库数据内的信息。 • 5. EnglishQuery • English Query 通过用英语进行查询,提供对数据仓库数据的访问。 • 6. 元数据服务(Meta Data Services) • 在 SQL Server的多种不同工具中,有许多可将中央知识库的元数据 存储在 msdb 系统数据库中。SQL Server 元数据服务提供用于查看这 些元数据的浏览器,并提供用于开发自定义元数据应用程序的应用 程序接口。对于每个分析服务器,有一个称作“Analysis Services 知 识库”的知识库,以便为分析服务器的对象(多维数据集、维度等) 存储元数据。 返回目录
tx13. QL Server数据仓库的创建 进行数据仓库的创建前,首先要根据用户的需求和业务流程对目 标数据仓库进行设计 1321数据仓库的设计 · Ralph Kimball根据数据仓库设计的一般规律,提出了数据仓库设 计的九个步骤: ·第一步:选择主题的内容 第二步:确定如何表达事实表 第三步:识别并确认维度 第四步:选择事实 第五步:在事实表中存储事先计算的公式 第六步:修饰维度表 第七步:选择数据库的持续时间 第八步:跟踪变化缓慢的维度 第九步:决定查询优先级别和查询方式 下面根据 Ralph Kimbal.思想,阐述数据仓库设计的基本要点。 返回目录
13.2 SQL Server 数据仓库的创建 • 进行数据仓库的创建前,首先要根据用户的需求和业务流程对目 标数据仓库进行设计。 • 13.2.1 数据仓库的设计 • Ralph Kimball根据数据仓库设计的一般规律,提出了数据仓库设 计的九个步骤: • 第一步:选择主题的内容 • 第二步:确定如何表达事实表 • 第三步:识别并确认维度 • 第四步:选择事实 • 第五步:在事实表中存储事先计算的公式 • 第六步:修饰维度表 • 第七步:选择数据库的持续时间 • 第八步:跟踪变化缓慢的维度 • 第九步:决定查询优先级别和查询方式 • 下面根据Ralph Kimball的思想,阐述数据仓库设计的基本要点。 • 返回目录
忘電子工掌出社 13.2.2创建数据仓库 ·一旦完成了数据仓库设计后,就可以在分析服务器上建立一个数 据库,该数据库充当着定义了想要创建的数据仓库的对象的逻辑 存储空间。在 SQL Server上创建数据仓库,主要包括下列重要步 骤 ·1.建立数据库和数据源. 2.创建维 ·3.创建多维数据集. 4.创建虚拟多维数据集 返回目录
• 13.2.2 创建数据仓库 • 一旦完成了数据仓库设计后,就可以在分析服务器上建立一个数 据库,该数据库充当着定义了想要创建的数据仓库的对象的逻辑 存储空间。在SQL Server上创建数据仓库,主要包括下列重要步 骤: • 1.建立数据库和数据源. • 2.创建维. • 3.创建多维数据集. • 4.创建虚拟多维数据集。 • 返回目录
忘電子工掌出社 13.3 SQL Server数据仓库访问与操纵 1331多维数据集浏览器 Analysis manager提供多维数据集浏览器,使用这个工具可以查 看多维数据集中的数据,使您能方便、快捷地访问多维数据集数 据。多维数据集浏览器使您得以快速地以平面二维网格格式浏览 多维数据 1332远程连接访问多维数据集 使用该工具使远程客户通过 OFFICE2000的 EXCEL或 ACCESS访 服务器中的多维数据集。在使用之前要求 OFFICE加装 Microsoft Query工具。 13.3.3 ENGLISH OUERY English Query以英语作为自然语言用于访问由 SQLServer分析服 务创建的数据仓库数据库或多维数据集中的数据。 English Query 是与 SQL Server集成的工具,需要独立安装。 13.34其它 1.SQL查询 2.钻取( drill through) 3.自定义应用程序 返回目录
13.3 SQL Server 数据仓库访问与操纵 • 13.3.1 多维数据集浏览器 • Analysis Manager 提供多维数据集浏览器,使用这个工具可以查 看多维数据集中的数据,使您能方便、快捷地访问多维数据集数 据。多维数据集浏览器使您得以快速地以平面二维网格格式浏览 多维数据。 • 13.3.2远程连接访问多维数据集 • 使用该工具使远程客户通过OFFICE2000的EXCEL或ACCESS访问 服务器中的多维数据集。在使用之前要求OFFICE加装Microsoft Query工具。 • 13.3.3 ENGLISHQUERY • English Query以英语作为自然语言用于访问由SQL Server 分析服 务创建的数据仓库数据库或多维数据集中的数据。English Query 是与SQL Server集成的工具,需要独立安装。 • 13.3.4 其它 • 1. SQL 查询 • 2. 钻取 (drill through) • 3. 自定义应用程序 返回目录
t3 QL Server中的数据提取与加载 13.41数据提取转换层(ETL) ·数据提取转换层( Extraction Transformation Layer,ETL)是 从薮据源中提取数据并将其转换到仓库服务器中的过程,主要包 括数据提取、转换和加载三部分的内容 13.42数据提取转换层的应用工具 ·数据转换服务(DTS)是数据提取转换层工作流的最重要的工具, 它主要包括下列一些重要的应用: 作为提取数据源的重要工具 ·2.作为数据转换的重要工具 ·3.作为数据加载的重要工具 数据提取转换层的应用工具除了数据转换服务(DTS)工具外,还 有 SQL Server提供的其它工具,例如复制, Transact-SQL和bcp 实用工具等。 返回目录
13.4 SQL Server 中的数据提取与加载 • 13.4.1数据提取转换层(ETL) • 数据提取转换层(Extraction Transformation Layer, ETL)是 从数据源中提取数据并将其转换到仓库服务器中的过程,主要包 括数据提取、转换和加载三部分的内容。 • 13.4.2数据提取转换层的应用工具 • 数据转换服务(DTS)是数据提取转换层工作流的最重要的工具, 它主要包括下列一些重要的应用: • 1. 作为提取数据源的重要工具 • 2. 作为数据转换的重要工具 • 3. 作为数据加载的重要工具 • 数据提取转换层的应用工具除了数据转换服务 (DTS)工具外,还 有SQL Server提供的其它工具,例如复制,Transact-SQL和bcp 实用工具等。 • 返回目录
3. QLServer中的数据挖掘工具与应用 13.51数据挖掘的基本概念 数据挖掘是帮助终端用户从大量数据中提取有用信息的过程。数 据挖掘的数据源主要是数据仓库和关系数据库。数据挖掘是一门 交叉学科涉及数据库、人工智能、数理统计等多学科知识。 数据挖掘常用的分析方法有:决策树、分类分析、聚类分析、神 经网络、遗传算法、规则推导、关联分析和时间序列分析等多种 方法。 SQL Server的分析服务提供了建立在数据仓库基础上的数 据挖掘应用的接口和常用的数据挖掘技术工具 13.52 SQL Server的数据挖掘模型 数据挖掘模型是一个虚拟结构,它表示关系或多维数据的分组和 预测分析。 若要确定数据挖掘模型中每个特性的相对重要性,该模型需经历 称为挖掘模型培训的过程。 作为数据挖掘进程的中心,数据挖掘模型算法决定如何分析数据 挖掘模型的事例 目前,在 SQL Server的分析服务中提供了两类数据挖掘模型,即 Microsoft决策树模型和 MMicrosoft聚集模型
13.5 SQL Server 中的数据挖掘工具与应用 • 13.5.1 数据挖掘的基本概念 • 数据挖掘是帮助终端用户从大量数据中提取有用信息的过程。数 据挖掘的数据源主要是数据仓库和关系数据库。数据挖掘是一门 交叉学科涉及数据库、人工智能、数理统计等多学科知识。 • 数据挖掘常用的分析方法有:决策树、分类分析、聚类分析、神 经网络、遗传算法、规则推导、关联分析和时间序列分析等多种 方法。SQL Server的分析服务提供了建立在数据仓库基础上的数 据挖掘应用的接口和常用的数据挖掘技术工具。 • 13.5.2 SQLServer的数据挖掘模型 • 数据挖掘模型是一个虚拟结构,它表示关系或多维数据的分组和 预测分析。 • 若要确定数据挖掘模型中每个特性的相对重要性,该模型需经历 称为挖掘模型培训的过程。 • 作为数据挖掘进程的中心,数据挖掘模型算法决定如何分析数据 挖掘模型的事例。 • 目前,在SQL Server的分析服务中提供了两类数据挖掘模型,即 Microsoft决策树模型和Microsoft聚集模型。 返回目录
出决策树分析 决策树算法是基于分类概念的算法构造树,此树将基 于培训集中的剩余列预测列值。因此,树中的每个节 点代表一列的特定事例 13.54聚类分析 ·聚类是按特定的标准将数据归类成组。聚类算法是 种期望方法,它使用迭代完善技术将相似的记录分组 到附近区域。 返回目录
• 13.5.3 决策树分析 • 决策树算法是基于分类概念的算法构造树,此树将基 于培训集中的剩余列预测列值。因此,树中的每个节 点代表一列的特定事例。 • 13.5.4 聚类分析 • 聚类是按特定的标准将数据归类成组。聚类算法是一 种期望方法,它使用迭代完善技术将相似的记录分组 到附近区域。 • 返回目录