36 《数据库新技术》 第5章数据仓库与数据挖掘 电子科技大学计算机学院 魏祖宽 anl exweeQuestc.edu.cn 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 电子科技大学 计算机学院 魏祖宽 anlexwee@uestc.edu.cn 《数据库新技术》 第5章 数据仓库与数据挖掘
本章内容 ☒ 36 数据集成 数据仓库 数据挖掘 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 数据集成 数据仓库 数据挖掘
数据集成 概述 数据集成的必要性 ■历史数据的价值—数据是资产(增值、交易) ◆开发或引进许多独立运行的应用系统 ◆存储、管理、维护数据 ■异构环境数据源 ◆文件数据库、网络数据库等,不同时期、不同公司、不同工具、不同平 台上开发,运行在不同的操作系统和数据库平台上; ◆系统彼此封闭、数据无法交换共享,形成冗余数据、垃圾数据,无法数 据一致性 ■企业应用系统需要访问各种异构数据源,需要将内部数据进 行发布和交换 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 数据集成的必要性 历史数据的价值——数据是资产(增值、交易) 开发或引进许多独立运行的应用系统 存储、管理、维护数据 异构环境数据源 文件数据库、网络数据库等,不同时期、不同公司、不同工具、不同平 台上开发,运行在不同的操作系统和数据库平台上; 系统彼此封闭、数据无法交换共享,形成冗余数据、垃圾数据, 无法数 据一致性. 企业应用系统需要访问各种异构数据源,需要将内部数据进 行发布和交换
数据集成 概述 > 目的: ■把具有不同来源、格式 用户 、特点和性质的数据在 逻辑上或物理上有机地 集中起来为企业提供全 请求 结果 面的数据共享。 >关键: 数据集成系统 ■以一种统一的数据模式 描述各数据源中的数据 ,屏蔽它们的平台、数 据结构等异构性,实现 熟柴一 刻照紧N 菊照紧的 数据的无缝集成。 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 目的: 把具有不同来源、格式 、特点和性质的数据在 逻辑上或物理上有机地 集中起来为企业提供全 面的数据共享 。 关键: 以一种统一的数据模式 描述各数据源中的数据 ,屏蔽它们的平台、数 据结构等异构性,实现 数据的无缝集成。 数 据 源 1 数据集成系统 数 据 源 2 数 据 源 3 请求 结果 用户
数据集成 概述 ☒ >数据集成的难,点 ■异构性:数据模型异构、系统异构 ◆数据语义不同 ◆相同语义的数据的表示形式不同 ◆数据源的使用环境不同:不同的硬件设备、操作系统、网络协议 ■分布性:数据源分布在不同地,点,在连接、传输和安全(权限)方面 的问题。 ■自治性:集成系统不影响各局部应用系统,局部数据源保持独立性 ◆在不通知集成系统的前提下改变自身的结构和数据 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 数据集成的难点 异构性:数据模型异构、系统异构 数据语义不同 相同语义的数据的表示形式不同 数据源的使用环境不同:不同的硬件设备、操作系统、网络协议 分布性:数据源分布在不同地点,在连接、传输和安全(权限)方面 的问题。 自治性:集成系统不影响各局部应用系统,局部数据源保持独立性 在不通知集成系统的前提下改变自身的结构和数据
数据集成 方法分类 ☒ 数据集成方法的分类 ■ 数据转换方法(联邦数据库系统) ◆松散集成,通过转换工具实现应用系统之间的数据转换和交换,较低 层次的集成; ■数据聚合方法(中间件模式) ◆借助于中间件系统构造一个虚拟的全局数据模式,是一种集中式管理、 分布式存储的较高层次的集成模式。 ■抽取、转换和装载但TL)(数据仓库模式) ◆通过对异构数据源中的数据进行分析、转换和装载,建立一个数据 仓库,面向企业决策的数据集成方法 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 数据集成方法的分类 数据转换方法(联邦数据库系统) 松散集成,通过转换工具实现应用系统之间的数据转换和交换,较低 层次的集成; 数据聚合方法(中间件模式) 借助于中间件系统构造一个虚拟的全局数据模式, 是一种集中式管理、 分布式存储的较高层次的集成模式。 抽取、转换和装载(ETL) (数据仓库模式) 通过对异构数据源中的数据进行分析、转换和装载, 建立一个数据 仓库,面向企业决策的数据集成方法
数据集成 数据转换方法(联邦) ☒ 通过转换工具在数据库之间进行模式映射,复制、转换数 据库中的数据; >可又分为紧耦合和松耦合两种 ■ 紧耦合提供统一的访问模式,一般是静态的,在增加数据源上比 较困难; ■松耦合则不提供统一的接口,但可以通过统一的语言访问数据源 ,其中核心的是必须解决所有数据源语义上的问题。 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 通过转换工具在数据库之间进行模式映射,复制、转换数 据库中的数据; 可又分为紧耦合和松耦合两种 紧耦合提供统一的访问模式,一般是静态的,在增加数据源上比 较困难; 松耦合则不提供统一的接口,但可以通过统一的语言访问数据源 ,其中核心的是必须解决所有数据源语义上的问题
数据集成 数据转换方法(联邦) 2:DTS Package:1 口▣☒ > 数据转换工具 Eackage里dit Connection Task¥ork电ow 日台四黄鱼路路地■阳Q DBMS自带的转换、迁移工具 Connection 目 目风3 destinetable ◆-Oracle的Migration Workbench(SQL*LOAD) 80 品司 ◆-Microsoft SQL Server的DTS(SSIS) 吗 Task ◆一通用性不强 袋沙壶 Execute SQL T... 当 ■应用系统内部集成转换工具EDI 自习动 红图可 ◆EDI(Electric Data Interchange,电子数据交换) 是一种利用计算机进行商务处理的新方法,它 是将贸易、运输、保险、银行和海关等行业的 信息,用一种国际公认的标准格式,通过计算 机通信网络,使各有关部门、公司和企业之间 进行数据交换和处理,并完成以贺易为中心的 全部业务过程。 ◆例如:有一个工厂采用了BDI系统,它通过计算 机通信网络接收到来自用户的一笔BDI方式的 订货单,工厂的EDI系统随即检查订货单是否 符合要求和工厂是否接收订货,然后向用户回 送确认信息。 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 数据转换工具 DBMS自带的转换、迁移工具 – Oracle的Migration Workbench (SQL * LOAD) – Microsoft SQL Server的DTS (SSIS) – 通用性不强 应用系统内部集成转换工具EDI EDI(Electric Data Interchange,电子数据交换) 是一种利用计算机进行商务处理的新方法,它 是将贸易、运输、保险、银行和海关等行业的 信息,用一种国际公认的标准格式,通过计算 机通信网络,使各有关部门、公司和企业之间 进行数据交换和处理,并完成以贸易为中心的 全部业务过程。 例如:有一个工厂采用了EDI系统,它通过计算 机通信网络接收到来自用户的一笔EDI方式的 订货单,工厂的EDI系统随即检查订货单是否 符合要求和工厂是否接收订货,然后向用户回 送确认信息
数据集成 数据聚合方法(中间件) ✉ 数据聚合方法: ■将多个数据库集成为一个统一的数据库视 图; ■数据聚合体是一种虚拟的数据库,包括多 用户 个实体的物理数据库。 查询 >利用中间件集成异构数据源: 结果 中间件 全局数 ■不需要改变原始数据的存储和管理方式。 据模式 ■通过在中间层提供一个统一的数据逻辑视 图来隐藏底层的数据细节,使得用户可以 把集成数据源看为一个统一的整体 封装器 封装器 >中间件系统位于异构数据源和应 用程序之间: 数据源1 数据源2 ■向下协调各数据库系统 ■向上提供统一的全局数据模式和数据访问 通用接口 目前比较流行的数据集成方法 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 数据聚合方法: 将多个数据库集成为一个统一的数据库视 图; 数据聚合体是一种虚拟的数据库,包括多 个实体的物理数据库。 利用中间件集成异构数据源: 不需要改变原始数据的存储和管理方式。 通过在中间层提供一个统一的数据逻辑视 图来隐藏底层的数据细节,使得用户可以 把集成数据源看为一个统一的整体 中间件系统位于异构数据源和应 用程序之间: 向下协调各数据库系统 向上提供统一的全局数据模式和数据访问 通用接口 目前比较流行的数据集成方法 中间件 封装器 封装器 全局数 据模式 数据源1 数据源2 用户 查询 结果
S 数据集成 ETL方法(数据仓库) 936 ET立方法是一种实现异构数据源的集中式管理、集中式存储的方法。 ETL工具从多个数据源中抽取数据,然后进行数据转换和加载,最终得到统一的 、完备的数据仓库 >原来分散的应用系统仍然独立运作,原来存在的异构数据源仍然为各自的应用 系统提供数据服务 ■不会破坏企业原有的应用架构,比较适合于大量数据的迁移 ■可以提供复杂的数据转换功能 ■可以集成多种数据源和复杂的商业规则,能容忍数据在时间上的延迟 Files DBMS 六套 县 ETL 热公 CSV ETL ETL DBMS Files DBMS 数据 缓冲区 中心数据仓库或 ERP 数据集市 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 ETL方法是一种实现异构数据源的集中式管理、集中式存储的方法。 ETL工具从多个数据源中抽取数据, 然后进行数据转换和加载, 最终得到统一的 、完备的数据仓库 原来分散的应用系统仍然独立运作, 原来存在的异构数据源仍然为各自的应用 系统提供数据服务 不会破坏企业原有的应用架构, 比较适合于大量数据的迁移 可以提供复杂的数据转换功能 可以集成多种数据源和复杂的商业规则, 能容忍数据在时间上的延迟