第2章数据预处理
1 第2章 数据预处理
主要内容 2.1为什么要预处理数据 ■22描述性数据汇总 ■2.3数据清理 ■2.4数据集成和变换 25数据归约 26数据离散化和概念分层产生
主要内容 ◼ 2.1 为什么要预处理数据 ◼ 2.2 描述性数据汇总 ◼ 2.3 数据清理 ◼ 2.4 数据集成和变换 ◼ 2.5 数据归约 ◼ 2.6 数据离散化和概念分层产生 2
1数据预处理的原因 数据质量的含义 正确性( Correctness) 致性( Consistency) 完整性( Completeness) ■可靠性( Reliability)
3 2.1 数据预处理的原因 ◼ 正确性(Correctness) ◼ 一致性(Consistency) ◼ 完整性(Completeness) ◼ 可靠性(Reliability) 数据质量的含义
现实世界的数据 ■不完整的 ■缺少属性值或某些感兴趣的属性,或仅包含聚 集数据 ■含噪声的 ■包含错误或存在偏离期望的离群值 不一致的 ■采用的编码或表示不同,如属性名称不同 冗余的 ■如属性之间可以相互导出
现实世界的数据 ◼ 不完整的 ◼ 缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。 ◼ 含噪声的 ◼ 包含错误或存在偏离期望的离群值。 ◼ 不一致的 ◼ 采用的编码或表示不同,如属性名称不同 ◼ 冗余的 ◼ 如属性之间可以相互导出
据错误的不可避免性 ■数据输入和获得过程数据错误 ■数据集成所表现出来的错误 ■数据传输过程所引入的错误 ■据统计有错误的数据占总数据的5%左 右[ Redmen],[Orr98]
5 数据错误的不可避免性 ◼ 数据输入和获得过程数据错误 ◼ 数据集成所表现出来的错误 ◼ 数据传输过程所引入的错误 ◼ 据统计有错误的数据占总数据的5%左 右[Redmen],[Orr98]
数据错误的危害性 ■高昂的操作费用 ■糟糕的决策制定 组织的不信任 ■分散管理的注意力
数据错误的危害性 ◼ 高昂的操作费用 ◼ 糟糕的决策制定 ◼ 组织的不信任 ◼ 分散管理的注意力
数据预处理的形式 ■数据清理 ■补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致 数据集成 集成多个数据库、数据立方或文件 数据变换 n规范化和聚集 ■数据归约 简化数据、但产生同样或相似的结果7
7 数据预处理的形式 ◼ 数据清理 ◼ 补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致 ◼ 数据集成 ◼ 集成多个数据库、数据立方或文件 ◼ 数据变换 ◼ 规范化和聚集 ◼ 数据归约 ◼ 简化数据、但产生同样或相似的结果
数据预处理的形式 Data cleaning Data integration Data transformation 2,32,100.59,48 0.02,0.32,1.00,0.59,0.48 Data reduction attributes attributes Al A2 A3 A126 Al A3 A115 T3 T4 T4 T1456 T2000
数据预处理的形式
小结 ■现实世界的数据一般是脏的、不完整的和不 致的。 ■数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。 ■高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤 ■检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报
小结 ◼ 现实世界的数据一般是脏的、不完整的和不一 致的。 ◼ 数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。 ◼ 高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤。 ◼ 检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报
22描述性数据汇总 ■获得数据的总体印象对于成功的数据预处理是 至关重要的 ■描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 ■动机:更好的理解数据 ■主要内容:度量数据的中心趋势和离散程度、 描述数据汇总的图形显示
2.2 描述性数据汇总 ◼ 获得数据的总体印象对于成功的数据预处理是 至关重要的。 ◼ 描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 。 ◼ 动机:更好的理解数据。 ◼ 主要内容:度量数据的中心趋势和离散程度、 描述数据汇总的图形显示