《数据把掘概念与技术》第三章数据归约

一、明确基于特征、案例维归约与技术归约的区别。二、解释数据挖掘过程的预处理阶段中进行数据归约的优点。三、应用相应的统计方法,理解特征选择和特征构成的基本原则。四、理解特征等级主成分分析方法。五、区别基于增量和平均样本的案例中的技术。

团购合买资源类别：文库，文档格式：PPT，文档页数：38，文件大小：188.5KB

第三章数据归约本章目标明确基于特征、案例维归约与技术归约的区别。解释数据挖掘过程的预处理阶段中进行数据归约的优点应用相应的统计方法,理解特征选择和特征构成的基本原则。 ·理解特征等级主成分分析方法。区别基于增量和平均样本的案例中的技木

第三章数据归约本章目标明确基于特征、案例维归约与技术归约的区别。解释数据挖掘过程的预处理阶段中进行数据归约的优点应用相应的统计方法，理解特征选择和特征构成的基本原则。理解特征等级主成分分析方法。区别基于增量和平均样本的案例中的技术

3.1大型数据集的维度 ·对数据描述,特征的挑选、归约或转换可能是决定挖掘方案质量的最重要的冋题。除了影响到数据挖掘算法的属性,它也能决定问题量否可解,或所得到的挖掘模型有多强大。为什么要数据归约 1.一旦特征数量达到数百,而只有上百条样本用于分析时,对挖掘是相对不够的 2.由髙维度引起的数据超负,使一些挖掘算法不适用

对数据描述，特征的挑选、归约或转换可能是决定挖掘方案质量的最重要的问题。除了影响到数据挖掘算法的属性，它也能决定问题量否可解，或所得到的挖掘模型有多强大。为什么要数据归约： 1.一旦特征数量达到数百，而只有上百条样本用于分析时，对挖掘是相对不够的。 2.由高维度引起的数据超负，使一些挖掘算法不适用。 3.1 大型数据集的维度

预处理数据集的三个主要维度:列(特征),行(案例或样本)和特征的值。它们以平面交件的形式出现。 ·数据归约过程3个基本操作:删除列、删除行、减少列中值的数量(平整特征)。例如:用分箱方法减少值的数量,用特征合并代替原来特征(身体素质指标代替人的身高和体重特征) 数据归约的约定是不要降低结果的质量

预处理数据集的三个主要维度：列（特征），行（案例或样本）和特征的值。它们以平面文件的形式出现。数据归约过程３个基本操作：删除列、删除行、减少列中值的数量（平整特征）。例如：用分箱方法减少值的数量，用特征合并代替原来特征（身体素质指标代替人的身高和体重特征）数据归约的约定是不要降低结果的质量

·在数据归约操作时的目标过程 1计算时间:较简单的数据,也即经过数据归约后的结果,可减少挖掘所消耗的时间 2预测/描述精度:多数挖掘模型的主要度量标准,它佔量了数据归纳和慨括为模型的好不 3数据挖掘模型的描述:简单的描述通常来自数据归约,意味着模型能得到更好的理解。 ·理想的情况是维归约后既能减少时间,又能同时提高精度和简化描述

在数据归约操作时的目标过程： 1.计算时间：较简单的数据，也即经过数据归约后的结果，可减少挖掘所消耗的时间。 2.预测／描述精度：多数挖掘模型的主要度量标准，它估量了数据归纳和慨括为模型的好坏。 3.数据挖掘模型的描述：简单的描述通常来自数据归约，意味着模型能得到更好的理解。理想的情况是维归约后既能减少时间，又能同时提高精度和简化描述

●数据归约算法的特征: 1可测性:已归约的数据集可精确确定近似结果的质里。 2可识别性:挖掘前能执行归约算法时能确定近似结果的质量 3单调性:算法是可迭代的,结果的质量是时间和输入数据质量的一个非递减的函数 4.—致性:结果的质量与时间和输入数据质量有关 5收益递增:方案在迭代早期可获得大的改进,但随时间递减。 6中断性:算法可在任何时刻停止并给出答案。 7优先权:算法可以暂停并以最小的开销新开始

数据归约算法的特征： 1.可测性：已归约的数据集可精确确定近似结果的质量。 2.可识别性：挖掘前能执行归约算法时能确定近似结果的质量。 3.单调性：算法是可迭代的，结果的质量是时间和输入数据质量的一个非递减的函数。 4.一致性：结果的质量与时间和输入数据质量有关。 5.收益递增：方案在迭代早期可获得大的改进，但随时间递减。 6.中断性：算法可在任何时刻停止并给出答案。 7.优先权：算法可以暂停并以最小的开销新开始

3.2特征归约 ·在进行数据归约时不但要处理干扰数据和污染数据,而且要处理不相关相关、冗余数据。为了提高效率,通常单独处理相关特征,只选择与挖掘应用相关的数据,以达到用最小的测量和处理量获得最好的性能。特征归约的目标

3.2 特征归约在进行数据归约时不但要处理干扰数据和污染数据，而且要处理不相关、相关、冗余数据。为了提高效率，通常单独处理相关特征，只选择与挖掘应用相关的数据，以达到用最小的测量和处理量获得最好的性能。特征归约的目标：

更少的数据,以便挖掘算法能更快的学 ·更高的挖掘处理精度以便更好地从数据中归纳出模型。 ·简单的挖掘处理结果,以便理解和使用起来更加容易。更少的特征,以便在下一次数据收集中, 通过去除冗余或不相关特征做到节俭

更少的数据，以便挖掘算法能更快的学习。更高的挖掘处理精度，以便更好地从数据中归纳出模型。简单的挖掘处理结果，以便理解和使用起来更加容易。更少的特征，以便在下一次数据收集中，通过去除冗余或不相关特征做到节俭

特征归约的目标与任务 1特征选择-基于应用领域的知识和挖掘的目标,选择初始数据集中特征的一个子集 2特征构成-有一些数据的转换对挖掘方法的结果有惊人影响,因此特征构成是个比特殊的挖掘技木更有决定性因素。特征构成依赖于应用的知识。交叉学科知识的应用有利于数据准备的改进

特征归约的目标与任务： 1.特征选择－基于应用领域的知识和挖掘的目标，选择初始数据集中特征的一个子集。 2.特征构成－有一些数据的转换对挖掘方法的结果有惊人影响，因此特征构成是一个比特殊的挖掘技术更有决定性因素。特征构成依赖于应用的知识，交叉学科知识的应用有利于数据准备的改进

特征选择方法: 1特征排列算法:特征等级列表是根据特有的评佔测量标准进行排序的。测量标准基于可用数据的精度、一致性、信息内容、样本之间的距离和特征之间的最终统计相关性。它仅指出特征间的相关性,不提供子集。 2最小子集算法:返回一个最小特征子集,子集中的特征之间没有等级区别。子集中的特征与挖掘过程相关,其余的则是不相关的。 ·在特征选择过程中需要建立特征评估方案来确定等级排列或特征子集选择,这一点很重要

特征选择方法： 1.特征排列算法：特征等级列表是根据特有的评估测量标准进行排序的。测量标准基于可用数据的精度、一致性、信息内容、样本之间的距离和特征之间的最终统计相关性。它仅指出特征间的相关性，不提供子集。 2.最小子集算法：返回一个最小特征子集，子集中的特征之间没有等级区别。子集中的特征与挖掘过程相关，其余的则是不相关的。在特征选择过程中需要建立特征评估方案来确定等级排列或特征子集选择，这一点很重要

例如,若一个数据集有3个特征A1,A2A3} 特征出现或不出现取值0.1,共有23个归约的特征子集, {0.0,00,0,13{0,1,0}{0,1,13{1,0,0}{1,0,1}, {1,1,0}{1,1,1 特征选择的任豸是搜索空间中的每一种状态都指定可能特征的一个子集。此问题n3, 空间较小,但大多数挖掘应用,n>20.搜索起点和搜索策略相当重要,常常用试探搜索代替穷举搜索

例如，若一个数据集有３个特征{A1,A2,A3}, 特征出现或不出现取值0,1，共有2 3个归约的特征子集, {0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1}, {1,1,0},{1,1,1} 特征选择的任务是搜索空间中的每一种状态都指定可能特征的一个子集。此问题n=3, 空间较小，但大多数挖掘应用，n>20，搜索起点和搜索策略相当重要，常常用试探搜索代替穷举搜索

点击下载完整版文档（PPT格式）

共38页，可试读13页，点击继续阅读 ↓↓

点击下载（PPT格式）

浏览记录

《数据把掘概念与技术》第三章数据归约

《数据把掘概念与技术》第三章 数据归约

《数据把掘概念与技术》第三章数据归约