第二章数据准备 本章目标 ■分析原始大型数据集的基本表述和特征 ■对数值型属性应用不同的标准化技术。 ■了解数据准备的不同技术,包括属性转化。 ■比较去除丢失值的不同方法。 ■构造时间相关数据的统一表达方法。 ■比较不同异常点探测技术。 ■实现一些数据预处理技术
第二章 数据准备 本章目标: 分析原始大型数据集的基本表述和特征。 对数值型属性应用不同的标准化技术。 了解数据准备的不同技术,包括属性转化。 比较去除丢失值的不同方法。 构造时间相关数据的统一表达方法。 比较不同异常点探测技术。 实现一些数据预处理技术
2.1原始数据的表述 ■常见的数据类型 数据挖掘过程的基本对象是数据样本 每个样本都用几个特征来描述,每个特 征有不同的类型的值。常见类型:数值 型和分类型。数值型的值包括实型变量 和整型变量, ■数值型:其特征是其值有顺序关系和距 离关系。 ■分类型:其特征是变量间是否相等,且 可用二进制数来表述
2.1 原始数据的表述 常见的数据类型: 数据挖掘过程的基本对象是数据样本, 每个样本都用几个特征来描述,每个特 征有不同的类型的值。常见类型:数值 型和分类型。数值型的值包括实型变量 和整型变量。 数值型:其特征是其值有顺序关系和距 离关系。 分类型:其特征是变量间是否相等,且 可用二进制数来表述
■基于变量值的变量分类法:连续型变 量和离散型变量 ■连续型变量也称为定量型或度量型变 量。可用间隔尺度或比例尺度來衡量。 温度尺度属间隔尺度,没有绝对零点。 高度、长度和工资属例尺度,有绝 对零点 ■离散型变量也称为定性型变量。可用 名义尺度或有序尺度来衡量。顾客类 型标志和邮编属名义尺度,排名属有 序尺度
基于变量值的变量分类法:连续型变 量和离散型变量. 连续型变量也称为定量型或度量型变 量。可用间隔尺度或比例尺度来衡量。 温度尺度属间隔尺度,没有绝对零点。 高度、长度和工资属比例尺度,有绝 对零点, 离散型变量也称为定性型变量。可用 名义尺度或有序尺度来衡量。顾客类 型标志和邮编属名义尺度,排名属有 序尺度
■周期变量是一种特殊的离散变量, 存在距离关系不存在顺序关系。 星期、月属周期变量 ■基于数据的与时间有关的行为特 性的类型:静忞数据和动态数据
周期变量是一种特殊的离散变量, 存在距离关系不存在顺序关系。 星期、月属周期变量。 基于数据的与时间有关的行为特 性的类型:静态数据和动态数据
2.2原始数据的特性 ■在数据挖掘初始阶段面对的数据也 许有潜在的条乱性,存在着丢失值 失真、误记录和不适当的样本。因 此在必须根据已有的数据甚至是丢 失值的数据进行建模。这样就可能 避免在挖掘前处理丢失值问题
在数据挖掘初始阶段面对的数据也 许有潜在的杂乱性,存在着丢失值、 失真、误记录和不适当的样本。因 此在必须根据已有的数据甚至是丢 失值的数据进行建模。这样就可能 避免在挖掘前处理丢失值问题。 2.2 原始数据的特性
■另一个问题是必须有处理“非常值”的 机制,来消除“非常值”对最终结果的 影响,数据可能并不是來自我们假定的 总体。异常点是典型的例子。 ■失真的数据、方法上错误的步驟、滥用 挖掘工具、模型太理想化、超出各种不 确定性和模糊性的数据来源的模型可能 导致挖掘方向的错误。因此挖掘不只是 简单在应用一系列工具于已知问题,而 是一种批判性的鉴定、考查、检查以及 评佔过程
另一个问题是必须有处理“非常值”的 机制,来消除“非常值”对最终结果的 影响,数据可能并不是来自我们假定的 总体。异常点是典型的例子。 失真的数据、方法上错误的步骤、滥用 挖掘工具、模型太理想化、超出各种不 确定性和模糊性的数据来源的模型可能 导致挖掘方向的错误。因此挖掘不只是 简单在应用一系列工具于已知问题,而 是一种批判性的鉴定、考查、检查以及 评估过程
■挖掘过程中一个最关键的步骤是 对初始数据集的预备和转换,数 据预备有两个中心任务 1.把数据组织成一种标准形式,使 其能被挖掘工具和其他基于计弇 机的工具处理(一个关系表) 准备数据集使之能得到最佳的挖 掘效果
挖掘过程中一个最关键的步骤是 对初始数据集的预备和转换,数 据预备有两个中心任务: 1.把数据组织成一种标准形式,使 其能被挖掘工具和其他基于计算 机的工具处理(一个关系表) 2.准备数据集使之能得到最佳的挖 掘效果
2.3原始数据的转换 1.标准化 挖掘中基于n维空间距离讣算 的方法需要对数据进行标准化处 理来达到最佳效果,将数据按比例 对应到特定的范围,否则距离测 量将会超出平均起来数值更大的 那些特征。标准化常用技术
1.标准化 挖掘中基于n维空间距离计算 的方法需要对数据进行标准化处 理来达到最佳效果,将数据按比例 对应到特定的范围,否则距离测 量将会超出平均起来数值更大的 那些特征。标准化常用技术: 2.3 原始数据的转换
(1)小数缩放:小数缩放移动小数点,但 大多数原始数据保持不变。设缩放区 间为[-1,1,其变换公式为 v(i)=v(i)/10 K是保证缩放后的值落在指定区间的最小 比例。方法为:在原数据集中选择绝 对值最大者,取K使该值绝对值〈1, 然后将该因子施加于所有数据进行缩 放
(1)小数缩放:小数缩放移动小数点,但 大多数原始数据保持不变。设缩放区 间为[-1,1],其变换公式为: k v (i) v(i)/10 ' = K是保证缩放后的值落在指定区间的最小 比例。方法为:在原数据集中选择绝 对值最大者,取K使该值绝对值〈1, 然后将该因子施加于所有数据进行缩 放
(2)最小一最大标准化:小数缩放存在 这样一个问题,假设数据集在150至 250之间,缩放后数据在0.15到0.25之 间,只落在[-1,1]中的一个小 的子区间中,为了使值在薯个标准区 间中有较好的分布,采用最小一最大 式 v(i=(v(i-min((i)/(max(v(i))-min(v(i)
(2)最小-最大标准化:小数缩放存在 这样一个问题,假设数据集在150到 250之间,缩放后数据在0.15到0.25之 间,只落在[-1,1]中的一个小 的子区间中,为了使值在整个标准区 间中有较好的分布,采用最小-最大 公式: ( ) ( ( ) min( ( )))/(max( ( )) min( ( ))) ' v i = v i − v i v i − v i