分类和预测
分类和预测
分类VS.预测 分类: ¤预测分类标号(或离散值) ¤根据训练数据集和类标号属性,构建模型来分类现有数据, 并用来分类新数据 预测: ¤建立连续函数值模型,比如预测空缺值 典型应用 口信誉证实 a目标市场 a医疗诊断 口性能预测
分类 VS. 预测 ◼ 分类: ❑ 预测分类标号(或离散值) ❑ 根据训练数据集和类标号属性,构建模型来分类现有数据, 并用来分类新数据 ◼ 预测: ❑ 建立连续函数值模型,比如预测空缺值 ◼ 典型应用 ❑ 信誉证实 ❑ 目标市场 ❑ 医疗诊断 ❑ 性能预测
数据分类 个两步过程(1) 第一步,建立一个模型,描述预定数据类集和概念集 口假定每个元组属于一个预定义的类,由一个类标号属性 确定 口基本概念 训综数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组) 口学习模型可以用分类规则、判定树或数学公式的形式提 供
数据分类——一个两步过程 (1) ◼ 第一步,建立一个模型,描述预定数据类集和概念集 ❑ 假定每个元组属于一个预定义的类,由一个类标号属性 确定 ❑ 基本概念 ◼ 训练数据集:由为建立模型而被分析的数据元组形成 ◼ 训练样本:训练数据集中的单个样本(元组) ❑ 学习模型可以用分类规则、判定树或数学公式的形式提 供
数据分类 个两步过程() 第二步,使用模型,对将来的或未知的对象进行分类 口首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测 比较 ■模型在给定测试集上的准确率是正确被模型分类的测试样本的 百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的 情况
数据分类——一个两步过程 (2) ◼ 第二步,使用模型,对将来的或未知的对象进行分类 ❑ 首先评估模型的预测准确率 ◼ 对每个测试样本,将已知的类标号和该样本的学习模型类预测 比较 ◼ 模型在给定测试集上的准确率是正确被模型分类的测试样本的 百分比 ◼ 测试集要独立于训练样本集,否则会出现“过分适应数据”的 情况
第一步——建立模型 分类算法 训练数 据集 NAME RANK YEARS TENURED 分类规则 Mike Assistant Prof no Mary Assistant Prof yes B Professor yes m Associate Prof 37276 yes D ave Assistant Prof IF rank=professor no OR years >6 Anne Associate Prof 3 no THEN tenured =yes
第一步——建立模型 训练数 据集 N AM E RANK YEA RS TEN U RED Mike Assistant Prof 3 n o Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 n o Anne Associate Prof 3 n o 分类算法 IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ 分类规则
第二步——用模型进行分类 分类规则 测试集 未知数据 (Jeff, Professor, 4) NAME RANK YEARS TENURED Tom Assistant Prof no Tenured? Merlisa Associate Prof George Professor 2757 no es Joseph Assistant Prof yes
第二步——用模型进行分类 分类规则 测试集 N AM E RANK YEA RS TEN U RED Tom Assistant Prof 2 n o Merlisa Associate Prof 7 n o George Professor 5 yes Joseph Assistant Prof 7 yes 未知数据 (Jeff, Professor, 4) Tenured?
有指导的学习V.无指导的学习 有指导的学习(用于分类) 口模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行 口新数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类) a每个训练样本的类编号是未知的,要学习的类集合 或数量也可能是事先未知的 口通过一系列的度量、观察来建立数据中的类编号或 进行聚类
有指导的学习 VS. 无指导的学习 ◼ 有指导的学习(用于分类) ❑ 模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行 ❑ 新数据使用训练数据集中得到的规则进行分类 ◼ 无指导的学习(用于聚类) ❑ 每个训练样本的类编号是未知的,要学习的类集合 或数量也可能是事先未知的 ❑ 通过一系列的度量、观察来建立数据中的类编号或 进行聚类
准备分类和预测的数据 通过对数据进行预处理,可以提高分类和预测 过程的准确性、有效性和可伸缩性 ¤数据清理 消除或减少噪声,处理空缺值,从而减少学习时的混乱 口相关性分析 ■数据中的有些属性可能与当前任务不相关;也有些属性可 能是冗余的;删除这些属性可以加快学习步骤,使学习结 果更精确 口数据变换 可以将数据概化到较高层概念,或将数据进行规范化
准备分类和预测的数据 ◼ 通过对数据进行预处理,可以提高分类和预测 过程的准确性、有效性和可伸缩性 ❑ 数据清理 ◼ 消除或减少噪声,处理空缺值,从而减少学习时的混乱 ❑ 相关性分析 ◼ 数据中的有些属性可能与当前任务不相关;也有些属性可 能是冗余的;删除这些属性可以加快学习步骤,使学习结 果更精确 ❑ 数据变换 ◼ 可以将数据概化到较高层概念,或将数据进行规范化
比较分类方法 使用下列标准比较分类和预测方法 ¤预测的准确率:模型正确预测新数据的类编号的能 力 ¤速度:产生和使用模型的计算花销 ¤健壮性:给定噪声数据或有空缺值的数据,模型正 确预测的能力 口可伸缩性:大量数据,有效的构建模型的能力 口可解释性:学习模型提供的理解和洞察的层次
比较分类方法 ◼ 使用下列标准比较分类和预测方法 ❑ 预测的准确率:模型正确预测新数据的类编号的能 力 ❑ 速度:产生和使用模型的计算花销 ❑ 健壮性:给定噪声数据或有空缺值的数据,模型正 确预测的能力 ❑ 可伸缩性:对大量数据,有效的构建模型的能力 ❑ 可解释性:学习模型提供的理解和洞察的层次
用判定树归纳分类 什么是判定树? 口类似于流程图的树结构 a每个内部节点表示在一个属性上的测试 a每个分枝代表一个测试输出 口每个树叶节点代表类或类分布 判定树的生成由两个阶段组成 a判定树构建 开始时,所有的训练样本都在根节点 递归的通过选定的属性,来划分样本(必须是离散值) 口树剪枝 多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检 和剪去这种分枝 判定树的使用:对未知样本进行分类 ¤通过将样本的属性值与判定树相比较
用判定树归纳分类 ◼ 什么是判定树? ❑ 类似于流程图的树结构 ❑ 每个内部节点表示在一个属性上的测试 ❑ 每个分枝代表一个测试输出 ❑ 每个树叶节点代表类或类分布 ◼ 判定树的生成由两个阶段组成 ❑ 判定树构建 ◼ 开始时,所有的训练样本都在根节点 ◼ 递归的通过选定的属性,来划分样本 (必须是离散值) ❑ 树剪枝 ◼ 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检 测和剪去这种分枝 ◼ 判定树的使用:对未知样本进行分类 ❑ 通过将样本的属性值与判定树相比较