《数据把掘概念与技术》第七章（7-4）修剪决策树

决策树修剪的主要任务是抛弃一个或更多的子树,并用叶替代这些子树,使决策树简单化。问题是修剪后的结果能达到我们期望算法降低预测误差率来提高分类器的质量,但误差率计算并不简单。评价预测误差的一个可行方法是用另外一个新的有效检验样本,或用第四章中讲述的交叉确认法。

团购合买资源类别：文库，文档格式：PPT，文档页数：26，文件大小：372.5KB

7.4修剪决策树决策树修剪的主要任务是抛弃一个或更多的子树,并用叶替代这些子树,使决策树首单化。问题是修剪后的结果能达到我们期望算法降低预测误差率来提高分类器的质量,但差率计算并不简单。 °评价预测误差的一个可行方法是用另外个新的有效检验样本,或用第四章中讲述的交叉确认法

7.4 修剪决策树 • 决策树修剪的主要任务是抛弃一个或更多的子树，并用叶替代这些子树，使决策树简单化。 • 问题是修剪后的结果能达到我们期望算法降低预测误差率来提高分类器的质量，但误差率计算并不简单。 • 评价预测误差的一个可行方法是用另外一个新的有效检验样本，或用第四章中讲述的交叉确认法

)在具备可用的训练和检验样本的情況下决策树修剪的基本思想是去掉那些对未知检验样本的分类精度没有帮助的部分树子树),生成一个更简单,更容易理解的树有两种改进的递归分区方法 1.在某些情况下决定不把样本集合分区得更细。停止准则通常是基于些统计检验,如X检验:如果分区前后分类精度没有显著的不同,那么用当前的点作为叶。该方法称为预剪法

• 在具备可用的训练和检验样本的情况下，决策树修剪的基本思想是去掉那些对未知检验样本的分类精度没有帮助的部分树 (子树)，生成一个更简单，更容易理解的树。 • 有两种改进的递归分区方法： 1. 在某些情况下决定不把样本集合分区得更细。停止准则通常是基于一些统计检验，如χ 2检验：如果分区前后分类精度没有显著的不同，那么用当前的点作为一个叶。该方法称为预剪法

2用所选的精度准则回头去除树的一些点。称为后修剪。 yC45采用后修剪方法,但它用具体的方法评佔预测误差率,该方法称为悲观修基本思想对于树中的每个节点,可以用二项式分布统计表计算置信极限的上限的估计值。参数 L是所给节点的不和E的函数。C4.5用25% 置信度,比较所给节点7的U5%(/E)与它的叶的加权置信度。权值是每个叶的样本的数

2.用所选的精度准则回头去除树的一些点。称为后修剪。 • C4.5采用后修剪方法，但它用具体的方法评估预测误差率，该方法称为悲观修剪。 • 基本思想：对于树中的每个节点，可以用二项式分布统计表计算置信极限的上限Ucf的估计值。参数 Ucf是所给节点的|Ti |和E的函数。C4.5用25% 置信度，比较所给节点Ti的U25%(|Ti |/E)与它的叶的加权置信度。权值是每个叶的样本的总数

基本思想: 如果子树中的某个根节点的预测误差比叶的 (子树的预测误差加权和小,那么用它的根节点替换该子树,变成修剪后的树的一例如,决策树的子树如图7-9乐示,根节点的子节点是用相应的类和参数(/)表示的叶。 XI 类2(16,1 A=1 A=2 A=3 类1(6,0) 类1(90) 类2(1,0) 图7-9用一个叶节点替换修剪子树

• 基本思想：如果子树中的某个根节点的预测误差比叶的 U25% (子树的预测误差)加权和小，那么用它的根节点替换该子树，变成修剪后的树的一个新叶。 • 例如，决策树的子树如图7-9所示，根节点的子节点是用相应的类和参数(|Ti |/E)表示的叶

)问题是估计修剪子树并用它的根节点替换它作为一个新的归纳叶节点的概率 ③为了分析用叶节点替换子树的概率,必须计算被替换节点和初始树的预测误差PE。用默认置信度25%,上限置信极限可从统计表中求得: L256(60)=0.206,U25%(9,0)=0.143 L25(1,0)=0.750,U25(16,1)=0.157

• 问题是估计修剪子树并用它的根节点替换它作为一个新的归纳叶节点的概率。 • 为了分析用叶节点替换子树的概率,必须计算被替换节点和初始树的预测误差PE。 • 用默认置信度25%，上限置信极限可从统计表中求得： U25%(6,0)=0.206, U25%(9,0)=0.143 U25%(1,0)=0.750, U25%(16,1)=0.157

③初始树和被替换节点的预测误差是 PEe=6*0.206+9*0.143+1*0.750=3,257 PE tree 16米0.157=2.512 被替换的节点比当前的决策树的预测误差低, 修剪决策树并用新的叶节点替换子树是可行的

• 初始树和被替换节点的预测误差是： PEtree=6*0.206+9*0.143+1*0.750=3.257 PEtree=16*0.157=2.512 被替换的节点比当前的决策树的预测误差低，修剪决策树并用新的叶节点替换子树是可行的

3骨见的六种修剪技术 1. MCCP Minimal cost-complexity Pruning)-F3 于CRA系统 2. REP(Reduced Error Pruning 3,MEP(Minimal Error Pruning) 4PEP( Pessimistic Error Pruning)-用于ID3 5EBP( Error Based Pruning)-用于C4.5。 6. bootstrap

• 常见的六种修剪技术： 1.MCCP(Minimal cost-complexity Pruning)-用于CRAT系统。 2.REP(Reduced Error Pruning) 。 3.MEP(Minimal Error Pruning) 。 4.PEP(Pessimistic Error Pruning) –用于ID3。 5.EBP(Error Based Pruning)-用于C4.5。 6.bootstrap

75c4.5算法:生成决策规则大型的决策树较难理解,因为每个节点都有先行节点的检验结果建立的具休环境。为了理解它,可以把到达每个叶的路径转换成 IF-THEN生成规则。这种规则叫做决策规则。所有叶节点的决策规则集能够与树节点样对样本进行分类

7.5 C4.5 算法：生成决策规则 • 大型的决策树较难理解，因为每个节点都有先行节点的检验结果建立的具休环境。为了理解它，可以把到达每个叶的路径转换成IF-THEN生成规则。这种规则叫做决策规则。 • 所有叶节点的决策规则集能够与树节点一样对样本进行分类

图710所示是决策树转换成决策规则的一例子根 If a=l andb=1 Then类1 A A=2 转换 If A=l and b=2 〓嚣z〓〓〓E X2: B Then类2 路径转换为规则 B B=2 If a=2 Then类1 类1 a)决策树 b)决策规则图7-10决策树到决策规则的转换

• 图7-10所示是决策树转换成决策规则的一个例子

分类模型中决策规则的数量可能非常大可以删除那些不景响规则集的正确性的多佘条件,对规则进行概化规则条件的删除准则如下设规则R是: If A Then类C 更一般化的规则R是: If a Then类C 其中A是A(A=AUX)中删掉条件X得到的。数据库中满足条件A的每个样本可以满足也可以不满足扩展条件A

• 分类模型中决策规则的数量可能非常大，可以删除那些不影响规则集的正确性的多余条件，对规则进行概化。 • 规则条件的删除准则如下：设规则Ｒ是：If A Then 类-C 更一般化的规则R’是：If A’ Then 类-C 其中A’是A(A=A’∪X)中删掉条件X得到的。 • 数据库中满足条件A’的每个样本可以满足也可以不满足扩展条件A

点击进入文档下载页（PPT格式）

共26页，试读已结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录