增量决策树算法及复杂度分析

介绍了增量决策树算法的基本原理,并从实例费用和信息熵费用两个角度出发,对增量决策树算法的复杂度进行分析。通过实例说明,增量决策树算法能够构造出与ID3算法形态基本相同的决策树。

团购合买资源类别：文库，文档格式：PDF，文档页数：4，文件大小：432.81KB

D0I:10.13374/i.issn1001053x.2001.02.022 第26卷第2期北京科技大学学报 Vol.26 No.2 2004年4月 Journal of University of Science and Technology Beijing Apr.2004 增量决策树算法及复杂度分析尹阿东宫雨吴胜利武森高学东李拥军北京科技大学管理学院，北京100083 摘要介绍了增量决策树算法的基本原理，并从实例费用和信息熵费用两个角度出发，对增量决策树算法的复杂度进行分析.通过实例说明，增量决策树算法能够构造出与D3算法形态基本相同的决策树. 关键词决策树：增量算法：复杂度分类号TP18 增量D3算法的雏形出现在1986年，是由分类能力高的属性为准，增量算法构造决策树的 Schilimmer和Fisher首先提出的，定名为D4 这种思想保证了作为节点的分类属性始终包含 (Iterative Dichotomizer4)算法，并且Fisher在l987 有最大的信息量，能够保证构造的决策树一直沿年利用D4算法的思想构造出一个增量学习系着熵减最大的方向拓展. 统川.但是，D4算法在构造增量决策树的时候，假设一个给定的决策树节点上存在两个候不得不多次根据不同的训练集来重构决策树，需选属性F1和F2,并且经计算可知，属性F1的信要昂贵的计算费用才能完成增量决策树的构建，息增益大于属性F2的，所以将属性F1作为分类 1989年，Massachuasetts大学计算机学院的Utgoff 属性.当新增一条记录时，将对属性F1和F2的教授在D3算法思想的基础上提出一种新的增信息增益产生影响，属性F1和F2信息增益大小量决策树算法—ID5R(Revision)m.ID5R算法继的变化有可能导致分类属性的变化.引起的信息承D3算法的全部优点，并且在原有D3算法的熵的变化如下：基础上进行合理的改进，解决了D3算法不能处 △E=E-E=6+A A 理增量数据集的缺点.1994年Utgof任教授又提出 ptntl pinpin+1 (pin)(pinti)(1) 的ITI算法，解决了增量数据集中数值属性的分式中，t=一p品an叫on p+n,' A=p.lb p.t p+n. 类问题，同时还可以对连续的数值属性进行离散 ab2元-e*ia prtn+T-nlb n bp+n+i其中p,和m,分处理，然后再进行分类.2000年，Kalles和Papage- 别代表分类属性所覆盖的正例集数量和负例集 s对原有的增量决策树算法进行适当的改进，利数量（这里只考虑二值类主属性，类主属性的取用启发式原理解决了增量算法构造决策树稳定值也可以是多值的，原理相同) 性的问题，提高了决策树分类的准确率. 根据改进并证明的与增量算法相关的两个定理： 1增量决策树算法定理1x,y∈[0，+o],有0≤A(x,y)≤lb(x+y+1)+ 当有新记录加入训练数据集时，有可能产生 lbe恒成立. 原先选定的分类属性对新记录分类能力降低，而定理2e≤p叶n. 原先未被选中的候选属性集中的某个属性的分将定理1,2代入式(1)中，得到熵变△E的上下类能力增高的情况.在这种情况下，构造决策树界：当4仁0pn时，得△S的下界A二p 时的分类属性选择就要以候选属性集中的那个当A=lb(x+y+1)+lbe,e=0时，得△E的上界△Ew≤ 收稿日期2002-06-10 尹阿东男，28岁，博士研究生 Ib(x+y+1)+lbe p+n+l *国家自然科学基金资助项目(No.50074005)

第2 6 卷第 2 期 2 0 0 4 年 4 月北京科技大学学报 J o u r n a l o f U n iv e rs i ty o f S c i e n e e a n d Te e b n 0 I O盯 B e ij in g V 匕1 . 2 6 N o . 2 A P r. 2 0 4 增量决策树算法及复杂度分析尹阿东宫雨吴胜利武森高学东李拥军北京科技大学管理学院 , 北京 10 0 0 8 3 摘要介绍了增量决策树算法的基本原理 , 并从实例费用和信息嫡费用两个角度出发 , 对增量决策树算法的复杂度进行分析 . 通过实例说明 , 增量决策树算法能够构造出与 I D 3 算法形态基本相同的决策树 . 关键词决策树 ; 增量算法 ; 复杂度分类号 T P 1 8 增量 ID 3 算法的雏形出现在 19 86 年 , 是由 S e ih lim m e r 和 F i s h e r 首先提出的 , 定名为 DI 4 ( It e art i v e D i e h o t o m i z e r 4 )算法 , 并且 F i s h e r 在 19 8 7 年利用 ID 4 算法的思想构造出一个增量学习系统 `1 . 但是 , ID 4 算法在构造增量决策树的时候 , 不得不多次根据不同的训练集来重构决策树 , 需要昂贵的计算费用才能完成增量决策树的构建 . 19 89 年 , M a s s a e h au s e t s 大学计算机学院的 U t g o f 教授在 DI 3 算法思想的基础上提出一种新的增量决策树算法— ID S R (R e v i s i o n ) `, , . ID S R 算法继承 DI 3 算法的全部优点 , 并且在原有 DI 3 算法的基础上进行合理的改进 , 解决了 DI 3 算法不能处理增量数据集的缺点 . 19 94 年 Ut go f 教授又提出的I T I 算法【3] , 解决了增量数据集中数值属性的分类问题 , 同时还可以对连续的数值属性进行离散处理 , 然后再进行分类 . 2 0 0 年 , aK le s 和 P ap ag e - h s 对原有的增量决策树算法进行适当的改进 , 利用启发式原理解决了增量算法构造决策树稳定性的问题 , 提高了决策树分类的准确率阅 . 分类能力高的属性为准 . 增量算法构造决策树的这种思想保证了作为节点的分类属性始终包含有最大的信息量 , 能够保证构造的决策树一直沿着嫡减最大的方向拓展 l稠 . 假设一个给定的决策树节点上存在两个候选属性 lF 和 F Z , 并且经计算可知 , 属性 lF 的信息增益大于属性 FZ 的 , 所以将属性 lF 作为分类属性 . 当新增一条记录时 , 将对属性 lF 和 F Z 的信息增益产生影响 , 属性 lF 和 F Z 信息增益大小的变化有可能导致分类属性的变化 . 引起的信息墒的变化如下 : AE 一“ , 一“ 一备一六一渝下两奋丽) ( , ) 式中 , 一誉巨圈 +n ,lb除)… , ` 一 P,l 唁翰十 n,l 喘一 * ` )唠击一 n,l 七常百 , 其中卿盼 1 增量决策树算法当有新记录加入训练数据集时 , 有可能产生原先选定的分类属性对新记录分类能力降低 , 而原先未被选中的候选属性集中的某个属性的分类能力增高的情况`6] . 在这种情况下 , 构造决策树时的分类属性选择就要以候选属性集中的那个收稿日期 2 0 02 刁6 一 10 尹阿东男 , 28 岁 , 博士研究生 * 国家自然科学基金资助项目 ( N o 5 0 O74 0 0 5) 别代表分类属性所覆盖的正例集数量和负例集数量 ( 这里只考虑二值类主属性 , 类主属性的取值也可以是多值的 , 原理相同) . 根据改进并证明的与增量算法相关的两个定理 : 定理 I V x 沙任「0 , + 。」 , 有 0 ` A (x , 夕)引b (+x, 汗 1) + lb曰恒成立 . 定理 2 : 印 + .n 将定理 l , 2 代入式 ( l) 中 , 得到嫡变△百的上下界: 当 , 一。 , : 一 +P 。时 , 得二的下界 mAE , : 二共下; 一 , ` - · - 一 ’ 一 ’ 一 P 十n 十 1 ’ 当A = lb (x 勺斤 1)+l b e , 。 = 0 时 , 得△百的上界△百山ax ` l b ( x +) 咔 1) + l b e P + n + DOI: 10. 13374 /j . issn1001 -053x. 2004. 02. 022

Vol.26 No.2 尹阿东等：增量决策树算法及复杂度分析 ·203· 下面讨论如何利用增量算法解决增量数据有d个属性，所以增加一条记录而确定d个属性的集构造决策树的问题.在决策树的某一节点上，正负实例数量的计算复杂度为d.然后确定一级分类属性与候选属性熵值的差决定了增加记录决策树上(d-l)个属性上的正负实例数量的费用的最大数量aw, 是(d-1).最不理想的情况下，一条记录修改决策 (p+n+1)E2-E) (2) 树所需要的实例费用为： 1bb,+2+lbe 式中，b,=p+%是属性j值段上记录的数量. i=d(d-D)-ad) 2 (3) 根据式(2)，给出如下策略构造增量决策树：第二部分考虑在决策树根节点上分类属性当新增记录asamsx时，新增记录后的分类属变化所带来的费用.设Pa(d为最不理想的情况性信息熵值小于候选属性的信息熵值，仍然选择下，决策树节点上分类属性发生变化时引起的费原先的分类属性作为节点属性，用.当决策树只有一个属性时，不能更新决策树，当新增记录a>amm时，新增记录后的分类属 Pa(1)=0.当决策树有两个属性时，由于决策树根性信息熵值大于候选属性的信息熵值，选择候选节点上新增实例费用己经在第一步计算出来，并属性作为节点属性，且第一层上只能有一个属性，没有候选属性，所以Pa(2)=0.随着d值的增加，实例费用来源于叶 2增量决策树算法的复杂度分析子上升为节点的过程，当决策树有三个属性时，对于一个给定的数据集，分析在最不理想的在决策树的第一层上有一个候选属性，每个候选属性有b个可能的取值种类，每个值段上都需要情况下，构造一棵决策树的复杂度，这种最不理计算正例集和负例集的数量，正例集和负例集数想的情况特指利用全部的候选属性构造了一个量的计算是将每个候选属性值段下的b棵子树中层次最多的决策树的情况，在本文中，从两个方包含的正例集和负例集数量求和得到的，所以单面考虑决策树的复杂度. 独计算正例集的费用为，负例集的费用也是第一个方面是测量当有新增记录加入时，计 b×b=b.由于候选属性的个数为(d-2)个，故整个算正例集和负例集数量所需要的计算费用，新增的实例费用为2b2×(d-2). 一条记录带来的这种计算费用叫做实例费用(n- 最不理想的情况是从决策树的最低层将分 stance-Count Addition). 类属性提升到根节点上，此时需要的实例费用最第二个方面是根据信息熵原理测量选择分类属性时需要的计算费用叫做信息熵费用(E 大，上述已经推出决策树最高两级的费用为2b× (d-2),当决策树的属性d增多时，每个属性所对 Score Calculations).这种测量方法需要计算每个应的b棵子决策树的费用为b×Pa(d-1),其中b为属性的信息熵，选择信息量最大的属性作为分类属性的值段数量.所以可得如下的费用公式：属性，所以这种测量方法的计算复杂度是极为昂 Pa(d0=∑b-2×2b2×(d-i)=Ob (4) 贵的，现作如下假设：给定一个训练数据集，包含n 第三部分考虑递归地重构子决策树，重新选个记录，d个候选属性，其中属性最多有b个值段，择子决策树根节点上最好的分类属性所引起的分析增量决策树算法的计算复杂度费用.提升一个属性来替换旧分类属性的过程将 2.1增量决策树算法实例费用导致实例费用的产生，这个费用是由每个子决策增量决策树算法修改决策树时包含三部分树下一级的候选属性的费用总和决定的费用：第一部分是当有新记录加入时，计算正负假设一个分类属性重构b棵新子树，设Ra(d) 实例集数量的费用：第二部分是在根节点选择分是最不理想情况下，在决策树第(d-1)层构造b棵类属性，重构决策树的费用：第三部分是为了确决策树的费用. 定每个子树根节点上的分类属性而递归地构造当d=1时，决策树除根节点外没有其他属决策树的费用，性，故Ra(1)=0. 第一部分，考虑新增一条记录，在对决策树当d=2时，只有一个候选属性，在决策树的的形态没有影响的情况下，所带来的计算费用. 第一层上，意味着在该属性下没有子决策树，故假设一个已经拓展开的决策树，在根节点上因为 Ra(2)=0

、勺L Z` N 0 . 2 尹阿东等 : 增量决策树算法及复杂度分析 . 2 03 . 下面讨论如何利用增量算法解决增量数据集构造决策树的问题 . 在决策树的某一节点上 , 分类属性与候选属性嫡值的差决定了增加记录的最大数量 a ~ , _ 扮 n + 1)(zE 一 E , ) l b bj + 2+ l b e ( 2 ) 有 d个属性 , 所以增加一条记录而确定d 个属性的正负实例数量的计算复杂度为d . 然后确定一级决策树上 d( 一 l) 个属性上的正负实例数量的费用是 d( 一 1) . 最不理想的情况下 , 一条记录修改决策树所需要的实例费用为 : 式中 , 九= jP + nj 是属』由值段上记录的数量 , 根据式(2 ) , 给出如下策略构造增量决策树 : 当新增记录a ` am ax 时 , 新增记录后的分类属性信息嫡值小于候选属性的信息墒值 , 仍然选择原先的分类属性作为节点属性 . 当新增记录 >a am ax 时 , 新增记录后的分类属性信息嫡值大于候选属性的信息墒值 , 选择候选属性作为节点属性 . i = 亘(进塑= 2 O (了) (3 ) d 曰Z 2 增量决策树算法的复杂度分析对于一个给定的数据集 , 分析在最不理想的情况下 , 构造一棵决策树的复杂度 , 这种最不理想的情况特指利用全部的候选属性构造了一个层次最多的决策树的情况 . 在本文中 , 从两个方面考虑决策树的复杂度 . 第一个方面是测量当有新增记录加入时 , 计算正例集和负例集数量所需要的计算费用 . 新增一条记录带来的这种计算费用叫做实例费用 ( nI - s ant c e 一 C o u n t A d d iti o n ) . 第二个方面是根据信息嫡原理测量选择分类属性时需要的计算费用叫做信息嫡费用 ( E - cs o er C al cu alt in ns ) . 这种测量方法需要计算每个属性的信息嫡 , 选择信息量最大的属性作为分类属性 , 所以这种测量方法的计算复杂度是极为昂贵的 . 现作如下假设 : 给定一个训练数据集 , 包含 n 个记录 , d个候选属性 , 其中属性最多有 b个值段 , 分析增量决策树算法的计算复杂度 . .2 1 增量决策树算法实例费用增量决策树算法修改决策树时包含三部分费用 : 第一部分是当有新记录加入时 , 计算正负实例集数量的费用 ; 第二部分是在根节点选择分类属性 , 重构决策树的费用 ; 第三部分是为了确定每个子树根节点上的分类属性而递归地构造决策树的费用 , 第一部分 , 考虑新增一条记录 , 在对决策树的形态没有影响的情况下 , 所带来的计算费用 . 假设一个己经拓展开的决策树 , 在根节点上因为第二部分考虑在决策树根节点上分类属性变化所带来的费用 . 设 aP (刃为最不理想的情况下 , 决策树节点上分类属性发生变化时引起的费用 . 当决策树只有一个属性时 , 不能更新决策树 , P a( l ) = 0 . 当决策树有两个属性时 , 由于决策树根节点上新增实例费用已经在第一步计算出来 , 并且第一层上只能有一个属性 , 没有候选属性 , 所以P a( 2) = 0 . 随着 d 值的增加 , 实例费用来源于叶子上升为节点的过程 , 当决策树有三个属性时 , 在决策树的第一层上有一个候选属性 , 每个候选属性有 b 个可能的取值种类 , 每个值段上都需要计算正例集和负例集的数量 . 正例集和负例集数量的计算是将每个候选属性值段下的b棵子树中包含的正例集和负例集数量求和得到的 , 所以单独计算正例集的费用为 , 负例集的费用也是 b ` b = 夕 . 由于候选属性的个数为 d( 一 2) 个 , 故整个的实例费用为2 夕 “ d( 一 2) . 最不理想的情况是从决策树的最低层将分类属性提升到根节点上 , 此时需要的实例费用最大 . 上述己经推出决策树最高两级的费用为 2 b 2` d( 一 2 ) , 当决策树的属性 d增多时 , 每个属性所对应的 b棵子决策树的费用为 bx P a( d 一 l) , 其中b 为属性的值段数量 . 所以可得如下的费用公式 : aP (刃= 艺b ` 一 , x Zb , x (d 一 ’l) = O (b今 ( 4 ) 第三部分考虑递归地重构子决策树 , 重新选择子决策树根节点上最好的分类属性所引起的费用 . 提升一个属性来替换旧分类属性的过程将导致实例费用的产生 , 这个费用是由每个子决策树下一级的候选属性的费用总和决定的 . 假设一个分类属性重构 b棵新子树 , 设 aR (的是最不理想情况下 , 在决策树第 d( 一 l) 层构造 b棵决策树的费用 . 当 d = 1 时 , 决策树除根节点外没有其他属性 , 故 R a ( l ) = 0 . 当 d = 2 时 , 只有一个候选属性 , 在决策树的第一层上 , 意味着在该属性下没有子决策树 , 故 R a ( 2) = 0

204· 北京科技大学学报 2004年第2期当d=3时，在决策树的第一层节点下有b个子假设b棵子决策树的分类属性都需要重新选树，每个子树都可能有一个候选属性作为子决策择.通常情况下，决策树的第一级上需要计算的树的根节点.通常有：信息熵的复杂度为b×(d-1):同时决策树的第一 Ra(d0=b×[Pa(d-1)+Ra(d-l)】级上有b个节点属性，每个属性下对应一棵深度 d-1 =Σb-txPa(t)-O(dxb (5) 为(d-I)的子决策树，该子决策树在重新选择分 =3 将上述三部分更新决策树的费用加起来得类属性时，需要计算的信息熵费用为Re(d-I),共到最不理想的情况下，新增一条记录所引起的实有b棵子决策树，所以计算深度为d的决策树重选例费用为：子决策树分类属性时，计算信息熵所需要的计算 2[i+Pa(0+Ra(0]-+2Pa(+2Ra() 费用为： (6) -t Re(d)=bx[(d-1)+Re(d-1)] (9) 为了简化计算，设Pa(d=b,Ra(d=dxb,则将两部分新增一个实例给决策树构造时带得新增一条记录总的实例费用为： 2[+Pa(iHRa(0】= 来的信息熵计算费用综合起来得 d(d+1)dxb-(n+D)xb"tb-Oldxb) ∑[i+Re(]=∑i计∑Re() (10) 2 (b-1Y (7) 设Re(d=b,则有所以，当有n个新增实例时所引起的实例费 2+Re(0】=克+2b=4c41,二b=0b(1) 用为On×db).上述分析表明，在最不理想的情 t t-1 2b-1 况下，利用增量决策树算法构造决策树的复杂度所以当n个实例全部加入到决策树时，最不理想的情况引起的信息熵计算复杂度为O(×b). 与训练数据集中包含的记录数n线性相关， 2.2增量决策树算法信息熵费用上述分析显示，增量决策树算法信息熵计算的复杂度与训练数据集的数量n成线性关系，在最不理想的情况下，修改决策树时，信息熵复杂度由两个部分组成.第一部分是当有新的 3增量决策树算法的实例分析实例加入到决策树时，增加的信息熵的费用.第二部分费用是递归地修改每个子树根节点上的以表1中的数据集为例，其中候选属性分别分类属性所引起的，为“身高”，“头发颜色”和“眼睛颜色”，各候选属第一部分，考虑最不理想情况下，新增一个性以及类主属性的取值情况见表1，实例对决策树形状没有影响时所引起的信息熵下面以上述的8条记录作为训练数据集说明费用.假设一个已经拓展的决策树，选择根节点增量决策树算法的工作原理.· 上的分类属性时，需要计算全部d个属性的信息 (1)当训练数据集中只有第1条记录时，决策熵，然后在第一级上选择分类属性时，需要计算树只有一个叶节点. 其余(d-1)个属性的信息熵.因此，当新增一个实 (2)当训练数据集新增第2条记录时，随机选例时，更新决策树所需要的费用为：择候选属性“身高”作为根节点，生成的决策树包 i=dx(d+1)-O(d) (8) 含两个叶节点.由于此时在叶节点上都只有一个 2 下面考虑决策树修改时带来的信息熵费用，表1增量决策树算法的训练数据集设Re(d)为重新选择一个深度为d(属性个数) Table 1 Training data sets for the incremental induction of 的决策树的分类属性所带来的计算费用. decision trees 当决策树的深度d=1时，没有下一级子决策序号身高头发颜色眼睛颜色类别树，因此Re(1)=0. 矮金黄棕色本当决策树的深度d=2时，在决策树的第一级停黑色棕色莎 3 上只有一个属性，不需要重新计算该属性的信息高金黄蓝色是 4 高黑色蓝色香熵，故Re(2)=0. 5 矮黑色蓝色名当决策树的深度d=3时，在决策树的第一级 6 高红色蓝色上有b个子树，每个子树需要计算(d-1)个候选属 7 高金黄棕色否性的信息熵，因此Re(3)=bx(d-1). 矮金黄蓝色是

北京科技大学学报 2 0 4年第 2 期当 d = 3时 , 在决策树的第一层节点下有 b个子树 , 每个子树都可能有一个候选属性作为子决策树的根节点 . 通常有 : R a (刃= b x 「P a ( d 一 l ) + aR (d 一 l )〕 d一 1 = Z b d 一` x P a (i) = O( d x b今 ( 5) 将上述三部分更新决策树的费用加起来得到最不理想的情况下 , 新增一条记录所引起的实例费用为 : (6)则 d d d d 艺 [+i P a ( i ) + aR ( i )」= 艺+i 艺P a ( i ) + X R试i) : , 1 孟写 1 召= l 为了简化计算 , 设 P a( 的= 夕 , aR (动= d ` 夕 , 得新增一条记录总的实例费用为: 、产、、. nU ` .1 `且1. 了二. 砚 `、了艺 [+i P a (i) + R a (i) ] = 假设 b棵子决策树的分类属性都需要重新选择 . 通常情况下 , 决策树的第一级上需要计算的信息嫡的复杂度为 b ` d( 一 l) ; 同时决策树的第一级上有 b个节点属性 , 每个属性下对应一棵深度为 d( 一 l) 的子决策树 , 该子决策树在重新选择分类属性时 , 需要计算的信息嫡费用为eR d( 一 l) , 共有 b棵子决策树 , 所以计算深度为d 的决策树重选子决策树分类属性时 , 计算信息嫡所需要的计算费用为 : R e (刃= b x 【(d 一 l ) + eR (d 一 l )」 ( 9 ) 将两部分新增一个实例给决策树构造时带来的信息嫡计算费用综合起来得 d( +d l) d x b祝一 ( n + l ) x b 肚 `+ b d d 艺+i Z R e (i) (b 一 l ) 2 = 0 (d x b今 ( 7 ) d X [+i R e (i) ] = i= l 设 R e( 刃= 少 , 则有所以 , 当有 n 个新增实例时所引起的实例费用为口( n ` d ` b今 . 上述分析表明 , 在最不理想的情况下 , 利用增量决策树算法构造决策树的复杂度与训练数据集中包含的记录数 n 线性相关 . .2 2 增量决策树算法信息嫡费用在最不理想的情况下 , 修改决策树时 , 信息嫡复杂度由两个部分组成 . 第一部分是当有新的实例加入到决策树时 , 增加的信息嫡的费用 . 第二部分费用是递归地修改每个子树根节点上的分类属性所引起的 . 第一部分 , 考虑最不理想情况下 , 新增一个实例对决策树形状没有影响时所引起的信息嫡费用 . 假设一个已经拓展的决策树 , 选择根节点上的分类属性时 , 需要计算全部 d个属性的信息嫡 , 然后在第一级上选择分类属性时 , 需要计算其余 d( 一 l) 个属性的信息嫡 . 因此 , 当新增一个实例时 , 更新决策树所需要的费用为 : 凰+i[ eR i()] 一急礁 ,粤护碟举一。所以当 n 个实例全部加入到决策树时 , 最不理想的情况引起的信息嫡计算复杂度为以xn b今 . 上述分析显示 , 增量决策树算法信息嫡计算的复杂度与训练数据集的数量 n 成线性关系 . 矛 _ d x (+d l ) 2 = O (护) ( 8 ) 下面考虑决策树修改时带来的信息嫡费用 . 设 R e( 的为重新选择一个深度为d( 属性个数 ) 的决策树的分类属性所带来的计算费用 . 当决策树的深度 d = 1时 , 没有下一级子决策树 , 因此 R e ( l ) = 0 . 当决策树的深度 d = 2 时 , 在决策树的第一级上只有一个属性 , 不需要重新计算该属性的信息嫡 , 故 eR (2 ) = 0 . 当决策树的深度 d = 3 时 , 在决策树的第一级上有 b个子树 , 每个子树需要计算 d( 一 1) 个候选属性的信息嫡 , 因此 eR ( 3) = bx d( 一 1) . 3 增量决策树算法的实例分析以表 1 中的数据集为例 , 其中候选属性分别为 “ 身高 ” , “ 头发颜色 ” 和 “ 眼睛颜色 ” , 各候选属性以及类主属性的取值情况见表 1 . 下面以上述的 8 条记录作为训练数据集说明增量决策树算法的工作原理 . ’ ( l) 当训练数据集中只有第 1 条记录时 , 决策树只有一个叶节点 . (2 )当训练数据集新增第 2 条记录时 , 随机选择候选属性 “ 身高 ” 作为根节点 , 生成的决策树包含两个叶节点 . 由于此时在叶节点上都只有一个表 1 增量决策树算法的训练数据集 aT b l e l 竹a i n in g d a t a s e t s fo r t h e in e er 口e n t a l i n d u e it o n o f d e e is i o n t er e s 序号身高头发颜色眼睛颜色类别 1 矮金黄棕色否 2 高黑色棕色否 3 高金黄蓝色是 4 高黑色蓝色否 5 矮黑色蓝色否 6 高红色蓝色是 7 高金黄棕色否 8 矮金黄蓝色是

Vol.26 No.2 尹阿东等：增量决策树算法及复杂度分析 ·205· 记录，所以停止决策树的拓展集，由增量决策树算法生成的决策树的形态与传 (3)当训练数据集新增第3条记录时，由于节统的D3算法生成的决策树的形态完全一致，说点分类属性“身高”与候选属性“眼睛颜色”有相明两种算法具有相同的准确率，同的信息熵值0，根据公式a-经E可 Ibb,+2+lbe 知，am=0,所以当新增一条记录后，将导致候选 4结论属性“眼睛颜色”替代原先的分类属性“身高”，此增量决策树算法利用两个辅助定理，处理增时的决策树的形态如图1所示. 量数据集的决策树构造问题，解决了传统D3算 (4)依次类推，当训练数据集新增第48条记法无法处理增量数据集的缺点，通过对增量决策录的过程中，根据增量决策树算法可以得到相应树算法复杂度的分析可以发现，虽然增量算法在的增量决策树.最终根据训练数据集中的8条记构造决策树时，需要较大的计算费用，但是利用录，利用增量决策树算法生成的决策树的形态如增量算法可以一次完成决策树的构造，避免了对图2所示. 数据集的重复扫描，而且可以构造出与D3算法经过对比分析发现，利用表1中的训练数据准确率基本相同的决策树，眼睛颜色参考文献蓝色0，] 棕色[0,2] 1 Schlimmer J C,Fisher D.A case study of incremental con- 是身高 cept induction [A].Proceedings of AAAI-86 [C].Philad- elphia,1986 矮0,1] 高[0,1] 2 Utgoff P E.Incremental Induction of Decision Trees [J]. Mach Learn,1989(4):161 否否 3 Utgoff P E.An improved algorithm for incremental induc- 图1三条记录时决策树的形态 tion of decision trees [A].Proceedings of the Eleventh Int. Fig.1 Decision trees of three training instances Conference on Machine Learning [C].New Jersey,1994. 318 头发颜色 4 Kalles D,Morris T.Efficient incremental induction of de- 金色[2,2 红色[1,0] cision trees [J].Mach Learn,1996(1):1 黑色0,3 眼晴颜色 5 Kalles D,Papagelis A.Stable decision trees:Using local 是蓝色2,01 棕色[0,2] anarchy for efficient incremental learning [J].Int J Artif 眼睛颜色 Intell Tools,2000,9(1):79 身高身高蓝色[0,2]/ 棕色[0,1】 6 Piater JH,Riseman E M.Interactively training pixel clas- \高0,1] sifiers []Int J Patter Recognit Artif Intell,1999,13(2): 矮0,1y 高[1,0] 171 否 7 Elomaa T,Kaariainen M.An analysis of reduced error pru- 是否否 ning[J].J Artif Intell Res,2001,15:163 图2增量算法生成决策树的最终形态 8 Wang X Z,Chen B,Qian G L,et al.On the optimization Fig.2 Final decision trees of eight training instances offuzzy decision trees [J].Fuzzy Sets Syst,000,112:117 An Incremental Alogrithm for Inducing Decision Trees and Its Complexity YIN Adong,GONG Yu,WU Shengli,WU Sen,GAO Xuedong,LI Yongjun Management School,University of Science and Technology Beijing,Beijing 100083,China ABSTRACT An incremental algorithm for inducing decision trees is presented based on ID3 algorithm.The com- plexity of the incremental algorithm is analyzed in terms of instance-count additions and e-score calculations.The same training instance shows that the incremental algorithm can induce decision trees equivalent to those forms by ID3 algorithm. KEY WORDS decision trees;incremental algorithm;complexity

V心1 . 2 6 N 0 . 2 尹阿东等 : 增量决策树算法及复杂度分析一 2 0 5 . 记录 , 所以停止决策树的拓展 , (3 ) 当训练数据集新增第 3 条记录时 , 由于节点分类属性 “ 身高 ” 与候选属性 “ 眼睛颜色 ” 有相集 , 由增量决策树算法生成的决策树的形态与传统的 ID 3 算法生成的决策树的形态完全一致 , 说明两种算法具有相同的准确率 . 同的信息嫡值。 , 根据公式 am 。一史拱实兽任军卫可 I U竹丁 ` 不 i U` 知 , am ax = O , 所以当新增一条记录后 , 将导致候选属性 “ 眼睛颜色 ” 替代原先的分类属性 “ 身高 ” . 此时的决策树的形态如图 1 所示 . (4 )依次类推 , 当训练数据集新增第 4一 8 条记录的过程中 , 根据增量决策树算法可以得到相应的增量决策树 . 最终根据训练数据集中的 8 条记录 , 利用增量决策树算法生成的决策树的形态如图 2 所示 . 经过对比分析发现 , 利用表 1 中的训练数据眼睛颜色蓝罗/ 映 , 2 ’ 身高一 / 准【。 , 1」否否图 1 三条记录时决策树的形态 F ig . l D e c is i o n t r e e s o f t h r e e t r a in i n g in s t a n c e s 头发颜色眼睛颜色蓝色 l州冷【0 , 2 , 否否图 2 增量算法生成决策树的最终形态 F ig . 2 F i n a l d e c is i o n t r e e s o f e i g h t t r a i n i n g i n s t a n e e s 4 结论增量决策树算法利用两个辅助定理 , 处理增量数据集的决策树构造问题 , 解决了传统 ID 3 算法无法处理增量数据集的缺点 . 通过对增量决策树算法复杂度的分析可以发现 , 虽然增量算法在构造决策树时 , 需要较大的计算费用 , 但是利用增量算法可以一次完成决策树的构造 , 避免了对数据集的重复扫描 , 而且可以构造出与 ID 3 算法准确率基本相同的决策树 . 参考文献 1 S e h l im m e r J C , F i s h e r D . A c a s e s ut 勿 o f i n e er m e n t a l e o n · e e Pt i n d u e t i o n [ A ] . Pr o e e e d ing s o f A A A I 一 8 6 [C」 . P h i l a d - e lP h i a , 19 8 6 2 U tg o任 P E . In e r e m e n t a 1 In du e t i o n o f D e e i s i o n rT e e s [J」 . M a c h L e am , 19 89 ( 4 ) : 1 6 1 3 U tg o f P E . A n 而P r o v e d a l g o r i thm fo r i n c r e m e in a l i n d u c - ti o n o f d e e i s i o n etr e s [A ] . Por c e e di n g s o f ht e E l e v e n t h l n t . C o n fe r e n e e o n M a e h i n e L e anr i n g [C ] . N e w J e r s e y, 1 9 9 4 . 3 1 8 4 K a ll e s D , M o r i s .T E if c i e in in e er m e n t a 1 i n d u e ti o n o f d e - c i s i o n etr e s [J] . M ac h L e anr , 1 9 9 6 ( l ) : l 5 K a ll e s D , P ap ag e l i s A . S at bl e d e e i s i o n tr e e s : U s i n g l o c a l a n ar c hy fo r e if c i e n t i n c r e m e nt a l l e anr i n g [ J] . I in J A rt if I nt e l l oT o l s , 2 0 0 0 , 9 ( l ) : 7 9 6 P iat e r J H , Ri s e m an E M . I nt e r a c t i v e ly tr a i n i n g Pi x e l e l a s - s i if e r s [J] . I n t J P a t em eR e o gn i t A rt if lin e l l , 19 9 9 , 13 ( 2 ) : 1 7 1 7 E l o m a T, K ar i a i n e n M . nA an a ly s i s o f er du e e d e r o r Pur - n i n g [J ] . J A rt l f lin e ll R e s , 2 0 0 1 , 1 5 : 1 6 3 8 从a/ n g X Z , C he n B , Q i a n G L , e t a l . O n ht e o Pt im iatZ i o n o f fu Z yZ d e c i s i o n tr e e s [J I . F u Z y s e t s s y s t , 2 0 0 0 , 1 1 2 : 1 1 7 A n I n e r e m e n t a l A l o g r it h m fo r I n d u c i n g D e c i s i o n rT e e s a n d I t s C o m P l e x iyt 1了N A do ng, G O N G ,uY 附 U hS e喇砚砰 U eS n , G月口 Xu e ` lo ng, IL oY ” 乡 un M an ag e m e n t S e h o o l , U n i v c r s ity o f s c i e n e e an d eT e hn o l o gy B e ij i n g , B e ij in g 10 0 0 8 3 , C h in a A B S T R A C T A n i n e r e m e n t a l a lg o ir t h n l of r i n du e i n g d e e i s i o n tr e e s 1 5 P re s e in e d b a s e d o n ID 3 a l g o ir t hj m . hT e e o m - P l e x ity o f ht e i n e r e m e in a l a l g o ir t 加rn 1 5 an ly z e d in t e rm s o f in s t an e e 一 c o u n t a d dit i o n s an d e 一 s e o re e a l c u l at i o n s . hT e s am e atr l n i n g l n s t an e e s h o w s ht at ht e i cn re m e in a l a lg o ir t 加rn e an in du e e d e e i s i o n tre e s e qu i v a l ent t o ht o s e of rm s 勿 ID 3 a l g o ir t知rn . K E Y W O R D S d e e i s i o n tr e e s ; i n e r e m e nt a l a lg o ir t h m ; e o m Pl e x i ty

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

增量决策树算法及复杂度分析