北京科技大学学报 2 0 4年第 2 期当 d = 3时

正在加载图片...

204· 北京科技大学学报 2004年第2期当d=3时，在决策树的第一层节点下有b个子假设b棵子决策树的分类属性都需要重新选树，每个子树都可能有一个候选属性作为子决策择.通常情况下，决策树的第一级上需要计算的树的根节点.通常有：信息熵的复杂度为b×(d-1):同时决策树的第一 Ra(d0=b×[Pa(d-1)+Ra(d-l)】级上有b个节点属性，每个属性下对应一棵深度 d-1 =Σb-txPa(t)-O(dxb (5) 为(d-I)的子决策树，该子决策树在重新选择分 =3 将上述三部分更新决策树的费用加起来得类属性时，需要计算的信息熵费用为Re(d-I),共到最不理想的情况下，新增一条记录所引起的实有b棵子决策树，所以计算深度为d的决策树重选例费用为：子决策树分类属性时，计算信息熵所需要的计算 2[i+Pa(0+Ra(0]-+2Pa(+2Ra() 费用为： (6) -t Re(d)=bx[(d-1)+Re(d-1)] (9) 为了简化计算，设Pa(d=b,Ra(d=dxb,则将两部分新增一个实例给决策树构造时带得新增一条记录总的实例费用为： 2[+Pa(iHRa(0】= 来的信息熵计算费用综合起来得 d(d+1)dxb-(n+D)xb"tb-Oldxb) ∑[i+Re(]=∑i计∑Re() (10) 2 (b-1Y (7) 设Re(d=b,则有所以，当有n个新增实例时所引起的实例费 2+Re(0】=克+2b=4c41,二b=0b(1) 用为On×db).上述分析表明，在最不理想的情 t t-1 2b-1 况下，利用增量决策树算法构造决策树的复杂度所以当n个实例全部加入到决策树时，最不理想的情况引起的信息熵计算复杂度为O(×b). 与训练数据集中包含的记录数n线性相关， 2.2增量决策树算法信息熵费用上述分析显示，增量决策树算法信息熵计算的复杂度与训练数据集的数量n成线性关系，在最不理想的情况下，修改决策树时，信息熵复杂度由两个部分组成.第一部分是当有新的 3增量决策树算法的实例分析实例加入到决策树时，增加的信息熵的费用.第二部分费用是递归地修改每个子树根节点上的以表1中的数据集为例，其中候选属性分别分类属性所引起的，为“身高”，“头发颜色”和“眼睛颜色”，各候选属第一部分，考虑最不理想情况下，新增一个性以及类主属性的取值情况见表1，实例对决策树形状没有影响时所引起的信息熵下面以上述的8条记录作为训练数据集说明费用.假设一个已经拓展的决策树，选择根节点增量决策树算法的工作原理.· 上的分类属性时，需要计算全部d个属性的信息 (1)当训练数据集中只有第1条记录时，决策熵，然后在第一级上选择分类属性时，需要计算树只有一个叶节点. 其余(d-1)个属性的信息熵.因此，当新增一个实 (2)当训练数据集新增第2条记录时，随机选例时，更新决策树所需要的费用为：择候选属性“身高”作为根节点，生成的决策树包 i=dx(d+1)-O(d) (8) 含两个叶节点.由于此时在叶节点上都只有一个 2 下面考虑决策树修改时带来的信息熵费用，表1增量决策树算法的训练数据集设Re(d)为重新选择一个深度为d(属性个数) Table 1 Training data sets for the incremental induction of 的决策树的分类属性所带来的计算费用. decision trees 当决策树的深度d=1时，没有下一级子决策序号身高头发颜色眼睛颜色类别树，因此Re(1)=0. 矮金黄棕色本当决策树的深度d=2时，在决策树的第一级停黑色棕色莎 3 上只有一个属性，不需要重新计算该属性的信息高金黄蓝色是 4 高黑色蓝色香熵，故Re(2)=0. 5 矮黑色蓝色名当决策树的深度d=3时，在决策树的第一级 6 高红色蓝色上有b个子树，每个子树需要计算(d-1)个候选属 7 高金黄棕色否性的信息熵，因此Re(3)=bx(d-1). 矮金黄蓝色是北京科技大学学报 2 0 4年第 2 期当 d = 3时 , 在决策树的第一层节点下有 b个子树 , 每个子树都可能有一个候选属性作为子决策树的根节点 . 通常有 : R a (刃= b x 「P a ( d 一 l ) + aR (d 一 l )〕 d一 1 = Z b d 一` x P a (i) = O( d x b今 ( 5) 将上述三部分更新决策树的费用加起来得到最不理想的情况下 , 新增一条记录所引起的实例费用为 : (6)则 d d d d 艺 [+i P a ( i ) + aR ( i )」= 艺+i 艺P a ( i ) + X R试i) : , 1 孟写 1 召= l 为了简化计算 , 设 P a( 的= 夕 , aR (动= d ` 夕 , 得新增一条记录总的实例费用为: 、产、、. nU ` .1 `且1. 了二. 砚 `、了艺 [+i P a (i) + R a (i) ] = 假设 b棵子决策树的分类属性都需要重新选择 . 通常情况下 , 决策树的第一级上需要计算的信息嫡的复杂度为 b ` d( 一 l) ; 同时决策树的第一级上有 b个节点属性 , 每个属性下对应一棵深度为 d( 一 l) 的子决策树 , 该子决策树在重新选择分类属性时 , 需要计算的信息嫡费用为eR d( 一 l) , 共有 b棵子决策树 , 所以计算深度为d 的决策树重选子决策树分类属性时 , 计算信息嫡所需要的计算费用为 : R e (刃= b x 【(d 一 l ) + eR (d 一 l )」 ( 9 ) 将两部分新增一个实例给决策树构造时带来的信息嫡计算费用综合起来得 d( +d l) d x b祝一 ( n + l ) x b 肚 `+ b d d 艺+i Z R e (i) (b 一 l ) 2 = 0 (d x b今 ( 7 ) d X [+i R e (i) ] = i= l 设 R e( 刃= 少 , 则有所以 , 当有 n 个新增实例时所引起的实例费用为口( n ` d ` b今 . 上述分析表明 , 在最不理想的情况下 , 利用增量决策树算法构造决策树的复杂度与训练数据集中包含的记录数 n 线性相关 . .2 2 增量决策树算法信息嫡费用在最不理想的情况下 , 修改决策树时 , 信息嫡复杂度由两个部分组成 . 第一部分是当有新的实例加入到决策树时 , 增加的信息嫡的费用 . 第二部分费用是递归地修改每个子树根节点上的分类属性所引起的 . 第一部分 , 考虑最不理想情况下 , 新增一个实例对决策树形状没有影响时所引起的信息嫡费用 . 假设一个已经拓展的决策树 , 选择根节点上的分类属性时 , 需要计算全部 d个属性的信息嫡 , 然后在第一级上选择分类属性时 , 需要计算其余 d( 一 l) 个属性的信息嫡 . 因此 , 当新增一个实例时 , 更新决策树所需要的费用为 : 凰+i[ eR i()] 一急礁 ,粤护碟举一。所以当 n 个实例全部加入到决策树时 , 最不理想的情况引起的信息嫡计算复杂度为以xn b今 . 上述分析显示 , 增量决策树算法信息嫡计算的复杂度与训练数据集的数量 n 成线性关系 . 矛 _ d x (+d l ) 2 = O (护) ( 8 ) 下面考虑决策树修改时带来的信息嫡费用 . 设 R e( 的为重新选择一个深度为d( 属性个数 ) 的决策树的分类属性所带来的计算费用 . 当决策树的深度 d = 1时 , 没有下一级子决策树 , 因此 R e ( l ) = 0 . 当决策树的深度 d = 2 时 , 在决策树的第一级上只有一个属性 , 不需要重新计算该属性的信息嫡 , 故 eR (2 ) = 0 . 当决策树的深度 d = 3 时 , 在决策树的第一级上有 b个子树 , 每个子树需要计算 d( 一 1) 个候选属性的信息嫡 , 因此 eR ( 3) = bx d( 一 1) . 3 增量决策树算法的实例分析以表 1 中的数据集为例 , 其中候选属性分别为 “ 身高 ” , “ 头发颜色 ” 和 “ 眼睛颜色 ” , 各候选属性以及类主属性的取值情况见表 1 . 下面以上述的 8 条记录作为训练数据集说明增量决策树算法的工作原理 . ’ ( l) 当训练数据集中只有第 1 条记录时 , 决策树只有一个叶节点 . (2 )当训练数据集新增第 2 条记录时 , 随机选择候选属性 “ 身高 ” 作为根节点 , 生成的决策树包含两个叶节点 . 由于此时在叶节点上都只有一个表 1 增量决策树算法的训练数据集 aT b l e l 竹a i n in g d a t a s e t s fo r t h e in e er 口e n t a l i n d u e it o n o f d e e is i o n t er e s 序号身高头发颜色眼睛颜色类别 1 矮金黄棕色否 2 高黑色棕色否 3 高金黄蓝色是 4 高黑色蓝色否 5 矮黑色蓝色否 6 高红色蓝色是 7 高金黄棕色否 8 矮金黄蓝色是

<<向上翻页向下翻页>>

点击下载：增量决策树算法及复杂度分析