广东工业大学：《机器学习》课程教学资源（课件讲义）第7讲集成学习（决策树）

团购合买资源类别：文库，文档格式：PDF，文档页数：74，文件大小：7.41MB

07决策树周志华《机器学习》第四章李航《统计机器学习》第五章

07 决策树周志华《机器学习》第四章李航《统计机器学习》第五章

大纲口基本流程口划分选择（特征选择 ▣剪枝处理口连续与缺失值口多变量决策树

大纲 p 基本流程 p 划分选择（特征选择） p 剪枝处理 p 连续与缺失值 p 多变量决策树

基本流程决策树基于树结构来进行预测色泽=？青绿根蒂=？蜷缩敲声=？浊响好瓜

基本流程决策树基于树结构来进行预测色泽=? 根蒂=? 敲声=? 好瓜青绿蜷缩浊响 …... … …... … …... …

基本流程 ▣决策过程中提出的每个判定问题都是对某个属性的“测试” 口决策过程的最终结论对应了我们所希望的判定结果口每个测试的结果或是导出最终结论，或者导出进一步的判定问题，其考虑范围是在上次决策结果的限定范围之内口从根结点到每个叶结点的路径对应了一个判定测试序列决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树

基本流程 p 决策过程中提出的每个判定问题都是对某个属性的“测试” p 决策过程的最终结论对应了我们所希望的判定结果 p 每个测试的结果或是导出最终结论，或者导出进一步的判定问题，其考虑范围是在上次决策结果的限定范围之内 p 从根结点到每个叶结点的路径对应了一个判定测试序列决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树

基本流程 Algorithm1决策树学习基本算法输入： ·训练集D={x1,1),,(xm,m)片；。属性集A=(a1,,aa 过程：函数TreeGenerate(D,A) 1上：生成结点node: (1)当前结点包含的 2:ifD中样本全属于同一类别C then 样本全部属于同一类 3:将node标i记为C类叶结点：return 别 4:end if 5:ifA=0ORD中样本在A上取值相同thcn■ 6:将node标记叶结点，其类别标记为D中样本数最多的类：return (2)当前属性集为空， 7:end if 或所有样本在所有属 8:从A中选择最优划分属性a 性上取值相同 9:fora.的每一个值a:do 10:为node生成每一个分枝；令D,表示D中在a.上取值为a:的样本子集： 1:ifD,为空then 12: 将分枝结点标记为叶结点，其类别标记为D中样本最多的类：return (3)当前结点包含的 13:else 样本集合为空 14 以TreeGenerate(De,A-{a.)为分枝结点 15:end if 16:end for 输出：以node为根结点的一棵决策树

基本流程（1）当前结点包含的样本全部属于同一类别（2）当前属性集为空，或所有样本在所有属性上取值相同（3）当前结点包含的样本集合为空

大纲口基本流程口划分选择（特征选择） ▣剪枝处理口连续与缺失值口多变量决策树

大纲 p 基本流程 p 划分选择（特征选择） p 剪枝处理 p 连续与缺失值 p 多变量决策树

划分选择口决策树学习的关键在于如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的"纯度”(purity)越来越高口经典的属性划分方法： ·基尼指数(CART) ●信息增益(ID3) ● 增益率(C4.5)

划分选择 p 决策树学习的关键在于如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高 p 经典的属性划分方法： l 基尼指数（CART） l 信息增益（ID3） l 增益率（C4.5）

划分选择与决策树的种类决策树的假设信息是可区分的决策树的种类 ■按任务分：分类树(Classification tree)与回归树(Decision tree) ■按特征选择方法分：ID3决策树算法、C4.5决策树算法、CART决策树算法时间模型任务树特征选择基尼系数(Gini) 1984 CART 分类二叉树回归平方误差(MSE) 1986 ID3 分类多叉树信息增益(Information Gain) 1993 C4.5 分类多叉树信息增益比(Information Gain Ratio) 知乎@刘启林

划分选择与决策树的种类 p 数据集的纯度可用“基尼值”来度量越小，数据集的纯度越高 p 属性的基尼指数定义为： p 应选择那个使划分后基尼指数最小的属性作为最优划分属性，即 p CART [Breiman et al., 1984]采用“基尼指数”来选择划分属性反映了从中随机抽取两个样本，其类别标记不一致的概率

划分选择-信息增益红D3 口“信息熵”是度量样本集合纯度最常用的一种指标，假定当前样本集合D中第类样本所占的比例为P(K=1,2,,1门)，则D的信息熵定义为 10川 Ent(D）=- p&log2 PR k=1 Ent(D)的值越小，则D的纯度越高 ▣计算信息熵时约定：若p=0,则plog2p=0 口Ent(D)的最小值为0，最大值为log2Dy

划分选择-信息增益ID3 p “信息熵”是度量样本集合纯度最常用的一种指标，假定当前样本集合中第类样本所占的比例为，则的信息熵定义为的值越小，则的纯度越高 p 计算信息熵时约定：若，则 p 的最小值为，最大值为

划分选择-信息增益缸D3 ▣离散属性a有V个可能的取值{a,a a'}.,用a来进行划分，.则会产生V个分支结点，其中第个分支结点包含了D中所有在属性上取值为a"的样本，记为D"。则可计算出用属性a对样本集D进行划分所获得的“"信息增益”： Gain(D,a)=Ent(D)- Ent(D) 1 为分支结点权重，样本数越多的分支结点的影响越大一般而言，信息增益越大，则意味着使用属性α来进行划分所获得的“纯度提升”越大口ID3决策树学习算法[QuinIan,1986]以信息增益为准则来选择划分属性

划分选择-信息增益ID3 p 离散属性有个可能的取值，用来进行划分，则会产生个分支结点，其中第个分支结点包含了中所有在属性上取值为的样本，记为。则可计算出用属性对样本集进行划分所获得的“信息增益”： p 一般而言，信息增益越大，则意味着使用属性来进行划分所获得的“纯度提升”越大 p ID3决策树学习算法[Quinlan, 1986]以信息增益为准则来选择划分属性为分支结点权重，样本数越多的分支结点的影响越大

点击进入文档下载页（PDF格式）

共74页，可试读20页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录