正在加载图片...
用GINI值衡量节点纯度。之所以采用Gin指数,是因为较于熵而言其计算速度更快一些 对决策树的节点n,Gini指数计算公式如下 Gini(n)=1-EkIp(ckIn)]2(1) Gini指数即为1与类别ck的概率平方之和的差值,反映了样本集合的不确定性程度 Gini指数越大,样本集合的不确定性程度越高。分类学习过程的本质是样本不确定性程度的 减少(即熵减过程),故应选择最小Gni指数的特征分裂。父节点对应的样本集合为F,CART 选择特征A分裂为两个子节点,对应集合为F与FR;分裂后的Gin指数定义如下: G(E, A)=FL Gini(Fd)+ FRl Gini(Fr)(2) 其中,||表示样本集合的记录数量。 构建决策树的算法很多,选择CART算法的优点如下: (1)出行方式选择的影响众多,全部分析较为复杂。该算法可自动忽略对目标变量没 有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考 (2)现有的居民出行调查数据难免存在数据缺失的问题,该算法在面对诸如存在缺失 值、变量数多等问题时CART显得非常稳健 (3)CART算法估计模型通常不用花费很长的训练时间 (4)推理过程完全依据属性变量的取值特点(与C50不同,CART的输出字段既可以 是数值型,也可以是分类型) 5)比其他模型更易于理解一一从模型中得到的规则能得到非常直观的解释,决策推 理过程可以表示成IF…THEN的形式 (6)该算法非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自 动的成本复杂性剪枝来得到归纳性更强的树 三、数据来源 本文数据基于2015年西安居民出行调查的数据,调查内容为西安主城区及外围辐射区 影响范围内的常、暂住人口及流动人口的出行情况。常、暂住人口按户进行抽样,主城区抽 样率为3%;外围区域抽样率为2%。流动人口按照2%的抽样率。调查方式为上门入户调查, 调查内容主要涉及个人信息、家庭信息及出行信息三方面的内容。经过数据分类整理,最终 可利用的数据量为129183条。涉及的交通方式大致分为步行、非机动车、私人小汽车及公 共交通。 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net用 GINI 值衡量节点纯度。之所以采用 Gini 指数,是因为较于熵而言其计算速度更快一些。 对决策树的节点 n,Gini 指数计算公式如下: Giniሺnሻ ൌ 1 െ ∑ ሾ݌ሺܿ௞|݊ሻሿଶ ௞ (1) Gini 指数即为 1 与类别ܿ௞的概率平方之和的差值,反映了样本集合的不确定性程度。 Gini 指数越大,样本集合的不确定性程度越高。分类学习过程的本质是样本不确定性程度的 减少(即熵减过程),故应选择最小 Gini 指数的特征分裂。父节点对应的样本集合为 F,CART 选择特征 A 分裂为两个子节点,对应集合为ܨ௅与ܨோ;分裂后的 Gini 指数定义如下: Gሺܨ ,ܣሻ ൌ |ிಽ| |ி| ܩ݅݊݅ሺܨ௅ሻ ൅ |ிೃ| ி ܩ݅݊݅ሺܨோሻ(2) 其中,||表示样本集合的记录数量。 构建决策树的算法很多,选择 CART 算法的优点如下: (1)出行方式选择的影响众多,全部分析较为复杂。该算法可自动忽略对目标变量没 有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考; (2)现有的居民出行调查数据难免存在数据缺失的问题,该算法在面对诸如存在缺失 值、变量数多等问题时 CART 显得非常稳健; (3)CART 算法估计模型通常不用花费很长的训练时间; (4)推理过程完全依据属性变量的取值特点(与 C5.0 不同,CART 的输出字段既可以 是数值型,也可以是分类型) (5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推 理过程可以表示成 IF…THEN 的形式 (6)该算法非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自 动的成本复杂性剪枝来得到归纳性更强的树。 三、数据来源 本文数据基于 2015 年西安居民出行调查的数据,调查内容为西安主城区及外围辐射区 影响范围内的常、暂住人口及流动人口的出行情况。常、暂住人口按户进行抽样,主城区抽 样率为 3%;外围区域抽样率为 2%。流动人口按照 2%的抽样率。调查方式为上门入户调查, 调查内容主要涉及个人信息、家庭信息及出行信息三方面的内容。经过数据分类整理,最终 可利用的数据量为 129183 条。涉及的交通方式大致分为步行、非机动车、私人小汽车及公 共交通
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有