基于决策树的居民出行方式影响因素分析 牛凯,张福明,陈宽民1 (1.长安大学公路学院,陕西西安710064) 擴要:作为城市交通规划、建设的依据,居民出行调查显得尤为重要。对于调查数据的挖 掘分析可以为交通结构的改善及交通政策的制定提供一定参考。本文基于西安市2015年居 民出行调查数据,对居民出行的影响因素进行分析。借助于CART算法,分别构建了长距 离出行条件与短距离出行条件下的决策树模型。该模型结果表明:短距离出行条件下,出行 目的为出行方式选择的主要影响因素,在此基础上,职业、年龄、是否开通公共自行车、出 行时间对出行方式的选择进一步产生影响;在长距离出行条件下,年龄为出行方式的主要影 响因素,性别、职业、有无公交卡、有无购车意愿、出行目的对出行方式的选择也会产生一 定的影响。 关镳词:决策树;CART:出行方式;影响因素 中图分类号:U491 Analysis of Influencing Factors of Residents Travel Mode Based on decision Niukai, Zhang Fu-ming, ChenKuan-min' (1 School of Highway, Chang'an University, Xi'an, Shaanxi, 710064) Abstract: As a basis for urban transportation planning and construction, residents travel surveys are particularly important. The mining analysis of survey data can provide some reference for the improvement of traffic structure and the formulation of traffic policy. Based on the survey data of residents travel in Xi'an in 2015, this paper analyzes the influencing factors of residents travel With the help of CART algorithm, the decision tree model under long-distance travel and short-distance travel conditions is constructed. The research results show short-distance travel conditions, the purpose of travel is the main influencing factors of travel mode selection. On this basis, occupation, age, public bicycles, travel time have further influence on the choice of travel modes: long-distance travel conditions Under the age the main influencing factors of travel mode, gender, occupation, whether there is a bus card, the willingness to buy a car the purpose of travel will also have a certain impact on the choice of travel mode Key words: decision tree; CART; travel mode; influencing factors 讯作者:牛凯,E-mail:751158994@qcom (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
基于决策树的居民出行方式影响因素分析 牛凯 1 ,张福明1 ,陈宽民 1 (1. 长安大学 公路学院,陕西 西安 710064) 摘要: 作为城市交通规划、建设的依据,居民出行调查显得尤为重要。对于调查数据的挖 掘分析可以为交通结构的改善及交通政策的制定提供一定参考。本文基于西安市 2015 年居 民出行调查数据,对居民出行的影响因素进行分析。借助于 CART 算法,分别构建了长距 离出行条件与短距离出行条件下的决策树模型。该模型结果表明:短距离出行条件下,出行 目的为出行方式选择的主要影响因素,在此基础上,职业、年龄、是否开通公共自行车、出 行时间对出行方式的选择进一步产生影响;在长距离出行条件下,年龄为出行方式的主要影 响因素,性别、职业、有无公交卡、有无购车意愿、出行目的对出行方式的选择也会产生一 定的影响。 关键词:决策树;CART;出行方式;影响因素 中图分类号:U491 Analysis of Influencing Factors of Residents' Travel Mode Based on Decision Tree Niukai1 , Zhang Fu-ming1 ,ChenKuan-min1 (1 School of Highway, Chang’an University, Xi’an, Shaanxi, 710064) Abstract:As a basis for urban transportation planning and construction, residents' travel surveys are particularly important. The mining analysis of survey data can provide some reference for the improvement of traffic structure and the formulation of traffic policy. Based on the survey data of residents' travel in Xi'an in 2015, this paper analyzes the influencing factors of residents' travel. With the help of CART algorithm, the decision tree model under long-distance travel conditions and short-distance travel conditions is constructed. The research results show that under short-distance travel conditions, the purpose of travel is the main influencing factors of travel mode selection. On this basis, occupation, age, public bicycles, travel time have further influence on the choice of travel modes; long-distance travel conditions Under the age, the main influencing factors of travel mode, gender, occupation, whether there is a bus card, the willingness to buy a car, the purpose of travel will also have a certain impact on the choice of travel mode. Key words:decision tree; CART; travel mode; influencing factors 通讯作者:牛凯,E-mail:751158994@qq.com
、引言 居民出行调査是获取人流、车流及货流日常出行特征和规律的基础调査之一,是掌握交 通供给和需求之间关系的基本手段之一。出行方式的选择为出行调查中的重要一环,不同出 行方式对于满足居民的日常出行需求及交通结构的合理性改变起着举足轻重的作用。因此, 对于出行方式的研究已成为交通领域的重点问题之一。 目前,各大城市均开展了居民出行调查项目,对调查数据进行了一定的分析研究工作① 最为基本的研究是对城市居民出行特征的阐述及对其交通发展策略的建议。对于出行方 式的研究多基于集计模型或非集计模型的方法。刘霞基于非集计理论,以个人为单位, 通过研究居民的出行行为特征,应用效用最大化原理,建立不同影响因素与出行方式选择之 间的函数关系。耿纪超基于个体、群体两个对象,从主观、客观两个视角梳理了居民出行 方式选择行为的主要影响因素,并深入阐明了各影响因素的概念、相互联系及作用机制 刘宇峰选取个人属性、交通供给属性和城市规模为外因变量,同时选取出行目的、出行时间、 出行偏好、出行距离和出行方式选择为内因变量,采用结构方程模型(SEM)建立各影响因素 与城市居民出行方式选择的关系结构。决策树作为数据挖掘领域的一种方法,为出行方式 的分析提供了一种新思路。王凤英对居民出行数据进行了分类规则挖掘。李庭洋在基本决 策树的基础上,使用随机森林组合学习算法来建立交通方式选择模型∽。本文以最新的2015 年居民出行调査数据为基础,采用数据挖掘中的决策树技术,探讨居民出行方式的影响因素 及其作用规律,得出了西安市居民的个人属性、家庭因素与出行方式选择的相关性,以期对 交通政策的制定起到一定的指导作用。 二、决策树及GART算法概述 决策树( Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态) 都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干, 故称决策树 CART算法是构建决策树的一种方法,该算法构建的决策树为一棵二叉树。CART算法 构建出来的决策树既能是分类树,又能是回归树。当CART是分类树时,采用GINI值作为 节点分裂的依据,其作用是通过一个对象的特征来预测该对象所属的类别:当CART是回 归树时,采用样本的最小方差作为节点分裂的依据,其目的是根据一个对象的信息预测该对 象的属性,并以数值表示。本文所建的决策树为分类树。 CART通过不断二分裂使数据变得更纯,使决策树输出的结果更接近真实值。该算法采 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
一、引言 居民出行调查是获取人流、车流及货流日常出行特征和规律的基础调查之一,是掌握交 通供给和需求之间关系的基本手段之一。出行方式的选择为出行调查中的重要一环,不同出 行方式对于满足居民的日常出行需求及交通结构的合理性改变起着举足轻重的作用。因此, 对于出行方式的研究已成为交通领域的重点问题之一。 目前,各大城市均开展了居民出行调查项目,对调查数据进行了一定的分析研究工作[1] 。 最为基本的研究是对城市居民出行特征的阐述[2]及对其交通发展策略的建议[3]。对于出行方 式的研究多基于集计模型[4]或非集计模型[5]的方法。刘霞基于非集计理论,以个人为单位, 通过研究居民的出行行为特征,应用效用最大化原理,建立不同影响因素与出行方式选择之 间的函数关系[6]。耿纪超基于个体、群体两个对象,从主观、客观两个视角梳理了居民出行 方式选择行为的主要影响因素,并深入阐明了各影响因素的概念、相互联系及作用机制[7] 。 刘宇峰选取个人属性、交通供给属性和城市规模为外因变量,同时选取出行目的、出行时间、 出行偏好、出行距离和出行方式选择为内因变量,采用结构方程模型(SEM)建立各影响因素 与城市居民出行方式选择的关系结构[8]。决策树作为数据挖掘领域的一种方法,为出行方式 的分析提供了一种新思路。王凤英对居民出行数据进行了分类规则挖掘[9]。李庭洋在基本决 策树的基础上,使用随机森林组合学习算法来建立交通方式选择模型[10] 。本文以最新的 2015 年居民出行调查数据为基础,采用数据挖掘中的决策树技术,探讨居民出行方式的影响因素 及其作用规律,得出了西安市居民的个人属性、家庭因素与出行方式选择的相关性,以期对 交通政策的制定起到一定的指导作用。 二、决策树及 CART 算法概述 决策树(Decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态) 都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干, 故称决策树。 CART 算法是构建决策树的一种方法,该算法构建的决策树为一棵二叉树。CART 算法 构建出来的决策树既能是分类树,又能是回归树。当 CART 是分类树时,采用 GINI 值作为 节点分裂的依据,其作用是通过一个对象的特征来预测该对象所属的类别;当 CART 是回 归树时,采用样本的最小方差作为节点分裂的依据,其目的是根据一个对象的信息预测该对 象的属性,并以数值表示。本文所建的决策树为分类树。 CART 通过不断二分裂使数据变得更纯,使决策树输出的结果更接近真实值。该算法采
用GINI值衡量节点纯度。之所以采用Gin指数,是因为较于熵而言其计算速度更快一些 对决策树的节点n,Gini指数计算公式如下 Gini(n)=1-EkIp(ckIn)]2(1) Gini指数即为1与类别ck的概率平方之和的差值,反映了样本集合的不确定性程度 Gini指数越大,样本集合的不确定性程度越高。分类学习过程的本质是样本不确定性程度的 减少(即熵减过程),故应选择最小Gni指数的特征分裂。父节点对应的样本集合为F,CART 选择特征A分裂为两个子节点,对应集合为F与FR;分裂后的Gin指数定义如下: G(E, A)=FL Gini(Fd)+ FRl Gini(Fr)(2) 其中,||表示样本集合的记录数量。 构建决策树的算法很多,选择CART算法的优点如下: (1)出行方式选择的影响众多,全部分析较为复杂。该算法可自动忽略对目标变量没 有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考 (2)现有的居民出行调查数据难免存在数据缺失的问题,该算法在面对诸如存在缺失 值、变量数多等问题时CART显得非常稳健 (3)CART算法估计模型通常不用花费很长的训练时间 (4)推理过程完全依据属性变量的取值特点(与C50不同,CART的输出字段既可以 是数值型,也可以是分类型) 5)比其他模型更易于理解一一从模型中得到的规则能得到非常直观的解释,决策推 理过程可以表示成IF…THEN的形式 (6)该算法非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自 动的成本复杂性剪枝来得到归纳性更强的树 三、数据来源 本文数据基于2015年西安居民出行调查的数据,调查内容为西安主城区及外围辐射区 影响范围内的常、暂住人口及流动人口的出行情况。常、暂住人口按户进行抽样,主城区抽 样率为3%;外围区域抽样率为2%。流动人口按照2%的抽样率。调查方式为上门入户调查, 调查内容主要涉及个人信息、家庭信息及出行信息三方面的内容。经过数据分类整理,最终 可利用的数据量为129183条。涉及的交通方式大致分为步行、非机动车、私人小汽车及公 共交通。 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
用 GINI 值衡量节点纯度。之所以采用 Gini 指数,是因为较于熵而言其计算速度更快一些。 对决策树的节点 n,Gini 指数计算公式如下: Giniሺnሻ ൌ 1 െ ∑ ሾሺܿ|݊ሻሿଶ (1) Gini 指数即为 1 与类别ܿ的概率平方之和的差值,反映了样本集合的不确定性程度。 Gini 指数越大,样本集合的不确定性程度越高。分类学习过程的本质是样本不确定性程度的 减少(即熵减过程),故应选择最小 Gini 指数的特征分裂。父节点对应的样本集合为 F,CART 选择特征 A 分裂为两个子节点,对应集合为ܨ与ܨோ;分裂后的 Gini 指数定义如下: Gሺܨ ,ܣሻ ൌ |ிಽ| |ி| ܩ݅݊݅ሺܨሻ |ிೃ| ி ܩ݅݊݅ሺܨோሻ(2) 其中,||表示样本集合的记录数量。 构建决策树的算法很多,选择 CART 算法的优点如下: (1)出行方式选择的影响众多,全部分析较为复杂。该算法可自动忽略对目标变量没 有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考; (2)现有的居民出行调查数据难免存在数据缺失的问题,该算法在面对诸如存在缺失 值、变量数多等问题时 CART 显得非常稳健; (3)CART 算法估计模型通常不用花费很长的训练时间; (4)推理过程完全依据属性变量的取值特点(与 C5.0 不同,CART 的输出字段既可以 是数值型,也可以是分类型) (5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推 理过程可以表示成 IF…THEN 的形式 (6)该算法非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自 动的成本复杂性剪枝来得到归纳性更强的树。 三、数据来源 本文数据基于 2015 年西安居民出行调查的数据,调查内容为西安主城区及外围辐射区 影响范围内的常、暂住人口及流动人口的出行情况。常、暂住人口按户进行抽样,主城区抽 样率为 3%;外围区域抽样率为 2%。流动人口按照 2%的抽样率。调查方式为上门入户调查, 调查内容主要涉及个人信息、家庭信息及出行信息三方面的内容。经过数据分类整理,最终 可利用的数据量为 129183 条。涉及的交通方式大致分为步行、非机动车、私人小汽车及公 共交通
四、模型建立与分析 (一)数据背景与分析 大客车 小汽车 电动车 自行车层之 出租车 面值p 地铁b 步行≥ 024681012 2008年因2015年 图1各交通方式平均出行距离 从2008年及2015年的居民出行调查数据中可以看出,步行、自行车的平均出行距离均不 足3公里,主要满足居民的短距离出行;道路公交平均出行出行距离由2008年的461公里增 加到2015年的719公里,增加了近一倍。而小汽车的平均出行距离则高达906公里。因此公 共交通及私人小汽车主要满足居民的长距离出行。由于影响出行方式选择的因素众多,以 棵决策树来反映不同影响因素下对于出行方式的选择不够清晰,构建的决策树过于庞大且预 测精度不高。为保证预测结果的精确性,本文将步行及非机动车两种方式作为一组来反映短 距离出行下出行方式的影响因素:将公共交通及私人小汽车两种出行方式作为一组来反映长 距离出行下出行方式的影响因素,并分别构建了短距离出行及长距离出行条件下的决策树模 (二)变量的选取 该决策树模型以对不同交通方式的选择为因变量,由于影响交通方式的选择因素很多, 本文主要考虑出行者的个人属性及家庭属性信息,选取出行时间、出行目的、出行日期(工 作日、节假日)、出行者的年龄、性别、职业、是否有公交卡、是否用公共自行车、家庭规 模、儿童数、是否有购车意愿作为自变量。部分变量编码如表1所示 表1部分输入变量定义 变量类别 变量含义 变量编码 非机动车 出行方式 公共交通(公共汽车/地铁) 私人小汽车 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
四、模型建立与分析 (一)数据背景与分析 图 1 各交通方式平均出行距离 从2008年及2015年的居民出行调查数据中可以看出,步行、自行车的平均出行距离均不 足3公里,主要满足居民的短距离出行;道路公交平均出行出行距离由2008年的4.61公里增 加到2015年的7.19公里,增加了近一倍。而小汽车的平均出行距离则高达9.06公里。因此公 共交通及私人小汽车主要满足居民的长距离出行。由于影响出行方式选择的因素众多,以一 棵决策树来反映不同影响因素下对于出行方式的选择不够清晰,构建的决策树过于庞大且预 测精度不高。为保证预测结果的精确性,本文将步行及非机动车两种方式作为一组来反映短 距离出行下出行方式的影响因素;将公共交通及私人小汽车两种出行方式作为一组来反映长 距离出行下出行方式的影响因素,并分别构建了短距离出行及长距离出行条件下的决策树模 型。 (二)变量的选取 该决策树模型以对不同交通方式的选择为因变量,由于影响交通方式的选择因素很多, 本文主要考虑出行者的个人属性及家庭属性信息,选取出行时间、出行目的、出行日期(工 作日、节假日)、出行者的年龄、性别、职业、是否有公交卡、是否用公共自行车、家庭规 模、儿童数、是否有购车意愿作为自变量。部分变量编码如表1所示。 表 1 部分输入变量定义 变量类别 变量含义 变量编码 出行方式 步行 1 非机动车 2 公共交通(公共汽车/地铁) 3 私人小汽车 4 [值] [值] [值] [值] [值] [值] [值] [值] [值] [值] [值] [值]0 [值] [值] [值] [值] 0 2 4 6 8 10 12 步行 道路… 地铁 出租车 自行车 电动车 小汽车 大客车 2008年 2015年
早高峰 出行时间 晚高峰 2 周内 星期 周末 ≤18 19~29 年龄 ~4 是否有购车意愿 有无公交卡 有无开通公共自行车 有无有无有无男 性别 接送孩子上下学 单位业务、商务 23456 出行目的 旅游休闲 探亲访友 回程(不以家为目的地) 890 回家(以家为目的地) 11 企业员 机关事业单位人员 中小学生 大学生 职业 商业服务业人员 退休人员 农业人员 45678 其他 (三)模型结果与分析 1短距离出行下的决策树模型 表2棋型设置表 生长法 CART (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
出行时间 早高峰 1 晚高峰 2 平峰 3 星期 周内 1 周末 2 年龄 ≤18 1 19~29 2 30~49 3 ≥50 4 是否有购车意愿 有 1 无 2 有无公交卡 有 1 无 2 有无开通公共自行车 有 1 无 2 性别 男 1 女 2 出行目的 上班 1 上学 2 接送孩子上下学 3 单位业务、商务 4 生活购物 5 旅游休闲 6 探亲访友 7 就医 8 回程(不以家为目的地) 9 回家(以家为目的地) 10 其他 11 职业 企业员工 1 机关事业单位人员 2 中小学生 3 大学生 4 商业服务业人员 5 退休人员 6 农业人员 7 其他 8 (三) 模型结果与分析 1.短距离出行下的决策树模型 表 2 模型设置表 指定 生长法 CART
因变量 交通方式 出行时间、出行目的、出行日期(工 作日、节假日)、出行者的年龄、性 自变量 别、职业、是否有公交卡、是否开 通公共自行车、家庭规模、儿童数、 是否有购车意恳 最大树深度 父节点中的最小个案数 子节点中的最小个案数 节点数 结果 终端节点数 通过CART算法测算,在输入的所有自变量中,出行目的、职业、年龄、是否开通公共 自行车、出行时间对短距离条件下出行方式的选择起主要作用,风险值和标准误差反映反映 模型的预测精度。风险值的计算方法是不正确分类的个案占总个案的比例,该模型风险值及 预测错误的概率为32.1%,标准误差为0.002。表明模型具有较好的预测精度。 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
项 因变量 交通方式 自变量 出行时间、出行目的、出行日期(工 作日、节假日)、出行者的年龄、性 别、职业、是否有公交卡、是否开 通公共自行车、家庭规模、儿童数、 是否有购车意愿 最大树深度 5 父节点中的最小个案数 100 子节点中的最小个案数 50 结果 节点数 5 终端节点数 27 深度 5 通过CART算法测算,在输入的所有自变量中,出行目的、职业、年龄、是否开通公共 自行车、出行时间对短距离条件下出行方式的选择起主要作用,风险值和标准误差反映反映 模型的预测精度。风险值的计算方法是不正确分类的个案占总个案的比例,该模型风险值及 预测错误的概率为32.1%,标准误差为0.002。表明模型具有较好的预测精度
图2短距离出行下的决策树模型 具体的决策树如图2所示。可以看出,出行目的位于最高父节点,对于短距离出行而言, 是交通方式选择最重要的影响因素。以旅游休闲及购物出行和其他目的的出行群体中高达 83.%的人选择步行,以上学回家就医为目的出行中高达832%的人选择步行。其他出行目的 下选择步行及非机动车的差异并不明显。主要是因为旅游休闲及购物出行的较为随意时效性 要求不高,且居民在出行过程中能更好欣赏沿途的风景:对于中小学生来说,自行车出行的 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
图 2 短距离出行下的决策树模型 具体的决策树如图2所示。可以看出,出行目的位于最高父节点,对于短距离出行而言, 是交通方式选择最重要的影响因素。以旅游休闲及购物出行和其他目的的出行群体中高达 83.9%的人选择步行,以上学回家就医为目的出行中高达83.2%的人选择步行。其他出行目的 下选择步行及非机动车的差异并不明显。主要是因为旅游休闲及购物出行的较为随意时效性 要求不高,且居民在出行过程中能更好欣赏沿途的风景;对于中小学生来说,自行车出行的
安全性较低,出行环境较差,因而更倾向于选择步行为短距离主要出行方式 在出行目的作为第一层的影响下,年龄、职业、是否开通公共自行车、出行时间对出行 方式的选择产生了进一步的影响。对于以休闲购物为出行目的的出行群体来说,年龄、职业 的影响较大。可以看出,老年人由于身体及体力等各方面的原因,更愿意选择步行出行,且 些机关事业单位及退休人员的更依赖步行出行方式;而对于其他年龄段的人来说,商业服 务业人员及农业人员由于保留的原有的生活习惯,选择步行或非机动车出行的差异性不大 其他职业的差异性则相对明显;对于以上学、回程、回家为出行目的的群体来说,年龄、出 行时间对出行方式的影响较大。大体规律为:早高峰、晚高峰期间居民出行更倾向于选择步 行,而平峰期间更愿意选择非机动车;且未成年人及老年人选择步行方式的比重更大。对于 以上班及及单位业务为目的出行者来说,其出行方式与是否开通公共自行车有关,开通公 共自行车的人更倾向于选择自行车为其出行方式。总之,步行为居民短距离出行时主要选择 的出行方式。老年女性退休人员在以生活购物为出行目的是918%的人会选择步行出行方式 2.长距离出行下的决策树模型 表3模型设置表 生长法 CART 因变量 交通方式 出行时间、出行目的、出行日期(工 作日、节假日)、出行者的年龄、性 指定 自变量 别、职业、是否有公交卡、是否用 项 公共自行车、家庭规模、儿童数 是否有购车意愿 最大树深度 父节点中的最小个案数 子节点中的最小个案数 节点数 结果 终端节点数 深度 通过CART算法测算,在输入的所有自变量中,年龄、性别、职业、出行目的、是否有 公交卡、是否有购车意愿等对长距离条件下出行方式的选择起主要作用,风险值和标准误差 反映反映模型的预测精度。风险值的计算方法是不正确分类的个案占总个案的比例,该模型 风险值及预测错误的概率为36.1%,标准误差为0002。表明模型具有较好的预测精度。 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
安全性较低,出行环境较差,因而更倾向于选择步行为短距离主要出行方式。 在出行目的作为第一层的影响下,年龄、职业、是否开通公共自行车、出行时间对出行 方式的选择产生了进一步的影响。对于以休闲购物为出行目的的出行群体来说,年龄、职业 的影响较大。可以看出,老年人由于身体及体力等各方面的原因,更愿意选择步行出行,且 一些机关事业单位及退休人员的更依赖步行出行方式;而对于其他年龄段的人来说,商业服 务业人员及农业人员由于保留的原有的生活习惯,选择步行或非机动车出行的差异性不大, 其他职业的差异性则相对明显;对于以上学、回程、回家为出行目的的群体来说,年龄、出 行时间对出行方式的影响较大。大体规律为:早高峰、晚高峰期间居民出行更倾向于选择步 行,而平峰期间更愿意选择非机动车;且未成年人及老年人选择步行方式的比重更大。对于 以上班及及单位业务为目的出行者来说,其出行方式与是否开通公共自行车有关 ,开通公 共自行车的人更倾向于选择自行车为其出行方式。总之,步行为居民短距离出行时主要选择 的出行方式。老年女性退休人员在以生活购物为出行目的是91.8%的人会选择步行出行方式。 2.长距离出行下的决策树模型 表3 模型设置表 指定 项 生长法 CART 因变量 交通方式 自变量 出行时间、出行目的、出行日期(工 作日、节假日)、出行者的年龄、性 别、职业、是否有公交卡、是否用 公共自行车、家庭规模、儿童数、 是否有购车意愿 最大树深度 5 父节点中的最小个案数 100 子节点中的最小个案数 50 结果 节点数 57 终端节点数 29 深度 5 通过CART算法测算,在输入的所有自变量中,年龄、性别、职业、出行目的、是否有 公交卡、是否有购车意愿等对长距离条件下出行方式的选择起主要作用,风险值和标准误差 反映反映模型的预测精度。风险值的计算方法是不正确分类的个案占总个案的比例,该模型 风险值及预测错误的概率为36.1%,标准误差为0.002。表明模型具有较好的预测精度
画 : L画 :由4 图3长距高出行下的决策树 具体决策树结果如图3所示,可以看出,年龄位于最高父节点,对于长距离出行而言, 是交通方式选择最重要的影响因素。从已有的年龄分段情况来看,第3类人群为中年人,该 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
图 3 长距离出行下的决策树 具体决策树结果如图3所示,可以看出,年龄位于最高父节点,对于长距离出行而言, 是交通方式选择最重要的影响因素。从已有的年龄分段情况来看,第3类人群为中年人,该
部分人群都具备一定的经济基础,对出行的便捷性及舒适性要求较高,因而586%的人面对 长距离出行时倾向于选择私家车作为出行方式。而第1、2、4类人群主要为年轻人及老年人 由于该部分人群经济基础较为薄弱,在出行方式的选择上更多考虑到出行的经济性,因而在 面对长距离出行时,614%的人会倾向于选择公共交通。 在年龄作为第一层的影响下,对于中年人来说,性别、有无公交卡、有无购车意愿、出 行目的对出行方式的选择产生了进一步的影响。从性别来看,中年男性群体中有656%的人 选择私家车作为主要出行方式,而中年女性群体中只有477%人选择私家车作为主要出行方 式。因此可以推断中年男性为主要的私家车使用群体,对出行的舒适性及便捷性要求较高, 尽管中年女性对出行舒适性要求较高,但开车群体相对较少,选择私家车出行对男性群体的 依赖性更高,因而女性选择私家车出行的个体数要小于男性。对于是否有公交卡这一变量来 说,显然有公交卡的群体要比无公交卡的群体更倾向于选择公共交通作为其出行方式。有公 交卡的男性群体出行方式的选择受是否有购车意愿、家庭儿童数的影响,显然家庭规模越大、 儿童数越多,家庭对于私人小汽车的依赖程度越高;无公交卡的男性群体出行受出行目的影 响较大。总的来说:中年男性无公交卡且以健身旅游、接送孩子上下学为出行目的的出行群 体90.5%选择私人小汽车作为出行方式。 对于年轻人及老年人群体来说,其出行方式的选择受到职业及有无公交卡的影响较大。 对于一些大型企业及机关事业单位的从业人员来说,选择公共交通或私人小汽车出行的差异 性不大,原因是该部分群体一般经济条件较好,家里一般配备私家车,选择公共交通或私人 小汽车的自由度较高。该类群体的出行主要受到性别、出行目的及家庭规模的影响。对于中 小学生、商业服务人员等来说,684%的人选择公共交通,原因是该部分群体在出行时更多 考虑到出行的经济性。该类群体的出行主要受出行目的、性别及年龄的影响。对于是否有公 交卡这一变量来说,显然也是有公交卡的群体要比无公交卡的群体更倾向于选择公共交通作 为其出行方式。对于性别来说,总体的规律为:男性群体更倾向于选择私人小汽车出行,而 女性群体则更倾向于选择公共交通。原因是年轻男性群体在出行时更注重速度与时效性,而 女性群体则更注重安全性。总体上看:对于有公交卡的年轻的大学生及年老的退休人员在以 生活购物、回家为出行目的时77.5%会选择公共交通 五、结语 本文以2015年西安市居民出行调查数据为基础,利用决策树CART算法,分别建立了长 距离条件下及短距离条件下的决策树模型,主要研究结论如下 短距离出行条件下,出行目的为出行方式选择的主要影响因素,在此基础上,职业、 龄、是否开通公共自行车、出行时间对出行方式的选择进一步产生影响 在长距离出行条件下,年龄为出行方式的主要影响因素,性别、职业、有无公交卡、有 无购车意愿、出行目的对出行方式的选择也会产生一定的影响。 (c)1994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
部分人群都具备一定的经济基础,对出行的便捷性及舒适性要求较高,因而58.6%的人面对 长距离出行时倾向于选择私家车作为出行方式。而第1、2、4类人群主要为年轻人及老年人, 由于该部分人群经济基础较为薄弱,在出行方式的选择上更多考虑到出行的经济性,因而在 面对长距离出行时,61.4%的人会倾向于选择公共交通。 在年龄作为第一层的影响下,对于中年人来说,性别、有无公交卡、有无购车意愿、出 行目的对出行方式的选择产生了进一步的影响。从性别来看,中年男性群体中有65.6%的人 选择私家车作为主要出行方式,而中年女性群体中只有47.7%人选择私家车作为主要出行方 式。因此可以推断中年男性为主要的私家车使用群体,对出行的舒适性及便捷性要求较高, 尽管中年女性对出行舒适性要求较高,但开车群体相对较少,选择私家车出行对男性群体的 依赖性更高,因而女性选择私家车出行的个体数要小于男性。对于是否有公交卡这一变量来 说,显然有公交卡的群体要比无公交卡的群体更倾向于选择公共交通作为其出行方式。有公 交卡的男性群体出行方式的选择受是否有购车意愿、家庭儿童数的影响,显然家庭规模越大、 儿童数越多,家庭对于私人小汽车的依赖程度越高;无公交卡的男性群体出行受出行目的影 响较大。总的来说:中年男性无公交卡且以健身旅游、接送孩子上下学为出行目的的出行群 体90.5%选择私人小汽车作为出行方式。 对于年轻人及老年人群体来说,其出行方式的选择受到职业及有无公交卡的影响较大。 对于一些大型企业及机关事业单位的从业人员来说,选择公共交通或私人小汽车出行的差异 性不大,原因是该部分群体一般经济条件较好,家里一般配备私家车,选择公共交通或私人 小汽车的自由度较高。该类群体的出行主要受到性别、出行目的及家庭规模的影响。对于中 小学生、商业服务人员等来说,68.4%的人选择公共交通,原因是该部分群体在出行时更多 考虑到出行的经济性。该类群体的出行主要受出行目的、性别及年龄的影响。对于是否有公 交卡这一变量来说,显然也是有公交卡的群体要比无公交卡的群体更倾向于选择公共交通作 为其出行方式。对于性别来说,总体的规律为:男性群体更倾向于选择私人小汽车出行,而 女性群体则更倾向于选择公共交通。原因是年轻男性群体在出行时更注重速度与时效性,而 女性群体则更注重安全性。总体上看:对于有公交卡的年轻的大学生及年老的退休人员在以 生活购物、回家为出行目的时77.5%会选择公共交通。 五、结语 本文以2015年西安市居民出行调查数据为基础,利用决策树CART算法,分别建立了长 距离条件下及短距离条件下的决策树模型,主要研究结论如下: 短距离出行条件下,出行目的为出行方式选择的主要影响因素,在此基础上,职业、年 龄、是否开通公共自行车、出行时间对出行方式的选择进一步产生影响。 在长距离出行条件下,年龄为出行方式的主要影响因素,性别、职业、有无公交卡、有 无购车意愿、出行目的对出行方式的选择也会产生一定的影响