第17卷第4期 智能系统学报 Vol.17 No.4 2022年7月 CAAI Transactions on Intelligent Systems Jul.2022 D0:10.11992/tis.202202014 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.tp.20220708.1059.004.html 基于分割注意力机制残差网络的城市区域客流量预测 李伯涵2,郭茂祖2,赵玲玲3 (1.北京建筑大学电气与信息工程学院,北京100044,2.北京建筑大学建筑大数据智能处理方法研究北京市 重点实验室,北京100044,3.哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001) 摘要:客流量预测是城市交通资源和公共安全智能化管理的重要依据。为了综合考虑城市乘客人群流动自 身的既有周期性、趋势性和突发性,以及与城市物理和社会空间的耦合关系,在时空残差网络的基础上,本文 提出了基于深度时空数据的分割注意力机制残差网络的城市细粒度客流量预测模型。首先以不同时空间隔的 区域客流量历史数据为基础,引入分割注意力机制模块,为各模态的数据分配不同的权重,动态捕捉更高相关 性的抽象数据特征:在时空数据的基础上,引入城市功能区属性作为联合特征,结合节假日、气候等外部特征, 形成deep&wide网络结构,有效记忆重要特征对客流量变化的贡献。基于北京出租车数据的区域客流量对比 实验表明,相比于传统的深度时空残差网络和其他经典机器学习模型,引入了分割注意力机制和城市功能区特 征的预测模型能够更好地提取数据多元化的特征,预测精度明显优于其他同类别方法。 关键词:客流量预测:时空数据;深度学习;分割注意力机制残差网络:城市功能区;特征提取;智慧城市;智能 交通 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2022)04-0839-10 中文引用格式:李伯涵,郭茂祖,赵玲玲.基于分割注意力机制残差网络的城市区域客流量预测.智能系统学报,2022, 17(4):839-848. 英文引用格式:LI Bohan,GUO Maozu,ZHAO Lingling.Passenger flow prediction in urban areas based on residual networks with split attention mechanism[J.CAAI transactions on intelligent systems,2022,17(4):839-848. Passenger flow prediction in urban areas based on residual networks with split attention mechanism LI Bohan2,GUO Maozu,ZHAO Lingling (1.School of Electrical and Information Engineering,Beijing University of Civil Engineering and Architecture,Beijing 100044, China;2.Beijing Key Laboratory of Intelligent Processing for Building Big Data,Beijing University of Civil Engineering and Archi- tecture,Beijing 100044,China;3.School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001, China) Abstract:Passenger flow prediction is an important basis for intelligent management of urban transportation resources and public safety.In order to comprehensively consider the existing periodicity,trend and suddenness of urban passen- ger crowd flow itself,as well as the coupling relationship with urban physical and social space,based on the spatio-tem- poral residual network,this paper proposes an urban fine-grained passenger flow prediction model based on the residual network of split-attention mechanism with deep spatio-temporal data.Firstly,based on the regional passenger flow his- tory data of different spatio-temporal intervals,the segmented attention mechanism module is introduced to assign dif- ferent weights to the data of each modality to dynamically capture the abstract data features of higher relevance;on the basis of spatio-temporal data,the city functional area attributes are introduced as joint features,which are combined with external features such as holidays and climate to form a deep&wide network structure to effectively remember the con- tribution of important features to passenger flow changes.The regional passenger flow comparison experiments based on Beijing cab data show that compared with the traditional deep spatio-temporal residual network and other classical machine learning models,[the prediction model introducing segmented attention mechanism and urban functional area features can better extract the features of data diversity,and the prediction accuracy is significantly better than other methods of the same category. Keywords:passenger flow prediction;spatio-temporal data;deep learning;split-attention residual network;urban func- tional area:feature extraction;intelligent city;intelligent transportation 收稿日期:2022-02-20.网络出版日期:2022-07-11 流量预测是实现城市交通智能管理的基石, 基金项目:国家自然科学基金面上项目(61871020):北京市属 高校高水平创新团队建设计划项目(IDHT20190506). 是构建未来智能交通系统(intelligent transporta- 通信作者:赵玲玲.Email:zhaoll@hit.edu.cn. tion system,ITS)的必要技术支撑,其核心是实时
DOI: 10.11992/tis.202202014 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.tp.20220708.1059.004.html 基于分割注意力机制残差网络的城市区域客流量预测 李伯涵1,2,郭茂祖1,2,赵玲玲3 (1. 北京建筑大学 电气与信息工程学院,北京 100044; 2. 北京建筑大学 建筑大数据智能处理方法研究北京市 重点实验室,北京 100044; 3. 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001) 摘 要:客流量预测是城市交通资源和公共安全智能化管理的重要依据。为了综合考虑城市乘客人群流动自 身的既有周期性、趋势性和突发性,以及与城市物理和社会空间的耦合关系,在时空残差网络的基础上,本文 提出了基于深度时空数据的分割注意力机制残差网络的城市细粒度客流量预测模型。首先以不同时空间隔的 区域客流量历史数据为基础,引入分割注意力机制模块,为各模态的数据分配不同的权重,动态捕捉更高相关 性的抽象数据特征;在时空数据的基础上,引入城市功能区属性作为联合特征,结合节假日、气候等外部特征, 形成 deep&wide 网络结构,有效记忆重要特征对客流量变化的贡献。基于北京出租车数据的区域客流量对比 实验表明,相比于传统的深度时空残差网络和其他经典机器学习模型,引入了分割注意力机制和城市功能区特 征的预测模型能够更好地提取数据多元化的特征,预测精度明显优于其他同类别方法。 关键词:客流量预测;时空数据;深度学习;分割注意力机制残差网络;城市功能区;特征提取;智慧城市;智能 交通 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2022)04−0839−10 中文引用格式:李伯涵, 郭茂祖, 赵玲玲. 基于分割注意力机制残差网络的城市区域客流量预测 [J]. 智能系统学报, 2022, 17(4): 839–848. 英文引用格式:LI Bohan, GUO Maozu, ZHAO Lingling. Passenger flow prediction in urban areas based on residual networks with split attention mechanism[J]. CAAI transactions on intelligent systems, 2022, 17(4): 839–848. Passenger flow prediction in urban areas based on residual networks with split attention mechanism LI Bohan1,2 ,GUO Maozu1,2 ,ZHAO Lingling3 (1. School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture, Beijing 100044, China; 2. Beijing Key Laboratory of Intelligent Processing for Building Big Data, Beijing University of Civil Engineering and Architecture, Beijing 100044, China; 3. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) Abstract: Passenger flow prediction is an important basis for intelligent management of urban transportation resources and public safety. In order to comprehensively consider the existing periodicity, trend and suddenness of urban passenger crowd flow itself, as well as the coupling relationship with urban physical and social space, based on the spatio-temporal residual network, this paper proposes an urban fine-grained passenger flow prediction model based on the residual network of split-attention mechanism with deep spatio-temporal data. Firstly, based on the regional passenger flow history data of different spatio-temporal intervals, the segmented attention mechanism module is introduced to assign different weights to the data of each modality to dynamically capture the abstract data features of higher relevance; on the basis of spatio-temporal data, the city functional area attributes are introduced as joint features, which are combined with external features such as holidays and climate to form a deep&wide network structure to effectively remember the contribution of important features to passenger flow changes. The regional passenger flow comparison experiments based on Beijing cab data show that compared with the traditional deep spatio-temporal residual network and other classical machine learning models, [] the prediction model introducing segmented attention mechanism and urban functional area features can better extract the features of data diversity, and the prediction accuracy is significantly better than other methods of the same category. Keywords: passenger flow prediction; spatio-temporal data; deep learning; split-attention residual network; urban functional area; feature extraction; intelligent city; intelligent transportation 流量预测是实现城市交通智能管理的基石, 是构建未来智能交通系统(intelligent transportation system,ITS)的必要技术支撑,其核心是实时 收稿日期:2022−02−20. 网络出版日期:2022−07−11. 基金项目:国家自然科学基金面上项目(61871020);北京市属 高校高水平创新团队建设计划项目(IDHT20190506). 通信作者:赵玲玲. Email: zhaoll@hit.edu.cn. 第 17 卷第 4 期 智 能 系 统 学 报 Vol.17 No.4 2022 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2022
·840· 智能系统学报 第17卷 准确地预测城市不同尺度区域人流的分布和流 回归模型(vector autoregressive.,VAR)能够捕捉非 向,为城市规划、交通管理、安全防护、个体化服 相关时间序列的线性依赖),但是该模型没有考 务提供可靠依据,从而减少拥堵,提高交通效率, 虑到预测值和残差之间的关系。 并为公共安全应急管理提供早期预警,优化城市 Zhang等定义了区域数据的流入量流出量 交通系统的效率和城市居民的出行体验a。 概念,并且把空间依赖性分为长距离空间依赖和 在城市交通流量预测的相关研究中,乘客流 短距离空间依赖,将乘客人群流动的时间特性归 量的预测实质上就是基于人流特征的预测,有些 纳为3类:临近性、周期性和趋势性,利用不同时 针对人流的预测,根据人流分布空间的不同可以 空特性的三模块时空残差网络和外部特征网络, 分为主要道路上的人流量1预测和整个城市范围 从多源数据中提取与客流量变化密切相关的抽象 的人流量预测。其中,道路上的人流速度、人流 特征表示,具有较好的预测性能。但是,该方法 量的研究主要面向部分路段,而不是整个城市范 忽略了不同城市功能区对客流量变化的显著影 围,因此该类研究与交通流量预测更为相关。 响,同时,更为有效的深度学习机制也有助于模 城市范围的人流量预测又根据预测范围的尺度 型能力的进一步提升。 和形状差异可以分为针对单个区域和针对整个城 针对上述问题,本文构建了基于分割注意力 市的研究。针对单个区域预测的模型,多采用 机制的残差网络(residual split--attention network, 较为复杂的方法以划分出不规则的区域,并借助 ResNeSt),形成深度时空分割注意力机制残差网 马尔科夫模型进行预测。针对整个城市的人群预 络框架(spatio-temporal split--attention networks,.ST- 测s刀往往采用多源大数据进行分析。 SANet),面向整个城市范围内的乘客人群进行流 机器学习框架下的客流量预测方法差别在于 量预测。引入分割注意力模块,实现了跨不同特 预测对象和预测依据。有些研究810只针对短期 征图组的注意力机制,进而更深入地发掘城市不 客流进行预测,不具备迁移能力和普适性。有些 同时空区域间多模态数据的特征和关系2。同 研究利用了深度学习、迁移学习等手段对不 时,除了对小区域客流量的时空关联进行挖掘之 同区域客流进行预测,但没有考虑突发性活动与 外,在城市客流量时空数据中增加了“城市功能区 周期性、趋势性活动的差异。研究1考虑了活动 属性”这一新特征,捕捉各区域客流量变化与所处 的周期性,同时利用起点一终点(origin-destina- 城市功能区之间的关联关系,同时结合外部特征 tion,OD)客流数据的区域上下文对活动地区进行 数据形成多模态数据集,进而提升客流量预测模 建模,但是忽略了人群活动中有很大一部分属于 型的准确性。 突发性活动.同时没有考虑外部因素的影响。 1相关工作 预测客流量也可以建模为时间序列的预测问 题。历史平均(historical average,.HA)模型比较 Zhang等]提出深度时空残差网络(spatio-- 简单,该模型仅使用历史时间序列的平均值,来 temporal residual network,ST-ResNet)的客流量预 预测未来时间序列的平均值。然而,该模型无法 测,首先定义了区域数据的流入量流出量概念。 对动态事件(如交通事故等突发事件)做出响 将每个时间间隔内的流入量和流出量转化成类似 应。自回归滑动平均模型(autoregressive integ- 于图像的双通道矩阵,并按照时间尺度分为3类: rated moving average model,,ARIMA)假设未来时 临近时间段、较近时间段和遥远时间段,然后将 间序列的值,是历史值的线性组合与残差,因此, 3个时间段的人流矩阵输人到不同的模块中进行 为了获得稳定的结果,非稳定的时间序列在分析 建模,从而提取客流群体活动所具备的邻近性、 之前需要特殊处理的。自回归滑动平均模型不适 周期性和趋势性。 合处理有缺失值的时间序列,因为它依赖于非缺 在此基础上,Zhang等采用深度时空残差网 失时间序列数据,随着应用场景复杂度的提高, 络模型来进行特征表示学习和预测。该网络包 数据填补技术将不能满足需求。在使用自回归 括3个主要的残差网络模块,共享相同网络结 滑动平均模型之前,额外的周期性差异通常应用 构。每个模块的输入都是一个矩阵X。以邻近性 到周期性时间序列中以获得稳定的结果,称之为 模块为例,一个时间间隔内的数据可以表示为 周期性自回归整体滑动平均模型(season autore-. [X-4.X-u-)…X-l (1) gressive integrated moving average,SARIMA), 式(1)称为邻近性依赖矩阵,其中1为时间间 足之处在于它具有较大的时间复杂度。向量自 隔,c下标代表了卷积层,然后按照时间轴将其连
准确地预测城市不同尺度区域人流的分布和流 向,为城市规划、交通管理、安全防护、个体化服 务提供可靠依据,从而减少拥堵,提高交通效率, 并为公共安全应急管理提供早期预警,优化城市 交通系统的效率和城市居民的出行体验[1-2]。 在城市交通流量预测的相关研究中,乘客流 量的预测实质上就是基于人流特征的预测,有些 针对人流的预测,根据人流分布空间的不同可以 分为主要道路上的人流量[3] 预测和整个城市范围 的人流量预测。其中,道路上的人流速度、人流 量的研究主要面向部分路段,而不是整个城市范 围,因此该类研究与交通流量预测更为相关[4]。 城市范围[2] 的人流量预测又根据预测范围的尺度 和形状差异可以分为针对单个区域和针对整个城 市的研究。针对单个区域预测的模型[5] ,多采用 较为复杂的方法以划分出不规则的区域,并借助 马尔科夫模型进行预测。针对整个城市的人群预 测 [6-7] 往往采用多源大数据进行分析。 机器学习框架下的客流量预测方法差别在于 预测对象和预测依据。有些研究[8-10] 只针对短期 客流进行预测,不具备迁移能力和普适性。有些 研究[11-12] 利用了深度学习、迁移学习等手段对不 同区域客流进行预测,但没有考虑突发性活动与 周期性、趋势性活动的差异。研究[13] 考虑了活动 的周期性,同时利用起点—终点(origin-destination,OD)客流数据的区域上下文对活动地区进行 建模,但是忽略了人群活动中有很大一部分属于 突发性活动,同时没有考虑外部因素的影响。 预测客流量也可以建模为时间序列的预测问 题。历史平均(historical average,HA)模型[14] 比较 简单,该模型仅使用历史时间序列的平均值,来 预测未来时间序列的平均值。然而,该模型无法 对动态事件(如交通事故等突发事件)做出响 应。自回归滑动平均模型(autoregressive integrated moving average model,ARIMA)假设未来时 间序列的值,是历史值的线性组合与残差,因此, 为了获得稳定的结果,非稳定的时间序列在分析 之前需要特殊处理[15]。自回归滑动平均模型不适 合处理有缺失值的时间序列,因为它依赖于非缺 失时间序列数据,随着应用场景复杂度的提高, 数据填补技术将不能满足需求[16]。在使用自回归 滑动平均模型之前,额外的周期性差异通常应用 到周期 性时间序列中以获得稳定的结果,称之为 周期性自回归整体滑动平均模型(season autoregressive integrated moving average,SARIMA),其不 足之处在于它具有较大的时间复杂度[17]。向量自 回归模型(vector autoregressive,VAR)能够捕捉非 相关时间序列的线性依赖[18] ,但是该模型没有考 虑到预测值和残差之间的关系。 Zhang 等 [19] 定义了区域数据的流入量流出量 概念,并且把空间依赖性分为长距离空间依赖和 短距离空间依赖,将乘客人群流动的时间特性归 纳为 3 类:临近性、周期性和趋势性,利用不同时 空特性的三模块时空残差网络和外部特征网络, 从多源数据中提取与客流量变化密切相关的抽象 特征表示,具有较好的预测性能。但是,该方法 忽略了不同城市功能区对客流量变化的显著影 响,同时,更为有效的深度学习机制也有助于模 型能力的进一步提升。 针对上述问题,本文构建了基于分割注意力 机制的残差网络(residual split-attention network, ResNeSt),形成深度时空分割注意力机制残差网 络框架 (spatio-temporal split-attention networks, STSANet),面向整个城市范围内的乘客人群进行流 量预测。引入分割注意力模块,实现了跨不同特 征图组的注意力机制,进而更深入地发掘城市不 同时空区域间多模态数据的特征和关系[20]。同 时,除了对小区域客流量的时空关联进行挖掘之 外,在城市客流量时空数据中增加了“城市功能区 属性”这一新特征,捕捉各区域客流量变化与所处 城市功能区之间的关联关系,同时结合外部特征 数据形成多模态数据集,进而提升客流量预测模 型的准确性。 1 相关工作 Zhang 等 [19] 提出深度时空残差网络(spatiotemporal residual network, ST-ResNet)的客流量预 测,首先定义了区域数据的流入量流出量概念。 将每个时间间隔内的流入量和流出量转化成类似 于图像的双通道矩阵,并按照时间尺度分为 3 类: 临近时间段、较近时间段和遥远时间段,然后将 3 个时间段的人流矩阵输入到不同的模块中进行 建模,从而提取客流群体活动所具备的邻近性、 周期性和趋势性。 X 在此基础上,Zhang 等采用深度时空残差网 络模型来进行特征表示学习和预测。该网络包 括 3 个主要的残差网络模块,共享相同网络结 构。每个模块的输入都是一个矩阵 。以邻近性 模块为例,一个时间间隔内的数据可以表示为 [Xt−lc Xt−(lc−1) ··· Xt−l] (1) lc c 式(1)称为邻近性依赖矩阵,其中 为时间间 隔, 下标代表了卷积层,然后按照时间轴将其连 ·840· 智 能 系 统 学 报 第 17 卷
第4期 李伯涵,等:基于分割注意力机制残差网络的城市区域客流量预测 ·841· 接为一个矩阵:X∈T2W。其中T4表示维度 来源为基础,以Deep&Wide网络为框架,提出包 为21×I×J的矩阵的集合,随后输入到一个卷积 括4个主要网络模块的多源时空客流量预测方法。 单元: 为了更好地提取与城市区域客流量相关的特 X=f(w四*X0+b 征,以ST-ResNet框架为基础,在空间依赖性、时 式中:“*”表示卷积操作;f是一个激活函数; 间依赖性以及外部因素之上,引入“城市功能区属 W;b四是需要学习的参数。 性”作为重要的特征。其原因在于不同时段的客 每一个卷积操作中堆叠L个残差单元,即: 流量变化与区域功能属性密切相关。如工作日的 X+n=X0+F(X0:),1=1,2,…,L 上班早高峰时间段,住宅区和商业区的人口密度 式中:F是残差方程(即两个ReLU和卷积的组 与客流量变化会明显多于其他功能区。同时,以 合),包括所有第层需要学习的参数。同样, ST-SANet来提取区域客流量的时空抽象特征。 在ReLu之前,使用批归一化(batch normalization, 2.1 基于ST-SANet网络的区域客流量预测模块 BN)。在顶端的第L层残差单元输出为X+2。 将数据集划分为邻近时段(Xoe)、较近时段 将3个模块的结果进行拼接,调用Tanh激活 (X,eod)、遥远时段(Yirend)数据,采用ST-SANet分 函数,结合外部因素模块,最终计算L0ss值,训练 别对活动邻近性、周期性、趋势性进行建模,动态 得到城市区域客流量预测模型。 聚合3个网络模块的输出,为不同模态的特征分 2城市区域客流量预测 配不同的权重。采用全连接网络对节假日、天气 等外部影响因子进行建模。最后将得到的特征进 本文以城市区域的流入流出量、当前城市功能 行拼接,利用激活函数实现对小区域客流量的预 区域分布、天气节假日等外部特征3类异构数据 测,整体结构如图1所示。 预测时间段 ● Epoch 1 Epoch 2 Epoch L 时间段 预卷积 残差网络模块 数据 残差网络模块 残差网络模块 邻近性 分割注意力模块 分割注意力模块 包含流入流出量 模块分制注意力模块 卷积 以及城市功能区 ,2::: 2二1222222222 2221 较近 划分的数据集 Epoch 1 Epoch 2 Epoch L 时间段 数据 预卷积 残差网络模块 残差网络模块☐ 周期性残差网络模块☐ 分制注意力模块 Fusion 分制注意力模块 模块 分制注意力模块 卷积 股边2xw 遥远 :: Epoch 1 Epoch 2 Epoch L 时间段 拼接 Tanh SS 预卷积 残差网络模块 数据 残差网络模块 残差网络模块 趋势性 分割注意力模块 分割注意力模块 模块 分割注意力模块 卷积 =。”一中中中中中中 节假日天气 外部特征 全连 全连 数据 接层 接层 图1分割注意力机制残差网络结构图 Fig.1 Structure diagram of split-attention residual network 211带有城市功能区域属性的流入流出矩阵 X=[Vn,Vou,y1,…,V6] 构建 其中X,(i∈0,h),j∈[0,w)表示1时刻第i行、第j列 输入为表征小区域流入流出量、功能区域属 的栅格区域。 性的8维向量:X,=(fn,fout,Fc)形成的矩阵,其 本文根据北京市经纬度范围将整个市区划分 中n,、fou此分别代表1时刻区域流入量以及流出 为32×32个栅格区域,参考北京市功能区分布将 量,Faeu为6位one-hot编码向量,表征了功能区 各区域划分为“居住区”、“商业区”、“文教区”、“行 域属性。 政区”、“休闲区”。每个栅格内选取比重较大的一
X (1) c ∈ T 2lc×I×J T 2lc×I×J 2lc × I × J 接为一个矩阵: 。其中 表示维度 为 的矩阵的集合,随后输入到一个卷积 单元: X (1) c = f(W(1) c ∗ X (0) c +b (1) c ) f W(1) c b (1) c 式中: “ * ”表示卷积操作; 是一个激活函数; ; 是需要学习的参数。 每一个卷积操作中堆叠 L 个残差单元,即: X (l+1) c = X (l) c + F(X (l) c ; θ (l) c ), l = 1,2,··· ,L F θ (1) l X (L+2) c 式中: 是残差方程(即两个 ReLU 和卷积的组 合), 包括所有第 层需要学习的参数。同样, 在 ReLu 之前,使用批归一化(batch normalization, BN)。在顶端的第 L 层残差单元输出为 。 将 3 个模块的结果进行拼接,调用 Tanh 激活 函数,结合外部因素模块,最终计算 Loss 值,训练 得到城市区域客流量预测模型。 2 城市区域客流量预测 本文以城市区域的流入流出量、当前城市功能 区域分布、天气节假日等外部特征 3 类异构数据 来源为基础,以 Deep&Wide 网络为框架,提出包 括 4 个主要网络模块的多源时空客流量预测方法。 为了更好地提取与城市区域客流量相关的特 征,以 ST-ResNet 框架为基础,在空间依赖性、时 间依赖性以及外部因素之上,引入“城市功能区属 性”作为重要的特征。其原因在于不同时段的客 流量变化与区域功能属性密切相关。如工作日的 上班早高峰时间段,住宅区和商业区的人口密度 与客流量变化会明显多于其他功能区。同时,以 ST-SANet 来提取区域客流量的时空抽象特征。 2.1 基于 ST-SANet 网络的区域客流量预测模块 将数据集划分为邻近时段(Xclose)、较近时段 (Xperiod)、遥远时段(Xtrend)数据,采用 ST-SANet 分 别对活动邻近性、周期性、趋势性进行建模,动态 聚合 3 个网络模块的输出,为不同模态的特征分 配不同的权重。采用全连接网络对节假日、天气 等外部影响因子进行建模。最后将得到的特征进 行拼接,利用激活函数实现对小区域客流量的预 测,整体结构如图 1 所示。 预测时间段 包含流入流出量 以及城市功能区 划分的数据集 32×32×8 节假日天气 数据 外部特征 数据 遥远 时间段 趋势性 模块 数据 较近 时间段 周期性 模块 数据 邻近 时间段 邻近性 模块 全连 接层 全连 接层 残差网络模块 分割注意力模块 Epoch 2 Epoch 1 预卷积 残差网络模块 分割注意力模块 Epoch L 残差网络模块 分割注意力模块 卷积 Epoch L 残差网络模块 分割注意力模块 卷积 Epoch L 残差网络模块 分割注意力模块 卷积 Epoch 1 预卷积 残差网络模块 分割注意力模块 Epoch 1 预卷积 残差网络模块 分割注意力模块 残差网络模块 分割注意力模块 Epoch 2 残差网络模块 分割注意力模块 Epoch 2 ... ... ... Fusion 拼接 Tanh Loss 图 1 分割注意力机制残差网络结构图 Fig. 1 Structure diagram of split-attention residual network 2.1.1 带有城市功能区域属性的流入流出矩阵 构建 Xt = (fint ,foutt ,Func,t) fint foutt Func,t 输入为表征小区域流入流出量、功能区域属 性的 8 维向量: 形成的矩阵,其 中 、 分别代表 t 时刻区域流入量以及流出 量, 为 6 位 one-hot 编码向量,表征了功能区 域属性。 X t i, j = [vin, vout, v1 ,··· , v6] X t i, j 其中 (i ∈ [0,h), j ∈ [0,w)) 表示 t 时刻第 i 行、第 j 列 的栅格区域。 × 本文根据北京市经纬度范围将整个市区划分 为 32 32 个栅格区域,参考北京市功能区分布将 各区域划分为“居住区”、“商业区”、“文教区”、“行 政区”、“休闲区”。每个栅格内选取比重较大的一 第 4 期 李伯涵,等:基于分割注意力机制残差网络的城市区域客流量预测 ·841·
·842· 智能系统学报 第17卷 至三类功能区属性作为划分依据,如图2所示。 果矩阵与外部特征模块的结果矩阵进行拼接。 最后用Tanh函数将融合后的输出映射到区间 [-l,l]中。在反向传播中,Tanh函数比标准逻辑 函数收敛得更快4。 商业区 2.1.2ST-SANet构架 图I展示了ST-SANet的架构,模型的主体为 上半部分的3个模块,分别对邻近性、周期性、趋势 性进行建模,每个模块由两个主要子模块组成,分 别是残差单元和分割注意力机制模块。整个城市 休闲区、文教区 范围内的数据量非常庞大,同时包含许多不同属 性的区域,使得抽象数据中隐藏了大量多元化的 特征信息,本文在残差网络算法(residual network, 图2城市功能区划分示意图 ResNet).的基础上引入了分割注意力机制,使模型 Fig.2 Schematic diagram of urban functional area division 具备了多模态数据特征提取的能力,进而深入地 将包含了城市功能区特征和时空流入流出量 发掘了更多维度数据信息。通过在ResNet结构 信息的数据,绘制成流入量流出量热力图22四,按 中堆叠分割注意力机制模块,形成了新的ResNet 照时间轴分成较近时间段、临近时间段以及遥远 变体ResNeSt2。它保留了整个ResNet结构,以 时间段3类,然后将3类数据输入到对应的模块 便直接用于下游任务,而不引入额外的计算成本。 中进行建模,从而提取前述的活动邻近性、周期 分割注意力机制模块中同一层的多个卷积核 性以及趋势性。3个模块共享相同的网络结构, 相互独立,可以各自提取特征,使得模型具有提 且彼此相互独立,都采用了卷积神经网络、残差 取多元化信息的特性。 单元序列、分割注意力机制模块结构。相较于原 残差模块输出为维度h=32、w=32、c=8的 始模型,改进后的结构能够更动态地提取影响程 矩阵X∈Tkxwxe,并作为分割注意力机制模块的输 度较大的数据特征,更准确地捕捉数据中的潜在 入,ResNeSt算法中的特征图组与ResNeXt算法Pa 关联性2。 相似,特征可以分为若干组,特征图组的数量由 为前3个主要模块的输出分配相应的权值 超参数K提供2,以此种方式将输入的特征分 后,融合为一个结果矩阵。然后将主要模块的结 成了若干基组(Cardinal组),如图3所示。 ResNeSt模块 (h,w,c) 输人 Cardinal组I Cardinal组k 。。。。。。。。。。。 Radix组I Radix组r Radix组I Radix组r 卷积1×1 卷积.1×1 卷积,1×1 卷积.1×1 clkir clkir clkir clkir 卷积,3×3 卷积.3×3 卷积3×3 卷积,3×3 clk clk clk h,w.c'lm) 分割注意力 分割注意力 (h,w.clm Concatenate函数 (h,,c) 卷积,1×1,c (h,w,c) 图3分割注意力机制模块 Fig.3 Model of split-attention
至三类功能区属性作为划分依据,如图 2 所示。 商业区 休闲区、文教区 图 2 城市功能区划分示意图 Fig. 2 Schematic diagram of urban functional area division 将包含了城市功能区特征和时空流入流出量 信息的数据,绘制成流入量流出量热力图[21-22] ,按 照时间轴分成较近时间段、临近时间段以及遥远 时间段 3 类,然后将 3 类数据输入到对应的模块 中进行建模,从而提取前述的活动邻近性、周期 性以及趋势性。3 个模块共享相同的网络结构, 且彼此相互独立,都采用了卷积神经网络、残差 单元序列、分割注意力机制模块结构。相较于原 始模型,改进后的结构能够更动态地提取影响程 度较大的数据特征,更准确地捕捉数据中的潜在 关联性[23]。 为前 3 个主要模块的输出分配相应的权值 后,融合为一个结果矩阵。然后将主要模块的结 果矩阵与外部特征模块的结果矩阵进行拼接。 最后用 Tanh 函数将融合后的输出映射到区间 [−1,1] 中。在反向传播中,Tanh 函数比标准逻辑 函数收敛得更快[24]。 2.1.2 ST-SANet 构架 图 1 展示了 ST-SANet 的架构,模型的主体为 上半部分的 3 个模块,分别对邻近性、周期性、趋势 性进行建模,每个模块由两个主要子模块组成,分 别是残差单元和分割注意力机制模块。整个城市 范围内的数据量非常庞大,同时包含许多不同属 性的区域,使得抽象数据中隐藏了大量多元化的 特征信息,本文在残差网络算法(residual network, ResNet)的基础上引入了分割注意力机制,使模型 具备了多模态数据特征提取的能力,进而深入地 发掘了更多维度数据信息。通过在 ResNet 结构 中堆叠分割注意力机制模块,形成了新的 ResNet 变体 ResNeSt[25]。它保留了整个 ResNet 结构,以 便直接用于下游任务,而不引入额外的计算成本。 分割注意力机制模块中同一层的多个卷积核 相互独立,可以各自提取特征,使得模型具有提 取多元化信息的特性。 X ∈ T h×w×c 残差模块输出为维度 h = 32、w = 32、c = 8 的 矩阵 ,并作为分割注意力机制模块的输 入,ResNeSt 算法中的特征图组与 ResNeXt 算法[26] 相似,特征可以分为若干组,特征图组的数量由 超参数 K 提供[27-29] ,以此种方式将输入的特征分 成了若干基组(Cardinal 组),如图 3 所示。 ... Cardinal 组 1 ResNeSt 模块 (h, w, c) 输入 Concatenate 函数 卷积, 1×1, c 卷积, 3×3 c'/k Radix 组 1 卷积, 1×1 c'/k/r 卷积, 1×1 c'/k/r 卷积, 3×3 c'/k Radix 组 r (h, w, c'/m) (h, w, c'/m) (h, w, c') (h, w, c) 分割注意力 ... Cardinal 组 k 卷积, 3×3 c'/k Radix 组 1 卷积, 1×1 c'/k/r 卷积, 1×1 c'/k/r 卷积, 3×3 c'/k Radix 组 r 分割注意力 + 图 3 分割注意力机制模块 Fig. 3 Model of split-attention ·842· 智 能 系 统 学 报 第 17 卷
第4期 李伯涵,等:基于分割注意力机制残差网络的城市区域客流量预测 ·843· 在每个相互独立的基组中,又把输入分成了 Sk= 1 多个分支,每个分支的注意力层能够提供捕捉特 xw名台6刀 征相关性的网络机制,通过引入自注意力机制实 把每个基数组的输出拼接在一起,又经过一 现特征分支间的权重分配,如图4所示。 层1×1的卷积层,最终输出一个与输人同为h、 (h,e,c) w、c维度的特征矩阵Xx,并传递给下一模块。 输入1 输人r 2.1.3参数矩阵融合 使用下述方法融合图1中3个主要模块的输出: (h,m,c) XRes WoX(2)+WoX(2+WoXu+2) 全局池化 式中:“。”是阿达玛乘法(即元素间相乘),参数 (c) W、W,和W,分别表征了邻近性、周期性和趋势性 全连接c+归一化+ReLU 的影响程度。 (c) 2.2融合外部特征的客流量预测 全连接c 全连接c 在外部因素模块中,本文把与时空数据时间 (C.) 相对应的完整外部数据(天气数据和节假日数 n-Softmax 据)输入到一个两层的全连接神经网络中,以获 (c)1 (h,w,c) (8 取天气和节假日特征对区域客流量的影响。 .84 用E,表示预测时间节点1的外部因素特征向 图4组群中的注意力机制分支 量,包括了天气、节假日、工作日等信息。与时空 Fig.4 Branches of Split-attention in groups 数据预测方式相似,使用1一1时刻的数据近似预 此处涉及了第二个超参数R,将特征分成了 测1时刻的外部因素情况。输出的E,需要经过两 若干基组的组内分支(Radix分支),后文简称为 个全连接层,第一层可以理解为每个子因素的嵌 “组内分支”,使得模型能进一步地提取具有多元 入层,后面连接一个激活函数。第二层则可以理 化属性的特征。 解为是将低维向量映射到高维空间。 在组内分支中首先将特征求和并进行全局池 最终把外部因素模块和主要的模块进行融 化操作,然后使用卷积等操作进行权重系数的分 合,如图1框架图所示。预测得到1时间的区域 配。第一组卷积的输出维度为4维,作为缩放系 客流量预测值义,: 数用于减少参数量;第二组卷积的输出维度通道 &Tanh(Xges XEx) 数乘以组内分支数,保持了与组内分支特征层相 式中的Tanh为双曲线切线函数,保证了输出的范 对应的维度。为了确保组内分支间特征层的权重 围在-1到1之间。 独立分布,使用n-Softmax对各组内分支的权重分 2.3ST-SANet模型训练过程 别计算,最后将各组对应的特征层与注意力系数 算法1ST-SANet模型 相乘再求和。 输入流入、流出量数据Xs、预测时间点真 上文提到的超参数R描述了基数组内的分支 模块数目,因此特征组的总数为G=K×R 实数据Xea,外部特征数据Xa 输出经过训练得到各项模型参数。 并应用一系列变换{F,F2,…,Fc}得到每个单 1)按照距离预测时间点的时间间隔划分数 独的组,各组的中间量表示为: 据集; w=F(X),i∈{1,2,…,G} 基组可以通过多个组内分支逐元素求和来获 XRes→Xclose、Xperiod、Xrend 得,其中第k个基数组表示为 2)将流入流出量数据通过预卷积层: heose =conv2d(Xelse,64,(7.7),(1,1)) hperiod =conv2d(Xperiod.(7,7),(1,1)) =k-1+1 huend =conv2d(Xuend,(7,7),(1,1)) 超参数R代表了分支数量,h、w和c分别是 3)外部特征数据经过两层全连接后得到结 模块输出特征图的维度参数。可以使用全局平 果E,: 均池化来收集嵌入式通道(embedded channel- E,fullyconnected(Xex)) wise)中全局上下文信息B0。第c个分量S的计算 4)将预卷积层结果输入到ResNeSt模块: 公式为 邻近性模块:
在每个相互独立的基组中,又把输入分成了 多个分支,每个分支的注意力层能够提供捕捉特 征相关性的网络机制,通过引入自注意力机制实 现特征分支间的权重分配,如图 4 所示。 + × × × ... ... (h, w, c) (h, w, c) (h, w, c) (c) (c') (c,) (c,) 输入 1 全局池化 全连接 c'+ 归一化 +ReLU n-Softmax 输入 r 全连接 c 全连接 c 图 4 组群中的注意力机制分支 Fig. 4 Branches of Split-attention in groups 此处涉及了第二个超参数 R,将特征分成了 若干基组的组内分支(Radix 分支),后文简称为 “组内分支”,使得模型能进一步地提取具有多元 化属性的特征。 在组内分支中首先将特征求和并进行全局池 化操作,然后使用卷积等操作进行权重系数的分 配。第一组卷积的输出维度为 4 维,作为缩放系 数用于减少参数量;第二组卷积的输出维度通道 数乘以组内分支数,保持了与组内分支特征层相 对应的维度。为了确保组内分支间特征层的权重 独立分布,使用 n-Softmax 对各组内分支的权重分 别计算,最后将各组对应的特征层与注意力系数 相乘再求和。 G = K ×R 上文提到的超参数 R 描述了基数组内的分支 模块数目,因此特征组的总数为 并应用一系列变换 {F1,F2,··· ,FG} 得到每个单 独的组,各组的中间量表示为 u: ui = Fi(X),i ∈ {1,2,··· ,G} 基组可以通过多个组内分支逐元素求和来获 得,其中第 k 个基数组表示为 U k = ∑Rk i=R(k−1)+1 ui 超参数 R 代表了分支数量,h、w 和 c 分别是 模块输出特征图的维度参数。可以使用全局平 均池化来收集嵌入式通道(embedded channelwise)中全局上下文信息[30]。第 c 个分量 S 的计算 公式为 S k c = 1 h×w ∑h i=1 ∑w j=1 U k c (i, j) X w×h×c 把每个基数组的输出拼接在一起,又经过一 层 1×1 的卷积层,最终输出一个与输入同为 h、 w、c 维度的特征矩阵 ,并传递给下一模块。 2.1.3 参数矩阵融合 使用下述方法融合图 1 中 3 个主要模块的输出: XRes = Wc ◦ X (L+2) c + Wp ◦ X (L+2) p + Wq ◦ X (L+2) q ◦ Wc Wp Wq 式中:“ ”是阿达玛乘法(即元素间相乘),参数 、 和 分别表征了邻近性、周期性和趋势性 的影响程度。 2.2 融合外部特征的客流量预测 在外部因素模块中,本文把与时空数据时间 相对应的完整外部数据(天气数据和节假日数 据)输入到一个两层的全连接神经网络中,以获 取天气和节假日特征对区域客流量的影响[31]。 Et Et 用 表示预测时间节点 t 的外部因素特征向 量,包括了天气、节假日、工作日等信息。与时空 数据预测方式相似,使用 t−1 时刻的数据近似预 测 t 时刻的外部因素情况。输出的 需要经过两 个全连接层,第一层可以理解为每个子因素的嵌 入层,后面连接一个激活函数。第二层则可以理 解为是将低维向量映射到高维空间。 Xˆ t 最终把外部因素模块和主要的模块进行融 合,如图 1 框架图所示。预测得到 t 时间的区域 客流量预测值 : Xˆ t = Tanh(XRes + XExt) 式中的 Tanh 为双曲线切线函数,保证了输出的范 围在−1 到 1 之间。 2.3 ST-SANet 模型训练过程 算法 1 ST-SANet 模型 输入 流入、流出量数据 XRes、预测时间点真 实数据 XReal,外部特征数据 XExt。 输出 经过训练得到各项模型参数。 1) 按照距离预测时间点的时间间隔划分数 据集; XRes → Xclose、Xperiod、Xtrend 2) 将流入流出量数据通过预卷积层: hclose = conv2d(Xclose,64,(7,7),(1,1)) hperiod = conv2d(Xperiod,(7,7),(1,1)) htrend = conv2d(Xtrend,(7,7),(1,1)) 3) 外部特征数据经过两层全连接后得到结 果 Et : Et = fullyconnected(XExt)) 4) 将预卷积层结果输入到 ResNeSt 模块: 邻近性模块: 第 4 期 李伯涵,等:基于分割注意力机制残差网络的城市区域客流量预测 ·843·
·844· 智能系统学报 第17卷 hclose =ResInput(heose) gclose=ResNeStUnit() 800 Teose =ResOutput(gelose) 周期性模块: 10 600 hperiod =ResInput(hperiod) 15 gperiod=ResNeStUnit() 400 Tperiod=ResOutput(gperiod) 趋势性模块: 3 200 hrend =ResInput(hed) 30 guend=ResNeStUnit(hrend) 10 152025 Tuend =ResOutput(gtrend) 5)将邻近性、周期性以及趋势性3个模块的 (a)流入量热力图 输出进行全连接后生成X,; X=Fusion(relose,Iperiod,T'urend) 160 6)拼接X,与E,后,经过Tanh激活函数得到 140 预测结果; 10 &,=Tanh (Connection(X,,E)) 15 7)按照公式计算1oss值: 80 20 60 ∑必-x 25 40 loss shape() +20 反向传播更新网络参数。 30 0 10152025 30 本实验在16C32G服务器环境下,平均训练 时间为47h16min。 (b)流出量热力图 图5流入流出量数据热力图 3实验设置与结果分析 Fig.5 Heat map of inflow and outflow data 3.2 评估指标 3.1数据集 本文选择均方根误差(RMSE)作为框架的衡 本文以公开的真实数据集一北京出租车数据 量标准,从而评估算法预测结果的准确性。均方 集(TaxiBJ)B)以及对应的北京气象信息、节假日 根误差的公式为 等数据(BJ_Meteorology)为基础对客流情况进行 预测。TaxiBJ数据集为h5文件,包括“date”和 =1 (predicted,-actual,)2 RMSE= data”两个字段,分别表示数据集的时间、以及流 N 入流出量数据。该数据集涵盖了4个时间范围的 式中predicted为预测量,actual为真实量,分别对 数据,分别是2013年7月1日~10月30日;2014 应了各时间段、各区域出租车客流量的流人流出 年3月1日~6月30日:2015年3月1日~6月 量的预测值以及真实值。进而对模型的预测准确 30日;2015年11月1日~2016年4月10日。4年 度进行评估。 的数据集的形状分别为(4888,2,32,32)、(4780, 3.3实验关键参数设置及相关代码 2,32,32)、(5596,2,32,32)以及(7220,2,32, 本文提出的新模型经过多次实验的沉淀,最 终获得的参数设置如表1所示。论文中代码见文 32),其中数据第一位代表总数据量,第二位的二 维数组分别代表了该区域的流入量和流出量,第 献[33]。 三、四位代表了32×32的栅格网络区域。时间戳 表1实验参数表 Table 1 Experimental parameters table 的间隔设定以30min为单位。 图5为TaxiBJ数据集中某时间节点的流入流 参数名称 参数值 出量热力图,其中(a)图为流入量热力图,(b)图为 批次大小(batch size) 32 流出量热力图。 特征图宽(map_width) 32
hclose = ResInput(hclose) gclose = ResNeStUnit(h ′ close) rclose = ResOutput(gclose) 周期性模块: hperiod = ResInput(hperiod) gperiod = ResNeStUnit(h ′ period) rperiod = ResOutput(gperiod) 趋势性模块: h ′ trend = ResInput(htrend) gtrend = ResNeStUnit(h ′ trend) rtrend = ResOutput(gtrend) 5) 将邻近性、周期性以及趋势性 3 个模块的 输出进行全连接后生成 Xt ; Xt = Fusion(rclose,rperiod,rtrend) Xˆ t 6) 拼接 Xt 与 Et 后,经过 Tanh 激活函数得到 预测结果 ; Xˆ t=Tanh (Connection(Xt , Et ) ) 7) 按照公式计算 loss 值: loss = vut∑N i=1 (Xˆ i t − X i Real) 2 shape(Xˆ t) 反向传播更新网络参数。 本实验在 16C32G 服务器环境下,平均训练 时间为 47 h 16 min。 3 实验设置与结果分析 3.1 数据集 本文以公开的真实数据集—北京出租车数据 集(TaxiBJ) [32] 以及对应的北京气象信息、节假日 等数据(BJ_Meteorology)为基础对客流情况进行 预测。TaxiBJ 数据集为 h5 文件,包括“date”和 “data”两个字段,分别表示数据集的时间、以及流 入流出量数据。该数据集涵盖了 4 个时间范围的 数据,分别是 2013 年 7 月 1 日~10 月 30 日;2014 年 3 月 1 日~6 月 30 日 ;2015 年 3 月 1 日~6 月 30 日;2015 年 11 月 1 日~2016 年 4 月 10 日。4 年 的数据集的形状分别为(4 888,2,32,32)、(4 780, 2,32,32)、(5 596,2,32,32)以及(7 220,2,32, 32),其中数据第一位代表总数据量,第二位的二 维数组分别代表了该区域的流入量和流出量,第 三、四位代表了 32×32 的栅格网络区域。时间戳 的间隔设定以 30 min 为单位。 图 5 为 TaxiBJ 数据集中某时间节点的流入流 出量热力图,其中 (a) 图为流入量热力图,(b) 图为 流出量热力图。 0 0 5 5 10 15 x 20 25 30 10 15 20 25 30 160 140 120 100 80 60 40 20 0 (b) 流出量热力图 y 0 0 5 5 10 15 x (a) 流入量热力图 20 25 30 10 15 20 25 30 800 600 400 200 0 y 图 5 流入流出量数据热力图 Fig. 5 Heat map of inflow and outflow data 3.2 评估指标 本文选择均方根误差(RMSE)作为框架的衡 量标准,从而评估算法预测结果的准确性。均方 根误差的公式为 RMSE = vt∑N i=1 (predictedi −actuali) 2 N 式中 predicted 为预测量,actual 为真实量,分别对 应了各时间段、各区域出租车客流量的流入流出 量的预测值以及真实值。进而对模型的预测准确 度进行评估。 3.3 实验关键参数设置及相关代码 本文提出的新模型经过多次实验的沉淀,最 终获得的参数设置如表 1 所示。论文中代码见文 献 [33]。 表 1 实验参数表 Table 1 Experimental parameters table 参数名称 参数值 批次大小(batch_size) 32 特征图宽(map_width) 32 ·844· 智 能 系 统 学 报 第 17 卷
第4期 李伯涵,等:基于分割注意力机制残差网络的城市区域客流量预测 ·845· 续表1 如当序列长度选取48、时间间隔为30min时,数 参数名称 参数值 据的时间依赖性为24h。因此,有6种RNN的变 特征图高(map_height) 2 种:RNN-3、RNN-6、RNN-12、RNN-24、RNN-48和 邻近性数据长度(closeness_sequence_length) RNN-336。 8 周期性数据长度(period_sequence_.length) LSTM长短记忆单元网络(LSTM)B剧是 8 种特殊的RNN,能够学习到较长的时间依赖。与 趋势性数据长度(trend_sequence_length) 8 RNN的设置相同,做了6种LSTM的变种实验, 残差单元数量(num_of residual_units) 2 即LSTM-3、LSTM-6、LSTM-12、LSTM-24、LSTM- 学习率(Ir) 0.001 48和LSTM-336。 周期数量(num_epochs) 10 GRU门递归单元网络,是一种新的RNN, 过滤器数量(num_of_filters) 64 能够捕捉较长的时间依赖。与RNN的设置相同, 一阶矩估计的指数衰减因子(betal)》 0.8 有以下6种GRU变种作为对比实验:GRU-3、GRU 二阶矩估计的指数衰减因子(beta2) 0.999 6、GRU-12、GRU-24、GRU-48以及GRU-336。 采样数(nb flow) 2 3.4.2对比实验的结果与分析 基组数量(K) 与上述模型的对比实验结果如表2所示。 组内分支数量(R) 4 表2 TaxiBJ数据集下的各个模型RMSE对比实验 Table 2 Comparison of RMSE results of various frame- 3.4对比实验的设置与分析 works under Taxibj dataset 3.4.1对比实验的设置 模型框架 RMSE评估指标 实验过程中随机选择了数量为8周的数据作为 HA 57.69 测试集,剩余数据为训练集。选取了ST-ResNet和 ARIMA 22.78 DeepST两种人流量预测模型和ARMA、SARIMA、 SARIMA 26.88 VAR、RNN、LSTM、GRU等主流时间序列预测模 VAR 22.88 型作为对比模型。 ST-ANN 19.57 HA计算对应时间区间的所有历史输入流 DeepST 18.1 和外出流的平均流量。例如:周二上午9:00-9:30, RNN-3 23.42 对应所有历史数据中所有周二上午的9:00~9:30。 RNN-6 23.80 ARIMAIS阿自回归滑动平均(ARMA),著名 RNN-12 32.21 的预测时间序列的模型。 RNN-24 38.66 SARIMAB6T季节性ARIMA,在ARIMA的 RNN-48 46.41 基础上,SARIMA考虑了季节特性,能够同时学 RNN-336 39.10 习时间邻近性和周期性。 LSTM-3 22.90 VAR向量自回归模型(VAR)能够捕捉成 LSTM-6 20.62 对乘客流量之间的关系,但由于参数规模十分庞 LSTM-12 23.93 大,致使时间复杂度较高。 LSTM-24 21.97 ST-ANN抽取空间(周围8个区域的值)和 LSTM-48 23.02 时间(前8个时间区间)的特征作为模型预测的 LSTM-336 31.13 依据。 GRU-3 22.63 DeepST面向时空数据的深度神经网络 GRU-6 20.85 (DNN)预测模型,在交通领域数据预测问题上展 GRU-12 20.46 示了较好的特性。 RNN3刀递归神经网络是一种深度学习模 GRU-24 20.24 GRU-48 型,能够较好捕捉时间依赖性,可用于训练不同 21.37 GRU-336 31.34 维度的时间序列数据。本文的实验中,分别选取 了长度为3、6、12、24、48、336的输入序列作为对 ST-ResNet 16.89 比实验。不同的序列长度预测效果不尽相同,例 ST-SANet 14.27
续表 1 参数名称 参数值 特征图高(map_height) 32 邻近性数据长度(closeness_sequence_length) 8 周期性数据长度(period_sequence_length) 8 趋势性数据长度(trend_sequence_length) 8 残差单元数量(num_of_residual_units) 12 学习率 (lr) 0.001 周期数量(num_epochs) 10 过滤器数量(num_of_filters) 64 一阶矩估计的指数衰减因子(beta1) 0.8 二阶矩估计的指数衰减因子(beta2) 0.999 采样数(nb_flow) 2 基组数量(K) 4 组内分支数量(R) 4 3.4 对比实验的设置与分析 3.4.1 对比实验的设置 实验过程中随机选择了数量为 8 周的数据作为 测试集,剩余数据为训练集。选取了 ST-ResNet 和 DeepST[34] 两种人流量预测模型和 ARIMA、SARIMA、 VAR、RNN、LSTM、GRU 等主流时间序列预测模 型作为对比模型。 HA 计算对应时间区间的所有历史输入流 和外出流的平均流量。例如:周二上午 9:00~9:30, 对应所有历史数据中所有周二上午的 9:00~9:30。 ARIMA[35] 自回归滑动平均(ARIMA),著名 的预测时间序列的模型。 SARIMA[36] 季节性 ARIMA,在 ARIMA 的 基础上,SARIMA 考虑了季节特性,能够同时学 习时间邻近性和周期性。 VAR 向量自回归模型(VAR)能够捕捉成 对乘客流量之间的关系,但由于参数规模十分庞 大,致使时间复杂度较高。 ST-ANN 抽取空间(周围 8 个区域的值)和 时间(前 8 个时间区间)的特征作为模型预测的 依据。 DeepST 面向时空数据的深度神经网络 (DNN)预测模型,在交通领域数据预测问题上展 示了较好的特性。 RNN[37] 递归神经网络是一种深度学习模 型,能够较好捕捉时间依赖性,可用于训练不同 维度的时间序列数据。本文的实验中,分别选取 了长度为 3、6、12、24、48、336 的输入序列作为对 比实验。不同的序列长度预测效果不尽相同,例 如当序列长度选取 48、时间间隔为 30min 时,数 据的时间依赖性为 24 h。因此,有 6 种 RNN 的变 种:RNN-3、RNN-6、RNN-12、RNN-24、RNN-48 和 RNN-336。 LSTM 长短记忆单元网络(LSTM) [38] 是一 种特殊的 RNN,能够学习到较长的时间依赖。与 RNN 的设置相同,做了 6 种 LSTM 的变种实验, 即 LSTM-3、LSTM-6、LSTM-12、LSTM-24、LSTM- 48 和 LSTM-336。 GRU[39] 门递归单元网络,是一种新的 RNN, 能够捕捉较长的时间依赖。与 RNN 的设置相同, 有以下 6 种 GRU 变种作为对比实验:GRU-3、GRU- 6、GRU-12、GRU-24、GRU-48 以及 GRU-336。 3.4.2 对比实验的结果与分析 与上述模型的对比实验结果如表 2 所示。 表 2 TaxiBJ 数据集下的各个模型 RMSE 对比实验 Table 2 Comparison of RMSE results of various frameworks under Taxibj dataset 模型框架 RMSE评估指标 HA 57.69 ARIMA 22.78 SARIMA 26.88 VAR 22.88 ST-ANN 19.57 DeepST 18.1 RNN-3 23.42 RNN-6 23.80 RNN-12 32.21 RNN-24 38.66 RNN-48 46.41 RNN-336 39.10 LSTM-3 22.90 LSTM-6 20.62 LSTM-12 23.93 LSTM-24 21.97 LSTM-48 23.02 LSTM-336 31.13 GRU-3 22.63 GRU-6 20.85 GRU-12 20.46 GRU-24 20.24 GRU-48 21.37 GRU-336 31.34 ST-ResNet 16.89 ST-SANet 14.27 第 4 期 李伯涵,等:基于分割注意力机制残差网络的城市区域客流量预测 ·845·
·846· 智能系统学报 第17卷 从表2可以看出,本文提出的ST-SANet准确 模态数据集中提取多元化特征。 率明显优于所有的对比方法。含有12个残差单 3.6实验结论 元和分割注意力机制模块的ST-SANet优于DeepST 引入城市功能区属性的数据集,包含了各时 等传统算法约22%以上,优于RNN约40%以上, 段各区域的客流量变化信息,并且在一定程度上 优于LSTM约31%以上,优于GRU30%以上,优 反映了与区域相关的活动语义。不同的人群活动 于ST-ResNet约6% 会发生在不同的区域,比如“上班”会发生在工作 ST-ANN和VAR也采用了时空数据进行模型 区,那么引人功能区划分这一特征,就可以提取 训练,但是性能都不及ST-SANet模型,因为它们 各时段不同功能区乘客群体的活动规律,从而提 只是考虑了较近时间段以及邻近时间段信息。对 升模型的预测精度。实验中相同模型下,引入了 于时间序列模型而言,GRU和LSTM的RMSE性 城市功能区属性的数据带来的预测结果要优于原 能相似,且均优于RNN,但是都不及ST-SANet模 始数据的预测结果。 型,其原因在于GRU和LSTM都能够捕捉较长的 面对多模态数据集,引入分割注意力机制模 时间依赖性,但不具备提取多元化特征的能力o。 块能够更好地提取多样化的特征。并且人群活动 3.5消融实验 的成因十分复杂,不同区域、不同类型乘客群体 3.5.1消融实验设置 活动的原因和规律具有明显差异,注意力机制模 为了验证分割注意力机制模块以及城市功能 块能够动态地分析各种场景的乘客群体活动,挑 区划分对模型的性能影响,本文针对ST-SANet, 选影响程度较高的特征,同时能够更好地捕捉多 构造了未引入城市功能区特征的消融版模型$T- 模态数据间的潜在关系,这无疑是模型性能提升 SANetRib,未引入分割注意力机制的消融模型 的主要原因。 ST-ResNet,,以及未引入分割注意力机制及城市功 4结束语 能区特征的消融模型ST-ResNetRibo 3.5.2消融实验的结果与分析 针对城市各区域客流量预测问题,本文将城 4个模型的预测结果如表3所示。 市区域的功能属性作为重要特征,采用分割注意 表3消融实验对比结果 力机制残差网络算法,提取城市中任意两个区域 Table 3 Comparison results of ablation experiments 之间的相互关系;采用包含区域功能属性的历史 模型框架 RMSE评估指标 时空数据,以及节假日、天气等外部特征数据进 ST-ResNet 16.89 行训练,能够更好地捕捉多模态数据之间的时间 依赖、空间依赖、地区属性依赖以及外部因素的 ST-ResNetRib 17.11 影响;在真实数据集上与10种类似算法进行对 ST-SANet 14.27 比,结果充分说明了本模型具有更高的准确性。 ST-SANetRib 14.51 在未来的工作中,本文将会基于扩张卷积算 法,探究空间上的近距离、远距离数据依赖对于 从消融实验对比结果表中可以看出,首先对 预测的影响程度,以减轻无效数据对模型性能造 于城市功能区划分的消融实验,无论是改进后形 成的负面影响。 成的ST-SANet模型,还是原始的ST-ResNet模 型,引入城市功能区划分后的预测效果都有显著 参考文献: 提升,说明了城市功能区特征在很大程度上影响 [1]GONG Yongshun,LI Zhibin,ZHANG Jian,et al.Net- 着客流量的预测。同时,功能区特征对传统模型 work-wide crowd flow prediction of Sydney trains via ST-ResNet的提升略小,也侧面说明针对多模态特 customized online non-negative matrix factoriza- 征的数据集,ST-SANet更具有优势。 tion[C]//CIKM'18:Proceedings of the 27th ACM Interna- 其次,在分割注意力机制模块的消融实验中, tional Conference on Information and Knowledge Man- 无论是否在多模态数据集下,引入了分割注意力 agement.New York:ACM,2018:1243-1252 机制的ST-SANet模型的预测精度均明显优于传 [2] MA Xiaolei,DAI Zhuang,HE Zhengbing,et al.Learning 统的ST-ResNet模型,并且面对复杂数据集时,模 traffic as images:a deep convolutional neural network for 型精度的提升更为明显,说明分割注意力模块能 large-scale transportation network speed prediction[J]. 够有效提升预测的准确率,同时能够更好的从多 Sensors,2017,17(4:818
从表 2 可以看出,本文提出的 ST-SANet 准确 率明显优于所有的对比方法。含有 12 个残差单 元和分割注意力机制模块的 ST-SANet 优于 DeepST 等传统算法约 22% 以上,优于 RNN 约 40% 以上, 优于 LSTM 约 31% 以上,优于 GRU30% 以上,优 于 ST-ResNet 约 6%。 ST-ANN 和 VAR 也采用了时空数据进行模型 训练,但是性能都不及 ST-SANet 模型,因为它们 只是考虑了较近时间段以及邻近时间段信息。对 于时间序列模型而言,GRU 和 LSTM 的 RMSE 性 能相似,且均优于 RNN,但是都不及 ST-SANet 模 型,其原因在于 GRU 和 LSTM 都能够捕捉较长的 时间依赖性,但不具备提取多元化特征的能力[40]。 3.5 消融实验 3.5.1 消融实验设置 为了验证分割注意力机制模块以及城市功能 区划分对模型的性能影响,本文针对 ST-SANet, 构造了未引入城市功能区特征的消融版模型 STSANetRib,未引入分割注意力机制的消融模型 ST-ResNet,以及未引入分割注意力机制及城市功 能区特征的消融模型 ST-ResNetRib。 3.5.2 消融实验的结果与分析 4 个模型的预测结果如表 3 所示。 表 3 消融实验对比结果 Table 3 Comparison results of ablation experiments 模型框架 RMSE评估指标 ST-ResNet 16.89 ST-ResNetRib 17.11 ST-SANet 14.27 ST-SANetRib 14.51 从消融实验对比结果表中可以看出,首先对 于城市功能区划分的消融实验,无论是改进后形 成的 ST-SANet 模型,还是原始的 ST-ResNet 模 型,引入城市功能区划分后的预测效果都有显著 提升,说明了城市功能区特征在很大程度上影响 着客流量的预测。同时,功能区特征对传统模型 ST-ResNet 的提升略小,也侧面说明针对多模态特 征的数据集,ST-SANet 更具有优势。 其次,在分割注意力机制模块的消融实验中, 无论是否在多模态数据集下,引入了分割注意力 机制的 ST-SANet 模型的预测精度均明显优于传 统的 ST-ResNet 模型,并且面对复杂数据集时,模 型精度的提升更为明显,说明分割注意力模块能 够有效提升预测的准确率,同时能够更好的从多 模态数据集中提取多元化特征。 3.6 实验结论 引入城市功能区属性的数据集,包含了各时 段各区域的客流量变化信息,并且在一定程度上 反映了与区域相关的活动语义。不同的人群活动 会发生在不同的区域,比如“上班”会发生在工作 区,那么引入功能区划分这一特征,就可以提取 各时段不同功能区乘客群体的活动规律,从而提 升模型的预测精度。实验中相同模型下,引入了 城市功能区属性的数据带来的预测结果要优于原 始数据的预测结果。 面对多模态数据集,引入分割注意力机制模 块能够更好地提取多样化的特征。并且人群活动 的成因十分复杂,不同区域、不同类型乘客群体 活动的原因和规律具有明显差异,注意力机制模 块能够动态地分析各种场景的乘客群体活动,挑 选影响程度较高的特征,同时能够更好地捕捉多 模态数据间的潜在关系,这无疑是模型性能提升 的主要原因。 4 结束语 针对城市各区域客流量预测问题,本文将城 市区域的功能属性作为重要特征,采用分割注意 力机制残差网络算法,提取城市中任意两个区域 之间的相互关系;采用包含区域功能属性的历史 时空数据,以及节假日、天气等外部特征数据进 行训练,能够更好地捕捉多模态数据之间的时间 依赖、空间依赖、地区属性依赖以及外部因素的 影响;在真实数据集上与 10 种类似算法进行对 比,结果充分说明了本模型具有更高的准确性。 在未来的工作中,本文将会基于扩张卷积算 法,探究空间上的近距离、远距离数据依赖对于 预测的影响程度,以减轻无效数据对模型性能造 成的负面影响。 参考文献: GONG Yongshun, LI Zhibin, ZHANG Jian, et al. Network-wide crowd flow prediction of Sydney trains via customized online non-negative matrix factorization[C]//CIKM’18: Proceedings of the 27th ACM International Conference on Information and Knowledge Management. New York: ACM, 2018: 1243−1252. [1] MA Xiaolei, DAI Zhuang, HE Zhengbing, et al. Learning traffic as images: a deep convolutional neural network for large-scale transportation network speed prediction[J]. Sensors, 2017, 17(4): 818. [2] ·846· 智 能 系 统 学 报 第 17 卷
第4期 李伯涵,等:基于分割注意力机制残差网络的城市区域客流量预测 ·847· [3]SILVA R,KANG S M,AIROLDI E M.Predicting traffic transactions on intelligent transportation systems,2022. volumes and estimating the effects of shocks in massive 23(5):4695-4705 transportation systems[J].Proceedings of the national [14]MA Jiaman.CHAN J.RAJASEGARAR S.et al.Multi- academy of sciences of the United States of America, attention 3D residual neural network for origin-destina- 2015,112(18):5643-5648. tion crowd flow prediction[C]//2020 IEEE International [4]FLORIO L.MUSSONE L.Neural-network models for Conference on Data Mining.Sorrento:IEEE,2020: classification and forecasting of freeway traffic flow sta- 1160-1165. bility[J].Control engineering practice,1996,4(2): [15]EBRAHIMPOUR,WAN,CERVANTES,et al.Compar- 153-164 ison of main approaches for extracting behavior features [5]XU Yanyan,KONG Qingjie,KLETTE R,et al.Accurate from crowd flow analysis[J].ISPRS international journ- and interpretable Bayesian MARS for traffic flow predic- al of geo-information,2019,8(10):440. tion[J].IEEE transactions on intelligent transportation [16]SMITH B L.DEMETSKY M J.Traffic flow forecast- systems,2014,15(6):2457-2469 ing:comparison of modeling approaches[J].Journal of [6]CHEN Pota,CHEN Feng.QIAN Zhen.Road traffic con- transportation engineering,1997,123(4):261-266. gestion monitoring in social media with hinge-loss [17]BOX G.JENKINS G,REINSEL G.Time series analys- Markov random fields[C]//2014 IEEE International Con- is:forecasting and control.rev.ed[J].Journal of market- ference on Data Mining.Shenzhen:IEEE,2014:80-89. ing research,1977,14(2):269. [7]ZHENG Yu,YI Xiuwen,LI Ming,et al.Forecasting fine- [18]SMITH B L,WILLIAMS B M,KEITH OSWALD R. grained air quality based on big data[C]//Proceedings of Comparison of parametric and nonparametric models for the 21th ACM SIGKDD International Conference on traffic flow forecasting[J].Transportation research part Knowledge Discovery and Data Mining.New York: C:emerging technologies,2002,10(4):303-321. ACM,2015:2267-2276. [19]ZHANG Junbo,ZHENG Yu,QI Dekang.Deep spatio- [8]ZHAO Yi,LI Jianbo,MIAO Xin,et al.Urban crowd flow temporal residual networks for citywide crowd flows forecasting based on cellular network[C]//ACM TURC prediction[J].Proceedings of the AAAI conference on '19:Proceedings of the ACM Turing Celebration Confer- artificial intelligence,2017,31(1):1655-1661. ence-China.New York:ACM.2019:1-5. [20]SONG Xuan,ZHANG Quanshi,SEKIMOTO Y,et al. [9]HE Yuxin,LI Lishuai,ZHU Xinting,et al.Multi-graph Prediction of human emergency behavior and their mo- convolutional-recurrent neural network(MGC-RNN)for bility following large-scale disaster[C]//KDD'14:Pro- short-term forecasting of transit passenger flow[J].IEEE ceedings of the 20th ACM SIGKDD international con- transactions on intelligent transportation systems,PP(99): ference on Knowledge discovery and data mining.New 1-20 York:ACM,2014:5-14 [10]WEI Yu,CHEN Muchen.Forecasting the short-term [21]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. metro passenger flow with empirical mode decomposi- Deep residual learning for image recognition[C]//2016 tion and neural networks[J].Transportation research part IEEE Conference on Computer Vision and Pattern Re- C:emerging technologies,2012,21(1):148-162. [11]LI Yang,WANG Xudong,SUN Shuo,et al.Forecasting cognition.Las Vegas:IEEE,2016:770-778 [22] short-term subway passenger flow under special events CHANDRA S R,AL-DEEK H.Predictions of freeway scenarios using multiscale radial basis function net- traffic speeds and volumes using vector autoregressive works[J].Transportation research part C:emerging tech- models[J].Journal of intelligent transportation systems. nologies,.2017,77:306-328. 2009,13(2):53-72. [12]FU Xiao,YU Guanyi,LIU Zhiyuan.Spatial-temporal [23]QIN Tianxiang,LIU Tong,WU Hexiang,et al.RES- convolutional model for urban crowd density prediction GCN:RESidual graph convolutional network based free based on mobile-phone signaling data[J].IEEE transac- dock prediction in bike sharing system[C]//2020 21st tions on intelligent transportation systems,2021,13(2): IEEE International Conference on Mobile Data Manage- 1-13. ment.Versailles:IEEE,2020:210-217. [13]WANG Senzhang,MIAO Hao,LI Jiyue,et al.Spatio- [24]YAO Huaxiu,WU Fei,KE Jintao,et al.Deep multi- temporal knowledge transfer for urban crowd flow pre- view spatial-temporal network for taxi demand predic- diction via deep attentive adaptation networks[J].IEEE tion[J].Proceedings of the AAAl conference on artifi-
SILVA R, KANG S M, AIROLDI E M. Predicting traffic volumes and estimating the effects of shocks in massive transportation systems[J]. Proceedings of the national academy of sciences of the United States of America, 2015, 112(18): 5643−5648. [3] FLORIO L, MUSSONE L. Neural-network models for classification and forecasting of freeway traffic flow stability[J]. Control engineering practice, 1996, 4(2): 153–164. [4] XU Yanyan, KONG Qingjie, KLETTE R, et al. Accurate and interpretable Bayesian MARS for traffic flow prediction[J]. IEEE transactions on intelligent transportation systems, 2014, 15(6): 2457–2469. [5] CHEN Pota, CHEN Feng, QIAN Zhen. Road traffic congestion monitoring in social media with hinge-loss Markov random fields[C]//2014 IEEE International Conference on Data Mining. Shenzhen: IEEE, 2014: 80−89. [6] ZHENG Yu, YI Xiuwen, LI Ming, et al. Forecasting finegrained air quality based on big data[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 2267−2276. [7] ZHAO Yi, LI Jianbo, MIAO Xin, et al. Urban crowd flow forecasting based on cellular network[C]//ACM TURC '19: Proceedings of the ACM Turing Celebration Conference - China. New York: ACM, 2019: 1−5. [8] HE Yuxin, LI Lishuai, ZHU Xinting, et al. Multi-graph convolutional-recurrent neural network (MGC-RNN) for short-term forecasting of transit passenger flow[J]. IEEE transactions on intelligent transportation systems, PP(99): 1−20. [9] WEI Yu, CHEN Muchen. Forecasting the short-term metro passenger flow with empirical mode decomposition and neural networks[J]. Transportation research part C:emerging technologies, 2012, 21(1): 148–162. [10] LI Yang, WANG Xudong, SUN Shuo, et al. Forecasting short-term subway passenger flow under special events scenarios using multiscale radial basis function networks[J]. Transportation research part C:emerging technologies, 2017, 77: 306–328. [11] FU Xiao, YU Guanyi, LIU Zhiyuan. Spatial-temporal convolutional model for urban crowd density prediction based on mobile-phone signaling data[J]. IEEE transactions on intelligent transportation systems, 2021, 13(2): 1–13. [12] WANG Senzhang, MIAO Hao, LI Jiyue, et al. Spatiotemporal knowledge transfer for urban crowd flow prediction via deep attentive adaptation networks[J]. IEEE [13] transactions on intelligent transportation systems, 2022, 23(5): 4695–4705. MA Jiaman, CHAN J, RAJASEGARAR S, et al. Multiattention 3D residual neural network for origin-destination crowd flow prediction[C]//2020 IEEE International Conference on Data Mining. Sorrento: IEEE, 2020: 1160−1165. [14] EBRAHIMPOUR, WAN, CERVANTES, et al. Comparison of main approaches for extracting behavior features from crowd flow analysis[J]. ISPRS international journal of geo-information, 2019, 8(10): 440. [15] SMITH B L, DEMETSKY M J. Traffic flow forecasting: comparison of modeling approaches[J]. Journal of transportation engineering, 1997, 123(4): 261–266. [16] BOX G, JENKINS G, REINSEL G. Time series analysis: forecasting and control. rev. ed[J]. Journal of marketing research, 1977, 14(2): 269. [17] SMITH B L, WILLIAMS B M, KEITH OSWALD R. Comparison of parametric and nonparametric models for traffic flow forecasting[J]. Transportation research part C:emerging technologies, 2002, 10(4): 303–321. [18] ZHANG Junbo, ZHENG Yu, QI Dekang. Deep spatiotemporal residual networks for citywide crowd flows prediction[J]. Proceedings of the AAAI conference on artificial intelligence, 2017, 31(1): 1655–1661. [19] SONG Xuan, ZHANG Quanshi, SEKIMOTO Y, et al. Prediction of human emergency behavior and their mobility following large-scale disaster[C]//KDD’14: Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM, 2014: 5−14. [20] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770−778. [21] CHANDRA S R, AL-DEEK H. Predictions of freeway traffic speeds and volumes using vector autoregressive models[J]. Journal of intelligent transportation systems, 2009, 13(2): 53–72. [22] QIN Tianxiang, LIU Tong, WU Hexiang, et al. RESGCN: RESidual graph convolutional network based free dock prediction in bike sharing system[C]//2020 21st IEEE International Conference on Mobile Data Management. Versailles: IEEE, 2020: 210−217. [23] YAO Huaxiu, WU Fei, KE Jintao, et al. Deep multiview spatial-temporal network for taxi demand prediction[J]. Proceedings of the AAAI conference on artifi- [24] 第 4 期 李伯涵,等:基于分割注意力机制残差网络的城市区域客流量预测 ·847·
·848· 智能系统学报 第17卷 cial intelligence,2018,32(1). [35]ZHANG G P.Time series forecasting using a hybrid [25]ZHANG HANG.WU CHONGRUO.ZHANG ZHONG ARIMA and neural network model[J].Neurocomputing. YUE,et al.ResNeSt:split-attention networks[EB/OL]. 2003,50:159-175. (2020-04-30)[2022-02-20].https://www.researchgate. [36]ZHANG G P,QI Min.Neural network forecasting for net/publication/340805846 resnest split-attention net- seasonal and trend time series[J].European journal of works. operational research,2005,160(2):501-514. [26]XIE Saining,GIRSHICK R,DOLLAR P,et al.Aggreg- [37]ZAREMBA W,SUTSKEVER I,VINYALS O.Recur- ated residual transformations for deep neural networks rent neural network regularization[EB/OL].(2014- [C]//2017 IEEE Conference on Computer Vision and 09-08)[2022-02-20].https:/arxiv,org/abs/1409.2329 Pattern Recognition.Honolulu:IEEE,2017:5987-5995. [38]HOCHREITER S,SCHMIDHUBER J.Long short-term [27]YAMAMOTO M,SATO A,KAWADA S,et al.Incre- memory[J].Neural computation,1997,9(8):1735-1780. mental tracking of human actions from multiple [39]CHO K.VAN MERRIENBOER B.GULCEHRE C.et views[C]//Proceedings of 1998 IEEE Computer Society al.Learning phrase representations using RNN encoder- Conference on Computer Vision and Pattern Recogni- decoder for statistical machine translation[EB/OL]. tion.Santa Barbara:IEEE,1998:2-7. (2014-06-03)[2022-02-201.https:/∥arxiv.org/abs/ [28]LECUN Y A,BOTTOU L,ORR G B,et al.Efficient 1406.1078 BackProp[MV/Lecture Notes in Computer Science.Ber- [40]DOUGHERTY M S,COBBETT M R.Short-term inter- lin:Springer Berlin Heidelberg,2012:9-48 urban traffic forecasts using neural networks[J].Interna- [29]LI Xiang,WANG Wenhai,HU Xiaolin,et al.Selective tional journal of forecasting,1997,13(1):21-31. kernel networks[C]//2019 IEEE/CVF Conference on 作者简介: Computer Vision and Pattern Recognition.Long Beach: 李伯涵,硕士研究生,主要研究方 IEEE.2019:510-519 向为深度学习、智慧城市、时间序列 [30]LI Yexin,ZHENG Yu,ZHANG Huichu,et al.Traffic 数据。 prediction in a bike-sharing system[C]//SIGSPATIAL '15:Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems.New York:ACM,2015:1-10. [31]WANG Xiaolong,GIRSHICK R,GUPTA A,et al.Non- 郭茂祖,教授,博士,博士生导师 北京建筑大学电气与信息工程学院院 local neural networks[C]//2018 IEEE/CVF Conference 长,“建筑大数据智能处理方法研究 on Computer Vision and Pattern Recognition.Salt Lake 北京市重点实验室主任,中国人工智 City:IEEE.2018:7794-7803. 能学会机器学习专委会常委、中国建 [32]ZHANG Junbo,.ZHENG Yu,.QI Dekang.北京出租车 筑学会计算机性设计学术委员会常 数据集[EB/OL].[2022-02-20].https:/∥gitee.com/ar- 委、中国计算机学会生物信息学专委 islee/taxi-bi. 会副主任,主要研究方向为机器学习、智慧城市、计算生物学 [33]LI Bohan.ST-SANet算法代码[EB/OL].[2022-02-20] 等。2019年以第一完成人获吴文俊人工智能自然科学二等 奖。发表学术论文300余篇。 https://gitee.com/arislee/st-sanet -code.git [34]ZHANG Junbo,ZHENG Yu,QI Dekang,et al.DNN- 赵玲玲,副教授,中国计算机学会 based prediction model for spatio-temporal data[C]// 生物信息学专委会委员,中国建筑学 会计算性设计专委会委员,主要研究 SIGSPACIAL'16:Proceedings of the 24th ACM SIG- 方向为机器学习、城市计算、生物信息 SPATIAL International Conference on Advances in 学。主持和参与国家自然科学基金青 Geographic Information Systems.New York:ACM, 年基金、面上项目、重点项目8项。发 2016:1-4 表学术论文40余篇
cial intelligence, 2018, 32(1). ZHANG HANG, WU CHONGRUO, ZHANG ZHONG YUE, et al. ResNeSt: split-attention networks[EB/OL]. (2020−04−30)[2022−02−20]. https://www.researchgate. net/publication/340805846_resnest_split-attention_networks. [25] XIE Saining, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5987−5995. [26] YAMAMOTO M, SATO A, KAWADA S, et al. Incremental tracking of human actions from multiple views[C]//Proceedings of 1998 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Santa Barbara: IEEE, 1998: 2−7. [27] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient BackProp[M]//Lecture Notes in Computer Science. Berlin: Springer Berlin Heidelberg, 2012: 9−48. [28] LI Xiang, WANG Wenhai, HU Xiaolin, et al. Selective kernel networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 510−519. [29] LI Yexin, ZHENG Yu, ZHANG Huichu, et al. Traffic prediction in a bike-sharing system[C]//SIGSPATIAL '15: Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2015: 1−10. [30] WANG Xiaolong, GIRSHICK R, GUPTA A, et al. Nonlocal neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7794−7803. [31] ZHANG Junbo, ZHENG Yu, QI Dekang. 北京出租车 数据集 [EB/OL].[2022−02−20]. https://gitee.com/arislee/taxi-bj. [32] LI Bohan. ST-SANet 算法代码 [EB/OL].[2022−02−20]. https://gitee.com/arislee/st-sanet_-code.git [33] ZHANG Junbo, ZHENG Yu, QI Dekang, et al. DNNbased prediction model for spatio-temporal data[C]// SIGSPACIAL’16: Proceedings of the 24th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2016: 1−4. [34] ZHANG G P. Time series forecasting using a hybrid ARIMA and neural network model[J]. Neurocomputing, 2003, 50: 159–175. [35] ZHANG G P, QI Min. Neural network forecasting for seasonal and trend time series[J]. European journal of operational research, 2005, 160(2): 501–514. [36] ZAREMBA W, SUTSKEVER I, VINYALS O. Recurrent neural network regularization[EB/OL]. (2014− 09−08)[2022−02−20]. https: //arxiv. org/abs/1409.2329. [37] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [38] CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoderdecoder for statistical machine translation[EB/OL]. (2014−06−03)[2022−02−20]. https: //arxiv. org/abs/ 1406.1078. [39] DOUGHERTY M S, COBBETT M R. Short-term interurban traffic forecasts using neural networks[J]. International journal of forecasting, 1997, 13(1): 21–31. [40] 作者简介: 李伯涵,硕士研究生,主要研究方 向为深度学习、智慧城市、时间序列 数据。 郭茂祖,教授,博士,博士生导师, 北京建筑大学电气与信息工程学院院 长,“建筑大数据智能处理方法研究” 北京市重点实验室主任,中国人工智 能学会机器学习专委会常委、中国建 筑学会计算机性设计学术委员会常 委、中国计算机学会生物信息学专委 会副主任,主要研究方向为机器学习、智慧城市、计算生物学 等。2019 年以第一完成人获吴文俊人工智能自然科学二等 奖。发表学术论文 300 余篇。 赵玲玲,副教授,中国计算机学会 生物信息学专委会委员,中国建筑学 会计算性设计专委会委员,主要研究 方向为机器学习、城市计算、生物信息 学。主持和参与国家自然科学基金青 年基金、面上项目、重点项目 8 项。发 表学术论文 40 余篇。 ·848· 智 能 系 统 学 报 第 17 卷