第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0:10.11992tis.202008037 新冠肺炎疫情趋势预测模型 甘雨,吴雨,王建勇 (四川大学计算机学院,四川成都610065) 摘要:2019年新型冠状病毒肺炎(corona virus disease2019,COVID-19)的爆发对人们的健康和生活造成了极大的危 害和影响。预测疫情的发展趋势可帮助人们提前制定应对措施。SEI模型是经典的传染病模型之一,由于该模 型中病毒传染率为常数,难以对新冠肺炎传播情况进行准确建模并完成疫情趋势预测。针对此问题,本文提出基 于长短期记忆网络(long short-term memory,LSTM)的病毒传染率预测方法,并将其与SEIR模型结合,建立新冠肺 炎疫情趋势预测模型(LSTM-SEIR network,LS-Net)。为了验证本文提出的方法,收集了国内多个省市官方公布的 疫情数据进行实验。实验结果表明,本文提出的LS-Nt可对疫情发展趋势进行有效预测,并优于传统SEIR模型。 关键词:新型冠状病毒;SEI模型;长短期记忆网络;智能系统;预测模型;实时预测;神经网络;深度学习 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2021)03-0528-09 中文引用格式:甘雨,吴雨,王建勇.新冠肺炎疫情趋势预测模型.智能系统学报,2021,16(3):528-536. 英文引用格式:GAN Yu,.WUYu,WANG Jianyong.Epidemics trend prediction model of COVID-lJ.CAAI transactions on in telligent systems,2021,16(3):528-536. Epidemics trend prediction model of COVID-19 GAN Yu,WU Yu,WANG Jianyong (College of Computer Science,Sichuan University,Chengdu 610065,China) Abstract:The outbreak of coronavirus disease 2019(COVID-19)has threatened and brought a serious impact on the health and daily life of people.If people are warned beforehand about the speed of the disease,they are able to take ne- cessary preventive measures.As one of the most classical epidemic models,the SEIR model can hardly model the spread of COVID-19 and predict its trend because the rate of transmission is constant,which is one of the required para- meters of the SEIR model.Aiming at this problem,a dynamic prediction method of the rate of transmission is derived based on long short-term memory(LSTM).An LSTM-SEIR network(LS-Net)is then proposed based on the LSTM and SEIR models to predict the trend of the COVID-19 epidemic.To validate the LS-Net,official epidemiological data re- leased from different domestic areas are collected.The experimental results show that LS-Net can predict the spread of COVID-19 validly and with better performance compared with that of the traditional SEIR model. Keywords:COVID-19;SEIR model;LSTM;intelligent systems;prediction model;real time prediction;neural net- works;deep learning 2019年12月,新型冠状病毒肺炎疫情 2020年1月31日,世界卫生组织宣布C0VID- (corona virus disease2019,COVID-19)在中国湖北 19疫情构成“国际关注的突发公共卫生事件”,后 省武汉市爆发。新型冠状病毒传染速度极快,短 于当地时间2020年3月11日宣布C0VD-19疫 时间内即造成多人感染。为控制疫情,武汉市于 情成为全球大流行。一时之间,疫情的发展趋势 2020年1月23日实施封城管理,此后全国多个省 成为全国乃至世界人民共同关注的问题。通过对 市相继启动突发公共卫生事件【级响应机制。 疫情发展趋势的有效预测可对人们提前制定应对 措施提供帮助。从疫情爆发初期开始,世界范围 收稿日期:2020-08-31. 基金项目:国家自然科学基金青年基金项目(61906127). 内就有诸多学者对疫情情况进行了预测。 通信作者:王建勇.E-mail:wWy@scu.edu.cn SR模型和SEIR模型s刀都是常用的传染
DOI: 10.11992/tis.202008037 新冠肺炎疫情趋势预测模型 甘雨,吴雨,王建勇 (四川大学 计算机学院,四川 成都 610065) 摘 要:2019 年新型冠状病毒肺炎 (corona virus disease 2019,COVID-19) 的爆发对人们的健康和生活造成了极大的危 害和影响。预测疫情的发展趋势可帮助人们提前制定应对措施。SEIR 模型是经典的传染病模型之一,由于该模 型中病毒传染率为常数,难以对新冠肺炎传播情况进行准确建模并完成疫情趋势预测。针对此问题,本文提出基 于长短期记忆网络 (long short-term memory,LSTM) 的病毒传染率预测方法,并将其与 SEIR 模型结合,建立新冠肺 炎疫情趋势预测模型 (LSTM-SEIR network, LS-Net)。为了验证本文提出的方法,收集了国内多个省市官方公布的 疫情数据进行实验。实验结果表明,本文提出的 LS-Net 可对疫情发展趋势进行有效预测,并优于传统 SEIR 模型。 关键词:新型冠状病毒;SEIR 模型;长短期记忆网络;智能系统;预测模型;实时预测;神经网络;深度学习 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2021)03−0528−09 中文引用格式:甘雨, 吴雨, 王建勇. 新冠肺炎疫情趋势预测模型 [J]. 智能系统学报, 2021, 16(3): 528–536. 英文引用格式:GAN Yu, WU Yu, WANG Jianyong. Epidemics trend prediction model of COVID-19[J]. CAAI transactions on intelligent systems, 2021, 16(3): 528–536. Epidemics trend prediction model of COVID-19 GAN Yu,WU Yu,WANG Jianyong (College of Computer Science, Sichuan University, Chengdu 610065, China) Abstract: The outbreak of coronavirus disease 2019 (COVID-19) has threatened and brought a serious impact on the health and daily life of people. If people are warned beforehand about the speed of the disease, they are able to take necessary preventive measures. As one of the most classical epidemic models, the SEIR model can hardly model the spread of COVID-19 and predict its trend because the rate of transmission is constant, which is one of the required parameters of the SEIR model. Aiming at this problem, a dynamic prediction method of the rate of transmission is derived based on long short-term memory (LSTM). An LSTM-SEIR network (LS-Net) is then proposed based on the LSTM and SEIR models to predict the trend of the COVID-19 epidemic. To validate the LS-Net, official epidemiological data released from different domestic areas are collected. The experimental results show that LS-Net can predict the spread of COVID-19 validly and with better performance compared with that of the traditional SEIR model. Keywords: COVID-19; SEIR model; LSTM; intelligent systems; prediction model; real time prediction; neural networks; deep learning 201 9 年 1 2 月,新型冠状病毒肺炎疫 情 (corona virus disease 2019, COVID-19) 在中国湖北 省武汉市爆发。新型冠状病毒传染速度极快,短 时间内即造成多人感染。为控制疫情,武汉市于 2020 年 1 月 23 日实施封城管理,此后全国多个省 市相继启动突发公共卫生事件Ⅰ级响应机制。 2020 年 1 月 31 日,世界卫生组织宣布 COVID- 19 疫情构成“国际关注的突发公共卫生事件”,后 于当地时间 2020 年 3 月 11 日宣布 COVID-19 疫 情成为全球大流行。一时之间,疫情的发展趋势 成为全国乃至世界人民共同关注的问题。通过对 疫情发展趋势的有效预测可对人们提前制定应对 措施提供帮助。从疫情爆发初期开始,世界范围 内就有诸多学者对疫情情况进行了预测[1-3]。 SIR 模型[4-5] 和 SEIR 模型[6-7] 都是常用的传染 收稿日期:2020−08−31. 基金项目:国家自然科学基金青年基金项目 (61906127). 通信作者:王建勇. E-mail:wjy@scu.edu.cn. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
第3期 甘雨,等:新冠肺炎疫情趋势预测模型 ·529· 病模型,被用来对传染病传播情况进行模拟和预 1 基于传统SEIR模型的疫情趋势预 测。文献[8]使用SEIR模型对武汉当时的疫情规 测模型 模以及武汉和全国其余地区的疫情峰值进行了预 测。文献[9]考虑到人口的流动情况,对SEIR模 1.1传染病传播模型一SEIR 型进行改进,使用改进后的模型对国内疫情趋势 SER模型是经典的传染病模型,它将人群分 进行预测。文献[10]使用基于年龄的SEIR模型 为4类:易感者(susceptible),健康但有可能感染 对美国的疫情感染人数和死亡人数进行了预测。 病毒的人,总人数为S;潜伏者(exposed),已感染 传统SIR模型和SEIR模型的局限性在于模型参 病毒但仍未出现病症的人,总人数为E:感染者 数都是常数,无法随着现实世界中真实情况的变 (infected),已感染病毒并出现病症的确诊患者,总 化而改变。在以往的工作中,模型参数的计算通 人数为L;移除者(removed),感染病毒后因病死亡 常需要人为划分时间段,使用不同时间段的数据 或成功治愈的人,总人数为R。在COVID-19疫 进行分段计算,以实现动态预测。针对此问题, 情中,SEIR模型中4类人群的转化关系如图1所 文献]基于启发式算法回,对SER模型中的参 示,图中,B:为潜伏者将病毒传染给易感者的概 数不断进行随机采样并通过均方根误差最小的约 率,B2为感染者将病毒传染给易感者的概率,α为 束原则,获得参数的最优解,从而对武汉的疫情 潜伏者转化为感染者的概率,y为感染者转化为 拐点进行预测。文献[13]则在SIR模型的基础 移除者的概率。SER的动力学方程为 上,将模型与机器学习中的极限学习机]相结 ds biSE b2SI dt N 合,提出了极限R模型,将疫情发展趋势预测模 N dE bSE b2SI 型的构建转化为对模型参数预测模型的构建,对 dt N N -aE 全国疫情趋势进行了预测。 (1) d/ =aE-gl 近年来随着深度学习的不断发展,其以优秀 drt dR 的实验性能在多个领域中脱颖而出,包括计算机 =g/ 视觉领域1s1刃、自然语言处理领域18-201和语音识 别领域2121等。在时序预测问题中,最常见的神 式中:1为时间步长;N=S+E++R为人群总数。 经网络是循环神经网络4.2((recurrent neural net- B wok,RNN)。RNN可学习到历史输人与当前输入 的关联信息,从而进行时序预测。但当时间序列 过长时,传统RNN容易出现梯度消失现象,无法 处理具有长期依赖关系的问题。为解决这一问 题,出现了长短期记忆网络26-2((long short-term memory network,LSTM)。在此次疫情中,疫情的 变化和发展会受到前期各项措施的影响,因此疫 图1SEIR模型 Fig.1 SEIR model 情趋势预测可看作具有长期依赖关系的时序预测 问题。文献[11]除使用改进后的SEIR模型之 1.2 病毒传染率B1、B2的计算方法 外,也使用了LSTM对疫情的发展趋势进行模拟 根据文献[11],B,和B2由式(2)计算得到: 和预测。 B1=kib (2) 本文将疫情趋势预测看作一个长期且动态变 B2=kab 化的时序预测问题,受文献[11,13]启发,借助传 式中:k1、k2分别为平均每潜伏者和每感染者每天 统SEIR模型的数学方法与人工智能方法在时序 接触的人数;b为病毒的传播率,可由SR模型计 预测问题上的优越性,从SEIR模型参数入手,针 算得到。SIR模型与SEIR模型类似,其将人群分 为易感者、感染者、移除者3类,在SIR模型中, 对新冠病毒的传播特点,提出了基于LSTM的病 病毒传染初期由于感染人数较少,所以N≈S,则 毒传染率预测方法,并将其与SEIR模型结合,提 dI BSI 出新冠肺炎疫情趋势预测模型(LSTM-SEIR net- d=N-W≈(B-y1 (3) work,LS-Net)。LS-Net借助LSTM优良的时序信 由式(3)可得: 息学习能力对病毒传染率进行实时预测。最后将 I(i)=exp[kb-y)☑ (4) 实时更新的病毒传染率应用到SEIR模型中,实 由式(4)可计算出b,将其代入式(2)即可计 现对疫情发展趋势的智能动态预测。 算出SEIR模型中的B,和B2
病模型,被用来对传染病传播情况进行模拟和预 测。文献 [8] 使用 SEIR 模型对武汉当时的疫情规 模以及武汉和全国其余地区的疫情峰值进行了预 测。文献 [9] 考虑到人口的流动情况,对 SEIR 模 型进行改进,使用改进后的模型对国内疫情趋势 进行预测。文献 [10] 使用基于年龄的 SEIR 模型 对美国的疫情感染人数和死亡人数进行了预测。 传统 SIR 模型和 SEIR 模型的局限性在于模型参 数都是常数,无法随着现实世界中真实情况的变 化而改变。在以往的工作中,模型参数的计算通 常需要人为划分时间段,使用不同时间段的数据 进行分段计算,以实现动态预测。针对此问题, 文献 [11] 基于启发式算法[12] ,对 SEIR 模型中的参 数不断进行随机采样并通过均方根误差最小的约 束原则,获得参数的最优解,从而对武汉的疫情 拐点进行预测。文献 [13] 则在 SIR 模型的基础 上,将模型与机器学习中的极限学习机[14] 相结 合,提出了极限 IR 模型,将疫情发展趋势预测模 型的构建转化为对模型参数预测模型的构建,对 全国疫情趋势进行了预测。 近年来随着深度学习的不断发展,其以优秀 的实验性能在多个领域中脱颖而出,包括计算机 视觉领域[15-17] 、自然语言处理领域[18-20] 和语音识 别领域[21-23] 等。在时序预测问题中,最常见的神 经网络是循环神经网络[24-25] (recurrent neural network, RNN)。RNN 可学习到历史输入与当前输入 的关联信息,从而进行时序预测。但当时间序列 过长时,传统 RNN 容易出现梯度消失现象,无法 处理具有长期依赖关系的问题。为解决这一问 题,出现了长短期记忆网络[26-27] (long short-term memory network, LSTM)。在此次疫情中,疫情的 变化和发展会受到前期各项措施的影响,因此疫 情趋势预测可看作具有长期依赖关系的时序预测 问题。文献 [11] 除使用改进后的 SEIR 模型之 外,也使用了 LSTM 对疫情的发展趋势进行模拟 和预测。 本文将疫情趋势预测看作一个长期且动态变 化的时序预测问题,受文献 [11, 13] 启发,借助传 统 SEIR 模型的数学方法与人工智能方法在时序 预测问题上的优越性,从 SEIR 模型参数入手,针 对新冠病毒的传播特点,提出了基于 LSTM 的病 毒传染率预测方法,并将其与 SEIR 模型结合,提 出新冠肺炎疫情趋势预测模型 (LSTM-SEIR network, LS-Net)。LS-Net 借助 LSTM 优良的时序信 息学习能力对病毒传染率进行实时预测。最后将 实时更新的病毒传染率应用到 SEIR 模型中,实 现对疫情发展趋势的智能动态预测。 1 基于传统 SEIR 模型的疫情趋势预 测模型 1.1 传染病传播模型−SEIR β1 β2 α γ SEIR 模型是经典的传染病模型,它将人群分 为 4 类:易感者 (susceptible),健康但有可能感染 病毒的人,总人数为 S;潜伏者 (exposed),已感染 病毒但仍未出现病症的人,总人数为 E;感染者 (infected),已感染病毒并出现病症的确诊患者,总 人数为 I;移除者 (removed),感染病毒后因病死亡 或成功治愈的人,总人数为 R。在 COVID-19 疫 情中,SEIR 模型中 4 类人群的转化关系如图 1 所 示,图中, 为潜伏者将病毒传染给易感者的概 率, 为感染者将病毒传染给易感者的概率, 为 潜伏者转化为感染者的概率, 为感染者转化为 移除者的概率。SEIR 的动力学方程为 dS dt = − b1S E N − b2S I N dE dt = b1S E N + b2S I N −aE dI dt = aE −gI dR dt = gI (1) 式中:t 为时间步长;N=S+E+I+R 为人群总数。 β2 β1 S E I R α γ 图 1 SEIR 模型 Fig. 1 SEIR model 1.2 病毒传染率 β1、β2 的计算方法 根据文献 [11],β1 和 β2 由式 (2) 计算得到: { β1 = k1b β2 = k2b (2) k1 k2 b N ≈ S 式中: 、 分别为平均每潜伏者和每感染者每天 接触的人数; 为病毒的传播率,可由 SIR 模型计 算得到。SIR 模型与 SEIR 模型类似,其将人群分 为易感者、感染者、移除者 3 类,在 SIR 模型中, 病毒传染初期由于感染人数较少,所以 , 则 dI dt = βS I N −γI ≈ (β−γ)I (3) 由式 (3) 可得: I(t) = exp[(kb−γ)I] (4) b β1 β2 由式 (4) 可计算出 ,将其代入式 (2) 即可计 算出 SEIR 模型中的 和 。 第 3 期 甘雨,等:新冠肺炎疫情趋势预测模型 ·529·
·530· 智能系统学报 第16卷 在传统SEIR模型中,B,和B2常是由数据统计 情况的问题,本文基于LSTM和SEIR模型提出 得出的常数。而在现实情下,病毒的传染能力很大 LS-Neto 程度上会受到外界的影响,所以B,和B2应是不断变 2.1LS-Net的网络结构与数学模型 化的。且在上述方法中,B,和B2均由SR模型计算 LS-Net的总体结构如图2所示,其包括2个 得出,没有考虑到潜伏期患者的病毒传染情况。 模块:病毒传染率预测模块和疫情趋势预测模 2 新冠肺炎疫情趋势预测模型— 块。病毒传染率预测模块包括LSTM层、全连接 LS-Net 层(fully connection layer,.FC)和非线性变换层,实 现对新冠病毒传染率B,和B,的预测。疫情趋势 针对传统SEIR模型中的病毒传染率无法实 预测模块包括SEIR模型层,实现对新冠疫情趋 现自动动态预测和没有考虑到潜伏期患者的传染 势的预测。 输出 P(E) P() P(R) 疫情 趋势 测 SEIR 模块 传染率 FC (SoftPlus) 块 LSTM 输人 图2 LS-Net总体结构 Fig.2 Framework of the long short-term memory SEIR network 2.11病毒传染率预测模块 出门o。LSTM更新过程如式(⑤)所示: 病毒传染率后期的变化与疫情前期的防控和 (in s(WiX:+ba+Wmh-1+bu) 诊治措施息息相关,因此病毒传染率的预测需要 fi=s(WirX:+bis Whyh:-1+bht) 结合历史信息与当前信息共同分析得出。病毒传 C=s(WiX:+bi+Whch-1+bht) (5) 染率预测模块以LSTM为基础,结合病毒的传播 O:=s(WiaX:+bi+Whoh-1+bho) 规律对传染率进行预测。为更好地学习到时序数 C=ficm1+ic 据间的关联信息,LS-Net使用3天的潜伏期、感 h =o:tanh(c) 染者、移除者数量作为输入。 式中:X,为1时刻的输人。 LSTM可学习并生成包含历史信息与当前信 将h,输出的包含时序信息的特征输入到 息的数据,其包含3类门:输入门、遗忘门、输 FC层。FC层计算过程如式(6)所示:
β1 β2 β1 β2 β1 β2 在传统 SEIR 模型中, 和 常是由数据统计 得出的常数。而在现实情下,病毒的传染能力很大 程度上会受到外界的影响,所以 和 应是不断变 化的。且在上述方法中, 和 均由 SIR 模型计算 得出,没有考虑到潜伏期患者的病毒传染情况。 2 新冠肺炎疫情趋势预测模型− LS-Net 针对传统 SEIR 模型中的病毒传染率无法实 现自动动态预测和没有考虑到潜伏期患者的传染 情况的问题,本文基于 LSTM 和 SEIR 模型提出 LS-Net。 2.1 LS-Net 的网络结构与数学模型 β1 β2 LS-Net 的总体结构如图 2 所示,其包括 2 个 模块:病毒传染率预测模块和疫情趋势预测模 块。病毒传染率预测模块包括 LSTM 层、全连接 层 (fully connection layer,FC) 和非线性变换层,实 现对新冠病毒传染率 和 的预测。疫情趋势 预测模块包括 SEIR 模型层,实现对新冠疫情趋 势的预测。 …… 输入 LSTM 输出 SEIR 疫情 趋势 预测 模块 病 毒 传 染 率 预 测 模 块 FC (SoftPlus) Yt Ct Xt Et It Rt at kt β1t β2t P(Et+1) Et−2 It−2 Rt−2 Et−1 It−1 Rt−1 P(It+1) P(Rt+1) S E I R α γ 图 2 LS-Net 总体结构 Fig. 2 Framework of the long short-term memory SEIR network 2.1.1 病毒传染率预测模块 病毒传染率后期的变化与疫情前期的防控和 诊治措施息息相关,因此病毒传染率的预测需要 结合历史信息与当前信息共同分析得出。病毒传 染率预测模块以 LSTM 为基础,结合病毒的传播 规律对传染率进行预测。为更好地学习到时序数 据间的关联信息,LS-Net 使用 3 天的潜伏期、感 染者、移除者数量作为输入。 it ft LSTM 可学习并生成包含历史信息与当前信 息的数据,其包含 3 类门:输入门 、遗忘门 、输 出门 ot。LSTM 更新过程如式 (5) 所示: it = s(WiiXt +bii +Whiht−1 +bhi) ft = s(Wi f Xt +bi f + Wh f ht−1 +bh f) c˜t = s(Wic˜Xt +bic˜ + Whc˜ht−1 +bhc˜) ot = s(WioXt +bio + Whoht−1 +bho) ct = ftct−1 +itc˜t ht = ot tanh(ct) (5) 式中: Xt 为 t 时刻的输入。 将 ht 输出的包含时序信息的特征输入 到 FC 层。FC 层计算过程如式 (6) 所示: ·530· 智 能 系 统 学 报 第 16 卷
第3期 甘雨,等:新冠肺炎疫情趋势预测模型 ·531· (C,=lg(1+exp(Wch)) 模型训练流程如图3所示。该训练算法见算 a,Ig(1+exp(Wah,)) (6) 法1。 k:Ig(1 +exp(Wih,)) 开始 式中:C、a,、k均为预测t时刻B,和B2的控制参数。 随着政府和社会管控力度以及人们自身防控 a←7、7←i4、epoch.-5000 意识的不断增强,B1、B2会逐渐下滑,且后期B、B2 相较前期会大幅下降。由于确诊患者会被严密地 隔离起来并进行医治,与之接触的医护人员也会 训练次数←-0 采取完备的防护措施,而潜伏期患者相对行动更 加自由,所以实际上确诊患者的病毒传播能力相 训练次数≤epoch 较于潜伏期患者更弱。据此本文为新冠病毒传染 创建了式(7)所示的非线性变换函数,由此计算 得到B,和B2。 输入X的合集X Bi,=C:exp (7 对X内的每一个X,由式(5) B2=kB1 (6)、(7)计算得出B、B 2.12疫情趋势预测模块 该模块由1.1节所述的SEIR模型构成。 由式(8)预测y, SEIR层具有参数S、α和Y,结合病毒传染率预测 模块得到的B,和B2.及输人数据E,、I、R对类数 输出Y,的集合Y 据进行预测。其计算过程为 PS41=S,-BSE_BS山 由式(9)计算Loss N N P(E)=E+B-E N (8) 根据Loss更新网络 P(D1=I:+aE:-yl P(R)1=R:+yl 训练次数++ 式中:P(S)41、P(E)1、P(D4I、P(R)41分别为第1+1 天易感者、潜伏者、感染者和移除者数量的预测值。 结束 2.2模型训练算法 LS-Net训练时使用前3天的数据预测第4天 图3训练算法流程 Fig.3 Training algorithm flow 的数据,并使用平均平方误差(mean square error, 算法1模型训练 MSE)作为损失函数。由于现实中感染者和移除 输入训练集样本X=(X2,…,X,…,X},其 者的数据更易收集,且人们对感染者情况更关 注,本文在训练时给3类数据的MSE分配了不同 中X={E-2,l-2,R-2,E-1,l-1,R-1,E,l,Rl,te[2,T]; 的权重。具体如式(9)所示: 输出模型预测结果Y=Y2,Y,…,Y,其中 Loss =0.1MSEE +0.5MSE,+0.4MSER Yy={E41,4,R4i,t∈[2,T]o MSE-(E-PCE)F 参数epoch:训练的总次数。 I)While训练次数≤epoch do MSE-PU) (9) 2)for each X,∈Xdo 3)由式(5)、(6)(7)计算病毒传染率B,、B2 MSEOy 1 4)由式(8)计算新冠肺炎疫情趋势Y, 5)End for 式中:MSEE、MSE、MSER分别为由潜伏者、感染 6)由式(9)计算L0ss 者、移除者的真实值和预测值计算得到的MSE; 7)根据Loss更新LSTM参数 E、I,、R,为真实值;P(E)、P(I)、PR),为预测值。 9)End while
Ct = lg(1+exp(WCht)) at = lg(1+exp(Waht)) kt = lg(1+exp(Wkht)) (6) Ct at kt 式中: 、 、 均为预测 t 时刻 β1 和 β2 的控制参数。 β1 β2 β1 β2 β1 β2 随着政府和社会管控力度以及人们自身防控 意识的不断增强, 、 会逐渐下滑,且后期 、 相较前期会大幅下降。由于确诊患者会被严密地 隔离起来并进行医治,与之接触的医护人员也会 采取完备的防护措施,而潜伏期患者相对行动更 加自由,所以实际上确诊患者的病毒传播能力相 较于潜伏期患者更弱。据此本文为新冠病毒传染 创建了式 (7) 所示的非线性变换函数,由此计算 得到 和 。 β1t = Ct exp( − 1 at ) β2t = ktβ1t (7) 2.1.2 疫情趋势预测模块 α γ β1t β2t Et It Rt 该模块 由 1 . 1 节所述 的 SEIR 模型构成。 SEIR 层具有参数 S、 和 ,结合病毒传染率预测 模块得到的 和 及输入数据 、 、 对类数 据进行预测。其计算过程为 P(S )t+1 = S t − β1tS tEt N − β2tS tIt N P(E)t+1 = Et + β1tS tEt N + β2tS tIt N −αEt P(I)t+1 = It +αEt −γIt P(R)t+1 = Rt +γIt (8) 式中: P(S )t+1、P(E)t+1、P(I)t+1、P(R)t+1 分别为第 t+1 天易感者、潜伏者、感染者和移除者数量的预测值。 2.2 模型训练算法 LS-Net 训练时使用前 3 天的数据预测第 4 天 的数据,并使用平均平方误差 (mean square error, MSE) 作为损失函数。由于现实中感染者和移除 者的数据更易收集,且人们对感染者情况更关 注,本文在训练时给 3 类数据的 MSE 分配了不同 的权重。具体如式 (9) 所示: Loss = 0.1MSEE +0.5MSEI +0.4MSER MSEE = 1 T ∑T t=1 (Et − P(E)t ) 2 MSEI = 1 T ∑T t=1 (It − P(I)t ) 2 MSER = 1 T ∑T t=1 (Rt − P(R)t ) 2 (9) MSEE MSEI MSER Et It Rt P(E)t P(I)t P(R)t 式中: 、 、 分别为由潜伏者、感染 者、移除者的真实值和预测值计算得到的 MSE; 、 、 为真实值; 、 、 为预测值。 模型训练流程如图 3 所示。该训练算法见算 法 1。 开始 Y N 训练次数←0 训练次数≤epoch 输入 Xt 的合集 X 对 X 内的每一个 Xt , 由式 (5)、 (6)、(7) 计算得出 β1t、β2t 由式 (8) 预测 Yt 输出 Yt 的集合 Y 由式 (9) 计算 Loss 根据 Loss 更新网络 训练次数 ++ 结束 α← 、 、 epoch← 5 000 1 7 γ ← 1 14 图 3 训练算法流程 Fig. 3 Training algorithm flow 算法 1 模型训练 X = {X2,··· ,Xt ,··· ,XT } Xt = {Et−2,It−2,Rt−2,Et−1,It−1,Rt−1,Et ,It ,Rt} t ∈ [2,T] 输入 训练集样本 ,其 中 , ; Y = {Y2,Y3,··· ,Yt} Yt = {Et+1,It+1,Rt+1} t ∈ [2,T] 输出 模型预测结果 ,其中 , 。 参数 epoch:训练的总次数。 1) While 训练次数 ⩽ epoch do 2) for each Xt ∈ X do 3 β1t β2t ) 由式 (5)、(6)、(7) 计算病毒传染率 、 4) 由式 (8) 计算新冠肺炎疫情趋势 Yt 5) End for 6) 由式 (9) 计算 Loss 7) 根据 Loss 更新 LSTM 参数 9)End while 第 3 期 甘雨,等:新冠肺炎疫情趋势预测模型 ·531·
·532· 智能系统学报 第16卷 2.3模型测试算法 6)End while LS-Net测试时同样使用前3天的数据预测第 4天的数据。但由于疫情趋势预测是对疫情在未 3实验及结果 来较长时间段内的发展趋势进行预测,而当下无 为验证LS-Net的效果,本文使用Pytorch深 法获得未来时间下的E、I、R具体数据,因此本文 度学习框架和Python语言搭建预测模型。Py- 将模型的输出与上一组输入中的后2天数据相结 thon版本为3.6。使用云南省、上海市和陕西省 合,组成新的输入数据再次输入到模型中进行计 3个地区的疫情数据创建数据集进行实验并与 算。若对未来n天的疫情趋势进行预测,则测试 传统SEIR模型进行对比。本节将对实验数据 算法流程如图4所示,测试算法见算法2。 集、实验参数设置进行介绍并对实验结果进行 开始 分析。 3.1数据收集及整理 d- 、74 1)数据来源:2019年12月8日一2020年 3月28日全国各省市卫生健康委员会公布的疑 d-0 似病例、确诊病例、治愈和死亡病例(后文简称移 除病例)数据。 d≤n 2)数据选取:LS-Net没有考虑不同地区之间 人员流动的因素,因此选取了武汉实施全面封城 后的2020年1月24日一2020年3月28日的数 输入只包含3天数据的X 据进行实验,以尽量减少人员流动对实验结果带 来的影响。在全国的总体数据中,确诊病例和移 由式()、(6)、(7计算B,、B 除病例大部分来自于湖北省。而早期由于检测手 段跟不上,湖北省存在大量患者不能及时得到确 由式(8)预测Y, 诊和无法对疑似病例进行排查的情况,所以早期 输出Y 全国总体数据与现实情况有较大差距。为此本文 没有使用全国总体数据进行实验,而是从除湖北 将X中的后2天数 省外同时记录有疑似病例、确诊病例和移除病例 据与Y组合为新的X 的省市中挑选了云南省、上海市和陕西省3个地 区的数据进行实验。 d++ 3)数据集准备:早期无法对人群的病毒感染 情况进行排查,还未出现感染症状的潜伏期患者 结束 数据难以被记录,因此,本文使用现存疑似病例 图4测试算法流程 (已出现病毒感染临床症状但还未得到核酸检测 Fig.4 Testing algorithm flow 结果的病例)数作为E,现存确诊病例数作为(现 算法2模型测试 存确诊病例数=累计确诊病例数-累计移除病例 输入测试集初始输入X={X+,X,={E,-1, 数),移除病例数作为R,各地区2019年常住人口 IT-1,RI-1,ET:IT:RT:ET+2,11+2.RT+21o 数作为N。将第1~1+2天的数据作为输人,第 输出模型预测结果Y={Y+,Y+2…,Yd, +3天的数据作为对应标签来进行整理,共得到 其中Y7d={Er+d4,rd41,Rrd4il,de[l,则。 62份数据。 参数d:已测试的天数。 4)数据集划分:将3)得到的数据按训练集规 l)While d≤ndo 模大小的不同分别整理出4个数据集,即Set10 2)由式(5)、(6)、(7)计算病毒传染率B、B2 Set20、Set30、Set40。其中Set10划分规则:前 3)由式(8)计算新冠肺炎疫情趋势Y+ 10份数据作为训练集,后52份数据的标签作为 4)d←-d+1/更新已测试天数 测试集的标签,第11份输入数据作为测试集的初 5)Xid+concat (E+d-2,Ind-2.R+d-2,Ed-1.Id-1. 始输入数据。Set20、Set30、Set40划分规则 R+d-1,Y+d-1)/便新输人数据 同理
2.3 模型测试算法 LS-Net 测试时同样使用前 3 天的数据预测第 4 天的数据。但由于疫情趋势预测是对疫情在未 来较长时间段内的发展趋势进行预测,而当下无 法获得未来时间下的 E、I、R 具体数据,因此本文 将模型的输出与上一组输入中的后 2 天数据相结 合,组成新的输入数据再次输入到模型中进行计 算。若对未来 n 天的疫情趋势进行预测,则测试 算法流程如图 4 所示,测试算法见算法 2。 开始 d←0 输入只包含 3 天数据的 X 输出 Yt 结束 Y N α← 、 1 7 γ ←1 14 d ≤n 由式 (5)、(6)、(7) 计算 β1t、β2t 由式 (8)预测 Yt 将 X 中的后 2 天数 据与 Yt 组合为新的 X d++ 图 4 测试算法流程 Fig. 4 Testing algorithm flow 算法 2 模型测试 X = {XT+1} XT = {ET−1, IT−1,RT−1,ET ,IT ,RT ,ET+2,IT+2,RT+2} 输入 测试集初始输入 , 。 Y = {YT+1,YT+2,··· ,YT+d} YT+d = {ET+d+1,IT+d+1,RT+d+1} d ∈ [1,n] 输出 模型预测结果 , 其中 , 。 参数 d:已测试的天数。 1)While d ⩽ n do 2 β1t+d β2t+d ) 由式 (5)、(6)、(7) 计算病毒传染率 、 3) 由式 (8) 计算新冠肺炎疫情趋势 Yt+d 4) d ← d +1 //更新已测试天数 Xt+d ← concat (Et+d−2, It+d−2, Rt+d−2, Et+d−1, It+d−1, Rt+d−1, Yt+d−1) 5) //更新输入数据 6)End while 3 实验及结果 为验证 LS-Net 的效果,本文使用 Pytorch 深 度学习框架和 Python 语言搭建预测模型。Python 版本为 3.6。使用云南省、上海市和陕西省 3 个地区的疫情数据创建数据集进行实验并与 传统 SEIR 模型进行对比。本节将对实验数据 集、实验参数设置进行介绍并对实验结果进行 分析。 3.1 数据收集及整理 1) 数据来源:2019 年 12 月 8 日—202 0 年 3 月 28 日全国各省市卫生健康委员会公布的疑 似病例、确诊病例、治愈和死亡病例 (后文简称移 除病例) 数据。 2) 数据选取:LS-Net 没有考虑不同地区之间 人员流动的因素,因此选取了武汉实施全面封城 后的 2020 年 1 月 24 日—2020 年 3 月 28 日的数 据进行实验,以尽量减少人员流动对实验结果带 来的影响。在全国的总体数据中,确诊病例和移 除病例大部分来自于湖北省。而早期由于检测手 段跟不上,湖北省存在大量患者不能及时得到确 诊和无法对疑似病例进行排查的情况,所以早期 全国总体数据与现实情况有较大差距。为此本文 没有使用全国总体数据进行实验,而是从除湖北 省外同时记录有疑似病例、确诊病例和移除病例 的省市中挑选了云南省、上海市和陕西省 3 个地 区的数据进行实验。 3) 数据集准备:早期无法对人群的病毒感染 情况进行排查,还未出现感染症状的潜伏期患者 数据难以被记录,因此,本文使用现存疑似病例 (已出现病毒感染临床症状但还未得到核酸检测 结果的病例) 数作为 E,现存确诊病例数作为 I(现 存确诊病例数=累计确诊病例数−累计移除病例 数),移除病例数作为 R,各地区 2019 年常住人口 数作为 N。将第 t~t+2 天的数据作为输入,第 t+3 天的数据作为对应标签来进行整理,共得到 62 份数据。 4) 数据集划分:将 3) 得到的数据按训练集规 模大小的不同分别整理出 4 个数据集,即 Set_10、 Set_20、Set_30、Set_40。其中 Set_10 划分规则: 前 10 份数据作为训练集,后 52 份数据的标签作为 测试集的标签,第 11 份输入数据作为测试集的初 始输入数据。Set_20、Set_30、Set_40 划分规则 同理。 ·532· 智 能 系 统 学 报 第 16 卷
第3期 甘雨,等:新冠肺炎疫情趋势预测模型 ·533· 3.2实验参数设置 LSTM的隐层数量为1,维度为22。 1 模型参数:根据文献[5],设a=7 取潜伏期平 3.3 实验结果及分析 均值的倒数;y=江,取从成为感染者到成为移除 本文在不同的数据集上分别对E、I、R进行 者平均时长的倒数。对传统SEIR模型的B、B 预测。LS-Net的实验结果如图5所示,传统 进行计算时,设k=15,k2=3。 SEIR模型的实验结果如图6所示。LS-Net和传 各地区人口总数:N云南省=48583万人四、N上海市 统SEIR模型对现存确诊人数峰值的预测结果如 2824.14万人9、N陕臂省=3876.21万人0。 表1所示。 300 Set_10 200 oSet_10 300 Set 10 Set 20 ----Sct30 150 200 Set40 …Set40 200 ·一真实值 100 …一真卖值 100 100 ---Sct30 …Sct40 一真实值 0 40 60 0 20 40 60 80 0 20 40 6080 did tld d (a)云南省疑似病例预测结果 (b)云南省确诊病例预测结果 (©)云南省移除病例预测结果 200 Set 10 300 Set 10 600 -Set 10 Set 20 -Set 20 Set 20 150 ----Set30 --Set 30 ---Set 30 ......Set40 200 .......Set40 400 % 真实值 一真实值 100 200 50 …Set40 一·一真实值 0 20 40 60 80 0 20 40 60 80 0 20 40 60 80 阳 d (d上海市疑似病例预测结果 (©)上海市确诊病例预测结果 (①上海市移除病例预测结果 300 Set 10 300 oSet 10 600 oSet 10 Set 20 -Set 20 w-Set 20 ----Set30 ----Set30 ----St30 200 …Set40 200 …Set40 400 一一真卖值 一·一真实值 100 100 200 的 …Set40 一一真实值 20 40 60 80 0 20 40 60 80 0 20 40 6080 t/d dd tld (g)陕西省疑似病例预测结果 ()陕西省确诊病例预测结果 ()陕西省移除病例预测结果 图5本文疫情趋势预测模型的实验结果 Fig.5 Experimental results of the proposed epidemics trend prediction model 从图5和表1可看出,在Set10的测试集上 最终预测结果都会产生影响。从图5(a)、(d)、(g) LS-Net能大致预测出I的峰值及达到峰值的时 可看出3个地区只在前10天左右有疑似病例,而 间,且曲线走势与真实情况大致相同。但由于训 在疑似病例清零的14天之后感染者仍有新增,说 练集样本较少,3类人群的预测结果均高于真实 明以疑似病例数作为E与真实的潜伏期人数有较 数据,尤其在R的预测上误差较大。由在Set10、 大差异。 Set20、Set30、Set40测试集上的预测结果的纵 从图6和表1可看出,传统SEIR模型的预测 向对比可知,随着训练集样本的增加以及疫情后 结果与现实情况相差巨大。这是因为,传统 期发展趋于稳定,预测结果与真实值的误差逐渐 SEIR模型中B、B,为定值,难以模拟真实情况。 减小。图5()实验结果中,I后期有反弹趋势,可 且由图5(b)、(e)、(h)可知疫情前期感染人数急剧 预测结果却趋于平稳下降,这或许与数据集中的 增加,此时间段内B,、B2较大。所以在不添加任 中期至后期E均为0有关。在SEIR模型中,感染 何约束条件的情况下,仍使用前期的B、B2对后 者由潜伏者转化而来,因此E对I、R和E本身的 期疫情进行预测会有较大误差
3.2 实验参数设置 α= 1 7 γ= 1 14 β1 β2 k1=15 k2=3 模型参数:根据文献 [5],设 ,取潜伏期平 均值的倒数; ,取从成为感染者到成为移除 者平均时长的倒数。对传统 SEIR 模型的 、 进行计算时,设 , 。 各地区人口总数:N云南省=4858.3 万人[28] 、N上海市= 2824.14 万人[29] 、N陕西省=3876.21 万人[30]。 LSTM 的隐层数量为 1,维度为 22。 3.3 实验结果及分析 本文在不同的数据集上分别对 E、I、R 进行 预测。 LS-Ne t 的实验结果如 图 5 所示,传 统 SEIR 模型的实验结果如图 6 所示。LS-Net 和传 统 SEIR 模型对现存确诊人数峰值的预测结果如 表 1 所示。 疑似病例数/人 200 300 100 0 20 40 60 80 t/d (a) 云南省疑似病例预测结果 疑似病例数/人 100 200 150 50 0 20 40 60 80 t/d (d) 上海市疑似病例预测结果 疑似病例数/人 100 300 200 0 20 40 60 80 t/d (g) 陕西省疑似病例预测结果 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 t/d (b) 云南省确诊病例预测结果 0 20 40 60 80 50 100 150 200 确诊病例数/人 t/d (e) 上海市确诊病例预测结果 0 20 40 60 80 确诊病例数/人 200 100 300 t/d (h) 陕西省确诊病例预测结果 0 20 40 60 80 确诊病例数/人 200 100 300 t/d (c) 云南省移除病例预测结果 0 20 40 60 80 200 100 300 移除病例数/人 t/d (f) 上海市移除病例预测结果 0 20 40 60 80 400 200 600 移除病例数/人 t/d (i) 陕西省移除病例预测结果 0 20 40 60 80 400 200 600 移除病例数/人 图 5 本文疫情趋势预测模型的实验结果 Fig. 5 Experimental results of the proposed epidemics trend prediction model 从图 5 和表 1 可看出,在 Set_10 的测试集上 LS-Net 能大致预测出 I 的峰值及达到峰值的时 间,且曲线走势与真实情况大致相同。但由于训 练集样本较少,3 类人群的预测结果均高于真实 数据,尤其在 R 的预测上误差较大。由在 Set_10、 Set_20、Set_30、Set_40 测试集上的预测结果的纵 向对比可知,随着训练集样本的增加以及疫情后 期发展趋于稳定,预测结果与真实值的误差逐渐 减小。图 5(e) 实验结果中,I 后期有反弹趋势,可 预测结果却趋于平稳下降,这或许与数据集中的 中期至后期 E 均为 0 有关。在 SEIR 模型中,感染 者由潜伏者转化而来,因此 E 对 I、R 和 E 本身的 最终预测结果都会产生影响。从图 5(a)、(d)、(g) 可看出 3 个地区只在前 10 天左右有疑似病例,而 在疑似病例清零的 14 天之后感染者仍有新增,说 明以疑似病例数作为 E 与真实的潜伏期人数有较 大差异。 β1 β2 β1 β2 β1 β2 从图 6 和表 1 可看出,传统 SEIR 模型的预测 结果与现实情况相差巨大。这是因为,传 统 SEIR 模型中 、 为定值,难以模拟真实情况。 且由图 5(b)、(e)、(h) 可知疫情前期感染人数急剧 增加,此时间段内 、 较大。所以在不添加任 何约束条件的情况下,仍使用前期的 、 对后 期疫情进行预测会有较大误差。 第 3 期 甘雨,等:新冠肺炎疫情趋势预测模型 ·533·
·534· 智能系统学报 第16卷 le7 le7 4 et 10 2 20 40 60 80 20 40 60 80 20 40 60 80 t/d (a)云南省疑似病例预测结果 (b)云南省确诊病例预测结果 (©)云南省移除病例预测结果 1.5 r le7 1.5r le7 2.0 le7 Set_10 Set_10 1.0 1.5 1.0 真实住 真实值 1.0 0.5 0.5 0.5 40 60 g0 20 40 60 80 20 40 60 80 d d d (d上海市疑似病例预测结果 (e)上海市确诊病例预测结果 ()上海市移除病例预测结果 2.5 r le7 2.5r le7 3r le7 10 10 2.0 2.0 Set 1.5 1.0 0.5 0.5 20 40 60 20 40 60 80 20 40 60 80 t/d t/d (g)陕西省疑似病例预测结果 (h)陕西省确诊病例预测结果 ()陕西省移除病例预测结果 图6传统SER模型的实验结果 Fig.6 Experimental results of the traditional SEIR model 表1现存确诊人数峰值预测 Net。实验结果表明,LS-Net可省去人工拆分时段 Table 1 Peak prediction of the active infected cases 进行动态计算的繁琐过程,使用少量的训练数据 预测峰值/人 即可对疫情中现存确诊病例的峰值进行预测,在 地区 真实峰值/人 传统SEIR模型 本文模型 一定程度上可为人们在当前的防控措施下对疫情 云南省 135 的发展趋势预测提供参考。为使LS-Net成为一 24448349 153 个更通用的传染病疫情趋势预测模型,未来工作 上海市 255 12220887 263 将会基于现有模型从以下几点进行改进:)考虑 陕西省 189 19484749 239 各地人口的流动情况:2)提出可合理地估算潜伏 在以上使用包含了云南省、上海市、陕西省 期人群数量的方法。潜伏者数量由于还未出现感 的感染人数由急剧增加、到达峰值至逐渐降低趋 染症状,因此难以被统计。从已有数据中准确地 于稳定几个阶段的实验数据的实验中,LS-Net使 估算出潜伏期人群的数量将大大提高模型预测的 用LSTM和式(7)对B、B2进行实时动态预测,而 准确率。 传统SEIR则将B、B,设为定值,结果表明在使用 相同的训练数据和约束条件的情况下,LS-Net的 参考文献: 预测效果远优于传统SEIR模型。且在E与实际 [1]IMAI N,CORI A,DORIGATTI I,et al.Transmissibility 情况存在较大偏差的情况下,LS-Nt依然能够大 of2019-nCoV[EB/0L].(2020-01-25)[2020-07-30] 致预测出I达到峰值的日期,以及在E=0的情况 https://spiral.imperial.ac.uk:8443/handle/10044/1/77148. 下疫情趋势预测曲线基本能与实际数据拟合。 [2]READ J M.BRIDGEN JRE,CUMMINGS D A T.et al. 4结束语 Novel coronavirus 2019-nCoV:early estimation of epi- demiological parameters and epidemic predictions[EB/OL]. 本文结合LSTM和传统SEIR模型提出了LS (2020-01-28)[2020-07-28]https:/www.medrxiv.org
疑似病例数/人 3 2 1 0 20 40 60 80 t/d (a) 云南省疑似病例预测结果 le7 疑似病例数/人 0 1.5 1.0 0.5 20 40 60 80 t/d (d) 上海市疑似病例预测结果 le7 疑似病例数/人 2.5 2.0 1.5 1.0 0.5 0 20 40 60 80 t/d (g) 陕西省疑似病例预测结果 le7 2.5 2.0 1.5 1.0 0.5 0 20 40 60 80 t/d (h) 陕西省确诊病例预测结果 确诊病例数/人 le7 0 1.5 1.0 0.5 20 40 60 80 t/d (e) 上海市确诊病例预测结果 确诊病例数/人 le7 0 20 40 60 80 t/d (b) 云南省确诊病例预测结果 确诊病例数/人 3 2 1 le7 2.0 1.5 1.0 0.5 移除病例数/人 le7 20 40 60 80 t/d (f) 上海市移除病例预测结果 0 3 le7 2 1 移除病例数/人 20 40 60 80 t/d (i) 陕西省移除病例预测结果 0 20 40 60 80 t/d (c) 云南省移除病例预测结果 移除病例数/人 0 4 3 2 1 le7 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 Set_10 Set_20 Set_40 Set_30 真实值 图 6 传统 SEIR 模型的实验结果 Fig. 6 Experimental results of the traditional SEIR model 表 1 现存确诊人数峰值预测 Table 1 Peak prediction of the active infected cases 地区 真实峰值/人 预测峰值/人 传统SEIR模型 本文模型 云南省 135 24448 349 153 上海市 255 12220 887 263 陕西省 189 19484 749 239 β1 β2 β1 β2 在以上使用包含了云南省、上海市、陕西省 的感染人数由急剧增加、到达峰值至逐渐降低趋 于稳定几个阶段的实验数据的实验中,LS-Net 使 用 LSTM 和式 (7) 对 、 进行实时动态预测,而 传统 SEIR 则将 、 设为定值,结果表明在使用 相同的训练数据和约束条件的情况下,LS-Net 的 预测效果远优于传统 SEIR 模型。且在 E 与实际 情况存在较大偏差的情况下,LS-Net 依然能够大 致预测出 I 达到峰值的日期,以及在 E=0 的情况 下疫情趋势预测曲线基本能与实际数据拟合。 4 结束语 本文结合 LSTM 和传统 SEIR 模型提出了 LSNet。实验结果表明,LS-Net 可省去人工拆分时段 进行动态计算的繁琐过程,使用少量的训练数据 即可对疫情中现存确诊病例的峰值进行预测,在 一定程度上可为人们在当前的防控措施下对疫情 的发展趋势预测提供参考。为使 LS-Net 成为一 个更通用的传染病疫情趋势预测模型,未来工作 将会基于现有模型从以下几点进行改进:1) 考虑 各地人口的流动情况;2) 提出可合理地估算潜伏 期人群数量的方法。潜伏者数量由于还未出现感 染症状,因此难以被统计。从已有数据中准确地 估算出潜伏期人群的数量将大大提高模型预测的 准确率。 参考文献: IMAI N, CORI A, DORIGATTI I, et al. Transmissibility of 2019-nCoV[EB/OL].(2020−01−25)[2020−07−30] https://spiral.imperial.ac.uk:8443/handle/10044/1/77148. [1] READ J M, BRIDGEN J R E , CUMMINGS D A T, et al. Novel coronavirus 2019-nCoV: early estimation of epidemiological parameters and epidemic predictions[EB/OL]. (2020−01−28)[2020−07−28] https://www.medrxiv.org/ [2] ·534· 智 能 系 统 学 报 第 16 卷
第3期 甘雨,等:新冠肺炎疫情趋势预测模型 ·535· CONTENT/10.1101/2020.01.23.20018549V2 model for COVID-19 real-time forecasting[J].Journal of [3]SHEN Mingwang,PENG Zhihang,XIAO Yanni,et al. University of Electronic Science and Technology of Modeling the epidemic trend of the 2019 novel coronavir- China.2020,49(3):362-368. us outbreak in China[J].The innovation,2020,1(3): [14]GUO Wei,XU Tao,TANG Keming.M-estimator-based 100048. online sequential extreme learning machine for predicting [4]HARKO T.LOBO F S N.MAK M K.Exact analytical chaotic time series with outliers[J].Neural computing and solutions of the Susceptible-Infected-Recovered(SIR)epi- applications,2017,28(12):4093-4110. demic model and of the SIR model with equal death and [15]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. birth rates[J].Applied mathematics and computation,2014, Deep residual learning for image recognition[Cl/Proceed- 236:184-194 ings of the IEEE Conference on Computer Vision and [5]KROGER M,SCHLICKEISER R.Analytical solution of Pattern Recognition.Las Vegas,NV,USA:IEEE,2016, the SIR-model for the temporal evolution of epidemics. 770-778 Part A:time-independent reproduction factor[J].Journal of [16]SIMONYAN K,ZISSERMAN A.Very deep convolu- pysics A,2020(50):505601. tional networks for large-scale image recognition[EB/OLl. [6]LI M Y,MULDOWNEY J S.Global stability for the SEIR (2015-04-10)[2020-07-28]http://arxiv.org/abs/1409.1556. model in epidemiology [J].Mathematical biosciences, [17]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im- 1995,125(2):155-164. ageNet classification with deep convolutional neural net- [7]GODIO A.PACE F,VERGNANO A.SEIR modeling of works[C]//Proceedings of the 25th International Confer- the Italian epidemic of SARS-CoV-2 using computational ence on Neural Information Processing Systems.Red swarm intelligence[J].International journal of environ- Hook,NY,USA:Curran Associates Inc.,2012:1097- mental research and public health,2020,17(10):3535. 1105. [8]WU J T,LEUNG K,LEUNG G M.Nowcasting and fore- [18]COLLOBERT R,WESTON J,BOTTOU L,et al.Natur- casting the potential domestic and international spread of al language processing (almost)from scratch[J].The the 2019-nCoV outbreak originating in Wuhan,China:a journal of machine learning research,2011,12: modelling study[J].The lancet,2020,395(10225): 2493-2537. 689-697. [19]TAY Y,LUU A T,HUI S C.Compare,compress and [9]YANG Zifeng,ZENG Zhiqi,WANG Ke,et al.Modified propagate:enhancing neural architectures with alignment SEIR and Al prediction of the epidemics trend of COVID- factorization for natural language inference[C//Proceed- 19 in China under public health interventions[J].Journal of ings of the 2018 Conference on Empirical Methods in thoracic disease,2020,12(3):165-174. Natural Language Processing.Brussels,Belgium,2018: [10]WALKER P,WHITTAKER C,WATSON O,et al.The 1565-1575. global impact of COVID-19 and strategies for mitigation [20]DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre- and suppression[EB/OL].(2020-03-26)[2020-07-28] training of deep bidirectional transformers for language https://www.imperial.ac.uk/mrc-global-infectious-disease- understanding[EB/OL].(2019-05-24)[2020-07-28] analysis/covid-19/report-12-global-impact-covid-19/. http://arxiv.org/abs/1810.04805. [1I]范如国,王奕博,罗明,等.基于SEIR的新冠肺炎传播 [21]HINTON G,DENG Li,YU Dong,et al.Deep neural net- 模型及拐点预测分析[】.电子科技大学学报,2020, works for acoustic modeling in speech recognition:the 49(3:369-374 shared views of four research groups[J].IEEE signal pro- FAN Ruguo,WANG Yibo,LUO Ming,et al.SEIR-based cessing magazine,2012,29(6):82-97. COVID-19 transmission model and inflection point pre- [22]SAK H.SENIOR A,RAO K,et al.Fast and accurate re- diction analysis[J].Journal of University of Electronic current neural network acoustic models for speech recog- Science and Technology of China,2020,49(3):369-374. nition[EB/OL].(2015-07-24[2020-07-28]htp:/arxiv.. [12]ARMOUR G C.BUFFA E S.A heuristic algorithm and org/abs/1507.06947. simulation approach to relative location of facilities[J]. [23]XIONG W,DROPPO J,HUANG X,et al.Achieving hu- Management science,1963,9(2):294-309. man parity in conversational speech recognition[EB/OL]. [13]梅文娟,刘震,朱静怡,等.新冠肺炎疫情极限R实时 (2015-07-24)[2020-07-28]https:/arxiv.org/abs/1610 预测模型).电子科技大学学报,2020,49(3:362-368. 05256. MEI Wenjuan,LIU Zhen,ZHU Jingyi,et al.Extreme IR [24]LIPTON Z C.A critical review of recurrent neural net-
CONTENT/10.1101/2020.01.23.20018549V2. SHEN Mingwang, PENG Zhihang, XIAO Yanni, et al. Modeling the epidemic trend of the 2019 novel coronavirus outbreak in China[J]. The innovation, 2020, 1(3): 100048. [3] HARKO T, LOBO F S N, MAK M K. Exact analytical solutions of the Susceptible-Infected-Recovered (SIR) epidemic model and of the SIR model with equal death and birth rates[J]. Applied mathematics and computation, 2014, 236: 184–194. [4] KRÖGER M, SCHLICKEISER R. Analytical solution of the SIR-model for the temporal evolution of epidemics. Part A: time-independent reproduction factor[J]. Journal of pysics A, 2020(50): 505601. [5] LI M Y, MULDOWNEY J S. Global stability for the SEIR model in epidemiology[J]. Mathematical biosciences, 1995, 125(2): 155–164. [6] GODIO A, PACE F, VERGNANO A. SEIR modeling of the Italian epidemic of SARS-CoV-2 using computational swarm intelligence[J]. International journal of environmental research and public health, 2020, 17(10): 3535. [7] WU J T, LEUNG K, LEUNG G M. Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak originating in Wuhan, China: a modelling study[J]. The lancet, 2020, 395(10225): 689–697. [8] YANG Zifeng, ZENG Zhiqi, WANG Ke, et al. Modified SEIR and AI prediction of the epidemics trend of COVID- 19 in China under public health interventions[J]. Journal of thoracic disease, 2020, 12(3): 165–174. [9] WALKER P, WHITTAKER C, WATSON O, et al. The global impact of COVID-19 and strategies for mitigation and suppression[EB/OL]. (2020−03−26)[2020−07−28] https://www.imperial.ac.uk/mrc-global-infectious-diseaseanalysis/covid-19/report-12-global-impact-covid-19/. [10] 范如国, 王奕博, 罗明, 等. 基于 SEIR 的新冠肺炎传播 模型及拐点预测分析 [J]. 电子科技大学学报, 2020, 49(3): 369–374. FAN Ruguo, WANG Yibo, LUO Ming, et al. SEIR-based COVID-19 transmission model and inflection point prediction analysis[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 369–374. [11] ARMOUR G C, BUFFA E S. A heuristic algorithm and simulation approach to relative location of facilities[J]. Management science, 1963, 9(2): 294–309. [12] 梅文娟, 刘震, 朱静怡, 等. 新冠肺炎疫情极限 IR 实时 预测模型 [J]. 电子科技大学学报, 2020, 49(3): 362–368. MEI Wenjuan, LIU Zhen, ZHU Jingyi, et al. Extreme IR [13] model for COVID-19 real-time forecasting[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 362–368. GUO Wei, XU Tao, TANG Keming. M-estimator-based online sequential extreme learning machine for predicting chaotic time series with outliers[J]. Neural computing and applications, 2017, 28(12): 4093–4110. [14] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016, 770−778. [15] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10)[2020-07-28] http://arxiv.org/abs/1409.1556. [16] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2012: 1097− 1105. [17] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. The journal of machine learning research, 2011, 12: 2493–2537. [18] TAY Y, LUU A T, HUI S C. Compare, compress and propagate: enhancing neural architectures with alignment factorization for natural language inference[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium, 2018: 1565−1575. [19] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pretraining of deep bidirectional transformers for language understanding[EB/OL]. (2019−05−24)[2020−07−28] http://arxiv.org/abs/1810.04805. [20] HINTON G, DENG Li, YU Dong, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE signal processing magazine, 2012, 29(6): 82–97. [21] SAK H, SENIOR A, RAO K, et al. Fast and accurate recurrent neural network acoustic models for speech recognition[EB/OL]. (2015−07−24)[2020−07−28] http://arxiv. org/abs/1507.06947. [22] XIONG W, DROPPO J, HUANG X, et al. Achieving human parity in conversational speech recognition[EB/OL]. (2015−07−24)[2020−07−28] https://arxiv.org/abs/1610. 05256. [23] [24] LIPTON Z C. A critical review of recurrent neural net- 第 3 期 甘雨,等:新冠肺炎疫情趋势预测模型 ·535·
·536· 智能系统学报 第16卷 works for sequence learning[EB/OL].(2015-10-17) [30]陕西省统计局,国家统计局陕西调查总队.2019年陕西 [2020-07-28]http://arxiv.org/abs/1506.00019 省国民经济和社会发展统计公报[EB/OL].(2020- [25]WANG Jianyong,ZHANG Lei,GUO Quan,et al.Recur- 03-20)[2020-07-28]http://www.shaanxi.gov.cn/zfxxgk/ rent neural networks with auxiliary memory units[J]. fdzdgknr/tixx/tigb 240/wap.html. IEEE transactions on neural networks and learning sys- 作者简介: tems,2018.295):1652-1661. 甘雨,硕士研究生,主要研究方向 [26]WANG Jianyong,ZHANG Lei,CHEN Yuanyuan,et al. 为深度学习、智能医学图像分析。 A new delay connection for long short-term memory net- works[J].International journal of neural systems,2018, 28(6:1750061 [27]MALHOTRA P,VIG L,SHROFF G,et al.Long short term memory networks for anomaly detection in time 吴雨,博士研究生,主要研究方向 series[C]//ESANN 2015 proceedings,European Sym- 为深度学习、智能医学图像分析。 posium on Artificial Neural Networks,Computational In- telligence and Machine Learning.Bruges,Belgium, 2015:22-24. [28]云南省统计局,国家统计局云南调查总队.云南省 2019年国民经济和社会发展统计公报[EB/OL]. (2020-04-14)[2020-07-28]http:/stats.yn.gov.cn/tjsj/ 王建勇,副研究员,博士,主要研 tjgb/202004/20200414938595.html. 究方向为人工智能和智能医学。主持 国家自然科学基金、青年基金、四川省 [29]上海市统计局.2019年上海市国民经济和社会发展统 科技支持计划项目等科研项目4项, 计公报[EB/OL].(2020-03-09)[2020-07-28]http:∥ 获得2019年度中国人工智能学会优 tij.sh.gov.cn/tjgb/20200329/05f0f4abb2d448a69e4517f6a 秀博土论文奖。发表学术论文8篇。 6448819.html
works for sequence learning[EB/OL]. (2015−10−17) [2020−07−28] http://arxiv.org/abs/1506.00019. WANG Jianyong, ZHANG Lei, GUO Quan, et al. Recurrent neural networks with auxiliary memory units[J]. IEEE transactions on neural networks and learning systems, 2018, 29(5): 1652–1661. [25] WANG Jianyong, ZHANG Lei, CHEN Yuanyuan, et al. A new delay connection for long short-term memory networks[J]. International journal of neural systems, 2018, 28(6): 1750061. [26] MALHOTRA P, VIG L, SHROFF G, et al. Long short term memory networks for anomaly detection in time series[C]// ESANN 2015 proceedings, European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning. Bruges, Belgium, 2015:22−24. [27] 云南省统计局, 国家统计局云南调查总队. 云南省 2019 年国民经济和社会发展统计公报 [EB/OL]. (2020−04−14)[2020−07−28] http://stats.yn.gov.cn/tjsj/ tjgb/202004/t20200414_938595.html. [28] 上海市统计局. 2019 年上海市国民经济和社会发展统 计公报 [EB/OL]. (2020−03−09)[2020−07−28] http:// tjj.sh.gov.cn/tjgb/20200329/05f0f4abb2d448a69e4517f6a 6448819.html. [29] 陕西省统计局, 国家统计局陕西调查总队. 2019 年陕西 省国民经济和社会发展统计公报 [EB/OL]. (2020− 03−20)[2020−07−28] http://www.shaanxi.gov.cn/zfxxgk/ fdzdgknr/tjxx/tjgb_240/wap.html. [30] 作者简介: 甘雨,硕士研究生,主要研究方向 为深度学习、智能医学图像分析。 吴雨,博士研究生,主要研究方向 为深度学习、智能医学图像分析。 王建勇,副研究员,博士,主要研 究方向为人工智能和智能医学。主持 国家自然科学基金、青年基金、四川省 科技支持计划项目等科研项目 4 项, 获得 2019 年度中国人工智能学会优 秀博士论文奖。发表学术论文 8 篇。 ·536· 智 能 系 统 学 报 第 16 卷