工程科学学报,第41卷,第10期:1332-1341,2019年10月 Chinese Journal of Engineering,Vol.41,No.10:1332-1341,October 2019 D0I:10.13374/j.issn2095-9389.2018.10.15.001;http:/journals.ustb.edu.cn 基于增强学习算法的插电式燃料电池电动汽车能量管 理控制策略 林歆悠12),夏玉田),魏申中) 1)福州大学机械工程及自动化学院,福州350002 2)流体动力与电液智能控制福建省高校重点实验室(福州大学),福州350002 ☒通信作者,E-mail:linxinyoou@fu.cdu.cn 摘要以一款插电式燃料电池电动汽车(plug-in fuel cell electric vehicle,PFCEV)为研究对象,为改善燃料电池氢气消耗和 电池电量消耗之间的均衡,实现插电式燃料电池电动汽车的燃料电池与动力电池之间的最优能量分配,考虑燃料电池汽车实 时能量分配的即时回报及未来累积折扣回报,以整车作为环境,整车控制作为智能体,提出了一种基于增强学习算法的插电 式燃料电池电动汽车能量管理控制策略.通过Matlab/Simulink建立整车仿真模型对所提出的策略进行仿真验证,相比于基于 规则的策略,在不同行驶里程下,电池均可保持一定的电量,整车的综合能耗得到明显降低,在100、200和300km行驶里程下 整车百公里能耗分别降低8.84%、29.5%和38.6%:基于快速原型开发平台进行硬件在环试验验证,城市行驶工况工况下整 车综合能耗降低20.8%,硬件在环试验结果与仿真结果基本一致,表明了所制定能量管理策略的有效性和可行性. 关键词燃料电池汽车;增强学习;能量管理;Q_learning算法;控制策略 分类号TG142.71 Energy management control strategy for plug-in fuel cell electric vehicle based on reinforcement learning algorithm LIN Xin-you'),XIA Yu-tian',WEI Shen-shen') 1)College of Mechanical Engineering and Automation,Fuzhou University,Fuzhou 350002,China 2)Key Laboratory of Fluid Power and Intelligent Electro-Hydraulic Control,Fuzhou University,Fuzhou 350002,China Corresponding author,E-mail:linxinyoou@fa.edu.cn ABSTRACT To cope with the increasingly stringent emission regulations,major automobile manufacturers have been focusing on the development of new energy vehicles.Fuel-cell vehicles with advantages of zero emission,high efficiency,diversification of fuel sources,and renewable energy have been the focus of international automotive giants and Chinese automotive enterprises.Establishing a reasonable energy management strategy,effectively controlling the vehicle working mode,and reasonably using battery energy for hy- brid fuel-cell vehicles are core technologies in domestic and foreign automobile enterprises and research institutes.To improve the equi- librium between fuel-cell hydrogen consumption and battery consumption and realize the optimal energy distribution between fuel-cell systems and batteries for plug-in fuel-cell electric vehicles(PFCEVs),considering vehicles as the environment and vehicle control as an agent,an energy management strategy for the PFCEV based on reinforcement learning algorithm was proposed in this paper.This strategy considered the immediate return and future cumulative discounted returns of a fuel-cell vehicle's real-time energy allocation. The vehicle simulation model was built by Matlab/Simulink to carry out the simulation test for the proposed strategy.Compared with the rule-based strategy,the battery can store a certain amount of electricity,and the integrated energy consumption of the vehicle was nota- bly reduced under different mileages.The energy consumption in 100 km was reduced by 8.84%,29.5%,and 38.6%under 100. 收稿日期:2018-10-15 基金项目:国家自然科学基金资助项目(51505086)
工程科学学报,第 41 卷,第 10 期:1332鄄鄄1341,2019 年 10 月 Chinese Journal of Engineering, Vol. 41, No. 10: 1332鄄鄄1341, October 2019 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2018. 10. 15. 001; http: / / journals. ustb. edu. cn 基于增强学习算法的插电式燃料电池电动汽车能量管 理控制策略 林歆悠1,2) 苣 , 夏玉田1) , 魏申申1) 1)福州大学机械工程及自动化学院, 福州 350002 2)流体动力与电液智能控制福建省高校重点实验室(福州大学), 福州 350002 苣通信作者, E鄄mail: linxinyoou@ fzu. edu. cn 摘 要 以一款插电式燃料电池电动汽车(plug鄄in fuel cell electric vehicle, PFCEV)为研究对象,为改善燃料电池氢气消耗和 电池电量消耗之间的均衡,实现插电式燃料电池电动汽车的燃料电池与动力电池之间的最优能量分配,考虑燃料电池汽车实 时能量分配的即时回报及未来累积折扣回报,以整车作为环境,整车控制作为智能体,提出了一种基于增强学习算法的插电 式燃料电池电动汽车能量管理控制策略. 通过 Matlab / Simulink 建立整车仿真模型对所提出的策略进行仿真验证,相比于基于 规则的策略,在不同行驶里程下,电池均可保持一定的电量,整车的综合能耗得到明显降低,在 100、200 和 300 km 行驶里程下 整车百公里能耗分别降低 8郾 84% 、29郾 5% 和 38郾 6% ;基于快速原型开发平台进行硬件在环试验验证,城市行驶工况工况下整 车综合能耗降低 20郾 8% ,硬件在环试验结果与仿真结果基本一致,表明了所制定能量管理策略的有效性和可行性. 关键词 燃料电池汽车; 增强学习; 能量管理; Q_learning 算法; 控制策略 分类号 TG142郾 71 收稿日期: 2018鄄鄄10鄄鄄15 基金项目: 国家自然科学基金资助项目(51505086) Energy management control strategy for plug鄄in fuel cell electric vehicle based on reinforcement learning algorithm LIN Xin鄄you 1,2) 苣 , XIA Yu鄄tian 1) , WEI Shen鄄shen 1) 1)College of Mechanical Engineering and Automation, Fuzhou University, Fuzhou 350002, China 2)Key Laboratory of Fluid Power and Intelligent Electro鄄Hydraulic Control, Fuzhou University, Fuzhou 350002, China 苣Corresponding author, E鄄mail: linxinyoou@ fzu. edu. cn ABSTRACT To cope with the increasingly stringent emission regulations, major automobile manufacturers have been focusing on the development of new energy vehicles. Fuel鄄cell vehicles with advantages of zero emission, high efficiency, diversification of fuel sources, and renewable energy have been the focus of international automotive giants and Chinese automotive enterprises. Establishing a reasonable energy management strategy, effectively controlling the vehicle working mode, and reasonably using battery energy for hy鄄 brid fuel鄄cell vehicles are core technologies in domestic and foreign automobile enterprises and research institutes. To improve the equi鄄 librium between fuel鄄cell hydrogen consumption and battery consumption and realize the optimal energy distribution between fuel鄄cell systems and batteries for plug鄄in fuel鄄cell electric vehicles (PFCEVs), considering vehicles as the environment and vehicle control as an agent, an energy management strategy for the PFCEV based on reinforcement learning algorithm was proposed in this paper. This strategy considered the immediate return and future cumulative discounted returns of a fuel鄄cell vehicle爷 s real鄄time energy allocation. The vehicle simulation model was built by Matlab / Simulink to carry out the simulation test for the proposed strategy. Compared with the rule鄄based strategy, the battery can store a certain amount of electricity, and the integrated energy consumption of the vehicle was nota鄄 bly reduced under different mileages. The energy consumption in 100 km was reduced by 8郾 84% , 29郾 5% , and 38郾 6% under 100
林歆悠等:基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1333· 200,and 300 km mileages,respectively.The hardware-in-loop-test was performed on the D2P development platform,and the final en- ergy consumption of the vehicle was reduced by 20.8%under urban dynamometer driving schedule driving cycle.The hardware-in loop-test results are consistent with the simulation findings,indicating the effectiveness and feasibility of the proposed energy manage- ment strategy. KEY WORDS fuel-cell vehicle;reinforcement learning;energy management;Q_learning algorithm;control strategy 面对越来越严苛的排放法规,各大汽车厂商纷 合动态规划与等效消耗最小策略,通过动态规划对 纷着力发展新能源汽车,具有零排放、效率高、燃料 等效消耗最小策略的等效系数EF进行优化的基础 来源多元化、能源可再生等优势的燃料电池汽车,一 上,提出简化的等效系数优化方法.Murgovski等)] 直是国际汽车巨头及中国汽车企业重点研究的对 采用庞特里亚金极小值原理(pontryagin minimum 象).仅采用燃料电池作为动力源的燃料电池动力 principle,PMP)优化算法,寻找单一路径来实现系 系统,输出特性疲软,动态响应能力较差[),因此, 统的优化控制,其计算速度相比于动态规划算法快 燃料电池汽车一般采用燃料电池+动力电池或超级 的多,仿真结果与基于动态规划的能量管理策略进 电容的混合动力驱动构型).针对混合动力燃料电 行对比,发现基于庞特里亚金极小值原理的策略只 池汽车,建立合理的能量管理策略,有效控制车辆工 比基于动态规划的策略的经济性降低了0.35%. 作模式、合理使用电池的能量[46],是国内外汽车企 基于已知工况的策略,仅在历史行驶数据的基 业以及研究机构研究的核心技术之一[) 础上进行预测,不能实现准确的控制,从而无法达到 车辆的行驶里程、行驶工况等因素会直接影响 真正意义上的实时优化.基于优化算法的最优能量 混合动力车辆的动力分配以及工作模式的划分,从 管理策略通常需要建立能够良好地反映系统特性的 而影响整车经济性.Lin等[]采用六个典型的驾驶 精确模型,如等效消耗最小策略中的等效系数估计 模式来表征不同工况,对每个典型的驾驶模式应用 模型,这使得能量管理策略的建立过程变得十分复 动态规划方法寻找全局最优解,通过提炼全局最优 杂:其次,这些最优能量管理策略不能根据实际的工 结果给出各个典型驾驶模式下可以直接应用的优化 况进行策略更新迭代,使得控制策略不具有时效性 策略.林歆悠与孙冬野)选定了四种典型城市工 和拓展性.针对传统最优能量管理策略在这些方面 况,采用学习向量量化(LVQ)神经网络模型进行工 存在的问题,本文以插电式燃料电池电动汽车(P℉- 况识别,并根据工况识别结果制定了工况自适应功 CEV)为研究对象,提出了一种基于增强学习(rein- 率均衡规则控制策略.为了达到良好的优化效果, forcement learning,RL)算法的插电式燃料电池电 同时解决工程经验适应性差的问题,很多文献提出 动汽车能量管理策略 了基于优化算法的最优能量管理策略.朱元等[] 本文的内容结构如下,在第一节,根据插电式燃 利用马尔可夫决策理论获得混合动力汽车的随机能 料电池汽车动力系统特点,建立包括整车、燃料电池 量管理策略.石英乔等)基于瞬时优化的方法开 系统和锂离子电池等关键部件的模型:第二节描述 展能量分配策略研究,并引入了蓄电池等价燃料消 了整车能量管理的优化控制模型:第三节描述了状 耗理论.王钦普等)提出了一种基于粒子群算法 态转移概率矩阵的计算以及该能量管理策略的构建 (particle swarm optimization,PSO)的等效消耗最小 和实现方法;第四节给出了该策略与其他策略的仿 equivalent consumption minimization strategy, 真及硬件在环试验结果对比和分析:最后给出了 ECMS),可实现不同初始电池荷电状态(state of 结论 charge,SOC)下能量管理策略的近似全局优化.文 1插电式燃料电池汽车动力系统建模 献[13]在等效氢消耗最小的基础上,考虑电池荷电 状态、等效系数与燃油消耗的关系,利用遗传算法离 1.1车辆模型 线优化等效系数.文献[14]针对等效氢气消耗最小 本文所研究的插电式燃料电池汽车的动力系统 策略中的等效系数通过动态规划(dynamic program- 结构为并联型结构,主要由驱动系统、锂离子动力电 ming,DP)进行全局优化,优化效果明显,但难以在 池、燃料电池系统及相应的控制器组成,如图1所 实车中实现.文献[15]将不同模式下的燃料电池衰 示.燃料电池系统通过DC/DC(直流转直流)变换 退速率与等效氢气消耗构成多目标的优化,但策略 器连接到直流母线,锂离子电池组直接连接到母线 复杂,实际适应性不高.Han等[16]基于特定工况结 以维持直流线路电压,相应的整车与关键部件参数
林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 200, and 300 km mileages, respectively. The hardware鄄in鄄loop鄄test was performed on the D2P development platform, and the final en鄄 ergy consumption of the vehicle was reduced by 20郾 8% under urban dynamometer driving schedule driving cycle. The hardware鄄in loop鄄test results are consistent with the simulation findings, indicating the effectiveness and feasibility of the proposed energy manage鄄 ment strategy. KEY WORDS fuel鄄cell vehicle; reinforcement learning; energy management; Q_learning algorithm; control strategy 面对越来越严苛的排放法规,各大汽车厂商纷 纷着力发展新能源汽车,具有零排放、效率高、燃料 来源多元化、能源可再生等优势的燃料电池汽车,一 直是国际汽车巨头及中国汽车企业重点研究的对 象[1] . 仅采用燃料电池作为动力源的燃料电池动力 系统,输出特性疲软,动态响应能力较差[2] ,因此, 燃料电池汽车一般采用燃料电池 + 动力电池或超级 电容的混合动力驱动构型[3] . 针对混合动力燃料电 池汽车,建立合理的能量管理策略,有效控制车辆工 作模式、合理使用电池的能量[4鄄鄄6] ,是国内外汽车企 业以及研究机构研究的核心技术之一[7] . 车辆的行驶里程、行驶工况等因素会直接影响 混合动力车辆的动力分配以及工作模式的划分,从 而影响整车经济性. Lin 等[8] 采用六个典型的驾驶 模式来表征不同工况,对每个典型的驾驶模式应用 动态规划方法寻找全局最优解,通过提炼全局最优 结果给出各个典型驾驶模式下可以直接应用的优化 策略. 林歆悠与孙冬野[9] 选定了四种典型城市工 况,采用学习向量量化(LVQ)神经网络模型进行工 况识别,并根据工况识别结果制定了工况自适应功 率均衡规则控制策略. 为了达到良好的优化效果, 同时解决工程经验适应性差的问题,很多文献提出 了基于优化算法的最优能量管理策略. 朱元等[10] 利用马尔可夫决策理论获得混合动力汽车的随机能 量管理策略. 石英乔等[11] 基于瞬时优化的方法开 展能量分配策略研究,并引入了蓄电池等价燃料消 耗理论. 王钦普等[12] 提出了一种基于粒子群算法 (particle swarm optimization, PSO)的等效消耗最小 策略 ( equivalent consumption minimization strategy, ECMS),可实现不同初始电池荷电状态 ( state of charge, SOC)下能量管理策略的近似全局优化. 文 献[13]在等效氢消耗最小的基础上,考虑电池荷电 状态、等效系数与燃油消耗的关系,利用遗传算法离 线优化等效系数. 文献[14]针对等效氢气消耗最小 策略中的等效系数通过动态规划( dynamic program鄄 ming,DP)进行全局优化,优化效果明显,但难以在 实车中实现. 文献[15]将不同模式下的燃料电池衰 退速率与等效氢气消耗构成多目标的优化,但策略 复杂,实际适应性不高. Han 等[16] 基于特定工况结 合动态规划与等效消耗最小策略,通过动态规划对 等效消耗最小策略的等效系数 EF 进行优化的基础 上,提出简化的等效系数优化方法. Murgovski 等[17] 采用庞特里亚金极小值原理( pontryagin minimum principle, PMP) 优化算法,寻找单一路径来实现系 统的优化控制,其计算速度相比于动态规划算法快 的多,仿真结果与基于动态规划的能量管理策略进 行对比,发现基于庞特里亚金极小值原理的策略只 比基于动态规划的策略的经济性降低了 0郾 35% . 基于已知工况的策略,仅在历史行驶数据的基 础上进行预测,不能实现准确的控制,从而无法达到 真正意义上的实时优化. 基于优化算法的最优能量 管理策略通常需要建立能够良好地反映系统特性的 精确模型,如等效消耗最小策略中的等效系数估计 模型,这使得能量管理策略的建立过程变得十分复 杂;其次,这些最优能量管理策略不能根据实际的工 况进行策略更新迭代,使得控制策略不具有时效性 和拓展性. 针对传统最优能量管理策略在这些方面 存在的问题,本文以插电式燃料电池电动汽车(PF鄄 CEV)为研究对象,提出了一种基于增强学习( rein鄄 forcement learning, RL) 算法的插电式燃料电池电 动汽车能量管理策略. 本文的内容结构如下,在第一节,根据插电式燃 料电池汽车动力系统特点,建立包括整车、燃料电池 系统和锂离子电池等关键部件的模型;第二节描述 了整车能量管理的优化控制模型;第三节描述了状 态转移概率矩阵的计算以及该能量管理策略的构建 和实现方法;第四节给出了该策略与其他策略的仿 真及硬件在环试验结果对比和分析;最后给出了 结论. 1 插电式燃料电池汽车动力系统建模 1郾 1 车辆模型 本文所研究的插电式燃料电池汽车的动力系统 结构为并联型结构,主要由驱动系统、锂离子动力电 池、燃料电池系统及相应的控制器组成,如图 1 所 示. 燃料电池系统通过 DC / DC(直流转直流)变换 器连接到直流母线,锂离子电池组直接连接到母线 以维持直流线路电压,相应的整车与关键部件参数 ·1333·
.1334. 工程科学学报.第41卷,第10期 如表1所示. 考虑到整车各部件的传动效率,车辆实际电力 车控制器 需求功率P可以表示为: (P=Parive/marive 多能源总成 P=)(a盘0+f0+f0+fo) 7lie=刀m*7oyac*7mar (1) 其中,P为实际电力需求功率,)为整车的驱动效 料 气储 率,P为总牵引功率,u是车速,m,是车辆的整车 质量,F是车辆行驶时的空气阻力,Fu是滚动摩 动力电池 图1燃料电池汽车动力系统结构 擦阻力,F是在非水平道路上行驶时的坡道阻力, Fig.1 Structure of the fuel cell vehicle driving system nm为机械传动系统效率,ICc为DC/AC逆变器效 表1整车基本参数 Table 1 Basic parameters for vehicle 整备质量/ 轴距/ 滚动半径/空气阻力迎风面积/传动系 驱动电机最 燃料电池系统 动力电池容 主减速比 kg mm mm 系数 m2 效率 大功率/kW 最大功率/kW 量/(Ah) 1400 1700 301 0.284 1.97 0.95 4.226 75 65 40 率,刀为电机效率.该驱动系统工作模式可以分 1.3 锂离子电池组模型 为纯电模式和混合驱动模式,纯电模式下,整车需求 电池荷电状态是电池重要的动态参数,可以通 功率直接由电池提供,混合驱动模式下,由燃料电池 过如下公式计算得到: 和电池共同驱动,两者的输出功率P。m和P之间 SOC=-I ()/Qhau (6) 的功率分配表示为: 其中,I为电池电流,Q为电池容量,电池输出电 P(t)=Pm(t)+P(t) (2) 压U由公式(7)计算得到: 1.2燃料电池模型 (V(SOC)-I(t)R (SOC)(>0) 燃料电池系统的输出功率Pm等于燃料电池 U.)=V(s0c)-1()-R(s0C)(a0) (8) rituts=2F+na (4) l0≤PLh≤Pchg_mas(Ia<O) 其中,mh,为氢气摩尔质量,2g~mol-,F为法拉第常 2 燃料电池汽车能量管理控制模型 数,26.801 A.h-mol-1,b,为燃料电池附件平均氢气 消耗速率,g·s1.燃料电池附件消耗功率P主 以插电式燃料电池动力系统的宏观能源利用角 要指鼓风机消耗功率,可以表示为燃料电池系统功 度来看,整车所需的能量一部分是来自停车充电时 率的函数,拟合公式如(5)所示,拟合值为 消耗的电网电能,一部分是来自燃料电池氢气消耗 能量.因此,基于增强学习的能量管理策略要优化 0.915. Pteaux aPi +bPi+cPe+156 的价值函数J是氢气消耗和电池电量可持续性之间 的均衡,该策略中的性能优化目标函数定义为: a=3.46×10-1 (5) b=-1.66×10-6 J=[mH,(t)+a(s0c(t)-s0C(0)2]d c=5.01×10-2 (9)
工程科学学报,第 41 卷,第 10 期 如表 1 所示. 图 1 燃料电池汽车动力系统结构 Fig. 1 Structure of the fuel cell vehicle driving system 考虑到整车各部件的传动效率,车辆实际电力 需求功率 Pm可以表示为: Pm =Pdrive / 浊drive Pdrive =v(t) ( mv d dt v(t) +Faero(t) +Froll(t) +Fgra(t) ) 浊drive =浊tra·浊DC/ AC·浊 ì î í ï ï ï ï motor (1) 其中,Pm为实际电力需求功率,浊drive为整车的驱动效 率,Pdrive为总牵引功率,v 是车速,mv是车辆的整车 质量,Faero是车辆行驶时的空气阻力,Froll是滚动摩 擦阻力,Fgra是在非水平道路上行驶时的坡道阻力, 浊tra为机械传动系统效率,浊DC/ AC为 DC / AC 逆变器效 表 1 整车基本参数 Table 1 Basic parameters for vehicle 整备质量/ kg 轴距/ mm 滚动半径/ mm 空气阻力 系数 迎风面积/ m 2 传动系 效率 主减速比 驱动电机最 大功率/ kW 燃料电池系统 最大功率/ kW 动力电池容 量/ (A·h) 1400 1700 301 0郾 284 1郾 97 0郾 95 4郾 226 75 65 40 率,浊motor为电机效率. 该驱动系统工作模式可以分 为纯电模式和混合驱动模式,纯电模式下,整车需求 功率直接由电池提供,混合驱动模式下,由燃料电池 和电池共同驱动,两者的输出功率 Pfc_req和 Pbat之间 的功率分配表示为: Pm (t) = Pfc_req (t) + Pbat(t) (2) 1郾 2 燃料电池模型 燃料电池系统的输出功率 Pfc_req等于燃料电池 系统功率 Pfc与附件消耗功率 Pfc_aux之差,而燃料电 池系统功率等于输出电压 Ufc与输出电流 Ifc乘积: Pfc_req = Pfc - Pfc,aux Pfc = Ufc I { fc (3) 燃料电池系统氢气消耗速率( g·s - 1 )与燃料电 池实际工作电流有关[18] ,可以表示为: m · H2 = mH2 Ifc 2F + bH2 (4) 其中,mH2为氢气摩尔质量,2 g·mol - 1 ,F 为法拉第常 数,26郾 801 A·h·mol - 1 ,bH2为燃料电池附件平均氢气 消耗速率,g·s - 1 . 燃料电池附件消耗功率 Pfc_aux 主 要指鼓风机消耗功率,可以表示为燃料电池系统功 率的 函 数, 拟 合 公 式 如 ( 5 ) 所 示, 拟 合 R 2 值 为 0郾 915. Pfc_aux = aP 3 fc + bP 2 fc + cPfc + 156 a = 3郾 46 伊 10 - 11 b = - 1郾 66 伊 10 - 6 c = 5郾 01 伊 10 ì î í ï ïï ï ïï - 2 (5) 1郾 3 锂离子电池组模型 电池荷电状态是电池重要的动态参数,可以通 过如下公式计算得到: SOC 伊 = - Ibat(t) / Qbat (6) 其中,Ibat为电池电流,Qbat为电池容量,电池输出电 压 Ubat由公式(7)计算得到: Ubat(t) = V(SOC) - Ibat(t)·Rdis(SOC) (Ibat > 0) V(SOC) - Ibat(t)·Rchg(SOC) (I { bat 0) 0臆Pbat_chg臆Pchg_max (Ibat < 0 ì î í ïï ïï ) (8) 2 燃料电池汽车能量管理控制模型 以插电式燃料电池动力系统的宏观能源利用角 度来看,整车所需的能量一部分是来自停车充电时 消耗的电网电能,一部分是来自燃料电池氢气消耗 能量. 因此,基于增强学习的能量管理策略要优化 的价值函数 J 是氢气消耗和电池电量可持续性之间 的均衡,该策略中的性能优化目标函数定义为: J = 乙 T 0 [m · H2 (t) + 琢 (SOC(t) - SOC(0)) 2 ]dt (9) ·1334·
林歆悠等:基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1335. 目标函数J包括整个时间跨度内总的氢气消耗 下由功率P转移到P的转移概率,N表示从P转移 和动力电池S0C惩罚函数,其中,m,为燃料电池实 到P发生的次数,N,表示状态P产生的总次数.图 际氢气消耗速率,α为S0C惩罚权重因子,T为总的 3给出了基于城市行驶工况计算状态转移概率矩阵 运行时间,则实际优化问题可以描述为: 的过程 a()()小=[m[u()]+ 100 a(S0C(t)-S0C(0))2]d Pn(t)=Pem(t)+Pm(t) 200 400600800100012001400 时间s u(t)=P(t) x(t)=[P(t),SOC(t),v(t)] P。aWa (10) 50 其中:u(t)为控制变量,定义为电池输出功率P oe yuk Mhyywimumww-hi (t);x(t)为状态变量,定义为整车需求功率P(t)、 -5 0 200 400 600 8001000 1200 1400 电池S0C(t)和车速v(t). 时间s 最大似然估计 3基于增强学习算法的能量管理策略 所采用的增强学习算法是一种基于值迭代运算 0.2 -200 的Q_learning算法,其主要思想就是将状态与动作 状态转移概率矩阵 4》 构建成Q-table来存储价值量Q值,然后根据Q值 当崩功案460-200一 下一时刻功率kW 20 来选取动作以获得较大的收益.该算法包括两个实 图3状态转移概率的计算过程 体,智能体和环境,两个实体的交互过程如图2所 Fig.3 Calculation process of the state transfer probability 示,其中L为增强学习算法,,为t时刻下的奖励 3.2增强学习控制策略的建立 反馈,s表示t时刻下的状态,a,为t时刻下的执行 根据增强学习算法,将所研究的插电式燃料电 动作. 池电动汽车能量管理问题描述为五元组{S,A,{P}, 智能体: y,R},其中,S为由需求功率P(t)、S0C(t)和车速 RL控制策略 (t)组成的有限数量状态集,A为电池的输出功率 豪 P(t)表示的动作集,{P}为状态s下采用动作a的 sP (n)SOC(D.00) a:Pl 状态转移概率分布,y为学习过程中的折扣因子,α 环境:PFCEV 为电池荷电状态的调节因子,R为以整车的性能优 化价值函数表示的回报函数集: 图2智能体和环境之间的交互过程 s,∈S={P(t),v(t),S0C(t)1Pnm∈[-30,50], Fig.2 Iterative interaction between the agent and environment S0Ce[0.1,0.9],v∈[0,120]} 3.1状态转移概率矩阵 a,∈A={Pa(t)lPbm∈[-20,40]} Q_learning算法是以网格矩阵作为动作值函数 b,∈R={-mH,(s,a,)-a(S0C(t)-S0C(0))2} 载体的,因此,采用该算法的一个基本步骤是对需求 (12) 功率进行建模.根据文献[19]知,需求功率变化可 基于增强学习的控制策略是一个从状态到动作 被视为平稳马尔可夫过程,需求功率状态转移概率 的映射函数π:S→A,也就是在给定状态s下,根据 矩阵可以通过最大似然估计利用公式(11)计算: 策略,也就确定下一步的动作a=π(s).对每一个 Pm={P1,P2,P3,…,P,…,P…Pn} 状态s,定义值函数为累积折扣回报的数学期望: P:=P(P.(t+1)=PIP.(t)=P:)=N/N r()=(空) (13) =1 其中,y为折扣因子,表示随时间的推移回报的折扣 (11) 系数,对于一个固定的策略,E表示累计的奖励反馈 其中,将需求功率分为n个状态,P表示在某一车速 量,反馈价值函数广满足贝尔曼方程(Bellman
林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 目标函数 J 包括整个时间跨度内总的氢气消耗 和动力电池 SOC 惩罚函数,其中,m · H2为燃料电池实 际氢气消耗速率,琢 为 SOC 惩罚权重因子,T 为总的 运行时间,则实际优化问题可以描述为: J[u(t),x(t),t] = 乙 T 0 [m · H2 [u(t),x(t)] + 琢 (SOC(t) - SOC(0)) 2 ]dt Pm (t) = Pfc_req (t) + Pbat(t) u(t) = Pbat(t) x(t) = [Pm (t),SOC(t),v(t ì î í ï ï ïï ï ï ïï )] (10) 其中:u ( t) 为控制变量,定义为电池输出功率 Pb (t);x(t)为状态变量,定义为整车需求功率 Pm (t)、 电池 SOC(t)和车速 v(t). 3 基于增强学习算法的能量管理策略 所采用的增强学习算法是一种基于值迭代运算 的 Q_learning 算法,其主要思想就是将状态与动作 构建成 Q鄄鄄table 来存储价值量 Q 值,然后根据 Q 值 来选取动作以获得较大的收益. 该算法包括两个实 体,智能体和环境,两个实体的交互过程如图 2 所 示,其中 RL 为增强学习算法,rt为 t 时刻下的奖励 反馈,st表示 t 时刻下的状态,at为 t 时刻下的执行 动作. 图 2 智能体和环境之间的交互过程 Fig. 2 Iterative interaction between the agent and environment 3郾 1 状态转移概率矩阵 Q_learning 算法是以网格矩阵作为动作值函数 载体的,因此,采用该算法的一个基本步骤是对需求 功率进行建模. 根据文献[19]知,需求功率变化可 被视为平稳马尔可夫过程,需求功率状态转移概率 矩阵可以通过最大似然估计利用公式(11)计算: Pm = {P1 ,P2 ,P3 ,…,Pi,…,Pj…Pn } Pij = P(Pm (t + 1) = Pj | Pm (t) = Pi) = Nij / Ni Ni = 移 n j = 1 N ì î í ï ï ï ï ij (11) 其中,将需求功率分为 n 个状态,Pij表示在某一车速 下由功率 Pi转移到 Pj的转移概率,Nij表示从 Pi转移 到 Pj发生的次数,Ni表示状态 Pi产生的总次数. 图 3 给出了基于城市行驶工况计算状态转移概率矩阵 的过程. 图 3 状态转移概率的计算过程 Fig. 3 Calculation process of the state transfer probability 3郾 2 增强学习控制策略的建立 根据增强学习算法,将所研究的插电式燃料电 池电动汽车能量管理问题描述为五元组{S,A,{P}, 酌,R},其中,S 为由需求功率 Pm (t)、SOC(t)和车速 v(t)组成的有限数量状态集,A 为电池的输出功率 Pb (t)表示的动作集,{P}为状态 s 下采用动作 a 的 状态转移概率分布,酌 为学习过程中的折扣因子,琢 为电池荷电状态的调节因子,R 为以整车的性能优 化价值函数表示的回报函数集: st沂S = {Pm (t),v(t),SOC(t) | Pm沂[ - 30,50], SOC沂[0郾 1,0郾 9],v沂[0,120]} at沂A = {Pbat(t) | Pbat沂[ - 20,40]} rt沂R = { - m · H2 (st,at) - 琢 (SOC(t) - SOC(0)) 2 ì î í ï ïï ï ïï } (12) 基于增强学习的控制策略是一个从状态到动作 的映射函数 仔:S寅A,也就是在给定状态 s 下,根据 策略,也就确定下一步的动作 a = 仔( s). 对每一个 状态 s,定义值函数为累积折扣回报的数学期望: V 仔 (s) = E ( 移 +肄 t = 0 酌 t rt + 1 ) (13) 其中,酌 为折扣因子,表示随时间的推移回报的折扣 系数,对于一个固定的策略,E 表示累计的奖励反馈 量,反 馈 价 值 函 数 V 仔 满 足 贝 尔 曼 方 程 ( Bellman ·1335·
.1336· 工程科学学报.第41卷,第10期 equations): 3.3增强学习能量管理控制策略的求解 严(s)=r(s)+y∑P(s')(s')(14) 基于增强学习的控制策略就是通过基于值迭代 的Q_learning算法,求解给定离散状态和动作空间 其中,s'表示状态s执行动作π(s)后的下一个可能 下的最优值函数,通过多次迭代得到最优控制策略, 状态,其服从P分布.上式有两部分组成:即时 其实现流程如图4所示.根据历史工况数据可以求 回报R(s)及未来累积折扣回报期望E,~Pe[V 得需求功率状态转移矩阵P,根据性能优化价值函 (s)].求解V的目的是找到一个当前状态s下最 数可以求得回报函数矩阵R,选择一定的折扣因子 优的行动策略π(s),定义最优的值函数为: y和迭代次数N,将四元组{P,R,Y,N}输入马尔 V(s)=maxV(s) (15) 科夫决策过程工具箱求解得到最优价值函数和对应 其贝尔曼方程形式为: 的控制策略 r(s)=()+yAP.(s)r~()16) 历史工况数据 表示为增强学习中的Q函数形式为: 状态变量和控制变量离散化 (V(s)=maxQ(s,a) eA (17) 计算状态转移 计算离散状态和动作 Q(s,a)=r(s)+yp(s')V(s') 概率矩阵P 空间下的回报函数矩阵R 其中,Q(s,a)表示在s状态下执行动作a作为第一 折扣 MDP工具箱 迭代 个动作时的最大累计折扣回报.通过求解最优值函 因子y 次数N 数来确定最优控制策略: 控制策略 m(s)=agma(ΣP(s')r'(s))(18) 图4基于增强学习的控制策略求解过程 对于值迭代的Q_learning算法而言,在给出离 Fig.4 Process of solving the control strategy based on RL 散状态和动作空间之后,对应于状态s和动作a的 图5给出在城市行驶工况,选择折扣因子为 Q值和最优Q值可以递归定义为: 0.9,迭代次数为10000时,求解过程的百步均方差, Qsa)=s.e)+yP.(0.a19) 可以看出,随着迭代次数的增加,Q值的百步均方差 Q'so)=o)+ygP.(m0'a 逐渐减小并趋近于0,这表明Q值逐渐收敛于某一 定值,验证了该算法的收敛性.如图6给出了车速 (20) 为30kmh-J,电池S0C为0.9时,通过Q_learning 最终,Q_learning算法中Q值的迭代更新规则 算法求解得到的状态值函数最优值以及迭代后的Q 可以表示为: 值,可以看出迭代后的Q值逐渐收敛于状态值函数 Q(s,a)+Q(s,a)+n(r+ymaxQ(s',a')-Q(s,a)) 的最优值,这表明了增强学习算法的有效性 (21) 200 相对较大 -g=10 km.h 其中,7是学习率,η∈[0,1],学习率越大,收敛速 9150H -r=20km·h1 --=30km-h- 度越快,但会导致过拟合问题,本文中,取值为0.1. 100 50 趋近于0 表2给出了Q-learning算法在Matlab中的计算流 程,基于Q_learning的最优控制策略通过多次迭代 20 40 60 100 迭代次数x100 得到. 图5Q_leaming学习选代中的百步均方差 表2Q--learning算法在Matlab中的计算流程 Fig.5 100-step mean square error in Q_learning iteration Table 2 Computing process of Q-learning algorithms in Matlab 初始化Q(s,a),s∈S,a∈A(s),任意Q(s,a)=0 4 仿真与硬件在环试验结果分析 初始化状态S(Pm(t),SOC(t),() 重复(对每一次迭代中的每一步): 为了验证基于增强学习的能量管理策略的可行 根据状态S选取一个动作A(P(:)执行 性和有效性,首先通过Matlab/Simulink建立应用于 执行完A动作后观察回报值R和新的状态S” Q(s,a)+(s,a)+nr+ymaxe(s',a')-0(s,a)) 能量管理策略的整车仿真模型进行仿真试验,然后 S+-S' 通过硬件在环试验,采用不同的能量管理策略试验 循环直到S终止 验证
工程科学学报,第 41 卷,第 10 期 equations): V 仔 (s) = r(s) + 酌 移 +肄 s忆沂S Ps仔(s) (s忆)V 仔 (s忆) (14) 其中,s忆表示状态 s 执行动作 仔( s)后的下一个可能 状态,其服从 Ps仔(s) 分布. 上式有两部分组成:即时 回报 R(s)及未来累积折扣回报期望 Es忆 ~ Ps仔(s) [V 仔 (s忆)]. 求解 V 仔的目的是找到一个当前状态 s 下最 优的行动策略 仔(s),定义最优的值函数为: V * (s) = max 仔 V 仔 (s) (15) 其贝尔曼方程形式为: V * (s) = r(s) + max a沂A 酌 移s忆沂S Psa (s忆)V * (s忆) (16) 表示为增强学习中的 Q 函数形式为: V * (s) = max a沂A Q(s,a) Q(s,a) = r(s) + 酌Psa (s忆)V * (s忆 { ) (17) 其中,Q(s,a)表示在 s 状态下执行动作 a 作为第一 个动作时的最大累计折扣回报. 通过求解最优值函 数来确定最优控制策略: 仔 * (s) = arg max a沂 ( A 移s忆沂S Psa (s忆)V * (s忆) ) (18) 对于值迭代的 Q_learning 算法而言,在给出离 散状态和动作空间之后,对应于状态 s 和动作 a 的 Q 值和最优 Q 值可以递归定义为: Q(s,a) = r(s,a) + 酌 移s忆沂S Psa (s忆)Q(s忆,a忆)(19) Q * (s,a) = r(s,a) + 酌 移s忆沂S Psa (s忆)max a忆 Q * (s忆,a忆) (20) 最终,Q_learning 算法中 Q 值的迭代更新规则 可以表示为: Q(s,a)饮Q(s,a) + 浊(r + 酌 max a忆 Q(s忆,a忆) -Q(s,a)) (21) 其中,浊 是学习率,浊沂[0,1],学习率越大,收敛速 度越快,但会导致过拟合问题,本文中,取值为 0郾 1. 表 2 给出了 Q鄄鄄 learning 算法在 Matlab 中的计算流 程,基于 Q_learning 的最优控制策略通过多次迭代 得到. 表 2 Q鄄鄄learning 算法在 Matlab 中的计算流程 Table 2 Computing process of Q鄄鄄learning algorithms in Matlab 初始化 Q(s,a),s沂S,a沂A(s),任意 Q(s,a) = 0 初始化状态 S(Pm (t),SOC(t),v(t)) 重复(对每一次迭代中的每一步): 根据状态 S 选取一个动作 A(Pb(t))执行 执行完 A 动作后观察回报值 R 和新的状态 S忆 Q(s,a)饮Q(s,a) + 浊(r + 酌 max a忆 Q(s忆,a忆) - Q(s,a)) S饮S忆 循环直到 S 终止 3郾 3 增强学习能量管理控制策略的求解 基于增强学习的控制策略就是通过基于值迭代 的 Q_learning 算法,求解给定离散状态和动作空间 下的最优值函数,通过多次迭代得到最优控制策略, 其实现流程如图 4 所示. 根据历史工况数据可以求 得需求功率状态转移矩阵 P,根据性能优化价值函 数可以求得回报函数矩阵 R,选择一定的折扣因子 酌 和迭代次数 N,将四元组{P, R, 酌, N}输入马尔 科夫决策过程工具箱求解得到最优价值函数和对应 的控制策略. 图 4 基于增强学习的控制策略求解过程 Fig. 4 Process of solving the control strategy based on RL 图 5 给出在城市行驶工况,选择折扣因子为 0郾 9,迭代次数为 10000 时,求解过程的百步均方差, 可以看出,随着迭代次数的增加,Q 值的百步均方差 逐渐减小并趋近于 0,这表明 Q 值逐渐收敛于某一 定值,验证了该算法的收敛性. 如图 6 给出了车速 为 30 km·h - 1 ,电池 SOC 为 0郾 9 时,通过 Q_learning 算法求解得到的状态值函数最优值以及迭代后的 Q 值,可以看出迭代后的 Q 值逐渐收敛于状态值函数 的最优值,这表明了增强学习算法的有效性. 图 5 Q_learning 学习迭代中的百步均方差 Fig. 5 100鄄step mean square error in Q_learning iteration 4 仿真与硬件在环试验结果分析 为了验证基于增强学习的能量管理策略的可行 性和有效性,首先通过 Matlab / Simulink 建立应用于 能量管理策略的整车仿真模型进行仿真试验,然后 通过硬件在环试验,采用不同的能量管理策略试验 验证. ·1336·
林歆悠等:基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1337. (a) (b) 0 -200 -200 400 -400 40 40 电潘功华 0 、0 20 40 40 0 40 20 0 -20 需求功率kW 电池功率 20 需求功率kW 图6增强学习价值函数优化结果.()价值函数的最优值:(b)迭代后的Q值 Fig.6 Optimization results of the RL cost function:(a)optimal solution of cost function;(b)values after iteration 4.1增强学习策略的可行性验证 汽车的仿真模型,为了与实际工作情况相一致,便于 以动力系统数学模型为基础,在Matlab/Simu- 建立起控制系统的硬件在环仿真环境,采用前向仿 lik开发环境下,建立所研究的燃料电池混合动力 真,该仿真流程如图7所示 加速 目标车速 制动踏板 日标转矩 电机需求 DC/DC 司机意图 功率 功率 目标功率 DC/DC 燃料电池 司机模型 解释 需求 能量管理 模型 系统模型 荷电状态个 电池 氢 电机 目标 动力电池 功率 气 需求 功率 模型 电机实际 DC/DC 实际车速 整车动力 功率 电机 电池实际功率 学模型 模型 实际功率 图7燃料电池混合动力汽车仿真模型 Fig.7 Simulation model of the fuel cell hybrid electric vehicle 采用模拟现实拥堵市区交通中走走停停的城市 量恢复一定值后再次由电池驱动车辆,电池在较低 行驶工况进行循环加载仿真试验,在该工况下整车 荷电状态条件下,处于反复充放电状态,该策略下氢 仿真的速度对比如图8所示,从图中可以看出实际 气消耗量为0.8334kg.基于等效消耗最小策略在电 车速与目标车速基本一致 池电量消耗至设定值0.2后启动燃料电池,在该阶 100 段基于等效氢气消耗最小原则,实时地分配电池和 一目标车速 80 一一一实际车速 燃料电池之间的能量,使电池的电量保持在设定值 60 上下浮动,最终氢气消耗仅为0.5774kg.基于增强 学习算法的策略在电池电量充足的情况下,使用电 20 池驱动的成本值较小,因此,主要使用电池驱动车 200 400 600 800 1000 1200 400 辆,当电池消耗到一定程度时,控制策略根据计算得 运行时间s 到的最优成本值开始频繁调用燃料电池介入工作, 图8实际车速与目标车速对比 辅助电池来共同驱动车辆,使电池的电量消耗速率 Fig.8 Comparison between actual and target speeds 明显降低,氢气的消耗速率在此时也稍微增加,但 在设定电池S0C的初始值为0.9,行驶里程为 是,在仿真结束时仍可以使电池保持一定的电量,且 200km的情况下,将基于增强学习的能量管理策略 综合氢气消耗量相对于基于等效消耗最小策略的控 与基于规则和基于等效消耗最小策略的策略进行仿 制策略进一步减少,仅为0.5028kg. 真试验对比,图9给出了动力电池S0C变化以及电 如图10给出的是燃料电池系统输出功率对比, 池电量消耗和燃料电池氢气消耗的结果对比. 同样可以看出,在电池电量充足时,燃料电池参与驱 可以看出,当电池的电量较高时,三种策略都倾 动的功率较小且不频繁,当电量降低时后,基于增强 向于优先消耗电池电量,燃料电池处于不工作状态, 学习的控制策略相比于另两种策略燃料电池更早地 基于规则的策略在电池电量消耗到设定值0.2时启 参与驱动车辆,这也验证了图9中电池荷电状态的 动燃料电池来驱动车辆,并对电池进行充电,电池电 变化.另外,图11表示的是燃料电池系统三种策略
林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 图 6 增强学习价值函数优化结果. (a)价值函数的最优值;(b)迭代后的 Q 值 Fig. 6 Optimization results of the RL cost function:(a)optimal solution of cost function; (b) Q values after iteration 4郾 1 增强学习策略的可行性验证 以动力系统数学模型为基础,在 Matlab / Simu鄄 link 开发环境下,建立所研究的燃料电池混合动力 汽车的仿真模型,为了与实际工作情况相一致,便于 建立起控制系统的硬件在环仿真环境,采用前向仿 真,该仿真流程如图 7 所示. 图 7 燃料电池混合动力汽车仿真模型 Fig. 7 Simulation model of the fuel cell hybrid electric vehicle 采用模拟现实拥堵市区交通中走走停停的城市 行驶工况进行循环加载仿真试验,在该工况下整车 仿真的速度对比如图 8 所示,从图中可以看出实际 车速与目标车速基本一致. 图 8 实际车速与目标车速对比 Fig. 8 Comparison between actual and target speeds 在设定电池 SOC 的初始值为 0郾 9,行驶里程为 200 km 的情况下,将基于增强学习的能量管理策略 与基于规则和基于等效消耗最小策略的策略进行仿 真试验对比,图 9 给出了动力电池 SOC 变化以及电 池电量消耗和燃料电池氢气消耗的结果对比. 可以看出,当电池的电量较高时,三种策略都倾 向于优先消耗电池电量,燃料电池处于不工作状态, 基于规则的策略在电池电量消耗到设定值 0郾 2 时启 动燃料电池来驱动车辆,并对电池进行充电,电池电 量恢复一定值后再次由电池驱动车辆,电池在较低 荷电状态条件下,处于反复充放电状态,该策略下氢 气消耗量为0郾 8334 kg. 基于等效消耗最小策略在电 池电量消耗至设定值 0郾 2 后启动燃料电池,在该阶 段基于等效氢气消耗最小原则,实时地分配电池和 燃料电池之间的能量,使电池的电量保持在设定值 上下浮动,最终氢气消耗仅为 0郾 5774 kg. 基于增强 学习算法的策略在电池电量充足的情况下,使用电 池驱动的成本值较小,因此,主要使用电池驱动车 辆,当电池消耗到一定程度时,控制策略根据计算得 到的最优成本值开始频繁调用燃料电池介入工作, 辅助电池来共同驱动车辆,使电池的电量消耗速率 明显降低,氢气的消耗速率在此时也稍微增加,但 是,在仿真结束时仍可以使电池保持一定的电量,且 综合氢气消耗量相对于基于等效消耗最小策略的控 制策略进一步减少,仅为 0郾 5028 kg. 如图 10 给出的是燃料电池系统输出功率对比, 同样可以看出,在电池电量充足时,燃料电池参与驱 动的功率较小且不频繁,当电量降低时后,基于增强 学习的控制策略相比于另两种策略燃料电池更早地 参与驱动车辆,这也验证了图 9 中电池荷电状态的 变化. 另外,图 11 表示的是燃料电池系统三种策略 ·1337·
.1338. 工程科学学报.第41卷,第10期 1.0r 30 增强学习策略 b 增强学习策略 一一一等效消耗最小策略 20 等效消耗最小策路 一基于规则 基于规则 0.4 C 10 0020.40.60.81.012 1.41.61.82.0 0.2040.60.81.01.21.41.61.820 时间(10s) 时间(10心s) 1.0p 是0.8 (e) 增强学习策略 0.6 一一一等效消耗最小策略 一基于规则 0.2 0.20.40.60.81.01.21.41.61.82.0 时间(10s) 图9不同策略下的验证结果对比.(a)电池荷电状态变化对比:(b)电池能耗对比:(c)氢气消耗量对比 Fig.9 Comparison of the results for three strategies:(a)comparison of the battery SOC;(b)comparison of battery energy consumption;(c)compari- son of fuel cell hydrogen consumption 下实时效率的变化情况,由于基于规则的策略下燃 其中,W表示整车综合能耗,kWh,Wa表示电池 料电池在电池电量不足时存在持续的高功率工作 消耗电量,m4,为氢气消耗量,H,为氢气燃烧的热值, 点,在纯电行驶结束后,氢气消耗速率明显高于其他 28667kcal·g,n.为燃料电池系统的效率.在不同 两种策略,从而随行驶里程的增加,最终氢气消耗量 行驶里程的城市行驶工况下,基于不同控制策略进 最大.而基于增强学习和等效消耗最小策略均可以 行仿真,得到的电池最终S0C、燃料电池氢气消耗量 保证燃料电池尽可能的工作在高效工作点,从而保 和整车综合能耗如表3所示. 证整车的经济性, 从表3可以看出,当行驶里程较小时,主要以消 耗电池电量为主,随着行驶里程的增加,三种策略 g30 增强学习策略 一一一 等效消耗 下,整车的最终S0C都会控制在设定最低值0.2. 20 最小策略 一基于规则 计算整车的百公里综合能耗,结果如表4所示,不同 10 行驶里程的整车百公里能耗对比如图12所示,可以 看出,随着行驶里程的增加,基于规则的策略整车百 00.20.40.60.8 1.01.21.41.61.82.0 时间/10s 公里综合能耗逐渐增大,等效消耗最小策略的下整 车百公里能耗基本维持稳定,基于增强学习策略下 图10燃料电池系统输出功率对比 Fig.10 Comparison of output power of fuel cell system 的能耗接近于等效消耗最小策略策略,并且随里程 的增加,整车的百公里能耗随之会逐渐降低,在 一增强学习策略一一一等效消耗最小策路 基于规则 100200和300km行驶里程下,整车百公里能耗分 0.6 别降低8.84%、29.5%和38.6%. 解0.5 0.4 4.3硬件在环试验结果与分析 3 0 4.3.1硬件在环试验系统 为进一步验证基于增强学习策略的有效性,采 0 0.20.40.60.81.01.21.41.61.82.0 用基于快速原型的开发平台的硬件设计硬件在环试 时间10s 验.试验台架如图13所示,该台架采用双电机对拖 图11燃料电池系统效率变化 结构实现试验工况的加载与驱动,主要由负载电机、 Fig.11 Change of fuel cell system efficiency 驱动电机、电机控制器、快速开发平台硬件及附件、 4.2不同行驶里程验证对比 燃料电池系统、锂离子电池组及其管理系统、数据采 为了客观比较不同策略对整车经济性的影响, 集控制器局域网络CAN及其控制系统组成, 通过公式(21)将整车氢气消耗转换为电量消耗,计 基于快速原型D2P的开发平台,电子控制单元 算整车等效综合能耗. ECU硬件采用Freescale的MPC系统32位芯片,提 H2H'刀e 供控制器局域网络(controller area network,CAN)通 W.nenp What+ (22) 860.04 讯接口,P℃连接接口以及完整的线束,另外还包括
工程科学学报,第 41 卷,第 10 期 图 9 不同策略下的验证结果对比. (a)电池荷电状态变化对比;(b)电池能耗对比;(c)氢气消耗量对比 Fig. 9 Comparison of the results for three strategies: (a)comparison of the battery SOC;(b)comparison of battery energy consumption;(c)compari鄄 son of fuel cell hydrogen consumption 下实时效率的变化情况,由于基于规则的策略下燃 料电池在电池电量不足时存在持续的高功率工作 点,在纯电行驶结束后,氢气消耗速率明显高于其他 两种策略,从而随行驶里程的增加,最终氢气消耗量 最大. 而基于增强学习和等效消耗最小策略均可以 保证燃料电池尽可能的工作在高效工作点,从而保 证整车的经济性. 图 10 燃料电池系统输出功率对比 Fig. 10 Comparison of output power of fuel cell system 图 11 燃料电池系统效率变化 Fig. 11 Change of fuel cell system efficiency 4郾 2 不同行驶里程验证对比 为了客观比较不同策略对整车经济性的影响, 通过公式(21)将整车氢气消耗转换为电量消耗,计 算整车等效综合能耗. Wenergy = Wbat + mH2·Hf·浊fc 860郾 04 (22) 其中,Wenergy表示整车综合能耗,kW·h,Wbat表示电池 消耗电量,mH2为氢气消耗量,Hf为氢气燃烧的热值, 28667 kcal·g - 1 ,浊fc为燃料电池系统的效率. 在不同 行驶里程的城市行驶工况下,基于不同控制策略进 行仿真,得到的电池最终 SOC、燃料电池氢气消耗量 和整车综合能耗如表 3 所示. 从表 3 可以看出,当行驶里程较小时,主要以消 耗电池电量为主,随着行驶里程的增加,三种策略 下,整车的最终 SOC 都会控制在设定最低值 0郾 2. 计算整车的百公里综合能耗,结果如表 4 所示,不同 行驶里程的整车百公里能耗对比如图 12 所示,可以 看出,随着行驶里程的增加,基于规则的策略整车百 公里综合能耗逐渐增大,等效消耗最小策略的下整 车百公里能耗基本维持稳定,基于增强学习策略下 的能耗接近于等效消耗最小策略策略,并且随里程 的增加,整车的百公里能耗随之会逐渐降低,在 100、200 和 300 km 行驶里程下,整车百公里能耗分 别降低 8郾 84% 、29郾 5% 和 38郾 6% . 4郾 3 硬件在环试验结果与分析 4郾 3郾 1 硬件在环试验系统 为进一步验证基于增强学习策略的有效性,采 用基于快速原型的开发平台的硬件设计硬件在环试 验. 试验台架如图 13 所示,该台架采用双电机对拖 结构实现试验工况的加载与驱动,主要由负载电机、 驱动电机、电机控制器、快速开发平台硬件及附件、 燃料电池系统、锂离子电池组及其管理系统、数据采 集控制器局域网络 CAN 及其控制系统组成. 基于快速原型 D2P 的开发平台,电子控制单元 ECU 硬件采用 Freescale 的 MPC 系统 32 位芯片,提 供控制器局域网络(controller area network, CAN)通 讯接口,PC 连接接口以及完整的线束,另外还包括 ·1338·
林歆悠等:基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1339· 表3不同行驶里程的仿真运行结果对比 Table 3 Comparison of simulation results under different mileages 控制策略 电池荷电状态 氢气消耗/kg 综合能耗/(kWh) 能耗降低/% 规则,50km 0.5491 0 7.56 [-] 等效最小,50km 0.5491 0 7.56 0 增强学习,50km 0.5521 0.006 7.56 0 规则,100km 0.3022 0.106 16.07 [-] 等效最小,100km 0.2225 0.014 14.65 8.84 增强学习,100km 0.3472 0.114 14.76 8.15 规则,150km 0.2072 0.382 27.19 [-] 等效最小,150km 0.2104 0.297 22.28 18.1 增强学习,150km 0.2076 0.306 22.53 17.1 规则,200km 0.2856 0.833 39.7 [-] 等效最小,200km 0.2014 0.577 28.75 27.6 增强学习,200km 0.2012 0.503 27.99 29.5 规则,300km 0.2401 1.538 62.05 [-] 等效最小,300km 0.2021 1.158 41.85 32.3 增强学习,300km 0.2013 0.913 38.35 38.2 表4整车的综合百公里能耗 实验 电机控制器负载电机驱动电机动力系统 Table 4 Comprehensive energy consumption for one hundred kilometers 操作台 kW.h 里程/km 规则 等效最小 增强学习 电池数据 50 15.12 15.12 15.12 监控系统 100 16.07 14.65 14.76 150 18.13 14.85 15.02 200 19.85 14.38 14 控制策略模型 300 20.83 13.95 12.78 试验数据 整车控制器 采集系统 CAN总线 25 ☑规则☒等效最小⑧增强学习 图13硬件在环试验台架 20 Fig.13 Test bench of the hardware in loop 15 10 域网络(USB-CAN)将笔记本电脑和电子控制单元 连接,然后,MotoTune调入SRZ文件,将代码下载到 50 100 150 200 00 开发电子控制单元中,在新能源车辆试验台架上完 行驶里程km 成安装调试及测试标定等工作,实现硬件在环试验, 图12整车百公里综合能耗对比 Fig.12 Comparison of comprehensive energy consumption for one 并对实验数据实时监控记录. hundred kilometers 4.3.2试验结果对比与分析 基于Matlab/Simulink的建模的软件工具包Mo- 设置电池S0C的初始值为0.3,加载城市行驶 toHawk和刷写/标定软件MotoTune.基于该系统的 工况进行硬件在环试验.图15~图17分别给出了 硬件在环试验实施方案如图14所示,在Matlab/ 试验与仿真的电机功率,电池功率和燃料电池功率 Simulink环境中采用D2P一MotoHawk快捷地构建 对比.可以看出,硬件在环实验中,各部件的实际输 控制系统模型及控制策略,通过实时代码转换(real- 出功率均在高功率点无法及时满足需求,这与各部 time workshop,RTW)模块、任务管理及I/O功能模 件在实际工作中输出迟滞和运行损耗有关,但是运 块将所设计的基于增强学习的控制策略转换为相应 行趋势大致相同,基本符合所制定的控制策略的仿 的C代码,经硬件连接器通用串行总线-控制器局 真变化
林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 表 3 不同行驶里程的仿真运行结果对比 Table 3 Comparison of simulation results under different mileages 控制策略 电池荷电状态 氢气消耗/ kg 综合能耗/ (kW·h) 能耗降低/ % 规则, 50 km 0郾 5491 0 7郾 56 [ - ] 等效最小, 50 km 0郾 5491 0 7郾 56 0 增强学习, 50 km 0郾 5521 0郾 006 7郾 56 0 规则, 100 km 0郾 3022 0郾 106 16郾 07 [ - ] 等效最小, 100 km 0郾 2225 0郾 014 14郾 65 8郾 84 增强学习, 100 km 0郾 3472 0郾 114 14郾 76 8郾 15 规则, 150 km 0郾 2072 0郾 382 27郾 19 [ - ] 等效最小, 150 km 0郾 2104 0郾 297 22郾 28 18郾 1 增强学习, 150 km 0郾 2076 0郾 306 22郾 53 17郾 1 规则, 200 km 0郾 2856 0郾 833 39郾 7 [ - ] 等效最小, 200 km 0郾 2014 0郾 577 28郾 75 27郾 6 增强学习, 200 km 0郾 2012 0郾 503 27郾 99 29郾 5 规则, 300 km 0郾 2401 1郾 538 62郾 05 [ - ] 等效最小, 300 km 0郾 2021 1郾 158 41郾 85 32郾 3 增强学习, 300 km 0郾 2013 0郾 913 38郾 35 38郾 2 表 4 整车的综合百公里能耗 Table 4 Comprehensive energy consumption for one hundred kilometers kW·h 里程/ km 规则 等效最小 增强学习 50 15郾 12 15郾 12 15郾 12 100 16郾 07 14郾 65 14郾 76 150 18郾 13 14郾 85 15郾 02 200 19郾 85 14郾 38 14 300 20郾 83 13郾 95 12郾 78 图 12 整车百公里综合能耗对比 Fig. 12 Comparison of comprehensive energy consumption for one hundred kilometers 基于 Matlab / Simulink 的 建 模 的 软 件 工 具 包 Mo鄄 toHawk 和刷写/ 标定软件 MotoTune. 基于该系统的 硬件在环试验实施方案如图 14 所示,在 Matlab / Simulink 环境中采用 D2P—MotoHawk 快捷地构建 控制系统模型及控制策略,通过实时代码转换(real鄄 time workshop, RTW)模块、任务管理及 I/ O 功能模 块将所设计的基于增强学习的控制策略转换为相应 的 C 代码,经硬件连接器通用串行总线鄄鄄 控制器局 图 13 硬件在环试验台架 Fig. 13 Test bench of the hardware in loop 域网络(USB鄄鄄CAN)将笔记本电脑和电子控制单元 连接,然后,MotoTune 调入 SRZ 文件,将代码下载到 开发电子控制单元中,在新能源车辆试验台架上完 成安装调试及测试标定等工作,实现硬件在环试验, 并对实验数据实时监控记录. 4郾 3郾 2 试验结果对比与分析 设置电池 SOC 的初始值为 0郾 3,加载城市行驶 工况进行硬件在环试验. 图 15 ~ 图 17 分别给出了 试验与仿真的电机功率,电池功率和燃料电池功率 对比. 可以看出,硬件在环实验中,各部件的实际输 出功率均在高功率点无法及时满足需求,这与各部 件在实际工作中输出迟滞和运行损耗有关,但是运 行趋势大致相同,基本符合所制定的控制策略的仿 真变化. ·1339·
.1340· 工程科学学报.第41卷,第10期 。。“信号连接一··电力连接 ◆导入线 一机械连接 快速原型控制器 C代码 快速原型开发软件 USB-CAN 行驶工况 控锕策略 FCHEV模型 ■细 编码测试 SRZ/A2L GreenHill 实时代码 D2P制写 上位机 文件 编译器 转换 标定软件 控制器 局域网 电机 整车 电机 控制器 控制器 控制器 控制柜 转矩、转速传感器 电池组及管理系统 负截电机 离合器 变速器 驱动电机 DC/DC 燃料电池 系统 图14硬件在环试验测试系统 Fig.14 Hardware in loop test system 试验结果可知,所建立的基于增强学习的插电式燃 0 一仿真结果 一试验结果 料电池汽车能量管理策略可达到预期的经济性 效果 0.35 2.4 仿直结果 0.30 试验结果 2033 1.959 1.8 2 400 600800 100012001400 时间/s 1.2 图15电机功率试验与仿真结果对比 0.20 0.6 Fig.15 Comparison of motor power between test and simulation 0.15 200 400 600800100012001400 时间/s 图18电池荷电状态和整车综合能耗仿真与试验结果对比 Fig.18 Comparison of battery SOC and vehicle integrated energy consumption between test and simulation 仿真结果-试验结果 200 400 600 800 100012001400 结论 时间s 图16电池功率试验与仿真结果对比 以一款插电式燃料电池混合动力系统为研究对 Fig.16 Comparison of battery power between test and simulation 象,建立基于增强学习的能量管理控制策略,并进行 仿真和硬件在环试验验证.仿真结果表明,在不同 行驶里程下,电池的电量可以被保持在一定的水平, 一仿真结果 试验结果 与基于规则的能量管理策略相比,整车的最终综合 能耗得到明显的降低,在100、200和300km行驶里 程下,整车百公里综合能耗分别降低8.84%、 20 400 600 800 10001200 1400 29.5%和38.6%,在城市行驶工况下,硬件在环试 时间s 验整车综合能耗降低20.8%.综上所述,所制定的 图17燃料电池功率试验与仿真结果对比 基于增强学习的能量管理策略在整车优化中具有一 Fig.17 Comparison of fuel cell power between test and simulation 定的可行性和有效性,可为进一步解决智能网联汽 图18表示该工况下仿真与试验的电池S0C和 车环境下的不同续航行驶里程电量消耗自适应能量 整车综合能耗对比,试验得到的综合能耗2.033kW 管理分配提供理论参考和方法奠定基础. ,h略高仿真得到的能耗1.959kW·h,与基于规则策 略的2.566kW·h相比,提高了20.8%,基本符合所 参考文献 制定的控制策略的仿真结果.因此,根据硬件在环 [1]Xu L F.Hua J F,Bao L,et al.Optimized strategy on equivalent
工程科学学报,第 41 卷,第 10 期 图 14 硬件在环试验测试系统 Fig. 14 Hardware in loop test system 图 15 电机功率试验与仿真结果对比 Fig. 15 Comparison of motor power between test and simulation 图 16 电池功率试验与仿真结果对比 Fig. 16 Comparison of battery power between test and simulation 图 17 燃料电池功率试验与仿真结果对比 Fig. 17 Comparison of fuel cell power between test and simulation 图 18 表示该工况下仿真与试验的电池 SOC 和 整车综合能耗对比,试验得到的综合能耗 2郾 033 kW ·h 略高仿真得到的能耗1郾 959 kW·h,与基于规则策 略的 2郾 566 kW·h 相比,提高了 20郾 8% ,基本符合所 制定的控制策略的仿真结果. 因此,根据硬件在环 试验结果可知,所建立的基于增强学习的插电式燃 料电池汽车能量管理策略可达到预期的经济性 效果. 图 18 电池荷电状态和整车综合能耗仿真与试验结果对比 Fig. 18 Comparison of battery SOC and vehicle integrated energy consumption between test and simulation 5 结论 以一款插电式燃料电池混合动力系统为研究对 象,建立基于增强学习的能量管理控制策略,并进行 仿真和硬件在环试验验证. 仿真结果表明,在不同 行驶里程下,电池的电量可以被保持在一定的水平, 与基于规则的能量管理策略相比,整车的最终综合 能耗得到明显的降低,在 100、200 和 300 km 行驶里 程下, 整 车 百 公 里 综 合 能 耗 分 别 降 低 8郾 84% 、 29郾 5% 和 38郾 6% ,在城市行驶工况下,硬件在环试 验整车综合能耗降低 20郾 8% . 综上所述,所制定的 基于增强学习的能量管理策略在整车优化中具有一 定的可行性和有效性,可为进一步解决智能网联汽 车环境下的不同续航行驶里程电量消耗自适应能量 管理分配提供理论参考和方法奠定基础. 参 考 文 献 [1] Xu L F, Hua J F, Bao L, et al. Optimized strategy on equivalent ·1340·
林歆悠等:基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1341· hydrogen consumption for fuel cell hybrid electric bus.China J 电池混合动力汽车能量管理策略.汽车工程,2006,28(9): Highway Transport,2009,22(1):104 798) (徐梁飞,华剑锋,包磊,等.燃料电池混合动力客车等效氢 [11]Shi Y Q,He B.Cao G J,et al.A study on the energy manage- 耗优化策略.中国公路学报,2009,22(1):104) ment strategy for fuel cell electric vehicle based on instantaneous [2]Yun H T,Liu S D,Zhao Y L,et al.Energy management for fuel optimization.Autom Eng,2008,30(1):30 cell hybrid vehicles based on a stiffness coefficient model.Int (石英乔,何彬,曹桂军,等燃料电池混合动力瞬时优化能 Hydrogen Energy,2015,40(1):633 量管理策略研究.汽车工程,2008,30(1):30) [3]Oldenbroek V,Verhoef L A,Van Wijk A J M.Fuel cell electrie [12]Wang Q P,Du S Y,Li L,et al.Real-time energy management vehicle as a power plant:Fully renewable integrated transport and strategy for plug-in hybrid electric bus on particle swarm optimiza- energy system design and analysis for smart city areas.Int I Hy- tion algorithm.J Mech Eng,2017.53(4):77 drogen Energy,2017,42(12):8166 (王钦普,杜思字,李亮,等.基于粒子群算法的插电式混合 [4]Yang W B.Chen Q S,Tian G Y,et al.Shifting schedule and 动力客车实时策略.机械工程学报,2017,53(4):77) torque distribution strategy for the plug-in hybrid electric vehicle. [13]Lin X Y,Feng Q G.Zhang S B.Global optimal discrete equiva- J Mech Eng,2013,49(14):91 lent factor of equivalent fuel consumption minimization strategy (杨伟减,陈全世,田光宇,等.插电式混合动力汽车换挡规 based energy management strategy for a series-parallel plug-in hy- 律及转矩分配策略.机械工程学报,2013,49(14):91) brid electrie vehicle.J Mech Eng,2016,52(20):102 [5]Ahmadi L,Croiset E,Elkamel A,et al.Effect of socio-economic (林散悠,冯其高,张少博.等效因子离散全局优化的等效 factors on EV/HEV/PHEV adoption rate in Ontario.Technol 燃油瞬时消耗最小策略能量管理策略.机械工程学报, Forecast Social Change,2015,98:93 2016,52(20):102) [6]Montazeri-Gh M.Mahmoodi-K M.An optimal energy management [14]Hu Z Y.Li J Q,Xu L F.et al.Multi-objective energy manage- development for various configuration of plug-in and hybrid electric ment optimization and parameter sizing for proton exchange mem- vehicle.J Cent South Univ,2015,22(5):1737 brane hybrid fuel cell vehicles.Energy Conrers Manage,2016, [7]Qin DT,Zhao X Q,Su L,et al.Variable parameter energy man- 129:108 agement strategy for plug-in hybrid electric vehicle.China J High- [15]Xu L F,Mueller C D.Li J Q,et al.Multi-objective component way Transport,2015,28(2):112 sizing based on optimal energy management strategy of fuel cell (秦大同,赵新庆,苏岭,等.插电式混合动力汽车变参数能 electric vehicles.Appl Energy,2015,157:664 量管理策略.中国公路学报,2015,28(2):112) [16]Han J H,Park Y,Kum D.Optimal adaptation of equivalent fac- [8]Lin C C,Peng H,Jeon S,et al.Control of a hybrid electrie truck tor of equivalent consumption minimization strategy for fuel cell based on driving pattem recognition//Proceedings of the 2002 Ad- hybrid electric vehicles under active state inequality constraints. ranced Vehicle Control Conference.Hiroshima,2002:9 JPower Sources,2014,267:491 [9]Lin X Y,Sun D Y.Development of control strategy for a series- [17]Murgovski N,Johannesson L M,Sjoberg J.Engine on/off control parallel hybrid electric city bus based on roadway type recognition. for dimensioning hybrid electric powertrains via convex optimiza- China Mech Eng,2012,23(7):869 tion.IEEE Trans Veh Technol,2013,62(7):2949 (林歆悠,孙冬野.基于工况识别的混联式混合动力客车控制 [18]Zheng C H,Oh C E,Park Y 1,et al.Fuel economy evaluation 策略研究.中国机械工程,2012,23(7):869) of fuel cell hybrid vehicles based on equivalent fuel consumption. [10]Zhu Y,Wu Z H,Tian G Y,et al.An energy management strate- Int J Hydrogen Energy,2012,37(2):1790 gy for fuel cell hybrid electric vehicle based on Markov deeision [19]Huang Y J.Wang H,Khajepour A,et al.Model predictive con- process.Autom Eng,2006.28(9):798 trol power management strategies for HEVs:a review.Pouer (朱元,吴志红,田光字,等.基于马尔可夫决策理论的燃料 Sources,2017,341:91
林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 hydrogen consumption for fuel cell hybrid electric bus. China J Highway Transport, 2009, 22(1): 104 (徐梁飞, 华剑锋, 包磊, 等. 燃料电池混合动力客车等效氢 耗优化策略. 中国公路学报, 2009, 22(1): 104) [2] Yun H T, Liu S D, Zhao Y L, et al. Energy management for fuel cell hybrid vehicles based on a stiffness coefficient model. Int J Hydrogen Energy, 2015, 40(1): 633 [3] Oldenbroek V, Verhoef L A, Van Wijk A J M. Fuel cell electric vehicle as a power plant: Fully renewable integrated transport and energy system design and analysis for smart city areas. Int J Hy鄄 drogen Energy, 2017, 42(12): 8166 [4] Yang W B, Chen Q S, Tian G Y, et al. Shifting schedule and torque distribution strategy for the plug鄄in hybrid electric vehicle. J Mech Eng, 2013, 49(14): 91 (杨伟斌, 陈全世, 田光宇, 等. 插电式混合动力汽车换挡规 律及转矩分配策略. 机械工程学报, 2013, 49(14): 91) [5] Ahmadi L, Croiset E, Elkamel A, et al. Effect of socio鄄economic factors on EV/ HEV/ PHEV adoption rate in Ontario. Technol Forecast Social Change, 2015, 98: 93 [6] Montazeri鄄Gh M, Mahmoodi鄄K M. An optimal energy management development for various configuration of plug鄄in and hybrid electric vehicle. J Cent South Univ, 2015, 22(5): 1737 [7] Qin D T, Zhao X Q, Su L, et al. Variable parameter energy man鄄 agement strategy for plug鄄in hybrid electric vehicle. China J High鄄 way Transport, 2015, 28(2): 112 (秦大同, 赵新庆, 苏岭, 等. 插电式混合动力汽车变参数能 量管理策略. 中国公路学报, 2015, 28(2): 112) [8] Lin C C, Peng H, Jeon S, et al. Control of a hybrid electric truck based on driving pattern recognition / / Proceedings of the 2002 Ad鄄 vanced Vehicle Control Conference. Hiroshima, 2002: 9 [9] Lin X Y, Sun D Y. Development of control strategy for a series鄄 parallel hybrid electric city bus based on roadway type recognition. China Mech Eng, 2012, 23(7): 869 (林歆悠, 孙冬野. 基于工况识别的混联式混合动力客车控制 策略研究. 中国机械工程, 2012, 23(7): 869) [10] Zhu Y, Wu Z H, Tian G Y, et al. An energy management strate鄄 gy for fuel cell hybrid electric vehicle based on Markov decision process. Autom Eng, 2006, 28(9): 798 (朱元, 吴志红, 田光宇, 等. 基于马尔可夫决策理论的燃料 电池混合动力汽车能量管理策略. 汽车工程, 2006, 28(9): 798) [11] Shi Y Q, He B, Cao G J, et al. A study on the energy manage鄄 ment strategy for fuel cell electric vehicle based on instantaneous optimization. Autom Eng, 2008, 30(1): 30 (石英乔, 何彬, 曹桂军, 等. 燃料电池混合动力瞬时优化能 量管理策略研究. 汽车工程, 2008, 30(1): 30) [12] Wang Q P, Du S Y, Li L, et al. Real鄄time energy management strategy for plug鄄in hybrid electric bus on particle swarm optimiza鄄 tion algorithm. J Mech Eng, 2017, 53(4): 77 (王钦普, 杜思宇, 李亮, 等. 基于粒子群算法的插电式混合 动力客车实时策略. 机械工程学报, 2017, 53(4): 77) [13] Lin X Y, Feng Q G, Zhang S B. Global optimal discrete equiva鄄 lent factor of equivalent fuel consumption minimization strategy based energy management strategy for a series鄄parallel plug鄄in hy鄄 brid electric vehicle. J Mech Eng, 2016, 52(20): 102 (林歆悠, 冯其高, 张少博. 等效因子离散全局优化的等效 燃油瞬时消耗最小策略能量管理策略. 机械工程学报, 2016, 52(20): 102) [14] Hu Z Y, Li J Q, Xu L F, et al. Multi鄄objective energy manage鄄 ment optimization and parameter sizing for proton exchange mem鄄 brane hybrid fuel cell vehicles. Energy Convers Manage, 2016, 129: 108 [15] Xu L F, Mueller C D, Li J Q, et al. Multi鄄objective component sizing based on optimal energy management strategy of fuel cell electric vehicles. Appl Energy, 2015, 157: 664 [16] Han J H, Park Y, Kum D. Optimal adaptation of equivalent fac鄄 tor of equivalent consumption minimization strategy for fuel cell hybrid electric vehicles under active state inequality constraints. J Power Sources, 2014, 267: 491 [17] Murgovski N, Johannesson L M, Sj觟berg J. Engine on / off control for dimensioning hybrid electric powertrains via convex optimiza鄄 tion. IEEE Trans Veh Technol, 2013, 62(7): 2949 [18] Zheng C H, Oh C E, Park Y I, et al. Fuel economy evaluation of fuel cell hybrid vehicles based on equivalent fuel consumption. Int J Hydrogen Energy, 2012, 37(2): 1790 [19] Huang Y J, Wang H, Khajepour A, et al. Model predictive con鄄 trol power management strategies for HEVs: a review. J Power Sources, 2017, 341: 91 ·1341·