基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略

以一款插电式燃料电池电动汽车(plug-in fuel cell electric vehicle，PFCEV)为研究对象，为改善燃料电池氢气消耗和电池电量消耗之间的均衡，实现插电式燃料电池电动汽车的燃料电池与动力电池之间的最优能量分配，考虑燃料电池汽车实时能量分配的即时回报及未来累积折扣回报，以整车作为环境，整车控制作为智能体，提出了一种基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略.通过Matlab/Simulink建立整车仿真模型对所提出的策略进行仿真验证，相比于基于规则的策略，在不同行驶里程下，电池均可保持一定的电量，整车的综合能耗得到明显降低，在100、200和300 km行驶里程下整车百公里能耗分别降低8.84%、29.5%和38.6%；基于快速原型开发平台进行硬件在环试验验证，城市行驶工况工况下整车综合能耗降低20.8%，硬件在环试验结果与仿真结果基本一致，表明了所制定能量管理策略的有效性和可行性.

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：9MB

工程科学学报，第41卷，第10期：1332-1341,2019年10月 Chinese Journal of Engineering,Vol.41,No.10:1332-1341,October 2019 D0I:10.13374/j.issn2095-9389.2018.10.15.001;http:/journals.ustb.edu.cn 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略林歆悠12)，夏玉田)，魏申中) 1)福州大学机械工程及自动化学院，福州350002 2)流体动力与电液智能控制福建省高校重点实验室（福州大学），福州350002 ☒通信作者，E-mail:linxinyoou@fu.cdu.cn 摘要以一款插电式燃料电池电动汽车(plug-in fuel cell electric vehicle,PFCEV)为研究对象，为改善燃料电池氢气消耗和电池电量消耗之间的均衡，实现插电式燃料电池电动汽车的燃料电池与动力电池之间的最优能量分配，考虑燃料电池汽车实时能量分配的即时回报及未来累积折扣回报，以整车作为环境，整车控制作为智能体，提出了一种基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略.通过Matlab/Simulink建立整车仿真模型对所提出的策略进行仿真验证，相比于基于规则的策略，在不同行驶里程下，电池均可保持一定的电量，整车的综合能耗得到明显降低，在100、200和300km行驶里程下整车百公里能耗分别降低8.84%、29.5%和38.6%：基于快速原型开发平台进行硬件在环试验验证，城市行驶工况工况下整车综合能耗降低20.8%，硬件在环试验结果与仿真结果基本一致，表明了所制定能量管理策略的有效性和可行性. 关键词燃料电池汽车；增强学习；能量管理；Q_learning算法；控制策略分类号TG142.71 Energy management control strategy for plug-in fuel cell electric vehicle based on reinforcement learning algorithm LIN Xin-you'),XIA Yu-tian',WEI Shen-shen') 1)College of Mechanical Engineering and Automation,Fuzhou University,Fuzhou 350002,China 2)Key Laboratory of Fluid Power and Intelligent Electro-Hydraulic Control,Fuzhou University,Fuzhou 350002,China Corresponding author,E-mail:linxinyoou@fa.edu.cn ABSTRACT To cope with the increasingly stringent emission regulations,major automobile manufacturers have been focusing on the development of new energy vehicles.Fuel-cell vehicles with advantages of zero emission,high efficiency,diversification of fuel sources,and renewable energy have been the focus of international automotive giants and Chinese automotive enterprises.Establishing a reasonable energy management strategy,effectively controlling the vehicle working mode,and reasonably using battery energy for hy- brid fuel-cell vehicles are core technologies in domestic and foreign automobile enterprises and research institutes.To improve the equi- librium between fuel-cell hydrogen consumption and battery consumption and realize the optimal energy distribution between fuel-cell systems and batteries for plug-in fuel-cell electric vehicles(PFCEVs),considering vehicles as the environment and vehicle control as an agent,an energy management strategy for the PFCEV based on reinforcement learning algorithm was proposed in this paper.This strategy considered the immediate return and future cumulative discounted returns of a fuel-cell vehicle's real-time energy allocation. The vehicle simulation model was built by Matlab/Simulink to carry out the simulation test for the proposed strategy.Compared with the rule-based strategy,the battery can store a certain amount of electricity,and the integrated energy consumption of the vehicle was nota- bly reduced under different mileages.The energy consumption in 100 km was reduced by 8.84%,29.5%,and 38.6%under 100. 收稿日期：2018-10-15 基金项目：国家自然科学基金资助项目(51505086)

工程科学学报,第 41 卷,第 10 期:1332鄄鄄1341,2019 年 10 月 Chinese Journal of Engineering, Vol. 41, No. 10: 1332鄄鄄1341, October 2019 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2018. 10. 15. 001; http: / / journals. ustb. edu. cn 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略林歆悠1,2) 苣 , 夏玉田1) , 魏申申1) 1)福州大学机械工程及自动化学院, 福州 350002 2)流体动力与电液智能控制福建省高校重点实验室(福州大学), 福州 350002 苣通信作者, E鄄mail: linxinyoou@ fzu. edu. cn 摘要以一款插电式燃料电池电动汽车(plug鄄in fuel cell electric vehicle, PFCEV)为研究对象,为改善燃料电池氢气消耗和电池电量消耗之间的均衡,实现插电式燃料电池电动汽车的燃料电池与动力电池之间的最优能量分配,考虑燃料电池汽车实时能量分配的即时回报及未来累积折扣回报,以整车作为环境,整车控制作为智能体,提出了一种基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略. 通过 Matlab / Simulink 建立整车仿真模型对所提出的策略进行仿真验证,相比于基于规则的策略,在不同行驶里程下,电池均可保持一定的电量,整车的综合能耗得到明显降低,在 100、200 和 300 km 行驶里程下整车百公里能耗分别降低 8郾 84% 、29郾 5% 和 38郾 6% ;基于快速原型开发平台进行硬件在环试验验证,城市行驶工况工况下整车综合能耗降低 20郾 8% ,硬件在环试验结果与仿真结果基本一致,表明了所制定能量管理策略的有效性和可行性. 关键词燃料电池汽车; 增强学习; 能量管理; Q_learning 算法; 控制策略分类号 TG142郾 71 收稿日期: 2018鄄鄄10鄄鄄15 基金项目: 国家自然科学基金资助项目(51505086) Energy management control strategy for plug鄄in fuel cell electric vehicle based on reinforcement learning algorithm LIN Xin鄄you 1,2) 苣 , XIA Yu鄄tian 1) , WEI Shen鄄shen 1) 1)College of Mechanical Engineering and Automation, Fuzhou University, Fuzhou 350002, China 2)Key Laboratory of Fluid Power and Intelligent Electro鄄Hydraulic Control, Fuzhou University, Fuzhou 350002, China 苣Corresponding author, E鄄mail: linxinyoou@ fzu. edu. cn ABSTRACT To cope with the increasingly stringent emission regulations, major automobile manufacturers have been focusing on the development of new energy vehicles. Fuel鄄cell vehicles with advantages of zero emission, high efficiency, diversification of fuel sources, and renewable energy have been the focus of international automotive giants and Chinese automotive enterprises. Establishing a reasonable energy management strategy, effectively controlling the vehicle working mode, and reasonably using battery energy for hy鄄 brid fuel鄄cell vehicles are core technologies in domestic and foreign automobile enterprises and research institutes. To improve the equi鄄 librium between fuel鄄cell hydrogen consumption and battery consumption and realize the optimal energy distribution between fuel鄄cell systems and batteries for plug鄄in fuel鄄cell electric vehicles (PFCEVs), considering vehicles as the environment and vehicle control as an agent, an energy management strategy for the PFCEV based on reinforcement learning algorithm was proposed in this paper. This strategy considered the immediate return and future cumulative discounted returns of a fuel鄄cell vehicle爷 s real鄄time energy allocation. The vehicle simulation model was built by Matlab / Simulink to carry out the simulation test for the proposed strategy. Compared with the rule鄄based strategy, the battery can store a certain amount of electricity, and the integrated energy consumption of the vehicle was nota鄄 bly reduced under different mileages. The energy consumption in 100 km was reduced by 8郾 84% , 29郾 5% , and 38郾 6% under 100

林歆悠等：基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1333· 200,and 300 km mileages,respectively.The hardware-in-loop-test was performed on the D2P development platform,and the final en- ergy consumption of the vehicle was reduced by 20.8%under urban dynamometer driving schedule driving cycle.The hardware-in loop-test results are consistent with the simulation findings,indicating the effectiveness and feasibility of the proposed energy manage- ment strategy. KEY WORDS fuel-cell vehicle;reinforcement learning;energy management;Q_learning algorithm;control strategy 面对越来越严苛的排放法规，各大汽车厂商纷合动态规划与等效消耗最小策略，通过动态规划对纷着力发展新能源汽车，具有零排放、效率高、燃料等效消耗最小策略的等效系数EF进行优化的基础来源多元化、能源可再生等优势的燃料电池汽车，一上，提出简化的等效系数优化方法.Murgovski等)] 直是国际汽车巨头及中国汽车企业重点研究的对采用庞特里亚金极小值原理(pontryagin minimum 象).仅采用燃料电池作为动力源的燃料电池动力 principle,PMP)优化算法，寻找单一路径来实现系系统，输出特性疲软，动态响应能力较差[)，因此，统的优化控制，其计算速度相比于动态规划算法快燃料电池汽车一般采用燃料电池+动力电池或超级的多，仿真结果与基于动态规划的能量管理策略进电容的混合动力驱动构型).针对混合动力燃料电行对比，发现基于庞特里亚金极小值原理的策略只池汽车，建立合理的能量管理策略，有效控制车辆工比基于动态规划的策略的经济性降低了0.35%. 作模式、合理使用电池的能量[46]，是国内外汽车企基于已知工况的策略，仅在历史行驶数据的基业以及研究机构研究的核心技术之一[) 础上进行预测，不能实现准确的控制，从而无法达到车辆的行驶里程、行驶工况等因素会直接影响真正意义上的实时优化.基于优化算法的最优能量混合动力车辆的动力分配以及工作模式的划分，从管理策略通常需要建立能够良好地反映系统特性的而影响整车经济性.Lin等[]采用六个典型的驾驶精确模型，如等效消耗最小策略中的等效系数估计模式来表征不同工况，对每个典型的驾驶模式应用模型，这使得能量管理策略的建立过程变得十分复动态规划方法寻找全局最优解，通过提炼全局最优杂：其次，这些最优能量管理策略不能根据实际的工结果给出各个典型驾驶模式下可以直接应用的优化况进行策略更新迭代，使得控制策略不具有时效性策略.林歆悠与孙冬野)选定了四种典型城市工和拓展性.针对传统最优能量管理策略在这些方面况，采用学习向量量化(LVQ)神经网络模型进行工存在的问题，本文以插电式燃料电池电动汽车(P℉- 况识别，并根据工况识别结果制定了工况自适应功 CEV)为研究对象，提出了一种基于增强学习(rein- 率均衡规则控制策略.为了达到良好的优化效果， forcement learning,RL)算法的插电式燃料电池电同时解决工程经验适应性差的问题，很多文献提出动汽车能量管理策略了基于优化算法的最优能量管理策略.朱元等[] 本文的内容结构如下，在第一节，根据插电式燃利用马尔可夫决策理论获得混合动力汽车的随机能料电池汽车动力系统特点，建立包括整车、燃料电池量管理策略.石英乔等)基于瞬时优化的方法开系统和锂离子电池等关键部件的模型：第二节描述展能量分配策略研究，并引入了蓄电池等价燃料消了整车能量管理的优化控制模型：第三节描述了状耗理论.王钦普等)提出了一种基于粒子群算法态转移概率矩阵的计算以及该能量管理策略的构建 (particle swarm optimization,PSO)的等效消耗最小和实现方法；第四节给出了该策略与其他策略的仿 equivalent consumption minimization strategy, 真及硬件在环试验结果对比和分析：最后给出了 ECMS),可实现不同初始电池荷电状态(state of 结论 charge,SOC)下能量管理策略的近似全局优化.文 1插电式燃料电池汽车动力系统建模献[13]在等效氢消耗最小的基础上，考虑电池荷电状态、等效系数与燃油消耗的关系，利用遗传算法离 1.1车辆模型线优化等效系数.文献[14]针对等效氢气消耗最小本文所研究的插电式燃料电池汽车的动力系统策略中的等效系数通过动态规划(dynamic program- 结构为并联型结构，主要由驱动系统、锂离子动力电 ming,DP)进行全局优化，优化效果明显，但难以在池、燃料电池系统及相应的控制器组成，如图1所实车中实现.文献[15]将不同模式下的燃料电池衰示.燃料电池系统通过DC/DC(直流转直流)变换退速率与等效氢气消耗构成多目标的优化，但策略器连接到直流母线，锂离子电池组直接连接到母线复杂，实际适应性不高.Han等[16]基于特定工况结以维持直流线路电压，相应的整车与关键部件参数

林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 200, and 300 km mileages, respectively. The hardware鄄in鄄loop鄄test was performed on the D2P development platform, and the final en鄄 ergy consumption of the vehicle was reduced by 20郾 8% under urban dynamometer driving schedule driving cycle. The hardware鄄in loop鄄test results are consistent with the simulation findings, indicating the effectiveness and feasibility of the proposed energy manage鄄 ment strategy. KEY WORDS fuel鄄cell vehicle; reinforcement learning; energy management; Q_learning algorithm; control strategy 面对越来越严苛的排放法规,各大汽车厂商纷纷着力发展新能源汽车,具有零排放、效率高、燃料来源多元化、能源可再生等优势的燃料电池汽车,一直是国际汽车巨头及中国汽车企业重点研究的对象[1] . 仅采用燃料电池作为动力源的燃料电池动力系统,输出特性疲软,动态响应能力较差[2] ,因此, 燃料电池汽车一般采用燃料电池 + 动力电池或超级电容的混合动力驱动构型[3] . 针对混合动力燃料电池汽车,建立合理的能量管理策略,有效控制车辆工作模式、合理使用电池的能量[4鄄鄄6] ,是国内外汽车企业以及研究机构研究的核心技术之一[7] . 车辆的行驶里程、行驶工况等因素会直接影响混合动力车辆的动力分配以及工作模式的划分,从而影响整车经济性. Lin 等[8] 采用六个典型的驾驶模式来表征不同工况,对每个典型的驾驶模式应用动态规划方法寻找全局最优解,通过提炼全局最优结果给出各个典型驾驶模式下可以直接应用的优化策略. 林歆悠与孙冬野[9] 选定了四种典型城市工况,采用学习向量量化(LVQ)神经网络模型进行工况识别,并根据工况识别结果制定了工况自适应功率均衡规则控制策略. 为了达到良好的优化效果, 同时解决工程经验适应性差的问题,很多文献提出了基于优化算法的最优能量管理策略. 朱元等[10] 利用马尔可夫决策理论获得混合动力汽车的随机能量管理策略. 石英乔等[11] 基于瞬时优化的方法开展能量分配策略研究,并引入了蓄电池等价燃料消耗理论. 王钦普等[12] 提出了一种基于粒子群算法 (particle swarm optimization, PSO)的等效消耗最小策略 ( equivalent consumption minimization strategy, ECMS),可实现不同初始电池荷电状态 ( state of charge, SOC)下能量管理策略的近似全局优化. 文献[13]在等效氢消耗最小的基础上,考虑电池荷电状态、等效系数与燃油消耗的关系,利用遗传算法离线优化等效系数. 文献[14]针对等效氢气消耗最小策略中的等效系数通过动态规划( dynamic program鄄 ming,DP)进行全局优化,优化效果明显,但难以在实车中实现. 文献[15]将不同模式下的燃料电池衰退速率与等效氢气消耗构成多目标的优化,但策略复杂,实际适应性不高. Han 等[16] 基于特定工况结合动态规划与等效消耗最小策略,通过动态规划对等效消耗最小策略的等效系数 EF 进行优化的基础上,提出简化的等效系数优化方法. Murgovski 等[17] 采用庞特里亚金极小值原理( pontryagin minimum principle, PMP) 优化算法,寻找单一路径来实现系统的优化控制,其计算速度相比于动态规划算法快的多,仿真结果与基于动态规划的能量管理策略进行对比,发现基于庞特里亚金极小值原理的策略只比基于动态规划的策略的经济性降低了 0郾 35% . 基于已知工况的策略,仅在历史行驶数据的基础上进行预测,不能实现准确的控制,从而无法达到真正意义上的实时优化. 基于优化算法的最优能量管理策略通常需要建立能够良好地反映系统特性的精确模型,如等效消耗最小策略中的等效系数估计模型,这使得能量管理策略的建立过程变得十分复杂;其次,这些最优能量管理策略不能根据实际的工况进行策略更新迭代,使得控制策略不具有时效性和拓展性. 针对传统最优能量管理策略在这些方面存在的问题,本文以插电式燃料电池电动汽车(PF鄄 CEV)为研究对象,提出了一种基于增强学习( rein鄄 forcement learning, RL) 算法的插电式燃料电池电动汽车能量管理策略. 本文的内容结构如下,在第一节,根据插电式燃料电池汽车动力系统特点,建立包括整车、燃料电池系统和锂离子电池等关键部件的模型;第二节描述了整车能量管理的优化控制模型;第三节描述了状态转移概率矩阵的计算以及该能量管理策略的构建和实现方法;第四节给出了该策略与其他策略的仿真及硬件在环试验结果对比和分析;最后给出了结论. 1 插电式燃料电池汽车动力系统建模 1郾 1 车辆模型本文所研究的插电式燃料电池汽车的动力系统结构为并联型结构,主要由驱动系统、锂离子动力电池、燃料电池系统及相应的控制器组成,如图 1 所示. 燃料电池系统通过 DC / DC(直流转直流)变换器连接到直流母线,锂离子电池组直接连接到母线以维持直流线路电压,相应的整车与关键部件参数 ·1333·

.1334. 工程科学学报.第41卷，第10期如表1所示. 考虑到整车各部件的传动效率，车辆实际电力车控制器需求功率P可以表示为： (P=Parive/marive 多能源总成 P=)(a盘0+f0+f0+fo） 7lie=刀m*7oyac*7mar (1) 其中，P为实际电力需求功率，)为整车的驱动效料气储率，P为总牵引功率，u是车速，m,是车辆的整车质量，F是车辆行驶时的空气阻力，Fu是滚动摩动力电池图1燃料电池汽车动力系统结构擦阻力，F是在非水平道路上行驶时的坡道阻力， Fig.1 Structure of the fuel cell vehicle driving system nm为机械传动系统效率，ICc为DC/AC逆变器效表1整车基本参数 Table 1 Basic parameters for vehicle 整备质量/ 轴距/ 滚动半径/空气阻力迎风面积/传动系驱动电机最燃料电池系统动力电池容主减速比 kg mm mm 系数 m2 效率大功率/kW 最大功率/kW 量/(Ah) 1400 1700 301 0.284 1.97 0.95 4.226 75 65 40 率，刀为电机效率.该驱动系统工作模式可以分 1.3 锂离子电池组模型为纯电模式和混合驱动模式，纯电模式下，整车需求电池荷电状态是电池重要的动态参数，可以通功率直接由电池提供，混合驱动模式下，由燃料电池过如下公式计算得到：和电池共同驱动，两者的输出功率P。m和P之间 SOC=-I ()/Qhau (6) 的功率分配表示为：其中，I为电池电流，Q为电池容量，电池输出电 P(t)=Pm(t)+P(t) (2) 压U由公式(7)计算得到： 1.2燃料电池模型 (V(SOC)-I(t)R (SOC)(>0) 燃料电池系统的输出功率Pm等于燃料电池 U.）=V(s0c)-1()-R(s0C)(a0) (8) rituts=2F+na (4) l0≤PLh≤Pchg_mas(Ia<O) 其中，mh,为氢气摩尔质量，2g~mol-,F为法拉第常 2 燃料电池汽车能量管理控制模型数，26.801 A.h-mol-1,b,为燃料电池附件平均氢气消耗速率，g·s1.燃料电池附件消耗功率P主以插电式燃料电池动力系统的宏观能源利用角要指鼓风机消耗功率，可以表示为燃料电池系统功度来看，整车所需的能量一部分是来自停车充电时率的函数，拟合公式如(5)所示，拟合值为消耗的电网电能，一部分是来自燃料电池氢气消耗能量.因此，基于增强学习的能量管理策略要优化 0.915. Pteaux aPi +bPi+cPe+156 的价值函数J是氢气消耗和电池电量可持续性之间的均衡，该策略中的性能优化目标函数定义为： a=3.46×10-1 (5) b=-1.66×10-6 J=[mH,(t)+a(s0c(t)-s0C(0)2]d c=5.01×10-2 (9)

工程科学学报,第 41 卷,第 10 期如表 1 所示. 图 1 燃料电池汽车动力系统结构 Fig. 1 Structure of the fuel cell vehicle driving system 考虑到整车各部件的传动效率,车辆实际电力需求功率 Pm可以表示为: Pm =Pdrive / 浊drive Pdrive =v(t) ( mv d dt v(t) +Faero(t) +Froll(t) +Fgra(t) ) 浊drive =浊tra·浊DC/ AC·浊 ì î í ï ï ï ï motor (1) 其中,Pm为实际电力需求功率,浊drive为整车的驱动效率,Pdrive为总牵引功率,v 是车速,mv是车辆的整车质量,Faero是车辆行驶时的空气阻力,Froll是滚动摩擦阻力,Fgra是在非水平道路上行驶时的坡道阻力, 浊tra为机械传动系统效率,浊DC/ AC为 DC / AC 逆变器效表 1 整车基本参数 Table 1 Basic parameters for vehicle 整备质量/ kg 轴距/ mm 滚动半径/ mm 空气阻力系数迎风面积/ m 2 传动系效率主减速比驱动电机最大功率/ kW 燃料电池系统最大功率/ kW 动力电池容量/ (A·h) 1400 1700 301 0郾 284 1郾 97 0郾 95 4郾 226 75 65 40 率,浊motor为电机效率. 该驱动系统工作模式可以分为纯电模式和混合驱动模式,纯电模式下,整车需求功率直接由电池提供,混合驱动模式下,由燃料电池和电池共同驱动,两者的输出功率 Pfc_req和 Pbat之间的功率分配表示为: Pm (t) = Pfc_req (t) + Pbat(t) (2) 1郾 2 燃料电池模型燃料电池系统的输出功率 Pfc_req等于燃料电池系统功率 Pfc与附件消耗功率 Pfc_aux之差,而燃料电池系统功率等于输出电压 Ufc与输出电流 Ifc乘积: Pfc_req = Pfc - Pfc,aux Pfc = Ufc I { fc (3) 燃料电池系统氢气消耗速率( g·s - 1 )与燃料电池实际工作电流有关[18] ,可以表示为: m · H2 = mH2 Ifc 2F + bH2 (4) 其中,mH2为氢气摩尔质量,2 g·mol - 1 ,F 为法拉第常数,26郾 801 A·h·mol - 1 ,bH2为燃料电池附件平均氢气消耗速率,g·s - 1 . 燃料电池附件消耗功率 Pfc_aux 主要指鼓风机消耗功率,可以表示为燃料电池系统功率的函数, 拟合公式如 ( 5 ) 所示, 拟合 R 2 值为 0郾 915. Pfc_aux = aP 3 fc + bP 2 fc + cPfc + 156 a = 3郾 46 伊 10 - 11 b = - 1郾 66 伊 10 - 6 c = 5郾 01 伊 10 ì î í ï ïï ï ïï - 2 (5) 1郾 3 锂离子电池组模型电池荷电状态是电池重要的动态参数,可以通过如下公式计算得到: SOC 伊 = - Ibat(t) / Qbat (6) 其中,Ibat为电池电流,Qbat为电池容量,电池输出电压 Ubat由公式(7)计算得到: Ubat(t) = V(SOC) - Ibat(t)·Rdis(SOC) (Ibat > 0) V(SOC) - Ibat(t)·Rchg(SOC) (I { bat 0) 0臆Pbat_chg臆Pchg_max (Ibat < 0 ì î í ïï ïï ) (8) 2 燃料电池汽车能量管理控制模型以插电式燃料电池动力系统的宏观能源利用角度来看,整车所需的能量一部分是来自停车充电时消耗的电网电能,一部分是来自燃料电池氢气消耗能量. 因此,基于增强学习的能量管理策略要优化的价值函数 J 是氢气消耗和电池电量可持续性之间的均衡,该策略中的性能优化目标函数定义为: J = 乙 T 0 [m · H2 (t) + 琢 (SOC(t) - SOC(0)) 2 ]dt (9) ·1334·

林歆悠等：基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1335. 目标函数J包括整个时间跨度内总的氢气消耗下由功率P转移到P的转移概率，N表示从P转移和动力电池S0C惩罚函数，其中，m,为燃料电池实到P发生的次数，N,表示状态P产生的总次数.图际氢气消耗速率，α为S0C惩罚权重因子，T为总的 3给出了基于城市行驶工况计算状态转移概率矩阵运行时间，则实际优化问题可以描述为：的过程 a()()小=[m[u()]+ 100 a(S0C(t)-S0C(0))2]d Pn(t)=Pem(t)+Pm(t） 200 400600800100012001400 时间s u(t)=P(t) x(t)=[P(t),SOC(t),v(t)] P。aWa (10) 50 其中：u(t)为控制变量，定义为电池输出功率P oe yuk Mhyywimumww-hi (t);x(t)为状态变量，定义为整车需求功率P(t)、 -5 0 200 400 600 8001000 1200 1400 电池S0C(t)和车速v(t). 时间s 最大似然估计 3基于增强学习算法的能量管理策略所采用的增强学习算法是一种基于值迭代运算 0.2 -200 的Q_learning算法，其主要思想就是将状态与动作状态转移概率矩阵 4》构建成Q-table来存储价值量Q值，然后根据Q值当崩功案460-200一下一时刻功率kW 20 来选取动作以获得较大的收益.该算法包括两个实图3状态转移概率的计算过程体，智能体和环境，两个实体的交互过程如图2所 Fig.3 Calculation process of the state transfer probability 示，其中L为增强学习算法，，为t时刻下的奖励 3.2增强学习控制策略的建立反馈，s表示t时刻下的状态，a,为t时刻下的执行根据增强学习算法，将所研究的插电式燃料电动作. 池电动汽车能量管理问题描述为五元组{S,A,{P}, 智能体： y,R},其中，S为由需求功率P(t)、S0C(t)和车速 RL控制策略 (t)组成的有限数量状态集，A为电池的输出功率豪 P(t)表示的动作集，{P}为状态s下采用动作a的 sP (n)SOC(D.00) a:Pl 状态转移概率分布，y为学习过程中的折扣因子，α 环境：PFCEV 为电池荷电状态的调节因子，R为以整车的性能优化价值函数表示的回报函数集：图2智能体和环境之间的交互过程 s,∈S={P(t),v(t),S0C(t)1Pnm∈[-30,50]， Fig.2 Iterative interaction between the agent and environment S0Ce[0.1,0.9],v∈[0,120]} 3.1状态转移概率矩阵 a,∈A={Pa(t)lPbm∈[-20,40]} Q_learning算法是以网格矩阵作为动作值函数 b,∈R={-mH,(s,a,)-a(S0C(t)-S0C(0))2} 载体的，因此，采用该算法的一个基本步骤是对需求 (12) 功率进行建模.根据文献[19]知，需求功率变化可基于增强学习的控制策略是一个从状态到动作被视为平稳马尔可夫过程，需求功率状态转移概率的映射函数π：S→A,也就是在给定状态s下，根据矩阵可以通过最大似然估计利用公式(11)计算：策略，也就确定下一步的动作a=π(s).对每一个 Pm={P1,P2,P3,…,P,…,P…Pn} 状态s,定义值函数为累积折扣回报的数学期望： P:=P(P.(t+1)=PIP.(t)=P:)=N/N r()=(空) (13) =1 其中，y为折扣因子，表示随时间的推移回报的折扣 (11) 系数，对于一个固定的策略，E表示累计的奖励反馈其中，将需求功率分为n个状态，P表示在某一车速量，反馈价值函数广满足贝尔曼方程(Bellman

林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略目标函数 J 包括整个时间跨度内总的氢气消耗和动力电池 SOC 惩罚函数,其中,m · H2为燃料电池实际氢气消耗速率,琢为 SOC 惩罚权重因子,T 为总的运行时间,则实际优化问题可以描述为: J[u(t),x(t),t] = 乙 T 0 [m · H2 [u(t),x(t)] + 琢 (SOC(t) - SOC(0)) 2 ]dt Pm (t) = Pfc_req (t) + Pbat(t) u(t) = Pbat(t) x(t) = [Pm (t),SOC(t),v(t ì î í ï ï ïï ï ï ïï )] (10) 其中:u ( t) 为控制变量,定义为电池输出功率 Pb (t);x(t)为状态变量,定义为整车需求功率 Pm (t)、电池 SOC(t)和车速 v(t). 3 基于增强学习算法的能量管理策略所采用的增强学习算法是一种基于值迭代运算的 Q_learning 算法,其主要思想就是将状态与动作构建成 Q鄄鄄table 来存储价值量 Q 值,然后根据 Q 值来选取动作以获得较大的收益. 该算法包括两个实体,智能体和环境,两个实体的交互过程如图 2 所示,其中 RL 为增强学习算法,rt为 t 时刻下的奖励反馈,st表示 t 时刻下的状态,at为 t 时刻下的执行动作. 图 2 智能体和环境之间的交互过程 Fig. 2 Iterative interaction between the agent and environment 3郾 1 状态转移概率矩阵 Q_learning 算法是以网格矩阵作为动作值函数载体的,因此,采用该算法的一个基本步骤是对需求功率进行建模. 根据文献[19]知,需求功率变化可被视为平稳马尔可夫过程,需求功率状态转移概率矩阵可以通过最大似然估计利用公式(11)计算: Pm = {P1 ,P2 ,P3 ,…,Pi,…,Pj…Pn } Pij = P(Pm (t + 1) = Pj | Pm (t) = Pi) = Nij / Ni Ni = 移 n j = 1 N ì î í ï ï ï ï ij (11) 其中,将需求功率分为 n 个状态,Pij表示在某一车速下由功率 Pi转移到 Pj的转移概率,Nij表示从 Pi转移到 Pj发生的次数,Ni表示状态 Pi产生的总次数. 图 3 给出了基于城市行驶工况计算状态转移概率矩阵的过程. 图 3 状态转移概率的计算过程 Fig. 3 Calculation process of the state transfer probability 3郾 2 增强学习控制策略的建立根据增强学习算法,将所研究的插电式燃料电池电动汽车能量管理问题描述为五元组{S,A,{P}, 酌,R},其中,S 为由需求功率 Pm (t)、SOC(t)和车速 v(t)组成的有限数量状态集,A 为电池的输出功率 Pb (t)表示的动作集,{P}为状态 s 下采用动作 a 的状态转移概率分布,酌为学习过程中的折扣因子,琢为电池荷电状态的调节因子,R 为以整车的性能优化价值函数表示的回报函数集: st沂S = {Pm (t),v(t),SOC(t) | Pm沂[ - 30,50], SOC沂[0郾 1,0郾 9],v沂[0,120]} at沂A = {Pbat(t) | Pbat沂[ - 20,40]} rt沂R = { - m · H2 (st,at) - 琢 (SOC(t) - SOC(0)) 2 ì î í ï ïï ï ïï } (12) 基于增强学习的控制策略是一个从状态到动作的映射函数仔:S寅A,也就是在给定状态 s 下,根据策略,也就确定下一步的动作 a = 仔( s). 对每一个状态 s,定义值函数为累积折扣回报的数学期望: V 仔 (s) = E ( 移 +肄 t = 0 酌 t rt + 1 ) (13) 其中,酌为折扣因子,表示随时间的推移回报的折扣系数,对于一个固定的策略,E 表示累计的奖励反馈量,反馈价值函数 V 仔满足贝尔曼方程 ( Bellman ·1335·

.1336· 工程科学学报.第41卷，第10期 equations): 3.3增强学习能量管理控制策略的求解严(s)=r(s)+y∑P(s')(s')(14) 基于增强学习的控制策略就是通过基于值迭代的Q_learning算法，求解给定离散状态和动作空间其中，s'表示状态s执行动作π(s)后的下一个可能下的最优值函数，通过多次迭代得到最优控制策略，状态，其服从P分布.上式有两部分组成：即时其实现流程如图4所示.根据历史工况数据可以求回报R(s)及未来累积折扣回报期望E,~Pe[V 得需求功率状态转移矩阵P,根据性能优化价值函 (s)].求解V的目的是找到一个当前状态s下最数可以求得回报函数矩阵R,选择一定的折扣因子优的行动策略π(s),定义最优的值函数为： y和迭代次数N,将四元组{P,R,Y,N}输入马尔 V(s)=maxV(s) (15) 科夫决策过程工具箱求解得到最优价值函数和对应其贝尔曼方程形式为：的控制策略 r（s)=()+yAP.(s)r~（)16) 历史工况数据表示为增强学习中的Q函数形式为：状态变量和控制变量离散化 (V(s)=maxQ(s,a) eA (17) 计算状态转移计算离散状态和动作 Q(s,a)=r(s)+yp(s')V(s') 概率矩阵P 空间下的回报函数矩阵R 其中，Q(s,a)表示在s状态下执行动作a作为第一折扣 MDP工具箱迭代个动作时的最大累计折扣回报.通过求解最优值函因子y 次数N 数来确定最优控制策略：控制策略 m(s)=agma（ΣP(s')r'(s)）(18) 图4基于增强学习的控制策略求解过程对于值迭代的Q_learning算法而言，在给出离 Fig.4 Process of solving the control strategy based on RL 散状态和动作空间之后，对应于状态s和动作a的图5给出在城市行驶工况，选择折扣因子为 Q值和最优Q值可以递归定义为： 0.9,迭代次数为10000时，求解过程的百步均方差， Qsa）=s.e）+yP.(0.a19) 可以看出，随着迭代次数的增加，Q值的百步均方差 Q'so）=o）+ygP.(m0'a 逐渐减小并趋近于0，这表明Q值逐渐收敛于某一定值，验证了该算法的收敛性.如图6给出了车速 (20) 为30kmh-J,电池S0C为0.9时，通过Q_learning 最终，Q_learning算法中Q值的迭代更新规则算法求解得到的状态值函数最优值以及迭代后的Q 可以表示为：值，可以看出迭代后的Q值逐渐收敛于状态值函数 Q(s,a)+Q(s,a)+n(r+ymaxQ(s',a')-Q(s,a)) 的最优值，这表明了增强学习算法的有效性 (21) 200 相对较大 -g=10 km.h 其中，7是学习率，η∈[0,1]，学习率越大，收敛速 9150H -r=20km·h1 --=30km-h- 度越快，但会导致过拟合问题，本文中，取值为0.1. 100 50 趋近于0 表2给出了Q-learning算法在Matlab中的计算流程，基于Q_learning的最优控制策略通过多次迭代 20 40 60 100 迭代次数x100 得到. 图5Q_leaming学习选代中的百步均方差表2Q--learning算法在Matlab中的计算流程 Fig.5 100-step mean square error in Q_learning iteration Table 2 Computing process of Q-learning algorithms in Matlab 初始化Q(s,a),s∈S,a∈A(s),任意Q(s,a)=0 4 仿真与硬件在环试验结果分析初始化状态S(Pm(t),SOC(t),() 重复（对每一次迭代中的每一步）：为了验证基于增强学习的能量管理策略的可行根据状态S选取一个动作A(P(:)执行性和有效性，首先通过Matlab/Simulink建立应用于执行完A动作后观察回报值R和新的状态S” Q(s,a)+(s,a)+nr+ymaxe(s',a')-0(s,a)) 能量管理策略的整车仿真模型进行仿真试验，然后 S+-S' 通过硬件在环试验，采用不同的能量管理策略试验循环直到S终止验证

工程科学学报,第 41 卷,第 10 期 equations): V 仔 (s) = r(s) + 酌移 +肄 s忆沂S Ps仔(s) (s忆)V 仔 (s忆) (14) 其中,s忆表示状态 s 执行动作仔( s)后的下一个可能状态,其服从 Ps仔(s) 分布. 上式有两部分组成:即时回报 R(s)及未来累积折扣回报期望 Es忆 ~ Ps仔(s) [V 仔 (s忆)]. 求解 V 仔的目的是找到一个当前状态 s 下最优的行动策略仔(s),定义最优的值函数为: V * (s) = max 仔 V 仔 (s) (15) 其贝尔曼方程形式为: V * (s) = r(s) + max a沂A 酌移s忆沂S Psa (s忆)V * (s忆) (16) 表示为增强学习中的 Q 函数形式为: V * (s) = max a沂A Q(s,a) Q(s,a) = r(s) + 酌Psa (s忆)V * (s忆 { ) (17) 其中,Q(s,a)表示在 s 状态下执行动作 a 作为第一个动作时的最大累计折扣回报. 通过求解最优值函数来确定最优控制策略: 仔 * (s) = arg max a沂 ( A 移s忆沂S Psa (s忆)V * (s忆) ) (18) 对于值迭代的 Q_learning 算法而言,在给出离散状态和动作空间之后,对应于状态 s 和动作 a 的 Q 值和最优 Q 值可以递归定义为: Q(s,a) = r(s,a) + 酌移s忆沂S Psa (s忆)Q(s忆,a忆)(19) Q * (s,a) = r(s,a) + 酌移s忆沂S Psa (s忆)max a忆 Q * (s忆,a忆) (20) 最终,Q_learning 算法中 Q 值的迭代更新规则可以表示为: Q(s,a)饮Q(s,a) + 浊(r + 酌 max a忆 Q(s忆,a忆) -Q(s,a)) (21) 其中,浊是学习率,浊沂[0,1],学习率越大,收敛速度越快,但会导致过拟合问题,本文中,取值为 0郾 1. 表 2 给出了 Q鄄鄄 learning 算法在 Matlab 中的计算流程,基于 Q_learning 的最优控制策略通过多次迭代得到. 表 2 Q鄄鄄learning 算法在 Matlab 中的计算流程 Table 2 Computing process of Q鄄鄄learning algorithms in Matlab 初始化 Q(s,a),s沂S,a沂A(s),任意 Q(s,a) = 0 初始化状态 S(Pm (t),SOC(t),v(t)) 重复(对每一次迭代中的每一步): 根据状态 S 选取一个动作 A(Pb(t))执行执行完 A 动作后观察回报值 R 和新的状态 S忆 Q(s,a)饮Q(s,a) + 浊(r + 酌 max a忆 Q(s忆,a忆) - Q(s,a)) S饮S忆循环直到 S 终止 3郾 3 增强学习能量管理控制策略的求解基于增强学习的控制策略就是通过基于值迭代的 Q_learning 算法,求解给定离散状态和动作空间下的最优值函数,通过多次迭代得到最优控制策略, 其实现流程如图 4 所示. 根据历史工况数据可以求得需求功率状态转移矩阵 P,根据性能优化价值函数可以求得回报函数矩阵 R,选择一定的折扣因子酌和迭代次数 N,将四元组{P, R, 酌, N}输入马尔科夫决策过程工具箱求解得到最优价值函数和对应的控制策略. 图 4 基于增强学习的控制策略求解过程 Fig. 4 Process of solving the control strategy based on RL 图 5 给出在城市行驶工况,选择折扣因子为 0郾 9,迭代次数为 10000 时,求解过程的百步均方差, 可以看出,随着迭代次数的增加,Q 值的百步均方差逐渐减小并趋近于 0,这表明 Q 值逐渐收敛于某一定值,验证了该算法的收敛性. 如图 6 给出了车速为 30 km·h - 1 ,电池 SOC 为 0郾 9 时,通过 Q_learning 算法求解得到的状态值函数最优值以及迭代后的 Q 值,可以看出迭代后的 Q 值逐渐收敛于状态值函数的最优值,这表明了增强学习算法的有效性. 图 5 Q_learning 学习迭代中的百步均方差 Fig. 5 100鄄step mean square error in Q_learning iteration 4 仿真与硬件在环试验结果分析为了验证基于增强学习的能量管理策略的可行性和有效性,首先通过 Matlab / Simulink 建立应用于能量管理策略的整车仿真模型进行仿真试验,然后通过硬件在环试验,采用不同的能量管理策略试验验证. ·1336·

林歆悠等：基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1337. (a) (b) 0 -200 -200 400 -400 40 40 电潘功华 0 、0 20 40 40 0 40 20 0 -20 需求功率kW 电池功率 20 需求功率kW 图6增强学习价值函数优化结果.()价值函数的最优值：(b)迭代后的Q值 Fig.6 Optimization results of the RL cost function:(a)optimal solution of cost function;(b)values after iteration 4.1增强学习策略的可行性验证汽车的仿真模型，为了与实际工作情况相一致，便于以动力系统数学模型为基础，在Matlab/Simu- 建立起控制系统的硬件在环仿真环境，采用前向仿 lik开发环境下，建立所研究的燃料电池混合动力真，该仿真流程如图7所示加速目标车速制动踏板日标转矩电机需求 DC/DC 司机意图功率功率目标功率 DC/DC 燃料电池司机模型解释需求能量管理模型系统模型荷电状态个电池氢电机目标动力电池功率气需求功率模型电机实际 DC/DC 实际车速整车动力功率电机电池实际功率学模型模型实际功率图7燃料电池混合动力汽车仿真模型 Fig.7 Simulation model of the fuel cell hybrid electric vehicle 采用模拟现实拥堵市区交通中走走停停的城市量恢复一定值后再次由电池驱动车辆，电池在较低行驶工况进行循环加载仿真试验，在该工况下整车荷电状态条件下，处于反复充放电状态，该策略下氢仿真的速度对比如图8所示，从图中可以看出实际气消耗量为0.8334kg.基于等效消耗最小策略在电车速与目标车速基本一致池电量消耗至设定值0.2后启动燃料电池，在该阶 100 段基于等效氢气消耗最小原则，实时地分配电池和一目标车速 80 一一一实际车速燃料电池之间的能量，使电池的电量保持在设定值 60 上下浮动，最终氢气消耗仅为0.5774kg.基于增强学习算法的策略在电池电量充足的情况下，使用电 20 池驱动的成本值较小，因此，主要使用电池驱动车 200 400 600 800 1000 1200 400 辆，当电池消耗到一定程度时，控制策略根据计算得运行时间s 到的最优成本值开始频繁调用燃料电池介入工作，图8实际车速与目标车速对比辅助电池来共同驱动车辆，使电池的电量消耗速率 Fig.8 Comparison between actual and target speeds 明显降低，氢气的消耗速率在此时也稍微增加，但在设定电池S0C的初始值为0.9，行驶里程为是，在仿真结束时仍可以使电池保持一定的电量，且 200km的情况下，将基于增强学习的能量管理策略综合氢气消耗量相对于基于等效消耗最小策略的控与基于规则和基于等效消耗最小策略的策略进行仿制策略进一步减少，仅为0.5028kg. 真试验对比，图9给出了动力电池S0C变化以及电如图10给出的是燃料电池系统输出功率对比，池电量消耗和燃料电池氢气消耗的结果对比. 同样可以看出，在电池电量充足时，燃料电池参与驱可以看出，当电池的电量较高时，三种策略都倾动的功率较小且不频繁，当电量降低时后，基于增强向于优先消耗电池电量，燃料电池处于不工作状态，学习的控制策略相比于另两种策略燃料电池更早地基于规则的策略在电池电量消耗到设定值0.2时启参与驱动车辆，这也验证了图9中电池荷电状态的动燃料电池来驱动车辆，并对电池进行充电，电池电变化.另外，图11表示的是燃料电池系统三种策略

林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略图 6 增强学习价值函数优化结果. (a)价值函数的最优值;(b)迭代后的 Q 值 Fig. 6 Optimization results of the RL cost function:(a)optimal solution of cost function; (b) Q values after iteration 4郾 1 增强学习策略的可行性验证以动力系统数学模型为基础,在 Matlab / Simu鄄 link 开发环境下,建立所研究的燃料电池混合动力汽车的仿真模型,为了与实际工作情况相一致,便于建立起控制系统的硬件在环仿真环境,采用前向仿真,该仿真流程如图 7 所示. 图 7 燃料电池混合动力汽车仿真模型 Fig. 7 Simulation model of the fuel cell hybrid electric vehicle 采用模拟现实拥堵市区交通中走走停停的城市行驶工况进行循环加载仿真试验,在该工况下整车仿真的速度对比如图 8 所示,从图中可以看出实际车速与目标车速基本一致. 图 8 实际车速与目标车速对比 Fig. 8 Comparison between actual and target speeds 在设定电池 SOC 的初始值为 0郾 9,行驶里程为 200 km 的情况下,将基于增强学习的能量管理策略与基于规则和基于等效消耗最小策略的策略进行仿真试验对比,图 9 给出了动力电池 SOC 变化以及电池电量消耗和燃料电池氢气消耗的结果对比. 可以看出,当电池的电量较高时,三种策略都倾向于优先消耗电池电量,燃料电池处于不工作状态, 基于规则的策略在电池电量消耗到设定值 0郾 2 时启动燃料电池来驱动车辆,并对电池进行充电,电池电量恢复一定值后再次由电池驱动车辆,电池在较低荷电状态条件下,处于反复充放电状态,该策略下氢气消耗量为0郾 8334 kg. 基于等效消耗最小策略在电池电量消耗至设定值 0郾 2 后启动燃料电池,在该阶段基于等效氢气消耗最小原则,实时地分配电池和燃料电池之间的能量,使电池的电量保持在设定值上下浮动,最终氢气消耗仅为 0郾 5774 kg. 基于增强学习算法的策略在电池电量充足的情况下,使用电池驱动的成本值较小,因此,主要使用电池驱动车辆,当电池消耗到一定程度时,控制策略根据计算得到的最优成本值开始频繁调用燃料电池介入工作, 辅助电池来共同驱动车辆,使电池的电量消耗速率明显降低,氢气的消耗速率在此时也稍微增加,但是,在仿真结束时仍可以使电池保持一定的电量,且综合氢气消耗量相对于基于等效消耗最小策略的控制策略进一步减少,仅为 0郾 5028 kg. 如图 10 给出的是燃料电池系统输出功率对比, 同样可以看出,在电池电量充足时,燃料电池参与驱动的功率较小且不频繁,当电量降低时后,基于增强学习的控制策略相比于另两种策略燃料电池更早地参与驱动车辆,这也验证了图 9 中电池荷电状态的变化. 另外,图 11 表示的是燃料电池系统三种策略 ·1337·

.1338. 工程科学学报.第41卷，第10期 1.0r 30 增强学习策略 b 增强学习策略一一一等效消耗最小策略 20 等效消耗最小策路一基于规则基于规则 0.4 C 10 0020.40.60.81.012 1.41.61.82.0 0.2040.60.81.01.21.41.61.820 时间(10s) 时间(10心s) 1.0p 是0.8 (e) 增强学习策略 0.6 一一一等效消耗最小策略一基于规则 0.2 0.20.40.60.81.01.21.41.61.82.0 时间(10s) 图9不同策略下的验证结果对比.(a)电池荷电状态变化对比：(b)电池能耗对比：(c)氢气消耗量对比 Fig.9 Comparison of the results for three strategies:(a)comparison of the battery SOC;(b)comparison of battery energy consumption;(c)compari- son of fuel cell hydrogen consumption 下实时效率的变化情况，由于基于规则的策略下燃其中，W表示整车综合能耗，kWh,Wa表示电池料电池在电池电量不足时存在持续的高功率工作消耗电量，m4,为氢气消耗量，H,为氢气燃烧的热值，点，在纯电行驶结束后，氢气消耗速率明显高于其他 28667kcal·g,n.为燃料电池系统的效率.在不同两种策略，从而随行驶里程的增加，最终氢气消耗量行驶里程的城市行驶工况下，基于不同控制策略进最大.而基于增强学习和等效消耗最小策略均可以行仿真，得到的电池最终S0C、燃料电池氢气消耗量保证燃料电池尽可能的工作在高效工作点，从而保和整车综合能耗如表3所示. 证整车的经济性，从表3可以看出，当行驶里程较小时，主要以消耗电池电量为主，随着行驶里程的增加，三种策略 g30 增强学习策略一一一等效消耗下，整车的最终S0C都会控制在设定最低值0.2. 20 最小策略一基于规则计算整车的百公里综合能耗，结果如表4所示，不同 10 行驶里程的整车百公里能耗对比如图12所示，可以看出，随着行驶里程的增加，基于规则的策略整车百 00.20.40.60.8 1.01.21.41.61.82.0 时间/10s 公里综合能耗逐渐增大，等效消耗最小策略的下整车百公里能耗基本维持稳定，基于增强学习策略下图10燃料电池系统输出功率对比 Fig.10 Comparison of output power of fuel cell system 的能耗接近于等效消耗最小策略策略，并且随里程的增加，整车的百公里能耗随之会逐渐降低，在一增强学习策略一一一等效消耗最小策路基于规则 100200和300km行驶里程下，整车百公里能耗分 0.6 别降低8.84%、29.5%和38.6%. 解0.5 0.4 4.3硬件在环试验结果与分析 3 0 4.3.1硬件在环试验系统为进一步验证基于增强学习策略的有效性，采 0 0.20.40.60.81.01.21.41.61.82.0 用基于快速原型的开发平台的硬件设计硬件在环试时间10s 验.试验台架如图13所示，该台架采用双电机对拖图11燃料电池系统效率变化结构实现试验工况的加载与驱动，主要由负载电机、 Fig.11 Change of fuel cell system efficiency 驱动电机、电机控制器、快速开发平台硬件及附件、 4.2不同行驶里程验证对比燃料电池系统、锂离子电池组及其管理系统、数据采为了客观比较不同策略对整车经济性的影响，集控制器局域网络CAN及其控制系统组成，通过公式(21)将整车氢气消耗转换为电量消耗，计基于快速原型D2P的开发平台，电子控制单元算整车等效综合能耗. ECU硬件采用Freescale的MPC系统32位芯片，提 H2H'刀e 供控制器局域网络(controller area network,CAN)通 W.nenp What+ (22) 860.04 讯接口，P℃连接接口以及完整的线束，另外还包括

工程科学学报,第 41 卷,第 10 期图 9 不同策略下的验证结果对比. (a)电池荷电状态变化对比;(b)电池能耗对比;(c)氢气消耗量对比 Fig. 9 Comparison of the results for three strategies: (a)comparison of the battery SOC;(b)comparison of battery energy consumption;(c)compari鄄 son of fuel cell hydrogen consumption 下实时效率的变化情况,由于基于规则的策略下燃料电池在电池电量不足时存在持续的高功率工作点,在纯电行驶结束后,氢气消耗速率明显高于其他两种策略,从而随行驶里程的增加,最终氢气消耗量最大. 而基于增强学习和等效消耗最小策略均可以保证燃料电池尽可能的工作在高效工作点,从而保证整车的经济性. 图 10 燃料电池系统输出功率对比 Fig. 10 Comparison of output power of fuel cell system 图 11 燃料电池系统效率变化 Fig. 11 Change of fuel cell system efficiency 4郾 2 不同行驶里程验证对比为了客观比较不同策略对整车经济性的影响, 通过公式(21)将整车氢气消耗转换为电量消耗,计算整车等效综合能耗. Wenergy = Wbat + mH2·Hf·浊fc 860郾 04 (22) 其中,Wenergy表示整车综合能耗,kW·h,Wbat表示电池消耗电量,mH2为氢气消耗量,Hf为氢气燃烧的热值, 28667 kcal·g - 1 ,浊fc为燃料电池系统的效率. 在不同行驶里程的城市行驶工况下,基于不同控制策略进行仿真,得到的电池最终 SOC、燃料电池氢气消耗量和整车综合能耗如表 3 所示. 从表 3 可以看出,当行驶里程较小时,主要以消耗电池电量为主,随着行驶里程的增加,三种策略下,整车的最终 SOC 都会控制在设定最低值 0郾 2. 计算整车的百公里综合能耗,结果如表 4 所示,不同行驶里程的整车百公里能耗对比如图 12 所示,可以看出,随着行驶里程的增加,基于规则的策略整车百公里综合能耗逐渐增大,等效消耗最小策略的下整车百公里能耗基本维持稳定,基于增强学习策略下的能耗接近于等效消耗最小策略策略,并且随里程的增加,整车的百公里能耗随之会逐渐降低,在 100、200 和 300 km 行驶里程下,整车百公里能耗分别降低 8郾 84% 、29郾 5% 和 38郾 6% . 4郾 3 硬件在环试验结果与分析 4郾 3郾 1 硬件在环试验系统为进一步验证基于增强学习策略的有效性,采用基于快速原型的开发平台的硬件设计硬件在环试验. 试验台架如图 13 所示,该台架采用双电机对拖结构实现试验工况的加载与驱动,主要由负载电机、驱动电机、电机控制器、快速开发平台硬件及附件、燃料电池系统、锂离子电池组及其管理系统、数据采集控制器局域网络 CAN 及其控制系统组成. 基于快速原型 D2P 的开发平台,电子控制单元 ECU 硬件采用 Freescale 的 MPC 系统 32 位芯片,提供控制器局域网络(controller area network, CAN)通讯接口,PC 连接接口以及完整的线束,另外还包括 ·1338·

林歆悠等：基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1339· 表3不同行驶里程的仿真运行结果对比 Table 3 Comparison of simulation results under different mileages 控制策略电池荷电状态氢气消耗/kg 综合能耗/(kWh) 能耗降低/% 规则，50km 0.5491 0 7.56 [-] 等效最小，50km 0.5491 0 7.56 0 增强学习，50km 0.5521 0.006 7.56 0 规则，100km 0.3022 0.106 16.07 [-] 等效最小，100km 0.2225 0.014 14.65 8.84 增强学习，100km 0.3472 0.114 14.76 8.15 规则，150km 0.2072 0.382 27.19 [-] 等效最小，150km 0.2104 0.297 22.28 18.1 增强学习，150km 0.2076 0.306 22.53 17.1 规则，200km 0.2856 0.833 39.7 [-] 等效最小，200km 0.2014 0.577 28.75 27.6 增强学习，200km 0.2012 0.503 27.99 29.5 规则，300km 0.2401 1.538 62.05 [-] 等效最小，300km 0.2021 1.158 41.85 32.3 增强学习，300km 0.2013 0.913 38.35 38.2 表4整车的综合百公里能耗实验电机控制器负载电机驱动电机动力系统 Table 4 Comprehensive energy consumption for one hundred kilometers 操作台 kW.h 里程/km 规则等效最小增强学习电池数据 50 15.12 15.12 15.12 监控系统 100 16.07 14.65 14.76 150 18.13 14.85 15.02 200 19.85 14.38 14 控制策略模型 300 20.83 13.95 12.78 试验数据整车控制器采集系统 CAN总线 25 ☑规则☒等效最小⑧增强学习图13硬件在环试验台架 20 Fig.13 Test bench of the hardware in loop 15 10 域网络(USB-CAN)将笔记本电脑和电子控制单元连接，然后，MotoTune调入SRZ文件，将代码下载到 50 100 150 200 00 开发电子控制单元中，在新能源车辆试验台架上完行驶里程km 成安装调试及测试标定等工作，实现硬件在环试验，图12整车百公里综合能耗对比 Fig.12 Comparison of comprehensive energy consumption for one 并对实验数据实时监控记录. hundred kilometers 4.3.2试验结果对比与分析基于Matlab/Simulink的建模的软件工具包Mo- 设置电池S0C的初始值为0.3，加载城市行驶 toHawk和刷写/标定软件MotoTune.基于该系统的工况进行硬件在环试验.图15~图17分别给出了硬件在环试验实施方案如图14所示，在Matlab/ 试验与仿真的电机功率，电池功率和燃料电池功率 Simulink环境中采用D2P一MotoHawk快捷地构建对比.可以看出，硬件在环实验中，各部件的实际输控制系统模型及控制策略，通过实时代码转换(real- 出功率均在高功率点无法及时满足需求，这与各部 time workshop,RTW)模块、任务管理及I/O功能模件在实际工作中输出迟滞和运行损耗有关，但是运块将所设计的基于增强学习的控制策略转换为相应行趋势大致相同，基本符合所制定的控制策略的仿的C代码，经硬件连接器通用串行总线-控制器局真变化

林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略表 3 不同行驶里程的仿真运行结果对比 Table 3 Comparison of simulation results under different mileages 控制策略电池荷电状态氢气消耗/ kg 综合能耗/ (kW·h) 能耗降低/ % 规则, 50 km 0郾 5491 0 7郾 56 [ - ] 等效最小, 50 km 0郾 5491 0 7郾 56 0 增强学习, 50 km 0郾 5521 0郾 006 7郾 56 0 规则, 100 km 0郾 3022 0郾 106 16郾 07 [ - ] 等效最小, 100 km 0郾 2225 0郾 014 14郾 65 8郾 84 增强学习, 100 km 0郾 3472 0郾 114 14郾 76 8郾 15 规则, 150 km 0郾 2072 0郾 382 27郾 19 [ - ] 等效最小, 150 km 0郾 2104 0郾 297 22郾 28 18郾 1 增强学习, 150 km 0郾 2076 0郾 306 22郾 53 17郾 1 规则, 200 km 0郾 2856 0郾 833 39郾 7 [ - ] 等效最小, 200 km 0郾 2014 0郾 577 28郾 75 27郾 6 增强学习, 200 km 0郾 2012 0郾 503 27郾 99 29郾 5 规则, 300 km 0郾 2401 1郾 538 62郾 05 [ - ] 等效最小, 300 km 0郾 2021 1郾 158 41郾 85 32郾 3 增强学习, 300 km 0郾 2013 0郾 913 38郾 35 38郾 2 表 4 整车的综合百公里能耗 Table 4 Comprehensive energy consumption for one hundred kilometers kW·h 里程/ km 规则等效最小增强学习 50 15郾 12 15郾 12 15郾 12 100 16郾 07 14郾 65 14郾 76 150 18郾 13 14郾 85 15郾 02 200 19郾 85 14郾 38 14 300 20郾 83 13郾 95 12郾 78 图 12 整车百公里综合能耗对比 Fig. 12 Comparison of comprehensive energy consumption for one hundred kilometers 基于 Matlab / Simulink 的建模的软件工具包 Mo鄄 toHawk 和刷写/ 标定软件 MotoTune. 基于该系统的硬件在环试验实施方案如图 14 所示,在 Matlab / Simulink 环境中采用 D2P—MotoHawk 快捷地构建控制系统模型及控制策略,通过实时代码转换(real鄄 time workshop, RTW)模块、任务管理及 I/ O 功能模块将所设计的基于增强学习的控制策略转换为相应的 C 代码,经硬件连接器通用串行总线鄄鄄控制器局图 13 硬件在环试验台架 Fig. 13 Test bench of the hardware in loop 域网络(USB鄄鄄CAN)将笔记本电脑和电子控制单元连接,然后,MotoTune 调入 SRZ 文件,将代码下载到开发电子控制单元中,在新能源车辆试验台架上完成安装调试及测试标定等工作,实现硬件在环试验, 并对实验数据实时监控记录. 4郾 3郾 2 试验结果对比与分析设置电池 SOC 的初始值为 0郾 3,加载城市行驶工况进行硬件在环试验. 图 15 ~ 图 17 分别给出了试验与仿真的电机功率,电池功率和燃料电池功率对比. 可以看出,硬件在环实验中,各部件的实际输出功率均在高功率点无法及时满足需求,这与各部件在实际工作中输出迟滞和运行损耗有关,但是运行趋势大致相同,基本符合所制定的控制策略的仿真变化. ·1339·

.1340· 工程科学学报.第41卷，第10期。。“信号连接一··电力连接 ◆导入线一机械连接快速原型控制器 C代码快速原型开发软件 USB-CAN 行驶工况控锕策略 FCHEV模型 ■细编码测试 SRZ/A2L GreenHill 实时代码 D2P制写上位机文件编译器转换标定软件控制器局域网电机整车电机控制器控制器控制器控制柜转矩、转速传感器电池组及管理系统负截电机离合器变速器驱动电机 DC/DC 燃料电池系统图14硬件在环试验测试系统 Fig.14 Hardware in loop test system 试验结果可知，所建立的基于增强学习的插电式燃 0 一仿真结果一试验结果料电池汽车能量管理策略可达到预期的经济性效果 0.35 2.4 仿直结果 0.30 试验结果 2033 1.959 1.8 2 400 600800 100012001400 时间/s 1.2 图15电机功率试验与仿真结果对比 0.20 0.6 Fig.15 Comparison of motor power between test and simulation 0.15 200 400 600800100012001400 时间/s 图18电池荷电状态和整车综合能耗仿真与试验结果对比 Fig.18 Comparison of battery SOC and vehicle integrated energy consumption between test and simulation 仿真结果-试验结果 200 400 600 800 100012001400 结论时间s 图16电池功率试验与仿真结果对比以一款插电式燃料电池混合动力系统为研究对 Fig.16 Comparison of battery power between test and simulation 象，建立基于增强学习的能量管理控制策略，并进行仿真和硬件在环试验验证.仿真结果表明，在不同行驶里程下，电池的电量可以被保持在一定的水平，一仿真结果试验结果与基于规则的能量管理策略相比，整车的最终综合能耗得到明显的降低，在100、200和300km行驶里程下，整车百公里综合能耗分别降低8.84%、 20 400 600 800 10001200 1400 29.5%和38.6%，在城市行驶工况下，硬件在环试时间s 验整车综合能耗降低20.8%.综上所述，所制定的图17燃料电池功率试验与仿真结果对比基于增强学习的能量管理策略在整车优化中具有一 Fig.17 Comparison of fuel cell power between test and simulation 定的可行性和有效性，可为进一步解决智能网联汽图18表示该工况下仿真与试验的电池S0C和车环境下的不同续航行驶里程电量消耗自适应能量整车综合能耗对比，试验得到的综合能耗2.033kW 管理分配提供理论参考和方法奠定基础. ,h略高仿真得到的能耗1.959kW·h,与基于规则策略的2.566kW·h相比，提高了20.8%，基本符合所参考文献制定的控制策略的仿真结果.因此，根据硬件在环 [1]Xu L F.Hua J F,Bao L,et al.Optimized strategy on equivalent

工程科学学报,第 41 卷,第 10 期图 14 硬件在环试验测试系统 Fig. 14 Hardware in loop test system 图 15 电机功率试验与仿真结果对比 Fig. 15 Comparison of motor power between test and simulation 图 16 电池功率试验与仿真结果对比 Fig. 16 Comparison of battery power between test and simulation 图 17 燃料电池功率试验与仿真结果对比 Fig. 17 Comparison of fuel cell power between test and simulation 图 18 表示该工况下仿真与试验的电池 SOC 和整车综合能耗对比,试验得到的综合能耗 2郾 033 kW ·h 略高仿真得到的能耗1郾 959 kW·h,与基于规则策略的 2郾 566 kW·h 相比,提高了 20郾 8% ,基本符合所制定的控制策略的仿真结果. 因此,根据硬件在环试验结果可知,所建立的基于增强学习的插电式燃料电池汽车能量管理策略可达到预期的经济性效果. 图 18 电池荷电状态和整车综合能耗仿真与试验结果对比 Fig. 18 Comparison of battery SOC and vehicle integrated energy consumption between test and simulation 5 结论以一款插电式燃料电池混合动力系统为研究对象,建立基于增强学习的能量管理控制策略,并进行仿真和硬件在环试验验证. 仿真结果表明,在不同行驶里程下,电池的电量可以被保持在一定的水平, 与基于规则的能量管理策略相比,整车的最终综合能耗得到明显的降低,在 100、200 和 300 km 行驶里程下, 整车百公里综合能耗分别降低 8郾 84% 、 29郾 5% 和 38郾 6% ,在城市行驶工况下,硬件在环试验整车综合能耗降低 20郾 8% . 综上所述,所制定的基于增强学习的能量管理策略在整车优化中具有一定的可行性和有效性,可为进一步解决智能网联汽车环境下的不同续航行驶里程电量消耗自适应能量管理分配提供理论参考和方法奠定基础. 参考文献 [1] Xu L F, Hua J F, Bao L, et al. Optimized strategy on equivalent ·1340·

林歆悠等：基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1341· hydrogen consumption for fuel cell hybrid electric bus.China J 电池混合动力汽车能量管理策略.汽车工程，2006,28(9)： Highway Transport,2009,22(1):104 798) (徐梁飞，华剑锋，包磊，等.燃料电池混合动力客车等效氢 [11]Shi Y Q,He B.Cao G J,et al.A study on the energy manage- 耗优化策略.中国公路学报，2009,22(1)：104) ment strategy for fuel cell electric vehicle based on instantaneous [2]Yun H T,Liu S D,Zhao Y L,et al.Energy management for fuel optimization.Autom Eng,2008,30(1):30 cell hybrid vehicles based on a stiffness coefficient model.Int (石英乔，何彬，曹桂军，等燃料电池混合动力瞬时优化能 Hydrogen Energy,2015,40(1):633 量管理策略研究.汽车工程，2008,30(1)：30) [3]Oldenbroek V,Verhoef L A,Van Wijk A J M.Fuel cell electrie [12]Wang Q P,Du S Y,Li L,et al.Real-time energy management vehicle as a power plant:Fully renewable integrated transport and strategy for plug-in hybrid electric bus on particle swarm optimiza- energy system design and analysis for smart city areas.Int I Hy- tion algorithm.J Mech Eng,2017.53(4):77 drogen Energy,2017,42(12):8166 (王钦普，杜思字，李亮，等.基于粒子群算法的插电式混合 [4]Yang W B.Chen Q S,Tian G Y,et al.Shifting schedule and 动力客车实时策略.机械工程学报，2017,53(4)：77) torque distribution strategy for the plug-in hybrid electric vehicle. [13]Lin X Y,Feng Q G.Zhang S B.Global optimal discrete equiva- J Mech Eng,2013,49(14):91 lent factor of equivalent fuel consumption minimization strategy (杨伟减，陈全世，田光宇，等.插电式混合动力汽车换挡规 based energy management strategy for a series-parallel plug-in hy- 律及转矩分配策略.机械工程学报，2013,49(14)：91) brid electrie vehicle.J Mech Eng,2016,52(20):102 [5]Ahmadi L,Croiset E,Elkamel A,et al.Effect of socio-economic (林散悠，冯其高，张少博.等效因子离散全局优化的等效 factors on EV/HEV/PHEV adoption rate in Ontario.Technol 燃油瞬时消耗最小策略能量管理策略.机械工程学报， Forecast Social Change,2015,98:93 2016,52(20):102) [6]Montazeri-Gh M.Mahmoodi-K M.An optimal energy management [14]Hu Z Y.Li J Q,Xu L F.et al.Multi-objective energy manage- development for various configuration of plug-in and hybrid electric ment optimization and parameter sizing for proton exchange mem- vehicle.J Cent South Univ,2015,22(5):1737 brane hybrid fuel cell vehicles.Energy Conrers Manage,2016, [7]Qin DT,Zhao X Q,Su L,et al.Variable parameter energy man- 129:108 agement strategy for plug-in hybrid electric vehicle.China J High- [15]Xu L F,Mueller C D.Li J Q,et al.Multi-objective component way Transport,2015,28(2):112 sizing based on optimal energy management strategy of fuel cell (秦大同，赵新庆，苏岭，等.插电式混合动力汽车变参数能 electric vehicles.Appl Energy,2015,157:664 量管理策略.中国公路学报，2015,28(2)：112) [16]Han J H,Park Y,Kum D.Optimal adaptation of equivalent fac- [8]Lin C C,Peng H,Jeon S,et al.Control of a hybrid electrie truck tor of equivalent consumption minimization strategy for fuel cell based on driving pattem recognition//Proceedings of the 2002 Ad- hybrid electric vehicles under active state inequality constraints. ranced Vehicle Control Conference.Hiroshima,2002:9 JPower Sources,2014,267:491 [9]Lin X Y,Sun D Y.Development of control strategy for a series- [17]Murgovski N,Johannesson L M,Sjoberg J.Engine on/off control parallel hybrid electric city bus based on roadway type recognition. for dimensioning hybrid electric powertrains via convex optimiza- China Mech Eng,2012,23(7):869 tion.IEEE Trans Veh Technol,2013,62(7):2949 (林歆悠，孙冬野.基于工况识别的混联式混合动力客车控制 [18]Zheng C H,Oh C E,Park Y 1,et al.Fuel economy evaluation 策略研究.中国机械工程，2012,23(7)：869) of fuel cell hybrid vehicles based on equivalent fuel consumption. [10]Zhu Y,Wu Z H,Tian G Y,et al.An energy management strate- Int J Hydrogen Energy,2012,37(2):1790 gy for fuel cell hybrid electric vehicle based on Markov deeision [19]Huang Y J.Wang H,Khajepour A,et al.Model predictive con- process.Autom Eng,2006.28(9):798 trol power management strategies for HEVs:a review.Pouer (朱元，吴志红，田光字，等.基于马尔可夫决策理论的燃料 Sources,2017,341:91

林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 hydrogen consumption for fuel cell hybrid electric bus. China J Highway Transport, 2009, 22(1): 104 (徐梁飞, 华剑锋, 包磊, 等. 燃料电池混合动力客车等效氢耗优化策略. 中国公路学报, 2009, 22(1): 104) [2] Yun H T, Liu S D, Zhao Y L, et al. Energy management for fuel cell hybrid vehicles based on a stiffness coefficient model. Int J Hydrogen Energy, 2015, 40(1): 633 [3] Oldenbroek V, Verhoef L A, Van Wijk A J M. Fuel cell electric vehicle as a power plant: Fully renewable integrated transport and energy system design and analysis for smart city areas. Int J Hy鄄 drogen Energy, 2017, 42(12): 8166 [4] Yang W B, Chen Q S, Tian G Y, et al. Shifting schedule and torque distribution strategy for the plug鄄in hybrid electric vehicle. J Mech Eng, 2013, 49(14): 91 (杨伟斌, 陈全世, 田光宇, 等. 插电式混合动力汽车换挡规律及转矩分配策略. 机械工程学报, 2013, 49(14): 91) [5] Ahmadi L, Croiset E, Elkamel A, et al. Effect of socio鄄economic factors on EV/ HEV/ PHEV adoption rate in Ontario. Technol Forecast Social Change, 2015, 98: 93 [6] Montazeri鄄Gh M, Mahmoodi鄄K M. An optimal energy management development for various configuration of plug鄄in and hybrid electric vehicle. J Cent South Univ, 2015, 22(5): 1737 [7] Qin D T, Zhao X Q, Su L, et al. Variable parameter energy man鄄 agement strategy for plug鄄in hybrid electric vehicle. China J High鄄 way Transport, 2015, 28(2): 112 (秦大同, 赵新庆, 苏岭, 等. 插电式混合动力汽车变参数能量管理策略. 中国公路学报, 2015, 28(2): 112) [8] Lin C C, Peng H, Jeon S, et al. Control of a hybrid electric truck based on driving pattern recognition / / Proceedings of the 2002 Ad鄄 vanced Vehicle Control Conference. Hiroshima, 2002: 9 [9] Lin X Y, Sun D Y. Development of control strategy for a series鄄 parallel hybrid electric city bus based on roadway type recognition. China Mech Eng, 2012, 23(7): 869 (林歆悠, 孙冬野. 基于工况识别的混联式混合动力客车控制策略研究. 中国机械工程, 2012, 23(7): 869) [10] Zhu Y, Wu Z H, Tian G Y, et al. An energy management strate鄄 gy for fuel cell hybrid electric vehicle based on Markov decision process. Autom Eng, 2006, 28(9): 798 (朱元, 吴志红, 田光宇, 等. 基于马尔可夫决策理论的燃料电池混合动力汽车能量管理策略. 汽车工程, 2006, 28(9): 798) [11] Shi Y Q, He B, Cao G J, et al. A study on the energy manage鄄 ment strategy for fuel cell electric vehicle based on instantaneous optimization. Autom Eng, 2008, 30(1): 30 (石英乔, 何彬, 曹桂军, 等. 燃料电池混合动力瞬时优化能量管理策略研究. 汽车工程, 2008, 30(1): 30) [12] Wang Q P, Du S Y, Li L, et al. Real鄄time energy management strategy for plug鄄in hybrid electric bus on particle swarm optimiza鄄 tion algorithm. J Mech Eng, 2017, 53(4): 77 (王钦普, 杜思宇, 李亮, 等. 基于粒子群算法的插电式混合动力客车实时策略. 机械工程学报, 2017, 53(4): 77) [13] Lin X Y, Feng Q G, Zhang S B. Global optimal discrete equiva鄄 lent factor of equivalent fuel consumption minimization strategy based energy management strategy for a series鄄parallel plug鄄in hy鄄 brid electric vehicle. J Mech Eng, 2016, 52(20): 102 (林歆悠, 冯其高, 张少博. 等效因子离散全局优化的等效燃油瞬时消耗最小策略能量管理策略. 机械工程学报, 2016, 52(20): 102) [14] Hu Z Y, Li J Q, Xu L F, et al. Multi鄄objective energy manage鄄 ment optimization and parameter sizing for proton exchange mem鄄 brane hybrid fuel cell vehicles. Energy Convers Manage, 2016, 129: 108 [15] Xu L F, Mueller C D, Li J Q, et al. Multi鄄objective component sizing based on optimal energy management strategy of fuel cell electric vehicles. Appl Energy, 2015, 157: 664 [16] Han J H, Park Y, Kum D. Optimal adaptation of equivalent fac鄄 tor of equivalent consumption minimization strategy for fuel cell hybrid electric vehicles under active state inequality constraints. J Power Sources, 2014, 267: 491 [17] Murgovski N, Johannesson L M, Sj觟berg J. Engine on / off control for dimensioning hybrid electric powertrains via convex optimiza鄄 tion. IEEE Trans Veh Technol, 2013, 62(7): 2949 [18] Zheng C H, Oh C E, Park Y I, et al. Fuel economy evaluation of fuel cell hybrid vehicles based on equivalent fuel consumption. Int J Hydrogen Energy, 2012, 37(2): 1790 [19] Huang Y J, Wang H, Khajepour A, et al. Model predictive con鄄 trol power management strategies for HEVs: a review. J Power Sources, 2017, 341: 91 ·1341·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录