一种燃料电池汽车能量管理策略快速开发方法
未命名
10-19
阅读:125
评论:0
1.本发明属于氢燃料电池汽车能量管理技术领域,具体涉及一种基于知识全迁移的氢燃料电池汽车深度强化学习型能量管理策略快速开发方法。
背景技术:
2.氢燃料电池汽车以其加注时间短、续航里程长、清洁无污染等优点,具有混合动力汽车和纯电动汽车所不具备的优势。与目前应用更为广泛的锂离子电池类似,氢燃料电池在新能源汽车中使用时,也需要在多个车载能量源之间合理地分配输出功率,以实现氢燃料电池汽车的氢能利用效率最优,因此开发适用于氢燃料电池的高效能量管理策略尤为重要。现有技术中,基于深度强化学习的能量管理策略以其显著的优化效果、极高的计算效率、强大的自学习和自适应能力等优势,已发展出部分用于氢燃料电池汽车的能量管理手段,但是已有的此类氢燃料电池汽车能量管理策略的开发普遍仅针对特定车型,例如,氢燃料电池轿车或者氢燃料电池公交车的能量管理策略目前都是单独开发,两者之间无法做到通用。因此,当氢燃料电池汽车的车型发生变化时仍需要重新开发能量管理策略,这无疑加大了研发人员的工作量。
技术实现要素:
3.有鉴于此,针对本领域中存在的技术问题,本发明提供了一种燃料电池汽车能量管理策略快速开发方法,具体包括以下步骤:
4.步骤一、选取两种使用相同动力系统构型的不同氢燃料电池汽车车型,例如氢燃料电池轿车和氢燃料电池公交车,将其中第一种车型能量管理策略的预训练任务定义为源域,将第二种车型能量管理策略的微调任务定义为目标域;收集第一种车型的多辆汽车在不同驾驶工况下的运行数据,基于这些运行数据构建所述源域中的随机预训练环境;收集第二种车型的多辆汽车在不同驾驶工况下的运行数据,基于这些运行数据构建所述目标域中的随机微调环境;
5.步骤二、在深度强化学习sac算法的基础上通过引入优先经验回放机制来设计用于所述预训练的增强型sac算法结构,所述结构由价值网络、策略网络、二叉树和优先经验回放缓冲池组成,优先经验回放缓冲池用于为价值网络和策略网络提供训练所需的样本;
6.步骤三、在所述源域的随机预训练环境中,利用相应不同驾驶工况下的运行数据对所述增强型sac算法进行预训练,待稳定收敛后得到用于后续迁移学习所需的源域表征模型;所述源域表征模型能够体现不同工况下车辆的氢气和电量消耗情况;
7.步骤四、将源域表征模型中的全部知识信息,包括:表征模型的策略网络参数、价值网络参数、优先经验回放缓冲池中的所有样本以及二叉树中所有节点的数据,全部迁移至所述目标域,用于初始化同样基于增强型sac算法的目标域补偿模型;在目标域的随机微调环境中,选取不同驾驶工况下的运行数据训练增强型sac算法,对补偿模型微调至稳定收敛;
8.步骤五、将训练好的所述补偿模型中的策略网络参数下载至第二种车型的车端能量管理控制器中,利用测试工况对能量管理策略进行在线测试;
9.步骤六、若在线测试的燃油经济性结果达到设定的目标值,则将所述补偿模型的策略网络参数应用于第二种氢燃料电池汽车车型,能量管理策略开发至此全部完成;否则,对目标域补偿模型的超参数进行调整,并返回步骤四重复执行训练与测试,直至测试结果达到目标值。
10.进一步地,步骤一中选择氢燃料电池轿车作为所述第一种车型用于定义所述源域,通过采集氢燃料电池轿车在城市中心区、近郊区、远郊区和高速公路等四种不同场景道路上的车速数据,并对采集到的车速数据进行预处理后,以约2000秒为基本单位划分为得到多条驾驶工况的运行数据,进而构建起氢燃料电池轿车在源域中的随机预训练环境;氢燃料公交车作为所述第二种车型用于定义所述目标域,通过反复采集氢燃料电池公交车在一条特定公交线路上由始发站到终点站的完整车速数据,并对采集到的每一条完整车速数据进行预处理,得到多条驾驶工况的运行数据,进而构建起氢燃料电池公交车在目标域中的随机微调环境。
11.进一步地,步骤二中所述增强型sac算法结构具体包括:一个策略网络、四个价值网络、一个优先经验回放缓冲池和一个二叉树结构,各网络均为具有三个隐藏层的前馈型神经网络;其中,策略网络π
φ
的参数为φ;四个价值网络具体为两个当前价值网络和两个目标价值网络相应的网络参数分别为θ1、θ2、θ
′1、θ
′2。
12.进一步地,对增强型sac算法在源域中预训练以及目标域中微调,均通过依次执行的以下步骤实现:
13.(1):神经网络初始化:初始化上述的各网络参数:φ、θ1、θ2、θ
′1、θ
′2;初始化优先经验回放缓冲池;初始化二叉树结构上的所有子节点的优先级;
14.(2):使增强型sac算法的智能体与环境持续交互:根据当前t时刻状态s
t
,选择动作a
t
,获得奖励r
t
,进入下一时刻状态s
t+1
;将得到的每个四元序列[s
t
,a
t
,r
t
,s
t+1
]作为一个样本,存入所述优先经验回放缓冲池中;
[0015]
(3):从优先经验回放缓冲池中采集一批样本,用于训练策略网络和价值网络,采集到的样本数目为n个,其中表示采集到的第k个样本(k=1,2,
…
,n);样本采集具体包括:
[0016]
①
计算采样概率:其中,j表示样本在优先经验回放缓冲池中的序号,p表示样本的优先级,ρ(0《ρ《1)表示优先级因子;
[0017]
②
基于采样概率的大小,从优先经验回放缓冲池中采集样本[s
t
,a
t
,r
t
,s
t+1
];
[0018]
③
计算每个样本的重要性采样权重:其中,b表示优先经验回放缓冲池中的样本总数,β(0《β《1)表示重要性采样因子;
[0019]
(4):训练价值网络,具体训练步骤为:
[0020]
①
选择目标动作:其中,f
φ
表示动作分布,ε
t
表示动作噪声,表示动作噪声分布;
[0021]
②
计算目标q值:计算目标q值:其中,i(i=1,2)表示价值网络的编号,γ(0<γ<1)表示折扣因子,α(0≤α≤1)表示策略探索因子,表示目标价值网络计算出的q值;
[0022]
③
利用步骤(3)中所述的重要性采样权重,计算价值网络损失函数:利用步骤(3)中所述的重要性采样权重,计算价值网络损失函数:其中,表示当前q值,表示数学期望;
[0023]
④
利用随机梯度下降方法,更新当前价值网络的参数其中,λ
θ
表示价值网络的学习率,是梯度运算符号;
[0024]
⑤
利用软更新方法,更新目标价值网络的参数:θ
′i←
τθi+(1-τ)θ
′i,其中,τ(0《τ《1)表示软更新因子;
[0025]
(5):训练策略网络,具体训练步骤为:
[0026]
①
计算策略网络损失函数:计算策略网络损失函数:
[0027]
②
利用随机梯度下降方法,更新策略网络的参数:其中,λ
φ
表示策略网络的学习率,表示函数l(φ)对φ的梯度;
[0028]
(6):更新策略探索因子,具体更新步骤为:
[0029]
①
计算策略探索因子损失函数:其中,h表示目标熵;
[0030]
②
利用随机梯度下降方法,更新策略探索因子:其中,λ
α
表示策略探索因子的学习率,表示函数l(α)对α的梯度;
[0031]
(7):重新计算时序差分误差值:
[0032]
(8):更新二叉树结构中的样本优先级:p=δ+κ,其中,κ(0《κ<<1)是用于保持优先级数值稳定性的常数。
[0033]
进一步地,步骤三中在利用氢燃料电池轿车的运行数据进行预训练过程中,在每一个训练回合开始之前,都从随机预训练环境中随机地选择一条工况作为预训练工况;状态变量分别选取:氢燃料电池轿车的车速v、加速度acc、氢燃料电池输出功率p
fc
,以及锂电池荷电状态soc,由此定义源域状态空间为ss={v,acc,p
fc
,soc};动作变量选取氢燃料电池输出功率的变化率δp
fc
,由此定义源域动作空间为as={δp
fc
|δp
fc
∈[-3kw,3kw]};定义源域奖励函数为源域奖励函数为其中,表示氢气消耗率,soc0表示soc初始值,ω1是氢耗因子,ω2是soc稳持因子。
[0034]
相应地,步骤四中对目标域补偿模型进行微调的过程中,在每一个微调回合开始之前,都从随机微调环境中随机地选择一条工况用作微调工况;状态变量分别选取:氢燃料电池公交车的车速v、加速度acc、氢燃料电池输出功率p
fc
,以及锂电池荷电状态soc,由此定义目标域状态空间为s
t
={v,acc,p
fc
,soc};动作变量选取氢燃料电池输出功率的变化率δ
p
fc
,由此定义目标域动作空间为a
t
={δp
fc
|δp
fc
∈[-5kw,5kw]};定义目标域奖励函数为5kw,5kw]};定义目标域奖励函数为其中,表示氢气消耗率,soc0表示soc初始值,ω1是氢耗因子,ω2是soc稳持因子。
[0035]
微调过程与预训练过程类似,包括:
[0036]
步骤4.1、首先提取源域表征模型的策略网络参数、价值网络参数、优先经验回放缓冲池中的所有样本,以及二叉树结构所有节点的数据,用于对目标域补偿模型的策略网络的前三层、价值网络的前三层、优先经验回放缓冲池、二叉树结构进行初始化;对策略网络的输出层参数以及价值网络的输出层参数进行随机初始化;
[0037]
步骤4.2、在目标域的随机微调环境下,使用增强型sac算法,对氢燃料电池公交车的能量管理策略进行微调训练,直至其稳定收敛。
[0038]
进一步地,步骤五中所述测试工况具体是从随机微调环境的全部运行数据中,选取不完全相同的各工况进行重构后得到。
[0039]
进一步地,步骤六中所述的燃油经济性结果具体以动态规划算法计算得到的全局最优百公里氢耗结果为基准;设定的目标值为全局最优结果的95%。
[0040]
上述本发明所提供的燃料电池汽车能量管理策略快速开发方法,通过将增强型sac算法与迁移学习有机结合并充分发挥二者的优势,建立关联相似的能量管理策略训练任务,以及将从预训练过程中学习到的所有知识全部迁移并应用于新的能量管理任务中,实现能量管理策略的跨车型迁移和复用,能够极大地缩短新车型的深度强化学习型能量管理策略的开发周期,并有效地提升燃油经济性,从而具有了现有技术所不具备的诸多有益效果。
附图说明
[0041]
图1是本发明所提供方法的整体流程图;
[0042]
图2是基于本发明所提供方法的能量管理策略开发架构图;
[0043]
图3(a)是采集到的氢燃料电池轿车真实车速数据;
[0044]
图3(b)是氢燃料电池轿车在源域中的随机预训练环境;
[0045]
图4(a)是采集到的氢燃料电池公交车真实车速数据;
[0046]
图4(b)是氢燃料电池公交车在目标域中的随机微调环境;
[0047]
图5(a)是源域随机预训练环境和目标域随机微调环境的速度分布统计结果;
[0048]
图5(b)是源域随机预训练环境和目标域随机微调环境的加速度分布统计结果;
[0049]
图6是本发明所提供方法中使用的增强型sac算法结构图;
[0050]
图7(a)是基于普通sac算法的源域能量管理策略收敛曲线;
[0051]
图7(b)是基于增强型sac算法的源域能量管理策略收敛曲线;
[0052]
图8(a)是目标域无知识迁移的能量管理策略收敛曲线;
[0053]
图8(b)是目标域知识全迁移的能量管理策略收敛曲线;
[0054]
图9是基于本发明的实例中选取的测试工况;
[0055]
图10是三种不同能量管理策略的百公里氢耗在线测试结果对比曲线。
具体实施方式
[0056]
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0057]
本发明所提供的燃料电池汽车能量管理策略快速开发方法,如图1所示,具体包括以下步骤:
[0058]
步骤一、选取两种使用相同动力系统构型的不同氢燃料电池汽车车型,例如氢燃料电池轿车和氢燃料电池公交车,将其中第一种车型能量管理策略的预训练任务定义为源域,将第二种车型能量管理策略的微调任务定义为目标域;收集第一种车型的多辆汽车在不同驾驶工况下的运行数据,基于这些运行数据构建所述源域中的随机预训练环境;收集第二种车型的多辆汽车在不同驾驶工况下的运行数据,基于这些运行数据构建所述目标域中的随机微调环境;
[0059]
步骤二、在深度强化学习sac算法的基础上通过引入优先经验回放机制来设计用于所述预训练的增强型sac算法结构,所述结构由价值网络、策略网络、二叉树和优先经验回放缓冲池组成,优先经验回放缓冲池用于为价值网络和策略网络提供训练所需的样本;
[0060]
步骤三、在所述源域的随机预训练环境中,利用相应不同驾驶工况下的运行数据对所述增强型sac算法进行预训练,待稳定收敛后得到用于后续迁移学习所需的源域表征模型;所述源域表征模型能够体现不同工况下车辆的氢气和电量消耗情况;
[0061]
步骤四、将源域表征模型中的全部知识信息,包括:表征模型的策略网络参数、价值网络参数、优先经验回放缓冲池中的所有样本以及二叉树中所有节点的数据,全部迁移至所述目标域,用于初始化同样基于增强型sac算法的目标域补偿模型;在目标域的随机微调环境中,选取不同驾驶工况下的运行数据训练增强型sac算法,对补偿模型微调至稳定收敛;
[0062]
步骤五、将训练好的所述补偿模型中的策略网络参数下载至第二种车型的车端能量管理控制器中,利用测试工况对能量管理策略进行在线测试;
[0063]
步骤六、若在线测试的燃油经济性结果达到设定的目标值,则将所述补偿模型的策略网络参数应用于第二种氢燃料电池汽车车型,能量管理策略开发至此全部完成;否则,对目标域补偿模型的超参数进行调整,并返回步骤四重复执行训练与测试,直至测试结果达到目标值。
[0064]
图2中示出了基于上述方法的能量管理策略详细开发过程的架构图。
[0065]
在本发明的一个优选实施方式中,步骤一中选择氢燃料电池轿车作为所述第一种车型用于定义所述源域,通过采集氢燃料电池轿车在城市中心区、近郊区、远郊区和高速公路等四种不同场景道路上的车速数据,如图3(a)所示,并对采集到的车速数据进行预处理后,以约2000秒为基本单位划分为得到多条驾驶工况的运行数据,进而构建起氢燃料电池轿车在源域中的随机预训练环境,如图3(b)所示。
[0066]
氢燃料公交车作为所述第二种车型用于定义所述目标域,通过反复采集氢燃料电池公交车在一条特定公交线路上由始发站到终点站的完整车速数据,如图4(a)所示,并对采集到的每一条完整车速数据进行预处理,得到多条驾驶工况的运行数据,进而构建起氢燃料电池公交车在目标域中的随机微调环境,如图4(b)所示。
[0067]
图5(a)是源域随机预训练环境和目标域随机微调环境的速度分布统计结果,源域的速度分布在0km
·
h-1
至130km
·
h-1
之间,目标域的速度分布在0km
·
h-1
至60km
·
h-1
之间;图5(b)是源域随机预训练环境和目标域随机微调环境的加速度分布统计结果,源域的加速度分布在-4m
·
s-2
至4m
·
s-2
之间,目标域的速度分布在-2m
·
s-2
至2m
·
s-2
之间;源域的速度和加速度分布范围均大于目标域的速度和加速度分布范围,符合氢燃料电池轿车和氢燃料电池公交车的工作特点。
[0068]
在本发明的一个优选实施方式中,步骤二中所述增强型sac算法网络结构如图6所示,其具体包括:一个策略网络、四个价值网络、一个优先经验回放缓冲池和一个二叉树结构,各网络均为具有三个隐藏层的前馈型神经网络;其中,策略网络π
φ
的参数为φ;四个价值网络具体为两个当前价值网络和两个目标价值网络相应的网络参数分别为θ1、θ2、θ
′1、θ
′2。
[0069]
在本发明的一个优选实施方式中,对增强型sac算法在源域中预训练以及目标域中微调,均通过依次执行的以下步骤实现:
[0070]
(1):神经网络初始化:初始化上述的各网络参数:φ、θ1、θ2、θ
′1、θ
′2;初始化优先经验回放缓冲池;初始化二叉树结构上的所有子节点的优先级;
[0071]
(2):使增强型sac算法的智能体与环境持续交互:根据当前t时刻状态s
t
,选择动作a
t
,获得奖励r
t
,进入下一时刻状态s
t+1
;将得到的每个四元序列[s
t
,a
t
,r
t
,s
t+1
]作为一个样本,存入所述优先经验回放缓冲池中;
[0072]
(3):从优先经验回放缓冲池中采集一批样本,用于训练策略网络和价值网络,采集到的样本数目为n个,其中表示采集到的第k个样本(k=1,2,
…
,n);样本采集具体包括:
[0073]
①
计算采样概率:其中,j表示样本在优先经验回放缓冲池中的序号,p表示样本的优先级,ρ(0《ρ《1)表示优先级因子;
[0074]
②
基于采样概率的大小,从优先经验回放缓冲池中采集样本[s
t
,a
t
,r
t
,s
t+1
];
[0075]
③
计算每个样本的重要性采样权重:其中,b表示优先经验回放缓冲池中的样本总数,β(0《β《1)表示重要性采样因子;
[0076]
(4):训练价值网络,具体训练步骤为:
[0077]
①
选择目标动作:其中,f
φ
表示动作分布,ε
t
表示动作噪声,表示动作噪声分布;
[0078]
②
计算目标q值:计算目标q值:其中,i(i=1,2)表示价值网络的编号,γ(0《γ《1)表示折扣因子,α(0≤α≤1)表示策略探索因子,表示目标价值网络计算出的q值;
[0079]
③
利用步骤(3)中所述的重要性采样权重,计算价值网络损失函数:
其中,表示当前q值,表示数学期望;
[0080]
④
利用随机梯度下降方法,更新当前价值网络的参数:其中,λ
θ
表示价值网络的学习率,是梯度运算符号;
[0081]
⑤
利用软更新方法,更新目标价值网络的参数:θ
′←
τθi+(1-τ)θ
′i,其中,τ(0《τ《1)表示软更新因子;
[0082]
(5):训练策略网络,具体训练步骤为:
[0083]
①
计算策略网络损失函数:计算策略网络损失函数:
[0084]
②
利用随机梯度下降方法,更新策略网络的参数:其中,λ
φ
表示策略网络的学习率,表示函数l(φ)对φ的梯度;
[0085]
(6):更新策略探索因子,具体更新步骤为:
[0086]
①
计算策略探索因子损失函数:其中,表示目标熵;
[0087]
②
利用随机梯度下降方法,更新策略探索因子:其中,λ
α
表示策略探索因子的学习率,表示函数l(α)对α的梯度;
[0088]
(7):重新计算时序差分误差值:
[0089]
(8):更新二叉树结构中的样本优先级:p=δ+κ,其中,κ(0《κ<<1)是用于保持优先级数值稳定性的常数。
[0090]
步骤三所得到的源域预训练结果对比如图7所示:图7(a)示出了基于现有的普通sac算法的源域能量管理策略收敛曲线,图7(b)示出了基于本发明所提出的增强型sac算法的源域能量管理策略收敛曲线;可以看出,两种能量管理策略完全收敛所需要的训练回合数分别为163回合和52回合,因此增强型sac算法将收敛速度提升了68.10%,验证了本发明所提出的增强型sac算法的有益效果。
[0091]
在本发明的一个优选实施方式中,步骤三中在利用氢燃料电池轿车的运行数据进行预训练过程中,在每一个训练回合开始之前,都从随机预训练环境中随机地选择一条工况作为预训练工况;状态变量分别选取:氢燃料电池轿车的车速v、加速度acc、氢燃料电池输出功率p
fc
,以及锂电池荷电状态soc,由此定义源域状态空间为ss={v,acc,p
fc
,soc};动作变量选取氢燃料电池输出功率的变化率δp
fc
,由此定义源域动作空间为as={δp
fc
|δp
fc
∈[-3kw,3kw]};定义源域奖励函数为其中,表示氢气消耗率,soc0表示soc初始值,ω1是氢耗因子,ω2是soc稳持因子。
[0092]
相应地,步骤四中对目标域补偿模型进行微调的过程中,在每一个微调回合开始之前,都从随机微调环境中随机地选择一条工况用作微调工况;状态变量分别选取:氢燃料电池公交车的车速v、加速度acc、氢燃料电池输出功率p
fc
,以及锂电池荷电状态soc,由此定义目标域状态空间为s
t
={v,acc,p
fc
,soc};动作变量选取氢燃料电池输出功率的变化率δ
p
fc
,由此定义目标域动作空间为a
t
={δp
fc
|δp
fc
∈[-5kw,5kw]};定义目标域奖励函数为5kw,5kw]};定义目标域奖励函数为其中,表示氢气消耗率,soc0表示soc初始值,ω1是氢耗因子,ω2是soc稳持因子。
[0093]
微调过程与预训练过程类似,包括:
[0094]
步骤4.1、首先提取源域表征模型的策略网络参数、价值网络参数、优先经验回放缓冲池中的所有样本,以及二叉树结构所有节点的数据,用于对目标域补偿模型的策略网络的前三层、价值网络的前三层、优先经验回放缓冲池、二叉树结构进行初始化;对策略网络的输出层参数以及价值网络的输出层参数进行随机初始化;
[0095]
步骤4.2、在目标域的随机微调环境下,使用增强型sac算法,对氢燃料电池公交车的能量管理策略进行微调训练,直至其稳定收敛。
[0096]
步骤四所得到的目标域微调结果对比如图8所示:图8(a)示出了目标域无知识迁移的能量管理策略收敛曲线,图8(b)示出了目标域知识全迁移的能量管理策略收敛曲线;可以看出,两种能量管理策略完全收敛所需要的训练回合数分别为71回合和6回合,知识全迁移能量管理方法将收敛速度提升了91.55%,验证了本发明所提出的知识全迁移能量管理方法的有益效果。
[0097]
在本发明的一个优选实施方式中,步骤五中所述测试工况具体是从随机微调环境的全部运行数据中,选取不完全相同的各工况进行重构后得到。图9中示出了本发明的实例中所选取的测试工况。
[0098]
在本发明的一个优选实施方式中,步骤六中所述的燃油经济性结果具体以动态规划算法计算得到的全局最优百公里氢耗结果为基准;设定的目标值为全局最优结果的95%。
[0099]
步骤五所得到的在线测试结果对比如图10所示:可以看出,当测试结束时,无知识迁移的能量管理策略百公里氢耗结果为6.05kg/100km,而使用了知识全迁移的能量管理策略百公里氢耗结果为5.64kg/100km,全局最优的动态规划策略百公里氢耗结果为5.46kg/100km;与无知识迁移的能量管理策略相比,使用知识全迁移的能量管理策略可将燃油经济性提升6.78%,其燃油经济性达到了全局最优结果的96.81%,达到了步骤六所设定的目标值,很好地满足了设计要求。
[0100]
应理解,本发明实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0101]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种燃料电池汽车能量管理策略快速开发方法,其特征在于:具体包括以下步骤:步骤一、选取两种使用相同动力系统构型的不同氢燃料电池汽车车型,例如氢燃料电池轿车和氢燃料电池公交车,将其中第一种车型能量管理策略的预训练任务定义为源域,将第二种车型能量管理策略的微调任务定义为目标域;收集第一种车型的多辆汽车在不同驾驶工况下的运行数据,基于这些运行数据构建所述源域中的随机预训练环境;收集第二种车型的多辆汽车在不同驾驶工况下的运行数据,基于这些运行数据构建所述目标域中的随机微调环境;步骤二、在深度强化学习sac算法的基础上通过引入优先经验回放机制来设计用于所述预训练的增强型sac算法结构,所述结构由价值网络、策略网络、二叉树和优先经验回放缓冲池组成,优先经验回放缓冲池用于为价值网络和策略网络提供训练所需的样本;步骤三、在所述源域的随机预训练环境中,利用相应不同驾驶工况下的运行数据对所述增强型sac算法进行预训练,待稳定收敛后得到用于后续迁移学习所需的源域表征模型;所述源域表征模型能够体现不同工况下车辆的氢气和电量消耗情况;步骤四、将源域表征模型中的全部知识信息,包括:表征模型的策略网络参数、价值网络参数、优先经验回放缓冲池中的所有样本以及二叉树中所有节点的数据,全部迁移至所述目标域,用于初始化同样基于增强型sac算法的目标域补偿模型;在目标域的随机微调环境中,选取不同驾驶工况下的运行数据训练增强型sac算法,对补偿模型微调至稳定收敛;步骤五、将训练好的所述补偿模型中的策略网络参数下载至第二种车型的车端能量管理控制器中,利用测试工况对能量管理策略进行在线测试;步骤六、若在线测试的燃油经济性结果达到设定的目标值,则将所述补偿模型的策略网络参数应用于第二种氢燃料电池汽车车型,能量管理策略开发至此全部完成;否则,对目标域补偿模型的超参数进行调整,并返回步骤四重复执行训练与测试,直至测试结果达到目标值。2.如权利要求1所述的方法,其特征在于:步骤一中选择氢燃料电池轿车作为所述第一种车型用于定义所述源域,通过采集氢燃料电池轿车在城市中心区、近郊区、远郊区和高速公路等四种不同场景道路上的车速数据,并对采集到的车速数据进行预处理后,以约2000秒为基本单位划分为得到多条驾驶工况的运行数据,进而构建起氢燃料电池轿车在源域中的随机预训练环境;氢燃料公交车作为所述第二种车型用于定义所述目标域,通过反复采集氢燃料电池公交车在一条特定公交线路上由始发站到终点站的完整车速数据,并对采集到的每一条完整车速数据进行预处理,得到多条驾驶工况的运行数据,进而构建起氢燃料电池公交车在目标域中的随机微调环境。3.如权利要求2所述的方法,其特征在于:步骤二中所述增强型sac算法结构具体包括:一个策略网络、四个价值网络、一个优先经验回放缓冲池和一个二叉树结构,各网络均为具有三个隐藏层的前馈型神经网络;其中,策略网络π
φ
的参数为φ;四个价值网络具体为两个当前价值网络和两个目标价值网络和两个目标价值网络相应的网络参数分别为θ1、θ2、θ
′1、θ
′2。4.如权利要求3所述的方法,其特征在于:增强型sac算法在源域中预训练以及目标域中微调,均通过依次执行的以下步骤实现:(1):神经网络初始化:初始化上述的各网络参数:φ、θ1、θ2、θ
′1、θ
′2;初始化优先经验回
放缓冲池;初始化二叉树结构上的所有子节点的优先级;(2):使增强型sac算法的智能体与环境持续交互:根据当前t时刻状态s
t
,选择动作a
t
,获得奖励r
t
,进入下一时刻状态s
t+1
;将得到的每个四元序列[s
t
,a
t
,r
t
,s
t+1
]作为一个样本,存入所述优先经验回放缓冲池中;(3):从优先经验回放缓冲池中采集一批样本,用于训练策略网络和价值网络,采集到的样本数目为n个,其中表示采集到的第k个样本(k=1,2,
…
,n);样本采集具体包括:
①
计算采样概率:其中,j表示样本在优先经验回放缓冲池中的序号,p表示样本的优先级,ρ(0<ρ<1)表示优先级因子;
②
基于采样概率的大小,从优先经验回放缓冲池中采集样本[s
t
,a
t
,r
t
,s
t+1
];
③
计算每个样本的重要性采样权重:其中,b表示优先经验回放缓冲池中的样本总数,β(0<β<1)表示重要性采样因子;(4):训练价值网络,具体训练步骤为:
①
选择目标动作:a
t+1
=f
φ
(ε
t
;s
t+1
),其中,f
φ
表示动作分布,ε
t
表示动作噪声,表示动作噪声分布;
②
计算目标q值:计算目标q值:其中,i(i=1,2)表示价值网络的编号,γ(0<γ<1)表示折扣因子,α(0≤α≤1)表示策略探索因子,表示目标价值网络计算出的q值;
③
利用步骤(3)中所述的重要性采样权重,计算价值网络损失函数:利用步骤(3)中所述的重要性采样权重,计算价值网络损失函数:其中,表示当前q值,表示数学期望;
④
利用随机梯度下降方法,更新当前价值网络的参数:其中,λ
θ
表示价值网络的学习率,是梯度运算符号;
⑤
利用软更新方法,更新目标价值网络的参数:θ
′
i
←
τθ
i
+(1-τ)θ
′
i
,其中,τ(0<τ<1)表示软更新因子;(5):训练策略网络,具体训练步骤为:
①
计算策略网络损失函数:计算策略网络损失函数:
②
利用随机梯度下降方法,更新策略网络的参数:其中,λ
φ
表示策略网络的学习率,表示函数l(φ)对φ的梯度;(6):更新策略探索因子,具体更新步骤为:
①
计算策略探索因子损失函数:其中,表示目标熵;
②
利用随机梯度下降方法,更新策略探索因子:其中,λ
α
表示策略
探索因子的学习率,表示函数l(α)对α的梯度;(7):重新计算时序差分误差值:(8):更新二叉树结构中的样本优先级:p=δ+κ,其中,κ(0<κ<<1)是用于保持优先级数值稳定性的常数。5.如权利要求4所述的方法,其特征在于:步骤三中在利用氢燃料电池轿车的运行数据进行预训练过程中,在每一个训练回合开始之前,都从随机预训练环境中随机地选择一条工况作为预训练工况;状态变量分别选取:氢燃料电池轿车的车速v、加速度acc、氢燃料电池输出功率p
fc
,以及锂电池荷电状态soc,由此定义源域状态空间为s
s
={v,acc,p
fc
,soc};动作变量选取氢燃料电池输出功率的变化率δp
fc
,由此定义源域动作空间为a
s
={δp
fc
|δp
fc
∈[-3kw,3kw]};定义源域奖励函数为其中,表示氢气消耗率,soc0表示soc初始值,ω1是氢耗因子,ω2是soc稳持因子。6.如权利要求4所述的方法,其特征在于:步骤四中对目标域补偿模型进行微调的过程中,在每一个微调回合开始之前,都从随机微调环境中随机地选择一条工况用作微调工况;状态变量分别选取:氢燃料电池公交车的车速v、加速度acc、氢燃料电池输出功率p
fc
,以及锂电池荷电状态soc,由此定义目标域状态空间为s
t
={v,acc,p
fc
,soc};动作变量选取氢燃料电池输出功率的变化率δp
fc
,由此定义目标域动作空间为a
t
={δp
fc
|δp
fc
∈[-5kw,5kw]};定义目标域奖励函数为其中,表示氢气消耗率,soc0表示soc初始值,ω1是氢耗因子,ω2是soc稳持因子。微调过程与预训练过程类似,包括:步骤4.1、首先提取源域表征模型的策略网络参数、价值网络参数、优先经验回放缓冲池中的所有样本,以及二叉树结构所有节点的数据,用于对目标域补偿模型的策略网络的前三层、价值网络的前三层、优先经验回放缓冲池、二叉树结构进行初始化;对策略网络的输出层参数以及价值网络的输出层参数进行随机初始化;步骤4.2、在目标域的随机微调环境下,使用增强型sac算法,对氢燃料电池公交车的能量管理策略进行微调训练,直至其稳定收敛。7.如权利要求1所述的方法,其特征在于:步骤五中所述测试工况具体是从随机微调环境的全部运行数据中,选取不完全相同的各工况进行重构后得到。8.如权利要求1所述的方法,其特征在于:步骤六中所述的燃油经济性结果具体以动态规划算法计算得到的全局最优百公里氢耗结果为基准;设定的目标值为全局最优结果的95%。
技术总结
本发明提供了一种燃料电池汽车能量管理策略快速开发方法,通过将增强型SAC算法与迁移学习有机结合并充分发挥二者的优势,建立关联相似的能量管理策略训练任务,以及将从预训练过程中学习到的所有知识全部迁移并应用于新的能量管理任务中,实现了能量管理策略的跨车型迁移和复用,能够极大地缩短新车型的深度强化学习型能量管理策略的开发周期,并有效地提升燃油经济性,从而具有了现有技术所不具备的诸多有益效果。的诸多有益效果。的诸多有益效果。
技术研发人员:何洪文 黄汝臣
受保护的技术使用者:北京理工大学
技术研发日:2023.07.05
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
