基于深度确定性策略梯度算法的电动汽车有序充电方法与流程

未命名 09-18 阅读：250 评论：0

1.本发明涉及电动汽车技术领域，特别涉及一种基于深度确定性策略梯度算法的电动汽车有序充电方法。

背景技术：

2.近年电动汽车得到了快速的发展。电动汽车作为一种新型负载，具备随机性和灵活性的特点。而由于电动汽车充电时间与人们工作生活作息时间的极度重合，其充电负荷极大概率会与现有电网的基础运行负荷叠加形成“峰上加峰”的过载情况，进一步加重电网负荷，使得电网中的各节点电流上升速率突增，增加重载线路和重载变电站运行难度，导致电网损耗增加，进而将加速电网运、配、输电设备的老化，对电力系统的安全运行和电力消费者的用电体验都将造成了极大的负面影响。同时，若是为了满足用电尖峰时刻的最大负荷，又会对电网增容提出更高要求，不利于电网建设的经济性和发展性。
3.对于电动汽车接入电网所引起的负荷曲线峰谷差增大问题，通过有序引导的方式协调用户进行充电是当前研究的重点，而在这其中利用峰谷电价的经济引导是重要的可采纳方向。智能电网作为现在电力系统电网建设的重要发展方向，通过对电网、充电设备以及充电汽车用户三方数据信息的分析研判，应用基于峰谷电价对充电用户的有序引导策略，从而达到对电网“削峰填谷”的目的，进而减小电网的运行损耗，增加电力系统运行的稳定性和安全性，使得三方效益最大化，最终促进电动汽车更大规模推广应用，推动能源需求侧清洁化的转变。然而目前的并没有考虑分时电价和电动汽车用户行为的不确定性的同时的充电站有序充电计划

技术实现要素：

4.本发明实施例提供了一种基于深度确定性策略梯度算法的电动汽车有序充电方法，以至少解决如何在考虑分时电价和电动汽车用户行为的不确定性的同时地制定充电站有序充电计划。
5.根据本发明实施例的一方面，提供了一种基于深度确定性策略梯度算法的电动汽车有序充电方法，包括：
6.从负荷聚合商角度，综合考虑社区电动汽车用户的充电需求，调节充电站中电动汽车的充电行为，整合充电监测系统反馈的soc信息与用户的预计取车时间信息，建立社区电动汽车集群的有序充电优化模型；
7.采用深度确定性策略梯度算法对所述社区电动汽车集群的有序充电优化模型求解，得到最优充电计划，所述最优充电计划以达到充电站内优化运行并有效地降低站内日运营成本的目标。
8.可选地，所述社区电动汽车集群的有序充电优化模型的优化目标为：
9.10.式中，p
n,t
为第n辆电动汽车在t时段的充电功率；ρ
t
为t时段的分时电价；n
t
为充电站内t时段接入电网的电动汽车总数；t
n,lea
与t
n,arr
分别为第n辆电动汽车到达充电站与驶离充电站的时刻；f为所有时段电动汽车集群充电电费的总开销。
11.可选地，所述社区电动汽车集群的有序充电优化模型的约束包括：电动汽车的荷电状态约束、用户的充电期望约束、电动汽车充电桩运行约束及电动汽车充电时间约束。
12.可选地，采用深度确定性策略梯度算法对所述社区电动汽车集群的有序充电优化模型求解包括：
13.通过使用深度神经网络分别近似策略函数和动作值函数，即确定价值网络的参数θq和策略网络的参数θ
μ
；
14.增加与策略网络与价值网络结构相同的目标网络target网络来改善深度确定性策略梯度算法的性能，得到优化后的目标网络参数分别为θ
q'
和θ
μ'
；
15.通过优化后的参数对目标网络和价值网络训练，使得社区电动汽车集群的有序充电优化模型输出最优策略。
16.可选地，价值网络的参数θq更新通过最小化损失函数lq来实现：
17.lq＝e((y
t-q(s
t
,a
t
|θq))2)
18.式中，q(s
t
,a
t
|θq)为价值网络的输出，即t时段在状态s
t
并执行动作a
t
时的期望回报；y
t
为目标q值；
19.y
t
＝r
t
+γq'(s
t+1
,u'(s
t+1
|θ
μ'
)|θ
q'
)
20.式中，r
t
为t时段的奖励值；q'和u'分别为目标价值网络和目标策略网络。
21.可选地，r
t
表示为强化训练所得累积奖励的负值的形式：
22.γ
t
＝-j＝-ω1j
1-ω2j
2-ω3j3······
23.式中，j、j1、j2、j3分别为每一次训练得到的奖励，ω1、ω2、ω3分别为每一次训练所得奖励的权重值。
24.可选地，策略网络的参数θ
μ
的更新通过最小化损失函数l
μ
来实现：
25.l
μ
＝-e(q(s
t
,u(s
t
)))
26.式中，q(s
t
,u(s
t
)))为策略网络的输出，即t时段在状态s
t
对应的动作-状态值函数的值，即q值；
27.目标网络参数θ
q'
和θ
μ'
的更新方式为：
28.θ
μ'
←
τθ
μ
+(1-τ)θ
μ'
29.θ
q'
←
τθq+(1-τ)θ
q'
30.式中，τ为软更新速度因子，当τ越大时，价值网络的参数θq和策略网络的参数θ
μ
向相应的目标网络参数θ
q'
和θ
μ'
的传递速度越快。
31.根据本发明实施例的另一方面，还提供了一种基于深度确定性策略梯度算法的电动汽车有序充电装置，包括：
32.社区电动汽车集群的有序充电优化模型建立模块，用于从负荷聚合商角度，综合考虑社区电动汽车用户的充电需求，调节充电站中电动汽车的充电行为，整合充电监测系统反馈的soc信息与用户的预计取车时间信息，建立社区电动汽车集群的有序充电优化模型；
33.模型求解模块，用于采用深度确定性策略梯度算法对所述社区电动汽车集群的有
序充电优化模型求解，得到最优充电计划，所述最优充电计划以达到充电站内优化运行并有效地降低站内日运营成本的目标。
34.根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的基于深度确定性策略梯度算法的电动汽车有序充电方法。
35.根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的基于深度确定性策略梯度算法的电动汽车有序充电方法。
36.与现有的技术相比，本发明具有如下有益效果：
37.本发明实施例中，考虑了充电监测系统实时反馈的数据与分时电价信号，计及电动汽车出行模式和充电需求的不确定性，从负荷聚合商层面优化电动汽车充电行为。通过对单辆电动汽车充电过程进行建模，基于深度确定性策略梯度算法(ddpg)对该优化调度模型进行求解，准确、快速地获取最优充电计划，以达到充电站内优化运行并有效地降低站内日运营成本的目标。在保护电动汽车的电池的同时，满足电动汽车用户的充电需求。
附图说明
38.为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
39.图1是根据本发明实施例的一种基于深度确定性策略梯度算法的电动汽车有序充电方法的流程图；
40.图2是根据本发明实施例的分时电价、电动汽车用户与电动汽车充电桩关系的示意图；
41.图3是根据本发明实施例的ddpg对社区电动汽车集群的有序充电优化模型的优化流程的示意图；
42.图4是根据本发明实施例的时间采样情况示意图；
43.图5是根据本发明实施例的ddpg算法训练情况示意图。
具体实施方式
44.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
45.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
46.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具
有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
47.实施例1
48.根据本发明实施例，提供了一种基于深度确定性策略梯度算法的电动汽车有序充电方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
49.如图1是根据本发明实施例的一种基于深度确定性策略梯度算法的电动汽车有序充电方法的流程图，如图1所示，该方法包括如下步骤：
50.步骤s1、针对社区充电场站内规模化电动汽车的有序充电问题，从负荷聚合商角度，综合考虑社区电动汽车用户的充电需求，调节充电站中电动汽车的充电行为，整合充电监测系统反馈的soc信息与用户的预计取车时间信息，建立社区电动汽车集群的有序充电优化模型；
51.步骤s2、为了减少对先验信息的依赖和约束，采用深度确定性策略梯度算法(ddpg)对所述社区电动汽车集群的有序充电优化模型求解，得到最优充电计划，所述最优充电计划以达到充电站内优化运行并有效地降低站内日运营成本的目标。
52.本发明考虑了充电监测系统实时反馈的数据与分时电价信号，计及电动汽车出行模式和充电需求的不确定性，从负荷聚合商层面优化电动汽车充电行为。通过对单辆电动汽车充电过程进行建模，基于深度确定性策略梯度算法(ddpg)对该优化调度模型进行求解，准确、快速地获取最优充电计划，以达到充电站内优化运行并有效地降低站内日运营成本的目标。在保护电动汽车的电池的同时，满足电动汽车用户的充电需求。
53.作为一种可选的实施例，如图2所示，作为电网与用户的中间环节，负荷聚合商的收益主要来自于向电动汽车用户收取的充电管理服务费与从电网购买电量开销的差额。在充电管理服务费额定时，通过响应分时电价优化电动汽车集群的充电行为，降低电网购买电量的开销，负荷聚合商可以获得更大的利润空间。因此，社区电动汽车集群的有序充电优化模型的优化目标为：
[0054][0055]
式中，p
n,t
为第n辆电动汽车在t时段的充电功率；ρ
t
为t时段的分时电价；n
t
为充电站内t时段接入电网的电动汽车总数；t
n,lea
与t
n,arr
分别为第n辆电动汽车到达充电站与驶离充电站的时刻；f为所有时段电动汽车集群充电电费的总开销。
[0056]
作为一种可选的实施例，所述社区电动汽车集群的有序充电优化模型的约束包括：电动汽车的荷电状态(state ofcharge，soc)约束、用户的充电期望约束、电动汽车充电桩运行约束及电动汽车充电时间约束。具体的：
[0057]
1)在t时段，电动汽车的荷电状态约束可表示为：
[0058]
[0059][0060]
式中，为第n辆电动汽车在t时段的soc大小；为的上下限值；qn为第n辆电动汽车的电池容量大小；为第n辆电动汽车在t时段，充电功率p
n,t
对应的充电效率；δt为时间间隙长度。
[0061]
2)由于对于功率连续可调的电动汽车充电桩，电动汽车充电桩的平均充电功率与充电功率p
n,t
具有较强的相关性，通过与现有数据进行拟合，平均充电功率与充电功率p
n,t
关系的近似表达式为：
[0062][0063]
为满足用户的出行需求，合理规避电动汽车过充与欠充的情况，在用户取车离开时，电动汽车电池的soc应该在用户期望的区间内，因此，用户的充电期望约束为：
[0064][0065]
式中，为电动汽车离开时用户期望的soc大小；ε为电动汽车离开时的soc与期望的soc间可以允许的差值，t为当前时刻。
[0066]
3)考虑到电动汽车充电桩的安全稳定运行，电动汽车的充电功率有约束(即电动汽车充电桩运行约束)要求：
[0067]
0≤p
n,t
≤p
max
[0068]
式中，p
max
为电动汽车充电桩的充电功率上限。
[0069]
4)由于电动汽车通过充电桩接入电网的时段为电力系统可任意调度的时间范围，因此，电动汽车充电时间t约束为：
[0070]
t
n,arr
≤t≤t
n,lea
[0071]
式中，t
n,arr
与t
n,lea
分别为第n辆电动汽车到达充电站与驶离充电站的时刻。
[0072]
作为一种可选的实施例，强化学习过程用马尔科夫决策过程(markov decision process，mdp)来描述，一般用一个五元组(s,a,p,r,γ)来表示，其中，s表征状态集合、a表征动作集合、p表征转移概率，r表征奖励函数及γ表征折扣因子；
[0073]
状态空间s的选取应该包含环境的全部信息，同时不能冗余，如果将过多的因素加入状态空间中，会导致模型过于复杂，难以训练。为此，结合本文研究的问题，将电动汽车的到站时间t
n,arr
、将电动汽车的离站时间t
n,lea
、电动汽车的荷电状态及当前时段t加入状态空间。因此，t时段状态s
t
可以表示为
[0074]
动作空间a为模型的决策量，是根据当前时刻的状态，智能体得出的下一步动作。在本文的研究中，动作为电动汽车的充放电功率，故t时刻动作a
t
可以表示为(p
n,t
)。
[0075]
作为一种可选的实施例，如图3所示，步骤s2采用深度确定性策略梯度算法对所述社区电动汽车集群的有序充电优化模型求解包括：
[0076]
步骤s21、通过使用深度神经网络分别近似策略函数和动作值函数，即确定价值网络的参数θq和策略网络的参数θ
μ
；其中，神经网络包含价值网络和策略网络，价值网络又包含目标价值网络和更新价值网络，策略网络相同；
[0077]
步骤s22、增加与策略网络(actor网络)与价值网络(critic网络)结构相同的目标
网络target网络来改善深度确定性策略梯度算法的性能(即优化θq和θ
μ
)，得到优化后的目标网络参数分别为θ
q'
和θ
μ'
；
[0078]
步骤s23、通过优化后的参数对目标网络和价值网络训练，使得社区电动汽车集群的有序充电优化模型输出最优策略。即社区电动汽车集群的有序充电优化模型的输出是确定的，表示当前状态下的最优动作。
[0079]
作为一种可选的实施例，步骤s22中，价值网络(critic网络)的参数θq更新通过最小化损失函数lq来实现：
[0080]
lq＝e((y
t-q(s
t
,a
t
|θq))2)
[0081]
式中，q(s
t
,a
t
|θq)为价值网络的输出，即t时段在状态s
t
并执行动作a
t
时的期望回报；y
t
为目标q值；
[0082]yt
＝r
t
+γq'(s
t+1
,u'(s
t+1
|θ
μ'
)|θ
q'
)
[0083]
式中，r
t
为t时段的奖励值；q'和u'分别为目标价值网络和目标策略网络。
[0084]
ddpg算法属于无模型的强化学习，不需要状态转移函数的具体表达式，就可以完成学习的过程。即r
t
表示为强化训练所得累积奖励的负值的形式：
[0085]
γ
t
＝-j＝-ω1j
1-ω2j
2-ω3j3······
[0086]
式中，j、j1、j2、j3分别为每一次训练得到的奖励，ω1、ω2、ω3分别为每一次训练所得奖励的权重值。
[0087]
通过上式，使最小化目标函数转化为通过优化决策函数获得最大奖励的形式。
[0088]
作为一种可选的实施例，步骤s22中，策略网络(actor网络)的参数θ
μ
的更新通过最小化损失函数l
μ
来实现：
[0089]
l
μ
＝-e(q(s
t
,u(s
t
)))
[0090]
式中，q(s
t
,u(s
t
)))为策略网络的输出，即t时段在状态s
t
，对应的动作-状态值函数的值，即q值；
[0091]
目标网络参数θ
q'
和θ
μ'
的更新方式为：
[0092]
θ
μ'
←
τθ
μ
+(1-τ)θ
μ'
[0093]
θ
q'
←
τθq+(1-τ)θ
q'
[0094]
式中，τ为软更新速度因子，当τ越大时，价值网络的参数θq和策略网络的参数θ
μ
向相应的目标网络参数θ
q'
和θ
μ'
的传递速度越快。
[0095]
作为一种可选的实施例，根据本发明实施例1的方法，如图4所示，基于电动汽车到站和离站的采样情况，即采样到的一天内不同时刻电动车到站和离站的数量，结合分时电价信息，设置配电网的调度周期为24小时，相邻两个时段的间隔为1小时，利用ddpg算法对智能体进行3000episodes的训练后成功收敛，得到相应运行策略，训练结果如图5所示。通过图5可以看出曲线收敛，即该问题可解，所用方法合理。
[0096]
实施例2
[0097]
根据本发明实施例的另一方面，还提供了一种基于深度确定性策略梯度算法的电动汽车有序充电装置，电动汽车有序充电装置应用上述的基于深度确定性策略梯度算法的电动汽车有序充电方法，该装置包括：
[0098]
社区电动汽车集群的有序充电优化模型建立模块，用于针对社区充电场站内规模化电动汽车的有序充电问题，从负荷聚合商角度，综合考虑社区电动汽车用户的充电需求，
调节充电站中电动汽车的充电行为，整合充电监测系统反馈的soc信息与用户的预计取车时间信息，建立社区电动汽车集群的有序充电优化模型；
[0099]
模型求解模块，用于采用深度确定性策略梯度算法(ddpg)对所述社区电动汽车集群的有序充电优化模型求解，得到最优充电计划，所述最优充电计划以达到充电站内优化运行并有效地降低站内日运营成本的目标。
[0100]
本发明不局限于以上的具体实施方式，以上仅为本发明的较佳实施案例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
[0101]
实施例3
[0102]
根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述中任意一项的基于深度确定性策略梯度算法的电动汽车有序充电方法。
[0103]
可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中，上述计算机可读存储介质包括存储的程序。
[0104]
可选地，在程序运行时控制计算机可读存储介质所在设备执行以下功能：从负荷聚合商角度，综合考虑社区电动汽车用户的充电需求，调节充电站中电动汽车的充电行为，整合充电监测系统反馈的soc信息与用户的预计取车时间信息，建立社区电动汽车集群的有序充电优化模型；采用深度确定性策略梯度算法对所述社区电动汽车集群的有序充电优化模型求解，得到最优充电计划，所述最优充电计划以达到充电站内优化运行并有效地降低站内日运营成本的目标。
[0105]
实施例4
[0106]
根据本发明实施例的另一方面，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述中任意一项的基于深度确定性策略梯度算法的电动汽车有序充电方法。
[0107]
本发明实施例提供了一种设备，该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现基于深度确定性策略梯度算法的电动汽车有序充电方法的步骤。
[0108]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0109]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0110]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接可以是电性或其它的形式。
[0111]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0112]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0113]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom,read-0nlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0114]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

技术特征：
1.一种基于深度确定性策略梯度算法的电动汽车有序充电方法，其特征在于，包括：从负荷聚合商角度，综合考虑社区电动汽车用户的充电需求，调节充电站中电动汽车的充电行为，整合充电监测系统反馈的soc信息与用户的预计取车时间信息，建立社区电动汽车集群的有序充电优化模型；采用深度确定性策略梯度算法对所述社区电动汽车集群的有序充电优化模型求解，得到最优充电计划，所述最优充电计划以达到充电站内优化运行并有效地降低站内日运营成本的目标。2.根据权利要求1所述的基于深度确定性策略梯度算法的电动汽车有序充电方法，其特征在于，所述社区电动汽车集群的有序充电优化模型的优化目标为：式中，p
n,t
为第n辆电动汽车在t时段的充电功率；ρ
t
为t时段的分时电价；n
t
为充电站内t时段接入电网的电动汽车总数；t
n,lea
与t
n,arr
分别为第n辆电动汽车到达充电站与驶离充电站的时刻；f为所有时段电动汽车集群充电电费的总开销。3.根据权利要求1所述的基于深度确定性策略梯度算法的电动汽车有序充电方法，其特征在于，所述社区电动汽车集群的有序充电优化模型的约束包括：电动汽车的荷电状态约束、用户的充电期望约束、电动汽车充电桩运行约束及电动汽车充电时间约束。4.根据权利要求1所述的基于深度确定性策略梯度算法的电动汽车有序充电方法，其特征在于，采用深度确定性策略梯度算法对所述社区电动汽车集群的有序充电优化模型求解包括：通过使用深度神经网络分别近似策略函数和动作值函数，即确定价值网络的参数θ
q
和策略网络的参数θ
μ
；增加与策略网络与价值网络结构相同的目标网络target网络来改善深度确定性策略梯度算法的性能，得到优化后的目标网络参数分别为θ
q'
和θ
μ'
；通过优化后的参数对目标网络和价值网络训练，使得社区电动汽车集群的有序充电优化模型输出最优策略。5.根据权利要求4所述的基于深度确定性策略梯度算法的电动汽车有序充电方法，其特征在于，价值网络的参数θ
q
更新通过最小化损失函数l
q
来实现：l
q
＝e((y
t-q(s
t
,a
t
|θ
q
))2)式中，q(s
t
,a
t
|θ
q
)为价值网络的输出，即t时段在状态s
t
并执行动作a
t
时的期望回报；y
t
为目标q值；y
t
＝r
t
+γq'(s
t+1
,u'(s
t+1
|θ
μ'
)|θ
q'
)式中，r
t
为t时段的奖励值；q'和u'分别为目标价值网络和目标策略网络。6.根据权利要求5所述的基于深度确定性策略梯度算法的电动汽车有序充电方法，其特征在于，r
t
表示为强化训练所得累积奖励的负值的形式：γ
t
＝-j＝-ω1j
1-ω2j
2-ω3j3······
式中，j、j1、j2、j3分别为每一次训练得到的奖励，ω1、ω2、ω3分别为每一次训练所得奖励的权重值。
7.根据权利要求4所述的基于深度确定性策略梯度算法的电动汽车有序充电方法，其特征在于，策略网络的参数θ
μ
的更新通过最小化损失函数l
μ
来实现：l
μ
＝-e(q(s
t
,u(s
t
)))式中，q(s
t
,u(s
t
)))为策略网络的输出，即t时段在状态s
t
对应的动作-状态值函数的值，即q值；目标网络参数θ
q'
和θ
μ'
的更新方式为：θ
μ'
←
τθ
μ
+(1-τ)θ
μ'
θ
q'
←
τθ
q
+(1-τ)θ
q'
式中，τ为软更新速度因子，当τ越大时，价值网络的参数θ
q
和策略网络的参数θ
μ
向相应的目标网络参数θ
q'
和θ
μ'
的传递速度越快。8.一种基于深度确定性策略梯度算法的电动汽车有序充电装置，其特征在于，包括：社区电动汽车集群的有序充电优化模型建立模块，用于从负荷聚合商角度，综合考虑社区电动汽车用户的充电需求，调节充电站中电动汽车的充电行为，整合充电监测系统反馈的soc信息与用户的预计取车时间信息，建立社区电动汽车集群的有序充电优化模型；模型求解模块，用于采用深度确定性策略梯度算法对所述社区电动汽车集群的有序充电优化模型求解，得到最优充电计划，所述最优充电计划以达到充电站内优化运行并有效地降低站内日运营成本的目标。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的基于深度确定性策略梯度算法的电动汽车有序充电方法。10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的基于深度确定性策略梯度算法的电动汽车有序充电方法。

技术总结
本发明公开了一种基于深度确定性策略梯度算法的电动汽车有序充电方法，考虑了充电监测系统实时反馈的数据与分时电价信号，计及电动汽车出行模式和充电需求的不确定性，从负荷聚合商层面优化电动汽车充电行为。通过对单辆电动汽车充电过程进行建模，基于深度确定性策略梯度算法（DDPG）对该优化调度模型进行求解，准确、快速地获取最优充电计划，以达到充电站内优化运行并有效地降低站内日运营成本的目标。在保护电动汽车的电池的同时，满足电动汽车用户的充电需求。车用户的充电需求。车用户的充电需求。

技术研发人员：韩帅肖静吴宁陈卫东郭敏吴晓锐龚文兰卢健斌姚知洋莫宇鸿郭小璇孙乐平赵立夏
受保护的技术使用者：广西电网有限责任公司电力科学研究院
技术研发日：2023.05.10
技术公布日：2023/9/7

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于深度确定性策略梯度算法的电动汽车有序充电方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于深度确定性策略梯度算法的电动汽车有序充电方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表