一种基于深度强化学习的储能日前日内投标决策方法与流程

未命名 07-20 阅读：230 评论：0

1.本发明属于电力市场技术领域，具体涉及一种基于深度强化学习的储能日前日内投标决策方法。

背景技术：

2.近年来，新能源在电力系统中的渗透率越来越大，新能源的大量接入会给电力系统的可靠和经济运行带来不利的影响。而储能能够有效地实现电能的转换，对促进新能源的消纳、稳定电网有着重要的作用。随着“双碳”目标的提出和新型电力市场的建设，储能将会以更大规模参与电力市场交易，因此有必要研究储能参与电力市场的最佳竞价策略。
3.目前，对于储能竞价策略的研究集中在日前电力市场中，许多文献考虑到储能自身的约束条件，建立了最大化收益的优化函数并进行求解，得到了储能在日前市场中的最优投标策略。然而在日内市场中，实时电价是不确定的，如果完全按照日前的计划进行投标，那么将无法得到理想的收益情况，因此有相当一部分文献考虑了日前和日内电力市场联合投标的问题。分别以最大化日前和日内收益为目标，综合考虑各种约束条件，建立了两阶段优化模型，得到了日前和日内电力市场的最佳投标电量。但是传统模型的优化缺陷是需要知道市场出清模型，相当于完全信息，而强化学习从建模上来看，只需要知道市场状态，动作和收益，不需要市场出清模型。因此从理论上来看，强化学习的方法适用性更强。

技术实现要素：

4.针对现有技术的不足，本发明的目的在于提供一种基于深度强化学习的储能日前日内投标决策方法，以解决上述背景技术中提出的问题。
5.本发明的目的可以通过以下技术方案实现：
6.一种基于深度强化学习的储能日前日内投标决策方法，包括：
7.先根据储能参与电力市场的方式，建立其在日前和日内市场中的收益模型；
8.然后分别根据储能在日前电力市场和日内电力市场的收益模型所需要满足的约束条件构建最大化其收益的竞价模型；
9.最后构建智能体的q网络和policy网络来模拟智能体的投标行为，并采用her技术构建经验池，训练智能体完成后得到最优的投标策略。
10.优选地，所述日前市场中的收益模型如下：
[0011][0012]
所述日内电力市场中收益模型如下：
[0013][0014]
优选地，所述日前市场收益模型的储能满足约束条件后，得到在日前电力市场中储能的竞价模型如下：
[0015][0016]
所述日内市场收益模型的储能满足约束条件后，得到在日内电力市场中储能的竞价模型如下：
[0017][0018]
优选地，所述智能体设置两个，分别用于控制日前、日内的电力市场的投标决策。
[0019]
优选地，所述智能体需要构建一个policy网络和q网络，其中policy网络的参数为φ，q网络包括current q network和target q network，current qnetwork和target q network网络结构相同，参数为θ和θ-，智能体内还包括有一个超参数α；
[0020]
所述policy网络和q网络用于选择动作和评价动作的好坏，policy网络的输入是s
t
|goal，输出是动作的概率分布，q网络的输入s
t
|goal和a
t
，输出是对动作的评估价值。
[0021]
优选地，所述智能体在训练的初期，令智能体在所允许的范围内随机选取动作来探索动作空间，在训练的后期采用∈-greedy方法来选取动作。
[0022]
优选地，所述训练过程中需要进行参数更新；
[0023]
所述current q network通过损失函数求梯度进行参数更新：
[0024][0025]
target q network通过软更新的方法进行参数更新：
[0026]
θ-←
τθ+(1-τ)θ-[0027]
policy通过最小化kl散度来进行参数更新：
[0028][0029]
超参数α对损失函数求梯度更新参数：
[0030][0031]
本发明的有益效果：
[0032]
1、本发明方法与现有的技术中主要通过求解优化函数来得到最优的投标策略不同，本发明通过使用深度强化学习算法来构建智能体，并通过不断地试错，从而找到最佳的日前日内投标策略；
[0033]
2、本发明方法采用了her经验回放机制，与普通的经验回放机制相比，her方法能够产生更多的成功经验，更有利于智能体的训练，有助于智能体找到最佳的日前和日内投标策略。
附图说明
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0035]
图1是本发明方法的流程图；
[0036]
图2是本发明中经验池的产生过程图；
[0037]
图3是本发明中储能在日前和日内电力市场的投标电量图；
[0038]
图4是本发明中在日前电力市场中采用与不采用her方法储能投标策略的对比图；
[0039]
图5是本发明中在日内电力市场中采用与不采用her方法储能投标策略的对比图。
具体实施方式
[0040]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0041]
本发明提出一种基于深度强化学习的储能日前日内投标决策方法，考虑了储能在日前和日内电力市场的联合投标，建立了两阶段的竞价模型；在求解模型中采用深度强化学习的方法，进而训练智能体，从而使智能体学习到最优的投标策略；智能体设置有两个，分别控制日前和日内电力市场的投标决策，并对每个智能体均采用sac-her方法，构建了一个policy网络和两个q网络，policy网络用来选择动作，q网络用来评价动作，通过智能体与电力市场的交互得到大量数据，并基于her的方法构建经验回放机制，更好地训练智能体。
[0042]
竞价模型的目标是最大化储能的收益，而深度强化学习的智能体是以最大化自身的收益为目标进行动作选择的，因此如果将储能设置为智能体，并且用深度强化学习算法来模拟储能在电力市场中的投标行为，那么智能体通过不断地训练，就会以最大化自身收益为目标找到最优策略，从而实现竞价。
[0043]
对于控制日前电力市场投标的智能体而言，其输入的状态是日前电价和储能此时的能量值，动作是投标的电量，所获的奖励是通过买卖电量得到的收益。对于控制日内电力市场投标的智能体而言，其输入的状态是日内电价、此时刻日前的投标电量以及考虑日前投标和日内投标后此时的能量值，输出是投标的电量，奖励是通过买卖日内投标电量得到的收益。
[0044]
智能体不断地通过竞价动作选择模块来选择合适的动作与电力市场进行交互，得到大量的数据，并将数据存储在经验池中，在训练智能体时，从经验池中抽取若干经验更新参数。后经验回放机制即her(hindsight experience replay)与普通的经验回放机制的区别在于其设置了目标，并能够在目标未达成时修改对应的经验数据，从而大大增加成功达到目标的经验数量，有利于智能体的训练。
[0045]
本方法用于储能参与电力市场的最佳竞价策略研究，包括：
[0046]
步骤1、根据储能参与电力市场的方式，建立其在日前和日内市场中的收益模型；
[0047]
储能以报量不报价的方式参与日前和日内电力市场，储能均是以1个小时为单位进行投标，并且只要投标必能中标即投标电量等于中标电量，储能的竞价行为不会影响到市场的出清电价，日前和日内电力市场的24小时电价是固定的；
[0048]
从储能参与电力市场的方式可以看出储能需要优化的决策变量只有电量投标，因此日前市场中收益模型为：
[0049]
[0050]
式中，为日前电力市场t时的电价；p
tch,da
、p
tdis,da
分别为t时的充电功率和放电功率；
[0051]
当日前电力市场投标结束后，进入到日内电力市场中，储能在日内电力市场的决策变量同样也是投标电量，则在日内电力市场中收益模型为：
[0052][0053]
式中，为日内电力市场t时的电价；p
tch,rt
、p
tdis,rt
分别为t时的充电功率和放电功率。
[0054]
步骤2、然后分别根据储能在日前电力市场和日内电力市场所需要满足的约束条件构建最大化其收益的竞价模型；
[0055]
步骤1中的日前市场收益模型的储能需要满足的约束条件如下：
[0056]
p
tch,da
p
tdis,da
＝0
[0057][0058][0059]et
＝e
t-1
+(p
tch,da
η
ch-p
tdis,da
/η
dis
)
[0060]emin
≤e
t
≤e
max
[0061]
一个调度周期结束后储能的能量约束；
[0062]et
＝e
end
[0063]
如果一个调度周期结束后，能量值不等于规定的固定值，那么也需要进行惩罚，设p为惩罚系数，则惩罚费用为：
[0064]fda
＝p(e
t-e
end
)
[0065]
从而得到日前电力市场中，储能的竞价模型：
[0066][0067]
步骤1中的日内市场收益模型的储能需要满足的约束条件如下：
[0068]
p
tch,rt
p
tdis,rt
＝0
[0069][0070][0071][0072][0073]et
＝e
t-1
+((p
tch,da
+p
tch,rt
)η
ch-(p
tdis,da
+p
tdis,rt
)/η
dis
)
[0074]emin
≤e
t
≤e
max
[0075]
日内电力市场同样有调度周期末能量值的约束，因此如果违反该项约束也需要进行惩罚，从而，储能在日内电力市场的竞价模型为：
[0076]
[0077]
步骤3、构建智能体的q网络和policy网络(sac)来模拟智能体的投标行为，并采用her技术构建经验池，通过训练智能体，从而得到最优的投标策略，包括q网络和policy网络的构建方法、动作选择方法、经验池的构建和网络参数的更新方法；
[0078]
其中，q网络和policy网络的构建方法如下：
[0079]
每一个智能体需要构建一个policy网络和q网络，其中policy网络的参数为φ，q网络包括current qnetwork和targetqnetwork，这两个网络结构相同，参数分别为θ,θ-，除了这三个重要的网络参数外，还有一个超参数α；
[0080]
policy网络的输入是s
t
|goal，输出是动作的概率分布；q网络的输入s
t
|goal和a
t
，输出是对动作的评估价值，policy网络和q网络的主要作用在于选择动作和评价动作的好坏；对于控制日前投标的智能体而言，其输入状态为此时刻电价以及能量状态值，动作是日前的投标电量；对于控制日内投标的智能体而言，其输入状态为此时刻的电价、日前的投标电量以及此时的能量值，动作则是日内的投标电量；智能体的奖励均是在电力市场中买卖电量的收益。
[0081]
动作选择方法如下：
[0082]
policy网络选出的动作称为最佳动作，即储能的投标电量，但是在智能体的训练过程中，并不是每一次都采用最佳动作；在训练的初期，令智能体在所允许的范围内随机选取动作来探索动作空间，在训练的后期采用∈-greedy方法来选取动作；若最优动作记为a
greedy
，随机动作记为a
random
,∈为贪婪因子，是一个比较小的数；当选择动作时首先在(0,1)随机生成一个浮点数n，判断其与贪婪因子的大小关系从而选取动作：
[0083][0084]
可以看出在训练的后期，智能体倾向于选择最优的动作；在训练的中期，采用介于随机探索和∈-ｇｒｅｅｄｙ之间的方法进行动作选取，设置一个数m，令其随着训练次数的增加而减少，在每一次训练过程中，同时产生一个随机数，如果随机数大于该数，则采用∈-ｇｒｅｅｄｙ方法选择动作，否则随机选择动作；这样随着训练次数的增加，智能体随机选择动作的概率会减小，采用∈-greedy方法选择动作的概率会增大。
[0085]
经验池的构建方法如下：
[0086]
在每个周期的每一次迭代中，将s
t
|goal输入policy网络中，policy网络以一定的概率选择动作a
t
即储能的投标电量，储能与电力市场交互后得到即时收益r
t
即买卖电量的收入，并使得智能体的状态变为s
t+1
.；每一次迭代结束后将done赋为1，如果此次迭代为一个周期里的最后一次，则将done赋为0，并且计算该周期内的惩罚费用；惩罚费用即没有达到周期末所要求的能量值的惩罚，将惩罚费用加在此次迭代的即时奖励中；此时还需要判断有无达到目标，如果未能达到目标，则需要修改目标，重新计算在新目标下该周期内每一次迭代所得到的即时奖励r
t
，将一个周期内得到的所有六元组(s
t
,a
t
,s
t+1
,r
t
,done,goal)储存在经验池中用于后面的参数训练，经验的产生过程如图1所示；
[0087]
网络参数的更新方法如下：
[0088]
网络的训练过程，即网络的参数更新过程。需要更新的参数有θ,θ-,φ,α。current q network的损失函数为：
[0089][0090]
式中，q
θ
(s
t
|goal,a
t
)是current q network的输出值，是target q network的输出值，π
φ
(a
t+1
|(s
t+1
|goal))是policy网络的输出值，r
t
是即时奖励，γ是折扣因子，α是超参数。通过损失函数求梯度进而可以更新current qnetwork的参数：
[0091][0092]
target q network通过软更新的方法进行参数更新：
[0093]
θ-←
τθ+(1-τ)θ-[0094]
policy网络的损失函数为：
[0095][0096]
式中，π
φ
(
·
|(s
t
|goal))|是在状态ｓ
ｔ
下policy网络输出的概率分布，q
θ
(s
t
|goal,
·
)是在状态s
t
下current q network输出的q值概率分布，kl散度是衡量两个分布的相似程度，通过最小化kl散度来更新policy的参数：
[0097][0098]
超参数α是熵的权重，在实际中，奖励在不断变化，采用固定的权重并不合理，会使得训练不稳定，因此需要不断调整超参数的值。超参数α的损失函数可写为：
[0099][0100]
式中，π
t
(a
t
|(s
t
,goal))是policy网络的概率输出，h0是动作维度的对数，对于储能而言，动作维度是1，即只决定一个动作变量，即投标电量。对损失函数求梯度更新参数：
[0101][0102]
式中，λ,λq,λ
φ
均为学习率，τ是目标网络更新的参数。
[0103]
然后提出一种基于深度强化学习的储能日前日内投标决策系统程序，该系统程序实现上述的方法步骤。
[0104]
下面基于一台容量为150mwh的储能设备用sac-her方法对其日前日内的投标策略进行模拟仿真，储能设备的参数如表1所示：
[0105]
表1储能系统技术参数
[0106]
[0107][0108]
日前电价和日内电价如表2、表3所示：
[0109]
表2日前24小时电价
[0110][0111]
表3日内24小时电价
[0112][0113]
在目标的设置方面，本发明将目标设置为0-1变量，将目标能量值的范围设在[-5,5]之间；在周期的开始将目标goal设为[0,100,0]；如果周期结束后能量值不在目标范围内，则修改目标，具体如下：
[0114][0115]
当修改目标后，需要重新计算该周期内的每次迭代的奖励，针对储能而言，只需要修改最后一个时刻的奖励值，将违反周期末能量约束的惩罚值去掉即可。
[0116]
图2展示了基于sac-her方法的储能日前和日内投标策略，在日前电力市场中，储能的主要盈利手段就是低充高放。而在日内的实时市场中，考虑到日前市场的投标情况，并且需要遵循一定的约束条件，因此并没有完全按照低充高放的原则进行投标。
[0117]
为了进一步说明本发明的优越之处，本技术文进行了对照试验，即不采用her的经验回放机制，仅采用普通的经验生成方法，那么此时每个周期不再设置目标goal，神经网络的输入也不需要是状态与目标的合张量，而只是简单的状态量，当未达到目标时也不需要修改为新目标，表4展示了采用不同方法时，储能在日前和日内市场中所获得的利润。
[0118]
表4不同方法利润对比情况
[0119][0120]
从上表可以看出无论是在日前市场还是日内市场，本发明提出sac-her方法的收益均比sac方法高。
[0121]
图3展示了在日前市场中二者的投标对比图，可以看出两者的投标策略基本满足了低充高放的原则，不过很显然当采用sac-her方法后，储能每一次的投标量基本达到了所
允许的最大值，因此其采用低充高放的策略能够获得更多的利润。
[0122]
图4展示了在日内市场中二者的投标对比图，日内投标需要考虑日前的投标结果，因此没有完全按照低充高放的原则进行。但是采用sac-her方法，储能一次的投标电量也相对较大，因此所获得的利润也更多。
[0123]
在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0124]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0125]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0126]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0127]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0128]
最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

技术特征：
1.一种基于深度强化学习的储能日前日内投标决策方法，其特征在于，包括：根据储能参与电力市场的方式，建立其在日前和日内市场中的收益模型；分别根据储能在日前电力市场和日内电力市场的收益模型所需要满足的约束条件构建竞价模型，竞价模型的目标为最大化储能的收益，将竞价模型的储能设置为智能体；构建智能体的q网络和policy网络来模拟智能体的投标行为，并采用her技术构建经验池，训练智能体完成后得到最优的投标策略。2.根据权利要求1所述的一种考虑网络攻击和通信延时的微网群通信网络优化方法，其特征在于，所述日前市场中的收益模型如下：式中，为日前电力市场t时的电价；p
tch,da
、p
tdis,da
分别为t时的充电功率和放电功率；所述日内电力市场中收益模型如下：式中，为日内电力市场t时的电价；p
tch,rt
、p
tdis,rt
分别为t时的充电功率和放电功率。3.根据权利要求2所述的一种考虑网络攻击和通信延时的微网群通信网络优化方法，其特征在于，所述日前市场收益模型的储能满足约束条件后，得到在日前电力市场中储能的竞价模型如下：所述日内市场收益模型的储能满足约束条件后，得到在日内电力市场中储能的竞价模型如下：4.根据权利要求1所述的一种考虑网络攻击和通信延时的微网群通信网络优化方法，其特征在于，所述智能体设置两个，分别用于控制日前、日内的电力市场的投标决策。5.根据权利要求1所述的一种考虑网络攻击和通信延时的微网群通信网络优化方法，其特征在于，所述智能体需要构建一个policy网络和q网络，其中policy网络的参数为φ，q网络包括current q network和target q network，current q network和target q network网络结构相同，参数为θ和θ-，智能体内还包括有一个超参数α；所述policy网络和q网络用于选择动作和评价动作的好坏，policy网络的输入是s
t
|goal，输出是动作的概率分布，q网络的输入s
t
|goal和a
t
，输出是对动作的评估价值。6.根据权利要求1所述的一种考虑网络攻击和通信延时的微网群通信网络优化方法，其特征在于，所述智能体在训练的初期，令智能体在所允许的范围内随机选取动作来探索动作空间，在训练的后期采用∈-greedy方法来选取动作。7.根据权利要求1所述的一种考虑网络攻击和通信延时的微网群通信网络优化方法，其特征在于，所述经验池的构建通过在每个周期的每一次迭代中，将s
t
|goal输入policy网
络中，policy网络选择动作a
t
即储能的投标电量，储能与电力市场交互后得到即时收益r
t
即买卖电量的收入，并使得智能体的状态变为s
t+1
.，每一次迭代结束后将done赋为1，如果此次迭代为一个周期里的最后一次，则将done赋为0，并且计算该周期内的惩罚费用。8.根据权利要求1所述的一种考虑网络攻击和通信延时的微网群通信网络优化方法，其特征在于，所述训练过程中需要进行参数更新；所述current q network通过损失函数求梯度进行参数更新：target q network通过软更新的方法进行参数更新：θ-←
τθ+(1-τ)θ-policy通过最小化kl散度来进行参数更新：超参数α对损失函数求梯度更新参数：式中，λ,λ
q
,λ
φ
均为学习率，τ是目标网络更新的参数。9.一种基于深度强化学习的储能日前日内投标决策系统，其特征在于，包括：日前收益模块，用于根据储能参与电力市场的方式，建立其在日前市场中的收益模型；日内收益模块，用于根据储能参与电力市场的方式，建立其在日内市场中的收益模型；收益模型约束模块，用于对日前收益模块、日内收益模块进行约束，构建最大化其收益的竞价模型；智能体模块，用于将竞价模型的储能设置为智能体，并控制智能体日前、日内的电力市场的投标决策；训练模块，用于通过her技术构建经验池来进行智能体模块的训练，并得到储能的最优的投标策略，从而实现竞价。10.一种基于深度强化学习的储能日前日内投标决策控制器，储存有运行权利要求9所述的基于深度强化学习的储能日前日内投标决策系统程序。

技术总结
本发明公开了一种基于深度强化学习的储能日前日内投标决策方法，包括：先根据储能参与电力市场的方式，建立其在日前和日内市场中的收益模型；然后分别根据储能在日前电力市场和日内电力市场的收益模型所需要满足的约束条件构建最大化其收益的竞价模型；最后构建智能体的Q网络和Policy网络来模拟智能体的投标行为，并采用HER技术构建经验池，训练智能体完成后得到最优的投标策略。本发明通过使用深度强化学习算法来构建智能体，并通过不断地试错，从而找到最佳的日前日内投标策略；采用了HER经验回放机制，与普通的经验回放机制相比，HER方法能够产生更多的成功经验，更有利于智能体的训练，有助于智能体找到最佳的日前和日内投标策略。内投标策略。内投标策略。

技术研发人员：宁龙飞冯凯王蓓蓓冯树海王正风梁肖王高琴曹晓峻程千冉
受保护的技术使用者：中国电力科学研究院有限公司国网安徽省电力有限公司
技术研发日：2023.03.07
技术公布日：2023/7/19

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种加工中心自动化加工用刀具储刀换刀系统的制作方法 下一篇：一种新型叠层梁混凝土MiC结构体系的制作方法

一种基于深度强化学习的储能日前日内投标决策方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度强化学习的储能日前日内投标决策方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表