一种用于孤岛微电网的全分布式负荷频率控制方法

未命名 08-13 阅读：129 评论：0

1.本发明涉及微电网分布式负荷频率控制领域，尤其是涉及一种用于孤岛微电网的全分布式负荷频率控制方法。

背景技术：

2.由于分布式新能源和储能设施具有供电灵活、对环境无污染、能源利用率高等优点，且分布式新能源与分布式储能设施优势互补，近年来由可再生能源发电装置、微型燃气轮机、燃料电池、柴油发电机等结合构成的微电网系统正日益受到行业广泛关注，逐步被推广应用于电力需求响应，以满足不同区域多样化的能源需求。
3.微电网运行在孤岛模式下，缺乏大电网的支撑，依靠微能源和储能单元共同维持系统频率和电压稳定。分布式可再生能源发电的间歇性特点和分布式电源入网数量的不断增多，势必导致微电网系统频率产生较大波动，给微电网的稳定运行带来不利影响。
4.因此，亟需设计一种用于孤岛微电网的全分布式负荷频率控制方法，以解决由于通信误差和通信延迟导致的孤岛微电网中负荷频率控制lfc决策错误和控制器与功率分配器间无法配合导致的调频资源浪费造成的发电成本和调频性能降低问题。

技术实现要素：

5.本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种决策准确性高、效率高以及鲁棒性高的用于孤岛微电网的全分布式负荷频率控制方法。
6.本发明的目的可以通过以下技术方案来实现：
7.本发明给出了一种用于孤岛微电网的全分布式负荷频率控制方法，该方法包括以下步骤：
8.步骤s1、孤岛微电网建模：对孤岛微电网进行马尔科夫决策过程建模，将每个发电机组设置为一个智能体，初始化动作空间和状态空间；
9.步骤s2、智能体预学习：利用集中训练原则对智能体进行协调训练，得到分布式全局最优协调策略；
10.步骤s3、负荷频率控制：每个分布式的发电机组就地采集微电网的频率状态和出力状态，采用分散执行策略决策输出自身机组的发电功率指令，进行负荷频率控制lfc。
11.优选地，所述步骤s1具体包括：
12.1)构建基于马尔可夫决策过程的多智能体强化学习随机博弈框架＜s,a1,...,an,r1,...,rn,p,γ＞，其中，s为孤岛微电网的状态，ai为第i个智能体的动作，ri为第i个智能体的奖励，n为智能体的个数，p为状态转移概率，γ为折扣因子；
13.2)确定动作空间和状态空间；
14.3)确定目标函数和综合奖励函数。
15.优选地，所述的动作空间和状态空间，具体为：
16.动作空间a：将第i个发电机组的发电功率指令δp
order-i
作为第i个智能体的动作ai
；
17.状态空间s：其中，δf为孤岛微电网的频率偏差，为时间对频率偏差的积分，为第i个发电机组的增发出力，δp
order-i
(t-1)是t-1时刻发电机组i发电功率指令的大小。
18.优选地，所述确定目标函数和综合奖励函数，具体为：
19.目标函数：将总频率偏差累积量和总发电成本累积量之和最小作为目标函数，表达式为：
[0020][0021]
式中，αi、βi、γi分别为考虑发生功率扰动后第i个发电机组发电成本的各次动态系数，δp
gi
为第i个发电机组的增发功率，c
total
为发电成本，t为总运行周期，n为发电机组的数量；
[0022]
综合奖励函数：考虑频率偏差的绝对值和总的发电成本，并将控制惩罚项以引导智能体向着频率最优的方向探索，综合奖励函数表达式为：
[0023][0024][0025]
式中，r为奖励函数值，δf为频率偏差，ci是第i个发电机组的发电成本，μ1、μ2分别为对应的权重系数，b为惩罚函数，c为设定频率偏差阈值。
[0026]
优选地，所述孤岛微电网的状态采用联合策略进行转移，表达式为：
[0027][0028]
式中，πi(ai∣s)为第i个智能体的策略函数，ai代表第i个智能体的动作，s代表孤岛微电网的状态，n为智能体的个数；
[0029]
每个智能体的奖励值表达式为：
[0030][0031]
式中，是第i个智能体在第t步时的奖励，a
t,i
是第i个智能体在第t步时的动作；s、a分别为智能体的状态值和动作值；
[0032]
状态值函数和状态-动作值函数在多智能体下的贝尔曼方程为：
[0033]vi
(s)＝ei[r
t+1
+γvi(s
t+1
)∣s
t
＝s]
ꢀꢀꢀꢀ
(6)
[0034]
qi(s,a)＝ei[r
t+1
+γqi(s
t+1
,a
t+1
)∣s
t
＝s,a
t
＝a]
ꢀꢀꢀꢀ
(7)
[0035]
式中，vi(s)是第i个智能体在状态s下的动作，ei是第i个智能体的数学期望，s
t+1
为孤岛微电网在t+1步时的状态，a
t+1
为孤岛微电网在t+1步时的联合动作，qi为第i个智能体的q值函数，γ为折扣因子。
[0036]
优选地，所述步骤s2中利用集中训练原则对智能体进行协调训练，具体为：采用分
布式深度强化学习-分布式分解多角色多智能体深度确定性策略梯度算法ddmr-maddpg对智能体进行集中协调训练。
[0037]
优选地，所述分布式深度强化学习-分布式分解多角色多智能体深度确定性策略梯度算法ddmr-maddpg，采用基于演员-评论家框架的多角色多智能体深度强化学习集中训练模型，演员网络根据当前的观测状态输出动作，评论家网络根据状态-动作对计算q值，并将计算出来的q值反馈给演员网络来进行动作策略的调整。
[0038]
优选地，所述分布式深度强化学习-分布式分解多角色多智能体深度确定性策略梯度算法ddmr-maddpg的结构包括：
[0039]
平行系统：每个平行系统中均注入有不同幅值和时长的负荷扰动，随机扰动的幅值根据课程学习策略，随着剧集的增加而增加进行设定；
[0040]
探索者：探索各自平行系统的环境，并将获得的探索样本给予领导者，每个探索者中仅有一个演员网络，不同的探索者利用不同的探索原理进行分布式探索环境；
[0041]
示范者：根据模仿学习思想，示范者中设置有一个控制器或一个分配器，不同平行系统中的控制器或分配器已通过调参获得预设性能，通过与环境进行交互并获得示范样本并供给领导者进行学习；
[0042]
领导者：为最终在在线应用中会安装在负荷频率控制lfc协调策略中的智能体；领导者在每个步长中通过分类经验回放机制从公共经验池中随机采取样本并更新自身的网络参数，然后定期地将这些网络参数传输到探索者中给与探索者进行更新；
[0043]
公共经验池：采用分类经验回放策略，每个领导者中共有两个独立的经验池，第一公共经验池中存储来自于探索者的样本，第二公共经验池中存储来自于示范者的样本，领导者通过设定的可变概率ξ选取第一公共经验池中的样本，以1-ξ来选取第二公共经验池的样本；其中，随着剧集增加，概率为变化值。
[0044]
优选地，所述智能体预学习过程具体包括以下子步骤：
[0045]
1)优化示范者的控制器和分配器，并初始化领导者和探索者的参数；
[0046]
2)初始化剧集；
[0047]
3)初始化探索原理并获得初始状态；
[0048]
4)每个平行系统选择随机扰动，分别计算探索者动作，每个示范者根据其原理输出动作；
[0049]
5)根据分类体验回收将样本存储到第一公共经验池或第二公共经验池中，每个领导者通过设定概率ξ抽取第一公共经验池中的样本，或以1-ξ来抽取第二公共经验池的样本；
[0050]
6)每个领导者确定小批量样本中的每个样本的目标值，计算损失函数，根据策略梯度更新自身参数；
[0051]
7)领导者更新目标网络并向探索者分发参数；
[0052]
8)判断当前时间是否到达设定的最大步长，若未到达，步长加1后转步骤4)，否则转步骤9)；
[0053]
9)判断当前剧集是否到达设定的剧集数，若未到达，剧集加1后转步骤3)，否则转步骤10)；
[0054]
10)输出训练结果。
[0055]
优选地，所述探索者采用以下任一种策略进行动作探索，包括：
[0056]
探索者采用贪婪策略，对应的探索动作表达式为：
[0057][0058]
式中，是第l个探索者的动作，是第l个探索者的策略函数，为随机动作；
[0059]
探索者采用ou噪声探测策略，对应的探测动作表达式为：
[0060][0061]
式中，是第j个探索者的动作，是第j个探索者的策略函数，为ou噪声；
[0062]
探索者采用高斯噪声探测策略，对应的探索动作表达式为：
[0063][0064]
式中，是第m个探索者的动作，是第m个探索者的策略函数，为高斯噪声。
[0065]
与现有技术相比，本发明具有以下优点：
[0066]
1)本发明模仿海星的分布式神经网络以及决策，将每个分布式电源等效为一个智能体，考虑全局最优并分别设置每一个智能体的奖励函数，通过对所有的智能体集中训练从而在预学习中考虑多个智能体的协调与控制进而获得全局最优策略，在线运行时每一个分布式电源机组只需要通过采集微电网的频率状态和自身出力状态即可做出全局最优的决策，不需要任何相互通讯，彻底解决了由于通信故障导致的控制问题。
[0067]
2)本发明考虑了控制器的控制过程和分配器的分配过程的相互耦合和影响，通过分布式决策理论，提升了微电网频率调节性能，减少了调频资源浪费。
[0068]
3)本发明采用ddmr-maddpg算法，引入多角色训练理论并结合了模仿学习与课程学习中的多种技巧，提升了鲁棒性和自适应能力，能够有效地提升负荷频率控制的频率调节性能，并减少发电成本，实现多目标综合最优。
附图说明
[0069]
图1为本发明的方法流程图；
[0070]
图2为智能体预学习流程示意图；
[0071]
图3为海星神经网络结构示意图；
[0072]
图4为“海星”完全分布sfd-负荷频率控制lfc框架结构示意图。
具体实施方式
[0073]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。
[0074]
实施例
[0075]
如图1所示，本实施例给出了一种用于孤岛微电网的全分布式负荷频率控制方法，该方法包括以下步骤：
[0076]
步骤s1、孤岛微电网建模：对孤岛微电网进行马尔科夫决策过程建模，将每个发电机组设置为一个智能体，初始化动作空间、状态空间及奖励函数；
[0077]
步骤s2、智能体预学习：利用集中训练原则对智能体进行协调训练，得到分布式全局最优协调策略；
[0078]
步骤s3、负荷频率控制：每个分布式的发电机组就地采集微电网的频率状态和出力状态，采用分散执行策略决策输出自身机组的发电功率指令，进行负荷频率控制lfc。
[0079]
接下来对本实施例的方法进行详细介绍。
[0080]
步骤s1具体包括：
[0081]
1)构建以马尔可夫决策过程为基础的多智能体强化学习的随机博弈框架：
[0082]
＜s,a1,...,an,r1,...,rn,p,γ＞
ꢀꢀꢀꢀ
(1)
[0083]
其中，s代表孤岛微电网的状态，ai代表第i个智能体的动作，ri代表第i个智能体的奖励，n为智能体个数，p代表状态转移概率，γ代表折扣因子。
[0084]
多智能体系统中，状态转移是所有智能体共同执行行动的结果，获得的奖励取决于联合策略，联合策略可以表示为如下所示：
[0085][0086]
式中，πi(ai∣s)为第i个智能体的策略函数，s为孤岛微电网的状态，ai为第i个智能体的动作。
[0087]
联合策略是所有智能体的联合决策策略和，，每个智能体的奖励如下所示：
[0088][0089]
式中，是第i个智能体在第t步时的动作，a
t
，i是第i个智能体在第t步时的动作。
[0090]
状态值函数和状态-动作值函数在多智能体下的贝尔曼方程如(4)和(5)所示。
[0091]vi
(s)＝ei[r
t+1
+γvi(s
t+1
)∣s
t
＝s]
ꢀꢀꢀꢀ
(4)
[0092]
qi(s,a)＝ei[r
t+1
+γqi(s
t+1
,a
t+1
)∣s
t
＝s,a
t
＝a]
ꢀꢀꢀꢀ
(5)
[0093]
式中，vi(s)是第i个智能体在s状态下的动作，ei是第i个智能体在的数学期望，s
t+1
为孤岛微电网在t+1步时的状态，a
t+1
为孤岛微电网在t+1步时的联合动作，qi为第i个智能体的q值函数。其中，马尔科夫决策过程建模包括了状态空间、动作空间及奖励函数的设置，具体如下：
[0094]
1)动作空间
[0095]
考虑到智能体的作用是输出本机组的发电功率指令，使得智能体在探索过程中能够采用更标准的噪声序列，对于任意时刻t，以机组i的发电功率指令作为智能体的动作，动作共1个，如下式。
[0096]
[δp
order-i
/10]
ꢀꢀꢀꢀ
(6)
[0097]
式中，δp
order-i
为第i个智能体的发电功率指令。
[0098]
2)状态空间
[0099]
状态空间包括了频率偏差，时间对频率偏差δf的积分，实际机组i增发出力，上一时刻的发电功率指令的大小，状态共4个，如式(7)：
[0100][0101]
式中，δf为孤岛微电网的频率偏差，为时间对频率偏差的积分，为实际机组i的增发出力，δp
order-i
(t-1)是上一时刻机组i发电功率指令的大小。
[0102]
3)目标函数与综合奖励函数
[0103]
如系统有n台agc机组，其lfc的协调控制目标函数考虑总的频率偏差的累积量和总的发电成本累积量为最小，总目标函数可描述为：
[0104][0105]
式中，αi，βi，γi分别为考虑发生功率扰动后第i台机组发电成本的各次动态系数，δp
gi
是第i个机组的增发功率，c
total
是发电成本，t是总运行周期。
[0106]
根据公式(8)的目标函数，奖励函数中考虑频率偏差的绝对值和总的发电成本，并将如控制惩罚项以引导智能体向着频率最优的方向探索，综合奖励函数如下：
[0107][0108][0109]
式中，r是奖励函数，ci是第i个机组的发电成本，b是惩罚函数。
[0110]
步骤s2中利用集中训练原则对智能体进行协调训练，具体为：
[0111]
孤岛微电网的智能体采用集中训练原则，在学习中每一个智能体在训练时都可以通过观察其他智能体的动作使得所训练的环境变稳定，具体如下：
[0112]
预学习时，智能体采用集中训练原则，主要是采用基于多智能体深度确定策略梯度算法(maddpg)的一种适用于多智能体系统的分布式深度强化学习算法-分布式分解多角色多智能体深度确定性策略梯度算法(ddmr-maddpg)算法。
[0113]
在该算法中采取演员-评论家框架，演员网络根据当前的观测状态输出动作，评论家网络根据状态-动作对来计算q值，并将计算出来的q值反馈给演员网络来进行动作策略的调整。训练时，评论家网络计算的不仅是自身的状态-动作对q值而且也考虑了环境中其它智能体的状态-动作对的影响，即每个智能体的评论家网络在计算q值时考虑的是环境中所有智能体的状态-动作对。这样每个智能体就会根据自己与环境、自己与其它智能体之间的关系来不断调整演员网络的策略从而来完成设计任务，即通过中心化的评价函数就可以计算其它智能体的策略，即为集中训练。这就使智能体在训练的时候就能够估计其它智能体的动作和策略，便于智能体在决策的时候就能够有效地利用这些信息来进行智能体间的复杂的动作协同和动作策略的交流。
[0114]
在框架中，每个智能体都根据自己的策略获得当前状态所需的操作。并且通过与自身环境交互，获得经验样本并放入自己的经验池。代理人的观察和行动，并输出单个演员的q来更新演员。对于每个代理，从经验池中将随机最小批次样本采样到评论家网络中。
[0115]
ddmr-maddpg算法采用的是基于多角色的分布式多智能体深度强化学习集中训练框架。其中算法的结构中包括：平行系统、探索者、示范者、领导者与公共经验池，具体为：
[0116]
1)平行系统：该框架内有12个平行系统，每个平行系统中都注入不同幅值和时长的负荷扰动。在前6个平行系统中有i个智能体，这些智能体都分别是代表不同机组。这i个智能体可以是多个采用贪婪策略探索的ε-探索者，多个采用高斯噪声探索的g-探索者，多个采用ou噪声探索的多个ou-探索者，而在后6个平行系统中，每个平行系统中具有两个示范者，分别代表了一个控制器和一个分配器，这些示范者采用不同原理的控制算法和分配算法。
[0117]
在每个平行系统中的环境都是随机的，每个区域中对应不同的随机扰动，并且这种随机扰动的幅值会随着剧集的增加而增加，既采用课程学习策略，以丰富样本的多样性。
[0118]
2)探索者：探索者的主要职责是为了探索各自平行系统的环境，并将获得的探索样本给予领导者，在每个探索者中仅有一个演员网络，不同的探索者是利用不同的探索原理进行分布式探索环境的。
[0119]
本实施例中探索者结构中仅包括了一个演员网络且采用不同的网络模型。不同的平行系统的探索者采用不同的探索原理，包括三种不同的探索原理：贪婪策略、高斯噪声和ou噪声。
[0120]
如图4所示，探索者在平行系统1-4中采用的探索策略采用贪婪策略(称为ε-探索者)，探索动作如下所示：
[0121][0122]
其中，是第l个探索者的动作，是第l个探索者的策略函数，为随机动作。
[0123]
平行系统5-8中的探索者使用ou噪声探测策略，ou探索者是探索者，其探测动作如下：
[0124][0125]
其中，是第j个探索者的动作，是第j个探索者的策略函数，为ou噪声。
[0126]
在平行系统9-12中，探索者使用高斯噪声探测策略，因此这些探索者被称为高斯探索者。探索动作如下：
[0127][0128]
其中，是第m个探索者的动作，是第m个探索者的策略函数，为高斯噪声。
[0129]
3)示范者：根据模仿学习的思想，示范者中可能有一个控制器或者一个分配器，其中不同平行系统中的控制器或者分配器都是采用不一样的算法并且通过调参已经能够获得良好性能的，这些示范者的主要职责是通过与环境进行有效交互并获得示范样本并供给领导者进行学习。这些示范样本是一种高价值样本，能够有效引导领导者的训练。
[0130]
4)领导者：领导者即为最终在在线应用中会安装在负荷频率控制lfc协调策略中
的智能体，因此所有的其他角色的作用是生成样本供领导者们进行学习。领导者的主要职责是：领导者在每个步长中通过分类经验回放机制从公共经验池中随机采取样本并更新自身的网络参数，然后定期地将这些网络参数传输到探索者中给与探索者进行更新。采用综合防q值过估计策略，通过在评论家中采用技巧，从而提升算法的鲁棒性。
[0131]
5)公共经验池：公共经验池采用的是分类经验回放策略，每个领导者中共有两个独立的经验池，公共经验池1中存储来自于探索者的样本，公共经验池2中存储来自于示范者的样本，领导者通过一定概率ξ选取公共经验池中1的样本，以1-ξ来选取公共经验池2的样本，并且随着剧集增加，概率会变化。
[0132]
本发明采用集中训练的方式，最终预学习训练的智能体就是领导者，i个领导者将会作为智能体布置在每个机组中，在线运行时负责输出对应的机组的发电功率指令并观察系统状态。在预学习中，它负责采集样本集中训练，探索者、示范者则负责实时处理执行并探索环境，通过采用多角色探索策略去提升训练效率。
[0133]
训练流程概述如下：
[0134]
由于智能体间相互的动作是可以影响负荷频率控制lfc的控制效果的，因此在集中训练时，各个智能体可以通过观察其他智能体的动作来更加细致的调整自己的动作，从而与其他区域智能体相互协调从而达到一种相互均衡的状态，得到一个均衡的最优解。
[0135]
如图2所示，智能体预学习过程具体包括以下子步骤：
[0136]
1)优化示范者的控制器和分配器，并初始化领导者和探索者的参数；
[0137]
2)初始化剧集；
[0138]
3)初始化探索原理并获得初始状态；
[0139]
4)每个平行系统选择随机扰动，分别计算探索者动作，每个示范者根据其原理输出动作；
[0140]
5)根据分类体验回收将样本存储到第一公共经验池或第二公共经验池中，每个领导者通过设定概率ξ抽取第一公共经验池中的样本，或以1-ξ来抽取第二公共经验池的样本；
[0141]
6)每个领导者确定小批量样本中的每个样本的目标值，计算损失函数，根据策略梯度更新自身参数；
[0142]
7)领导者更新目标网络并向探索者分发参数；
[0143]
8)判断当前时间是否到达设定的最大步长，若未到达，步长加1后转步骤4)，否则转步骤9)；
[0144]
9)判断当前剧集是否到达设定的剧集数，若未到达，剧集加1后转步骤3)，否则转步骤10)；
[0145]
10)输出训练结果。
[0146]
在线应用时，根据训练完成的算法，采用分散执行策略，决策策略采用仿生学，模仿了类似于海星的分布式神经网络的决策形式，具体如图3所示，在sfd-lfc策略中参考了海星的分布式神经网络结构。
[0147]
海星类及所有棘皮动物的神经系统都是分散的，不形成神经节或神经中枢，且都与上皮细胞紧密相连。通过图3所示，它有着高级的处理系统，海星的神经系统不能像我们人类的身体一样会把全身的信息传给大脑，再由大脑来处理每一处的信息，所以海星没有
一个中央处理神经结构，而是将所有的神经结构分布在管脚，海星内部的信息是可以通过神经系统实现共享的。海星的所有管脚的神经系统似乎依靠身体和环境之间相互作用的物理作用来控制运动的。这样，就有了一种在管脚之间机械地传递“信息”的机制。一个单独的管脚只需要感知它自己的状态(本体感觉)并做出相应的反应。因为它的感知是机械地耦合到其他管脚上的，所以它们共同工作。当管脚开始移动时，每只管脚产生一个单独的力，成为集体的一部分。每个管脚也对其他管脚产生的力作出反应，最终，它们彼此建立起同一种节奏。而海星的这种决策的方式，就是所谓的边缘计算——通过将一部分的数据分到计算机的其他地方来计算，从而缓解核心部分的运算压力，这样一来就具有更高的效率。因此，海星代表着一种可以实现边云协同的边缘计算结构。通过研究海星的运动模型，可以用于指导多智能体系统-based控制器，通过多个智能体的协调作用，从而完成微电网频率控制。
[0148]
在孤岛微电网负荷频率控制lfc模型中，sfd-lfc的框架下，微电网包括i个智能体分别代表不同的分布式电源，这种结构模仿了海星的分布式神经网络的结构框架，具有更优的决策能力和抗干扰性。
[0149]
在智能体预学习中，多个智能体之间都能够接收到每个智能体的策略和状态，通过设计合理的全局奖励函数，使得多个智能体能够训练出各自的最优控制分配策略。在在线应用时，这些智能体能够通过独立地采集微电网的状来实现独立决策，而不需要智能体之间相互通信，这正如海星的管脚协调运动，管脚只需要采集当前状态，做出自身决策，而不需要跟其他的管脚相互通讯，不同管脚的运动更改了环境，从而使得环境的变化被其他智能体观察到，这正如本文中的机组独立决策从而影响微电网的频率使得环境发生了变化进而影响了其他的智能体的观察和决策。这种分布式决策理论替代了传统负荷频率控制lfc结构中的控制器和分配器组合的结构，每个智能体输出当前机组的发电功率指令，i个智能体参与决策，这正如海星i个管脚。在线应用时，每个机组的实时监控系统计算并储存微电网的f及各机组的出力等输入进入sfd-lfc系统，由ddmr-maddpg算法中的智能体分别根据当前微电网状态计算得出当前应该发出机组发电功率指令与不统计组的负荷频率控制lfc发电功率指令。智能体控制间隔都为4s。该智能体是以频率偏差和发电成本为多目标，以此来解决lfc的控制器与分配器的协调的问题。
[0150]
在在线应用时，每个智能体能够通过就地采集接收微电网频率状态和出力状态并将其导入到策略函数来独立决策输出自身机组的发电功率指令，每一个智能体只需根据自身观察的状态即可做出全局最优的策略，而不需要知道全局状态，机组不需要通讯，这是任意一种分布式算法以及最优控制算法都不具备的优点。
[0151]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

技术特征：
1.一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，该方法包括以下步骤：步骤s1、孤岛微电网建模：对孤岛微电网进行马尔科夫决策过程建模，将每个发电机组设置为一个智能体，初始化动作空间和状态空间；步骤s2、智能体预学习：利用集中训练原则对智能体进行协调训练，得到分布式全局最优协调策略；步骤s3、负荷频率控制：每个分布式的发电机组就地采集微电网的频率状态和出力状态，采用分散执行策略决策输出自身机组的发电功率指令，进行负荷频率控制lfc。2.根据权利要求1所述的一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，所述步骤s1具体包括：1)构建基于马尔可夫决策过程的多智能体强化学习随机博弈框架＜s,a1,...,a
n
,r1,...,r
n
,p,γ＞，其中，s为孤岛微电网的状态，a
i
为第i个智能体的动作，r
i
为第i个智能体的奖励，n为智能体的个数，p为状态转移概率，γ为折扣因子；2)确定动作空间和状态空间；3)确定目标函数和综合奖励函数。3.根据权利要求2所述的一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，所述的动作空间和状态空间，具体为：动作空间a：将第i个发电机组的发电功率指令δp
order-i
作为第i个智能体的动作a
i
；状态空间s：其中，δf为孤岛微电网的频率偏差，时间对频率偏差的积分，为第i个发电机组的增发出力，δp
order-i
(t-1)是t-1时刻发电机组i发电功率指令的大小。4.根据权利要求3所述的一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，所述确定目标函数和综合奖励函数，具体为：目标函数：将总频率偏差累积量和总发电成本累积量之和最小作为目标函数，表达式为：式中，α
i
、β
i
、γ
i
分别为考虑发生功率扰动后第i个发电机组发电成本的各次动态系数，δp
gi
是第i个发电机组的增发功率，c
total
是发电成本，t是总运行周期，n为发电机组的数量；综合奖励函数：考虑频率偏差的绝对值和总的发电成本，并将控制惩罚项以引导智能体向着频率最优的方向探索，综合奖励函数表达式为：体向着频率最优的方向探索，综合奖励函数表达式为：
式中，r为奖励函数值，δf为频率偏差，c
i
为第i个发电机组的发电成本，μ1、μ2分别为对应的权重系数，b为惩罚函数，c为设定频率偏差阈值。5.根据权利要求3所述的一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，所述孤岛微电网的状态采用联合策略进行转移，表达式为：式中，π
i
(a
i
∣s)为第i个智能体的策略函数，a
i
为第i个智能体的动作，s为孤岛微电网的状态，n为智能体的个数；每个智能体的奖励值表达式为：式中，是第i个智能体在第t步时的奖励，a
t,i
是第i个智能体在第t步时的动作；s、a分别为智能体的状态值和动作值；状态值函数和状态-动作值函数在多智能体下的贝尔曼方程为：v
i
(s)＝e
i
[r
t+1
+γv
i
(s
t+1
)∣s
t
＝s]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)q
i
(s,a)＝e
i
[r
t+1
+γq
i
(s
t+1
,a
t+1
)∣s
t
＝s,a
t
＝a]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)式中，v
i
(s)是第i个智能体在状态s下的动作，e
i
是第i个智能体的数学期望，s
t+1
为孤岛微电网在t+1步时的状态，a
t+1
为孤岛微电网在t+1步时的联合动作，q
i
为第i个智能体的q值函数，γ为折扣因子。6.根据权利要求5所述的一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，所述步骤s2中利用集中训练原则对智能体进行协调训练，具体为：采用分布式深度强化学习-分布式分解多角色多智能体深度确定性策略梯度算法ddmr-maddpg对智能体进行集中协调训练。7.根据权利要求6所述的一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，所述分布式深度强化学习-分布式分解多角色多智能体深度确定性策略梯度算法ddmr-maddpg，采用基于演员-评论家框架的多角色多智能体深度强化学习集中训练模型，演员网络根据当前的观测状态输出动作，评论家网络根据状态-动作对计算q值，并将计算出来的q值反馈给演员网络来进行动作策略的调整。8.根据权利要求7所述的一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，所述分布式深度强化学习-分布式分解多角色多智能体深度确定性策略梯度算法ddmr-maddpg的结构包括：平行系统：每个平行系统中均注入有不同幅值和时长的负荷扰动，随机扰动的幅值根据课程学习策略，随着剧集的增加而增加进行设定；探索者：探索各自平行系统的环境，并将获得的探索样本给予领导者，每个探索者中仅有一个演员网络，不同的探索者利用不同的探索原理进行分布式探索环境；示范者：根据模仿学习思想，示范者中设置有一个控制器或一个分配器，不同平行系统中的控制器或分配器已通过调参获得预设性能，通过与环境进行交互并获得示范样本并供给领导者进行学习；领导者：为最终在在线应用中会安装在负荷频率控制lfc协调策略中的智能体；领导者
在每个步长中通过分类经验回放机制从公共经验池中随机采取样本并更新自身的网络参数，然后定期地将这些网络参数传输到探索者中给与探索者进行更新；公共经验池：采用分类经验回放策略，每个领导者中共有两个独立的经验池，第一公共经验池中存储来自于探索者的样本，第二公共经验池中存储来自于示范者的样本，领导者通过设定的可变概率ξ选取第一公共经验池中的样本，以1-ξ来选取第二公共经验池的样本；其中，随着剧集增加，概率为变化值。9.根据权利要求8所述的一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，所述智能体预学习过程具体包括以下子步骤：1)优化示范者的控制器和分配器，并初始化领导者和探索者的参数；2)初始化剧集；3)初始化探索原理并获得初始状态；4)每个平行系统选择随机扰动，分别计算探索者动作，每个示范者根据其原理输出动作；5)根据分类体验回收将样本存储到第一公共经验池或第二公共经验池中，每个领导者通过设定概率ξ抽取第一公共经验池中的样本，或以1-ξ来抽取第二公共经验池的样本；6)每个领导者确定小批量样本中的每个样本的目标值，计算损失函数，根据策略梯度更新自身参数；7)领导者更新目标网络并向探索者分发参数；8)判断当前时间是否到达设定的最大步长，若未到达，步长加1后转步骤4)，否则转步骤9)；9)判断当前剧集是否到达设定的剧集数，若未到达，剧集加1后转步骤3)，否则转步骤10)；10)输出训练结果。10.根据权利要求8所述的一种用于孤岛微电网的全分布式负荷频率控制方法，其特征在于，所述探索者采用以下任一种策略进行动作探索，包括：探索者采用贪婪策略，对应的探索动作表达式为：式中，是第l个探索者的动作，是第l个探索者的策略函数，为随机动作；探索者采用ou噪声探测策略，对应的探测动作表达式为：式中，是第j个探索者的动作，是第j个探索者的策略函数，为ou噪声；探索者采用高斯噪声探测策略，对应的探索动作表达式为：式中，是第m个探索者的动作，是第m个探索者的策略函数，为高斯噪声。

技术总结
本发明涉及一种用于孤岛微电网的全分布式负荷频率控制方法，该方法包括以下步骤：步骤S1、孤岛微电网建模：对孤岛微电网进行马尔科夫决策过程建模，将每个发电机组设置为一个智能体，初始化动作空间和状态空间；步骤S2、智能体预学习：利用集中训练原则对智能体进行协调训练，得到分布式全局最优协调策略；步骤S3、负荷频率控制：每个分布式的发电机组就地采集微电网的频率状态和出力状态，采用分散执行策略决策输出自身机组的发电功率指令，进行负荷频率控制LFC。与现有技术相比，本发明具有决策准确性高、效率高以及鲁棒性高的优点。效率高以及鲁棒性高的优点。效率高以及鲁棒性高的优点。

技术研发人员：李嘉文项江鑫施凌鹏冯天波崔昊杨蒋伟杨程江友华朱武李德佳
受保护的技术使用者：上海电力大学
技术研发日：2023.05.10
技术公布日：2023/8/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种用于孤岛微电网的全分布式负荷频率控制方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种用于孤岛微电网的全分布式负荷频率控制方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表