一种基于深度强化学习的新能源场站频率控制方法

未命名 07-20 阅读：156 评论：0

1.本发明涉及电力系统调频技术领域，尤其涉及一种基于深度强化学习的新能源场站频率控制方法。

背景技术：

2.随着风机、光伏、储能等大量新能源电源接入电网，电网惯性水平下降，影响系统频率稳定性，反向制约了新能源电源的发展。为了保证系统频率稳定，推动新能源的进一步发展,目前已对并网新能源场站提出了提供一次调频的要求。同时，储能技术的快速发展，为解决风机和光伏受其不确定性影响而造成的调频出力不稳定问题提供了新的解决方法，未来新能源场站中将更多存在多种资源协同参与调频。因此，如何提高新能源场站的一次调频能力成为当前研究的热点问题。
3.目前新能源电源参与一次调频的典型方式是模仿常规机组的下垂控制，利用本地量测得到的频率偏差，根据提前整定的参数进行响应，系统频率稳定性取决于对控制器参数整定的情况。然而，经逆变器并网的新能源电源几乎可以实现任意频率响应，不局限于线性下垂方式。为了充分发挥逆变器控制的灵活性，新兴的深度强化学习方法为新能源电力系统的频率主动控制问题提供了新的解决思路。无模型的深度强化学习算法具有较强的自适应学习能力，可以构建含非线性环节的复杂训练环境，通过与训练环境的交互学习解决高维非线性控制问题。
4.现有研究较少从场站角度出发考虑多种新能源电源协同调频动作对系统影响的效果进行反馈控制，固定系数的下垂控制方式并未充分利用逆变型电源相较传统电源能够实现更灵活的控制方式以提升其频率快速响应能力，难以根据当前系统频率和新能源电源状态进行自适应调整，此外，电力系统的高维非线性特性在传统控制优化问题中也难以求解。为此，需要一种基于深度强化学习的新能源场站频率控制方法来解决上述问题。

技术实现要素：

5.本发明的目的是提出一种基于深度强化学习的新能源场站频率控制方法，其特征在于，包括以下步骤：
6.步骤1：结合新能源场站参与一次调频的系统频率响应模型，基于双延迟深度确定性策略梯度算法构建智能体所需状态空间、动作空间和奖励函数，设计新能源场站频率控制策略；
7.步骤2：利用仿真软件搭建新能源场站及外电网频率模型的训练环境，获取扰动下场站并网点频率信息，输入基于双延迟深度确定性策略梯度算法的新能源场站内的频率主动控制智能体进行训练；
8.步骤3：在测试环境中测试步骤2训练好的频率主动控制智能体，实现新能源场站的主动频率控制。
9.所述步骤1中的系统频率响应模型包含交流电网、新能源场站与负荷；所述新能源
场站的对象为风电机组、光伏发电系统和储能系统。
10.在风光储场站一次调频过程中，场站控制器采集新能源场站并网点电气量信息，结合风光储的实际运行状态计算一次调频指令信息并下发至各风光储聚合模块，由风光储聚合模块响应一次调频指令；其中有功出力约束、调频出力约束和调频备用约束分别如下：
[0011][0012][0013][0014]
其中，pw(t)、p
pv
(t)、pb(t)分别为风、光、储t时刻有功出力，p
wmax
、p
pvmax
、p
bmax
分别为风、光、储有功出力上限，p
wmin
、p
pvmin
、p
bmin
分别为风、光、储有功出力下限；δpw、δp
pv
、δpb分别为等值同步机组风电模块、光伏模块和储能系统输出的调频有功变化量，别为等值同步机组风电模块、光伏模块和储能系统输出的调频有功变化量，分别为风、光、储调频正备用，分别为风、光、储调频负备用。
[0015]
所述步骤1中的奖励函数为：
[0016][0017]
其中，δf为系统频率偏差，cw,c
pv
,cb分别为风机、光伏和储能系统的调频出力成本系数；δp
iw
,分别为场站内m个风机系统中第i个风机系统、n个光伏系统中第j个光伏系统和h个储能系统中第k个储能系统对附加调频指令的响应出力；λ为调频出力成本的权重系数。
[0018]
在步骤2的训练过程中，为基于双延迟深度确定性策略梯度算法对新能源场站中风光储模块的一次调频策略进行优化的流程如下：
[0019]
步骤21：每次训练开始时初始化系统环境，输入随机负荷扰动；
[0020]
步骤22：初始化经验回放池b、估值网络和策略网络π
φ
及其对应目标网络；
[0021]
步骤23：对t时刻获取的观测量s选择动作a并执行，获取奖励r和下一时刻观测s
′
，
存储经验＜s,a,r,s
′
》；
[0022]
步骤24：从经验回放池b中抽取小批量经验m，并按以下方式进行参数更新，
[0023][0024][0025][0026]
其中，lk为估值网络的损失函数；γ为折扣因子，ε为样本噪声，c是噪声范围；θi,i＝1,2分别是两个估值网络的参数，lk为抽取小批量经验对估值网络进行更新时的损失函数，y为估值网络更新目标值，θi'为更新后的估值网络参数，为预计按照策略更新的动作，为其噪声方差，φ'为更新后的策略网络参数；
[0027]
步骤25：经延时d更新策略网络参数φ，并按以下方式更新对应目标网络；
[0028][0029]
θi′←
τθi+(1-τ)θi′
,φ
′←
τφ+(1-τ)φ
′
[0030]
其中，j(φ)为用于更新策略网络参数的确定梯度下降策略函数，m为抽取的小批量经验数，φ为更新前策略网络参数，τ为软更新参数；
[0031]
步骤26：输出t时刻场站控制器动作指令a＝[uw,u
pv
,ub]，其中uw、u
pv
、ub分别为风、光、储附加调频指令。
[0032]
所述步骤3中的测试环境与步骤2中的训练环境一致来评估主动频率控制的性能。
[0033]
估值网络的损失函数为：
[0034][0035]
其中，qk为第k次更新时的估值网络，θk是对应估值网络的参数；yi是小批量经验中第i个估值网络更新的目标值，si和ai分别是对应经验中的状态和动作。
[0036]
本发明的有益效果在于：
[0037]
本发明所提供的新能源场站控制策略优化方法能够实现场站频率控制指令主动在线调整，兼顾场站内风、光、储资源不同响应情况对调频指令进行协同分配，充分发挥不同调频资源的优势，合理优化分配调节资源，提升场站频率调节性能，满足实时性和自适应性。
附图说明
[0038]
图1为基于td3算法的新能源场站频率控制框架图；
[0039]
图2为基于深度强化学习的新能源场站频率控制流程图；
[0040]
图3为本发明实施例所用系统拓扑图；
[0041]
图4(a)(b)(c)(d)分别为阶跃负荷扰动下所提方法在系统频率、风机出力、光伏出力、储能出力方面与其他调频方法的调频效果对比图；
[0042]
图5为随机负荷扰动图；
[0043]
图6为随机负荷扰动下所提方法与其他调频方法的调频效果对比图；
[0044]
图7为不同系统参数下的调频效果对比图。
具体实施方式
[0045]
本发明提出一种基于深度强化学习的新能源场站频率控制方法，下面结合附图和具体实施例对本发明做进一步说明。
[0046]
图1为基于td3算法的新能源场站频率控制框架图；图2为基于深度强化学习的新能源场站频率控制流程图，具体步骤如下：
[0047]
步骤1：结合新能源场站参与一次调频的系统频率响应模型，基于td3算法构建智能体所需状态空间、动作空间和奖励函数，设计新能源场站频率控制策略；
[0048]
选取系统频率偏差δf、δf的微分和δf的积分作为智能体输入观测量，选取风、光、储附加调频指令uw、u
pv
、ub为智能体输出动作量；以频率偏差和调频出力成本加权构造奖励函数如下：
[0049][0050]
其中，δf为系统频率偏差，cw,c
pv
,cb分别为风机、光伏和储能系统的调频出力成本系数；δp
iw
,分别为场站内m个风机系统中第i个风机系统、n个光伏系统中第j个光伏系统和h个储能系统中第k个储能系统对附加调频指令的响应出力；λ为调频出力成本的权重系数。
[0051]
步骤2：初始化训练环境，获取场站并网点处频率信息；
[0052]
在该步骤中，根据所研究系统的频率特性搭建训练所用频率响应模型作为智能体训练环境，应当指出，场站外电网及场站内部实际参数均可为灰箱模型，强化学习算法通过试错交互进行自主学习，算法本身不需要准确的系统侧参数，只需系统频率外特性；向系统频率响应模型输入负荷扰动，获取场站并网点处频率信息，将风光储模块当前出力和一次调频备用边界作为本地信息，风光储模块一次调频过程中需遵循有功出力约束、调频备用约束和调频出力约束。在实施例中，为减轻训练压力，采用等效聚合模型仿真系统频率响应，交流电网等效为考虑调速器限幅和一次调频死区的单台同步机模型，风光储模块对一次调频指令的动态响应特性由一阶惯性环节表示，并认为新能源场站不提供惯量。
[0053]
步骤3：对基于双延迟深度确定性策略梯度算法的强化学习智能体进行训练，具体为：
[0054]
(1)初始化神经网络参数，td3中包含两个估值网络和一个策略网络。使用随机参数θ1,θ2,φ分别初始化估值网络和策略网络π
φ
，并用相同参数初始化对应目标网络θ1′←
θ1,θ2′←
θ2,φ
′←
φ；
[0055]
(2)智能体根据t时刻获取的观测量s选择动作a并执行，获取奖励r和下一时刻观测s
′
，存储经验《s,a,r,s
′
》；
[0056]
(3)从经验回放池中抽取小批量经验m进行参数更新，td3算法采用两个公用同一经验池的估值网络并选取其中较小的q值进行更新，q网络的目标值为：
[0057][0058]
其中γ为折扣因子，一般取值范围为0.95-0.99；利用最小化采样经验的损失函数lk估值网络参数；
[0059][0060][0061]
其中ε为样本噪声，σ是噪声方差，c是噪声范围。
[0062]
(4)为减少时序差分方法进行更新带来的累计误差，估值网络参数每更新d次，再对目标网络进行更新，利用确定策略梯度下降更新策略网络参数φ，其中τ为软更新参数
[0063][0064]
θi′←
τθi+(1-τ)θi′
[0065]
φ
′←
τφ+(1-τ)φ
′
[0066]
(5)输出t时刻场站控制器动作指令a＝[uw,u
pv
,ub]。
[0067]
步骤4：当训练次数到达设定值时停止训练，将训练所得智能体加载到测试环境中对智能体的调频性能进行评估，如不满足调频需求，则返回步骤2继续训练。
[0068]
本实施例所采用的新能源控制方式为附加功率控制，使用强化学习算法自适应输出风、光、储基于系统频率偏差并考虑出力成本的调频功率参考值，参考值仅考虑附加频率控制响应部分，忽略风光功率跟踪部分。本实施例所用系统如图3所示，系统容量基准值为1000mw，同步机容量为700mw，一次调频限值10％，调频死区
±
0.033hz；风机和光伏容量各为150mw，一次调频备用容量为标准容量的10％；储能容量50mw，一次调频备用容量为标准容量的20％，不考虑风光储模块的调频死区。
[0069]
系统频率响应模型具体参数如表1所示，td3神经网络参数随机初始化，算法其他参数如表2所示。
[0070]
表1系统频率响应模型主要参数
[0071][0072]
表2td3算法主要参数
[0073][0074][0075]
智能体在设定次数下进行训练，为验证本发明所提控制策略的有效性，在测试环境中分别输入0.04pu的阶跃扰动和范围为[0.002,0.074]pu随机扰动，对比传统下垂控制方法、dqn方法、ddpg方法和本发明所提方法在相同环境下的调频效果，如图4、图5、图6所示。在阶跃扰动情况下，本发明所提方法的最大频率偏差最小，为49.857hz；在随机扰动情况下，本发明所提方法的频率偏差范围为[49.754，50.050]hz，说明本发明所提方法能够起到良好的一次调频效果。
[0076]
为评估本发明所设计的调频策略的泛化性能，对测试环境中的系统侧等值参数在参考范围内随机赋值，验证训练完备的智能体能否在不同系统参数下自适应学习控制策略。由图7结果可知，智能体能够不依赖于系统模型的具体参数，自适应学习控制策略，对不同系统参数具有良好泛化性能。
[0077]
由实施例可知，本发明所提供的新能源场站控制方法能在外电网参数模糊的情况下实现场站频率控制指令主动在线调整，兼顾场站内多种资源不同响应情况对调频指令进行协同分配，充分发挥不同调频设备的优势性能。

技术特征：
1.一种基于深度强化学习的新能源场站频率控制方法，其特征在于，包括以下步骤：步骤1：结合新能源场站参与一次调频的系统频率响应模型，基于双延迟深度确定性策略梯度算法构建智能体所需状态空间、动作空间和奖励函数，设计新能源场站频率控制策略；步骤2：利用仿真软件搭建新能源场站及外电网频率模型的训练环境，获取扰动下场站并网点频率信息，输入基于双延迟深度确定性策略梯度算法的新能源场站内的频率主动控制智能体进行训练；步骤3：在测试环境中测试步骤2训练好的频率主动控制智能体，实现新能源场站的主动频率控制。2.根据权利要求1所述基于深度强化学习的新能源场站频率控制方法，其特征在于，所述步骤1中的系统频率响应模型包含交流电网、新能源场站与负荷；所述新能源场站的对象为风电机组、光伏发电系统和储能系统。3.根据权利要求2所述基于深度强化学习的新能源场站频率控制方法，其特征在于，在风光储场站一次调频过程中，场站控制器采集新能源场站并网点电气量信息，结合风光储的实际运行状态计算一次调频指令信息并下发至各风光储聚合模块，由风光储聚合模块响应一次调频指令；其中有功出力约束、调频出力约束和调频备用约束分别如下：应一次调频指令；其中有功出力约束、调频出力约束和调频备用约束分别如下：应一次调频指令；其中有功出力约束、调频出力约束和调频备用约束分别如下：其中，p
w
(t)、p
pv
(t)、p
b
(t)分别为风、光、储t时刻有功出力，p
wmax
、p
pvmax
、p
bmax
分别为风、光、储有功出力上限，p
wmin
、p
pvmin
、p
bmin
分别为风、光、储有功出力下限；δp
w
、δp
pv
、δp
b
分别为等值同步机组风电模块、光伏模块和储能系统输出的调频有功变化量，分别为风、光、储调频正备用，分别为风、光、储调频负备用。4.根据权利要求1所述基于深度强化学习的新能源场站频率控制方法，其特征在于，所
述步骤1中的奖励函数为：其中，δf为系统频率偏差，c
w
,c
pv
,c
b
分别为风机、光伏和储能系统的调频出力成本系数；分别为场站内m个风机系统中第i个风机系统、n个光伏系统中第j个光伏系统和h个储能系统中第k个储能系统对附加调频指令的响应出力；λ为调频出力成本的权重系数。5.根据权利要求1所述基于深度强化学习的新能源场站频率控制方法，其特征在于，在步骤2的训练过程中，为基于双延迟深度确定性策略梯度算法对新能源场站中风光储模块的一次调频策略进行优化的流程如下：步骤21：每次训练开始时初始化系统环境，输入随机负荷扰动；步骤22：初始化经验回放池b、估值网络和策略网络π
φ
及其对应目标网络；步骤23：对t时刻获取的观测量s选择动作a并执行，获取奖励r和下一时刻观测s
′
，存储经验<s,a,r,s
′
>；步骤24：从经验回放池b中抽取小批量经验m，并按以下方式进行参数更新，步骤24：从经验回放池b中抽取小批量经验m，并按以下方式进行参数更新，步骤24：从经验回放池b中抽取小批量经验m，并按以下方式进行参数更新，其中，l
k
为估值网络的损失函数；γ为折扣因子，ε为样本噪声，c是噪声范围；θ
i
,i＝1,2分别是两个估值网络的参数，l
k
为抽取小批量经验对估值网络进行更新时的损失函数，y为估值网络更新目标值，θ
i
'为更新后的估值网络参数，为预计按照策略更新的动作，为其噪声方差，φ'为更新后的策略网络参数；步骤25：经延时d更新策略网络参数φ，并按以下方式更新对应目标网络；步骤25：经延时d更新策略网络参数φ，并按以下方式更新对应目标网络；其中，j(φ)为用于更新策略网络参数的确定梯度下降策略函数，m为抽取的小批量经验数，φ为更新前策略网络参数，τ为软更新参数；步骤26：输出t时刻场站控制器动作指令a＝[u
w
,u
pv
,u
b
]，其中u
w
、u
pv
、u
b
分别为风、光、储附加调频指令。6.根据权利要求1所述基于深度强化学习的新能源场站频率控制方法，其特征在于，所述步骤3中的测试环境与步骤2中的训练环境一致来评估主动频率控制的性能。7.根据权利要求5所述基于深度强化学习的新能源场站频率控制方法，其特征在于，估值网络的损失函数为：
其中，q
k
为第k次更新时的估值网络，θ
k
是对应估值网络的参数；y
i
是小批量经验中第i个估值网络更新的目标值，s
i
和a
i
分别是对应经验中的状态和动作。

技术总结
本发明公开了属于电力系统调频技术领域的一种基于深度强化学习的新能源场站频率控制方法。结合新能源场站参与一次调频的系统频率响应模型，基于双延迟深度确定性策略梯度算法构建智能体所需状态空间、动作空间和奖励函数，设计新能源场站频率控制策略；利用仿真软件搭建新能源场站及外电网频率模型的训练环境，获取扰动下场站并网点频率信息，输入基于双延迟深度确定性策略梯度算法的新能源场站内的频率主动控制智能体进行训练；在测试环境中测试训练好的频率主动控制智能体，实现新能源场站的主动频率控制。本发明方法能够实现场站频率控制指令主动在线调整，兼顾场站内风、光、储资源不同响应情况对调频指令进行协同分配。配。配。

技术研发人员：王程张蕾毕天姝胥国毅
受保护的技术使用者：华北电力大学
技术研发日：2023.03.13
技术公布日：2023/7/19

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：充油电力设备油位探测装置和油位观测系统的制作方法 下一篇：一种基于血糖的糖尿病眼病风险评估系统及方法

一种基于深度强化学习的新能源场站频率控制方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度强化学习的新能源场站频率控制方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表