一种基于深度强化Q学习的双时间尺度配网电压调节方法与流程

未命名 09-22 阅读：206 评论：0

一种基于深度强化q学习的双时间尺度配网电压调节方法
技术领域
1.本发明涉及配电网电压调节技术领域，尤其是一种基于深度强化q学习的双时间尺度配网电压调节方法。

背景技术：

2.随着分布式可再生能源渗透率逐渐升高，配电网中的电压波动变得更加频繁和剧烈，给配电网运行带来了挑战。传统的电压调节方案主要依赖于配网运营商拥有的设备，如负载变压器和并联电容器。然而，由于这些设备的响应时间较慢，而且并联电容器的开关动作是离散的，因此难以适应快速变化的负荷和发电工况。另一方面，现代分布式电源(如光伏系统和风力发电机)通常配备了智能逆变器，在毫秒级别调节无功功率输出，并且支持连续的功率调节。
3.在中国专利文献上公开的“基于云边协同的无功电压仿真系统和控制方法”，其公开号为cn115133542a，公开了基于云边协同的无功电压仿真系统和控制方法，可以有效验证云边协同算法的有效性，促进无功电压优化系统的发展。该仿真系统包括：数据生成模块、协议转换模块、云边协同模块和控制输出模块；但是公开号为cn115133542a的中国专利并未提出关于电网调节的具体算法，无法评价其响应时间。

技术实现要素：

4.本发明解决了传统的电压调节方法设备响应时间慢且难以适应快速变化的负荷和发电工况的问题，提出一种基于深度强化q学习的双时间尺度配网电压调节方法，将传统的配网运营商设备和智能逆变器进行联合控制，以实现公平和高效的电压调节。
5.为了实现上述目的，本发明采用以下技术方案：一种基于深度强化q学习的双时间尺度配网电压调节方法，包括如下步骤：s1，初始化并联电容器，使其开关状态为全关或全开；s2，比较当前时刻和当前时间段的开始时刻，判断是否进入下一个时间段；若是，转到步骤s3；若否，转到步骤s5；s3，根据当前时间段的结束时刻，从变电站节点获取电网的总功率，计算电网的功率因数；s4，根据深度强化学习算法确定下一个时间段的并联电容器的开关状态；s5，根据当前时刻，从逆变器节点获取其有功功率和无功功率，计算其无功功率上下限；s6，根据线性化分布式潮流模型计算下一时刻的逆变器的最优无功功率设定值。
6.本发明中，通过控制中心来协调并联电容器和逆变器的控制，控制中心与所有的并联电容器和逆变器通过双向链路连接，可以发送控制指令和接收状态信息；控制中心还能从变电站节点获取电网的总有功功率和总无功功率；本发明适用于具有n+1个节点的分布式电网，包括有变电站节点和负荷节点，负荷节点有n个，每个负荷节点上安装有一个并
联电容器、一个逆变器或者负荷，但仅能选择其一。
7.作为优选，所述并联电容器的开关状态在每个时间段末确定，所述逆变器的无功功率设定值在每个时刻初确定。
8.本发明中，并联电容器的开关状态在设定的时间段末进行确定，而逆变器的无功功率设定值则在相应的时刻进行确定，围绕上述的原则进行分析和计算。
9.作为优选，所述步骤s4包括以下步骤：s41，根据当前时间段的并联电容器的开关状态，构建深度强化学习算法的状态向量；s42，根据dnn得到策略函数和值函数，利用状态向量和策略函数输出下一个时间段的并联电容器开关状态的概率分布，并得到开关状态；s43，将开关状态发送至相应节点，并在下一时间段执行；s44，根据电网的功率因数和预设的目标功率因数，计算下一个时间段的奖励值，并与当前时间段的状态向量、开关状态以及下一个时间段的状态向量构成转移元组，并存入经验回放池中；s45，从经验回放池中随机抽取一批转移元组，利用策略梯度法和值函数近似法更新dnn的参数。
10.本发明中，根据时间段的并联电容器开关状态、电网的功率因数以及之前各时间段的奖励值，来构建深度强化学习算法的状态向量；利用深度神经网络(dnn)近似深度强化学习算法的策略函数和值函数，结合状态向量和策略函数输出概率分布，根据概率分布采样得到开关状态；将开关状态发送至相应节点；同时，从变电站节点获取下一时间段电网的总有功功率和总无功功率，并计算电网的功率因数；根据电网的功率因数和预设目标功率因数，。最终构成有转移元组，并存入经验回收池之中；从经验回收池随机抽出一批转移元组，更新dnn的参数，以提高策略函数和值函数的性能。
11.作为优选，所述步骤s6包括以下步骤：s61：根据当前时刻的电网状态，利用线性化分布式潮流模型建立电压与无功功率之间的线性关系，即vi(t)＝ai+biq
g,i
(t)，其中ai和bi为与电网拓扑结构和参数相关的常数；s62：利用线性规划方法求解优化问题，该优化问题旨在最小化各个逆变器节点的电压偏差，同时满足逆变器的输出限制和线性化分布式潮流模型的约束；s63：得到下一时刻的逆变器的最优无功功率设定值，并将其发送给相应的节点。
12.本发明中，首先根据电网状态并且利用线性化分布式潮流模型建立电压和无功功率之间的线性关系，利用相应的约束求解设定的优化问题，得到下一时刻逆变器的最优无功功率设定值最终并发送到对应节点。
13.作为优选，所述优化问题具体为：所述约束为：
其中，t为当前时刻，t为下一时刻，qg(t)为从逆变器节点获取的无功功率，vi为逆变器节点电压，v*为预设的目标电压值，为逆变器总个数。
14.本发明中，该优化问题旨在最小化各个逆变器节点的电压偏差，并满足逆变器的输出限制和线性化分布式潮流模型的约束。
15.作为优选，还包括以下步骤：s7，判断是否到达一天的最后一个时刻；若是，则结束；若否，转到步骤s2。
16.本发明中，将一天划分为若干个时间段，每个时间段划分为若干个时刻。
17.本发明的有益效果是：1、对于本发明的一种基于深度强化q学习的双时间尺度配网电压调节方法，采用双时间尺度，即在短期时间尺度上(例如每小时或每天)利用深度强化学习算法确定并联电容器的开关状态，在实时时间尺度上(例如每几秒或每分钟)利用线性化分布式潮流模型计算逆变器的无功功率设定值。这样既可以充分利用两种设备的特性，又可以减少通信和计算开销；2、本发明利用策略梯度和值函数近似相结合的算法，来学习并联电容器的最优开关策略；该算法可以有效地处理高维连续、非线性、非凸的优化问题；该算法不需要预先知道电网的拓扑结构和参数，也不需要进行离线训练，而是通过与电网的实时交互来在线学习和适应；3、本发明利用线性化分布式潮流模型的优化方法，来计算逆变器的最优无功功率设定值；该方法可以有效地处理电网的非线性和非凸性，同时保证电压在合理范围内。该方法还可以考虑逆变器的输出限制和无功功率分配原则，以实现公平和高效的电压调节。
附图说明
18.图1是本发明一种基于深度强化q学习的双时间尺度配网电压调节方法对应的分布式电网模型示意图；图2是本发明一种基于深度强化q学习的双时间尺度配网电压调节方法的深度强化学习网络结构图；图3是本发明实施例2中三种方法所产生的时间平均瞬时成本对比图；图4是本发明实施例2中三种方法所产生的电压幅值曲线对比图；图5是本发明实施例2中三种方法的电压幅值曲线对比图；图6是本发明实施例2中各个并联电容器的开关状态曲线图；图7是本发明实施例2中各个逆变器的无功功率曲线图。
具体实施方式
19.本发明适用于具有n+1个节点的分布式电网，其中节点0为变电站节点，节点1至n为负荷节点。每个负荷节点上安装有一个并联电容器、一个逆变器或负荷，但仅能选择其一；并联电容器的数量为na，其节点索引集合为逆变器的数量为nr，其节点索引集合为本发明将一天划分为个时间段，每个时间段划分为n
t
个时刻。
20.参考图1，图中的实线表示输电线路，虚线表示通信链路；图中为一个包含有10个节点的分布式电网，其中3个节点安装有并联电容器，具体为图中的k1、k2和k3,有4个节点安装光伏及其逆变器，具体为图中的pv1、pv2、pv3以及pv4；本发明通过控制中心来协调并联电容器和逆变器；并联电容器的开关状态在每个时间段末确定，所述逆变器的无功功率设定值在每个时刻初确定。
21.实施例1：
20.本实施例提出一种基于深度强化q学习的双时间尺度配网电压调节方法，包括如下若个步骤。
22.步骤s1，初始化并联电容器，使其开关状态为全关或全开；具体的，对并联电容器的开关状态进行初始化，并将其发送至相应的节点。
23.步骤s2，比较当前时刻和当前时间段的开始时刻，判断是否进入下一个时间段；若是，转到步骤s3；若否，转到步骤s5；具体的，根据当前时刻t和当前时间段τ的开始时刻来决定是转至步骤s3还是步骤s5。
24.步骤s3，根据当前时间段的结束时刻，从变电站节点获取电网的总功率，计算电网的功率因数；具体的，电网的总功率包括从变电站节点获取电网的总有功功率p0(τ)和总无功功率q0(τ)。
25.步骤s4，根据深度强化学习算法确定下一个时间段的并联电容器的开关状态；具体的，该步骤包括以下子步骤。
26.步骤s41，根据当前时间段的并联电容器的开关状态，构建深度强化学习算法的状态向量；具体的，根据当前时间段τ的并联电容器的开关状态、电网的功率因数pf(τ)、以及之前各时间段的奖励值r(τ)，构建深度强化学习算法的状态向量s(τ)。
27.步骤s42，根据dnn得到策略函数和值函数，利用状态向量和策略函数输出下一个时间段的并联电容器开关状态的概率分布，并得到开关状态；具体的，利用深度神经网络(dnn)近似深度强化学习算法的策略函数和值函数，即为π(s(τ)；θ
π
)和v(s(τ)；θv)，其中θ
π
和θv为dnn的参数；随后根据状态向量s(τ)，利用策略函数π(s(τ)；θ
π
)输出下一个时间段τ+1的并联电容器的开关状态的概率分布，然后根据该概率分布采样得到开关状态a(τ)。
28.步骤s43，将开关状态发送至相应节点，并在下一时间段执行；具体的，将开关状态a(τ)发送给相应的节点，并在下一个时间段τ+1执行；同时，从变电站节点获取下一个时间段的电网的总有功功率p0(τ+1)和总无功功率q0(τ+1)，并计算电网的功率因数pf(τ+1)。
29.步骤s44，根据电网的功率因数和预设的目标功率因数，计算下一个时间段的奖励值，并与当前时间段的状态向量、开关状态以及下一个时间段的状态向量构成转移元组，并存入经验回放池中；更为具体的，由电网的功率因数pf(τ+1)和预设的目标功率因数pf*，计算下一个时间段τ+1的奖励值r(τ+1)，并与当前时间段τ的状态向量s(τ)、开关状态a(τ)、以及下一个时间段的状态向量s(τ+1)构成转移元组(s(τ)；a(τ)；r(τ+1)；s(τ+1))，并存入经验回放池中。
30.步骤s45，从经验回放池中随机抽取一批转移元组，利用策略梯度法和值函数近似法更新dnn的参数；具体的，该参数即为上述的参数θ
π
和θv，更新dnn的参数θ
π
和θv来提高策略函数和值函数的性能。
31.步骤s5，根据当前时刻，从逆变器节点获取其有功功率和无功功率，计算其无功功
率上下限；具体的，在当前时刻t，获取其有功功率和无功功率并且计算出无功功率上下限，分别为q
g,min
(t)和q
g,max
(t)。
32.步骤s6，根据线性化分布式潮流模型计算下一时刻的逆变器的最优无功功率设定值；具体的，包括以下的子步骤。
33.步骤s61：根据当前时刻的电网状态，利用线性化分布式潮流模型建立电压与无功功率之间的线性关系，即vi(t)＝ai+biq
g,i
(t)，其中ai和bi为与电网拓扑结构和参数相关的常数；具体的，当前时刻仍为t。
34.步骤s62：利用线性规划方法求解优化问题，该优化问题旨在最小化各个逆变器节点的电压偏差，同时满足逆变器的输出限制和线性化分布式潮流模型的约束；具体的，该优化问题为：约束为：约束为：其中，t表示当前时刻，t表示下一时刻，qg(t)表示从逆变器节点获取的无功功率，vi表示逆变器节点电压，v*表示预设的目标电压值，表示逆变器总个数。
35.步骤s63：得到下一时刻的逆变器的最优无功功率设定值，并将其发送给相应的节点。具体的，下一时刻表示为t+1，最优无功功率设定值为qg*(t+1)。
36.还包括步骤s7，判断是否到达一天的最后一个时刻。如果是，则结束本发明的过程；如果否，则转到步骤s2。本实施例中，将一天划分为若干个时间段，每个时间段划分为若干个时刻。
37.本实施例中，通过控制中心来协调并联电容器和逆变器的控制，控制中心与所有的并联电容器和逆变器通过双向链路连接，可以发送控制指令和接收状态信息；控制中心还能从变电站节点获取电网的总有功功率和总无功功率；本发明适用于具有n+1个节点的分布式电网，包括有变电站节点和负荷节点，负荷节点有n个，每个负荷节点上安装有一个并联电容器、一个逆变器或者负荷，但仅能选择其一。
38.本实施例中，根据时间段的并联电容器开关状态、电网的功率因数以及之前各时间段的奖励值，来构建深度强化学习算法的状态向量；利用深度神经网络(dnn)近似深度强化学习算法的策略函数和值函数，结合状态向量和策略函数输出概率分布，根据概率分布采样得到开关状态；将开关状态发送至相应节点；同时，从变电站节点获取下一时间段电网的总有功功率和总无功功率，并计算电网的功率因数；根据电网的功率因数和预设目标功率因数，。最终构成有转移元组，并存入经验回收池之中；从经验回收池随机抽出一批转移元组，更新dnn的参数，以提高策略函数和值函数的性能。
39.本实施例中，首先根据电网状态并且利用线性化分布式潮流模型建立电压和无功功率之间的线性关系，利用相应的约束求解设定的优化问题，得到下一时刻逆变器的最优无功功率设定值最终并发送到对应节点。
40.实施例2：在实施例1的基础上，用具体的案例进一步说明本发明的方法。
41.参考图1，本发明的分布式电网模型中，有10个负荷节点(节点1至节点10)，其中3个节点(节点1、节点2、节点3)安装了并联电容器(k1、k2、k3)，3个节点(节点7、节点8、节点9)安装了逆变器(pv1、pv2、pv3)。本实施案例将一天划分为24个时间段(τ＝1至24)，每个时间段划分为60个时刻(t＝1至60)。并联电容器的开关状态在每个时间段末确定，逆变器的无功功率设定值在每个时刻初确定。案例采用本发明提出的双时间尺度电压调节方案，即在短期时间尺度上利用深度强化学习算法确定并联电容器的开关状态，在实时时间尺度上利用线性化分布式潮流模型计算逆变器的无功功率设定值。
42.本实施例采用的深度强化学习网络结构可参考图2，其中，深度神经网络(dnn)由三层全连接层组成，每层有64个神经元，激活函数为relu；dnn输入层接收当前时间段τ的状态向量s(τ)，输出层输出下一个时间段τ+1的并联电容器开关状态a(τ)。dnn参数θ
π
和θv分别表示策略函数和值函数的参数；本实施案例设置目标功率因数pf*为0.95，经验回放池大小为1000，批量大小为32，学习率为0.001，折扣因子为0.9。
43.在线性化分布式潮流模型优化过程中，本实施例采用gurobi优化器求解。设置目标电压值v*为1.0，逆变器无功功率上下限q
g,min
和q
g,max
为
±
0.2。
44.本实施案例使用真实的负荷和光伏发电数据，模拟了一天的电网运行情况；为了评估本发明中电压控制方法的优异性，采用固定的和随机切换的电容器配置策略作为对照方法，这两种对照方法都通过在实时时间尺度上求解线性化分布式潮流模型来计算最优的逆变器设定点，区别是前者采用固定的电容器配置，后者在每个短期时间尺度间隔内随机切换电容器的投入。
45.三种方法在前2000个时段内产生的时间平均瞬时成本在附图3中绘制，其中，图3中右侧最上面的曲线对应于固定的电容器配置策略，右侧最下面的曲线为本发明的方法，最中间的曲线对应随机切换的电容器配置策略。显然，所提出的方法在经过一段短暂的学习后，就比另外两种对照方法达到了更低的成本。
46.由三种方法调节的所有母线的电压幅值曲线在图4中展示。同样，在经过一段短暂的(约4500个时刻)与环境交互的训练后，基于drl的电压调节方案很快学习到了一个稳定和(近似)最优的策略。
47.此外，图5展示了三种方法在时刻9900分钟到10000分钟之间的#10和#33母线的电压幅值曲线，图中，可以看出，固定的电容器配置策略对应的曲线位于最下侧，随机切换的电容器配置策略对应的曲线波动较大，而本发明的方法的曲线最为平稳；使用本发明的双时间尺度电压调节方法后，节点的电压在合理范围内，且波动较小。曲线展示了所提方法在平滑由于高太阳能发电和重负荷需求而引起的电压波动方面的有效性。
48.图6显示了本实施案例中各个并联电容器的开关状态曲线，可以看出，使用本发明的深度强化学习算法后，并联电容器的开关状态能够根据电网的功率因数变化而自适应调整。
49.图7显示了本实施案例中各个逆变器的无功功率曲线，可以看出，使用本发明的线性化分布式潮流模型优化方法后，逆变器的无功功率能够根据电网的电压偏差而优化分
配。
50.以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

技术特征：
1.一种基于深度强化q学习的双时间尺度配网电压调节方法，其特征是，包括如下步骤：s1，初始化并联电容器，使其开关状态为全关或全开；s2，比较当前时刻和当前时间段的开始时刻，判断是否进入下一个时间段；若是，转到步骤s3；若否，转到步骤s5；s3，根据当前时间段的结束时刻，从变电站节点获取电网的总功率，计算电网的功率因数；s4，根据深度强化学习算法确定下一个时间段的并联电容器的开关状态；s5，根据当前时刻，从逆变器节点获取其有功功率和无功功率，计算其无功功率上下限；s6，根据线性化分布式潮流模型计算下一时刻的逆变器的最优无功功率设定值。2.根据权利要求1所述的基于深度强化q学习的双时间尺度配网电压调节方法，其特征是，所述并联电容器的开关状态在每个时间段末确定，所述逆变器的无功功率设定值在每个时刻初确定。3.根据权利要求1或2所述的基于深度强化q学习的双时间尺度配网电压调节方法，其特征是，所述步骤s4包括以下步骤：s41，根据当前时间段的并联电容器的开关状态，构建深度强化学习算法的状态向量；s42，根据dnn得到策略函数和值函数，利用状态向量和策略函数输出下一个时间段的并联电容器开关状态的概率分布，并得到开关状态；s43，将开关状态发送至相应节点，并在下一时间段执行；s44，根据电网的功率因数和预设的目标功率因数，计算下一个时间段的奖励值，并与当前时间段的状态向量、开关状态以及下一个时间段的状态向量构成转移元组，并存入经验回放池中；s45，从经验回放池中随机抽取一批转移元组，利用策略梯度法和值函数近似法更新dnn的参数。4.根据权利要求3所述的基于深度强化q学习的双时间尺度配网电压调节方法，其特征是，所述步骤s6包括以下步骤：s61，根据当前时刻的电网状态，利用线性化分布式潮流模型建立电压与无功功率之间的线性关系，即v
i
(t)＝a
i
+b
i
q
g,i
(t)，其中a
i
和b
i
为与电网拓扑结构和参数相关的常数；s62，利用线性规划方法求解优化问题，该优化问题旨在最小化各个逆变器节点的电压偏差，同时满足逆变器的输出限制和线性化分布式潮流模型的约束；s63，得到下一时刻的逆变器的最优无功功率设定值，并将其发送给相应的节点。5.根据权利要求4所述的基于深度强化q学习的双时间尺度配网电压调节方法，其特征是，所述优化问题具体为：所述约束为：
其中，t为当前时刻，t为下一时刻，q
g
(t)为从逆变器节点获取的无功功率，v
i
为逆变器节点电压，v*为预设的目标电压值，为逆变器总个数。6.根据权利要求1或2或4所述的基于深度强化q学习的双时间尺度配网电压调节方法，其特征是，还包括以下步骤：s7，判断是否到达一天的最后一个时刻；若是，则结束；若否，转到步骤s2。

技术总结
本发明公开一种基于深度强化Q学习的双时间尺度配网电压调节方法，旨在解决传统的电压调节方法设备响应时间慢且难以适应快速变化的负荷和发电工况的问题，包括：初始化并联电容器，使其开关状态为全关或全开；比较当前时刻和当前时间段的开始时刻进行步骤判断；根据当前时间段的结束时刻，从变电站节点获取电网的总功率，计算电网的功率因数；根据深度强化学习算法确定下一个时间段的并联电容器的开关状态；根据当前时刻，从逆变器节点获取其功率，计算其无功功率上下限；根据线性化分布式潮流模型计算下一时刻的逆变器的最优无功功率设定值。本发明将传统的配网运营商设备和智能逆变器进行联合控制，以实现公平和高效的电压调节。压调节。压调节。

技术研发人员：张明明刘文旺谢益峰姚宝明陈刚汪泽州邹健童子奕方李明朱能飞姜振宇
受保护的技术使用者：国网浙江省电力有限公司海盐县供电公司
技术研发日：2023.05.15
技术公布日：2023/9/20

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于深度强化Q学习的双时间尺度配网电压调节方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度强化Q学习的双时间尺度配网电压调节方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表