基于多智能体的配电网电压控制方法、系统、设备及介质

未命名 08-07 阅读：116 评论：0

1.本发明涉及配电网电压自动化控制技术领域，尤其涉及一种基于多智能体的配电网电压控制方法、系统、设备及介质。

背景技术：

2.随着分布式可再生能源在配电网中的渗透率不断提高，这对配电网的运行和控制提出了巨大的挑战。分布式电源出力的随机性、波动性和间歇性改变了传统配电网的潮流分布，电压会发生波动甚至越限，为电网的稳定运行带来很多不确定性因素，从而导致配电网整体质量和供电可靠性都会受到影响。无论是过电压还是低电压均会降低能源效率，造成设备涌流甚至损坏用户设备，进一步地会导致企业生产效率下降和能耗增加，对人类的生产生活造成严重危害。这些不稳定的分布式可再生能源给配电网电压控制带来了前所未有的挑战，配电网电压控制问题成为了当前配电网智能调度技术中的重要课题。
3.传统的电压控制策略大致分为两类，一类是基于最优潮流方法的无功功率调度，另一类是基于本地电压和功率测量的下垂控制方法。最优潮流算法的计算复杂度较高，需要大量的计算资源和时间，这使得它在实时电网控制中不够实用，只适用于静态分析和规划。下垂控制只依赖于它的局部观测，且其性能高度依赖于人工设计的参数，同时由于缺乏全局信息其计算得到的结果往往是次优的。因此，传统配电网电压控制算法存在很多局限性，无法适应智能化电网的要求，如实时响应、自适应、可靠性等。
4.目前，在实际电压调度中主要采用以人工操作为主，传统的仿真工具和计算工具为辅的调度方式确保电网的安全稳定运行。这需要耗费大量的设备资金和人力成本，并且由于配电网调度中存在极大的动作空间、极长的决策步数、太过复杂的拓扑结构、随机发生的各种突发事件的制约，很难保证当前采取的策略是否有利于长期电网运行的低损耗和安全性。除此之外，电网中大量测量设备的安装也导致电网检测数据的规模十分庞大，如何分析和利用好电网大数据并应用于实际决策中也是实际电网调度中存在的巨大问题。
5.近年来，基于光伏逆变器无功控制的多智能体强化学习被引入到配电网电压控制领域。相比于传统的电压控制方法，它利用数据驱动学习最优的策略，在进行决策时仅需较少的计算开销。通过与电网仿真环境不断地交互并根据交互结果进行惩罚和奖励，神经网络逐渐学习到应对电网各种状态变化的调度策略。在推理阶段，输入给定电网的全局电网信息或控制设备所在区域的局部电网信息，策略网络可以输出对应局部电网信息下控制设备所应采取的动作，而这些动作能够保证电网运行时的低损耗和安全性。
6.此外，目前科研人员，还提出了基于约束马尔可夫决策过程的安全强化学习算法进行电压控制。
7.总体来说，目前以上三类技术方案存在如下技术问题：
8.1、当前电网中实际采用的电压控制算法(即前述传统的电压控制策略)仍以人工经验为主，需要电网调度人员手动设计大量参数，并基于其他辅助计算软件的结果对算法给出的策略再进行修正。这一电压控制方式无法充分利用电网的大数据，容易受到电网调
度人员的认知和经验水平的影响，难以全面考虑电网的系统整体性，这可能导致算法性能的不稳定，同时也需要耗费大量的人力和计算成本。除此之外，传统电压控制算法难以实现自动化，这意味着无法及时响应电网的状态变化，例如突发线路故障等，导致电网的不稳定从而影响日常的生产生活。
9.2、现有的基于多智能体强化学习的电压控制算法在探索过程中需要大量的试错，且没有有效措施保证学习的策略在部署过程中的安全性。在电网调度任务中多智能体强化学习算法需要在不同的情况下尝试不同的动作以发现最优的控制策略，对电力仿真环境的建模要求较高，需要建模考虑众多可能状态。并且智能体试错操作的代价可能很高，使得学习过程变得缓慢和耗时。同时如果在试错的过程中不加以约束智能体的策略，智能体可能会学习到一些包含不安全行为的策略，其策略的安全性难以保证。当前的技术方案，对于多智能体强化学习安全探索和部署的问题，缺乏有效的研究，需要进一步探索和改进。
10.3、现有的基于约束马尔可夫决策过程的安全强化学习算法多是在集中式单智能体设置下进行电压控制，适用场景受限，难以在实际的分布式可再生能源场景中适用。在实际调度场景中，电网中每个区域的智能体(可控设备)通常难以获得全局电网信息，仅能获得测量设备所能测量区域的局部电网电网信息。即现有的单智能体安全强化学习方法无法在区域局部信息条件下做出决策。

技术实现要素：

11.本发明的目的是提供一种基于多智能体的配电网电压控制方法、系统、设备及介质，可以高效地根据当前区域的局部电网信息调节光伏逆变器的无功功率，并对可能产生电压越界的危险动作策略(即当前的光伏逆变器无功功率值可能导致下一时间步某些电压越界)进行纠正，使得最终的动作策略尽可能保证电网中的所有母线尽可能维持在安全电压范围内，从而更好地适应实际电网调度要求。
12.本发明的目的是通过以下技术方案实现的：
13.一种基于多智能体的配电网电压控制方法，包括：
14.构建包含多个智能体的配电网电压控制模型，每一智能体包含策略网络模块与动作纠正子网络模块；其中，智能体中的策略网络模块，负责根据局部电网信息输出相应动作，动作纠正子网络模块负责结合局部电网信息与策略网络模块输出的动作计算第一动作纠正量；
15.对所述包含多个智能体的配电网电压控制模型进行集中式训练，集中式训练过程中引入安全层，所述安全层负责根据全局电网信息对输入的动作进行纠正，输出安全动作；基于全局电网信息、所有智能体中的策略网络模块输出的动作与动作纠正子网络模块输出的第一动作纠正量，训练出每一个智能体的集中式动作价值函数，对于每一个智能体，通过最大化集中式动作价值函数来更新策略网络模块的参数，再基于策略网络模块输出的动作与安全层输出的安全动作更新动作纠正子网络模块的参数，通过反复迭代直至每一个智能体策略网络模块和动作纠正子网络模块的参数收敛，完成集中式训练过程；
16.训练完毕后，每一智能体根据训练后的策略网络模块与动作纠正子网络模块输出的动作与第一动作纠正量，生成纠正后的动作并执行；其中，动作是指无功功率调节动作。
17.一种基于多智能体的配电网电压控制系统，包括：
18.模型构建单元，用于构建包含多个智能体的配电网电压控制模型，每一智能体包含策略网络模块与动作纠正子网络模块；其中，智能体中的策略网络模块，负责根据局部电网信息输出相应动作，动作纠正子网络模块负责结合局部电网信息与策略网络模块输出的动作计算第一动作纠正量；
19.集中式训练单元，用于对所述包含多个智能体的配电网电压控制模型进行集中式训练，集中式训练过程中引入安全层，所述安全层负责根据全局电网信息对输入的动作进行纠正，输出安全动作；基于全局电网信息、所有智能体中的策略网络模块输出的动作与动作纠正子网络模块输出的第一动作纠正量，训练出每一个智能体的集中式动作价值函数，对于每一个智能体，通过最大化集中式动作价值函数来更新策略网络模块的参数，再基于策略网络模块输出的动作与安全层输出的安全动作更新动作纠正子网络模块的参数，通过反复迭代直至每一个智能体策略网络模块和动作纠正子网络模块的参数收敛，完成集中式训练过程；
20.训练后的智能体构成的分散式执行单元，用于在训练完毕后，每一智能体根据训练后的策略网络模块与动作纠正子网络模块输出的动作与第一动作纠正量，生成纠正后的动作并执行；其中，动作是指无功功率调节动作。
21.一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；
22.其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。
23.一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。
24.由上述本发明提供的技术方案可以看出，能够在大部分场景下自动调节光伏逆变器的无功功率并维持电压在安全范围内。相较于传统的电压控制方法，本发明能够大大减少计算负担，且基于神经网络的策略能够进行快速推理，能够实时响应电网调度中的各种情况。除此之外，与现有的用于电压控制任务的多智能体强化学习方案相比，加入了自主纠正危险动作的机制，能有效减少电压越限情况的方式，同时可以仅依赖于局部电网信息进行决策，能够很好的满足分布式部署地需求。因此，本发明可以便携地部署到局部电压控制设备中，应用场景广泛，为电网调度向智能化方向的发展提供了有力的技术支持，同时也能促进分布式可再生能源在电网发电端的普及。
附图说明
25.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。
26.图1为本发明实施例提供的一种基于多智能体的配电网电压控制方法的流程图；
27.图2为本发明实施例提供的集中式训练分散式执行架构的示意图；
28.图3为本发明实施例提供的策略网络模块和动作纠正子网络模块及其与环境交互示意图；
29.图4为本发明实施例提供的一种基于多智能体的配电网电压控制系统的示意图；
30.图5为本发明实施例提供的一种处理设备的示意图。
具体实施方式
31.下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。
32.首先对本文中可能使用的术语进行如下说明：
33.术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。
34.下面对本发明所提供的一种基于多智能体的配电网电压控制方法、系统、设备及介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。
35.实施例一
36.本发明实施例提供一种基于多智能体的配电网电压控制方法，如图1所示，主要包括：
37.步骤1、构建包含多个智能体的配电网电压控制模型。
38.本发明实施例中，每一智能体包含策略网络模块与动作纠正子网络模块，智能体中的策略网络模块，负责根据局部电网信息输出相应动作，动作纠正子网络模块负责结合局部电网信息与策略网络模块输出的动作计算第一动作纠正量。
39.本发明实施例中，所述策略网络模块包括：门控循环单元与第一线性层；所述门控循环单元的输入为局部电网信息，输出为局部电网信息的特征；第一线性层根据局部电网信息的特征输出初始动作，则根据允许的动作范围对所述初始动作进行裁剪，获得最终输出的动作。
40.本发明实施例中，所述动作纠正子网络模块包括：第二线性层与第三线性层；第二线性层的输入为策略网络模块输出的动作，输出动作特征；第三线性层的输入为动作特征与局部电网信息的特征的相加结果，输出第一动作纠正量。
41.本发明实施例中，动作是指无功功率调节动作。
42.本发明实施例中，局部电网信息主要包括：智能体所在区域(该区域是指配电网的局部拓扑，或者配电网拓扑的一个子图)内所有结点的无功功率、有功功率、电压幅值、电压相位等信息。
43.步骤2、对所述包含多个智能体的配电网电压控制模型进行集中式训练。
44.本发明实施例中，在集中式训练过程中引入安全层，所述安全层负责根据全局电网信息对输入的动作进行纠正，输出安全动作。具体来说：所述安全层包括：配电网电压预测模块与一阶危险动作近似模块。
45.(1)配电网电压预测模块。
46.所述配电网电压预测模块，负责根据根据全局电网信息和输入的动作预测下一时间步所有母线结点的电压值，称为预测出的电压值。
47.本发明实施例中，全局电网信息主要包括：配电网所有结点的无功功率、有功功率、电压幅值、电压相位等信息。
48.本发明实施例中，所述配电网电压预测模块需要预先进行训练；通过与仿真环境交互，每一个时间步的交互会产生(o,a,v)三元组，其中，v是在全局电网信息o下采取动作a后下一时间步所有母线结点的实际电压值；收集交互产生的所有三元组组成电压预测网络的训练集；通过训练集中的全局电网信息o与采取动作a输入至配电网电压预测模块，利用配电网电压预测模块预测出的电压值与训练集中的实际电压值的差异构建损失函数，通过损失函数训练配电网电压预测模块。
49.(2)一阶危险动作近似模块。
50.所述一阶危险动作近似模块，用于根据预测出的电压值是否在安全范围，判断输入的动作是否为危险动作；如果电压值不在安全范围，则认定输入的动作为危险动作，结合预测出的电压值计算第二动作纠正量；如果电压值在安全范围，则第二动作纠正量为0；结合第二动作纠正量与输入的动作获得安全动作。
51.具体的：所述结合预测出的电压值计算第二动作纠正量包括：获取预测出的电压值关于动作的雅各比矩阵，建立动作关于电压预测值的一阶近似表达式，利用该一阶近似表达式而构建出一个凸优化问题，结合预测出的电压值关于动作的雅各比矩阵，求解该凸优化问题，获得第二动作纠正量。
52.本发明实施例中，集中式训练方法使用常见的连续动作空间上的多智能体强化学习算法(例如maddpg、mappo、matd3算法等)，具体过程如下：(1)基于全局电网信息、所有智能体中的策略网络模块输出的动作与动作纠正子网络模块输出的第一动作纠正量，训练出每一个智能体的集中式动作价值函数，即q值；(2)对于每一个智能体，通过最大化集中式动作价值函数来更新各自的策略网络模块的参数；(3)对于每个智能体，基于策略网络模块输出的动作与安全层输出的安全动作更新动作纠正子网络模块的参数，具体的：通过最小化在q值空间(即动作价值函数值的集合)上策略网络模块输出的动作与纠正后动作的距离，以及最小化纠正后动作和安全动作的欧式距离，更新动作纠正子网络模块的参数；其中，纠正后动作是指将第一动作纠正量与策略网络模块输出的动作相加获得的动作。
53.本发明实施例中，对于每一个智能体反复迭代以上三步直至策略网络模块和动作纠正子网络模块的参数收敛；即每一次迭代均包含以上(1)～(3)三个步骤，其中的(1)～(2)即为常见的连续动作空间上的多智能体强化学习算法的基本流程。
54.步骤3、训练完毕后，每一智能体将训练后的策略网络模块输出的动作与动作纠正子网络模块输出的第一动作纠正量相加，生成纠正后的动作并执行。
55.本发明实施例提供的上述方案，能够在大部分场景下自动调节光伏逆变器的无功功率并维持电压在安全范围内。相较于传统的电压控制方法，本发明能够大大减少计算负担，且基于神经网络的策略能够进行快速推理，能够实时响应电网调度中的各种情况。除此之外，与现有的用于电压控制任务的多智能体强化学习方案相比，加入了自主纠正危险动作的机制，能有效减少电压越限情况，同时可以仅依赖于局部电网信息进行决策，能够很好
的满足分布式部署地需求。因此，本发明可以便携地部署到局部电压控制设备中，应用场景广泛，为电网调度向智能化方向的发展提供了有力的技术支持，同时也能促进分布式可再生能源在电网发电端的普及。
56.为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。
57.一、发明目的以及实现发明目的所涉及的各个部分。
58.1、发明目的。
59.针对上述现有技术的不足，本发明提出一种基于安全层的多智能体安全强化学习电压控制框架，能够有效地弥补现有方案的不足，即智能体仅依赖于局部信息进行分布式控制的同时也能尽可能地对潜在危险的动作进行纠正。利用这一框架，可以有效降低配电网电压调度过程中电压的越限率。除此之外，本发明的框架基于深度神经网络而实现，并且完全是数据驱动的，无需获取电网的一些先验知识，如电网的拓扑结构、详细地设备参数等。因此，相比现有技术，本发明具有更广泛的适用性和更高的鲁棒性，能够有效地提升分布式可在生能源高渗透下的多智能体安全强化学习方案在电压控制任务中的实际应用效果，具体的，可以高效地根据当前区域的局部电网信息调节光伏逆变器的无功功率，并对可能产生电压越界的危险策略(即当前的光伏逆变器无功功率值可能导致下一时间步某些电压越界)进行纠正，使得最终的策略尽可能保证电网中的所有母线尽可能维持在安全电压范围内，从而更好地适应实际电网调度要求。
60.2、安全层。
61.本发明实施例中，安全层主要用于集中式训练阶段，在完毕训练后可直接移除。安全层主要包括：配电网电压预测模块与一阶危险动作近似模。
62.(1)配电网电压预测模块。
63.针对配电网电压预测模块，本发明可采用一个残差网络模块对输入的全局电网信息o和给定的动作a预测下一时间步电网所有母线结点的电压预测值。该残差网络模块由一个线性输入层、两个残差块和一个线性输出层构成。
64.本发明实施例中，采用随机均匀采样策略与仿真环境交互，每一个时间步的交互会产生(o,a,v)三元组，其中v是在电网信息o下采取动作a后电网下一时间步所有母线结点的实际电压值。收集交互产生的所有三元组组成电压预测网络的训练集。损失函数可以为电压预测网络输出值与下一时间步电网实际电压值的均方误差。
65.(2)一阶危险动作近似模块。
66.一阶危险动作近似模块旨在利用电压预测模块得到下一时间步电压预测值的一阶近似表达式，从而将危险动作纠正问题转化为二次规划(qp)问题。本发明通过对配电网电压预测模块使用反向传播算法获得在第t+1个时间步(即下一时间步)时每个母线电压预测向量关于在第t个时间步时所有智能体动作向量a
t
的雅各比矩阵如果电压预测模块电压预测值值超过了电压的安全范围，就认为当前采取的动作a
t
是危险的，则通过qp求解器求解下式的二次规划问题获得将危险动作纠正为安全动作的微小动作纠正量δa
t
。
67.[0068][0069]
其中，τ1与τ2为设定的两个阈值，且τ1＞τ2，示例性的，可以设置：τ1＝1.05，τ2＝0.95。
[0070]
本发明实施例中，微小动作纠正量δa
t
是一个向量，其中的每一项均对应于一个智能体的第二动作纠正量。
[0071]
3、智能体。
[0072]
本发明实施例中，所有智能体的结构相同，均包括：策略网络模块与动作纠正子网络模块。
[0073]
(1)策略网络模块。
[0074]
每个智能体i都拥有一个策略网络模块πi，本发明使用策略网络模块πi中的门控循环单元(gated recurrent unit，gru)提取局部电网信息oi的特征，然后将提取到的特征输入一层线性层得到初始动作，最后根据允许的动作范围对初始动作进行裁剪得到动作在训练时，将动作作为高斯分布中的平均值，策略网络模块最终输出的动作从该高斯分布中采样；在部署执行时则直接将每个智能体策略网络模块裁剪得到动作作为当前状态下所采取的动作
[0075]
(2)动作纠正子网络模块。
[0076]
动作纠正子网络模块接在策略网络模块之后，对策略网络模块给出的动作进行微小的纠正，以减少策略网络模块输出动作导致电压越限的可能性。该模块与策略网络模块共享对局部电网信息oi的特征，同时使用一层线性层提取策略网络模块输出的动作的特征，动作特征与局部电网信息oi的特征维度相同。将动作的特征和局部电网信息oi的特征相加后输入一层线性层，提取出二者的共同表征，最后经过一层线性层得到对动作的纠正量δai，将δai与相加得到纠正后的动作ai。
[0077]
二、集中式训练分散式执行的框架。
[0078]
本发明实施例中，采用集中式训练分散式执行的框架训练每个智能体。在集中式训练过程，主要包括如下步骤：
[0079]
(1)基于全局电网信息o和所有智能体的联合动作a(所有智能体策略网络模块输出的联合动作加上动作纠正子网络模块输出的动作纠正量δa＝(δa1，δa2，...，δan))训练出对于每一智能体的集中式动作价值函数，其中第i个智能体的集中式动作价值函数记为
[0080]
(2)对于第i个智能体，通过最大化第i个智能体动作价值函数来更新第i个智能体策略网络模块中的网络参数，此时动作纠正子网络模块的网络参数不更新，此部分中策略网络模块损失函数表示为：具体的：此部分中使用的动作均为纠正后的动作，电网信息均为全局电网信息，损失函数右侧的表示仅用
于更新第i智能体策略网络πi的参数，即梯度信息通过ai来传播从而更新πi的参数，而其他动作则被冻结住即梯度信息不通过这些动作来进行传递。
[0081]
(3)向安全层(由配电网电压预测模块和一阶危险动作近似模块构成)中输入全局电网信息o和所有智能体的联合动作a得到第i个智能体的动作纠正量通过最小化在q值空间上的原始动作(即第i个智能体中策略网络模块输出的动作)和纠正后动作的距离以及最小化纠正后动作ai和安全层给出的安全动作的欧式距离来更新第i个智能体的动作纠正子网络模块中的网络参数，此时策略网络模块的网络参数不更新，此部分中动作纠正子网络模块损失函数表示为：络参数不更新，此部分中动作纠正子网络模块损失函数表示为：其中，d为距离函数，表示计算动作与纠正后动作ai的q值空间距离，的q值空间距离，表示动作的q值(动作价值函数的值)，表示当纠正后的动作a的q值(动作价值函数的值)；α为设定的比例系数；||.||2为二范数，表示计算纠正后动作ai和安全动作的欧式距离。反复迭代以上过程直至策略网络模块和动作纠正子网络模块的参数收敛。
[0082]
在执行时，仅需将训练后的策略网络模块和动作纠正子网络模块部署在光伏逆变器上，其可以仅依赖于所在区域的局部电网信息来进行实时响应，采取安全的无功功率调节动作，具体的：先通过训练后的策略网络模块输出动作，再通过训练后的动作纠正子网络模块输出第一动作纠正量，并与策略网络模块输出动作相加，获得的纠正后的动作即为安全的无功功率调节动作。
[0083]
图2展示了集中式训练分散式执行架构的原理，上半部分所涉及的安全层，及安全层的处理过程仅应用于集中式训练过程中，r在多智能体强化学习算法中指奖励(reward)，是在每个时间步，智能体的动作施加到环境中后，环境会反馈的一个奖励信号，算法会根据奖励信号来调整智能体的策略；在本发明实施例中，每个时间步的奖励信号r是由电网整体电能损耗和所有结点的电压越限惩罚两部分组成，多智能体强化学习算法(也即前文介绍的三步迭代过程的前两步)会根据奖励信号来调整智能体的策略。
[0084]
图3展示了策略网络模块和动作纠正子网络模块及其与环境交互示意图，其中，左侧部分展示了策略网络模块和动作纠正子网络模块及其与环境(配电网)交互流程，n表示智能体数目，o为所有智能体观测到的局部电网信息形成的向量，δa为所有智能体中动作纠正子网络模块输出的第一动作纠正量组成的向量，a为所有智能体的纠正后动作组成的动作向量，右侧部分展示了策略网络模块和动作纠正子网络模块的原理，右侧策略网络模块中的局部电网信息编码器即为前文所述的门控循环单元，h为局部电网信息的特征，t为表示时间步t，右侧动作纠正子网络模块中的动作编码器即为前文所述第二线性层。
[0085]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0086]
实施例二
[0087]
本发明还提供一种基于多智能体的配电网电压控制系统，其主要用于实现前述实施例提供的方法，如图4所示，该系统主要包括：
[0088]
模型构建单元，用于构建包含多个智能体的配电网电压控制模型，每一智能体包含策略网络模块与动作纠正子网络模块；其中，智能体中的策略网络模块，负责根据局部电网信息输出相应动作，动作纠正子网络模块负责结合局部电网信息与策略网络模块输出的动作计算第一动作纠正量；
[0089]
集中式训练单元，用于对所述包含多个智能体的配电网电压控制模型进行集中式训练，集中式训练过程中引入安全层，所述安全层负责根据全局电网信息对输入的动作进行纠正，输出安全动作；基于全局电网信息、所有智能体中的策略网络模块输出的动作与动作纠正子网络模块输出的第一动作纠正量，训练出每一个智能体的集中式动作价值函数，对于每一个智能体，通过最大化集中式动作价值函数来更新策略网络模块的参数，再基于策略网络模块输出的动作与安全层输出的安全动作更新动作纠正子网络模块的参数，通过反复迭代直至每一个智能体策略网络模块和动作纠正子网络模块的参数收敛，完成集中式训练过程。
[0090]
训练后的智能体构成的分散式执行单元，用于在训练完毕后，每一智能体根据训练后的策略网络模块与动作纠正子网络模块输出的动作与第一动作纠正量，生成纠正后的动作并执行；其中，动作是指无功功率调节动作。
[0091]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
[0092]
实施例三
[0093]
本发明还提供一种处理设备，如图5所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。
[0094]
进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。
[0095]
本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：
[0096]
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；
[0097]
输出设备可以为显示终端；
[0098]
存储器可以为随机存取存储器(random access memory，ram)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。
[0099]
实施例四
[0100]
本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。
[0101]
本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是u盘、移动硬盘、只读存储器(read-only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0102]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

技术特征：
1.一种基于多智能体的配电网电压控制方法，其特征在于，包括：构建包含多个智能体的配电网电压控制模型，每一智能体包含策略网络模块与动作纠正子网络模块；其中，智能体中的策略网络模块，负责根据局部电网信息输出相应动作，动作纠正子网络模块负责结合局部电网信息与策略网络模块输出的动作计算第一动作纠正量；对所述包含多个智能体的配电网电压控制模型进行集中式训练，集中式训练过程中引入安全层，所述安全层负责根据全局电网信息对输入的动作进行纠正，输出安全动作；基于全局电网信息、所有智能体中的策略网络模块输出的动作与动作纠正子网络模块输出的第一动作纠正量，训练出每一个智能体的集中式动作价值函数，对于每一个智能体，通过最大化集中式动作价值函数来更新策略网络模块的参数，再基于策略网络模块输出的动作与安全层输出的安全动作更新动作纠正子网络模块的参数，通过反复迭代直至每一个智能体策略网络模块和动作纠正子网络模块的参数收敛，完成集中式训练过程；训练完毕后，每一智能体根据训练后的策略网络模块与动作纠正子网络模块输出的动作与第一动作纠正量，生成纠正后的动作并执行；其中，动作是指无功功率调节动作。2.根据权利要求1所述的一种基于多智能体的配电网电压控制方法，其特征在于，所述安全层包括：配电网电压预测模块与一阶危险动作近似模块；其中：配电网电压预测模块，负责根据根据全局电网信息和输入的动作预测下一时间步所有母线结点的电压值，称为预测出的电压值；一阶危险动作近似模块，用于根据预测出的电压值是否在安全范围，判断输入的动作是否为危险动作；如果电压值不在安全范围，则认定输入的动作为危险动作，结合预测出的电压值计算第二动作纠正量；如果电压值在安全范围，则第二动作纠正量为0；结合第二动作纠正量与输入的动作获得安全动作。3.根据权利要求2所述的一种基于多智能体的配电网电压控制方法，其特征在于，所述配电网电压预测模块需要预先进行训练；通过与仿真环境交互，每一个时间步的交互会产生(o,a,v)三元组，其中，v是在全局电网信息o下采取动作a后下一时间步所有母线结点的实际电压值；收集交互产生的所有三元组组成电压预测网络的训练集；通过训练集中的全局电网信息o与采取动作a输入至配电网电压预测模块，利用配电网电压预测模块预测出的电压值与训练集中的实际电压值的差异构建损失函数，通过损失函数训练配电网电压预测模块。4.根据权利要求2所述的一种基于多智能体的配电网电压控制方法，其特征在于，所述结合预测出的电压值计算第二动作纠正量包括：获取预测出的电压值关于动作的雅各比矩阵，建立动作关于电压预测值的一阶近似表达式，利用该一阶近似表达式而构建出一个凸优化问题，结合预测出的电压值关于动作的雅各比矩阵，求解该凸优化问题，获得第二动作纠正量。5.根据权利要求1所述的一种基于多智能体的配电网电压控制方法，其特征在于，所述策略网络模块包括：门控循环单元与第一线性层；所述门控循环单元的输入为局部电网信息，输出为局部电网信息的特征；第一线性层根据局部电网信息的特征输出初始动作，则根据允许的动作范围对所述初
始动作进行裁剪，获得最终输出的动作。6.根据权利要求5所述的一种基于多智能体的配电网电压控制方法，其特征在于，所述动作纠正子网络模块包括：第二线性层与第三线性层；第二线性层的输入为策略网络模块输出的动作，输出动作特征；第三线性层的输入为动作特征与局部电网信息的特征的相加结果，输出第一动作纠正量。7.根据权利要求1所述的一种基于多智能体的配电网电压控制方法，其特征在于，所述基于策略网络模块输出的动作与安全层输出的安全动作更新动作纠正子网络模块的参数包括：通过最小化在q值空间上策略网络模块输出的动作与纠正后动作的距离，以及最小化纠正后动作和安全动作的欧式距离，更新动作纠正子网络模块的参数；其中，所述q值空间为动作价值函数值的集合，纠正后动作是指将第一动作纠正量与策略网络模块输出的动作相加获得的动作。8.一种基于多智能体的配电网电压控制系统，其特征在于，用于实现权利要求1～7任一项所述的方法，该系统包括：模型构建单元，用于构建包含多个智能体的配电网电压控制模型，每一智能体包含策略网络模块与动作纠正子网络模块；其中，智能体中的策略网络模块，负责根据局部电网信息输出相应动作，动作纠正子网络模块负责结合局部电网信息与策略网络模块输出的动作计算第一动作纠正量；集中式训练单元，用于对所述包含多个智能体的配电网电压控制模型进行集中式训练，集中式训练过程中引入安全层，所述安全层负责根据全局电网信息对输入的动作进行纠正，输出安全动作；基于全局电网信息、所有智能体中的策略网络模块输出的动作与动作纠正子网络模块输出的第一动作纠正量，训练出每一个智能体的集中式动作价值函数，对于每一个智能体，通过最大化集中式动作价值函数来更新策略网络模块的参数，再基于策略网络模块输出的动作与安全层输出的安全动作更新动作纠正子网络模块的参数，通过反复迭代直至每一个智能体策略网络模块和动作纠正子网络模块的参数收敛，完成集中式训练过程；训练后的智能体构成的分散式执行单元，用于在训练完毕后，每一智能体根据训练后的策略网络模块与动作纠正子网络模块输出的动作与第一动作纠正量，生成纠正后的动作并执行；其中，动作是指无功功率调节动作。9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～7任一项所述的方法。10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～7任一项所述的方法。

技术总结
本发明公开了一种基于多智能体的配电网电压控制方法、系统、设备及介质，能够在大部分场景下自动调节光伏逆变器的无功功率并维持电压在安全范围内。相较于传统方案，本发明能够大大减少计算负担，且基于神经网络的策略能够进行快速推理，能够实时响应电网调度中的各种情况。同时与现有的用于电压控制任务的多智能体强化学习方案相比，加入了自主纠正危险动作的机制，能有效减少电压越限情况的方式，同时可以仅依赖于局部电网信息进行决策，能够很好的满足分布式部署地需求。因此，本发明可以便携地部署到局部电压控制设备中，应用场景广泛，为电网调度向智能化方向的发展提供了有力的技术支持，同时也能促进分布式可再生能源在电网发电端的普及。电网发电端的普及。电网发电端的普及。

技术研发人员：李厚强周文罡施余峰冯鸣啸汪敏瑞
受保护的技术使用者：中国科学技术大学
技术研发日：2023.05.26
技术公布日：2023/8/6

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于多智能体的配电网电压控制方法、系统、设备及介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于多智能体的配电网电压控制方法、系统、设备及介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表