多智能体系统分块策略评估方法及装置

未命名 07-27 阅读：149 评论：0

1.本发明属于多智能体系统强化学习技术领域，尤其涉及多智能体系统分块策略评估方法及装置。

背景技术：

2.策略评估一直是多智能体强化学习中长期存在的挑战，阻碍多智能体评估算法发展的原因主要有两个。首先，当考虑大量智能体存在时，联合策略空间的大小呈指数爆炸；其次，智能体潜在的博弈动态中可能会表现出循环行为，难以给出适当的评估结果。在这样的前提下，传统的多智能体评估算法如elo、trueskill等无法给出能够体现策略循环现象的解。ying wen等人将纳什均衡的概念被引入到多智能体的评估之中，虽然可以在一定程度上体现策略间的循环，但由于多智能体博弈往往会收敛于极限环，使得其求解方法有着很高的计算复杂度。
3.2019年提出的α-rank方法采用了马尔可夫康利链来强调博弈动力学中循环的存在，并使用了种群的概念和复制器动力学作为策略转移的依据，通过计算策略间状态转移矩阵的平稳分布来得到联合策略的排名。但是α-rank作为一种可以很好的描述策略间循环转移的评估方法，也存在着一定的局限性。为了得到联合策略之间的状态转移矩阵，需要先行计算出包含每一种策略组合收益的收益矩阵，随着多智能体系统的复杂化，将策略与环境交互得到收益矩阵在有限时间上是不可实现的。
4.为了减少策略与环境交互的次数，近年来提出了许多种针对α-rank的改进。α
α-rank使用了一种双随机优化机制来减少计算策略排名所需要的计算资源，首先，在策略间状态转移矩阵计算平稳分布的过程中引入了随机梯度下降方法来得到一个关于稳态分布的近似解，其次，采用了随机抽样的方法将博弈分解为多个子博弈，并使用oracle机制对子博弈中智能体的策略进行扩充，以此来减小每一次所需策略和环境所需交互的次数。但α
α-rank方法只适用于智能体数量较少的场合，在智能体数量较多的场景中仍然无法解决高复杂的问题。opteval方法基于多智能体博弈后收益矩阵的低秩属性，通过对随机选择采样的不完整收益矩阵使用矩阵补全算法实现了对完整收益矩阵的还原，并以此得到了策略排名的近似解，但受到矩阵补全算法的限制，该评估方法只适用于两智能体博弈的场景中。
5.david biagioni等人构建了一系列由多个智能楼宇构成的电网环境，但在该类场景中多智能体系统仅在策略演化的邻域得到了应用，有多种方法可以给出电网环境下的智能体控制策略，但缺少在策略评估邻域的方法，目前缺少一种可以在电网中智能体数量较多且每个智能体具有多个可用个体策略情况下，给出收敛最优联合策略的技术。因此针对规模较大、智能体数量较多的多智能体系统，需要设计合适算法对联合策略空间进行分块，以实现在较短时间内对所有联合策略进行评估，得到收敛最优策略。

技术实现要素：

6.本技术实施例的目的是提供一种多智能体系统分块策略评估方法及装置，以解决
相关技术中存在的大规模多智能体策略评估中计算难度大、处理时间长的技术问题。
7.根据本技术实施例的第一方面，提供一种多智能体系统分块策略评估方法，包括：
8.s1：建立多智能体系统，所述多智能体系统包含多个智能体，每个智能体具有若干种策略；
9.s2：对每个智能体，将其所具有的若干个体策略组合成联合策略，利用所有智能体的所述联合策略构建联合策略空间；
10.s3：在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵；
11.s4：从所述联合策略空间中随机选择一个联合策略作为迭代起点；
12.s5：在所述联合策略空间中，遍历所选联合策略的邻域以找到所述邻域中的更优响应；
13.s6：使用所述更优响应更新当前选择的联合策略，并根据所述智能体相关性矩阵建立局部联合策略空间；
14.s7：计算所述局部联合策略空间内所有联合策略的奖励，构建局部奖励矩阵；
15.s8：根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵；
16.s9：基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间；
17.s10：根据所述联合策略状态转移矩阵，计算局部联合策略空间中联合策略的问题排名，使用排名最高的联合策略更新当前联合策略选择；
18.s11：遍历所选联合策略的邻域，判断是否存在更优响应，若存在则返回步骤s6继续迭代，若不存在则结束迭代，将当前所选联合策略设置为收敛最优联合策略。
19.进一步地，在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵，包括：
20.在所述联合策略空间中均匀采样若干测试联合策略，将各测试联合策略与测试环境交互，得到各个测试联合策略的奖励值；
21.根据所述各个测试联合策略的奖励值，为每个智能体建立关于测试联合策略选择的第一奖励序列；
22.将智能体两两组合，计算两个智能体的第一奖励序列之间的第一皮尔逊相关性系数，并依据所述第一皮尔逊相关性系数建立智能体相关性矩阵。
23.进一步地，所选联合策略的邻域为所选联合策略的所有相邻联合策略的集合，所选联合策略的相邻联合策略为与所选联合策略相比只有一个智能体的策略发生变化的联合策略。
24.进一步地，对于所选联合策略的更优响应，策略发生变化的智能体在更优响应中的奖励值高于在所选联合策略中的奖励值。
25.进一步地，使用所述更优响应更新当前选择的联合策略，并根据所述智能体相关性矩阵建立局部联合策略空间，包括：
26.确定更优响应与当前选择的联合策略相比改变了个体策略的智能体，将该智能体作为局部评估的中心智能体；
27.将更优响应作为新的当前选择联合策略；
28.根据智能体相关性矩阵，确定与中心智能体的相关性大于相关性阈值的强相关智能体；
29.根据中心智能体及其强相关智能体的所有策略和其他智能体在当前选择联合策略中的策略，建立局部联合策略空间。
30.进一步地，根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵，包括：
31.使用新的联合策略奖励值为每个智能体建立关于联合策略选择的第二奖励序列；
32.将智能体两两组合，根据所述第二奖励序列计算智能体奖励序列之间的第二皮尔逊相关性系数；
33.根据所述第一皮尔逊相关性系数和第二皮尔逊相关性系数更新智能体相关性矩阵。
34.进一步地，基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间，包括：
35.根据局部奖励矩阵，得到每两个相邻联合策略之间的个体策略发生变化的智能体对应的奖励差；
36.基于智能体的奖励差，计算联合策略之间的状态转移概率，从而建立联合策略状态转移矩阵；
37.获取联合策略状态转移矩阵中各个策略向外转移的次数，若策略的向外转移次数大于阈值，则判定其为劣势个体策略；
38.将所有包含劣势个体策略的联合策略从所述联合策略空间中移除，从而更新联合策略空间。
39.根据本技术实施例的第二方面，提供一种多智能体系统分块策略评估装置，包括：
40.建立模块，用于建立多智能体系统，所述多智能体系统包含多个智能体，每个智能体具有若干种策略；
41.第一构建模块，用于对每个智能体，将其所具有的若干个体策略组合成联合策略，利用所有智能体的所述联合策略构建联合策略空间；
42.采样模块，用于在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵；
43.选择模块，用于从所述联合策略空间中随机选择一个联合策略作为迭代起点；
44.遍历模块，用于在所述联合策略空间中，遍历所选联合策略的邻域以找到所述邻域中的更优响应；
45.第一更新模块，用于使用所述更优响应更新当前选择的联合策略，并根据所述智能体相关性矩阵建立局部联合策略空间；
46.第二构建模块，用于计算所述局部联合策略空间内所有联合策略的奖励，构建局部奖励矩阵；
47.第二更新模块，用于根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵；
48.第一计算模块，用于基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间；
49.第二计算模块，用于根据所述联合策略状态转移矩阵，计算局部联合策略空间中联合策略的问题排名，使用排名最高的联合策略更新当前联合策略选择；
50.迭代模块，用于遍历所选联合策略的邻域，判断是否存在更优响应，若存在则返回第一更新模块继续迭代，若不存在则结束迭代，将当前所选联合策略，作为收敛最优联合策略。
51.根据本技术实施例的第三方面，提供一种电子设备，包括：
52.一个或多个处理器；
53.存储器，用于存储一个或多个程序；
54.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。
55.根据本技术实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。
56.本技术的实施例提供的技术方案可以包括以下有益效果：
57.由上述实施例可知，本技术采用皮尔逊相关性系数，将联合策略空间中采样得到的奖励只作为输入，计算了智能体之间的相关性，构建了智能体相关性矩阵，并基于相关性矩阵实现了对大规模评估问题的分块评估，减少了评估所需的计算量和时间；采用基于局部评估的结果，根据联合策略向其他策略转移的次数的统计结果，判断劣势个体策略并将其移除，实现了动态更新待评估策略空间，在迭代过程中减少待评估策略数量。具体地，在由智能楼宇构成的电网环境中，本技术可以通过选择合适的智能楼宇用电、发电策略，在保证各个智能楼宇收益相对均衡的前提下，优化太阳能发电系统在电网中的使用，降低系统中各个节点的电压波动，提升电网的稳定性。
58.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
59.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
60.图1是根据一示例性实施例示出的一种多智能体系统分块策略评估方法的流程图。
61.图2是根据一示例性实施例示出的传统方法与本发明方法对比概要图。
62.图3是根据一示例性实施例示出的一种多智能体系统分块策略评估装置的框图。
63.图4是根据一示例性实施例示出的一种电子设备的示意图。
具体实施方式
64.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。
65.在本技术使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数
形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
66.应当理解，尽管在本技术可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
67.图1是根据一示例性实施例示出的一种多智能体系统分块策略评估方法的流程图，如图1所示，该方法可以包括以下步骤：
68.s1：建立多智能体系统，所述多智能体系统包含多个智能体，每个智能体具有若干种策略；
69.s2：对每个智能体，将其所具有的若干个体策略组合成联合策略，利用所有智能体的所述联合策略构建联合策略空间；
70.s3：在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵；
71.s4：从所述联合策略空间中随机选择一个联合策略作为迭代起点；
72.s5：在所述联合策略空间中，遍历所选联合策略的邻域以找到所述邻域中的更优响应；
73.s6：使用所述更优响应更新当前选择的联合策略，并根据所述智能体相关性矩阵建立局部联合策略空间；
74.s7：计算所述局部联合策略空间内所有联合策略的奖励，构建局部奖励矩阵；
75.s8：根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵；
76.s9：基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间；
77.s10：根据所述联合策略状态转移矩阵，计算局部联合策略空间中联合策略的问题排名，使用排名最高的联合策略更新当前联合策略选择；
78.s11：遍历所选联合策略的邻域，判断是否存在更优响应，若存在则返回步骤s6继续迭代，若不存在则结束迭代，将当前所选联合策略，作为收敛最优联合策略。
79.由上述实施例可知，本技术在大规模多智能体环境下利用采样的联合策略的奖励值构建智能体相关性矩阵，根据相关性矩阵对多智能体系统实施分块局部评估，并依据局部评估的结果动态调整联合策略空间的大小，在多次迭代后最终收敛于最优联合策略。通过评估得到的上述最优联合策略保证了各个智能体都处在一个奖励均衡状态，任意一个智能体都不会因为个体策略的改变而获得奖励上的提升。
80.具体地，本技术采用皮尔逊相关性系数，将联合策略空间中采样得到的奖励只作为输入，计算了智能体之间的相关性，构建了智能体相关性矩阵，并基于相关性矩阵实现了对大规模评估问题的分块评估，减少了评估所需的计算量和时间；采用基于局部评估的结果，根据联合策略向其他策略转移的次数的统计结果，判断劣势个体策略并将其移除，实现了动态更新待评估策略空间，在迭代过程中减少待评估策略数量。
81.以下结合电网环境中对智能楼宇的调度策略进行评估示例进行详细说明。
82.在s1的具体实施中：建立多智能体系统，所述多智能体系统包含多个智能体，每个智能体具有若干种策略；
83.具体地，建立将包含n个智能体的多智能体系统，将所述系统表示为s＝{1,2,...,n}，其中每一个智能体i拥有k种不同的策略(即每个智能体所含策略的数量是相同的)。
84.在电网环境中，将每一幢智能楼宇(其中包含空调与通风模块，太阳能发电模块以及储能模块)视作是一个智能体，多个智能楼宇即形成了多智能体系统模型，每个智能体具有若干个体策略，所述策略指的是控制智能体内部各个模块的神经网络，对于不同的策略，神经网络的结构相同参数不同，对于不同的智能体，不需要采用相同的神经网络结构，所用神经网络包括输入层、若干隐藏层和输出层。
85.在s2的具体实施中：对每个智能体，将其所具有的若干个体策略组合成联合策略，利用所有智能体的所述联合策略构建联合策略空间；
86.具体地，在环境中，以智能体各自奖励值为目标导向，每个智能体选取合适策略构建联合策略多智能体系统的联合策略空间可以表示为多智能体系统的联合策略空间可以表示为
87.在一实施例中，智能楼宇的奖励由室内舒适度奖励(r
comfort
)、系统电力消耗惩罚(r
consume
)和智能体所在节点的电压超限惩罚(r
v_vio
)三方面构成，可以表示为r＝r
comfort
+r
consume
+r
v_vio
。将每一个智能楼宇智能体所选择的个体组合，就构成了一个联合策略；联合策略空间是所有由可能的个体策略组合构成的联合策略的集合，若每个智能体都有k种个体策略，则联合策略空间中将会有kn种联合策略。
88.在s3的具体实施中：在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵，该步骤可以包括以下子步骤：
89.s31：在所述联合策略空间中均匀采样若干测试联合策略，将各测试联合策略与测试环境交互，得到各个测试联合策略的奖励值；
90.具体地，在联合策略空间中基于智能体的个体策略选择采样a种测试联合策略，为了保证采样的均匀，要求每一种个体策略都有在采样的测试联合策略中出现且次数需保持一致，采样出的测试联合策略记作将采样得到的策略放入测试环境(电网环境)中进行交互，每一种测试联合策略都可以得到与之相对应的奖励，所有测试联合策略的奖励的总和可表示为测试联合策略si的奖励可表示为其中，智能体k在si中的表示为
91.在一实施例中，基于s2中的定义，在联合策略空间中均匀为智能楼宇选择a种测试联合策略，其中所有智能楼宇的每个个体策略都在这a种测试联合策略出现相同的次数(均匀的定义)；将所有测试联合策略分别代入到电网环境中，经过仿真计算，可以得到在每个联合策略中各个智能楼宇的奖励。
92.s32：根据所述各个测试联合策略的奖励值，为每个智能体建立关于测试联合策略选择的第一奖励序列；
93.具体地，根据被采样的而是联合策略的奖励，可以得到由每一个智能体在不同测
试联合策略中所获得的奖励所构成的奖励序列r1,r2…
,rn，例如对智能体1的奖励序列为，例如对智能体1的奖励序列为
94.在一实施例中，将某一智能楼宇在所有测试联合策略中所获得的奖励进行组合，就构成了该智能楼宇的第一奖励序列。
95.s33:将智能体两两组合，计算两个智能体的第一奖励序列之间的第一皮尔逊相关性系数，并依据所述第一皮尔逊相关性系数建立智能体相关性矩阵；
96.具体地，将智能体两两组合进行配对，对于每一组智能体，将被选中的两个智能体的奖励序列作为输入，计算其皮尔逊相关性系数，例如对于智能体x和智能体y，其皮尔逊相关性系数计算公式为：
[0097][0098]
其中，和分别表示两个奖励序列对应的均值。
[0099]
将计算得到的第一皮尔逊相关性系数作为智能体之间的相关性数据，基于上述两两组合后计算的皮尔逊相关性系数值，初始化智能体相关性矩阵cn×n，矩阵的大小为n
×
n，矩阵中每一个元素值为其对应的两个智能体之间的第一皮尔逊相关性系数。
[0100]
在一实施例中，智能楼宇a和智能楼宇b之间的相关性由两者对应的第一奖励序列ra,rb计算得到，计算方法如公式(1)，按照上述方法计算所有智能楼宇两两之间的相关性，以此建立相关性矩阵，矩阵中x行y列的元素代表了智能楼宇x和智能楼宇y之间的第一皮尔逊相关性系数。
[0101]
在s4的具体实施中：从所述联合策略空间中随机选择一个联合策略作为迭代起点；
[0102]
具体地，每一个智能体都从其个体策略中随机选择一个个体策略组合得到一个随机的联合策略将该联合策略作为评估过程中迭代的起始策略。
[0103]
在一实施例中，每个智能楼宇随机选择一个个体策略，组合构成一个联合策略，将其作为评估过程中迭代的起始策略。
[0104]
在s5的具体实施中：在所述联合策略空间中，遍历所选联合策略的邻域以找到所述邻域中的更优响应；
[0105]
具体地，在联合策略空间中，对于联合策略sa＝{s1,s2,...,si,...,sn}定义只有一个智能体i的个体策略发变化的新联合策略sb＝{s1,s2,...,s
′i,...,sn}为联合策略sa的相邻联合策略。将联合策略s
p
的所有相邻联合策略作为它的邻域，计算邻域内每一种联合策略的奖励。定义当智能体i的奖励有时，联合策略sb是联合策略sa的一个更优响应。基于上述定义，找到联合策略s
p
的邻域中的更优响应s
better
。更优响应可表示为其中s-i
表示除了智能体i之外的其他智能体策略组合，表示由(s
*i
,s-i
)构成的联合策略下智能体i所获得的奖励。
[0106]
在s6的具体实施中：使用所述更优响应更新当前选择的联合策略，并根据所述智
能体相关性矩阵建立局部联合策略空间，该步骤可以包括以下子步骤：
[0107]
s61：确定更优响应与当前选择的联合策略相比改变了个体策略的智能体，将该智能体作为局部评估的中心智能体；
[0108]
具体地，比较更优响应和原联合策略s
p
之间智能体个体策略选择的差异，找到个体策略发生变化的智能体m，定义该智能体为后续局部评估的中心智能体。
[0109]
在一实施例中，s
better
和s
p
之间只有智能楼宇m的个体策略发生了变化，且在s
better
中智能楼宇m的奖励要高于s
p
中智能楼宇m的奖励，将智能楼宇m作为后续局部评估的中心智能体。
[0110]
s62：将更优响应作为新的当前选择联合策略；
[0111]
具体地，将上述步骤中找到地联合策略s
p
的更优响应s
better
，将其作为新的被选择联合策略s
p
。
[0112]
s63：根据智能体相关性矩阵，确定与中心智能体的相关性大于相关性阈值的强相关智能体；
[0113]
具体地，找到智能体相关性矩阵c中与中心智能体m相对应的第m行，在行中找到大于相关性阈值的元素(相关性阈值为相关性矩阵中所有元素的均值)，这些元素所对应在矩阵中列坐标就是中心智能体m的强相关性智能体。
[0114]
s64：根据中心智能体及其强相关智能体的所有策略和其他智能体在当前选择联合策略中的策略，建立局部联合策略空间；
[0115]
具体地，将中心智能体及其强相关智能体记作智能体集合m，建立局部联合策略空间sm，在该空间内位于集合m中的智能体可以任意选择全部的个体策略，位于集合m外的智能体的个体策略则被固定为联合策略s
p
中对应的个体策略。
[0116]
在s7的具体实施中：计算所述局部联合策略空间内所有联合策略的奖励，构建局部奖励矩阵；
[0117]
具体地，将局部联合策略空间sm中的每一种联合策略与测试环境交互(即放入到电网环境中进行交互)，得到对应的奖励值，并建立对应的局部奖励矩阵。
[0118]
在s8的具体实施中：根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵，该步骤可以包括以下子步骤：
[0119]
s81：使用新的联合策略奖励值为每个智能体建立关于联合策略选择的第二奖励序列；
[0120]
具体地，参照s32，将之前局部联合策略空间中联合策略的奖励值，根据联合策略的不同，处理得到由每一个智能体在不同联合策略中所获得地奖励所构成的第二奖励序列r1′
,r2′
,...,rn′
。
[0121]
在一实施例中，基于各个智能楼宇在局部联合策略空间中的奖励，将全部获得的所有奖励进行组合，就构成了智能楼宇的第二奖励序列。
[0122]
s82：将智能体两两组合，根据所述第二奖励序列计算智能体奖励序列之间的第二皮尔逊相关性系数；
[0123]
具体地，将智能体两两组合进行配对，对于每一组智能体，将被选中的两个智能体在s81中得到的奖励序列作为输入，计算其皮尔逊相关性系数，得到关于两个智能体新的相关性系数
[0124]
在一实施例中，智能楼宇a和智能楼宇b之间的相关性由两者对应的第二奖励序列ra,rb计算得到，按照公式(1)计算所有智能楼宇两两之间的第二皮尔逊相关性系数，
[0125]
s83：根据所述第一皮尔逊相关性系数和第二皮尔逊相关性系数更新智能体相关性矩阵；
[0126]
具体地，新的智能体相关性值为旧相关性值乘以衰减系数再加上新皮尔逊相关性系数乘以更新系数。定义相关性矩阵迭代的衰减系数γ，智能体相关性矩阵中新的元素值由如下公式计算：
[0127][0128]
其中，表示原先的相关性矩阵中的元素值。
[0129]
在s9的具体实施中：基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间，该步骤可以包括以下子步骤：
[0130]
s91：根据局部奖励矩阵，得到每两个相邻联合策略之间的个体策略发生变化的智能体对应的奖励差；
[0131]
具体地，对于两个相邻的联合策略sa和sb，只有一个智能体i的个体策略存在不同，两个联合策略在智能体i上的奖励差计算为基于上述计算方法计算局部联合策略空间中所有相邻策略的奖励差。
[0132]
在一实施例中，假设智能楼宇i在两个相邻的联合策略之间其个体策略发生了变化，δri为该智能楼宇在两个联合策略下的奖励差，计算局部联合策略空间中所有相邻策略的奖励差
[0133]
s92：基于智能体的奖励差，计算联合策略之间的状态转移概率，从而建立联合策略状态转移矩阵；
[0134]
具体地，对于两个相邻的联合策略sa和sb，从sa到sb的状态转移概率由如下公式计算：
[0135][0136]
其中，η＝(∑
l
(|s
l
|-1))-1
，|s
l
|表示智能体l的个体策略数量，α为排名强度，m是表示种群规模的超参数。
[0137]
在建立联合策略状态转移矩阵t的过程中，如果联合策略sa和sb相邻则按照上式计算，如果sa和sb不相邻且不相等则t
a,b
＝0，如果sa和sb相等则t
a,b
＝1-∑bt
a,b
。
[0138]
s93：获取联合策略状态转移矩阵中各个策略向外转移的次数，若策略的向外转移次数大于阈值，则判定其为劣势个体策略；
[0139]
具体地，在联合策略状态转移矩阵中，对于两个相邻的联合策略sa和sb，如果有t
a,b
＞t
b,a
则认为sa和sb之间改变个体策略的智能体i的个体策略存在一次向外转移的情况，统计集合m中所有智能体的个体策略向外转移的次数，当某一个个体策略向外转移的次数大于预先设定的阈值时，判断其为一个劣势个体策略。
[0140]
s94：将所有包含劣势个体策略的联合策略从所述联合策略空间中移除，从而更新
联合策略空间；
[0141]
具体地，在联合策略空间中找到所有包含劣势个体策略的联合策略，将其从空间中移除，得到一个裁剪后的新联合策略空间。
[0142]
在s10的具体实施中：根据所述联合策略状态转移矩阵，计算局部联合策略空间中联合策略问题排名，使用排名最高的联合策略更新当前联合策略选择；
[0143]
具体地，对联合策略状态转移矩阵t使用如下公式计算联合策略排名：
[0144][0145]
其中，表示为输出的策略排名，联合策略对应元素的值越大，联合策略的排名越高。使用排名最高的联合策略更新当前联合策略选择s
p
。
[0146]
在s11的具体实施中：遍历所选联合策略的邻域，判断是否存在更优响应，若存在则返回步骤s6继续迭代，若不存在则结束迭代，将当前所选联合策略，作为收敛最优联合策略。
[0147]
具体地，仿照s5计算联合策略s
p
所有的相邻联合策略的奖励值，判断是否存在更优响应，如果存在更优响应则返回s6继续迭代，如果不存在更优响应则结束迭代，将当前所选的联合策略s
p
作为评估问题的收敛最优联合策略。
[0148]
在一实施例中，计算所有单个智能楼宇策略发生改变后的联合策略的奖励，加入所有智能楼宇都不会因为改变其个体策略而提升奖励，则将当前所选的联合策略s
p
作为该电网环境中的收敛最优联合策略，否则则返回s6继续迭代。
[0149]
在由多个智能楼宇构成的电网环境中，通过上述步骤s1-s11，最终收敛得到的最优联合策略，可以在保证各个智能楼宇收益相对均衡的前提下，优化太阳能发电系统在电网中的使用，降低系统中各个节点的电压波动，提升电网的稳定性。
[0150]
如图2所示，上半部分为本方法的图形化流程描述，下半部分为改进前的原始方法(《omidshafiei s,papadimitriou c,piliouras g,et al.α-rank:multi-agent evaluation by evolution[j].scientific reports,2019,9(1):9937.》)。原始方法的流程如下：建立包含多个智能体每个智能体具有若干种策略的多智能体系统；将每个智能体的个体策略进行排列组合，建立联合策略空间；计算联合策略空间中所有联合策略在测试环境中的奖励，建立联合策略状态转移矩阵；根据联合策略状态转移矩阵，得到联合策略之间的相互转移关系；基于转移关系，计算全局最优收敛联合策略，图2可直观展示本技术相对原始方法的改进之处。
[0151]
与前述的多智能体系统分块策略评估方法的实施例相对应，本技术还提供了多智能体系统分块策略评估装置的实施例。
[0152]
图3是根据一示例性实施例示出的一种多智能体系统分块策略评估装置框图。参照图3，该装置可以包括：
[0153]
建立模块210，用于建立多智能体系统，所述多智能体系统包含多个智能体，每个智能体具有若干种策略；
[0154]
第一构建模块211，用于对每个智能体，将其所具有的若干个体策略组合成联合策略，利用所有智能体的所述联合策略构建联合策略空间；
[0155]
采样模块212，用于在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵；
[0156]
选择模块213，用于从所述联合策略空间中随机选择一个联合策略作为迭代起点；
[0157]
遍历模块214，用于在所述联合策略空间中，遍历所选联合策略的邻域以找到所述邻域中的更优响应；
[0158]
第一更新模块215，用于使用所述更优响应更新当前选择的联合策略，并根据所述智能体相关性矩阵建立局部联合策略空间；
[0159]
第二构建模块216，用于计算所述局部联合策略空间内所有联合策略的奖励，构建局部奖励矩阵；
[0160]
第二更新模块217，用于根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵；
[0161]
第一计算模块218，用于基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间；
[0162]
第二计算模块219，用于根据所述联合策略状态转移矩阵，计算局部联合策略空间中联合策略的问题排名，使用排名最高的联合策略更新当前联合策略选择；
[0163]
迭代模块220，用于遍历所选联合策略的邻域，判断是否存在更优响应，若存在则返回第一更新模块继续迭代，若不存在则结束迭代，将当前所选联合策略，作为收敛最优联合策略。
[0164]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0165]
对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本技术方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0166]
相应的，本技术还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的多智能体系统分块策略评估方法。如图4所示，为本发明实施例提供的一种多智能体系统分块策略评估方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。
[0167]
相应的，本技术还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的多智能体系统分块策略评估方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(smart media card，smc)、sd卡、闪存卡(flash card)等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数
据。
[0168]
本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0169]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

技术特征：
1.一种多智能体系统分块策略评估方法，其特征在于，包括：s1：建立多智能体系统，所述多智能体系统包含多个智能体，每个智能体具有若干种策略；s2：对每个智能体，将其所具有的若干个体策略组合成联合策略，利用所有智能体的所述联合策略构建联合策略空间；s3：在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵；s4：从所述联合策略空间中随机选择一个联合策略作为迭代起点；s5：在所述联合策略空间中，遍历所选联合策略的邻域以找到所述邻域中的更优响应；s6：使用所述更优响应更新当前选择的联合策略，并根据所述智能体相关性矩阵建立局部联合策略空间；s7：计算所述局部联合策略空间内所有联合策略的奖励，构建局部奖励矩阵；s8：根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵；s9：基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间；s10：根据所述联合策略状态转移矩阵，计算局部联合策略空间中联合策略的问题排名，使用排名最高的联合策略更新当前联合策略选择；s11：遍历所选联合策略的邻域，判断是否存在更优响应，若存在则返回步骤s6继续迭代，若不存在则结束迭代，将当前所选联合策略设置为收敛最优联合策略。2.根据权利要求1所述的方法，其特征在于，在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵，包括：在所述联合策略空间中均匀采样若干测试联合策略，将各测试联合策略与测试环境交互，得到各个测试联合策略的奖励值；根据所述各个测试联合策略的奖励值，为每个智能体建立关于测试联合策略选择的第一奖励序列；将智能体两两组合，计算两个智能体的第一奖励序列之间的第一皮尔逊相关性系数，并依据所述第一皮尔逊相关性系数建立智能体相关性矩阵。3.根据权利要求1所述的方法，其特征在于，所选联合策略的邻域为所选联合策略的所有相邻联合策略的集合，所选联合策略的相邻联合策略为与所选联合策略相比只有一个智能体的策略发生变化的联合策略。4.根据权利要求1所述的方法，其特征在于，对于所选联合策略的更优响应，策略发生变化的智能体在更优响应中的奖励值高于在所选联合策略中的奖励值。5.根据权利要求1所述的策略评估方法，其特征在于，使用所述更优响应更新当前选择的联合策略，并根据所述智能体相关性矩阵建立局部联合策略空间，包括：确定更优响应与当前选择的联合策略相比改变了个体策略的智能体，将该智能体作为局部评估的中心智能体；将更优响应作为新的当前选择联合策略；根据智能体相关性矩阵，确定与中心智能体的相关性大于相关性阈值的强相关智能
体；根据中心智能体及其强相关智能体的所有策略和其他智能体在当前选择联合策略中的策略，建立局部联合策略空间。6.根据权利要求2所述的策略评估方法，其特征在于，根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵，包括：使用新的联合策略奖励值为每个智能体建立关于联合策略选择的第二奖励序列；将智能体两两组合，根据所述第二奖励序列计算智能体奖励序列之间的第二皮尔逊相关性系数；根据所述第一皮尔逊相关性系数和第二皮尔逊相关性系数更新智能体相关性矩阵。7.根据权利要求1所述的策略评估方法，其特征在于，基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间，包括：根据局部奖励矩阵，得到每两个相邻联合策略之间的个体策略发生变化的智能体对应的奖励差；基于智能体的奖励差，计算联合策略之间的状态转移概率，从而建立联合策略状态转移矩阵；获取联合策略状态转移矩阵中各个策略向外转移的次数，若策略的向外转移次数大于阈值，则判定其为劣势个体策略；将所有包含劣势个体策略的联合策略从所述联合策略空间中移除，从而更新联合策略空间。8.一种多智能体系统分块策略评估装置，其特征在于，包括：建立模块，用于建立多智能体系统，所述多智能体系统包含多个智能体，每个智能体具有若干种策略；第一构建模块，用于对每个智能体，将其所具有的若干个体策略组合成联合策略，利用所有智能体的所述联合策略构建联合策略空间；采样模块，用于在所述联合策略空间中均匀采样若干测试联合策略，得到对应的各智能体奖励值，从而根据各智能体奖励值构建智能体相关性矩阵；选择模块，用于从所述联合策略空间中随机选择一个联合策略作为迭代起点；遍历模块，用于在所述联合策略空间中，遍历所选联合策略的邻域以找到所述邻域中的更优响应；第一更新模块，用于使用所述更优响应更新当前选择的联合策略，并根据所述智能体相关性矩阵建立局部联合策略空间；第二构建模块，用于计算所述局部联合策略空间内所有联合策略的奖励，构建局部奖励矩阵；第二更新模块，用于根据所述局部联合策略空间内所有联合策略的奖励更新智能体相关性矩阵；第一计算模块，用于基于所述局部奖励矩阵，计算联合策略状态转移矩阵，从而确定劣势个体策略并更新联合策略空间；第二计算模块，用于根据所述联合策略状态转移矩阵，计算局部联合策略空间中联合策略的问题排名，使用排名最高的联合策略更新当前联合策略选择；
迭代模块，用于遍历所选联合策略的邻域，判断是否存在更优响应，若存在则返回第一更新模块继续迭代，若不存在则结束迭代，将当前所选联合策略，作为收敛最优联合策略。9.一种电子设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。

技术总结
本发明公开了一种多智能体系统分块策略评估方法及装置，采用皮尔逊相关性系数，将联合策略空间中采样得到的奖励作为输入，计算了智能体之间的相关性，构建了智能体相关性矩阵并实现了对大规模评估问题的分块评估，减少了评估所需的计算量和时间；采用基于局部评估的结果，根据联合策略向其他策略转移的次数的统计结果，判断劣势个体策略并将其移除，实现了动态更新待评估策略空间，在迭代过程中减少待评估策略数量。在由智能楼宇构成的电网环境中，本申请可以通过选择合适的智能楼宇用电、发电策略，在保证各个智能楼宇收益相对均衡的前提下，优化太阳能发电系统在电网中的使用，降低系统中各个节点的电压波动，提升电网的稳定性。定性。定性。

技术研发人员：张森林金诚刘妹琴董山玲郑荣濠
受保护的技术使用者：浙江大学
技术研发日：2023.04.06
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种带防溢功能端子的加工装置的制作方法 下一篇：一种便于排屑的高强度床身的制作方法

多智能体系统分块策略评估方法及装置

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

多智能体系统分块策略评估方法及装置

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表