多智能体强化学习通信方法、终端设备及存储介质

未命名 07-22 阅读：109 评论：0

1.本发明公开了一种多智能体强化学习通信方法、终端设备及存储介质，属于多智能体强化学习技术领域。

背景技术：

2.多智能体是由多个智能体组成的复杂系统，其中每个智能体具有感知、交互和自主决策能力，根据智能体的关系(竞争/合作)可以分为竞争型、合作型以及混合型多智能体系统。强化学习是一种通过试错学习机制进行决策优化的机器学习方法，具有不依赖于任何先验知识和外部环境模型的优点。近年来，多智能体强化学习技术飞速发展，并在自动驾驶汽车、计算机游戏场景、机器人群和传感器网络等现实领域有了深入的应用。
3.目前，多智能体强化学习通信算法通常只考虑多个智能体在完全合作场景下的通信。但是，在现实中，智能体之间的行为通常是混合动机的，既包含合作行为也包含竞争行为。在这些混合动机的场景中，不同的智能体想要优化的目标不同，这些有不同目标智能体之间的互动存在博弈。现有技术中仅考虑多个智能体在完全合作场景下的通信，不考虑多个智能体之间的博弈，会导致决策的演化陷入较差的均衡。

技术实现要素：

4.本技术的目的在于，提供一种多智能体强化学习通信方法、终端设备及存储介质，以解决现有技术中仅考虑多个智能体在完全合作场景下的通信，不考虑多个智能体之间的博弈，会导致决策出现偏差的技术问题。
5.本发明的第一方面提供了一种多智能体强化学习通信方法，包括：
6.步骤1、根据环境建模智能体模型，智能体包括信号发送者和信号接收者，并设定所述智能体模型的超参数；
7.步骤2、获取所述智能体在环境中交互产生的轨迹数据；
8.步骤3、根据所述轨迹数据，更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络，并根据信号梯度和拓展服从约束，更新所述信号发送者的信号网络；
9.步骤4、调整所述智能体的超参数，并重复步骤2-3，选取多组超参数组中表现最优的所述智能体模型。
10.优选的，根据信号梯度和拓展服从约束，采用优化方法计算更新所述信号发送者的信号网络，具体包括：
11.当所述信号发送者的信号策略满足所述拓展服从约束时，所述信号网络的更新梯度为信号梯度；
12.当所述信号发送者的信号策略不满足所述拓展服从约束时，所述信号网络的更新梯度为所述信号梯度与所述拓展服从约束对所述信号网络的参数的梯度；
13.梯度计算完成后采用上升法更新所述信号发送者的所述信号网络的参数。
14.优选的，所述拓展服从约束中使用的所述信号发送者的信号集合是根据所述信号
接收者的最大化后验收益期望的信号确定。
15.优选的，所述信号网络的梯度的计算是根据所述智能体模型中所述信号发送者发送的信号对所述信号接收者的影响确定；
16.所述信号接收者的影响包括所述信号接收者的动作策略。
17.优选的，根据所述轨迹数据，更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络，具体包括：
18.更新所述信号接收者对应的所述动作策略网络、评价网络和目标评价网络；
19.更新所述信号发送者对应的所述动作策略网络、评价网络、目标评价网络和信号网络；
20.更新所述信号发送者为所述信号接收者维护的评价网络和目标评价网络。
21.优选的，更新所述信号接收者对应的所述动作策略网络、评价网络和目标评价网络，具体包括；
22.根据所述信号接收者的所述轨迹数据，用策略梯度法更新所述信号接收者的动作策略网络；
23.利用所述轨迹数据和所述目标评价网络计算时间差分误差，更新所述评价网络；
24.所述目标评价网络的更新方式为软更新。
25.优选的，所述轨迹数据收集存储在经验回放池中；
26.所述经验回放池包括所述信号接收者的经验回放池和所述信号发送者的经验回放池。
27.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
28.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
29.本发明多智能体强化学习通信方法、终端设备及存储介质具有以下有益效果：
30.(1)本发明是一种多智能体通信系统，用强化学习实现的多智能体在混合动机场景中进行通信的方法，通过将计算经济学信息设计中的服从约束拓展到序列博弈，并显式地考虑信号策略对序列博弈上未来收益期望的影响，使得智能体能在混合动机下的场景中学习产生有效的通信。
31.(2)本发明提出了新模型，用以建模信号发送者和信号接收者的通信过程以及其在环境中的交互过程，这种随机过程为马尔科夫信号博弈。本方法解决了目前将贝叶斯说服拓展到序列决策的研究中不合理的假设。
32.(3)本发明推导了信号发送者在序列决策中的收益期望对于自身发送信号的策略参数的梯度，即信号梯度。
33.(4)本发明在实际学习中，发送者的信号策略的更新目标是自己的收益期望，其梯度的计算为信号梯度的结果，同时要满足拓展服从约束。因此实现一种用强化学习实现的多智能体在混合动机场景中进行通信的方法。
附图说明
34.图1为本发明多智能体强化学习通信方法的步骤示意图。
具体实施方式
35.为使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施方式，对本发明进行进一步的详细说明。应当理解的是，此处所描述的具体实施方式仅用以解释本发明，并不限定本发明的保护范围。
36.本发明实施例中的第一方面提供了一种多智能体强化学习通信方法，具体包括：
37.步骤s1、根据环境建模智能体模型，智能体包括信号发送者和信号接收者，并设定所述智能体模型的超参数；
38.步骤s2、使所述智能体在环境中交互，收集所述智能体的轨迹数据；
39.步骤s3、根据所述轨迹数据，更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络，并根据信号梯度和拓展服从约束，采用优化方法计算更新所述信号发送者的信号网络；
40.步骤s4、调整所述智能体的超参数，并重复步骤2-3，直至每个所述智能体的奖励曲线收敛或者达到指定的最大训练次数，选取多组超参数组中表现最优的所述智能体模型。
41.本发明实施例中，贝叶斯说服中的拓展服从约束是由每种环境状态s下，信号发送者发送信号的概率、信号接收者接收到信号发送者发送的信号并采取动作的概率和期望、信号接收者接收到其他信号发送者发送的信号并采取动作的概率及期望确定的，具体如公式(1)：
[0042][0043]
式中，是给定发信号策略和所有人的联合动作策略的均衡下环境状态s∈s出现的概率；是信号策略，具体为环境状态为s时，信号发送者发送联合信号σ的概率，定义为σj为信号发送者发送给第j个信号接收者的信号，其中η是信号策略的参数；为第j个信号接收者的动作策略，具体为第j个信号接收者接收到信号σj时，采取动作aj的概率，其中θ为动作策略的参数；wj(*)为第j个信号接收者在给定状态s和联合动作a的收益期望；为第j个信号接收者接收到信号σ
′
时采取动作aj的概率。
[0044]
本发明实施例中，根据判断结果，采用对应的更新方式更新信号发送者的信号网络，具体包括：
[0045]
当满足拓展服从约束时，信号网络用以更新的梯度仅为信号梯度，具体计算公式为如公式(2)：
[0046]
[0047]
式中，为信号发送者在状态s∈s时的收益期望，为信号发送者在给定状态s和联合动作a的收益期望，π
θ
(a|，s，σ)为联合策略，定义为其中为信号发送者的动作策略，具体为信号发送者观察到环境状态s和自己发送的联合信号σ时，采取动作ai的概率。
[0048]
当不满足拓展服从约束时，信号网络用以更新的梯度为信号梯度加上拓展服从约束对信号网络参数的梯度，具体如公式(3)：
[0049][0050]
式中，λ为拉格朗日乘子，是预先定义的超参数。梯度计算完后用梯度上升法更新发送者信号网络的参数。
[0051]
本发明实施例中，根据每个智能体的轨迹数据，更新每个智能体对应的动作策略网络、评价网络和目标评价网络，具体包括：
[0052]
根据所述信号接收者的轨迹数据，用策略梯度法更新接收者的动作策略网络，具体如公式(4)：
[0053][0054]
其中为信号接收者在收到信号σj时的收益期望，为优势函数，具体公式为其中为信号接收者评价网络的输出，是信号接收者在估计自己收到σj后采取aj的收益期望；
[0055]
用轨迹数据和目标评价网络计算时间差分误差，更新评价网络。其中时间差分误差具体为其中rj为信号接收者j获得的奖励，和分别是目标评价网络和评价网络的输出。
[0056]
而目标评价网络的更新方式为软更新，更新公式为μ
′
k+1
←
(1-δ)μ
′k+δμk，其中μ和μ
′
分别代表了评价网络的参数和目标评价网络的参数；其中下标表示更新迭代的次数，δ为一个超参数，是目标评价网络更新的幅度；信号发送者的动作策略网络、评价网络、目标评价网络的更新同理。
[0057]
本发明的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。
[0058]
本发明的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。
[0059]
下面，将以更为具体的实施例详述本发明的方法。
[0060]
步骤1、确定混合动机场景下多智能体的目标任务，并根据目标任务创建仿真环境。创建每个智能体之间的通信拓扑，设定环境的状态转移概率函数；设定每个智能体的类型、观测区间和奖励函数，具体的，每个智能体的类型包括信号发送者和信号接收者；确定一个马尔科夫信号博弈。马尔科夫博弈可以用一个九元组表示，九元组为：
[0061][0062]
其中i表示信号发送者的编号，j表示信号接收者的集合，s表示智能体所交互的仿真环境的状态集合，是信号发送者能发送给每个信号接收者的信号集合，具体的，信号发送者和每个信号接收者的信道是私有的，不能被其他智能体观测到，ai表示信号发送者能在仿真环境中采取的动作的集合，表示每个信号接收者能在仿真环境中采取的动作的集合，表示信号发送者的奖励函数，表示信号接收者的奖励函数，t：s
×a→
δ(s)表示仿真环境的状态转移函数。
[0063]
本发明适用的场景是不完全信息序列博弈的通信问题，信息发送者拥有私有的有关决策收益的信息，并因此对信息接收者有信息优势，参与博弈的每个智能体是自利的，只优化自己的收益期望，创建仿真环境需要确认智能体之间的通信拓扑和环境的状态转移概率函数。信息发送者和其在通信拓扑中能通信的每个信息接收者的信息是私有的，其他信息接收者不能观察到信息发送者给当前通信的信息接收者发送的信号。
[0064]
目前，已经有算法将机制设计引入到多智能体算法中，以解决如何合理的分配自己和他人的奖励，但信息设计方面的研究需要进一步解决，目前，经济学中的信息设计在单个信号发送者说服单个信号接收者的场景下研究较为充分，有显示的约束表达式结果，即信号发送者推荐动作的策略为：如果让信号接收者的收益期望相比于不听从建议的收益期望有所上升，那么信号接收者一定会听从建议。信号发送者在这些信号接收者一定会听的建议集合中挑选出对自己收益最好的并推荐，这就实现了信号发送者利用信息优势以提高自己的收益期望。该算法的提出分析了混合动机下的自利智能体之间的通信模型，这种一对一的情景下的算法被命名为贝叶斯说服。
[0065]
目前，贝叶斯说服需要假设智能体的博弈只发生一次，不符合多智能体强化学习算法中智能体之间是序列决策的设定，要将其引入还需要进一步分析。有学者把这个拓展到了序列决策的场景下，并提出了若干模型。但这些模型都无一例外地需要假设信息发送者的信息优势不包括影响状态转移的部分，即状态转移的概率是独立于信号发送者的独有的私有信息的，这个假设并不符合多智能体强化学习中信号发送者的信息优势情况。此外，贝叶斯说服是从演化的均衡结果的角度出发，做了一些合理的假设以简化问题，然而这些假设不符合演化过程的普遍情况，不能指导演化过程中信号发送者的策略更新。比如承诺假设要求发送者在交互开始前就确定自己的信号策略，并告诉接收者这个策略且承诺不再改变，这不符合多智能体交互时需要学习的情况。另一个情况是贝叶斯说服中采用了类似显示原理的分析，认为从结果的角度分析，“发送者发送一个信号然后接收者根据信号采取一个动作”的过程可以不损失一般性地转化为“发送者直接推荐接收者采取一个动作”，然而在多智能体常见的场景中，状态数量是多于动作数量的，如果信号空间选取的是动作空间而非状态空间，则在演化的过程中，信号发送者的传递信息能力会下降。
[0066]
本发明旨在将经济学信息设计中的贝叶斯说服拓展至序列博弈并取消从演化结果分析的假设，将其引入多智能体通信算法，填补智能体在混合动机场景中通信的空白。
[0067]
为多智能体的每个智能体建立模型，并设定模型的超参数；
[0068]
每个智能体的类型包括信号发送者和信号接收者，与单智能体强化学习中的智能
体一样，每个信号接收者维护一个动作策略网络，一个评价网络和一个目标评价网络，以上信号接收者维护的网络用于参与仿真环境的交互和学习，以在环境中获得更高的收益。
[0069]
每个信号发送者维护一个动作策略网络，一个评价网络和目标评价网络，并为每个信号接收者维护一个评价网络和一个目标评价网络，除此之外，还维护一个信号网络，以上信号发送者维护的网络用于估计判断信号接收者在各状态下的收益期望。
[0070]
每个智能体都维护一个私有的经验回放池，用于存储其在仿真环境中交互获得的数据。
[0071]
为每个智能体的模型设定超参数，超参数包括：每个网络的学习率、优化器类型、网络的层数、激活函数的类型、目标评价网络软更新的幅度，还有奖励函数的增幅比例、智能体探索的类型以及具体参数(如为策略网络引入熵的正则项中熵的系数)、拉格朗日函数中拉格朗日变量λ的取值和松弛量∈和批次的容量等。
[0072]
步骤2、多智能体在仿真环境中进行交互，获得轨迹数据，将轨迹数据对应的量存入每个智能体的经验回放池。其中信息接收者存储的轨迹数据对应的量为信息发送者存储的轨迹数据对应的量为(...，s
t
，σ
t
，a
t
，r
t
，...)。
[0073]
智能体们在仿真环境中交流互动的时序流程为：信号发送者智能体观测到环境的状态s∈s后，根据发送信号σj∈∑j给每个信号接收者j∈j。然后所有的智能体从自己的动作集合中选取各自的动作，其中发送者的动作策略是能体从自己的动作集合中选取各自的动作，其中发送者的动作策略是表示发送者在看到环境状态s和自己发送给所有人的信号后选择ai的概率，而接收者j∈j的动作策略是这里信号发送者在做决策时要考虑自己发送的信号，这样可以使得信号发送者具备看到相同状态但发送了不同信号情况下做出适应的能力。类似马尔可夫决策过程中的状态价值函数和状态动作价值函数，马尔可夫信号博弈中也存在发送者可以估计的长远收益期望的量：和其中代表了信号发送者在当前情况下的未来累计回报，并且我们假设在任意一个时刻下，只要在当前的环境状态下智能体们的动作选择了任意一个动作，不管发送者发送的信号是什么，所有人的奖励是一定的，因此
[0074]
本方法中，把贝叶斯说服中的服从约束拓展到了序列决策中，结果为其中是给定发信号策略和所有人的联合动作策略下状态s∈s出现的概率。贝叶斯说服是从演化的均衡结果角度分析的，做了承诺假设并用了类似显示原理的分析，将问题简化了，然而在强化学习序列决策的场景中，需要有更符合演化过程的约束指导发送者的信号策略的更新，本发明拓展的服从约束取消了这些假设。
[0075]
步骤3、利用轨迹数据分别更新每个智能体的接收者和每个智能体的发送者的网
络；
[0076]
步骤3.1：每个信号接收者更新动作策略网络、评价网络和目标评价网络。
[0077]
每个信号接收者的动作策略网络更新梯度为：
[0078][0079]
其中为优势函数；具体的，优势函数的通过以下方式获得：
[0080]
信号接收者从自己的经验回放池中取出一批次的数据，并输入这一批次数据中的σj和aj到第一评价网络中，得到这一批次的并根据和计算出优势函数
[0081]
每个信号接收者的评价网络和目标评价网络更新如下：
[0082]
信号接收者从经验回放池中取出一批数据，并输入这一批次数据中的σj和aj到评价网络和目标评价网络中，分别得到这一批次的和
[0083]
评价网络的损失为评价网络的更新用此损失对网络的参数的梯度来更新。
[0084]
目标评价网络的更新为μ
′
k+1
←
(1-δ)μ
′k+δμk，其中μ和μ
′
分别代表了评价网络的参数和目标评价网络的参数；其中下标表示更新迭代的次数，δ为一个超参数，是第一目标评价网络更新的幅度。
[0085]
步骤3.2：每个信号发送者更新自己的动作策略网络、评价网络、目标评价网络和信号网络，以及为每个信号接收者维护的评价网络和目标评价网络。更新方法与步骤3.1相同。
[0086]
信号发送者从经验回放池中取出一批次的数据，并选取σj′
，判断这一批次的数据是否满足拓展服从约束：
[0087][0088]
其中wj(s，aj)用信号发送者为第j个信号接收者维护的评价网络输出∈是超参数松弛量，如果满足拓展服从约束，则发送者的信号网络的更新的梯度为
[0089]
否则，信号网络更新的梯度为：
[0090][0091]
其中的计算采用的是信号梯度的结果，信号梯度的结果通过如下方式得到：
[0092][0093]
计算出信号网络的梯度后，采用梯度上升法进行网络的更新。
[0094]
具体的，信号发送者的信号策略的优化目标是自己的收益期望，但是区别于已有
的给奖励机制，信号发送者对信号接收者的影响不仅发生在信号接收者策略更新阶段，还发生在序列决策的场景中的生成轨迹阶段。也就是说，假定信号接收者的策略固定，信号发送者发信号的策略会影响信号发送者自己的收益期望，因此信号发送者需要将这一点显式地考虑进自己的更新方式中。由于收益期望要考虑未来的收益，求梯度会有序列上耦合迭代的影响，因此信号梯度的推导类似经典的单智能体策略梯度算法。本方法推导了发送者在序列决策的收益期望对于自己发信号策略参数的梯度，并命名为信号梯度。
[0095]
本发明是一种用强化学习实现的多智能体在混合动机场景中进行通信的算法，其是第二个创新点和第三个创新点的结合，被命名为满足拓展服从约束的信号梯度。在实际学习中，发送者的信号策略的更新目标是自己的收益期望，其梯度的计算为信号梯度的结果，同时要满足拓展服从约束。因此，更新的方案为这个带约束优化问题的拉格朗日函数，梯度为其中第一项的计算用的是信号梯度的结果，第二项的σj′
的取值是随机从∑j中采样出来的。上式中的期望的估计是由轨迹生成数据的一个批次中求的平均。
[0096]
步骤4、调整所述智能体的超参数，并重复步骤2-3，直至每个所述智能体的奖励曲线收敛或者达到指定的最大训练次数，选取多组超参数组中表现最优的所述智能体模型。
[0097]
步骤4.1：重复步骤3，直至每个智能体的奖励曲线收敛或达到预设的最大训练次数，测试多智能体的表现并进行量化评价；
[0098]
步骤4.2调整步骤2中的超参数，并重复步骤3至步骤4.1，直至使得步骤4.1中的量化评价达到预设的标准，获取对应的超参数。
[0099]
本发明的设定中限制了环境中只有单个信号发送者，若存在多个信息发送者且不考虑发送者发送信息之间的博弈，则每个发送者的更新公式和只有单个发送者的情况相同。
[0100]
本发明通过拉格朗日乘数法，将带有拓展服从约束的优化问题转化成了无约束优化问题以迭代求解。若考虑为发送者信号网络的优化目标添加正则项则可解释为发送者在优化自己收益时，也提高别人后验收益期望。
[0101]
发明是一种用强化学习实现的多智能体在混合动机场景中进行通信的算法，通过将计算经济学信息设计中的服从约束拓展到序列博弈，并显式地考虑信号策略对序列博弈上未来收益期望的影响，使得智能体能在混合动机下的场景中学习产生有效的通信。本发明可应用于自动控制领域，包括人机交互系统、自动驾驶系统、导航系统和推荐系统等，其中每个智能体对应本发明应用领域的目标对象。
[0102]
以上实施例仅表达了本发明的一种实施方式，其描述较为具体和详细，但不能因此而理解为对本发明专利的范围约束。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应该以所附权利要求为准。

技术特征：
1.一种多智能体强化学习通信方法，其特征在于，包括：步骤1、根据环境建模智能体模型，智能体包括信号发送者和信号接收者，并设定所述智能体模型的超参数；步骤2、获取所述智能体在环境中交互产生的轨迹数据；步骤3、根据所述轨迹数据，更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络，并根据信号梯度和拓展服从约束，更新所述信号发送者的信号网络；步骤4、调整所述智能体的超参数，并重复步骤2-3，选取多组超参数组中表现最优的所述智能体模型。2.根据权利要求1所述的多智能体强化学习通信方法，其特征在于，根据信号梯度和拓展服从约束，更新所述信号发送者的信号网络，具体包括：当所述信号发送者的信号策略满足所述拓展服从约束时，所述信号网络的更新梯度为信号梯度；当所述信号发送者的信号策略不满足所述拓展服从约束时，所述信号网络的更新梯度是根据所述信号梯度与所述拓展服从约束对所述信号网络的参数的梯度确定的；梯度计算完成后采用上升法更新所述信号发送者的所述信号网络的参数。3.根据权利要求2所述的多智能体强化学习通信方法，其特征在于，所述拓展服从约束中使用的所述信号发送者的信号集合是根据所述信号接收者的最大化后验收益期望的信号确定。4.根据权利要求2所述的多智能体强化学习通信方法，其特征在于，所述信号网络的梯度的计算是根据所述智能体模型中所述信号发送者发送的信号对所述信号接收者的影响确定；所述信号接收者的影响包括所述信号接收者的动作策略。5.根据权利要求1所述的多智能体强化学习通信方法，其特征在于，根据所述轨迹数据，更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络，具体包括：更新所述信号接收者对应的所述动作策略网络、评价网络和目标评价网络；更新所述信号发送者对应的所述动作策略网络、评价网络、目标评价网络和信号网络；更新所述信号发送者为所述信号接收者维护的评价网络和目标评价网络。6.根据权利要求5所述的多智能体强化学习通信方法，其特征在于，更新所述信号接收者对应的所述动作策略网络、评价网络和目标评价网络，具体包括；根据所述信号接收者的所述轨迹数据，用策略梯度法更新所述信号接收者的动作策略网络；利用所述轨迹数据和所述目标评价网络计算时间差分误差，更新所述评价网络；所述目标评价网络的更新方式为软更新。7.根据权利要求1所述的多智能体强化学习通信方法，其特征在于，所述轨迹数据收集存储在经验回放池中；所述经验回放池包括所述信号接收者的经验回放池和所述信号发送者的经验回放池。8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

技术总结
本发明公开了一种多智能体强化学习通信方法、终端设备及存储介质，包括：步骤1、根据环境建模智能体模型，智能体包括信号发送者和信号接收者，并设定所述智能体模型的超参数；步骤2、获取所述智能体在环境中交互产生的轨迹数据；步骤3、根据所述轨迹数据，更新每个所述智能体对应的动作策略网络、评价网络和目标评价网络，并根据信号梯度和拓展服从约束，更新所述信号发送者的信号网络；步骤4、调整所述智能体的超参数，并重复步骤2-3，选取多组超参数组中表现最优的所述智能体模型。本发明考虑了多个智能体之间的博弈，使智能体能在混合动机下的场景中学习产生有效的通信。下的场景中学习产生有效的通信。下的场景中学习产生有效的通信。

技术研发人员：林越李文浩查宏远王趵翔
受保护的技术使用者：香港中文大学（深圳）
技术研发日：2023.04.06
技术公布日：2023/7/20

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

多智能体强化学习通信方法、终端设备及存储介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

多智能体强化学习通信方法、终端设备及存储介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表