一种面向多智能体路径规划环境的深度强化学习方法

未命名 07-20 阅读：202 评论：0

1.本发明涉及多智能体的路径规划问题，具体涉及多智能体深度强化学习路径规划和智能体的探索不充分和奖励值分配不合理的问题。

背景技术：

2.路径规划是一种在机器人、自动驾驶车辆、虚拟现实、仿真系统等领域中广泛应用的技术。它的主要目标是在给定的环境中找到一条从起点到终点的最优路径，以达到特定的任务需求，如避开障碍物、避免碰撞等。为了更好地满足实际需求，路径规划的研究也在不断推进。近年来，随着人工智能技术的不断发展，深度学习、强化学习等技术也逐渐被引入到路径规划领域，大大提高了路径规划的效率和准确性。利用强化学习“探索与利用”的特点，在面对复杂环境的路径规划时比起传统方法能够更迅速得到不错的结果。另外，多智能体强化学习算法的应用场景更加符合现实世界中许多路径规划场景的特点，如在无人机群的路径规划中，需要考虑各个智能体之间的相互作用和协同，多智能体可以对无人机进行协同控制以达到整体最优解。
3.深度强化学习是深度学习与强化学习的结合体，能充分利用深度学习的特性，处理更加复杂的问题。在传统的强化学习方法中，处理环境信息通常需要手工设计特征向量。但是，深度强化学习算法具备深度学习的强大的环境感知能力，如卷积和全连接层，能够直接处理高维的环境观测信息，并提取其中的特征。
4.目前对于多智能体环境下的路径规划研究非常少，还有很多奖励分配不合理、难收敛、智能体之间关系复杂等问题需要进一步研究来解决。

技术实现要素：

5.本发明的目的在于解决上述问题，提供了一种面向多智能体路径规划的深度强化学习方法，解决了路径规划环境中，由于环境奖励稀疏，智能体难以收敛或收敛到局部最优解的问题。
6.为了实现上述目的，本发明采用如下技术方案：
7.提出了一种面向多智能体路径规划环境的深度强化学习方法，包括以下步骤：
8.步骤1：借助pybullet开发包构建一个四旋翼无人机的三维路径规划仿真系统；
9.步骤2：完成基于非全局好奇心网络和注意力模块的深度强化学习算法，对每个智能体进行初始化；
10.步骤3：根据路径规划任务目标构造环境奖励函数，根据由仿真环境抽象出的规则，设置需要达到的目标；
11.步骤4：设置最大迭代轮次及其他参数；
12.步骤5：根据pybullet开发包获取仿真环境中的环境观测信息和同队智能体之间的通讯信息，对状态信息进行处理，选取要执行的动作，并获取各智能体的好奇心奖励值，将其输入到注意力网络中进一步处理，获得最终奖励值；
13.步骤6：更细评价网络和策略网络的参数；
14.步骤7：获取新的环境观测信息，获取经验回放四元组并将其存放入回放经验缓冲区中；
15.步骤8：反复执行步骤5-7，更新多智能体强化学习算法中的神经网络，直至迭代次数达到最大迭代次数，实现仿真环境中路径规划任务。
16.进一步地，所述步骤1包括：
17.在pybullet仿真环境中定义个智能体，每个智能体除在环境中初始位置不同外完全相同。环境中包含:一组局部观测、一组动作和一组状态s和状态转移函数，对于每个智能体,得到的局部观测。
18.进一步地，所述步骤3包括：
19.需要达到的目标是：在无人机没有坠毁的情况下，躲避所有障碍成功到达目标位置。
20.进一步地，所述步骤4包括：
21.其中的注意力模块作用于非全局好奇心模块，用来控制每个智能体好奇心值对达成整体目标的重要程度。
22.根据本发明的面向多智能体路径规划的深度强化学习方法的一个实施例，仿真模块进一步配置为：
23.定义个智能体，每个智能体除在环境中初始位置不同外完全相同。环境中包含:一组局部观测、一组动作和一组状态s和状态转移函数，对于每个智能体,得到的局部观测。
24.根据本发明的面向多智能体路径规划的深度强化学习方法的一个实施例，注意力模块进一步配置为：
25.注意力模块作用于好奇心模块，对好奇心模块所产生的好奇心奖励值进行处理，用于提高好奇心奖励值对整体训练收敛的作用。
26.根据本发明的面向多智能体路径规划的深度强化学习方法的一个实施例，非全局好奇心模块进一步配置为：
27.每个智能体根据其局部观测计算探索度，从而生成好奇心奖励。
28.根据本发明的面向多智能体路径规划的深度强化学习方法的一个实施例，奖励函数构造模块进一步配置为：
29.需要达到的目标是：任一智能体在没有坠毁的情况下，成功躲避各种障碍物，成功到达目标点的位置。
30.本发明对比现有技术有如下优势：
31.1）本发明采用的非全局好奇心模块，解决了复杂环境下智能体路径规划存在单一化路径的问题，提高了智能体探索水平，高效优化了多智能体博弈策略；
32.2）本发明提出了注意力模块作用于非全局好奇心模块，根据全局环境观测对单个智能体获取的好奇心奖励利用注意力进行进一步优化，提高收敛的稳定性；
33.3）本发明针对合作的多智能体，实现了多智能体在复杂障碍环境下的路径规划。
附图说明
34.图1是本发明的总体流程图；
35.图2是本发明所采用的仿真环境的整体示意图；
36.图3是本发明中提出的多智能体强化学习算法的过程框架图；
37.图4示出算法在该仿真环境下路径规划结果图（俯视图）。
具体实施方式
38.为了使本发明的目的、技术方案及优点更加清楚明白，通过附图和下述实施例，对本发明进行进一步详细说明，其中，附图中相同的标记代表相同或相似的组件。然而，以下所描述的具体实施例仅仅用于解释本发明，并非用来限制本发明所涵盖的范围。
39.参照图1、图2和图3，本发明实施例的方法按照以下步骤操作：
40.步骤1：使用ros对四旋翼无人机进行建模。建立一个适当的坐标系来描述无人机在空间中的运动，通常使用惯性坐标系和无人机本身的坐标系；描述无人机在三个方向上的运动（纵向、横向和垂直），根据无人机状态调整四个马达的动力输出和力矩；根据空气动力学，采用旋转矩阵或四元数来描述无人机的旋转状态；编写ros程序对上述对四旋翼无人机描述进行仿真；将四旋翼无人机导入到环境中，在无人机周围均匀设置40条雷达射线，用于识别周围环境是否为目标物体，并在环境中导入一些柱体等物体的模型，随机生成固定数量在环境中，用作障碍物；导入与无人机数量相同的球体模型作为目标点，随机分布在障碍物后方。
41.步骤2：完成非全局好奇心网络和注意力模块的设计，将其引入深度强化学习算法；根据四旋翼无人机智能体的状态空间和动作空间的维度（每个智能体的观测空间维度为40，动作空间维度为3），调整算法网络的输入输出维度，完成改进的深度强化学习算法；使用该算法为智能体初始化各自的网络；根据策略，得到智能体动作空间中选取动作的概率，并通过与仿真环境交互，获得奖励:。
42.步骤3：设计环境的奖励函数：当四旋翼无人机距障碍物较近时，将会给予负奖励：，,其中，为无人机与障碍物之间的距离，为障碍物的影响范围；当四旋翼无人机因与障碍物碰撞或过度调整姿态被摧毁时，将会给予负奖励：；当智能体成功达到目标点位时，将会给予正奖励：；另外根据非全局好奇心网络的输出，可获得奖励：；因此总奖励为：。
43.步骤4：设置最大轮次为1000，经验回放缓冲区大小为，软更新参数，设置为256。
44.步骤5：算法采用actor-critic框架的形式，其中包括演员(actor)网络和评论家(critic)网络。演员网络负责生成无人机的动作并与环境交互，而评论家网络则负责评估状态和动作的表现，并指导策略函数生成下一阶段的动作；这两个网络都采用双网络结构，包括目标网络和估计网络；根据每个智能体在该时刻的观测信息，经actor网络的处理得到执行的动作，与环境进行交互，计算各自的好奇心奖励值，将所有智能体的好奇心奖励值输入到注意力网络中，对奖励进行加权处理，输出各个智能体最终得到的好奇心奖励值；将好奇心奖励值与环境的奖励相加，得到每个智能体在该步的最终奖励。
45.另外，该非全局好奇心奖励模块中的“非全局”性体现在：单个智能体在计算好奇心奖励时并没有将其他所有智能体当作环境的一部分进行计算，而是根据智能体之间的距离选取对自身有影响的智能体状态信息作为环境信息。
46.其中，计算好奇心奖励值的过程如下：
47.首先将当前状态、当前动作以及下一个真实状态都输入到好奇心模块中。好奇心模块中包含四个小模块；两个特征提取网络模块用于提取状态的特征；一个执行模块（forward model）用于预测在状态下执行得到的；一个反转模块用于通过和估计。好奇心奖励由和通过相似度计算得出。
48.另外，注意力网络对好奇心奖励的处理过程如下：
49.首先将每个智能体的好奇心奖励序列x:[]输入到注意力网络当中，经过神经网络处理，学习不同智能体的好奇心奖励的重要程度；具体来说，采用一个注意力变量来表示查询变量中被选择的项索引位置；在给定和x下，选择第个输入信息的概率为：
[0050][0051][0052][0053]
其中，称为注意力分布，为注意力打分函数，可以采用下式来计算：
[0054][0055]
步骤6: 各个网络的具体更新过程如下：
[0056]
critic的两个网络根据进行更新：
[0057][0058]
其中，为采样数量，为在函数的参数值确定的情况下、状态-动作对为时，智能体到回合结束能获得期望回报；表示如下：
[0059][0060]
其中为第轮得到的奖励值，为折扣因子，用于平衡未来回报与当前回报的平衡。为actor网络输出的动作值。
[0061]
actor网络的参数根据critic网络对动作的评价进行梯度上升更新：
[0062][0063]
其中除了上面介绍过的参数外，这里的函数为最大化期望函数，即为函数在参数确定时的梯度，等同于策略函数。
[0064]
步骤7:将上述步骤中的四元组存入经验回放缓冲区当中；经验回放的过程如下：
[0065]
从经验回放缓冲池中取一个学习序列：
[0066][0067]
计算时序差分误差(td_error)的值为:
[0068][0069]
随机梯度为：
[0070][0071]
梯度更新公式为：
[0072][0073]
在该算法中，采用了重要性采样的经验回放策略；将每条经验回放的概率依照时序差分误差进行降序处理，时序差分误差的值越大，被抽样的概率越大。
[0074]
步骤8：按照5-7的步骤，持续迭代到设置的最大迭代次数。
[0075]
参考图4：
[0076]
该图为三维仿真环境在二维平面的投射，图中蓝色方形表示障碍物的位置，红色圆形表示目标点的位置，三条不规则的线表示三个四旋翼无人机的路径规划路线。
[0077]
尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
[0078]
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

技术特征：
1.一种面向多智能体路径规划环境的深度强化学习方法和系统，其特征在于，包括以下步骤：步骤1：借助pybullet开发包构建一个四旋翼无人机的三维路径规划仿真系统；步骤2：完成基于非全局好奇心网络和注意力模块的深度强化学习算法，对每个智能体进行初始化;步骤3：根据路径规划任务目标构造环境奖励函数，根据由仿真环境抽象出的规则，设置需要达到的目标;步骤4：设置最大迭代轮次及其他参数；步骤5：根据pybullet开发包获取仿真环境中的环境观测信息和同队智能体之间的通讯信息，对状态信息进行处理，选取要执行的动作，并获取各智能体的好奇心奖励值，将其输入到注意力网络中进一步处理，获得最终奖励值;步骤6：更细评价网络和策略网络的参数；步骤7：获取新的环境观测信息，获取经验回放四元组并将其存放入回放经验缓冲区中；步骤8：反复执行步骤5-7，更新多智能体强化学习算法中的神经网络，直至迭代次数达到最大迭代次数，实现仿真环境中路径规划任务。2.根据权利要求1所述的四旋翼无人机的三维路径规划仿真系统，其特征在于，采用ros软件根据四旋翼无人机属性进行建模，在pybullet仿真环境中加入该四旋翼无人机智能体，每个智能体除初始位置外完全相同;定义障碍物形态为柱形或风车型；定义目标单位为球形且位于障碍物后方。3.根据权利要求1所述的非全局好奇心网络，其特征在于，非全局性体现在单个智能体在计算好奇心奖励时并没有将其他所有智能体当作环境的一部分进行计算，而是根据智能体之间的距离选取对自身有影响的智能体状态信息作为环境状态信息;首先将当前状态、当前动作以及下一个真实状态都输入到好奇心模块中;好奇心模块中包含四个小模块;两个特征提取网络模块用于提取状态的特征；一个执行模块（forward model）用于预测在状态下执行得到的；一个反转模块用于通过和估计;好奇心奖励由和通过相似度计算得出。4.根据权利要求1所述的注意力模块，其特征在于，首先将每个智能体的好奇心奖励序列x:[]输入到注意力网络当中，经过神经网络处理，学习不同智能体的好奇心奖励的重要程度;具体来说，采用一个注意力变量来表示查询变量中被选择的项索引位置;在给定和x下，选择第个输入信息的概率为：个输入信息的概率为：；其中，称为注意力分布，为注意力打分函数。5.根据权利要求1所述的深度强化学习算法，其特征在于，包括演员(actor)网络和评论家(critic)网络;critic的两个网络根据时序差分误差（）进行更新：；其中，为采样数量，为在函数的参数值确定的情况下、状态-动作对为时，智能体到回合结束能获得期望回报;表示如下：
；其中,为第轮得到的奖励值，为折扣因子，用于平衡未来回报与当前回报的平衡;为actor网络输出的动作值;actor网络的参数根据critic网络对动作的评价进行梯度上升更新：；其中,除了上面介绍过的参数外，这里的函数为最大化期望函数，即为函数在参数确定时的梯度，等同于策略函数。

技术总结
本发明涉及路径规划技术领域，提出了一种面向多智能体路径规划的深度强化学习算法和系统，所述方法和系统包括：四旋翼无人机的建模及路径规划仿真系统的搭建；搭建深度强化学习基础网络，对基本参数进行初始化设置。搭建非全局好奇心网络，用于提高智能体的探索能力和水平。搭建注意力网络，加速和稳定智能体训练过程,增强智能体之间的协作水平。本发明提供了一种面向多智能体路径规划的深度强化学习算法，将好奇心机制和注意力机制结合起来，建立了新的智能体奖励分配机制，对智能体地探索和协作进行平衡，有效地提升了多智能体路径规划地稳定性和规划水平。规划地稳定性和规划水平。规划地稳定性和规划水平。

技术研发人员：陈志华王子涵李然张国栋梁磊陈凯
受保护的技术使用者：华东理工大学
技术研发日：2023.02.28
技术公布日：2023/7/19

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种节能型全热回收风冷热泵空调机组的制作方法 下一篇：一种基于MTRmRNA的m6A甲基化修饰评估反复自然流产风险的方法及其应用与流程

一种面向多智能体路径规划环境的深度强化学习方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种面向多智能体路径规划环境的深度强化学习方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表