一种基于深度强化学习的飞行器禁飞区在线规避系统

未命名 07-15 阅读：355 评论：0

1.本发明涉及飞行器轨迹规划与制导技术领域，尤其涉及一种基于深度强化学习的飞行器禁飞区在线规避系统。

背景技术：

2.飞行器轨迹规划与制导系统属于飞行器导航、制导与控制一体化系统中的决策层；其依据飞行器飞行任务，负责生成参考飞行轨迹和参考制导指令，并向飞行器控制系统下达飞行状态控制指令，具有极其重要的地位。随着飞行器的战场作战环境趋于立体化和复杂化，对飞行航路上的探测、拦截等禁飞区域进行有效规避成为飞行器轨迹规划与制导领域的关键问题。传统的离线轨迹规划与在线跟踪制导方法能够对静态、已知的禁飞区进行有效规避；而随着敌方探测、拦截防御系统的灵活性不断提升，在战场环境中出现了许多实时禁飞区域。由于飞行器在执行飞行任务前无法获取到这些禁飞信息，只能在飞行过程中通过探测系统和地面指挥系统获得该信息，因而传统的轨迹规划方法无法实现对于这类禁飞区的规避，需要一套实时性强、灵活性高的飞行器在线轨迹规划系统。
3.智能图搜索算法属于一种智能路径规划算法，其通过节点和节点相连构成的有向图构建图数据结构。图搜索算法中的节点表示地图模型中的位置，边表示位置转移的代价。图搜索算法的基本组成单元是(子节点，父节点，节点代价)三元组。智能图搜索算法采用优先搜索的搜索方式，规划出代价最小的可行路径。智能图搜索算法由于在搜索过程中引入节点代价的概念，使得搜索效率得到较大提升，因此该算法在保证获得最优路径的基础上，大大提升了算法的实时性。
4.深度强化学习是隶属于机器学习的一种人工智能技术。深度强化学习首先需要根据具体任务构建马尔可夫决策模型，其基本组成部分包括状态空间、动作空间、智能体以及奖励函数模型；其中奖励函数模型的作用是引导智能体输出任务期望的动作，因此这部分是设计马尔可夫决策模型的关键。在确定马尔可夫决策模型之后，强化学习算法根据大量离线仿真结果优化智能体参数，进而获得最优智能体。深度强化学习技术的优势在于，其可以通过大量离线仿真确定状态与动作之间的复杂映射关系；此外，由于深度强化学习采用神经网络的方式输出智能体策略，因而其算法实时性强，有利于飞行器实时在线规划。
5.因此，如何提供一种基于深度强化学习的飞行器禁飞区在线规避系统成为了本领域技术人员亟需解决的问题。

技术实现要素：

6.有鉴于上述背景技术，本发明提供了一种基于深度强化学习的飞行器禁飞区在线规避系统；针对当前轨迹规划与制导方法实时性弱，智能自主性较差，无法规避实时探测到的禁飞区域的问题，首先采用基于改进a-star算法的航路点决策技术，决策出能够引导飞行器进行轨迹规划的飞行器航路点；其次采用基于深度强化学习的轨迹优化方法，生成飞行器实际参考轨迹以及倾侧角制导指令。
7.本发明解决技术问题采用如下技术方案：
8.一种基于深度强化学习的飞行器禁飞区在线规避系统，包括飞行器航路点在线决策模块、倾侧角智能决策环境模块以及飞行器轨迹智能生成模块；其中：
9.所述飞行器航路点在线决策模块，根据飞行器实时位置信息、实时态势信息以及禁飞区态势信息，快速生成二维增量式实时地图模型；并通过智能搜索算法，快速实时地生成引导飞行器进行禁飞区规避的航路点；
10.所述倾侧角智能决策环境模块，通过离线仿真的方式，优化飞行器倾侧角决策模型；
11.所述飞行器轨迹智能生成模块，利用飞行器倾侧角决策模型根据上述飞行器实时位置信息、实时态势信息以及禁飞区态势信息输出飞行器实时最优倾侧角，从而生成飞行器最优规避轨迹。
12.进一步的，还包括信息获取与环境地图模型转化模块；用于获取飞行器实时位置信息、实时态势信息以及禁飞区态势信息；并且将上述信息转化为能够被路径规划算法处理的环境地图信息，并存放到机载数据库中。
13.进一步的，所述倾侧角智能决策环境模块包括训练环境构建模块、智能体网络构建模块、奖励模型构建模块以及智能体参数优化模块；其中：
14.所述训练环境构建模块，根据飞行器飞行状态以及禁飞区规避任务，构建环境状态、环境动作以及环境动力学模型；
15.所述智能体网络构建模块，构建环境状态与环境动作之间的复杂映射；
16.所述奖励模型构建模块，通过环境动作与训练环境之间的交互结果，生成飞行器决策反馈；
17.所述智能体参数优化模块，根据飞行器决策反馈，对飞行器倾侧角决策模型的模型参数进行优化。
18.进一步的，二维增量式实时地图模型主要包含飞行器实时位置信息、实时态势信息以及禁飞区态势信息；通过对上述信息的实时处理，通过离散化的方式，得到二维增量式实时地图模型，并对该模型进行实时更新维护。
19.进一步的，在二维增量式实时地图模型的基础上，基于改进a-star智能搜索算法，实时生成出一条能够规避禁飞区域的二维飞行轨迹；对上述轨迹进行筛选，通过离散化的方式，在线决策出引导飞行器进行禁飞区规避的航路点。
20.进一步的，改进a-star智能搜索算法的算法流程如下：
21.w1，初始化图模型g，起始点s，目标点t，未遍历节点表open，已遍历节点表close，并将起始点s存入open中；
22.w2，判断open中是否有节点，若没有节点，搜索结束；
23.w3，计算open中的节点代价，并将全部代价进行排列；选取open表中代价最小的节点k，将k移动至close表中；
24.w4，判断k是否为目标点，若是，则输出从起始点到k的最优路径；
25.w5，若k不是目标点，产生k的子节点，若子节点在close表中，将子节点删除；
26.w6，若子节点在open表中，则判断父节点到子节点代价与k到子节点代价之间的大小关系，若k到子节点代价较小，则将子节点的父节点更新为k；
27.w7，若子节点不在close表或open表中，将其添加至open表中，并转到步骤w2。
28.进一步的，飞行器轨迹智能生成模块分为离线交互训练和在线输出两个部分；离线交互训练部分主要是基于深度确定性策略梯度算法，构建强化学习智能体模型训练流程，并通过大量离线仿真交互，优化智能体模型参数；在线输出部分主要是基于飞行器实时位置信息、实时态势信息以及禁飞区态势信息与环境地图模型转化模块和智能决策环境模块，得到智能体状态；采用离线优化好的智能体模型，输出智能体动作信号，进而转化为飞行器倾侧角制导量；通过上述在线输出过程，获取飞行器最优规避轨迹。
29.有益效果：
30.(1)相较于现有的路径规划方法，所述的飞行器航路点决策模块的算法实时性强。本发明中的航路点决策技术采用自适应搜索步长，相较于一般的固定步长搜索方法，本发明所采用的技术能够大大缩短路径搜索和航路点决策时间。
31.(2)相较于现有的路径规划方法，所述的飞行器航路点决策模块的决策结果安全性强。由于一般的路径规划算法仅将轨迹长度作为代价，而不考虑轨迹与禁飞区之间的安全距离，这会导致由于精度误差和飞行器动力学特性等因素，飞行器实际轨迹位于禁飞区之内。本发明所采用的航路点决策技术同时将轨迹长度和轨迹的安全距离作为代价，因此航路点规划结果能够与禁飞区之间保持一定的安全距离，进而保证轨迹规划结果的安全性。
32.(3)相较于现有的轨迹优化与制导技术，所述的飞行器轨迹智能生成模块的实时性较强。由于一般的轨迹优化技术采用线性递推和全弹道积分的方式得出飞行器参考轨迹，因此其轨迹计算时间较长，实时性较差。本发明提出的轨迹智能生成技术由于采用深度神经网络输出飞行器倾侧角制导律和参考轨迹，因此算法的计算速度较快，运行效率较高，实时性较强。
33.(4)相较于一般的禁飞区规避算法，所述的飞行器轨迹智能生成模块的智能自主性较强。传统的禁飞区规避算法只能针对离线已知的禁飞区域进行轨迹规划，而对于实时在线探测到的禁飞区域，该方法由于智能自主性较弱而无法对其进行规避。本发明所述的基于深度强化学习的轨迹生成技术，由于采用大量离线任务场景对智能体进行交互训练，因此其能够适应多任务场景，具有较强的智能自主性。
34.(5)相较于一般的轨迹优化技术，所述的飞行器禁飞区在线规避技术的各模块具有轻量化的特点。由于本发明可以对各模块进行参数化处理并保存至机载计算机中，因此模型的计算资源占用率较低，模型轻量化程度较高。
35.经由上述技术方案可知，与现有技术相比，本发明公开提供了一种基于深度强化学习的飞行器禁飞区在线规避方法，针对现有轨迹优化方法的实时性、智能自主性较低，无法规避实时禁飞区域等问题，通过飞行器航路点智能决策技术生成航路点信息，从而降低轨迹优化难度，提升算法的时间效率；此外通过基于深度强化学习的飞行器轨迹智能生成技术，采用离线仿真的方式训练智能体网络参数，并通过智能体与环境实时交互的方式，在线快速生成飞行器制导律以及参考轨迹。
附图说明
36.图1为本发明提供的基于深度强化学习的飞行器禁飞区在线规避系统结构示意
图。
37.图2为本发明提供的信息获取与环境地图模型转化模块示意图。
38.图3为本发明提供的改进a-star算法流程图。
39.图4为本发明提供的基于改进a-star算法的飞行器航路点智能决策技术示意图。
40.图5为本发明提供的基于深度确定性策略梯度算法的飞行器轨迹优化算法流程。
41.图6为本发明提供的基于深度强化学习的飞行器轨迹智能生成技术框架示意图。
具体实施方式
42.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
43.参考图1-6，本发明公开了一种基于深度强化学习的飞行器禁飞区在线规避系统，包括飞行器航路点在线决策模块、倾侧角智能决策环境模块以及飞行器轨迹智能生成模块；其中：
44.所述飞行器航路点在线决策模块，根据飞行器实时位置信息、实时态势信息以及禁飞区态势信息，快速生成二维增量式实时地图模型；并通过智能搜索算法，快速实时地生成引导飞行器进行禁飞区规避的航路点；
45.所述倾侧角智能决策环境模块，通过离线仿真的方式，优化飞行器倾侧角决策模型；
46.所述飞行器轨迹智能生成模块，利用飞行器倾侧角决策模型根据上述飞行器实时位置信息、实时态势信息以及禁飞区态势信息输出飞行器实时最优倾侧角，从而生成飞行器最优规避轨迹。
47.本发明还包括信息获取与环境地图模型转化模块；用于获取飞行器实时位置信息、实时态势信息以及禁飞区态势信息；并且将上述信息转化为能够被路径规划算法处理的环境地图信息，并存放到机载数据库中。
48.所述倾侧角智能决策环境模块包括训练环境构建模块、智能体网络构建模块、奖励模型构建模块以及智能体参数优化模块；其中：所述训练环境构建模块，根据飞行器飞行状态以及禁飞区规避任务，构建环境状态、环境动作以及环境动力学模型；所述智能体网络构建模块，构建环境状态与环境动作之间的复杂映射；智能体网络为多隐藏层神经网络；所述奖励模型构建模块，通过环境动作与训练环境之间的交互结果，生成飞行器决策反馈；所述智能体参数优化模块，根据飞行器决策反馈，对飞行器倾侧角决策模型的模型参数进行优化。
49.倾侧角智能决策环境模块结合上述飞行器飞行状态信息、实时态势信息以及航路点决策信息，构建深度强化学习训练环境，同时利用深度神经网络具有较强的拟合能力的特点，构建环境状态与智能体动作之间的复杂映射关系，即通过神经网络决策飞行器倾侧角控制量；智能体参数优化模块通过数字仿真的方式，根据上述倾侧角决策结果进行飞行仿真推演，并依据仿真推演结果，对智能体神经网络的网络参数进行优化。
50.本实施例中，二维增量式实时地图模型主要包含飞行器实时位置信息、实时态势
信息以及禁飞区态势信息；通过对上述信息的实时处理，通过离散化的方式，得到二维增量式实时地图模型，并对该模型进行实时更新维护。在二维增量式实时地图模型的基础上，基于改进a-star智能搜索算法，实时生成出一条能够规避禁飞区域的二维飞行轨迹；对上述轨迹进行筛选，通过离散化的方式，在线决策出引导飞行器进行禁飞区规避的航路点。
51.本实施例中，改进a-star智能搜索算法的算法流程如下：
52.w1，初始化图模型g，起始点s，目标点t，未遍历节点表open，已遍历节点表close，并将起始点s存入open中；
53.w2，判断open中是否有节点，若没有节点，搜索结束；
54.w3，计算open中的节点代价，并将全部代价进行排列；选取open表中代价最小的节点k，将k移动至close表中；
55.w4，判断k是否为目标点，若是，则输出从起始点到k的最优路径；
56.w5，若k不是目标点，产生k的子节点，若子节点在close表中，将子节点删除；
57.w6，若子节点在open表中，则判断父节点到子节点代价与k到子节点代价之间的大小关系，若k到子节点代价较小，则将子节点的父节点更新为k；
58.w7，若子节点不在close表或open表中，将其添加至open表中，并转到步骤w2。
59.飞行器轨迹智能生成模块分为离线交互训练和在线输出两个部分；离线交互训练部分主要是基于深度确定性策略梯度算法，构建强化学习智能体模型训练流程，并通过大量离线仿真交互，优化智能体模型参数；在线输出部分主要是基于飞行器实时位置信息、实时态势信息以及禁飞区态势信息与环境地图模型转化模块和智能决策环境模块，得到智能体状态；采用离线优化好的智能体模型，输出智能体动作信号，进而转化为飞行器倾侧角制导量；通过上述在线输出过程，获取飞行器最优规避轨迹。
60.飞行器轨迹智能生成模块能够生成禁飞区规避轨迹，并为地面指挥人员提供战场指挥决策。该模块采用上述离线优化的飞行器倾侧角决策模型，根据飞行器飞行过程中的实时飞行状态以及禁飞区态势信息，实时输出飞行器最优倾侧角，通过机载计算机进行数字推演，得到飞行器预估飞行轨迹；地面指挥根据飞行器预估飞行轨迹判断飞行器能否对禁飞区进行规避，从而决策飞行器是否对上述轨迹进行跟踪，并向飞行器发送预警信息。
61.实施例
62.本发明首先信息获取与环境地图模型转化模块采集当前飞行器位置信息以及探测到的禁飞区信息，主要包括飞行器经纬度坐标、飞行速度、飞行高度、飞行器姿态角、禁飞区中心经纬度坐标以及禁飞区半径等信息。将上述信息与地图环境模型相融合，进而生成二维网格模型。
63.其次，通过构建改进a-star算法，并在上述二维网格模型上搜索最优路径。改进a-star算法相较于传统的a-star算法，其优势在于，首先其在禁飞区周围设置安全距离，从而避免轨迹规划结果距离禁飞区过近导致飞行器安全性降低；其次，改进a-star算法采用自适应搜索步长，即当前点距离目标点较远时，算法采用较大搜索步长，当前点在目标点附近时，算法采用较小步长进行精细化搜索。在使用改进a-star算法搜索得到可行路径之后，对搜索结果进行离散化处理，进而得到飞行器航路点决策结果。在获取到航路点决策结果之后，将轨迹规划任务分解为多个子任务，每个子任务的起始点和目标点为两个相邻的航路点。
64.根据上述轨迹规划子任务，构建倾侧角智能决策环境模块，以便于智能体模型的离线训练过程。倾侧角智能决策环境模块主要包括训练环境构建模块、智能体网络构建模块、奖励模型构建模块以及智能体参数优化模块。智能体状态包括飞行器速度、飞行高度、飞行器与禁飞区之间的相对运动状态、飞行器与目标点之间的相对运动状态等信息；智能体状态模型对上述信息进行特征提取，并采用归一化的方式将特征转化为智能体状态。智能体动作神经网络与评价神经网络均为多隐藏层深度神经网络，其输入均为智能体状态；不同的是，动作神经网络输出智能体动作选取策略，而评价神经网络输出对策略的评价。智能体奖励函数模型用于评价智能体的“表现”；当智能体获得的总奖励越大，说明其期望策略越符合决策任务的期望。
65.最后，在上述倾侧角智能决策环境模块的基础上，构建飞行器轨迹智能生成模块。飞行器轨迹智能生成模块分为离线交互训练和在线输出两个部分。离线交互训练部分主要是基于深度确定性策略梯度算法(ddpg)，构建强化学习智能体模型训练流程，并通过大量离线仿真交互，优化智能体模型参数。在线输出部分主要是基于上述信息获取与环境地图模型转化模块和智能决策环境模块，得到智能体状态；采用离线优化好的智能体模型，输出智能体动作信号，进而转化为飞行器倾侧角制导量。通过上述在线输出过程，获取飞行器轨迹。
66.为进一步优化上述技术方案，信息获取与环境地图模型转化模块包括飞行器与禁飞区信息在线获取以及基于栅格法的地图环境建模部分。
67.如图2所示，信息获取部分主要是基于飞行器在线信息探测系统，综合飞行器经纬度坐标、飞行速度、飞行高度、飞行器姿态角、禁飞区中心经纬度坐标以及禁飞区半径等信息。环境地图模型转化部分主要采用栅格法，结合上述信息，建立增量式地图网格模型。
68.其中，栅格法建模是指将导弹的执行任务环境通过大量的网格加以表示，网格分为障碍物网格和可行的自由网格，障碍物又可以细分为地形障碍、敌方拦截与探测威胁等等，都是导弹航路不允许经过的区域；通过将环境中的障碍物和自由空间用栅格表示的方法建立数学模型，为后续航路规划打下基础，建模栅格点首先选取合适大小，将障碍物区域与可行自由空间按照栅格大小分别进行处理，得到离线环境模型。详细过程如下：
69.(1)确定导弹发射点与多个目标的位置以及栅格点大小；
70.(2)根据已知的地形图；
71.(3)按照栅格大小对地图上的图像数据进行处理。
72.为进一步优化上述技术方案，飞行器航路点决策模块主要采用改进a-star算法进行路径搜索，并将搜索结果离散化为飞行器航路点。
73.改进a-star算法的算法结构包括状态空间、动作空间、启发函数以及算法搜索流程四个部分。
74.本发明考虑在传统的状态空间基础上加入合适的安全距离，对不可行区域进行扩展，保证规划后的航路点具有一定的安全裕度，进而为后续的飞行器规避轨迹生成提供便利。图搜索状态空间设置如下：
[0075][0076]
上式中，s表示图搜索算法的状态空间；δx,δy表示节点与禁飞区边界之间的相
对距离；r表示禁飞区半径；dis_safe表示安全距离。
[0077]
本发明采用自适应搜索步长，在路径搜索初始段采用较大步长，进而减小路径搜索时间；而在路径搜索末段减小搜索步长，使得算法能够进行精细搜索，从而保证路径规划结果的最优性。a-star算法的搜索步长公式如下：
[0078][0079]
上式中，sk表示搜索算法的搜索步长；s1,s2分别表示长搜索步长和短搜索步长；(xk,yk),(x
t
,y
t
)分别表示当前点和目标点的网格坐标；r_dis表示搜索初段和搜索末段的分隔距离。
[0080]
在上述搜索步长的基础上，进一步构建a-star算法的动作空间：
[0081]ak+1
＝{(x
k+1
,y
k+1
)∈s|x
k+1
＝xk±
sk,y
k+1
＝yk±
sk}
[0082]ak+1
表示搜索算法的动作空间；(x
k+1
,y
k+1
)表示下一时刻扩展节点的网格坐标。
[0083]
a-star算法启发函数可以表示为：
[0084]
f(n)＝g(n)+h(n)
[0085]
g(n)表示当前搜索路径的移动代价函数。g(n)衡量的是算法为从起始节点移动到当前节点所耗费的代价；因此对于每一条路径上的节点，g(n)的值是已知的。h(n)表示当前节点的启发函数，其用于衡量当前节点到目标节点的预估代价，即从当前节点到目标节点的预估运动距离。
[0086]
改进a-star算法的算法流程如图3所示：
[0087]
(1)初始化图模型g，起始点s，目标点t，未遍历节点表open，已遍历节点表close，并将起始点s存入open中；
[0088]
(2)判断open中是否有节点，若没有节点，搜索结束；
[0089]
(3)计算open中的节点代价，并将全部代价进行排列；选取open表中代价最小的节点k，将k移动至close表中；
[0090]
(4)判断k是否为目标点，若是，则输出从起始点到k的最优路径；
[0091]
(5)若k不是目标点，产生k的子节点，若子节点在close表中，将子节点删除；
[0092]
(6)若子节点在open表中，则判断父节点到子节点代价与k到子节点代价之间的大小关系，若k到子节点代价较小，则将子节点的父节点更新为k；
[0093]
(7)若子节点不在close表或open表中，将其添加至open表中，并转到步骤(2)。
[0094]
为进一步优化上述技术方案，飞行器航路点决策步骤如图4所示，具体流程为：
[0095]
(1)飞行器在执行飞行任务的过程中，会通过各种探测信息源获取敌方禁飞威胁的位置信息。首先判断这些禁飞区是否会对飞行器的再入过程造成威胁；如果敌方禁飞区会对飞行器飞行过程造成威胁(如飞行器预先航路经过禁飞区)，则飞行器航路点决策模块首先会根据禁飞区位置信息以及禁飞区预估半径，结合飞行器当前的位置信息，采用栅格法建立二维网格地图模型。
[0096]
(2)为了提高航路点决策的实时性，算法优先选取较大的仿真搜索步长，并采用改进a*算法在二维网格地图上进行路径搜索。
[0097]
(3)如果算法无法获得可行路径，或者路径节点经过坐标转换得到的经纬度坐标
不在可行范围内，则减小仿真搜索步长，重新进行路径搜索。
[0098]
(4)通过对上述路径节点进行采样，最后得到航路点决策结果，并将航路点位置信息提供给后续的飞行器规避轨迹生成模块。
[0099]
本发明基于深度确定性策略梯度算法，构建飞行器智能轨迹优化算法。算法包括倾侧角智能决策环境模型和智能体离线优化算法。如图5所示，倾侧角智能决策环境模型主要包括智能体状态模型，智能体动作神经网络、智能体评价神经网络以及智能体奖励函数模型，具体如下：
[0100]
(1)针对禁飞区规避轨迹生成任务，状态变量的选取需要同时考虑飞行器自身的飞行状态、飞行器与禁飞区之间的相对态势以及飞行器与目标点之间的相对态势三个主要因素。本发明选取飞行器与禁飞区中心之间的视线角，飞行器与目标点之间的视线角，飞行器与禁飞区中心之间的相对距离，飞行器与目标点之间的相对距离，飞行器飞行速度，飞行高度，经度，纬度，弹道倾角，弹道偏角十个变量作为轨迹生成智能体的状态变量。
[0101]
(2)本发明中的智能体动作网络和智能体评价网络均为双隐藏层深度神经网络。智能体动作神经网络和评价神经网络的网络输入均为上述智能体状态变量；智能体动作网络的网络输出为飞行器倾侧角制导量，智能体评价网络的网络输出为动作网络的策略评价，即动作价值函数。动作网络的训练目标是使得评价网络的动作评价最高；评价网络的训练目标是使得网络输出的策略评价与真实的动作价值函数之间的误差最小。
[0102]
(3)在强化学习智能体训练过程中，奖励函数的主要作用是引导智能体完成训练任务，将强化学习任务进行数学建模，并转化为最大化期望总奖励的最优规划问题。针对禁飞区规避轨迹生成任务，本发明中的奖励函数模型主要考虑再入飞行约束、飞行器终端误差、飞行器位置引导、飞行器禁飞区约束违反、飞行器能量损耗五个方面。
[0103]
本发明中的飞行器轨迹智能生成模块如图6所示。如上所述，强化学习智能体动作网络根据多种归一化后的环境状态变量，输出智能体动作。本发明进一步构建倾侧角转化模块，将智能体网络输出转化为飞行器倾侧角制导量；通过数字仿真推演，进而得到下一制导周期的飞行器运动状态。训练环境根据飞行器运动状态，输出下一时刻智能体状态以及动作评价奖励，并将上述状态转移数据存储到经验池r中。
[0104]
当经验池的数据量满足一定值时，算法从经验池中随机抽取经验数据，并对动作网络和评价网络进行参数优化训练。
[0105]
动作网络的训练目标是使得评价网络对于动作网络的动作评价更高，针对动作网络的训练过程如下：评价网络根据状态信息以及动作网络输出的动作信息，输出对于动作网络策略的策略评价q
π
(s,a)；动作网络根据该评价，生成网络总损失函数，最终通过反向传播算法，生成全部网络参数的梯度。动作网络的参数梯度表示为：
[0106][0107]
上式中，
▽
θ
j(μ
θ
)表示动作网络的网络参数梯度；
▽
θ
μ
θ
(s)表示动作网络输出结果对网络参数的导数；
▽aq
μ
(s,μ
θ
(s))表示动作价值函数对动作的导数；batch表示从经验池中采样得到的一组状态动作对(s,a)数据；n表示batch中的数据数量。
[0108]
评价网络的训练目标是使得网络输出的策略评价反映真实的动作价值函数q
π*
(s,a)，针对评价网络的训练过程如下：根据数据中的奖励信息和动作价值信息，生成评价网络
的训练目标值y，并采用均方误差函数构建评价网络的目标函数loss
mse
(q
π-y)，最终通过反向传播算法，得到全部网络参数的梯度。评价网络的损失函数可以表示为：
[0109]yt
＝r(s
t
,a
t
)+γq(s
t+1
,μ(s
t+1
)|θq)
[0110][0111]
上式中，y
t
表示动作价值的真值；r(s
t
,a
t
)表示当前动作获取的奖励；q(s
t+1
,μ(s
t+1
)|θq)表示下一时刻的预估动作价值函数；γ表示折扣系数；l(θq)表示评价网络的损失函数；q(s
t
,a
t
|θq)表示当前时刻的评价网络输出。
[0112]
进而可以得到评价网络的参数梯度：
[0113][0114]
上式中，
▽
θ
l(θq)表示动作网络的网络参数梯度；
▽
θ
q(s
t
,a
t
|θq)表示动作网络输出对网络参数的导数。
[0115]
在上述网络参数梯度的基础上，采用步长更新的方式，对动作网络和评价网络的网络参数进行优化更新：
[0116][0117][0118]
上式中，θ
actor
,θ
′
actor
分别表示更新前和更新后的动作网络的网络参数；θ
critic
,θ
′
critic
分别表示更新前和更新后的评价网络的网络参数；lr
actor
,lr
critic
分别表示动作网络和评价网络的学习率；分别表示动作网络和评价网络的网络参数梯度。
[0119]
不断重复上述流程，直至智能体的总奖励收敛，进而得到飞行器倾侧角决策智能体。最终采用上述智能体构建飞行器轨迹在线输出模块：在线输出部分主要是基于上述信息获取与环境地图模型转化模块和智能决策环境模块，得到智能体状态；采用离线优化好的智能体模型，输出智能体动作信号，进而转化为飞行器倾侧角制导量并得到飞行器轨迹。
[0120]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种基于深度强化学习的飞行器禁飞区在线规避系统，其特征在于，包括飞行器航路点在线决策模块、倾侧角智能决策环境模块以及飞行器轨迹智能生成模块；其中：所述飞行器航路点在线决策模块，根据飞行器实时位置信息、实时态势信息以及禁飞区态势信息，快速生成二维增量式实时地图模型；并通过智能搜索算法，快速实时地生成引导飞行器进行禁飞区规避的航路点；所述倾侧角智能决策环境模块，通过离线仿真的方式，优化飞行器倾侧角决策模型；所述飞行器轨迹智能生成模块，利用飞行器倾侧角决策模型根据上述飞行器实时位置信息、实时态势信息以及禁飞区态势信息输出飞行器实时最优倾侧角，从而生成飞行器最优规避轨迹。2.根据权利要求1所述的一种基于深度强化学习的飞行器禁飞区在线规避系统，其特征在于，还包括信息获取与环境地图模型转化模块；用于获取飞行器实时位置信息、实时态势信息以及禁飞区态势信息；并且将上述信息转化为能够被路径规划算法处理的环境地图信息，并存放到机载数据库中。3.根据权利要求1所述的一种基于深度强化学习的飞行器禁飞区在线规避系统，其特征在于，所述倾侧角智能决策环境模块包括训练环境构建模块、智能体网络构建模块、奖励模型构建模块以及智能体参数优化模块；其中：所述训练环境构建模块，根据飞行器飞行状态以及禁飞区规避任务，构建环境状态、环境动作以及环境动力学模型；所述智能体网络构建模块，构建环境状态与环境动作之间的复杂映射；所述奖励模型构建模块，通过环境动作与训练环境之间的交互结果，生成飞行器决策反馈；所述智能体参数优化模块，根据飞行器决策反馈，对飞行器倾侧角决策模型的模型参数进行优化。4.根据权利要求1所述的一种基于深度强化学习的飞行器禁飞区在线规避系统，其特征在于，二维增量式实时地图模型主要包含飞行器实时位置信息、实时态势信息以及禁飞区态势信息；通过对上述信息的实时处理，通过离散化的方式，得到二维增量式实时地图模型，并对该模型进行实时更新维护。5.根据权利要求4所述的一种基于深度强化学习的飞行器禁飞区在线规避系统，其特征在于，在二维增量式实时地图模型的基础上，基于改进a-star智能搜索算法，实时生成出一条能够规避禁飞区域的二维飞行轨迹；对上述轨迹进行筛选，通过离散化的方式，在线决策出引导飞行器进行禁飞区规避的航路点。6.根据权利要求5所述的一种基于深度强化学习的飞行器禁飞区在线规避系统，其特征在于，改进a-star智能搜索算法的算法流程如下：w1，初始化图模型g，起始点s，目标点t，未遍历节点表open，已遍历节点表close，并将起始点s存入open中；w2，判断open中是否有节点，若没有节点，搜索结束；w3，计算open中的节点代价，并将全部代价进行排列；选取open表中代价最小的节点k，将k移动至close表中；w4，判断k是否为目标点，若是，则输出从起始点到k的最优路径；
w5，若k不是目标点，产生k的子节点，若子节点在close表中，将子节点删除；w6，若子节点在open表中，则判断父节点到子节点代价与k到子节点代价之间的大小关系，若k到子节点代价较小，则将子节点的父节点更新为k；w7，若子节点不在close表或open表中，将其添加至open表中，并转到步骤w2。7.根据权利要求1所述的一种基于深度强化学习的飞行器禁飞区在线规避系统，其特征在于，飞行器轨迹智能生成模块分为离线交互训练和在线输出两个部分；离线交互训练部分主要是基于深度确定性策略梯度算法，构建强化学习智能体模型训练流程，并通过大量离线仿真交互，优化智能体模型参数；在线输出部分主要是基于飞行器实时位置信息、实时态势信息以及禁飞区态势信息与环境地图模型转化模块和智能决策环境模块，得到智能体状态；采用离线优化好的智能体模型，输出智能体动作信号，进而转化为飞行器倾侧角制导量；通过上述在线输出过程，获取飞行器最优规避轨迹。

技术总结
本发明公开了一种基于深度强化学习的飞行器禁飞区在线规避系统，包括飞行器航路点在线决策模块、倾侧角智能决策环境模块以及飞行器轨迹智能生成模块；飞行器航路点在线决策模块，快速生成二维增量式实时地图模型；通过智能搜索算法，快速实时地生成引导飞行器进行禁飞区规避的航路点；倾侧角智能决策环境模块，通过离线仿真的方式，优化飞行器倾侧角决策模型；飞行器轨迹智能生成模块，利用飞行器倾侧角决策模型根据飞行器实时位置信息、实时态势信息以及禁飞区态势信息输出飞行器实时最优倾侧角，从而生成飞行器最优规避轨迹。本发明能够解决当前轨迹规划与制导方法实时性弱，智能自主性较差，无法规避实时探测到的禁飞区域的问题。的问题。的问题。

技术研发人员：张庆振刘瑞恒崔朗福高伯伦姚贻帝程林
受保护的技术使用者：北京航空航天大学
技术研发日：2023.04.03
技术公布日：2023/7/12

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：点航关联方法、装置、电子设备及存储介质与流程 下一篇：一种基于化工生产用有机物吸附剂回收装置的制作方法

一种基于深度强化学习的飞行器禁飞区在线规避系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度强化学习的飞行器禁飞区在线规避系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表