一种基于强化学习的飞行器智能协同对抗决策方法和系统

未命名 08-14 阅读：94 评论：0

1.本发明涉及飞行器智能协同对抗技术领域，特别是一种基于强化学习的飞行器智能协同对抗决策方法和系统。

背景技术：

2.随着军事技术不断地进步，低空防御系统已逐渐向天、空、海、潜、路综合一体化防御方向发展。这意味着未来空战的作战方式不再局限于单机作战，而逐渐转化为系统与系统、体系与体系之间的对抗。在此背景下，多飞行器协同作战的理念和战术不断发展，协同任务分配技术也成为研究者们日益关注的热点问题。任务分配指基于任务需求、战场环境、目标配置等信息，满足一定的约束条件，建立使整体作战效益最高的分配方案。合适的任务分配方案在多飞行器协同作战中起着关键作用。
3.实现单方数量4架(含)以内的飞行器集群不同数量的定制化对抗，其中机型可具体指定。为了使分布式实时仿真系统达到逼真的仿真效果，在系统内部，往往不仅需要对各种数据模型进行实时解算，而且需要一个延迟时间极低的确定性网络在系统之间传递数据，这样才能让各个子系统之间协调一致地工作。传统上，分布式环境仿真一般使用“高速度以太网+上下位机”的解决方案来满足这两方面的需求。受tcp/ip协议所限，传统的以太网并不能满足各实时仿真子系统间实时、确定地传输数据的需求。尽管可以采取一些措施(如提高网络速度、降低网络负荷等)来降低延迟，但是仍然很难从根本上解决以太网不具有实时性和确定性的固有缺陷，并且这样做还会增加额外的成本。
4.jsbsim模型是国外开发的一种通用的飞行动力学模型，可进行多种机型仿真，实时性高，符合本项目对飞行动力学模型的要求。jsbsim是一个开源的跨平台六自由度非线性飞行动力学模型。它采用面向对象的c++语言编写，支持不同类型航空或航天飞行器的动力学建模。该模型中的飞行器动力学特性由可扩展标记语言表述，不必编译和链接代码就可以建立自己的六自由度飞行器模型并进行仿真。
5.mappo算法是将ppo算法应用于多智能体任务的变种，同样也是采用actorcritic架构。不同的是在actor部分，为了进一步降低优势函数的方差，使用泛化优势估计函数代替。使用类似td的方式对优势函数进行估计，对其方差和偏差进行平衡，能够在一定偏差的情况下显著降低评估的方差。

技术实现要素：

6.为解决现有技术中存在的上述问题本发明提供了一种基于强化学习的飞行器智能协同对抗决策方法和系统，能够保证模型和算法的有效性，可用于飞行器制定合适的对抗策略。具体方案如下：
7.一种基于强化学习的飞行器智能协同对抗决策方法，包括以下步骤：
8.步骤1：观测值设计：基于飞行动力学对不同机型以及其武器、雷达进行仿真建模；飞行器获取的信息包括：自身位置信息、自身与敌方飞行器相对位置关系、自身飞行器的速
度、自身飞行器与敌方飞行器的速度差距；
9.步骤2：动作空间设计：设计每架飞行器的动作空间，包括目标飞行器编号和四个航向做出的指令值，所述指令动作值包括迎角、滚转角、油门量，写为如下形式：
10.a＝[target,x
t
,y
t
,z
t
,v
t
]
[0011]
其中，target表示该机选择的目标飞机的编号，x
t
,y
t
,z
t
,v
t
分别表示智能体在四个航迹维度上做出的指令值；
[0012]
步骤3：回报函数设计：设计存货奖励、距离奖励/惩罚和雷达锁定项，回报函数写为如下形式：
[0013]
r＝ω
αrs
+ω
β
rd+ω
γrr
[0014]
其中，rs为存活奖励部分，rd为距离奖励/惩罚项，rr为雷达锁定项；ω
α
、ω
β
和ω
γ
为各部分的比例；
[0015]
步骤4：强化学习环境设计：采用训练模式和应用模式进行飞行器及对抗方的动态控制，并实现状态、动作和奖励值的数据接口功能；
[0016]
训练回合由训练步长组成，每个训练回合包含有限训练步长；
[0017]
智能体将状态信息作为深度神经网络的输入，经过运算后生成动作；
[0018]
动作经过格式转换后，形成飞行器可执行的指令，发送至环境中。
[0019]
进一步的，对雷达进行仿真建模用于对空/空功能中的空中拦截与空中格斗进行仿真，具体包括：
[0020]
步骤1.1：雷达数据处理建模
[0021]
步骤a：对目标检测点迹信息进行数据预处理；
[0022]
步骤b：进入航迹管理模块，判断此点迹信息为真实的新目标，则开辟一条新航迹；若此时点迹能够跟已有航迹信息关联上，则成为稳定运动点迹；
[0023]
步骤c：将准目标在球坐标系下的距离、方位、俯仰角信息反转换到直角坐标系下的三向位置坐标，从而进行滤波和预测，并将滤波结果发送给输出接口；
[0024]
步骤d：若目标丢失一段时间，则判为航迹终结，界面清空；
[0025]
步骤1.2：数据预处理
[0026]
将雷达系统整体设计中的发射机模块、接收机模块和目标处理模块合并简化处理；对于波束的收发，由雷达系统的扫描范围、发射功率、目标距离，加上目标雷达散射截面积，确定在未收电子干扰，天气晴好，且目标落在无杂波区情况下的理论最大可探测距离。
[0027]
更进一步的，所述航迹管理模块进行航迹关联具体为：
[0028]
计算当前探测到的目标点信息是否落进已有航迹上次预测到此刻的点迹为中心的设定范围内：
[0029]
1)若目标检测模块检测到目标点迹，且检测到的目标点迹与已经建立的航迹关联失败，则认定其为新目标，且当同时雷达能连续两次对该目标点迹关联成功，则进入航迹起始；
[0030]
2)若目标检测模块探测到目标信息，且准目标信息与已建立好的航迹关联失败，且在后面的一段时间里，机载雷达探测到的目标点迹与之前建立好的航迹没有关联成功，则判为虚警，进行航迹的终结；
[0031]
3)若目标检测模块没有检测到目标点迹，此时航迹关联失败，并安排下一时刻要
执行小搜事件，当雷达执行小搜没有检测到丢失目标，则进行航迹终结；
[0032]
4)若目标检测模块探测到目标点迹，且检测到的目标点迹与已建立的航迹在距离、方位、俯仰三维均关联成功，则判断该点迹是此航迹的新的观察点，即要进行航迹的维持。
[0033]
一种基于强化学习的飞行器智能协同对抗决策系统，包括上层架构和下层架构；
[0034]
上层架构包括导调控制仿真节点、战术指挥仿真节点、战场环境管理节点、战术推演节点和战术仿真器，各仿真节点间通过dis网络进行数据通讯与交互；
[0035]
下层架构位于单台战术仿真器内，通过混合实时通讯网络，将仿真器内的火控解算模块、飞控解算模块、视景解算模块、视景显示模块、仪表解算模块多功能显示模块和设备控制与采集模块连接起来。
[0036]
进一步的，
[0037]
1)所述导调控制仿真节点是整个系统的管理和监控中心，用于协调和控制整个系统的运行，监视系统状态并记录和回放数据以进行评估；其通过dis网络与其他仿真节点进行数据交互，包括指令下达、状态查询和数据传输；
[0038]
2)所述战术指挥仿真节点负责飞行器的指挥和协调，用于实现飞行器之间的通信和协作，确保团队合作并实现指定的任务目标；其通过dis网络接收来自导调控制仿真节点的指令，向战场环境管理节点和战术推演节点发送指令，并从飞行器中接收数据以更新状态；
[0039]
3)所述战场环境管理节点通过建立jsbsim动力学模型搭建仿真空战环境，负责对整个战场环境进行管理和监控，用于实现环境建模和仿真，以及在战场上定位和跟踪飞行器的位置；其通过dis网络接收来自导调控制仿真节点的指令，更新战场环境信息，并将其发送给战术推演节点；
[0040]
4)所述战术推演节点负责战术推演和规划，用于收集来自其他节点的信息并对其进行分析，制定战术策略和规划航线；其通过dis网络接收来自战场环境管理节点和战术指挥仿真节点的信息，分析这些信息并产生相应的行动计划；
[0041]
5)所述战术仿真器负责模拟飞行器的行为，用于通过模拟来预测飞行器的行为和性能，以便指导飞行器的行动；其通过dis网络接收来自战场环境管理节点和战术推演节点的信息，并基于这些信息模拟飞行器的行为。
[0042]
更进一步的，
[0043]
1)所述火控解算模块负责计算飞行器的火控数据，包括导弹发射方位角和仰角、目标距离、弹道修正；此模块接收来自飞控解算模块和视景解算模块的数据，通过计算产生相应的火控数据，并将其发送给飞控解算模块；
[0044]
2)所述飞控解算模块块负责计算飞行器的飞行控制数据，包括飞行速度、高度和姿态；此模块接收来自火控解算模块、视景解算模块和仪表解算模块的数据，通过计算产生相应的飞行控制数据，并将其发送给设备控制与采集模块；
[0045]
3)所述视景解算模块负责计算飞行器的场景渲染，此模块接收来自火控解算模块、飞控解算模块和设备控制与采集模块的数据，通过计算产生相应的图像数据，并将其发送给视景显示模块；
[0046]
4)所述视景显示模块负责将视景解算模块产生的视觉数据以图像形式显示出来，
此模块接收来自视景解算模块的数据，并将其渲染为可视化的图像；
[0047]
5)所述仪表解算模块负责计算飞行器的各种仪表数据，包括速度、高度和姿态；此模块接收来自飞控解算模块的数据，通过计算产生相应的仪表数据，并将其发送给多功能显示模块；
[0048]
6)所述多功能显示模块负责显示仪表解算模块产生的仪表数据，以及其他与飞行器相关的数据，包括火控数据、任务信息、电池状态；此模块接收来自仪表解算模块和设备控制与采集模块的数据，并将其渲染为可视化的信息；
[0049]
7)所述设备控制与采集模块负责与飞行器各个设备进行通讯和数据采集。
[0050]
更进一步的，在所述上层架构和下层架构中，对以下四种技术进行有机综合，形成一套基于hla与混合实时网络的仿真体系结构：
[0051]
1)利用dis分布式管理、时间推进机制及负载平衡控制技术
[0052]
在系统的上层架构中，通过dis网络实现分布式管理和数据通信，使各仿真节点之间能够高效地协同工作；同时，系统利用时间推进机制来确保仿真结果的准确性和同步性，并通过负载平衡控制技术来保证系统的稳定性和可靠性；
[0053]
2)利用反射内存网的高实时性特性及确定性延迟
[0054]
在系统的下层架构中，利用反射内存网技术实现高实时性和确定性延迟，使得各模块之间能够快速、准确地进行数据交互和协同工作；
[0055]
3)利用rtx的精确时钟及抢占式任务调度机制
[0056]
在系统的下层架构中，利用rtx实时操作系统的精确时钟和抢占式任务调度机制，使得系统能够对任务进行精细的控制和调度，从而确保各模块之间的数据交互和协同工作的高效性和准确性；
[0057]
4)利用can总线的数据通信机制
[0058]
在系统的下层架构中，利用can总线的数据通信机制，实现各模块之间的高效数据传输和通信，从而保证系统的稳定性和可靠性。
[0059]
更进一步的，所述jsbsim动力学模型的基本特征：包括翼展、弦长、机翼面积、飞行员眼位、气动力参考点、重心位置、转动惯量、惯性积、前起和主起接地点位置和发动机推力线、起落架模型。
[0060]
本发明基于强化学习的方法，定制飞行器智能协同对抗决策系统，目标函数合理，经过一定的训练之后具有显著的效果，能够保证模型和算法的有效性，可用于飞行器制定合适的对抗策略。
附图说明
[0061]
图1为本发明中飞行器战术对抗仿真系统基本体系结构。
具体实施方式
[0062]
为更加详细解释本发明的特点和技术内容，以下结合附图对本发明进行阐述，此处所属的特点和技术内容仅用于说明和解释本发明，并不用于限制本发明。本领域的技术人员可以对前述各实例的技术方案依据应用进行修改，但这种修改并不使该技术方案的本质仍处于本公开实例的范围。
[0063]
如图1所示，本发明提供一种基于强化学习的飞行器智能协同对抗决策系统，包括：
[0064]
1、上层架构：包括导调控制仿真节点、战术指挥仿真节点、战场环境管理节点、战术推演节点、战术仿真器等，这些仿真节点间通过dis网络进行数据通讯与交互。
[0065]
(1)导调控制仿真节点：导调控制仿真节点是整个系统的管理和监控中心。它的主要作用是协调和控制整个系统的运行，监视系统状态并记录和回放数据以进行评估。此节点通过dis网络与其他仿真节点进行数据交互，包括指令下达、状态查询、数据传输等。
[0066]
(2)战术指挥仿真节点：战术指挥仿真节点负责飞行器的指挥和协调。它的主要作用是实现飞行器之间的通信和协作，确保团队合作并实现指定的任务目标。此节点通过dis网络接收来自导调控制仿真节点的指令，向战场环境管理节点和战术推演节点发送指令，并从飞行器中接收数据以更新状态。
[0067]
(3)战场环境管理节点：建立jsbsim动力学模型搭建仿真空战环境，负责对整个战场环境进行管理和监控。它的主要作用是实现环境建模和仿真，以及在战场上定位和跟踪飞行器的位置。此节点通过dis网络接收来自导调控制仿真节点的指令，更新战场环境信息，并将其发送给战术推演节点。
[0068]
(4)战术推演节点：战术推演节点负责战术推演和规划。它的主要作用是收集来自其他节点的信息并对其进行分析，制定战术策略和规划航线。此节点通过dis网络接收来自战场环境管理节点和战术指挥仿真节点的信息，分析这些信息并产生相应的行动计划。
[0069]
(5)战术仿真器：战术仿真器节点负责模拟飞行器的行为。它的主要作用是通过模拟来预测飞行器的行为和性能，以便更好地指导飞行器的行动。此节点通过dis网络接收来自战场环境管理节点和战术推演节点的信息，并基于这些信息模拟飞行器的行为。
[0070]
2、下层架构：位于单台战术仿真器内，通过使用本文提出的混合实时通讯网络，将仿真器内的火控解算模块、飞控解算模块、视景解算模块、视景显示模块、仪表解算模块等连接起来。
[0071]
(1)火控解算模块：火控解算模块负责计算飞行器的火控数据，包括导弹发射方位角和仰角、目标距离、弹道修正等。此模块接收来自飞控解算模块和视景解算模块的数据，通过计算产生相应的火控数据，并将其发送给飞控解算模块。
[0072]
(2)飞控解算模块：飞控解算模块负责计算飞行器的飞行控制数据，包括飞行速度、高度、姿态等。此模块接收来自火控解算模块、视景解算模块和仪表解算模块的数据，通过计算产生相应的飞行控制数据，并将其发送给设备控制与采集模块。
[0073]
(3)视景解算模块：视景解算模块负责计算飞行器的场景渲染。此模块接收来自火控解算模块、飞控解算模块和设备控制与采集模块的数据，通过计算产生相应的图像数据，并将其发送给视景显示模块。
[0074]
(4)视景显示模块：视景显示模块负责将视景解算模块产生的视觉数据以图像形式显示出来。此模块接收来自视景解算模块的数据，并将其渲染为可视化的图像。
[0075]
(5)仪表解算模块：仪表解算模块负责计算飞行器的各种仪表数据，包括速度、高度、姿态等。此模块接收来自飞控解算模块的数据，通过计算产生相应的仪表数据，并将其发送给多功能显示模块。
[0076]
(6)多功能显示模块：多功能显示模块负责显示仪表解算模块产生的仪表数据，以
及其他与飞行器相关的数据，包括火控数据、任务信息、电池状态等。此模块接收来自仪表解算模块和设备控制与采集模块的数据，并将其渲染为可视化的信息。
[0077]
(7)设备控制与采集模块：设备控制与采集模块负责与飞行器各个设备进行通讯和数据采集。
[0078]
3、仿真空战环境的搭建：主要采用jsbsim，一个开源的跨平台六自由度非线性飞行动力学模型。
[0079]
建立jsbsim动力学模型，主要包括内容如下：
[0080]
基本特征：包括翼展、弦长、机翼面积、飞行员眼位、气动力参考点、重心位置、转动惯量、惯性积、前起和主起接地点位置和发动机推力线、起落架模型
[0081]
飞行控制方案：本发明中由于直接由智能体端到端地操作飞行器舵面状态，因此没有采用任何增稳设计。
[0082]
本发明基于强化学习的飞行器智能协同对抗决策方法，具体如下：
[0083]
步骤1：观测值设计：基于飞行动力学对不同机型以及其武器、雷达进行仿真建模；飞行器获取的信息包括：自身位置信息、自身与敌方飞行器相对位置关系、自身飞行器的速度、自身飞行器与敌方飞行器的速度差距；
[0084]
步骤2：动作空间设计：设计每架飞行器的动作空间，包括目标飞行器编号和四个航向作出的指令值，所述指令动作值包括迎角、滚转角、油门量；
[0085]
可写为如下形式：
[0086]
a＝[target,x
t
,y
t
,z
t
,v
t
]
[0087]
其中，target表示该机选择的目标飞机的编号，x
t
,y
t
,z
t
,v
t
分别表示智能体在四个航迹维度上做出的指令值。
[0088]
步骤3：回报函数设计：设计存货奖励、距离奖励/惩罚和雷达锁定项；
[0089]
回报函数可以写为如下形式：
[0090]
r＝ω
αrs
+ω
β
rd+ω
γrr
[0091]
其中rs为存活奖励部分，rd为距离奖励/惩罚项，rr为雷达锁定项。ω
α
，ω
β
，ω
γ
为各部分的比例。
[0092]
步骤4：强化学习环境设计：采用训练模式和应用模式进行飞行器及对抗方的动态控制，并实现状态、动作和奖励值的数据接口功能。
[0093]
训练回合由训练步长组成，每个训练回合包含有限训练步长；智能体将状态信息作为深度神经网络的输入，经过运算后生成动作；动作经过格式转换后，形成飞行器可执行的指令，发送至环境中。
[0094]
本发明中由于需要智能体与jsbsim仿真环境进行交互，不采用连续运行方式进行仿真，而在智能体每一步决策做出后，调用函数完成仿真的步进运行。
[0095]
雷达系统仿真选取雷达功能级仿真，对雷达系统的模块进行设计，针对机载相控阵雷达典型的空空方式，对机载相控阵雷达进行功能级系统的仿真，为本项目中的空战智能提供一个快速、准确的战场态势感知。
[0096]
机载相控阵雷达建模：
[0097]
(1)主要工作方式建模：本系统建模主要对空/空功能中的空中拦截(aic)与空中格斗(acm)进行仿真
[0098]
(2)雷达数据处理建模：
[0099]
首先对目标检测点迹信息进行数据预处理。
[0100]
接下来进入航迹管理模块，判断此点迹信息为真实的新目标，则开辟一条新航迹；若此时点迹能够跟已有航迹信息关联上，则成为了稳定运动点迹。
[0101]
之后，将准目标在球坐标系下的距离、方位、俯仰角信息反转换到直角坐标系下的三向位置坐标，从而进行滤波和预测，并将滤波结果发送给输出接口。
[0102]
若目标丢失一段时间，则判为航迹终结，界面此时清空。
[0103]
(3)数据预处理：
[0104]
在本系统中，为提高雷达处理的实时性，将雷达系统整体设计中的发射机模块、接收机模块、目标处理模块合并简化处理。
[0105]
对于波束的收发，由雷达系统的扫描范围、发射功率、目标距离，加上目标雷达散射截面积，确定在未收电子干扰，天气晴好，且目标落在无杂波区情况下的理论最大可探测距离。
[0106]
航迹关联：计算当前探测到的目标点信息是否落进已有航迹上次预测到此刻的点迹为中心的设定范围内。当飞机目标做幅度较大的机动时，选择较大的门限来保持航迹的正确更新：
[0107]
1)如果目标检测模块检测到了目标点迹，且检测到的点迹与已经建立的航迹关联失败，此时说明它是一个新目标，且当同时雷达能连续两次对该点迹关联成功，就可以进入航迹起始。
[0108]
2)如果目标检测模块探测到了目标信息，且准目标信息与已建立好的航迹关联失败，且在后面的一段时间里，机载雷达探测到的目标点迹与之前建立好的航迹没有关联成功，则判为虚警，要进行航迹的终结。
[0109]
3)如果目标检测模块没有检测到目标点迹，此时航迹关联肯定失败，且当雷达执行跟踪事件时，本来是需要进行航迹维持的，只是本次航迹维持需要的目标点迹等于该目标点迹在上一时刻的预测结果，安排下一时刻要执行小搜事件。在没有进行波束建模的情况下，小搜行为相当于扩大一定门限。当雷达执行小搜没有检测到丢失目标，就可以进行航迹终结了。
[0110]
4)如果目标检测模块探测到了目标点迹，且检测到的目标点迹与已建立的航迹在距离、方位、俯仰三维均关联成功，则判断该点迹是此航迹的新的观察点，即要进行航迹的维持。
[0111]
航迹控制层次的集群空战智能决策算例分析：
[0112]
观测空间设定：根据六自由下的运动结算方程，以分别表示俯仰角、偏航角和滚转角，反映飞行器相对地面关系坐标系的姿态，[x,y,z]表示飞行器以地面为参考系的三维空间坐标值，以[vx,vy,vz]分别表示飞行器的飞行速率在三个方向上的拆分。
[0113]
动作空间设定：基于航迹控制任务的特点与仿真环境的设计，选取目标点的北东天坐标以及目标速度为决策维度进行连续空间的决策控制。同时，为了缩小搜索空间，将决策的位置范围集中至目标机一定范围之内，目标机的编号也通过网络来进行生成，决策结果以一维向量表示如式a＝[target,x
t
,y
t
,z,v
t
]。
[0114]
对以下四种技术进行有机综合，形成一套基于hla与混合实时网络的仿真体系结
构：
[0115]
1)利用dis分布式管理、时间推进机制及负载平衡控制技术
[0116]
在系统的上层架构中，通过dis网络实现分布式管理和数据通信，使各仿真节点之间能够高效地协同工作。同时，系统利用时间推进机制来确保仿真结果的准确性和同步性，并通过负载平衡控制技术来保证系统的稳定性和可靠性。
[0117]
2)利用反射内存网的高实时性特性及确定性延迟
[0118]
在系统的下层架构中，利用反射内存网技术实现高实时性和确定性延迟，使得各模块之间能够快速、准确地进行数据交互和协同工作。
[0119]
3)利用rtx的精确时钟及抢占式任务调度机制
[0120]
在系统的下层架构中，利用rtx实时操作系统的精确时钟和抢占式任务调度机制，使得系统能够对任务进行精细的控制和调度，从而确保各模块之间的数据交互和协同工作的高效性和准确性。
[0121]
4)利用can总线的数据通信机制
[0122]
在系统的下层架构中，利用can总线的数据通信机制，实现各模块之间的高效数据传输和通信，从而保证系统的稳定性和可靠性。

技术特征：
1.一种基于强化学习的飞行器智能协同对抗决策方法，其特征在于，包括以下步骤：步骤1：观测值设计：基于飞行动力学对不同机型以及其武器、雷达进行仿真建模；飞行器获取的信息包括：自身位置信息、自身与敌方飞行器相对位置关系、自身飞行器的速度、自身飞行器与敌方飞行器的速度差距；步骤2：动作空间设计：设计每架飞行器的动作空间，包括目标飞行器编号和四个航向做出的指令值，所述指令动作值包括迎角、滚转角、油门量，写为如下形式：a＝[target,x
t
,y
t
,z
t
,v
t
]其中，target表示该机选择的目标飞机的编号，x
t
,y
t
,z
t
,v
t
分别表示智能体在四个航迹维度上做出的指令值；步骤3：回报函数设计：设计存货奖励、距离奖励/惩罚和雷达锁定项，回报函数写为如下形式：r＝ω
α
r
s
+ω
β
r
d
+ω
γ
r
r
其中，r
s
为存活奖励部分，r
d
为距离奖励/惩罚项，r
r
为雷达锁定项；ω
α
、ω
β
和ω
γ
为各部分的比例；步骤4：强化学习环境设计：采用训练模式和应用模式进行飞行器及对抗方的动态控制，并实现状态、动作和奖励值的数据接口功能；训练回合由训练步长组成，每个训练回合包含有限训练步长；智能体将状态信息作为深度神经网络的输入，经过运算后生成动作；动作经过格式转换后，形成飞行器可执行的指令，发送至环境中。2.根据权利要求1所述的基于强化学习的飞行器智能协同对抗决策方法，其特征在于，对雷达进行仿真建模用于对空/空功能中的空中拦截与空中格斗进行仿真，具体包括：步骤1.1：雷达数据处理建模：步骤a：对目标检测点迹信息进行数据预处理；步骤b：进入航迹管理模块，判断此点迹信息为真实的新目标，则开辟一条新航迹；若此时点迹能够跟已有航迹信息关联上，则成为稳定运动点迹；步骤c：将准目标在球坐标系下的距离、方位、俯仰角信息反转换到直角坐标系下的三向位置坐标，从而进行滤波和预测，并将滤波结果发送给输出接口；步骤d：若目标丢失一段时间，则判为航迹终结，界面清空；步骤1.2：数据预处理将雷达系统整体设计中的发射机模块、接收机模块和目标处理模块合并简化处理；对于波束的收发，由雷达系统的扫描范围、发射功率、目标距离，加上目标雷达散射截面积，确定在未收电子干扰，天气晴好，且目标落在无杂波区情况下的理论最大可探测距离。3.根据权利要求2所述的基于强化学习的飞行器智能协同对抗决策方法，其特征在于，所述航迹管理模块进行航迹关联具体为：计算当前探测到的目标点信息是否落进已有航迹上次预测到此刻的点迹为中心的设定范围内：1)若目标检测模块检测到目标点迹，且检测到的目标点迹与已经建立的航迹关联失败，则认定其为新目标，且当同时雷达能连续两次对该目标点迹关联成功，则进入航迹起始；
2)若目标检测模块探测到目标信息，且准目标信息与已建立好的航迹关联失败，且在后面的一段时间里，机载雷达探测到的目标点迹与之前建立好的航迹没有关联成功，则判为虚警，进行航迹的终结；3)若目标检测模块没有检测到目标点迹，此时航迹关联失败，并安排下一时刻要执行小搜事件，当雷达执行小搜没有检测到丢失目标，则进行航迹终结；4)若目标检测模块探测到目标点迹，且检测到的目标点迹与已建立的航迹在距离、方位、俯仰三维均关联成功，则判断该点迹是此航迹的新的观察点，即要进行航迹的维持。4.一种基于强化学习的飞行器智能协同对抗决策系统，其特征在于，包括上层架构和下层架构；上层架构包括导调控制仿真节点、战术指挥仿真节点、战场环境管理节点、战术推演节点和战术仿真器，各仿真节点间通过dis网络进行数据通讯与交互；下层架构位于单台战术仿真器内，通过混合实时通讯网络，将仿真器内的火控解算模块、飞控解算模块、视景解算模块、视景显示模块、仪表解算模块多功能显示模块和设备控制与采集模块连接起来。5.根据权利要求4所述的基于强化学习的飞行器智能协同对抗决策系统，其特征在于，1)所述导调控制仿真节点是整个系统的管理和监控中心，用于协调和控制整个系统的运行，监视系统状态并记录和回放数据以进行评估；其通过dis网络与其他仿真节点进行数据交互，包括指令下达、状态查询和数据传输；2)所述战术指挥仿真节点负责飞行器的指挥和协调，用于实现飞行器之间的通信和协作，确保团队合作并实现指定的任务目标；其通过dis网络接收来自导调控制仿真节点的指令，向战场环境管理节点和战术推演节点发送指令，并从飞行器中接收数据以更新状态；3)所述战场环境管理节点通过建立jsbsim动力学模型搭建仿真空战环境，负责对整个战场环境进行管理和监控，用于实现环境建模和仿真，以及在战场上定位和跟踪飞行器的位置；其通过dis网络接收来自导调控制仿真节点的指令，更新战场环境信息，并将其发送给战术推演节点；4)所述战术推演节点负责战术推演和规划，用于收集来自其他节点的信息并对其进行分析，制定战术策略和规划航线；其通过dis网络接收来自战场环境管理节点和战术指挥仿真节点的信息，分析这些信息并产生相应的行动计划；5)所述战术仿真器负责模拟飞行器的行为，用于通过模拟来预测飞行器的行为和性能，以便指导飞行器的行动；其通过dis网络接收来自战场环境管理节点和战术推演节点的信息，并基于这些信息模拟飞行器的行为。6.根据权利要求4所述的基于强化学习的飞行器智能协同对抗决策系统，其特征在于，1)所述火控解算模块负责计算飞行器的火控数据，包括导弹发射方位角和仰角、目标距离、弹道修正；此模块接收来自飞控解算模块和视景解算模块的数据，通过计算产生相应的火控数据，并将其发送给飞控解算模块；2)所述飞控解算模块块负责计算飞行器的飞行控制数据，包括飞行速度、高度和姿态；此模块接收来自火控解算模块、视景解算模块和仪表解算模块的数据，通过计算产生相应的飞行控制数据，并将其发送给设备控制与采集模块；3)所述视景解算模块负责计算飞行器的场景渲染，此模块接收来自火控解算模块、飞
控解算模块和设备控制与采集模块的数据，通过计算产生相应的图像数据，并将其发送给视景显示模块；4)所述视景显示模块负责将视景解算模块产生的视觉数据以图像形式显示出来，此模块接收来自视景解算模块的数据，并将其渲染为可视化的图像；5)所述仪表解算模块负责计算飞行器的各种仪表数据，包括速度、高度和姿态；此模块接收来自飞控解算模块的数据，通过计算产生相应的仪表数据，并将其发送给多功能显示模块；6)所述多功能显示模块负责显示仪表解算模块产生的仪表数据，以及其他与飞行器相关的数据，包括火控数据、任务信息、电池状态；此模块接收来自仪表解算模块和设备控制与采集模块的数据，并将其渲染为可视化的信息；7)所述设备控制与采集模块负责与飞行器各个设备进行通讯和数据采集。7.根据权利要求4所述的基于强化学习的飞行器智能协同对抗决策系统，其特征在于，在所述上层架构和下层架构中，对以下四种技术进行有机综合，形成一套基于hla与混合实时网络的仿真体系结构：1)利用dis分布式管理、时间推进机制及负载平衡控制技术在系统的上层架构中，通过dis网络实现分布式管理和数据通信，使各仿真节点之间能够高效地协同工作；同时，系统利用时间推进机制来确保仿真结果的准确性和同步性，并通过负载平衡控制技术来保证系统的稳定性和可靠性；2)利用反射内存网的高实时性特性及确定性延迟在系统的下层架构中，利用反射内存网技术实现高实时性和确定性延迟，使得各模块之间能够快速、准确地进行数据交互和协同工作；3)利用rtx的精确时钟及抢占式任务调度机制在系统的下层架构中，利用rtx实时操作系统的精确时钟和抢占式任务调度机制，使得系统能够对任务进行精细的控制和调度，从而确保各模块之间的数据交互和协同工作的高效性和准确性；4)利用can总线的数据通信机制在系统的下层架构中，利用can总线的数据通信机制，实现各模块之间的高效数据传输和通信，从而保证系统的稳定性和可靠性。8.根据权利要求5所述的基于强化学习的飞行器智能协同对抗决策系统，其特征在于，所述jsbsim动力学模型的基本特征：包括翼展、弦长、机翼面积、飞行员眼位、气动力参考点、重心位置、转动惯量、惯性积、前起和主起接地点位置和发动机推力线、起落架模型。

技术总结
本发明公开了一种基于强化学习的飞行器智能协同对抗决策方法和系统，该方法包括观测值设计：对不同机型的飞行动力学以及武器、雷达等进行仿真建模；动作空间设计：设计每架飞行器的动作空间，包括目标飞行器编号和四个航向做出的指令值，所述指令动作值包括迎角、滚转角、油门量；回报函数设计：设计存货奖励、距离奖励/惩罚和雷达锁定项；强化学习环境设计：采用训练模式和应用模式进行飞行器及对抗方的动态控制，并实现状态、动作和奖励值的数据接口功能；本发明定制飞行器智能协同对抗决策系统，目标函数合理，经过一定的训练之后具有显著的效果，能够保证模型和算法的有效性，可用于飞行器制定合适的对抗策略。用于飞行器制定合适的对抗策略。用于飞行器制定合适的对抗策略。

技术研发人员：黄操季玉龙周文涛王一王进林朱珑涛何杨
受保护的技术使用者：四川大学
技术研发日：2023.05.12
技术公布日：2023/8/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种感知融合算法的测评方法、装置、设备及存储介质与流程 下一篇：一种花洒喷淋装置及其洗碗机的制作方法

一种基于强化学习的飞行器智能协同对抗决策方法和系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于强化学习的飞行器智能协同对抗决策方法和系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表