基于分层强化学习算法的飞行器决策方法和决策装置

未命名 07-14 阅读：90 评论：0

1.本发明涉及飞行器控制技术领域，尤其涉及一种基于分层强化学习算法的飞行器决策方法和决策装置。

背景技术：

2.空中博弈对抗是寻找最优空战位置，伺机发射空空导弹攻击目标飞行器。在传统的空中对抗过程中，要求飞行员能够根据瞬时变化的战场环境做出准确合理的控制决策，从而完成对目标飞行器的击中。然而由于空中环境极为复杂，且空中态势千变万化，想要快速感知空中环境并做出相对优秀的决策较为困难。人工智能领域强化学习的兴起为这类序列化决策问题提供了一个良好的解决思路。强化学习采用“试错”的方法与环境交互，可以通过马尔科夫决策过程对强化学习过程进行表征，通过计算当前状态下执行动作后的累计回报期望值的大小来判断动作选择的合理性，进而求解出最优策略问题。在空中博弈对抗中，需要飞行器生成一系列连贯的机动动作，以使自己处于环境的优势态势，但是真实环境下六自由度飞行器的模型十分复杂，对于强化学习探索学习有效的博弈策略十分不利。
3.因此，现有的基于六自由度模型下的飞行器控制实现难度较大，且控制精度不高。

技术实现要素：

4.本发明提供一种基于分层强化学习算法的飞行器决策方法和决策装置，用以解决现有技术中飞行器控制精度不高的技术问题。
5.一种基于分层强化学习算法的飞行器决策方法，包括：
6.分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量；
7.将所述第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到所述第一飞行器在三自由度控制模型下的第三控制量；
8.将所述第三控制量输入到六自由度控制器中，得到第一飞行器在所述六自由度控制模型下的第四控制量；
9.依据所述第四控制量控制所述第一飞行器运行。
10.根据本发明提供的一种基于分层强化学习算法的飞行器决策方法，所述分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量，包括：
11.获取所述第一飞行器在六自由度控制模型下的第一控制量，所述第一控制量包括所述第一飞行器在六自由度控制模型下三维坐标、速度、航迹倾斜角和航迹方位角；
12.获取所述目标飞行器在六自由度控制模型下的第二控制量，所述第二控制量包括所述目标飞行器在六自由度控制模型下三维坐标、速度、航迹倾斜角和航迹方位角。
13.根据本发明提供的一种基于分层强化学习算法的飞行器决策方法，所述第一飞行器在三自由度控制模型下的第三控制量包括：轴向过载值、法向过载值和航迹滚转角值。
14.根据本发明提供的一种基于分层强化学习算法的飞行器决策方法，所述三自由度
控制决策模型通过以下方法训练获取：
15.设置奖励函数，采用训练集训练初始三自由度控制决策模型，以使得所述奖励函数的值达到的最大，得到所述训练好的三自由度控制决策模型；
16.所述奖励函数为：r
t
＝r
done
+r
dis
+r
angle
；
17.其中，r
t
表示奖励函数值，r
done
表示是否击中目标飞行器的胜负奖励，r
dis
表示所述第一飞行器和目标飞行器之间的距离奖励值，r
angle
表示所述第一飞行器和目标飞行器之间的角度奖励值。
18.根据本发明提供的一种基于分层强化学习算法的飞行器决策方法，击中所述目标飞行器时，r
done
取值为[90,110]，第一飞行器被目标飞行器击中时，r
done
取值为[-110,-90]；
[0019]
当所述第一飞行器和目标飞行器之间的距离超过距离阈值时，则r
dis
取值为[-0.15,-0.05]，当所述第一飞行器和目标飞行器之间的距离未超过所述距离阈值时，则r
dis
取值为0；
[0020]
当所述第一飞行器和目标飞行器之间的进入角小于30
°
，且方位角大于150
°
时，r
angle
取值为[0.05,0.15]；当所述第一飞行器和目标飞行器之间的进入角大于150
°
，且方位角小于30
°
时，r
angle
取值为[-0.15,-0.05]；其余情况下，r
angle
取值为0。
[0021]
根据本发明提供的一种基于分层强化学习算法的飞行器决策方法，所述将所述第三控制量输入到六自由度控制器中，得到第一飞行器在所述六自由度控制模型下的第四控制量，包括：
[0022]
将所述轴向过载值输入到六自由度飞行器轴向过载控制器中，得到所述第一飞行器的油门操纵量；
[0023]
将所述法向过载值输入到六自由度飞行器法向过载控制器中，得到所述第一飞行器的升降舵操纵量；
[0024]
将所述航迹滚转角值输入到六自由度飞行器滚转角控制器中，得到所述第一飞行器的副翼操纵量；
[0025]
所述第四控制量包括所述油门操纵量、升降舵操纵量和副翼操纵量。
[0026]
本发明还提供一种基于分层强化学习算法的飞行器决策装置，包括：
[0027]
获取单元，用于分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量；
[0028]
第一处理单元，用于将所述第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到所述第一飞行器在三自由度控制模型下的第三控制量；
[0029]
第二处理单元，用于将所述第三控制量输入到六自由度控制器中，得到第一飞行器在所述六自由度控制模型下的第四控制量；
[0030]
控制单元，用于依据所述第四控制量控制所述第一飞行器运行。
[0031]
本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于分层强化学习算法的飞行器决策方法。
[0032]
本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于分层强化学习算法的飞行器决策方法。
[0033]
本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于分层强化学习算法的飞行器决策方法。
[0034]
本发明提供的基于分层强化学习算法的飞行器决策方法，包括：首先分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量；然后将第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到第一飞行器在三自由度控制模型下的第三控制量；在将第三控制量输入到六自由度控制器中，得到第一飞行器在六自由度控制模型下的第四控制量；最后依据第四控制量控制第一飞行器运行，提高第一飞行器的控制精度。
附图说明
[0035]
为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0036]
图1为本发明实施例提供的基于分层强化学习算法的飞行器决策方法流程示意图之一；
[0037]
图2为本发明实施例提供的第一飞行器和目标飞行器相对位姿示意图；
[0038]
图3为本发明实施例提供的轴向过载控制器结构示意图；
[0039]
图4为本发明实施例提供的法向过载控制器结构示意图；
[0040]
图5为本发明实施例提供的滚转角控制器结构示意图；
[0041]
图6为本发明实施例提供的飞行器决策方法流程示意图之二；
[0042]
图7为本发明实施例提供的基于分层强化学习算法的飞行器决策装置；
[0043]
图8为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
[0044]
为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0045]
在本发明的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况，其中a，b可以是单数或者复数。在本发明的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。
[0046]
本发明实施例中为了解决现有技术中在六自由度下对空中博弈的飞行器控制难度大且控制精度不高的技术问题，首先提取第一飞行器和目标飞行器在六自由度飞行器模型下空中环境中的飞机位置和态势等信息，输入到训练好的三自由度控制决策模型中，得到第一飞行器在三自由度控制模型下的第三控制量，然后输入给设计好的六自由度飞行器模型控制器，从而得到六自由度模型下飞行器的操纵量，进而实现对第一飞行器在六自由度飞行器模型下的控制。
[0047]
下面，将通过下述几个具体的实施例对本发明提供的基于分层强化学习算法的飞行器决策方法进行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0048]
图1为本发明实施例提供的基于分层强化学习算法的飞行器决策方法流程示意图之一，该基于分层强化学习算法的飞行器决策方法可以由软件和/或硬件装置执行。示例地，该硬件装置可以为嵌入式设备，或者个人电脑、或者服务器等设备，示例的，请参见如图1所示，该飞行器决策方法包括：
[0049]
s101、分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量。
[0050]
示例的，获取第一飞行器在六自由度控制模型下的第一控制量，第一控制量包括第一飞行器在六自由度控制模型下三维坐标、速度v、航迹倾斜角γ和航迹方位角ψ。例如，六自由度控制模型下三维坐标分别为飞行器在地面三维坐标系中的x,y,z值。
[0051]
示例的，获取目标飞行器在六自由度控制模型下的第二控制量，第二控制量包括目标飞行器在六自由度控制模型下三维坐标、速度、航迹倾斜角和航迹方位角。
[0052]
s102、将第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到第一飞行器在三自由度控制模型下的第三控制量。本实施例将六自由度飞行器映射降维成三自由度飞行器，在保留飞行器在空间的态势、方位等信息的同时，极大地简化空战决策所处理的信息维度，提高了信息处理效率。
[0053]
示例的，为了使得空中博弈时，第一飞行器更好的击中目标飞行器，本实施例训练三自由度控制决策模型时，首先设置奖励函数，奖励函数用于指导模型快速完成收敛。训练初始三自由度控制决策模型，当奖励函数的值达到的最大时，得到训练好的三自由度控制决策模型。
[0054]
示例的，奖励函数可以为：r
t
＝r
done
+r
dis
+r
angle
，其中，r
t
表示奖励函数值，r
done
表示是否击中目标飞行器的胜负奖励，r
dis
表示第一飞行器和目标飞行器之间的距离奖励值，r
angle
表示第一飞行器和目标飞行器之间的角度奖励值。击中目标飞行器时，r
done
取值为[90,110]，具体的，r
done
取值可以为100，未击中目标飞行器时，r
done
取值为[-110,-90]，具体的，r
done
取值可以为-100。当第一飞行器和目标飞行器之间的距离超过距离阈值时，示例的距离阈值可以设置为20000m，则r
dis
取值为[-0.15,-0.05]，具体的r
dis
取值可以为-0.1，当第一飞行器和目标飞行器之间的距离未超过距离阈值时，则r
dis
取值为0。
[0055]
图2为本发明实施例提供的第一飞行器和目标飞行器相对位姿示意图，请参见图2所示，连接第一飞行器和目标飞行器中心点的中心连接线以及第一飞行器和目标飞行器当前运行方向的参考线，第一飞行器的运行方向的参考线与中心连接线的夹角α为进入角，中心连接线与目标飞行器运行方向的参考线夹角β为方位角。当第一飞行器和目标飞行器之间的进入角小于30
°
，且方位角大于150
°
时，r
angle
取值为[0.05,0.15]，具体的，r
angle
取值可以为0.1；当第一飞行器和目标飞行器之间的进入角大于150
°
，且方位角小于30
°
时，r
angle
取值为[-0.15,-0.05]，具体的r
angle
取值可以为-0.1；其余情况下，r
angle
取值为0。
[0056]
示例的，为保留空中决策所需的位置、方位和态势等信息，将六自由度飞行器控制模型简化为三自由度飞行器控制模型，简化后的方程组为：
[0057][0058]
其中g为重力加速度，x,y,z为飞行器在地面坐标系的三维坐标，v为飞行器的飞行速度，γ为飞行器的航迹倾斜角，ψ为飞行器的航迹方位角；φ为飞行器的航迹滚转角值、n
x
为飞行器的轴向过载值、nz为法向过载值为三自由度下飞行器模型的控制量。
[0059]
示例的，还可以对得到的第三控制量φ、n
x
和nz动态过程加以限制，以便模拟六自由度下该量的动态实现过程，例如通过以下公式引入如下一阶惯性环节近似表征各控制量的动态特性：
[0060][0061]
其中，n
x_cd
、n
z_cd
和φ
cd
分别为限制处理后的轴向过载值、法向过载值和航迹滚转角值，本实施例中也可以将n
x_cd
、n
z_cd
和φ
cd
作为第三控制量，和ω
φ
分别为轴向过载通道、法向过载通道和航迹滚转角通道的等价带宽，其值取决于不同飞行器的性能。
[0062]
示例的，获取历史多次采样的数据作为训练集，采用近端策略优化(proximal policy optimization,ppo)算法训练初始三自由度控制决策模型。其中，初始三自由度控制决策模型的输入层为11个神经元，对应三自由度控制模型下第一飞行器和目标飞行器的相对位置、速度以及第一飞行器和目标飞行器之间的高度，初始三自由度控制决策模型中间隐含三层256个神经元的全连接层，输出层为3个神经元，3个神经元分别对应三自由度控制模型下第一飞行器的控制量的指令n
x_cd
、n
z_cd
和φ
cd
，所有的输出经过一个缩放函数tanh，保证其取值范围为[-1,1]之间；critic神经网络与actor神经网络共用前半部分神经网络，仅将输出层改为一个神经元，输出当前状态和动作下的状态行为估计值。特别地，在每一个迭代过程中，ppo的actor优化的目标函数为：
[0063][0064]
其中，θk表示前一个训练迭代得到的actor神经网络，并且负责与第一飞行器做互动，θ是待优化的actor网络，其表示训练数据的重要性权重，ε是控制策略变化程度的超参数，为优势函数。
[0065]
具体的，按照梯度下降法最小化目标函数，更新actor神经网络参数，可以得到第一飞行器三自由度控制决策模型，从而得到第三控制量。
[0066]
s103、将第三控制量输入到六自由度控制器中，得到第一飞行器在六自由度控制
模型下的第四控制量。其中，该六自由度控制器为第一飞行器对应的六自由度控制器。
[0067]
图3为本发明实施例提供的轴向过载控制器结构示意图，示例的，将轴向过载值n
x_cd
输入到如图3所示的六自由度飞行器轴向过载控制器中，得到第一飞行器的油门操纵量d
th
，其中，反馈量为飞行器的实际轴向过载n
x
。
[0068]
图4为本发明实施例提供的法向过载控制器结构示意图，示例的，将法向过载值n
z_cd
输入到六自由度飞行器法向过载控制器中，得到第一飞行器的升降舵操纵量δ
el
。其中，内环反馈为飞行器的俯仰角速度和俯仰角θ，外环反馈为飞行器的实际法向过载nz。
[0069]
图5为本发明实施例提供的滚转角控制器结构示意图，示例的，将航迹滚转角值φ
cd
输入到如图5所示的六自由度飞行器滚转角控制器中，得到第一飞行器的副翼操纵量δ
ail
。
[0070]
示例的，第四控制量包括上述的油门操纵量d
th
、升降舵操纵量δ
el
和副翼操纵量δ
ail
。
[0071]
s104、依据第四控制量控制第一飞行器运行。
[0072]
示例的，基于六自由度控制模型，依据上述第四控制量对第一飞行器进行控制，以使得第一飞行器可以击中目标飞行器。
[0073]
图6为本发明实施例提供的飞行器决策方法流程示意图之二，请参见如图6所示，首先提取第一飞行器和目标飞行器在六自由度飞行器模型下空中环境中的飞机位置和态势等信息，输入到三自由度控制决策模型中，得到第一飞行器在三自由度控制模型下的第三控制量，然后输入给设计好的六自由度飞行器模型控制器，从而得到六自由度模型下飞行器的操纵量，进而根据该操纵量实现对第一飞行器在六自由度飞行器模型下的控制。经过测试，依据本实施例提供的飞行器决策方法，可以在提高数据处理效率的同时，提高飞行器的控制精度和决策能力。
[0074]
下面对本发明提供的基于分层强化学习算法的飞行器决策装置进行描述，下文描述的飞行器决策装置与上文描述的飞行器决策方法可相互对应参照。
[0075]
图7为本发明实施例提供的基于分层强化学习算法的飞行器决策装置，请参见图7所示，该飞行器决策装置70包括：
[0076]
获取单元701，用于分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量。
[0077]
第一处理单元702，用于将第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到第一飞行器在三自由度控制模型下的第三控制量。
[0078]
第二处理单元703，用于将第三控制量输入到六自由度控制器中，得到第一飞行器在六自由度控制模型下的第四控制量。
[0079]
控制单元704，用于依据第四控制量控制第一飞行器运行。
[0080]
可选的，获取单元701，具体用于：
[0081]
获取第一飞行器在六自由度控制模型下的第一控制量，第一控制量包括所述第一飞行器在六自由度控制模型下三维坐标、速度、航迹倾斜角和航迹方位角；获取目标飞行器在六自由度控制模型下的第二控制量，第二控制量包括所述目标飞行器在六自由度控制模型下三维坐标、速度、航迹倾斜角和航迹方位角。
[0082]
其中，第一飞行器在三自由度控制模型下的第三控制量包括：轴向过载值、法向过
载值和航迹滚转角值。
[0083]
可选的，第一处理单元702，还用于通过以下方法训练以获取三自由度控制决策模型：
[0084]
设置奖励函数，采用训练集以及强化学习方法，训练初始三自由度控制决策模型，以使得奖励函数的值达到的最大，得到训练好的三自由度控制决策模型。其中，训练集来自智能体与环境交互数据。
[0085]
其中，奖励函数为：r
t
＝r
done
+r
dis
+r
angle
；
[0086]
其中，r
t
表示奖励函数值，r
done
表示是否击中目标飞行器的胜负奖励，r
dis
表示第一飞行器和目标飞行器之间的距离奖励值，r
angle
表示第一飞行器和目标飞行器之间的角度奖励值。
[0087]
其中，击中目标飞行器时，r
done
取值为[90,110]，第一飞行器被目标飞行器击中时，r
done
取值为[-110,-90]；当第一飞行器和目标飞行器之间的距离超过距离阈值时，则r
dis
取值为[-0.15,-0.05]，当第一飞行器和目标飞行器之间的距离未超过距离阈值时，则r
dis
取值为0；当第一飞行器和目标飞行器之间的进入角小于30
°
，且方位角大于150
°
时，r
angle
取值为[0.05,0.15]；当第一飞行器和目标飞行器之间的进入角大于150
°
，且方位角小于30
°
时，r
angle
取值为[-0.15,-0.05]；其余情况下，r
angle
取值为0。
[0088]
可选的，第二处理单元703，具体用于：
[0089]
将轴向过载值输入到六自由度飞行器轴向过载控制器中，得到第一飞行器的油门操纵量；将法向过载值输入到六自由度飞行器法向过载控制器中，得到第一飞行器的升降舵操纵量；将航迹滚转角值输入到六自由度飞行器滚转角控制器中，得到所述第一飞行器的副翼操纵量。第四控制量包括所述油门操纵量、升降舵操纵量和副翼操纵量。
[0090]
图8为本发明实施例提供的一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行基于分层强化学习算法的飞行器决策方法，该方法包括：分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量；将第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到第一飞行器在三自由度控制模型下的第三控制量；将第三控制量输入到六自由度控制器中，得到第一飞行器在六自由度控制模型下的第四控制量；依据第四控制量控制所述第一飞行器运行。
[0091]
此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0092]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机
程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于分层强化学习算法的飞行器决策方法，该方法包括：分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量；将第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到第一飞行器在三自由度控制模型下的第三控制量；将第三控制量输入到六自由度控制器中，得到第一飞行器在六自由度控制模型下的第四控制量；依据第四控制量控制所述第一飞行器运行。
[0093]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于分层强化学习算法的飞行器决策方法，该方法包括：分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量；将第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到第一飞行器在三自由度控制模型下的第三控制量；将第三控制量输入到六自由度控制器中，得到第一飞行器在六自由度控制模型下的第四控制量；依据第四控制量控制所述第一飞行器运行。
[0094]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0095]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0096]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种基于分层强化学习算法的飞行器决策方法，其特征在于，包括：分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量；将所述第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到所述第一飞行器在三自由度控制模型下的第三控制量；将所述第三控制量输入到六自由度控制器中，得到第一飞行器在所述六自由度控制模型下的第四控制量；依据所述第四控制量控制所述第一飞行器运行。2.根据权利要求1所述的基于分层强化学习算法的飞行器决策方法，其特征在于，所述分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量，包括：获取所述第一飞行器在六自由度控制模型下的第一控制量，所述第一控制量包括所述第一飞行器在六自由度控制模型下三维坐标、速度、航迹倾斜角和航迹方位角；获取所述目标飞行器在六自由度控制模型下的第二控制量，所述第二控制量包括所述目标飞行器在六自由度控制模型下三维坐标、速度、航迹倾斜角和航迹方位角。3.根据权利要求1所述的基于分层强化学习算法的飞行器决策方法，其特征在于，所述第一飞行器在三自由度控制模型下的第三控制量包括：轴向过载值、法向过载值和航迹滚转角值。4.根据权利要求1所述的基于分层强化学习算法的飞行器决策方法，其特征在于，所述三自由度控制决策模型通过以下方法训练获取：设置奖励函数，采用训练集训练初始三自由度控制决策模型，以使得所述奖励函数的值达到的最大，得到所述训练好的三自由度控制决策模型；所述奖励函数为：r
t
＝r
done
+r
dis
+r
angle
；其中，r
t
表示奖励函数值，r
done
表示是否击中目标飞行器的胜负奖励，r
dis
表示所述第一飞行器和目标飞行器之间的距离奖励值，r
angle
表示所述第一飞行器和目标飞行器之间的角度奖励值。5.根据权利要求4所述的基于分层强化学习算法的飞行器决策方法，其特征在于，击中所述目标飞行器时，r
done
取值为[90,110]，第一飞行器被目标飞行器击中时，r
done
取值为[-110,-90]；当所述第一飞行器和目标飞行器之间的距离超过距离阈值时，则r
dis
取值为[-0.15,-0.05]，当所述第一飞行器和目标飞行器之间的距离未超过所述距离阈值时，则r
dis
取值为0；当所述第一飞行器和目标飞行器之间的进入角小于30
°
，且方位角大于150
°
时，r
angle
取值为[0.05,0.15]；当所述第一飞行器和目标飞行器之间的进入角大于150
°
，且方位角小于30
°
时，r
angle
取值为[-0.15,-0.05]；其余情况下，r
angle
取值为0。6.根据权利要求3所述的基于分层强化学习算法的飞行器决策方法，其特征在于，所述将所述第三控制量输入到六自由度控制器中，得到第一飞行器在所述六自由度控制模型下的第四控制量，包括：将所述轴向过载值输入到六自由度飞行器轴向过载控制器中，得到所述第一飞行器的
油门操纵量；将所述法向过载值输入到六自由度飞行器法向过载控制器中，得到所述第一飞行器的升降舵操纵量；将所述航迹滚转角值输入到六自由度飞行器滚转角控制器中，得到所述第一飞行器的副翼操纵量；所述第四控制量包括所述油门操纵量、升降舵操纵量和副翼操纵量。7.一种基于分层强化学习算法的飞行器决策装置，其特征在于，包括：获取单元，用于分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量；第一处理单元，用于将所述第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到所述第一飞行器在三自由度控制模型下的第三控制量；第二处理单元，用于将所述第三控制量输入到六自由度控制器中，得到第一飞行器在所述六自由度控制模型下的第四控制量；控制单元，用于依据所述第四控制量控制所述第一飞行器运行。8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于分层强化学习算法的飞行器决策方法。9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于分层强化学习算法的飞行器决策方法。10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于分层强化学习算法的飞行器决策方法。

技术总结
本发明涉及飞行器控制与决策技术领域，尤其涉及一种基于分层强化学习算法的飞行器决策方法和决策装置。其中，基于分层强化学习算法的飞行器决策方法包括：首先分别获取第一飞行器和目标飞行器在六自由度控制模型下的第一控制量和第二控制量；然后将第一控制量和第二控制量输入到训练好的三自由度控制决策模型中，得到第一飞行器在三自由度控制模型下的第三控制量；在将第三控制量输入到六自由度控制器中，得到第一飞行器在六自由度控制模型下的第四控制量；最后依据第四控制量控制第一飞行器运行，在保证控制的精度基础上，完成第一飞行器飞行决策。飞行器飞行决策。飞行器飞行决策。

技术研发人员：周志明刘振任若楠蒲志强易建强
受保护的技术使用者：中国科学院自动化研究所
技术研发日：2023.02.06
技术公布日：2023/7/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：硫辛酸在治疗产气荚膜梭菌Epsilon毒素引起的疾病中的应用 下一篇：一种基于LDA改进模型的驾驶事件聚类方法及系统

基于分层强化学习算法的飞行器决策方法和决策装置

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于分层强化学习算法的飞行器决策方法和决策装置

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表