一种空间飞行器的规避机动控制方法及装置与流程

未命名 07-04 阅读：147 评论：0

1.本发明涉及空间飞行器技术领域，特别涉及一种空间飞行器的规避机动控制方法及装置。

背景技术：

2.当前轨道冲突事件频发，给空间飞行器的安全带来严峻挑战，亟待发展相应的规避机动控制技术。
3.相关技术中，大多以双方的相对距离作为主要优化控制指标，并未能充分利用威胁可能存在探测盲区的特点进行规避。因此，一旦威胁对我方实施持续的加速尾随跟踪策略，就会导致我方空间飞行器采取同步加速的规避策略，以期保持恒定的安全距离，从而与威胁形成“你追我赶”的博弈形式，其代价就是规避机动消耗的能量较高。
4.基于此，目前亟待需要一种空间飞行器的规避机动控制方法及装置来解决规避机动消耗的能量较高的技术问题。

技术实现要素：

5.为了解决规避机动消耗的能量较高的技术问题，本说明书实施例提供了一种空间飞行器的规避机动控制方法及装置。
6.第一方面，本说明书实施例提供了一种空间飞行器的规避机动控制方法，包括：基于空间飞行器与一个威胁的位置和速度，确定是否改变所述空间飞行器的期望速度方向；基于所述空间飞行器与所述威胁的位置和最新的速度，构建所述空间飞行器的扰动矩阵；其中，所述扰动矩阵包含三种可调参数，所述可调参数分别为径向反应系数、切向反应系数和方向系数，所述径向反应系数和所述切向反应系数决定规避时机，所述方向系数决定规避方向；利用所述扰动矩阵对所述空间飞行器的最新的速度进行修正，得到所述空间飞行器的期望规避速度；基于所述期望规避速度和预设的轨道运动方程，得到所述空间飞行器的最终的轨控加速度，以将所述最终的轨控加速度作为所述空间飞行器的规避机动控制指令。
7.第二方面，本说明书实施例还提供了一种空间飞行器的规避机动控制装置，包括：确定模块，用于基于空间飞行器与一个威胁的位置和速度，确定是否改变所述空间飞行器的期望速度方向；构建模块，用于基于所述空间飞行器与所述威胁的位置和最新的速度，构建所述空间飞行器的扰动矩阵；其中，所述扰动矩阵包含可调的径向反应系数、切向反应系数和方向系数，所述径向反应系数和所述切向反应系数决定规避时机，所述方向系数决定规避方向；修正模块，用于利用所述扰动矩阵对所述空间飞行器的最新的速度进行修正，得
到所述空间飞行器的期望规避速度；输出模块，用于基于所述期望规避速度和预设的轨道运动方程，得到所述空间飞行器的最终的轨控加速度，以将所述最终的轨控加速度作为所述空间飞行器的规避机动控制指令。
8.第三方面，本说明书实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本说明书任一实施例所述的方法。
9.第四方面，本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行本说明书任一实施例所述的方法。
10.本说明书实施例提供了一种空间飞行器的规避机动控制方法及装置，通过基于空间飞行器与威胁的位置和最新的速度来构建空间飞行器的扰动矩阵，以利用扰动矩阵对空间飞行器的最新的速度进行修正而得到空间飞行器的期望规避速度，最后基于期望规避速度和预设的轨道运动方程，得到空间飞行器的最终的轨控加速度，以将最终的轨控加速度作为空间飞行器的规避机动控制指令。因此，上述方案可以使得空间飞行器具备在威胁处于己方后半球区域并进行持续尾随加速跟踪时突然转向适当逃逸方向的能力，以期以较小的能量消耗尽快进入威胁的探测盲区，这样有利于降低空间飞行器规避时的能量消耗。
附图说明
11.为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
12.图1是本说明书一实施例提供的一种空间飞行器的规避机动控制方法流程图；图2是本说明书一实施例提供的一种电子设备的硬件架构图；图3是本说明书一实施例提供的一种空间飞行器的规避机动控制装置结构图；图4是本说明书一实施例提供的空间飞行器的整体规避机动控制方法的流程示意图；图5是本说明书一实施例提供的空间飞行器的期望速度方向改变的触发条件的示意图；图6是本说明书一实施例提供的空间飞行器在期望速度方向改变时虚拟目标位置设定的示意图；图7是本说明书一实施例提供的深度强化学习的初始训练环境的示意图；图8是本说明书一实施例提供的仿真测试中空间飞行器和威胁的机动轨迹的示意图；图9是本说明书一实施例提供的仿真测试中空间飞行器和威胁的相对距离的示意图；图10是本说明书一实施例提供的仿真测试中空间飞行器和威胁的能量消耗的示意图；
图11是本说明书一实施例提供的仿真测试中威胁的目标视线角的示意图。
具体实施方式
13.为使本说明书实施例的目的、技术方案和优点更加清楚，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例，基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本说明书保护的范围。
14.请参考图1，本说明书实施例提供了一种空间飞行器的规避机动控制方法，该方法包括：步骤100：基于空间飞行器与一个威胁的位置和速度，确定是否改变空间飞行器的期望速度方向；步骤102：基于空间飞行器与威胁的位置和最新的速度，构建空间飞行器的扰动矩阵；其中，扰动矩阵包含三种可调参数，可调参数分别为径向反应系数、切向反应系数和方向系数，径向反应系数和切向反应系数决定规避时机，方向系数决定规避方向；步骤104：利用扰动矩阵对空间飞行器的最新的速度进行修正，得到空间飞行器的期望规避速度；步骤106：基于期望规避速度和预设的轨道运动方程，得到空间飞行器的最终的轨控加速度，以将最终的轨控加速度作为空间飞行器的规避机动控制指令。
15.在本实施例中，通过基于空间飞行器与威胁的位置和最新的速度来构建空间飞行器的扰动矩阵，以利用扰动矩阵对空间飞行器的最新的速度进行修正而得到空间飞行器的期望规避速度，最后基于期望规避速度和预设的轨道运动方程，得到空间飞行器的最终的轨控加速度，以将最终的轨控加速度作为空间飞行器的规避机动控制指令。因此，上述方案可以使得空间飞行器具备在威胁处于己方后半球区域并进行持续尾随加速跟踪时突然转向适当逃逸方向的能力，以期以较小的能量消耗尽快进入威胁的探测盲区，这样有利于降低空间飞行器规避时的能量消耗。
16.下面描述图1所示的各个步骤的执行方式。
17.针对步骤100：在本说明书一个实施例中，步骤100具体可以包括：如果空间飞行器与威胁的位置和速度全部满足预设的触发条件，则改变空间飞行器的期望速度方向，否则不改变空间飞行器的期望速度方向；触发条件包括：空间飞行器指向威胁的位置向量和空间飞行器的速度向量的向量夹角大于90
°
；威胁指向空间飞行器的位置向量和威胁的速度向量的向量夹角小于90
°
；空间飞行器和威胁的相对位置差小于预设的警戒距离；其中，警戒距离大于预设的安全距离，安全距离为规避过程中空间飞行器和威胁的最小距离。
18.在本实施例中，考虑到只有当威胁出现在空间飞行器的后半球区域并进行持续尾随加速跟踪时才可能会发生尾随追击的交会，因此为了避免这一情况的发生，需要在一定的触发条件下对空间飞行器的期望速度方向进行改变。
19.需要说明的是，如果空间飞行器和威胁为迎面飞行，由于空间飞行器可以实时探测威胁的位置和速度，因此这种情况只需要控制空间飞行器和威胁维持在安全距离之外即可，即控制空间飞行器的轨控加速度而无需改变空间飞行器的期望速度方向。
20.如图5所示，本发明方法的适用环境限定为：空间内仅存在一个非合作威胁，其可建模为动态球体，等效安全半径为（即规避过程中空间飞行器与威胁的距离需要始终大于）。此外，威胁具有相应的交会制导策略，可根据我方空间飞行器的规避动作进行机动。
21.基于双方相对运动的几何关系，构建是否改变空间飞行器的期望速度方向的触发条件，如下公式所示：其中，为双方在lvlh坐标系下的位置（p表示威胁，e表示我方空间飞行器，则双方速度为），表示向量夹角，为警戒距离，其值大于。
22.接着，为我方空间飞行器构造如下形式的最新的速度：式中，的幅值与完全相同，方向由指向；表示待设定的虚拟目标位置，用于驱动空间飞行器突然进行转向规避从而摆脱威胁探测范围。
23.在本说明书一个实施例中，令第一平面为威胁指向空间飞行器的位置向量和威胁的速度向量构成的平面，令第二平面为威胁指向空间飞行器的位置向量和空间飞行器的速度向量构成的平面；空间飞行器的期望速度方向是按照如下至少一种方式进行改变的：在威胁指向空间飞行器的位置向量和威胁的速度向量的向量夹角不等于0、威胁的速度向量位于第一平面中威胁指向空间飞行器的位置向量的左侧、威胁位于第二平面中空间飞行器的速度向量的左侧时，执行：解算出威胁相对空间飞行器的速度向量的对称位置；基于空间飞行器的位置和该对称位置确定出虚拟目标位置；将空间飞行器的期望速度方向确定为空间飞行器的位置指向该虚拟目标位置的方向；在威胁指向空间飞行器的位置向量和威胁的速度向量的向量夹角不等于0、威胁的速度向量位于第一平面中威胁指向空间飞行器的位置向量的左侧、威胁位于第二平面中空间飞行器的速度向量的右侧时，执行：基于空间飞行器和威胁的位置确定出虚拟目标位置；将空间飞行器的期望速度方向确定为空间飞行器的位置指向该虚拟目标位置的方向；在威胁指向空间飞行器的位置向量和威胁的速度向量的向量夹角不等于0、威胁的速度向量位于第一平面中威胁指向空间飞行器的位置向量的右侧、威胁位于第二平面中空间飞行器的速度向量的左侧时，执行：基于空间飞行器和威胁的位置确定出虚拟目标位置；将空间飞行器的期望速度方向确定为空间飞行器的位置指向该虚拟目标位置的方向；在威胁指向空间飞行器的位置向量和威胁的速度向量的向量夹角不等于0、威胁的速度向量位于第一平面中威胁指向空间飞行器的位置向量的右侧、威胁位于第二平面中空间飞行器的速度向量的右侧时，执行：解算出威胁相对空间飞行器的速度向量的对称位置；基于空间飞行器的位置和该对称位置确定出虚拟目标位置；将空间飞行器的期望速度
方向确定为空间飞行器的位置指向该虚拟目标位置的方向；在威胁指向空间飞行器的位置向量和威胁的速度向量的向量夹角等于0时，执行：基于空间飞行器和威胁的位置确定出虚拟目标位置；将空间飞行器的期望速度方向确定为空间飞行器的位置指向该虚拟目标位置的方向。
24.在本实施例中，通过对空间飞行器按照如上五种方式进行期望速度方向的改变，不仅可以避免与威胁交会，还可以用较小的能量消耗尽快进入威胁的探测盲区。
25.下面结合表1和图6对虚拟目标位置的设定进行举例。
26.表1 虚拟目标位置的设定逻辑注：表示矢量a和b构成的平面。
27.由表1中可以知道，或。当然，虚拟目标位置相对空间飞行器的位置、威胁的位置或威胁的上述对称位置的关系也可以是其它形式，在此不进行限定。
28.针对步骤102：基于空间飞行器与威胁的位置和最新的速度，构建空间飞行器的扰动矩阵。具体实现过程可以参见文献[基于扰动流体动态系统的无人机三维航路规划：方法与应用. 无人系统技术, 2018,1(1): 72-82]，在此不进行赘述。中包含可调参数，其中，和为分别为径向/切向反应系数，决定规避时机；为方向系数，决定规避方向。
[0029]
为了保证对空间飞行器的规避速度进行修正而得到期望规避速度，需要对参数进行优化。
[0030]
由于非合作轨道威胁的交会策略、机动能力等关键情报难以提前获取，因此现有研究大多通过对当前/历史状态信息进行逻辑推理的方式实现规避决策与机动控制，这种控制模式被称为慎思式控制，形式上表现为“状态-估计-预测-建模-规划-动作”的分层串行控制过程，计算求解流程较为复杂，各环节累加计算耗时较长，不利于对高机动性威胁做出快速反应。
[0031]
为了使得计算求解流程较短、计算效率较高，更有利于空间飞行器对非合作轨道威胁及时做出反应，具体体现在：一方面，相较于传统基于“状态-估计-预测-建模-规划-动作”过程的不完全信息轨道规避慎思式控制模式，本发明方法能够实现“状态-动作”端对端、短流程决策控制；另一方面，设计的机动控制算法没有复杂的数值计算过程。
[0032]
具体而言，在本说明书一个实施例中，在步骤102之后和在步骤104之前，具体还可以包括：利用actor-critic深度强化学习算法训练智能体，以得到目标神经网络；将构建的扰动矩阵的三种可调参数输入到目标神经网络中，输出优化后的三种可调参数，以利用优化后的扰动矩阵对空间飞行器的最新的速度进行修正。
[0033]
在本说明书一个实施例中，步骤“利用actor-critic深度强化学习算法训练智能体，以得到目标神经网络”具体可以包括：设置深度强化学习的初始训练环境；其中，训练环境包括空间飞行器的初始位置、威胁的初始位置和初始速度、威胁的交会制导策略；采用如下公式设置训练回合的终止条件：式中，reset为终止条件，cond1为规避失败判定条件，表示双方接近至安全距离内；cond2为规避成功判定条件，表示威胁的能量消耗超过设定阈值；cond3为规避成功判定条件，表示空间飞行器已进入威胁的探测盲区，为威胁的目标视线角幅值，tf为训练回合终止时的时刻，为确保威胁能够进行有效感知的最大视线角；其中，当终止条件等于1时，进入下一训练回合，同时重新设定空间飞行器的初始训练环境；设置智能体的观测量、动作量和奖励函数；其中，观测量与空间飞行器和威胁的位置和速度有关，动作量为扰动矩阵的三种可调参数；利用actor-critic深度强化学习算法训练智能体，直至奖励函数的均值曲线进入收敛状态；从训练得到的智能体中提取得到目标神经网络。
[0034]
在本实施例中，针对慎思式控制的固有缺陷，构建一种基于深度强化学习的反应式规避机动控制参数优化机制，在不完全信息条件下基于“状态-动作”的端对端控制模式快速生成上述机动控制策略的最优控制参数，实现对非合作轨道威胁的实时反应和安全规避，从而使得计算求解流程较短、计算效率较高，更有利于空间飞行器对非合作轨道威胁及时做出反应。
[0035]
下面结合图4和图7详细介绍对参数的优化过程。
[0036]
步骤s1、构建如图7所示的反应式规避机动控制的深度强化学习训练环境，设定空间飞行器的初始位置为，威胁初始位置和速度设置分别如下公式所示：
deterministic policy gradient）算法、soft actor-critic算法等训练相应的智能体，直至奖励函数的均值曲线进入收敛状态。
[0040]
步骤s5、从经过训练的智能体中提取相应的深度神经网络，继而基于图4所示的流程实现在线规避机动控制。即，一方面，神经网络根据当前观测量o（“状态”）生成最优扰动矩阵系数，并据此计算相应的扰动矩阵，另一方面，基于步骤s1构造的最新的速度，计算相应的（如未触发，则跳过此步）在此基础上，基于步骤s2构造的规避机动控制策略，解算轨控加速度（“动作”），最终实现“状态-动作”端对端、反应式的规避机动控制。
[0041]
针对步骤104：在本说明书一个实施例中，步骤104具体可以包括：采用如下公式组得到空间飞行器的期望规避速度：式中，为期望规避速度，为扰动矩阵，为径向反应系数，为切向反应系数，为方向系数，为空间飞行器的最新的速度，为空间飞行器的期望速度方向未改变时的速度，为威胁的速度，为空间飞行器的位置，为威胁的位置，为预设的安全距离，为修正速度。
[0042]
在本实施例中，利用扰动矩阵对空间飞行器的最新的速度进行修正，这样可以得到空间飞行器的期望规避速度，从而为后续得到更加准确的轨控加速度做准备。
[0043]
针对步骤106：在本说明书一个实施例中，步骤106具体可以包括：采用如下公式计算期望加速度：式中，为期望加速度，为期望规避速度，为空间飞行器的期望速度方向未改变时的速度，为控制器采样步长；预设的轨道运动方程（即clohessy-wiltshire轨道运动方程）采用如下公式组：式中，为双方在lvlh坐标系下的位置，p表示威胁，e表示空间飞行器，则双方速度为；为轨道角速度；为双方的轨控加速度；将期望加速度带入轨道运动方程中，以按照如下公式解算出指令轨控加速度：
式中，为指令轨控加速度；按照如下公式组对指令轨控加速度进行限幅处理，以得到空间飞行器的最终的轨控加速度：式中，为空间飞行器的最大轨控加速度。
[0044]
下面结合图8至图11介绍对威胁和空间飞行器的仿真测试情况。
[0045]
对威胁与空间飞行器机动能力相同时的情况进行仿真验证，仿真参数如下：威胁采用比例导引制导律，，，，，，，，。仿真计算机配置为：cpu amd ryzen 7-5800 3.40 ghz，ram 16 gb。双方的机动轨迹、相对距离和能量消耗情况分别见图8至图10，威胁的目标视线角见图11。
[0046] 结果可见，在规避机动过程中，双方相对距离始终保持在安全半径之外，空间飞行器在能量消耗大幅低于威胁的情况下最终进入威胁的探测盲区，实现成功规避。在计算时间方面，本发明方法的单步运行时间约在3-4 ms范围内，达到准实时，能够满足相应的快速反应需求。综上所述，面对持续尾随跟踪的威胁，本发明方法能够快速规划出适当的机动控制指令，使空间飞行器以较低的能量消耗代价实现安全规避。
[0047]
如图2、图3所示，本说明书实施例提供了一种空间飞行器的规避机动控制装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图2所示，为本说明书实施例提供的一种空间飞行器的规避机动控制装置所在电子设备的一种硬件架构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图3所示，作为一个逻辑意义上的装置，是通过其所在电子设备的cpu将非易失性存储器中对应的计算机程序读取到内存中运行形成的。
[0048]
如图3所示，本实施例提供的一种空间飞行器的规避机动控制装置，包括：确定模块300，用于基于空间飞行器与一个威胁的位置和速度，确定是否改变所述空间飞行器的期望速度方向；构建模块302，用于基于所述空间飞行器与所述威胁的位置和最新的速度，构建所述空间飞行器的扰动矩阵；其中，所述扰动矩阵包含可调的径向反应系数、切向反应系数和方向系数，所述径向反应系数和所述切向反应系数决定规避时机，所述方向系数决定规避方向；修正模块304，用于利用所述扰动矩阵对所述空间飞行器的最新的速度进行修正，得到所述空间飞行器的期望规避速度；
输出模块306，用于基于所述期望规避速度和预设的轨道运动方程，得到所述空间飞行器的最终的轨控加速度，以将所述最终的轨控加速度作为所述空间飞行器的规避机动控制指令。
[0049]
在本说明书实施例中，确定模块300可用于执行上述方法实施例中的步骤100，构建模块302可用于执行上述方法实施例中的步骤102，修正模块304可用于执行上述方法实施例中的步骤104，输出模块306可用于执行上述方法实施例中的步骤106。
[0050]
在本说明书的一个实施例中，所述确定模块，用于执行如下操作：如果所述空间飞行器与所述威胁的位置和速度全部满足预设的触发条件，则改变所述空间飞行器的期望速度方向，否则不改变所述空间飞行器的期望速度方向；所述触发条件包括：所述空间飞行器指向所述威胁的位置向量和所述空间飞行器的速度向量的向量夹角大于90
°
；所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角小于90
°
；所述空间飞行器和所述威胁的相对位置差小于预设的警戒距离；其中，所述警戒距离大于预设的安全距离，所述安全距离为规避过程中所述空间飞行器和所述威胁的最小距离。
[0051]
在本说明书的一个实施例中，令第一平面为所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量构成的平面，令第二平面为所述威胁指向所述空间飞行器的位置向量和所述空间飞行器的速度向量构成的平面；所述空间飞行器的期望速度方向是按照如下至少一种方式进行改变的：在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角不等于0、所述威胁的速度向量位于所述第一平面中所述威胁指向所述空间飞行器的位置向量的左侧、所述威胁位于所述第二平面中所述空间飞行器的速度向量的左侧时，执行：解算出所述威胁相对所述空间飞行器的速度向量的对称位置；基于所述空间飞行器的位置和该对称位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向；在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角不等于0、所述威胁的速度向量位于所述第一平面中所述威胁指向所述空间飞行器的位置向量的左侧、所述威胁位于所述第二平面中所述空间飞行器的速度向量的右侧时，执行：基于所述空间飞行器和所述威胁的位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向；在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角不等于0、所述威胁的速度向量位于所述第一平面中所述威胁指向所述空间飞行器的位置向量的右侧、所述威胁位于所述第二平面中所述空间飞行器的速度向量的左侧时，执行：基于所述空间飞行器和所述威胁的位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向；在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角不等于0、所述威胁的速度向量位于所述第一平面中所述威胁指向所述空间飞行器的位置
向量的右侧、所述威胁位于所述第二平面中所述空间飞行器的速度向量的右侧时，执行：解算出所述威胁相对所述空间飞行器的速度向量的对称位置；基于所述空间飞行器的位置和该对称位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向；在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角等于0时，执行：基于所述空间飞行器和所述威胁的位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向。
[0052]
在本说明书的一个实施例中，所述修正模块，用于执行如下操作：采用如下公式组得到所述空间飞行器的期望规避速度：式中，为所述期望规避速度，为所述扰动矩阵，为所述径向反应系数，为所述切向反应系数，为所述方向系数，为所述空间飞行器的最新的速度，为所述空间飞行器的期望速度方向未改变时的速度，为所述威胁的速度，为所述空间飞行器的位置，为所述威胁的位置，为预设的安全距离，为修正速度。
[0053]
在本说明书的一个实施例中，所述输出模块，用于执行如下操作：采用如下公式计算期望加速度：式中，为所述期望加速度，为所述期望规避速度，为所述空间飞行器的期望速度方向未改变时的速度，为控制器采样步长；预设的轨道运动方程采用如下公式组：式中，为双方在lvlh坐标系下的位置，p表示所述威胁，e表示所述空间飞行器，则双方速度为；为轨道角速度；为双方的轨控加速度；将所述期望加速度带入所述轨道运动方程中，以按照如下公式解算出指令轨控加速度：
式中，为指令轨控加速度；按照如下公式组对所述指令轨控加速度进行限幅处理，以得到所述空间飞行器的最终的轨控加速度：式中，为所述空间飞行器的最大轨控加速度。
[0054]
在本说明书的一个实施例中，还包括：训练模块，用于利用actor-critic深度强化学习算法训练智能体，以得到目标神经网络；优化模块，用于将构建的扰动矩阵的三种可调参数输入到所述目标神经网络中，输出优化后的三种可调参数，以利用优化后的扰动矩阵对所述空间飞行器的最新的速度进行修正。
[0055]
在本说明书的一个实施例中，所述训练模块，用于执行如下操作：设置深度强化学习的初始训练环境；其中，所述训练环境包括所述空间飞行器的初始位置、所述威胁的初始位置和初始速度、所述威胁的交会制导策略；采用如下公式设置训练回合的终止条件：式中，reset为所述终止条件，cond1为规避失败判定条件，表示双方接近至安全距离内；cond2为规避成功判定条件，表示所述威胁的能量消耗超过设定阈值；cond3为规避成功判定条件，表示所述空间飞行器已进入所述威胁的探测盲区，为所述威胁的目标视线角幅值，tf为训练回合终止时的时刻，为确保所述威胁能够进行有效感知的最大视线角；其中，当所述终止条件等于1时，进入下一训练回合，同时重新设定所述空间飞行器的初始训练环境；设置智能体的观测量、动作量和奖励函数；其中，所述观测量与所述空间飞行器和所述威胁的位置和速度有关，所述动作量为扰动矩阵的三种可调参数；利用actor-critic深度强化学习算法训练智能体，直至所述奖励函数的均值曲线进入收敛状态；从训练得到的智能体中提取得到目标神经网络。
[0056]
可以理解的是，本说明书实施例示意的结构并不构成对一种空间飞行器的规避机动控制装置的具体限定。在本说明书的另一些实施例中，一种空间飞行器的规避机动控制装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
[0057]
上述装置内的各模块之间的信息交互、执行过程等内容，由于与本说明书方法实施例基于同一构思，具体内容可参见本说明书方法实施例中的叙述，此处不再赘述。
[0058]
本说明书实施例还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本说明书任一实施例中的一种空间飞行器的规避机动控制方法。
[0059]
本说明书实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，使所述处理器执行本说明书任一实施例中的一种空间飞行器的规避机动控制方法。
[0060]
具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机（或cpu或mpu）读出并执行存储在存储介质中的程序代码。
[0061]
在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本说明书的一部分。
[0062]
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘（如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd+rw）、磁带、非易失性存储卡和rom。可选择地，可以由通信网络从服务器计算机上下载程序代码。
[0063]
此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。
[0064]
此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展模块上的cpu等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。
[0065]
需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0066]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。
[0067]
最后应说明的是：以上实施例仅用以说明本说明书的技术方案，而非对其限制；尽管参照前述实施例对本说明书进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本说明书各实施例技术方案的精神和范围。

技术特征：
1.一种空间飞行器的规避机动控制方法，其特征在于，包括：基于空间飞行器与一个威胁的位置和速度，确定是否改变所述空间飞行器的期望速度方向；基于所述空间飞行器与所述威胁的位置和最新的速度，构建所述空间飞行器的扰动矩阵；其中，所述扰动矩阵包含三种可调参数，所述可调参数分别为径向反应系数、切向反应系数和方向系数，所述径向反应系数和所述切向反应系数决定规避时机，所述方向系数决定规避方向；利用所述扰动矩阵对所述空间飞行器的最新的速度进行修正，得到所述空间飞行器的期望规避速度；基于所述期望规避速度和预设的轨道运动方程，得到所述空间飞行器的最终的轨控加速度，以将所述最终的轨控加速度作为所述空间飞行器的规避机动控制指令。2.根据权利要求1所述的方法，其特征在于，所述基于空间飞行器与一个威胁的位置和速度，确定是否改变所述空间飞行器的期望速度方向，包括：如果所述空间飞行器与所述威胁的位置和速度全部满足预设的触发条件，则改变所述空间飞行器的期望速度方向，否则不改变所述空间飞行器的期望速度方向；所述触发条件包括：所述空间飞行器指向所述威胁的位置向量和所述空间飞行器的速度向量的向量夹角大于90
°
；所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角小于90
°
；所述空间飞行器和所述威胁的相对位置差小于预设的警戒距离；其中，所述警戒距离大于预设的安全距离，所述安全距离为规避过程中所述空间飞行器和所述威胁的最小距离。3.根据权利要求1所述的方法，其特征在于，令第一平面为所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量构成的平面，令第二平面为所述威胁指向所述空间飞行器的位置向量和所述空间飞行器的速度向量构成的平面；所述空间飞行器的期望速度方向是按照如下至少一种方式进行改变的：在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角不等于0、所述威胁的速度向量位于所述第一平面中所述威胁指向所述空间飞行器的位置向量的左侧、所述威胁位于所述第二平面中所述空间飞行器的速度向量的左侧时，执行：解算出所述威胁相对所述空间飞行器的速度向量的对称位置；基于所述空间飞行器的位置和该对称位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向；在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角不等于0、所述威胁的速度向量位于所述第一平面中所述威胁指向所述空间飞行器的位置向量的左侧、所述威胁位于所述第二平面中所述空间飞行器的速度向量的右侧时，执行：基于所述空间飞行器和所述威胁的位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向；在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角不等
于0、所述威胁的速度向量位于所述第一平面中所述威胁指向所述空间飞行器的位置向量的右侧、所述威胁位于所述第二平面中所述空间飞行器的速度向量的左侧时，执行：基于所述空间飞行器和所述威胁的位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向；在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角不等于0、所述威胁的速度向量位于所述第一平面中所述威胁指向所述空间飞行器的位置向量的右侧、所述威胁位于所述第二平面中所述空间飞行器的速度向量的右侧时，执行：解算出所述威胁相对所述空间飞行器的速度向量的对称位置；基于所述空间飞行器的位置和该对称位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向；在所述威胁指向所述空间飞行器的位置向量和所述威胁的速度向量的向量夹角等于0时，执行：基于所述空间飞行器和所述威胁的位置确定出虚拟目标位置；将所述空间飞行器的期望速度方向确定为所述空间飞行器的位置指向该虚拟目标位置的方向。4.根据权利要求1所述的方法，其特征在于，所述利用所述扰动矩阵对所述空间飞行器的最新的速度进行修正，得到所述空间飞行器的期望规避速度，包括：采用如下公式组得到所述空间飞行器的期望规避速度：式中，为所述期望规避速度，为所述扰动矩阵，为所述径向反应系数，为所述切向反应系数，为所述方向系数，为所述空间飞行器的最新的速度，为所述空间飞行器的期望速度方向未改变时的速度，为所述威胁的速度，为所述空间飞行器的位置，为所述威胁的位置，为预设的安全距离，为修正速度。5.根据权利要求4所述的方法，其特征在于，所述基于所述期望规避速度和预设的轨道运动方程，得到所述空间飞行器的最终的轨控加速度，包括：采用如下公式计算期望加速度：式中，为所述期望加速度，为所述期望规避速度，为所述空间飞行器的期望速度方向未改变时的速度，为控制器采样步长；预设的轨道运动方程采用如下公式组：式中，为双方在lvlh坐标系下的位置，p表示所述威胁，e表示所
述空间飞行器，则双方速度为；为轨道角速度；为双方的轨控加速度；将所述期望加速度带入所述轨道运动方程中，以按照如下公式解算出指令轨控加速度：式中，为所述指令轨控加速度；按照如下公式组对所述指令轨控加速度进行限幅处理，以得到所述空间飞行器的最终的轨控加速度：式中，为所述空间飞行器的最大轨控加速度。6.根据权利要求1-5中任一项所述的方法，其特征在于，在所述构建所述空间飞行器的扰动矩阵之后和在所述利用所述扰动矩阵对所述空间飞行器的最新的速度进行修正之前，还包括：利用actor-critic深度强化学习算法训练智能体，以得到目标神经网络；将构建的扰动矩阵的三种可调参数输入到所述目标神经网络中，输出优化后的三种可调参数，以利用优化后的扰动矩阵对所述空间飞行器的最新的速度进行修正。7.根据权利要求6所述的方法，其特征在于，所述利用actor-critic深度强化学习算法训练智能体，以得到目标神经网络，包括：设置深度强化学习的初始训练环境；其中，所述训练环境包括所述空间飞行器的初始位置、所述威胁的初始位置和初始速度、所述威胁的交会制导策略；采用如下公式设置训练回合的终止条件：式中，reset为所述终止条件，cond1为规避失败判定条件，表示双方接近至安全距离内；cond2为规避成功判定条件，表示所述威胁的能量消耗超过设定阈值；cond3为规避成功判定条件，表示所述空间飞行器已进入所述威胁的探测盲区，为所述威胁的目标视线角幅值，t
f
为训练回合终止时的时刻，为确保所述威胁能够进行有效感知的最大视线角；其中，当所述终止条件等于1时，进入下一训练回合，同时重新设定所述
空间飞行器的初始训练环境；设置智能体的观测量、动作量和奖励函数；其中，所述观测量与所述空间飞行器和所述威胁的位置和速度有关，所述动作量为扰动矩阵的三种可调参数；利用actor-critic深度强化学习算法训练智能体，直至所述奖励函数的均值曲线进入收敛状态；从训练得到的智能体中提取得到目标神经网络。8.一种空间飞行器的规避机动控制装置，其特征在于，包括：确定模块，用于基于空间飞行器与一个威胁的位置和速度，确定是否改变所述空间飞行器的期望速度方向；构建模块，用于基于所述空间飞行器与所述威胁的位置和最新的速度，构建所述空间飞行器的扰动矩阵；其中，所述扰动矩阵包含可调的径向反应系数、切向反应系数和方向系数，所述径向反应系数和所述切向反应系数决定规避时机，所述方向系数决定规避方向；修正模块，用于利用所述扰动矩阵对所述空间飞行器的最新的速度进行修正，得到所述空间飞行器的期望规避速度；输出模块，用于基于所述期望规避速度和预设的轨道运动方程，得到所述空间飞行器的最终的轨控加速度，以将所述最终的轨控加速度作为所述空间飞行器的规避机动控制指令。9.一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一项所述的方法。10.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项所述的方法。

技术总结
本发明涉及空间飞行器技术领域，特别涉及一种空间飞行器的规避机动控制方法及装置。其中，该方法包括：基于空间飞行器与一个威胁的位置和速度，确定是否改变所述空间飞行器的期望速度方向；基于所述空间飞行器与所述威胁的位置和最新的速度，构建所述空间飞行器的扰动矩阵；利用所述扰动矩阵对所述空间飞行器的最新的速度进行修正，得到所述空间飞行器的期望规避速度；基于所述期望规避速度和预设的轨道运动方程，得到所述空间飞行器的最终的轨控加速度，以将所述最终的轨控加速度作为所述空间飞行器的规避机动控制指令。本发明能够解决规避机动消耗的能量较高的技术问题。避机动消耗的能量较高的技术问题。避机动消耗的能量较高的技术问题。

技术研发人员：吴健发魏春岭张海博李克行黄盘兴董峰姜甜甜
受保护的技术使用者：北京控制工程研究所
技术研发日：2023.02.13
技术公布日：2023/5/4

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：火星大气进入过程轨迹跟踪制导系统及方法与流程 下一篇：一种太阳翼的二维驱动装置的制作方法

一种空间飞行器的规避机动控制方法及装置与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种空间飞行器的规避机动控制方法及装置与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表