非合作目标附着多节点智能协同制导方法

未命名 08-27 阅读：124 评论：0

1.本发明涉及一种协同制导方法，尤其涉及非合作目标附着的多节点智能协同制导方法，属于深空探测技术领域。

背景技术：

2.随着航天技术的发展，针对小天体等空间非合作目标的附着探测成为研究重点。在小天体附着过程中，由于小天体引力弱、环境扰动复杂，传统的刚性着陆器在着陆时存在反弹倾覆的风险。柔性着陆器的柔性结构能够消耗着陆时的残余动能，其面状构型增大着陆时的接触面积，从而避免着陆器发生反弹倾覆，提高小天体附着任务的可靠性。柔性着陆器采用三节点构型，并通过柔性材料连接，每个节点处安装推力器和敏感器。在小天体附着过程中，为保证导航测量信息的获取，需要保持着陆器姿态平稳。然而，环境扰动和导航观测误差容易导致三节点状态不一致，使着陆器发生翻转，对制导技术提出了较高要求。当前，针对复杂多约束下单目标附着制导方法研究较为成熟，使用基于最优控制的制导方法能够满足精确附着的要求，但柔性着陆器制导还面临以下难点：一方面，柔性着陆器各节点运动相互牵连耦合，直接应用单目标制导方法难以满足姿态平稳约束。另一方面，多节点控制推力方向可能产生冲突，从而造成不必要的燃料消耗。为了实现柔性着陆器的平稳附着，考虑末端状态约束、姿态平稳约束、控制推力约束，每个着陆器节点对应一个智能体，使用多智能体强化学习方法训练多智能体，用于多节点协同制导。

技术实现要素：

3.针对柔性着陆器非合作目标附着问题，本发明的主要目的是提供一种非合作目标附着多节点智能协同制导方法，采用主推力加补偿推力的协同制导架构，并使用能量最优控制策略计算主推力，用于满足末端状态约束。针对多节点协同附着问题符合多智能体马尔可夫决策过程的特点，构建用于确定多节点补偿推力制导参数的多智能体系统，通过多智能体强化学习算法训练多智能体，每个节点根据对应智能体给出制导参数，计算补偿推力。在训练过程中，根据三节点状态设计奖赏函数用于满足姿态平稳约束，提高附着安全性；根据三节点动作设计神经网络损失函数用于减少节点推力冲突和推力饱和，降低燃料消耗，在保持着陆器姿态平稳基础上实现着陆器到目标点的精确附着。
4.本发明公开的非合作目标附着多节点智能协同制导方法，包括如下步骤：
5.步骤一、针对柔性着陆器三节点协同附着问题，采用主推力加补偿推力的协同制导架构。基于协同制导架构确定每个节点的制导指令包括两部分：主推力保证每个节点能够实现到目标的双零附着，补偿推力用于保持附着过程中着陆器姿态平稳，减小节点推力冲突。使用零控位移偏差/零控速度偏差(zem/zev)方法计算主推力，并采取滚动优化的能量最优控制策略计算补偿推力，所述能量最优控制策略中待优化的制导参数包括k
ri
、k
vi
和tc，k
ri
、k
vi
和tc通过后续步骤二、三确定。
6.步骤一的具体实现方法为：
7.柔性着陆器采用三节点构型，通过柔性材料包裹连接，三节点以中心对称形式分布。在着陆点坐标系o-xyz中，第i个节点位置、速度、姿态与角速度表示为ri、vi、qi、ωi，节点动力学方程如下：
[0008][0009]
其中，m为节点质量，g为小天体表面引力加速度，i为节点转动惯量，符号表示四元数直乘，ti为节点控制推力，f
ei
为节点受到的柔性力，m
ei
为节点受到的柔性力矩。
[0010]
构建如下形式的协同制导架构
[0011]
ti＝t
0i
+t
ci (2)
[0012]
其中，t
0i
为节点i的主推力，用于控制节点实现双零附着，t
ci
为节点i的补偿推力，用于保持附着过程中着陆器姿态平稳，同时减小节点间推力冲突。
[0013]
定义附着过程飞行时间为tf，当前时刻为t，剩余飞行时间为
[0014]
t
go
＝t
f-t (3)
[0015]
主推力使用zem/zev方法计算
[0016][0017]
其中，r
fi
和v
fi
分别为第i个节点的目标位置和速度。由此得到的主推力能够使附着过程满足末端状态约束。
[0018]
定义着陆器形心位置矢量ro及节点相对形心位置矢量r
oi
，着陆器整体形心速度矢量vo及节点相对形心速度矢量v
oi
，着陆器平面单位法向量n
[0019][0020]
根据三节点着陆目标位置r
f1
、r
f2
、r
f3
，可计算得到三节点相对形心的目标位置，在着陆过程中，通过施加补偿推力使三节点保持相对目标位置即可在无扰动的情况下保证着陆器姿态平稳。补偿推力使用滚动优化的最优控制策略计算，定义滚动优化时间为tc，tc要小于tf，构建能量最优控制问题求解补偿推力。
[0021][0022]
其中，r
fo
和v
fo
为着陆器形心的目标位置与速度，k
ri
与k
vi
为补偿推力的制导参数，其标称值为[6,6,6]
t
和[2,2,2]
t
。由此得到的补偿推力满足姿态平稳约束。
[0023]
考虑到附着过程中存在导航观测误差和环境干扰，且需要减少多节点推力冲突造成的燃料损失，将k
ri
、k
vi
和tc设为待优化的制导参数。
[0024]
步骤二、针对多节点协同附着问题符合多智能体马尔可夫决策过程的特点，构建用于确定多节点补偿推力制导参数的多智能体系统。每个着陆器节点对应一个智能体，一个智能体由一组actor-critic神经网络构成，多个节点对应智能体组成多智能体系统。每组actor-critic神经网络以着陆器动力学给出的着陆器节点状态为输入，以节点补偿推力的制导参数k
ri
、k
vi
和tc为输出，构建用于确定制导参数k
ri
、k
vi
和tc的智能体。所述多智能体系统输出的多组制导参数共同作用于着陆器动力学模型，实现对全部节点状态的控制，解决多节点运动牵连耦合问题。
[0025]
步骤二的具体实现方法为：
[0026]
在三节点协同附着问题中，考虑节点主推力差异较小，着陆器姿态只与柔性力、补偿推力、上一时刻姿态相关，因此该问题可构建为马尔可夫决策决策过程。马尔可夫决策过程包含一组交互对象，即智能体与环境。环境包含公式(1)所示柔性着陆器动力学、状态空间、动作空间。
[0027]
选取状态空间s与动作空间a
[0028][0029]
其中，r
other
为其他节点位置矢量，状态空间为22维，动作空间为10维。
[0030]
智能体即神经网络，其输入为环境提供的状态空间变量，输出为动作空间变量，智能体根据节点状态确定制导参数，从而计算得到补偿推力，补偿推力作用于环境，改变状态空间。在多节点协同附着任务中，每个着陆器节点对应一个智能体，智能体由actor-critic神经网络构成，多个节点对应智能体组成多智能体系统。actor网络和critic网络均由输入层、输出层和三层中间层神经网络构成。actor网络输入层包含22个神经元，输出层包含10个神经元，中间层每层包含64个神经元，激活函数为relu函数。actor网络输入层包含32个神经元，输出层包含1个神经元，中间层每层包含64个神经元，激活函数为relu函数。
[0031]
actor网络即策略网络πw，其输入为状态输出为动作，用于拟合策略函数π
*
[0032]
πw(s,a)
→
π
*
(s,a) (8)
[0033]
其中，w为神经网络参数。策略函数是一个概率密度函数，即在状态s执行动作a的概率。设置合适的奖赏函数r(s,a)，根据状态和所选动作可计算奖赏值，用于评价状态s下动作a的好坏。critic网络输入为状态与动作输出为奖赏值，用于拟合价值函数q
π
(s,a)，价值函数表示使用策略π时状态s下动作a的好坏，用于评价策略。
[0034]
步骤三、构建用于使着陆器满足姿态平稳约束的奖赏函数，通过奖赏函数提高附
着安全性；构建用于使着陆器多节点满足控制推力约束的神经网络损失函数，减少节点推力冲突和推力饱和，降低燃料消耗。使用多智能体强化学习算法训练步骤二构建的多智能体。在训练步骤二构建的多智能体的过程中，通过多智能体系统与柔性着陆器动力学模型的不断交互训练得到用于输出节点制导参数k
ri
、k
vi
和tc的智能体。
[0035]
步骤三的具体实现方法为：
[0036]
在马尔可夫决策过程的基础上，使用多智能体强化学习算法训练步骤二构建的多智能体。在训练过程中，随机选取初始状态，由三节点位置可计算着陆器的姿态欧拉角θ、ψ，根据平稳着陆需求，设计奖赏函数
[0037][0038]
其中，θf、ψf为期望的姿态欧拉角，可通过相对目标位置计算。当着陆器姿态与期望姿态产生偏差时，产生一个与偏差值相关的惩罚值。
[0039]
多智能体系统与环境不断交互的过程中，将时间数据、状态、动作与对应奖赏值存储在经验池中。经过设定代数的交互，对多个智能体中的神经网络参数进行更新。首先对经验池中的数据进行随机采样，样本个数为n，并根据采样数据计算网络损失函数
[0040][0041]
其中，和分别为节点i对应智能体中critic网络和actor网络的损失函数，期望损失函数越小越好，和为第i个节点t时刻状态和动作，u为所采集样本的时间数据的集合，γ为学习率。
[0042]
由于critic网络用于评价策略，通过设计其损失函数的方式可以影响策略函数，即改变动作选取的概率密度函数。考虑三节点协同附着任务的姿态平稳需求，定义姿态翻转损失项
[0043][0044]
其中，α为着陆器倾角，即着陆器法向量与目标法向量的夹角，用于评价着陆器翻转程度，α越小，l1损失项越小。当着陆器姿态不平稳时，着陆器倾角α》0，此时不同节点法向补偿推力差值较大，损失项越小，即期望通过较大的法向补偿推力来实现快速恢复姿态平稳。
[0045]
考虑节点间推力冲突会造成不必要的燃料消耗，定义推力冲突损失项
[0046][0047]
当控制推力方向不一致时产生损失项，减小推力冲突。
[0048]
考虑节点推力幅值约束，定义推力约束损失项
[0049][0050]
其中，t
max
为最大推力，节点控制推力达到饱和时产生损失项。
[0051]
根据三节点协同附着要求设计的损失项为
[0052]
l＝k1l1+k2l2+k3l3, k1,k2,k3》0 (14)
[0053]
其中，k1、k2、k3为参数项。
[0054]
由此设计critic网络损失函数
[0055][0056]
根据采样数据计算得到的损失函数，对神经网络参数求梯度，使用梯度下降策略更新网络参数，通过不断迭代完成多智能体的训练过程。每个节点对应智能体的输入为本节点状态与其他节点位置，输出为本节点补偿推力的制导参数。
[0057]
步骤四：在着陆器着陆过程中，每个智能体根据本节点运动状态与其他节点位置信息输出本节点补偿推力的制导参数k
ri
、k
vi
和tc，结合步骤一构建的滚动优化的能量最优控制策略，计算得到对应节点补偿推力。通过主推力保证附着过程满足末端状态约束，通过补偿推力在主推力基础上对主推力进行修正，使着陆器满足姿态平稳约束，提高附着过程的安全性，同时减小节点推力冲突，满足控制推力约束，降低附着过程的燃料消耗，且在保持着陆器姿态平稳基础上实现着陆器到目标点的精确附着。
[0058]
有益效果：
[0059]
1、本发明公开的非合作目标附着多节点智能协同制导方法，针对柔性着陆器三节点协同附着问题，采用主推力加补偿推力的协同制导架构。基于协同制导架构确定每个节点的制导指令包括两部分：使用零控位移偏差/零控速度偏差方法计算主推力，保证每个节点能够实现到目标的双零附着；采取滚动优化的能量最优控制策略计算补偿推力，用于保持附着过程中着陆器姿态平稳，减小节点推力冲突。
[0060]
2、本发明公开的非合作目标附着多节点智能协同制导方法，针对多节点协同附着问题符合多智能体马尔可夫决策过程的特点，构建用于确定多节点补偿推力制导参数的多智能体系统。每个着陆器节点对应一个智能体，一个智能体由一组actor-critic神经网络构成，多个节点对应智能体组成多智能体系统。智能体用于确定补偿推力的制导参数k
ri
、k
vi
和tc，多智能体系统输出的多组制导参数共同作用于着陆器动力学，实现对全部节点状态的控制，解决多节点运动牵连耦合问题。
[0061]
3、本发明公开的非合作目标附着多节点智能协同制导方法，构建用于使着陆器满足姿态平稳约束的奖赏函数，通过奖赏函数提高附着安全性；构建用于使着陆器多节点满足控制推力约束的神经网络损失函数，通过姿态翻转损失项使着陆器快速恢复平稳姿态，通过推力冲突损失项减小三节点推力冲突，通过推力约束损失项减少节点推力饱和，降低燃料消耗。使用多智能体强化学习算法训练多智能体，通过多智能体系统与柔性着陆器动力学的不断交互训练得到用于输出节点制导参数k
ri
、k
vi
和tc的智能体。
[0062]
4、本发明公开的非合作目标附着多节点智能协同制导方法，在着陆器着陆过程中，每个智能体根据本节点运动状态与其他节点位置信息输出本节点补偿推力的制导参数k
ri
、k
vi
和tc，保证执行过程的快速性和实时性。将得到的制导参数k
ri
、k
vi
和tc结合滚动优化
的能量最优控制策略，计算得到对应节点补偿推力，通过补偿推力在主推力基础上对主推力进行修正，使着陆器满足姿态平稳约束，提高附着过程的安全性，同时减小节点推力冲突，满足控制推力约束，降低附着过程的燃料消耗，且在保持着陆器姿态平稳基础上实现着陆器到目标点的精确附着。
附图说明
[0063]
图1为非合作目标附着多节点智能协同制导方法流程图；
[0064]
图2为多智能体系统示意图；
[0065]
图3为柔性着陆器三节点飞行轨迹；
[0066]
图4为柔性着陆器倾角曲线；
[0067]
图5为柔性着陆器三节点主推力曲线；
[0068]
图6为柔性着陆器三节点补偿推力曲线；
[0069]
图7为柔性着陆器三节点控制推力曲线。
具体实施方式
[0070]
为了更好的说明本发明的目的和优点，下面结合实施例和相应附图对

技术实现要素：
做进一步说明。
[0071]
为了验证方法可行性，以小天体柔性附着任务为例，进行柔性着陆器多节点智能协同制导方法的仿真。柔性着陆器节点质量m＝333kg，节点转动惯量i＝[15.51,0,0；0,15.51,0；0,0,21.08]kg
·
m2，节点最大推力t
max
＝25n，小天体引力加速度g＝[0,0,-0.001]m/s2，着陆器允许的最大倾角为10
°
。选取三节点初始位置分别为[30.6,10,50]m、[29.7,10.52,50]m、[29.7,9.48,50]m，三节点初始速度分别为[-0.1,0,0]m/s、[-0.1,0,0.05]m/s、[-0.1,0,0.1]m/s，三节点目标位置分别为[0.6,0,0]m、[-0.3,0.52,0]m、[-0.3,-0.52,0]m，三节点目标速度均为[0,0,0]m/s，着陆器飞行时间为100s。
[0072]
如图1所示，本实施例公开的非合作目标附着多节点智能协同制导方法，具体实现步骤如下：
[0073]
步骤一、针对柔性着陆器三节点协同附着问题，采用主推力加补偿推力的协同制导架构。基于协同制导架构确定每个节点的制导指令包括两部分：主推力保证每个节点能够实现到目标的双零附着，补偿推力用于保持附着过程中着陆器姿态平稳，减小节点推力冲突。使用零控位移偏差/零控速度偏差(zem/zev)方法计算主推力，并采取滚动优化的能量最优控制策略计算补偿推力，所述能量最优控制策略中待优化的制导参数包括k
ri
、k
vi
和tc，k
ri
、k
vi
和tc通过后续步骤二、三确定。
[0074]
步骤一的具体实现方法为：
[0075]
柔性着陆器采用三节点构型，通过柔性材料包裹连接，三节点以中心对称形式分布。在着陆点坐标系o-xyz中，第i个节点位置、速度、姿态与角速度表示为ri、vi、qi、ωi，节点动力学方程如下：
[0076][0077]
其中，m为节点质量，g为小天体表面引力加速度，i为节点转动惯量，符号表示四元数直乘，ti为节点控制推力，f
ei
为节点受到的柔性力，m
ei
为节点受到的柔性力矩。
[0078]
构建如下形式的协同制导架构
[0079]
ti＝t
0i
+t
ci (17)
[0080]
其中，t
0i
为节点i的主推力，用于控制节点实现双零附着，t
ci
为节点i的补偿推力，用于保持附着过程中着陆器姿态平稳，同时减小节点间推力冲突。
[0081]
定义附着过程飞行时间为tf，当前时刻为t，剩余飞行时间为
[0082]
t
go
＝t
f-t (18)
[0083]
主推力使用zem/zev方法计算
[0084][0085]
其中，r
fi
和v
fi
分别为第i个节点的目标位置和速度。由此得到的主推力能够使附着过程满足末端状态约束。
[0086]
定义着陆器形心位置矢量ro及节点相对形心位置矢量r
oi
，着陆器整体形心速度矢量vo及相对形心速度矢量v
oi
，着陆器平面单位法向量n
[0087][0088]
根据三节点着陆目标位置r
f1
、r
f2
、r
f3
，可计算得到三节点相对形心的目标位置，在着陆过程中，通过施加补偿推力使三节点保持相对目标位置即可在无扰动的情况下保证着陆器姿态平稳。补偿推力使用滚动优化的最优控制策略计算，定义滚动优化时间为tc，tc要小于tf，构建能量最优控制问题求解补偿推力。
[0089][0090]
其中，r
fo
和v
fo
为着陆器形心的目标位置与速度，k
ri
与k
vi
为补偿推力的制导参数，其标称值为[6,6,6]
t
和[2,2,2]
t
。由此得到的补偿推力可以满足姿态平稳约束。
[0091]
考虑到附着过程中存在导航观测误差和环境干扰，且需要减少多节点推力冲突造成的燃料损失，将k
ri
、k
vi
和tc设为待优化的制导参数。
[0092]
步骤二、针对多节点协同附着问题符合多智能体马尔可夫决策过程的特点，构建用于确定多节点补偿推力制导参数的多智能体系统。每个着陆器节点对应一个智能体，一个智能体由一组actor-critic神经网络构成，多个节点对应智能体组成多智能体系统。每组actor-critic神经网络以着陆器动力学给出的着陆器节点状态为输入，以节点补偿推力的制导参数k
ri
、k
vi
和tc为输出，构建用于确定制导参数k
ri
、k
vi
和tc的智能体。所述多智能体系统输出的多组制导参数共同作用于着陆器动力学模型，实现对全部节点状态的控制，解决多节点运动牵连耦合问题。
[0093]
步骤二的具体实现方法为：
[0094]
三节点协同附着问题中，考虑节点主推力差异较小，着陆器姿态只与柔性力、补偿推力、上一时刻姿态相关，因此该问题可构建为马尔可夫决策决策过程。马尔可夫决策过程包含一组交互对象，即智能体与环境。环境包含公式(16)所示柔性着陆器动力学、状态空间、动作空间。
[0095]
选取状态空间s与动作空间a
[0096][0097]
其中，r
other
为其他节点位置矢量，状态空间为22维，动作空间为10维。
[0098]
智能体即神经网络，其输入为环境提供的状态空间变量，输出为动作空间变量，智能体根据节点状态确定制导参数，从而计算得到补偿推力，补偿推力作用于环境，改变状态空间。在多节点协同附着任务中，每个着陆器节点对应一个智能体，智能体由actor-critic神经网络构成，多个节点对应智能体组成如图2所示的多智能体系统。actor网络和critic网络均由输入层、输出层和三层中间层神经网络构成。actor网络输入层包含22个神经元，输出层包含10个神经元，中间层每层包含64个神经元，激活函数为relu函数。actor网络输入层包含32个神经元，输出层包含1个神经元，中间层每层包含64个神经元，激活函数为relu函数。
[0099]
actor网络即策略网络πw，其输入为状态输出为动作，用于拟合策略函数π
*
[0100]
πw(s,a)
→
π
*
(s,a) (23)
[0101]
其中，w为神经网络参数。策略函数是一个概率密度函数，即在状态s执行动作a的概率。设置合适的奖赏函数r(s,a)，根据状态和所选动作可计算奖赏值，用于评价状态s下动作a的好坏。critic网络输入为状态与动作输出为奖赏值，用于拟合价值函数q
π
(s,a)，价值函数表示使用策略π时状态s下动作a的好坏，用于评价策略。
[0102]
步骤三、构建用于使着陆器满足姿态平稳约束的奖赏函数，通过奖赏函数提高附着安全性；构建用于使着陆器多节点满足控制推力约束的神经网络损失函数，减少节点推力冲突和推力饱和，降低燃料消耗。使用多智能体强化学习算法训练步骤二构建的多智能体。在训练步骤二构建的多智能体的过程中，通过多智能体系统与柔性着陆器动力学模型的不断交互训练得到用于输出节点制导参数k
ri
、k
vi
和tc的智能体。
[0103]
步骤三的具体实现方法为：
[0104]
在马尔可夫决策过程的基础上，使用多智能体强化学习算法训练步骤二构建的多
智能体。在训练过程中，随机选取初始状态，由三节点位置可计算着陆器的姿态欧拉角θ、ψ，根据平稳着陆需求，设计奖赏函数
[0105][0106]
其中，θf、ψf为期望的姿态欧拉角，本实施例中均为零。当着陆器姿态与期望姿态产生偏差时，产生一个与偏差值相关的惩罚值。
[0107]
神经网络与环境不断交互的过程中，将时间数据、状态、动作与对应奖赏值存储在经验池中。每经过1000代的交互，对神经网络参数进行更新。首先对经验池中的数据进行随机采样，样本个数为n，并根据采样数据计算网络损失函数
[0108][0109]
其中，和分别为critic网络和actor网络的损失函数，期望损失函数越小越好，和为第i个节点t时刻状态和动作，u为所采集样本的时间数据的集合，γ为学习率。选取采样个数n＝256，学习率γ＝0.95.
[0110]
由于critic网络用于评价策略，通过设计其损失函数的方式可以影响策略函数，即改变动作选取的概率密度函数。考虑三节点协同附着任务的姿态平稳需求，定义姿态翻转损失项
[0111][0112]
其中，α为着陆器倾角，即着陆器法向量与目标法向量的夹角，用于评价着陆器翻转程度，α越小，l1损失项越小。当着陆器姿态不平稳时，着陆器倾角α》0，此时不同节点法向补偿推力差值较大，损失项越小，即期望通过较大的法向补偿推力来实现快速恢复姿态平稳。
[0113]
考虑节点间推力冲突会造成不必要的燃料消耗，定义推力冲突损失项
[0114][0115]
当控制推力方向不一致时产生损失项，减小推力冲突。
[0116]
考虑节点推力幅值约束，定义推力约束损失项
[0117][0118]
其中，t
max
为最大推力，节点控制推力达到饱和时产生损失项。
[0119]
根据三节点协同附着要求设计的损失项为
[0120]
l＝k1l1+k2l2+k3l3, k1,k2,k3》0 (29)
[0121]
其中，k1、k2、k3为参数项，选取k1＝1，k2＝0.01，k3＝0.1。
[0122]
由此设计critic网络损失函数
[0123][0124]
根据采样数据计算得到的损失函数，对神经网络参数求梯度，使用梯度下降策略更新网络参数，通过100000次迭代完成智能体训练过程。每个节点对应智能体的输入为本节点状态与其他节点位置，输出为本节点补偿推力的制导参数。
[0125]
步骤四、在着陆器着陆过程中，每个智能体根据本节点运动状态与其他节点位置信息输出本节点补偿推力的制导参数k
ri
、k
vi
和tc，结合步骤一构建的滚动优化的能量最优控制策略，计算得到对应节点补偿推力。通过主推力保证附着过程满足末端状态约束，通过补偿推力在主推力基础上对主推力进行修正，使着陆器满足姿态平稳约束，提高附着过程的安全性，同时减小节点推力冲突，满足控制推力约束，降低附着过程的燃料消耗，且在保持着陆器姿态平稳基础上实现着陆器到目标点的精确附着。
[0126]
步骤四的具体实现方法为：
[0127]
每个节点根据自身位置和速度，使用zem/zev制导方法计算本节点主推力，每个节点对应的智能体根据本节点运动状态与其他节点位置信息确定本节点补偿推力的制导参数k
ri
、k
vi
和tc，并结合滚动优化的能量最优控制方法计算节点补偿推力。考虑柔性着陆器动力学参数存在
±
10％范围的随机误差；节点获取其他节点信息时存在
±
10％范围的随机误差；执行机构存在扰动，实际推力为
[0128][0129]
其中，为第i个节点t时刻的推力扰动，大小为
±
1n范围的随机数。
[0130]
在上述误差与扰动条件下进行仿真，图3为着陆器飞行轨迹，可以看出在主推力和补偿推力的共同作用下，着陆器能够精确到达目标点，附着过程满足末端状态约束；图4为着陆器倾角曲线，在三节点初始速度不一致情况下，该方法能够保持着陆器姿态平稳，提高了附着过程的安全性；图5、6、7分别为柔性着陆器三节点的主推力曲线、补偿推力曲线、控制推力幅值曲线，三节点推力冲突较小，且均满足推力幅值约束。
[0131]
以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.非合作目标附着多节点智能协同制导方法，其特征在于：包括如下步骤，步骤一、针对柔性着陆器三节点协同附着问题，采用主推力加补偿推力的协同制导架构；基于协同制导架构确定每个节点的制导指令包括两部分：主推力保证每个节点能够实现到目标的双零附着，补偿推力用于保持附着过程中着陆器姿态平稳，减小节点推力冲突；使用零控位移偏差/零控速度偏差zem/zev方法计算主推力，并采取滚动优化的能量最优控制策略计算补偿推力；所述能量最优控制策略中待优化的制导参数包括k
ri
、k
vi
和t
c
，k
ri
、k
vi
和t
c
，通过后续步骤二、三确定；步骤二、针对多节点协同附着问题符合多智能体马尔可夫决策过程的特点，构建用于确定多节点补偿推力制导参数的多智能体系统；每个着陆器节点对应一个智能体，一个智能体由一组actor-critic神经网络构成，多个节点对应智能体组成多智能体系统；每组actor-critic神经网络以着陆器动力学给出的着陆器节点状态为输入，以节点补偿推力的制导参数k
ri
、k
vi
和t
c
为输出，构建用于确定制导参数k
ri
、k
vi
和t
c
的智能体；所述多智能体系统输出的多组制导参数共同作用于着陆器动力学模型，实现对全部节点状态的控制，解决多节点运动牵连耦合问题；步骤三、构建用于使着陆器满足姿态平稳约束的奖赏函数，通过奖赏函数提高附着安全性；构建用于使着陆器多节点满足控制推力约束的神经网络损失函数，减少节点推力冲突和推力饱和，降低燃料消耗；使用多智能体强化学习算法训练步骤二构建的多智能体；在训练步骤二构建的多智能体的过程中，通过多智能体系统与柔性着陆器动力学的不断交互训练得到用于输出节点制导参数k
ri
、k
vi
和t
c
的智能体；步骤四：在着陆器着陆过程中，每个智能体根据本节点运动状态与其他节点位置信息输出本节点补偿推力的制导参数k
ri
、k
vi
和t
c
，结合步骤一构建的滚动优化的能量最优控制策略，计算得到对应节点补偿推力；通过主推力保证附着过程满足末端状态约束，通过补偿推力在主推力基础上对主推力进行修正，使着陆器满足姿态平稳约束，提高附着过程的安全性，同时减小节点推力冲突，满足控制推力约束，降低附着过程的燃料消耗，且在保持着陆器姿态平稳基础上实现着陆器到目标点的精确附着。2.如权利要求1所述的非合作目标附着多节点智能协同制导方法，其特征在于：步骤一的具体实现方法为：柔性着陆器采用三节点构型，通过柔性材料包裹连接，三节点以中心对称形式分布；在着陆点坐标系o-xyz中，第i个节点位置、速度、姿态与角速度表示为r
i
、v
i
、q
i
、ω
i
，节点动力学方程如下：其中，m为节点质量，g为小天体表面引力加速度，i为节点转动惯量，符号表示四元数直乘，t
i
为节点控制推力，f
ei
为节点受到的柔性力，m
ei
为节点受到的柔性力矩；构建如下形式的协同制导架构t
i
＝t
0i
+t
ci (2)
其中，t
0i
为主推力，用于控制节点实现双零附着，t
ci
为补偿推力，用于保持附着过程中着陆器姿态平稳，同时减小节点间推力冲突；定义附着过程飞行时间为t
f
，当前时刻为t，剩余飞行时间为t
go
＝t
f-t (3)主推力使用zem/zev方法计算其中，r
fi
和v
fi
分别为第i个节点的目标位置和速度；由此得到的主推力能够使附着过程满足末端状态约束；定义着陆器形心位置矢量r
o
及节点相对形心位置矢量r
oi
，着陆器整体形心速度矢量v
o
及相对形心速度矢量v
oi
，着陆器平面单位法向量n根据三节点着陆目标位置r
f1
、r
f2
、r
f3
，可计算得到三节点相对形心的目标位置，在着陆过程中，通过施加补偿推力使三节点保持相对目标位置即能够在无扰动的情况下保证着陆器姿态平稳；补偿推力使用滚动优化的最优控制策略计算，定义滚动优化时间为t
c
，t
c
要小于t
f
，构建能量最优控制问题求解补偿推力；其中，r
fo
和v
fo
为着陆器形心的目标位置与速度，k
ri
与k
vi
为补偿推力的制导参数，其标称值为[6,6,6]
t
和[2,2,2]
t
；由此得到的补偿推力满足姿态平稳约束；考虑到附着过程中存在导航观测误差和环境干扰，且需要减少多节点推力冲突造成的燃料损失，将k
ri
、k
vi
和t
c
设为待优化的制导参数。3.如权利要求2所述的非合作目标附着多节点智能协同制导方法，其特征在于：步骤二的具体实现方法为，在三节点协同附着问题中，考虑节点主推力差异较小，着陆器姿态只与柔性力、补偿推力、上一时刻姿态相关，因此该问题可构建为马尔可夫决策决策过程；马尔可夫决策过程包含一组交互对象，即智能体与环境；环境包含公式(1)所示柔性着陆器动力学、状态空间、动作空间；
选取状态空间s与动作空间a其中，r
other
为其他节点位置矢量，状态空间为22维，动作空间为10维；智能体即神经网络，其输入为环境提供的状态空间变量，输出为动作空间变量，智能体根据节点状态确定制导参数，从而计算得到补偿推力，补偿推力作用于环境，改变状态空间；在多节点协同附着任务中，每个着陆器节点对应一个智能体，智能体由actor-critic神经网络构成，多个节点对应智能体组成多智能体系统；actor网络和critic网络均由输入层、输出层和三层中间层神经网络构成；actor网络输入层包含22个神经元，输出层包含10个神经元，中间层每层包含64个神经元，激活函数为relu函数；actor网络输入层包含32个神经元，输出层包含1个神经元，中间层每层包含64个神经元，激活函数为relu函数；actor网络即策略网络π
w
，其输入为状态输出为动作，用于拟合策略函数π
*
π
w
(s,a)
→
π
*
(s,a)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中，w为神经网络参数；策略函数是一个概率密度函数，即在状态s执行动作a的概率；设置合适的奖赏函数r(s,a)，根据状态和所选动作可计算奖赏值，用于评价状态s下动作a的好坏；critic网络输入为状态与动作输出为奖赏值，用于拟合价值函数q
π
(s,a)，价值函数表示使用策略π时状态s下动作a的好坏，用于评价策略。4.如权利要求3所述的非合作目标附着多节点智能协同制导方法，其特征在于：步骤三的具体实现方法为，在马尔可夫决策过程的基础上，使用多智能体强化学习算法训练步骤二构建的多智能体；在训练过程中，随机选取初始状态，由三节点位置可计算着陆器的姿态欧拉角θ、ψ，根据平稳着陆需求，设计奖赏函数其中，θ
f
、ψ
f
为期望的姿态欧拉角，通过相对目标位置计算；当着陆器姿态与期望姿态产生偏差时，产生一个与偏差值相关的惩罚值；多智能体系统与环境不断交互的过程中，将时间数据、状态、动作与对应奖赏值存储在经验池中；经过设定代数的交互，对多个智能体中的神经网络参数进行更新；对经验池中的数据进行随机采样，样本个数为n，并根据采样数据计算网络损失函数其中，和分别为节点i对应智能体中critic网络和actor网络的损失函数，期望损失函数越小越好，和为第i个节点t时刻状态和动作，u为所采集样本的时间数据的集合，γ为学习率；由于critic网络用于评价策略，通过设计其损失函数的方式影响策略函数，即改变动作选取的概率密度函数；考虑三节点协同附着任务的姿态平稳需求，定义姿态翻转损失项
其中，α为着陆器倾角，即着陆器法向量与目标法向量的夹角，用于评价着陆器翻转程度，α越小，l1损失项越小；当着陆器姿态不平稳时，着陆器倾角α>0，此时不同节点法向补偿推力差值较大，损失项越小，即期望通过较大的法向补偿推力来实现快速恢复姿态平稳；考虑节点间推力冲突会造成不必要的燃料消耗，定义推力冲突损失项当控制推力方向不一致时产生损失项，减小推力冲突；考虑节点推力幅值约束，定义推力约束损失项其中，t
max
为最大推力，节点控制推力达到饱和时产生损失项；根据三节点协同附着要求设计的损失项为l＝k1l1+k2l2+k3l3,k1,k2,k3>0 (14)其中，k1、k2、k3为参数项；由此设计critic网络损失函数根据采样数据计算得到的损失函数，对神经网络参数求梯度，使用梯度下降策略更新网络参数，通过不断迭代完成多智能体的训练过程；每个节点对应智能体的输入为本节点状态与其他节点位置，输出为本节点补偿推力的制导参数。

技术总结
本发明公开的非合作目标附着多节点智能协同制导方法，属于深空探测技术领域。本发明实现方法为：采用主推力加补偿推力的协同制导架构，主推力用于保证每个节点实现到目标的双零附着，补偿推力用于保持附着过程中着陆器姿态平稳，减小节点推力冲突。使用能量最优控制策略计算主推力。针对多节点协同附着问题符合多智能体马尔可夫决策过程的特点，构建用于确定多节点补偿推力制导参数的多智能体系统。每个节点根据节点对应智能体给出制导参数，结合滚动优化的能量最优控制策略计算补偿推力。根据三节点状态设计奖赏函数用于满足姿态平稳约束，提升安全性；根据三节点动作设计神经网络损失函数减少节点推力冲突和推力饱和，降低燃料消耗。燃料消耗。燃料消耗。

技术研发人员：梁子璇吕畅崔平远朱圣英葛丹桐龙嘉腾
受保护的技术使用者：北京理工大学
技术研发日：2023.07.12
技术公布日：2023/8/24

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种风力发电轴承生产的加工设备的制作方法 下一篇：从紫苏醛废渣中回收锰的熔剂、方法及制备软磁用四氧化三锰的应用与流程

非合作目标附着多节点智能协同制导方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

非合作目标附着多节点智能协同制导方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表