一种考虑障碍约束的航天器在线博弈规划方法、装置及介质
未命名
07-04
阅读:164
评论:0
1.本发明实施例涉及航天器轨道控制技术领域,尤其涉及一种考虑障碍约束的航天器在线博弈规划方法、装置及介质。
背景技术:
2.连续形式的微分博弈给出了完全信息下的保守的、安全策略,但是这是一种开环策略,随着对手方的更改必须重新计算新的策略,难以在实际中应用。脉冲机动下的航天器序列博弈由于计算时间问题同样很难在轨应用,比较适合离线场景下的博弈问题分析,难以满足航天器在轨博弈规划的要求。
3.一般的轨道博弈问题需要考虑更多的因素,如避免与其它航天器的碰撞、以及潜在的与其它第三方航天之间的交互等,缺少处理此类问题的有效方法。
技术实现要素:
4.有鉴于此,本发明实施例期望提供一种考虑障碍约束的航天器在线博弈规划方法、装置及介质;能够考虑存在障碍航天器场景,设计安全且有效的博弈策略实现第三方航天器规避的在线博弈规划,采用非线性模型预测控制方法,利用局部近似加滚动优化的思想只计算一定范围内的博弈问题,降低计算压力。
5.本发明实施例的技术方案是这样实现的:
6.第一方面,本发明实施例提供了一种考虑障碍约束的航天器在线博弈规划方法,包括:
7.构建参与博弈航天器的非线性动力学模型;
8.在当前回合,决策航天器通过测量获得自身、对手航天器和障碍航天器的初始状态向量,并基于所述初始状态向量通过所述动力学模型获得无控状态下的设定窗口长度的决策航天器状态信息序列;
9.在当前迭代,根据所述决策航天器状态信息序列以及所述动力学模型,通过基于相对角度和距离的对手航天器目标函数预测所述对手航天器设定窗口长度的状态信息序列估计;
10.根据所述对手航天器状态信息序列估计,通过所述决策航天器博弈目标函数求解决策航天器控制序列并更新所述决策航天器状态信息序列;
11.如果不满足设定的迭代结束条件,则进入下一迭代;否则,则结束迭代,根据所述决策航天器控制序列输出决策航天器最优控制量,以使得所述决策航天器根据所述最优控制量控制自身的运行后进入下一回合博弈。
12.第二方面,本发明实施例提供了一种考虑障碍约束的航天器在线博弈规划装置,包括建模部分、测量部分、预测部分、求解部分和决策部分;其中,
13.所述建模部分,经配置为构建参与博弈航天器的非线性动力学模型;
14.所述测量部分,经配置为在当前回合,决策航天器通过测量获得自身、对手航天器
和障碍航天器的初始状态向量,并基于所述初始状态向量通过所述动力学模型获得无控状态下的设定窗口长度的决策航天器状态信息序列;
15.所述预测部分,经配置为在当前迭代,根据所述决策航天器状态信息序列以及所述动力学模型,通过基于相对角度和距离的对手航天器目标函数预测所述对手航天器设定窗口长度的状态信息序列估计;
16.所述求解部分,经配置为根据所述对手航天器状态信息序列估计,通过所述决策航天器博弈目标函数求解决策航天器控制序列并更新所述决策航天器状态信息序列;
17.所述决策部分,经配置为如果不满足设定的迭代结束条件,则进入下一迭代;否则,则结束迭代,根据所述决策航天器控制序列输出决策航天器最优控制量,以使得所述决策航天器根据所述最优控制量控制自身的运行后进入下一回合博弈。
18.第三方面,本发明实施例提供了一种计算设备,所述计算设备包括:通信接口,存储器和处理器;各个组件通过总线系统耦合在一起;其中,
19.所述通信接口,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
20.所述存储器,用于存储能够在所述处理器上运行的计算机程序;
21.所述处理器,用于在运行所述计算机程序时,执行第一方面中所述考虑障碍约束的航天器在线博弈规划方法步骤,这里不再进行赘述。
22.第四方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有考虑障碍约束的航天器在线博弈规划程序,所述考虑障碍约束的航天器在线博弈规划程序被至少一个处理器执行时实现第一方面所述考虑障碍约束的航天器在线博弈规划方法步骤。
23.本发明实施例提供了一种考虑障碍约束的航天器在线博弈规划方法、装置及介质;决策航天器通过测量获得自身、对手航天器和障碍航天器的初始状态向量,并基于初始状态向量通过动力学模型获得无控状态下的设定窗口长度的决策航天器状态信息序列,采用非线性模型预测控制方法,只需要对手航天器的当前状态信息针对博弈双方求解同样的最小化或者最大化问题,并且能够更好的考虑执行机构的约束;循环迭代地预测对手航天器状态信息序列后求解更新自身的控制序列,利用局部近似加滚动优化的思想只计算一定范围内的博弈问题,不同于生存型微分博弈问题以博弈时间作为目标,由于不知未来博弈何时结束,在轨实时博弈的博弈优化目标为一预测窗口内的局部目标函数,降低了计算压力。
附图说明
24.图1为本发明实施例提供的太阳光干扰约束的航天器追逃场景示意图;
25.图2为本发明实施例提供的考虑障碍约束的航天器在线博弈规划方法流程示意图;
26.图3为本发明实施例提供的迭代最佳响应算法示意图;
27.图4为本发明实施例提供的无障碍场景博弈规划轨迹仿真图;
28.图5为本发明实施例提供的无障碍场景博弈过程相对位置与相对角度变化仿真图;
29.图6为本发明实施例提供的无障碍场景博弈过程相对位置分量仿真图;
30.图7为本发明实施例提供的无障碍场景博弈过程速度分量仿真图;
31.图8为本发明实施例提供的无障碍场景博弈过程控制输入分量仿真图;
32.图9为本发明实施例提供的无障碍场景博弈过程控制输入仿真图;
33.图10为本发明实施例提供的无障碍场景博弈过程值函数变化仿真图;
34.图11为本发明实施例提供的障碍约束场景1博弈规划轨迹仿真图;
35.图12为本发明实施例提供的障碍约束场景1博弈过程相对位置与相对角度变化仿真图;
36.图13为本发明实施例提供的障碍约束场景2博弈规划轨迹仿真图;
37.图14为本发明实施例提供的障碍约束场景2博弈过程相对位置与相对角度变化仿真图;
38.图15为本发明实施例提供的一种考虑障碍约束的航天器在线博弈规划装置组成示意图;
39.图16为本发明实施例提供的一种计算设备的硬件结构示意图。
具体实施方式
40.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
41.存在太阳光干扰约束下的两同质航天器博弈场景,参与博弈的追踪航天器和逃跑航天器试图在可能存在其他障碍或者第三方航天器场景下,使己方利益最大化或者损失最小化。具体的太阳光干扰下的可见性如图1所示,参与博弈的航天器双方博弈的目标对于追踪航天器来说是实现最佳的接近观测,对于逃跑航天器来说是破坏其最佳观测。追踪航天器的主要目标是实现接近观测中保证最佳的观测角度和相对距离。逃跑航天器的主要目标是实现破环观测条件。由于相对夹角是相对的,当破坏了对手航天器的观测夹角时自然处于顺光观测位置。
42.参见图2,本发明实施例提供的一种考虑障碍约束的航天器在线博弈规划方法,所述方法可以应用于决策航天器,可以理解地,决策航天器既可以是追踪航天器,也可以是逃跑航天器,所述方法包括:
43.s201:构建参与博弈航天器的非线性动力学模型;
44.s202:在当前回合,决策航天器通过测量获得自身、对手航天器和障碍航天器的初始状态向量,并基于所述初始状态向量通过所述动力学模型获得无控状态下的设定窗口长度的决策航天器状态信息序列;
45.s203:在当前迭代,根据所述决策航天器状态信息序列以及所述动力学模型,通过基于相对角度和距离的对手航天器目标函数预测所述对手航天器设定窗口长度的状态信息序列估计;
46.s204:根据所述对手航天器状态信息序列估计,通过所述决策航天器博弈目标函数求解决策航天器控制序列并更新所述决策航天器状态信息序列;
47.s205:如果不满足设定的迭代结束条件,则进入下一迭代;否则,则结束迭代,根据所述决策航天器控制序列输出决策航天器最优控制量,以使得所述决策航天器根据所述最
优控制量控制自身的运行后进入下一回合博弈。
48.对于图2所示的技术方案,在一些可能的实现方式中,所述构建参与博弈航天器的非线性动力学模型,包括:
49.构建参与博弈航天器的非线性动力学模型如下式所示:
[0050][0051]
其中,xi=[xi,yi,zi,v
xi
,v
yi
,v
zi
]
t
,i∈{p,e,obs}表示博弈场景中的所有航天器,包括追踪航天器p、逃跑航天器e,以及可能存在的其他障碍或第三方航天器obs;ts表示时间间隔;k表示离散时间;
[0052]
所述动力学模型遵守非线性相对运动动力学,如下式所示:
[0053][0054]
其中,x,y,z表示lvlh坐标系下的相对位置,v
x
,vy,vz为lvlh坐标系下相对速度,n表示轨道角速度,m表示航天器质量,t
x
,ty,tz表示推力分量大小,μ表示引力常数,r
earth
表示地球半径,j2表示地球非球形摄动,rc表示参考轨道半径,α表示轨道倾角,β表示纬度辐角。
[0055]
对于图2所示的技术方案,在一些可能的实现方式中,所述在当前迭代,根据所述决策航天器状态信息序列以及所述动力学模型,通过基于相对角度和距离的对手航天器目标函数预测所述对手航天器设定窗口长度的状态信息序列估计,包括:
[0056]
如果所述决策航天器为追踪航天器,根据所述决策航天器状态信息序列即追踪航天器状态信息序列,通过求解逃跑航天器在约束条件下博弈目标函数的最大值预测设定窗口长度的逃跑航天器状态信息序列估计如下式所示:
[0057][0058][0059]
其中,x
obs
表示障碍航天器状态变量,r
obs
表示障碍航天器半径,r
rob
表示航天器之间的安全距离,θ表示追踪航天器和逃跑航天器连线与逃跑航天器和太阳连线之间的夹角,n表示预测窗口长度,表示逃跑航天器的位置约束,表示逃跑航天器的控制约束,m表示最大迭代次数,d表示距离函数,q、qn表示归一化权重。
[0060]
需要说明的是,逃跑航天器的博弈目标为破坏追踪航天器的观测条件,即在博弈结束时刻相对距离‖x
pe
(tf)‖大于安全距离r
emin
,且终端视线角θ(tf)越小越好,d(xe,x
obs,i
)≥(r
obs
+r
rob
)表征了逃跑航天器与障碍航天器的距离约束,xe(k+1)=fe(xe(k),ue(k))表征了动力学约束,表征了逃跑航天器的位置约束,表征了逃跑航天器的控制约束。
[0061]
如果所述决策航天器为逃跑航天器,根据所述决策航天器状态信息序列逃跑航天器状态信息序列,通过求解追踪航天器目标函数在约束条件下的最小值预测设定窗口长度的追踪航天器状态信息序列估计如下式所示:
[0062][0063]
[0064]
其中,x
obs
表示障碍航天器状态变量,r
obs
表示障碍航天器半径,r
rob
表示航天器之间的安全距离,θ表示追踪航天器和逃跑航天器连线与逃跑航天器和太阳连线之间的夹角,n表示预测窗口长度,表示追踪航天器的位置约束,表示追踪航天器的控制约束,m表示最大迭代次数,d表示距离函数,q、qn表示归一化权重。
[0065]
需要说明的是,追踪航天器的博弈目标是试图实现预定的观测条件,即博弈结束时刻相对距离‖x
pe
(tf)‖小于成像距离r
pmax
,且终端视线角θ(tf)越大越好,d(x
p
,x
obs,i
)≥(r
obs
+r
rob
)表征了追踪航天器与障碍航天器的距离约束,x
p
(k+1)=f
p
(x
p
(k),u
p
(k))表征了动力学约束,表征了追踪航天器的位置约束,表征了追踪航天器的控制约束。
[0066]
还需要说明的是,在首次迭代过程中,所述决策航天器预测对手航天器的状态信息序列需要基于测量获得的初始状态信息xe(0)、x
p
(0)、x
obs
(0)以及决策航天器设定窗口长度(即n个阶段)的状态信息,由于在首次迭代中认为决策航天器处于无控状态,因此根据无控状态下动力学模型获得决策航天器的n个阶段状态信息;由于障碍航天器或第三方航天器不进行博弈控制,认为其对应的控制输入为0;在后续的迭代中,对所述对手航天器控制序列估计进行预测时,决策航天器n个阶段的状态信息则根据上一迭代中求解获得的决策航天器状态信息进行更新获得;还可以看到,采用非线性模型预测控制方法,只需要通过测量获得对手航天器的当前状态信息,循环迭代地针对博弈双方求解同样的最小化或者最大化问题,从而获得决策航天器控制律的最优解,并且能够更好地考虑执行机构的约束;此外,目标函数的设计未将控制输入作为优化目标,使得博弈双方在进行激烈的追逃博弈时避免了因尽量考虑燃料消耗导致不能实现最优策略的问题。
[0067]
对于图2所示的技术方案,在一些可能的实现方式中,所述根据所述对手航天器状态信息序列估计,通过所述决策航天器博弈目标函数求解决策航天器的控制序列并更新相应的决策航天器状态信息序列,包括:
[0068]
如果所述决策航天器为追踪航天器,根据预测获得的所述对手航天器(即逃跑航天器)状态信息序列估计,通过求解追踪航天器目标函数最小值获取追踪航天器控制序列并更新相应的追踪航天器状态信息序列,如下式所示:
[0069][0070]
[0071]
其中,为当前迭代中预测的逃跑航天器状态信息序列估计,x
obs
表示障碍航天器状态变量,r
obs
表示障碍航天器半径,r
rob
表示航天器之间的安全距离,θ表示追踪航天器和逃跑航天器连线与逃跑航天器和太阳连线之间的夹角,n表示预测窗口长度,表示逃跑航天器的位置约束,表示逃跑航天器的控制约束,m表示最大迭代次数,d表示距离,q、qn表示归一化权重。
[0072]
如果所述决策航天器为逃跑航天器,根据预测获得的所述对手航天器(即追踪航天器)状态信息序列估计,求解逃跑航天器目标函数最大值获取逃跑航天器控制序列并更新相应的逃跑航天器状态信息序列,如下式所示:
[0073][0074][0075]
其中,为当前迭代中当前迭代中预测的追踪航天器状态信息序列估计,x
obs
表示障碍航天器状态变量,r
obs
表示障碍航天器半径,r
rob
表示航天器之间的安全距离,θ表示追踪航天器和逃跑航天器连线与逃跑航天器和太阳连线之间的夹角,n表示预测窗口长度,表示逃跑航天器的位置约束,表示逃跑航天器的控制约束,m表示最大迭代次数,d表示距离,q、qn表示归一化权重。
[0076]
对于图2所示的技术方案,在一些可能的实现方式中,所述如果不满足设定的迭代结束条件,则进入下一迭代;否则,则结束迭代,根据所述决策航天器控制序列输出决策航天器最优控制量,包括:
[0077]
根据允许的决策时间人为设定最大迭代次数;
[0078]
如果当前迭代达到最大迭代次数时,则结束迭代,最后一次迭代计算获得的所述决策航天器控制序列的第一个动作为决策航天器最优控制量;
[0079]
如果当前迭代未达到最大迭代次数,如果最后一次迭代的所述决策航天器与所述对手航天器目标函数值满足|j p-je|≤∈,其中∈表示误差上界,则结束迭代,最后一次迭代计算获得的所述决策航天器控制序列的第一个控制量为决策航天器最优控制量;否则进入下一迭代。
[0080]
需要说明的是,在追逃场景下,追逃航天器双方进行零和博弈,即:
[0081]
[0082]
追踪航天器和逃跑航天器使用同一个目标函数进行描述,即:
[0083]
j(u
p
,ue)=j
p
(u
p
,ue)=-je(u
p
,ue)=tf[0084]
逃跑航天器和追踪航天器各自的目标可以描述为:
[0085][0086]
在零和博弈情况下,当达到纳什均衡时,值函数满足实际情况下完全相等的值函数很难获得,当达到时,认为到达了近似纳什均衡。通常求解纳什均衡是一个非常困难的问题,尤其是存在约束的情况下,本发明实施例使用迭代最佳响应方法求解局部近似纳什均衡,图3示出了本发明实施例提供的迭代最佳响应算法示意图,追逃航天器双方通过测量获得自身和对方的状态信息后,追踪航天器p在求解问题p
′
之前需要先求解对手航天器e的策略,对手航天器e的策略通过求解问题得到,在求解对手航天器问题时,对手航天器按照追踪航天器p无控状态下应对。当追踪航天器p针对对手航天器e的策略做出响应之后,继续求解逃跑航天器的更新的策略,然后进一步求解己方的更新策略。重复上述过程直至双方不能继续更新自身的策略,从而达到纳什均衡,然后输出追踪航天器的最优策略,即同样地,首先通过求解最小化问题获得对手方的最优策略,然后将获得输出作为一个输入求解最大化问题e
′
进行策略更新,不断进行策略迭代,直至达到最优策略;可以理解地,循环迭代地预测对手航天器状态信息序列后求解更新自身的控制序列,利用局部近似加滚动优化的思想只计算一定范围内的博弈问题,不同于生存型微分博弈问题以博弈时间作为目标,由于不知未来博弈何时结束,在轨实时博弈的博弈优化目标为一预测窗口内的局部目标函数,降低了计算压力。
[0087]
基于前述技术方案,本发明实施例针对无障碍约束和有障碍约束的追逃航天器博弈场景进行仿真实验,仿真参数为设置如下:
[0088]
考虑一圆参考轨道,轨道参数如下:
[0089]
轨道半长轴a=12756km,轨道偏心率e=0,轨道倾角α=0
°
,纬度辐角β=0
°
,升交点赤经ω=0
°
;
[0090]
追踪航天器与逃跑航天器质量相同m
p
=me=2000kg,最大推力t
p
=300n,te=100n,追逃航天器初始状态信息参数如下表1所示:
[0091][0092]
表1
[0093]
目标函数是博弈航天器博弈目标的直接体现,为了平衡相对夹角与相对距离之间的量级差异,统一归一化到相同大小,目标函数中权重参数选择如下:
[0094]
q(x)=10i,q(x)n=5000i,q(θ)=10,q(θ)n=10;
[0095]
其中不同的权重体现博弈航天器对相对距离和相对角度之间的关注程度,模型预
测的预测时间ts=100s,n=10,cn=10;考虑计算时间,计算近似纳什均衡过程中每一轮迭代次数m=4;由于没有博弈结束的时间,为了分析整个博弈过程追逃航天器的表现,仿真时间取近似一个轨道周期14000s。
[0096]
基于上述仿真参数,按照前述图2所示的技术方案进行仿真,仿真结果如下:图4示出了采用本发明实施例技术方案的无障碍场景博弈规划轨迹仿真图;图5示出了本发明实施例提供的无障碍场景博弈过程相对位置与相对角度变化仿真图;图6示出了本发明实施例提供的无障碍场景博弈过程相对位置分量仿真图;图7示出了本发明实施例提供的无障碍场景博弈过程速度分量仿真图;图8示出了本发明实施例提供的无障碍场景博弈过程控制输入分量仿真图;图9示出了本发明实施例提供的无障碍场景博弈过程控制输入仿真图;图10示出了本发明实施例提供的无障碍场景博弈过程值函数变化仿真图。由图4可以看出,追逃双方围绕太阳视线的半平面进行博弈,都试图占据顺光位置,但由于追踪航天器机动能力占据优势,因此能够处于优势地位;由图5可以看出,博弈刚开始,追逃航天器的相对距离逐渐升高,但是随后迅速降低,追踪航天器在约6000s相对距离最小66.76km,且处于顺光观测条件,随后博弈航天器间的相对距离在一定范围内波动,相对夹角也在半平面附近进行波动,这表明逃跑航天器一直被追踪航天器进行压制;由图6和图7可以看出,追踪航天器试图复制逃跑航天器的轨迹并保持在顺光方向,随着博弈的进行,波动的幅度逐渐降低,表明追踪航天器占据优势地位,这与图4中博弈轨迹越来越相似的结论一致;由图9可以看出,追逃博弈双方在多数时间总是选择最大的加速度进行机动;由图10可以看出,当采用迭代最佳响应求解纳什均衡策略时,当双方值函数收敛到一个共同值时,双方同时达到最优策略,即但是考虑计算时间,给定一定的迭代次数,实现时,认为双方实现了近似纳什均衡。
[0097]
障碍约束场景1考虑当存在第三方障碍航天器时的博弈行为,考虑在最优路径上设置障碍航天器约束,即博弈航天器需要避免接近障碍航天器,设置规避航天器的障碍区域r
obs
=20km,障碍航天器位置参数设置如下表2所示:
[0098][0099]
表2
[0100]
图11示出了本发明实施例提供的障碍约束场景1博弈规划轨迹仿真图;图12示出了本发明实施例提供的障碍约束场景1博弈过程相对位置与相对角度变化仿真图;由图11
可以看出,博弈过程中追踪航天器选择了首先避开第一个障碍物,而逃跑航天器由于障碍物的限制只能选择在障碍物中穿梭;对比有无障碍物航天器的博弈过程中相对距离和相对角度变化仿真图12和图5可以发现,当存在障碍物时,导致在约7500秒时最近相对距离40.687km,相对角度更大,从仿真结果可以发现,障碍物的存在对逃跑航天器的影响更大,导致其在博弈初始阶段落后。
[0101]
障碍约束场景2考虑设置障碍航天器位于追踪航天器的路径上,障碍航天器位置参数设置如下表3所示:
[0102][0103]
表3
[0104]
图13示出了本发明实施例提供的障碍约束场景2博弈规划轨迹仿真图;图14示出了本发明实施例提供的障碍约束场景2博弈过程相对位置与相对角度变化仿真图;由图13和图14可以看出,由于初始博弈阶段障碍物的存在导致追踪航天器在7400秒处达到最小的相对距离58.075km,博弈初始阶段相对距离逐渐增加,在4000秒之后,此时追踪航天器已经穿越障碍区域,相对距离迅速减少,相对角度迅速增加,在5000秒附近达到一个峰值,这一阶段是追踪航天器迅速提升阶段,之后逃跑航天器不断降低相对夹角,但是相对距离保持在一个相对稳定的阶段。对比追踪航天器与逃跑航天器受障碍物影响的仿真试验,由于障碍物的存在导致穿过障碍物区域之后追踪航天器难以实现更小的相对距离,一旦进入一个相对稳定的动态区间,博弈双方很难进一步优化,而是处于一个此消彼长的动态平衡阶段。
[0105]
基于前述技术方案相同的发明构思,参见图15,其示出了本发明实施例提供的一种考虑障碍约束的航天器在线博弈规划装置150,所述装置150包括:建模部分1501、测量部分1502、预测部分1503、求解部分1504和决策部分1505;其中,
[0106]
所述建模部分1501,经配置为构建参与博弈航天器的非线性动力学模型;
[0107]
所述测量部分1502,经配置为在当前回合,决策航天器通过测量获得自身、对手航天器和障碍航天器的初始状态向量,并基于所述初始状态向量通过所述动力学模型获得无控状态下的设定窗口长度的决策航天器状态信息序列;
[0108]
所述预测部分1503,经配置为在当前迭代,根据所述决策航天器状态信息序列以及所述动力学模型,通过基于相对角度和距离的对手航天器目标函数预测所述对手航天器设定窗口长度的状态信息序列估计;
[0109]
所述求解部分1504,经配置为根据所述对手航天器状态信息序列估计,通过所述
决策航天器博弈目标函数求解决策航天器控制序列并更新所述决策航天器状态信息序列;
[0110]
所述决策部分1505,经配置为如果不满足设定的迭代结束条件,则进入下一迭代;否则,则结束迭代,根据所述决策航天器控制序列输出决策航天器最优控制量,以使得所述决策航天器根据所述最优控制量控制自身的运行后进入下一回合博弈。
[0111]
需要说明的是,对于上述装置中,各“部分”所配置功能的具体实现,可参见前述图2所示考虑障碍约束的航天器在线博弈规划方法中相对应步骤的实现方式及其示例,在此不再赘述。
[0112]
可以理解地,在本实施例中,“部分”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是单元,还可以是模块也可以是非模块化的。
[0113]
另外,在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0114]
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0115]
因此,本实施例提供了一种计算机存储介质,所述计算机存储介质存储有考虑障碍约束的航天器在线博弈规划程序,所述考虑障碍约束的航天器在线博弈规划程序被至少一个处理器执行时实现上述技术方案中所述考虑障碍约束的航天器在线博弈规划方法步骤。
[0116]
根据上述考虑障碍约束的航天器在线博弈规划装置150以及计算机存储介质,参见图16,其示出了本发明实施例提供的一种能够实施上述考虑障碍约束的航天器在线博弈规划装置150的计算设备160的具体硬件结构,该计算设备160可以为无线装置、移动或蜂窝电话(包含所谓的智能电话)、个人数字助理(pda)、视频游戏控制台(包含视频显示器、移动视频游戏装置、移动视频会议单元)、膝上型计算机、桌上型计算机、电视机顶盒、平板计算装置、电子书阅读器、固定或移动媒体播放器,等。计算设备160包括:通信接口1601,存储器1602和处理器1603;各个组件通过总线系统1604耦合在一起。可理解,总线系统1604用于实现这些组件之间的连接通信。总线系统1604除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图16中将各种总线都标为总线系统1604。其中,
[0117]
所述通信接口1601,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
[0118]
所述存储器1602,用于存储能够在所述处理器1603上运行的计算机程序;
[0119]
所述处理器1603,用于在运行所述计算机程序时,执行前述技术方案中所述考虑障碍约束的航天器在线博弈规划方法步骤,这里不再进行赘述。
[0120]
可以理解,本发明实施例中的存储器1602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synchlink dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本文描述的系统和方法的存储器1602旨在包括但不限于这些和任意其它适合类型的存储器。
[0121]
而处理器1603可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1603中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1603可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1602,处理器1603读取存储器1602中的信息,结合其硬件完成上述方法的步骤。
[0122]
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0123]
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0124]
具体来说,处理器1603还配置为运行所述计算机程序时,执行前述技术方案中所述考虑障碍约束的航天器在线博弈规划方法步骤,这里不再进行赘述。
[0125]
可以理解地,上述考虑障碍约束的航天器在线博弈规划装置150以及计算设备160的示例性技术方案,与前述考虑障碍约束的航天器在线博弈规划方法的技术方案属于同一构思,因此,上述对于考虑障碍约束的航天器在线博弈规划装置150以及计算设备160的技术方案未详细描述的细节内容,均可以参见前述考虑障碍约束的航天器在线博弈规划方法
的技术方案的描述。本发明实施例对此不做赘述。
[0126]
需要说明的是:本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
[0127]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种考虑障碍约束的航天器在线博弈规划方法,其特征在于,包括:构建参与博弈航天器的非线性动力学模型;在当前回合,决策航天器通过测量获得自身、对手航天器和障碍航天器的初始状态向量,并基于所述初始状态向量通过所述动力学模型获得无控状态下的设定窗口长度的决策航天器状态信息序列;在当前迭代,根据所述决策航天器状态信息序列以及所述动力学模型,通过基于相对角度和距离的对手航天器目标函数预测所述对手航天器设定窗口长度的状态信息序列估计;根据所述对手航天器状态信息序列估计,通过所述决策航天器博弈目标函数求解决策航天器控制序列并更新所述决策航天器状态信息序列;如果不满足设定的迭代结束条件,则进入下一迭代;否则,则结束迭代,根据所述决策航天器控制序列输出决策航天器最优控制量,以使得所述决策航天器根据所述最优控制量控制自身的运行后进入下一回合博弈。2.根据权利要求1所述的方法,其特征在于,所述构建参与博弈航天器的非线性动力学模型,包括:构建参与博弈航天器的非线性动力学模型如下式所示:其中,x
i
=[x
i
,y
i
,z
i
,v
xi
,v
yi
,v
zi
]
t
,i∈{p,e,obs}表示博弈场景中的所有航天器,包括追踪航天器p、逃跑航天器e,以及可能存在的其他障碍或第三方航天器obs;t
s
表示时间间隔;k表示离散时间;所述动力学模型遵守非线性相对运动动力学,如下式所示:其中,x,y,z表示lvlh坐标系下的相对位置,v
x
,v
y
,v
z
为lvlh坐标系下相对速度,n表示轨道角速度,m表示航天器质量,t
x
,t
y
,t
z
表示推力分量大小,μ表示引力常数,r
earth
表示地球
半径,j2表示地球非球形摄动,r
c
表示参考轨道半径,α表示轨道倾角,β表示纬度辐角。3.根据权利要求2所述的方法,其特征在于,所述在当前迭代,根据所述决策航天器状态信息序列以及所述动力学模型,通过基于相对角度和距离的对手航天器目标函数预测所述对手航天器设定窗口长度的状态信息序列估计,包括:如果所述决策航天器为追踪航天器,根据所述决策航天器状态信息序列即追踪航天器状态信息序列,通过求解逃跑航天器在约束条件下博弈目标函数的最大值预测设定窗口长度的逃跑航天器状态信息序列估计如下式所示:式所示:其中,x
obs
表示障碍航天器状态变量,r
obs
表示障碍航天器半径,r
rob
表示航天器之间的安全距离,θ表示追踪航天器和逃跑航天器连线与逃跑航天器和太阳连线之间的夹角,n表示预测窗口长度,表示逃跑航天器的位置约束,表示逃跑航天器的控制约束,m表示最大迭代次数,d表示距离函数,q、q
n
表示归一化权重;如果所述决策航天器为逃跑航天器,根据所述决策航天器状态信息序列逃跑航天器状态信息序列,通过求解追踪航天器目标函数在约束条件下的最小值预测设定窗口长度的追踪航天器状态信息序列估计如下式所示:
其中,x
obs
表示障碍航天器状态变量,r
obs
表示障碍航天器半径,r
rob
表示航天器之间的安全距离,θ表示追踪航天器和逃跑航天器连线与逃跑航天器和太阳连线之间的夹角,n表示预测窗口长度,表示追踪航天器的位置约束,表示追踪航天器的控制约束,m表示最大迭代次数,d表示距离函数,q、q
n
表示归一化权重。4.根据权利要求3所述的方法,其特征在于,所述根据所述对手航天器状态信息序列估计,通过所述决策航天器博弈目标函数求解决策航天器的控制序列并更新相应的决策航天器状态信息序列,包括:如果所述决策航天器为追踪航天器,根据预测获得的所述对手航天器(即逃跑航天器)状态信息序列估计,通过求解追踪航天器目标函数最小值获取追踪航天器控制序列并更新相应的追踪航天器状态信息序列,如下式所示:相应的追踪航天器状态信息序列,如下式所示:其中,为当前迭代中预测的逃跑航天器状态信息序列估计,x
obs
表示障碍航天器状态变量,r
obs
表示障碍航天器半径,r
rob
表示航天器之间的安全距离,θ表示追踪航天器和逃跑航天器连线与逃跑航天器和太阳连线之间的夹角,n表示预测窗口长度,表示逃跑航天器的位置约束,表示逃跑航天器的控制约束,m表示最大迭代次数,d表示距离,q、q
n
表示归一化权重;如果所述决策航天器为逃跑航天器,根据预测获得的所述对手航天器(即追踪航天器)状态信息序列估计,求解逃跑航天器目标函数最大值获取逃跑航天器控制序列并更新相应的逃跑航天器状态信息序列,如下式所示:
其中,为当前迭代中预测的追踪航天器状态信息序列估计,x
obs
表示障碍航天器状态变量,r
obs
表示障碍航天器半径,r
rob
表示航天器之间的安全距离,θ表示追踪航天器和逃跑航天器连线与逃跑航天器和太阳连线之间的夹角,n表示预测窗口长度,表示逃跑航天器的位置约束,表示逃跑航天器的控制约束,m表示最大迭代次数,d表示距离,q、q
n
表示归一化权重。5.根据权利要求4所述的方法,其特征在于,所述如果不满足设定的迭代结束条件,则进入下一迭代;否则,则结束迭代,根据所述决策航天器控制序列输出决策航天器最优控制量,包括:根据允许的决策时间人为设定最大迭代次数;如果当前迭代达到最大迭代次数时,则结束迭代,最后一次迭代计算获得的所述决策航天器控制序列的第一个动作为决策航天器最优控制量;如果当前迭代未达到最大迭代次数,如果最后一次迭代的所述决策航天器与所述对手航天器目标函数值满足|j
p-j
e
|≤∈,其中∈表示误差上界,则结束迭代,最后一次迭代计算获得的所述决策航天器控制序列的第一个控制量为决策航天器最优控制量;否则进入下一迭代。6.一种考虑障碍约束的航天器在线博弈规划装置,包括建模部分、测量部分、预测部分、求解部分和决策部分;其中,所述建模部分,经配置为构建参与博弈航天器的非线性动力学模型;所述测量部分,经配置为在当前回合,决策航天器通过测量获得自身、对手航天器和障碍航天器的初始状态向量,并基于所述初始状态向量通过所述动力学模型获得无控状态下的设定窗口长度的决策航天器状态信息序列;所述预测部分,经配置为在当前迭代,根据所述决策航天器状态信息序列以及所述动力学模型,通过基于相对角度和距离的对手航天器目标函数预测所述对手航天器设定窗口长度的状态信息序列估计;所述求解部分,经配置为根据所述对手航天器状态信息序列估计,通过所述决策航天器博弈目标函数求解决策航天器控制序列并更新所述决策航天器状态信息序列;
所述决策部分,经配置为如果不满足设定的迭代结束条件,则进入下一迭代;否则,则结束迭代,根据所述决策航天器控制序列输出决策航天器最优控制量,以使得所述决策航天器根据所述最优控制量控制自身的运行后进入下一回合博弈。7.一种计算机存储介质,其特征在于,所述计算机存储介质存储有考虑障碍约束的航天器在线博弈规划程序,所述基于考虑障碍约束的航天器在线博弈规划程序被至少一个处理器执行时实现权利要求1至5任一项所述考虑障碍约束的航天器在线博弈规划方法步骤。
技术总结
本发明实施例公开了一种考虑障碍约束的航天器在线博弈规划方法,属于航天器轨道控制技术领域;该方法包括:构建参与博弈航天器的非线性动力学模型;在当前回合,通过测量获得自身、对手航天器和障碍航天器的初始状态向量,并通过动力学模型获得无控状态下设定窗口长度的决策航天器状态信息序列;在当前迭代,根据决策航天器状态信息序列,通过基于相对距离和角度的对手航天器目标函数预测对手航天器状态信息序列估计;根据对手航天器状态信息序列估计,通过决策航天器目标函数求解决策航天器控制序列并更新决策航天器状态信息序列;如果不满足设定的迭代结束条件,则进入下一迭代;否则,则结束迭代,根据决策航天器控制序列输出最优控制量。输出最优控制量。输出最优控制量。
技术研发人员:叶东 贾振 袁秋帆 许旭升 肖岩 田鑫龙
受保护的技术使用者:哈尔滨工业大学
技术研发日:2022.12.30
技术公布日:2023/5/4
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
