一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质

未命名 07-04 阅读:86 评论:0


1.本发明实施例涉及航天器轨道控制技术领域,尤其涉及一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质。


背景技术:

2.传统的航天器轨道博弈问题往往基于航天器连续机动假设,而实际任务场景下航天器更多的是采用脉冲机动方式,脉冲机动下的航天器轨道博弈问题缺乏统一的描述。
3.航天器轨道博弈问题终端奖励曲面的设计没有统一的形式,不具有通用性与灵活性。
4.扩展性博弈问题通常使用博弈树方法进行求解,往往需要对节点进行状态评估,传统的博弈树方法需要对每一个节点进行状态评估,计算资源消耗大。


技术实现要素:

5.有鉴于此,本发明实施例期望提供一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质;能够针对脉冲机动下的航天器轨道博弈问题进行建模并在有限的时间及计算资源场景给出子博弈问题的较优解。
6.本发明实施例的技术方案是这样实现的:
7.第一方面,本发明实施例提供了一种基于蒙特卡洛树搜索的航天器序列博弈方法,包括:
8.在当前回合,构建当前回合的初始状态信息s0;
9.以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;
10.根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;
11.根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;
12.根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。
13.第二方面,本发明实施例提供了一种基于蒙特卡洛树搜索的航天器序列博弈装置,包括第一构建部分、第二构建部分、更新部分、决策部分和控制部分;其中,
14.所述第一构建部分,经配置为在当前回合,构建当前回合的初始状态信息s0;
15.所述第二构建部分,经配置为以当前回合的初始状态信息为博弈树的根节点,从离散动作空间形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;
16.所述更新部分,经配置为根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;
17.所述决策部分,经配置为根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;
18.所述控制部分,经配置为根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。
19.第三方面,本发明实施例提供了一种计算设备,所述计算设备包括:通信接口,存储器和处理器;各个组件通过总线系统耦合在一起;其中,
20.所述通信接口,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
21.所述存储器,用于存储能够在所述处理器上运行的计算机程序;
22.所述处理器,用于在运行所述计算机程序时,执行第一方面中所述基于蒙特卡洛树搜索的航天器序列博弈方法步骤,这里不再进行赘述。
23.第四方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有基于蒙特卡洛树搜索的航天器序列博弈程序,所述基于蒙特卡洛树搜索的航天器序列博弈程序被至少一个处理器执行时实现第一方面所述基于蒙特卡洛树搜索的航天器序列博弈方法步骤。
24.本发明实施例提供了一种基于蒙特卡洛树搜索的航天器序列博弈方法、装置及介质;首先构建当前回合的初始状态信息,能够对脉动机动下的博弈问题进行离散化模型描述;接着在离散动作空间展开形成的候选状态中选择对效用估计有利的方向构建待探索子树,然后对其叶节点进行状态信息评估并反向更新搜索路径上所有节点的效用估计信息后做出最优动作决策,使得博弈动作的选择能够体现最终的博弈目标,缩小了博弈树的搜索范围,并且无需对每一个节点进行状态评估,从而降低了计算量,能够在计算资源有限的情况下对博弈问题求取较优解。
附图说明
25.图1为本发明实施例提供的监视卫星太阳光干扰约束示意图;
26.图2为本发明实施例提供的一种基于蒙特卡洛树搜索的航天器序列博弈方法流程示意图;
27.图3为本发明实施例提供的序列博弈状态转移过程示意图;
28.图4为本发明实施例提供的离散脉冲动作空间示意图;
29.图5为本发明实施例提供的完整博弈与子博弈对比图;
30.图6为本发明实施例提供的状态转移过程示意图;
31.图7为本发明实施例提供的探索新的节点示意图;
32.图8为本发明实施例提供的叶节点状态评估示意图;
33.图9为本发明实施例提供的追逃航天器对抗序列博弈树构建示意图;
34.图10为本发明实施例提供的一种基于蒙特卡洛树搜索的航天器序列博弈装置组成示意图;
35.图11为本发明实施例提供的一种计算设备的硬件结构示意图。
具体实施方式
36.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
37.考虑存在太阳光干扰约束下的监视博弈问题,具体的太阳光干扰下的可见性如图1所示。参与博弈的航天器双方博弈的目标对于追踪航天器来说是实现最佳的接近观测,对于逃跑航天器来说是破坏其最佳观测。追踪航天器的主要目标是实现接近观测中保证最佳的观测角度和相对距离。逃跑航天器的主要目标是实现破环观测条件。由于相对夹角是相对的,当破坏了对手航天器的观测夹角时自然处于顺光观测位置。
38.参见图2,本发明实施例提供的一种基于蒙特卡洛树搜索的航天器序列博弈方法,所述方法可以应用于决策航天器,可以理解地,决策航天器既可以是追踪航天器,也可以是逃跑航天器,所述方法包括:
39.s201:在当前回合,构建当前回合的初始状态信息s0;
40.s202:以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;
41.s203:根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;
42.s204:根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;
43.s205:根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。
44.上述方案表述了脉冲机动下的航天器轨道博弈中,决策航天器根据当前状态进行单次动作决策的过程,可以理解地,以决策航天器是追踪航天器为例,当追踪航天器根据最优动作决策完成动作控制之后,对手航天器(即逃跑航天器)同样也可以根据上述方案所阐述的过程进行最优动作决策,在此不再赘述;此时即完成了进行博弈的航天器之间一个交互回合,如图3中δt
p
和δte两段所示的过程,如此循环便构成了图3所示的脉冲机动下航天器对抗性序列博弈的完整过程。
45.对于图2所示的技术方案,在一些可能的实现方式中,所述初始状态信息包括:根据自身的运动信息、观测对手航天器基于前一回合执行动作决策所形成的运动信息以及太阳相对位置,且被描述为下式所示:
[0046][0047]
其中,x
sun
表示太阳的相对位置;xi,i=e,p表示决策航天器e和对手航天器p的包含有位置ri和速度vi的运动信息;下标t表示离散时间。
[0048]
对于上述实现方式,需要说明的是,本发明实施例在完全信息下假设对对手方的状态测量认为没有误差,即能够获得对手方的准确的位置与速度。
[0049]
对于图2所示的技术方案,在一些可能的实现方式中,所述决策航天器以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树,包括:
[0050]
以当前回合的初始状态信息为博弈树的根节点,将基于所述初始状态信息在离散
动作空间上所产生的全部候选状态作为博弈树的第一层子节点s


[0051]
从所述第一层子节点s

中选择一个或多个节点作为待展开节点;
[0052]
预测自身和对手航天器后续设定数量回合的动作,并基于预测的动作对所述待展开节点的每一个进行展开,以形成与所述待展开节点的每一个所对应的待探索子树。
[0053]
对于上述实现方式中,在一些示例中,所述以当前回合的初始状态信息为博弈树的根节点,将基于所述初始状态信息在离散动作空间上所产生的全部候选状态作为博弈树的第一层子节点s

,包括:
[0054]
将连续动作空间根据进行均匀划分,获得离散动作空间;
[0055]
根据所述离散动作空间中的每一个采样空间对应的方向形成所述离散动作空间中的每一个采样空间对应的候选动作;
[0056]
根据所述初始状态信息以及每一个候选动作,通过下式进行状态转移,获得每一个候选动作对应的候选状态;
[0057][0058]
其中,φ(n)表示相对运动c-w方程的状态转移矩阵;n表示离散时间;x
i,n
表示在n时刻追踪航天器或逃跑航天器的运动状态;rn表示基于lvlh坐标系下追踪航天器或逃跑航的位置向量;vn表示基于lvlh坐标系下追踪航天器或逃跑航天器的速度向量;an表示基于lvlh坐标系下的动作向量;
[0059]
将全部候选状态作为所述博弈树的第一层子节点s


[0060]
对于上述示例,详细来说,对于连续动作空间a可以通过采样获取离散动作空间,在存在一定误差的前提下,将整个动作空间进行均匀划分,近似评估各个方向上的候选动作,如图4所示,在以决策航天器自身质心为原点所形成的空间坐标系中,形成的球面为连续动作空间a,对其进行均匀划分得到离散动作空间,图4中球表面的每一个点表示离散动作空间的每一个采样空间,可以理解地,每一个采样空间均对应一个方向,进而能够对应一个候选动作;以a
i,n
代表候选动作,可以被描述为下式所示:
[0061][0062]
其中,v
x
,vy,vz分别代表以图4所示的lvlh坐标系中决策航天器在x轴、y轴、z轴上的速度。
[0063]
对于上述示例,还需要说明的是,设定博弈航天器的轨道动力学对玩家来说是公共知识,玩家知道彼此的运动方程;因此,上述实现方式中所阐述的状态转移式子所表征的状态转移过程可以如图6所示,s表示初始状态信息,a(s)表示候选动作空间;基于a(s)表示的空间,可以形成n个候选动作,比如图6中所示a
e,n
,相应于每个候选动作,可以形成n个候选状态,比如图6中所示s

;使得能够对脉冲机动下的博弈问题进行离散化模型描述。
[0064]
对于上述实现方式中,在一些示例中,所述从所述第一层子节点s

中选择一个或多个节点作为待展开节点,包括:
[0065]
通过下式计算所述第一层子节点s

中每一个候选状态s

对应的置信上界ucb(the upper confidence bound)值:
[0066][0067]
其中,前一部分q(s

)表示节点状态的效用估计,体现对信息的利用,初始值为0,后续根据叶节点状态评估信息反向回溯更新;后一部分表示探索新的节点带来的信息;n(s)=∑
a∈a(s)
n(s,a)表示访问状态s的次数;c为常数,通过配置获得,一般地,当所述决策航天器为逃跑航天器时,c取正数,当所述决策航天器为追踪航天器时,c取负数;
[0068]
如果所述决策航天器为逃跑航天器,将所述第一层子节点s

中ucb最大值所对应的节点作为待展开节点;如果所述决策航天器为追踪航天器,将所述第一层子节点s

中ucb最小值所对应的节点作为待展开节点。
[0069]
需要说明的是,上述示例所阐述的内容是所述决策航天器一次选择待展开节点的步骤,如图7所示,s为决策航天器的初始状态,在动作空间a(s)上展开后形成的状态构成了以s为根节点的博弈树的第一层子节点,例如,初始状态s在动作空间a(s)中的一个动作a
e,n
上展开就对应到所述第一层子节点中的s

,如此在整个动作空间上展开就形成了所述第一层子节点s

;在所述第一层子节点中通过ucb值选择一个节点,比如s

,作为待展开节点继续展开;所述待展开节点按照后续的步骤展开之后,会反向更新所述待展开节点的效用估计信息,可以理解地,根据更新后的效用估计信息选择ucb值最大或最小的节点作为下一个待展开节点,如此循环迭代,在决策时间允许的情况下,所述第一层子节点s

中可以具有一个或多个节点被选为待展开节点;还可以理解地,所述第一层子节点中未被访问的节点在计算ucb值时因后一部分数值较大,因此未被访问的节点的ucb值较大,即被选择作为待展开节点的概率较大,在时间允许的情况下,直至所述第一层子节点中所有的节点均被访问过一次之后,ucb值计算公式中第一部分节点效用信息作为主要的参考信息为后续的待展开节点的选择依据。
[0070]
对于上述实现方式中,在一些示例中,所述预测自身和对手航天器后续设定数量回合的动作,并基于预测的动作对所述待展开节点的每一个进行展开,以形成与所述待展开节点的每一个所对应的待探索子树,包括:
[0071]
s701:设置所述待展开节点对应展开的所述待探索子树展开层数最大值为m,设置m初始值为0,表征所述待探索子树的层号,所述待展开节点状态记录为s
′m,此时为对手航天器决策时刻;
[0072]
s702:在离散动作空间上随机选择一个动作a
p
∈a(s),按照被选动作对所述s
′m进行展开,状态迁移到s

m+1
=f(s
′m,a
p
),将s

m+1
作为s
′m的子节点加入到所述待探索子树中;
[0073]
s703:如果m+1小于m-1,s

m+1
对应的节点不是所述待探索子树的叶节点,继续对节点s

m+1
在动作空间上进行展开,此时为所述决策航天器的决策时刻,在离散动作空间上随机选择一个动作ae∈a(s),按照该动作对所述s

m+1
进行展开,状态从s

m+1
迁移到s

m+2
=f(s

m+1
,ae),将s

m+2
作为s

m+1
的子节点加入到所述待探索子树中;
[0074]
s704:如果m+2小于m-1,即s

m+2
对应的节点不是所述待探索子树的叶节点,则将m+2赋值给m,重复步骤702至步骤704,进行下一个回合的博弈树探索;
[0075]
s705:如果m+1=m-1或者m+2=m-1,相应地,则s

m-1
作为所述待探索子树的叶节点,所述待展开节点完成了与其对应的所述待探索子树的构建。
[0076]
需要说明的是,上述示例描述了与所述待展开节点对应的所述待探索子树展开的
过程,模拟了决策航天器和对手航天器设定数量回合的虚拟博弈过程,如图7所示,所述决策航天器在所述第一层子节点中选择了一个待展开节点s

后,此时为对手航天器虚拟决策时刻,所述决策航天器通过随机策略在动作空间中选择一个动作作为所述对手航天器的动作决策,所述待展开节点通过所述对手航天器的动作决策展开后,到达图7中的状态节点s

,如此向下预测特定数量回合的动作,到达如图8中虚线代表的叶节点,与待展开节点s

对应的待探索子树完成一次展开。
[0077]
针对上述实现方式,还需要说明的是,博弈树搜索方法是分析解决扩展类博弈的有效工具,但是其复杂程度与状态空间直接相关。在博弈过程中初始状态作为博弈树的根节点,然后依据不同的候选动作展开博弈树,最后从中选择最优动作,更新实际的状态,然后进行下一轮的博弈树展开。如图5(a)所示,在有限的动作空间下,整个搜索空间可以完全展开,但是将会带来极大的计算资源的开销,会面临组合爆炸的问题,只有在动作空间比较小的情况下可以完全展开获得最优解。在实际情况下可以求解一个规模很小的子博弈问题,如图5(b)所示,在一些可能的实现方式中,上述实施例中,提供了从三个方面缩小了子博弈问题的大小,降低了对计算资源的要求,满足在特定的决策时间内获取较优解:方面一,决策航天器在时间允许的情况下,所述待探索子树的展开偏向于对效用估计有利的方向进行展开,不需进行完全展开;方面二,针对s

中待展开节点,决策航天器只向前预测特定数量回合的深度,展开形成待探索子树,不需到达博弈结束的状态;方面三,对于所述待探索子树,只需要对叶节点进行状态评估,无需对所有的节点进行状态评估。
[0078]
对于图2所示的技术方案,在一些可能的实现方式中,所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,包括:
[0079]
根据下式获得所述叶节点中的每一个所对应的相对距离d(t)和相对夹角θ(t):
[0080][0081]
d(t)=‖x
pe

[0082]
其中,x
pe
=x
e-x
p
;x
ps
=x
sun-x
p

[0083]
基于每一个叶节点所对应的相对距离d(t)和相对夹角θ(t),通过下式获得每一个叶节点对应的状态评估信息:
[0084][0085]
其中,θ表示所述相对夹角,d表示所述相对距离,θd表示期望的最佳角度,dd表示期望的最佳距离。
[0086]
对于上述示例,需要说明的是,节点的状态表示当前局面信息下的效用,节点评估直接关系到博弈动作的选择,而进行局面评估最为重要的就是博弈结束时刻奖励的设计,奖励是意图的直观反映。意图建模与状态奖励直接影响博弈树的搜索方向与动作选择。在一些示例中,本发明实施例提供一种考虑相对距离和相对角度的不同终端奖励曲面,如式(3)所示,θ表示所述相对夹角,即以追踪航天器为参考中心,追踪航天器和逃跑航天器之间
连线与追踪航天器和太阳之间连线的夹角;d表示所述相对距离;θd表示期望的最佳角度;dd表示期望的最佳距离,可以理解地,在最佳角度和最佳距离处就能够获得最佳奖励。
[0087]
对于图2所示的技术方案,在一些可能的实现方式中,所述通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息,包括:
[0088]
更新由所述根节点到所述叶节点之间路径上所有节点的访问次数n(s),如下式所示:
[0089]
n(s)

n(s)+1
[0090]
更新由所述根节点到所述叶节点之间路径上所有节点状态的效用估计如下式所示:
[0091][0092]
其中,r为所述待探索子树展开后叶节点的状态评估信息,为所述路径上所有节点状态的效用估计。
[0093]
对于图2所示的技术方案,在一些可能的实现方式中,所述根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策,包括:
[0094]
根据所述更新后的效用估计信息,对于逃跑航天器,在所述第一层子节点s

中选择ucb值最大的节点所对应的动作作为当前回合最优动作决策;对于追踪航天器,在所述第一层子节点s

中选择ucb值最小的节点所对应的动作作为当前回合最优动作决策,如下式所示:
[0095]
对于逃跑航天器,
[0096]
对于追踪航天器,
[0097]
需要说明的是,针对上述实现方式,在一些示例中,设置c=0是为了防止选择未被探索的节点对应的动作作为最优动作决策。
[0098]
对于图2所示的技术方案及其实现方式和示例,需要说明的是,所述根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策,其中所述对手航天器在决策其动作决策的过程中,可以采用前述技术方案相同的博弈树方法,进而构建出如图9所示的对抗性博弈树:可以理解地,在追踪航天器决策时刻,追踪航天器以该时刻的自身运动状态、观测逃跑航天器的运动状态以及太阳位置信息为初始状态,在决策时间δt
p
允许的范围内,以所述初始状态作为根节点,在其动作空间上选择一个或多个候选动作所对应的状态作为第一层待展开子节点,继续向前预测设定数量回合的动作,完成追踪航天器博弈树的构建,评估所述追踪航天器博弈树所有叶节点的状态信息,反向传播更新从所述叶节点到所述根节点路径上所有节点的效用估计信息,所述追踪航天器根据更新后的效用估计信息进行最优动作决策,追踪航天器执行所述最优动作;同样地,逃跑航天器在其决策时刻,在其决策时间δte允许的范围内完成逃跑航天器最优动作决策,所述逃跑航天器通过执行其最优动作决策控制自身的运动状态后,
进入下一个回合的博弈。需要说明的是,在树搜索过程中使用ucb算法选择动作进一步展开探索的空间,并且随着采样数量趋于无穷,选择最优动作的概率趋近于1。与常规的博弈树搜索算法相比能够求解更大的状态空间问题,并且具备ucb1算法的特点能够平衡“探索与利用”的权衡。
[0099]
[0100][0101]
基于前述技术方案相同的发明构思,参见图10,其示出了本发明实施例提供的一种基于蒙特卡洛树搜索的航天器序列博弈装置100,所述装置100包括:第一构建部分1001、第二构建部分1002、更新部分1003、决策部分1004和控制部分1005;其中,
[0102]
所述第一构建部分1001,经配置为在当前回合,构建当前回合的初始状态信息s0;
[0103]
所述第二构建部分1002,经配置为以当前回合的初始状态信息为博弈树的根节点,从离散动作空间形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;
[0104]
所述更新部分1003,经配置为根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;
[0105]
所述决策部分1004,经配置为根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;
[0106]
所述控制部分1005,经配置为根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。
[0107]
在一些示例中,所述初始状态信息包括:
[0108]
根据自身的运动信息、观测对手航天器基于前一回合执行动作决策所形成的运动信息以及太阳相对位置,且被描述为下式所示:
[0109][0110]
其中,x
sun
表示太阳的相对位置;xi,i=e,p表示决策航天器e和对手航天器p的包含有位置ri和速度vi的运动信息;下标t表示离散时间。
[0111]
在一些示例中,所述第二构建部分1002,经配置为:
[0112]
以当前回合的初始状态信息为博弈树的根节点,将基于所述初始状态信息在离散动作空间上所产生的全部候选状态作为博弈树的第一层子节点s


[0113]
从所述第一层子节点s

中选择一个或多个节点作为待展开节点;
[0114]
预测自身和对手航天器后续设定数量回合的动作,并基于预测的动作对所述待展开节点的每一个进行展开,以形成与所述待展开节点的每一个所对应的待探索子树。
[0115]
在一些示例中,所述第二构建部分1002,经配置为:
[0116]
将连续动作空间根据进行均匀划分,获得离散动作空间;
[0117]
根据所述离散动作空间中的每一个采样空间对应的方向形成所述离散动作空间中的每一个采样空间对应的候选动作;
[0118]
根据所述初始状态信息以及每一个候选动作,通过下式进行状态转移,获得每一个候选动作对应的候选状态;
[0119][0120]
其中,φ(n)表示相对运动c-w方程的状态转移矩阵;n表示离散时间;x
i,n
表示在n时刻追踪航天器或逃跑航天器的运动状态;rn表示追踪航天器或逃跑航基于地球惯性坐标系下的位置向量;vn表示追踪航天器或逃跑航速度向量;an表示基于地球惯性坐标系下的动作向量;
[0121]
将全部候选状态作为所述博弈树的第一层子节点s


[0122]
在一些示例中,所述第二构建部分1002,经配置为:
[0123]
通过下式计算所述第一层子节点s

中每一个候选状态s

对应的置信上界ucb值:
[0124][0125]
其中,前一部分q(s

)表示节点状态的效用估计,体现对信息的利用,初始值为0,后续根据叶节点状态评估信息反向回溯更新;后一部分表示探索新的节点带来的信息;n(s)=∑
a∈a(s)
n(s,a)表示访问状态s的次数;c为常数,通过配置获得,一般地,当所述决策航天器为逃跑航天器时,c取正数,当所述决策航天器为追踪航天器时,c取负数;
[0126]
如果所述决策航天器为逃跑航天器,将所述第一层子节点s

中ucb最大值所对应的节点作为待展开节点;如果所述决策航天器为追踪航天器,将所述第一层子节点s

中ucb最小值所对应的节点作为待展开节点。
[0127]
在一些示例中,所述第二构建部分1002,经配置为:
[0128]
步骤1:设置所述待展开节点对应展开的所述待探索子树展开层数最大值为m,设置m初始值为0,表征所述待探索子树的层号,所述待展开节点状态记录为s
′m,此时为对手航天器决策时刻;
[0129]
步骤2:在离散动作空间上随机选择一个动作a
p
∈a(s),按照被选动作对所述s
′m进行展开,状态迁移到s

m+1
=f(s
′m,a
p
),将s

m+1
作为s
′m的子节点加入到所述待探索子树中;
[0130]
步骤3:如果m+1小于m-1,s

m+1
对应的节点不是所述待探索子树的叶节点,继续对
节点s

m+1
在动作空间上进行展开,此时为所述决策航天器的决策时刻,在离散动作空间上随机选择一个动作ae∈a(s),按照该动作对所述s

m+1
进行展开,状态从s

m+1
迁移到s

m+2
=f(s

m+1
,ae),将s

m+2
作为s

m+1
的子节点加入到所述待探索子树中;
[0131]
步骤4:如果m+2小于m-1,即s

m+2
对应的节点不是所述待探索子树的叶节点,则将m+2赋值给m,重复步骤2至步骤4,进行下一个回合的博弈树探索;
[0132]
步骤5:如果m+1=m-1或者m+2=m-1,相应地,则s

m-1
作为所述待探索子树的叶节点,所述待展开节点完成了与其对应的所述待探索子树的构建。
[0133]
在一些示例中,所述更新部分1003,经配置为:
[0134]
根据下式获得所述叶节点中的每一个所对应的相对距离d(t)和相对夹角θ(t):
[0135][0136]
d(t)=||x
pe
||
[0137]
其中,x
pe
=x
e-x
p
;x
ps
=x
sun-x
p

[0138]
基于每一个叶节点所对应的相对距离d(t)和相对夹角θ(t),通过下式获得每一个叶节点对应的状态评估信息:
[0139][0140]
其中,θ表示所述相对夹角,d表示所述相对距离,θd表示期望的最佳角度,dd表示期望的最佳距离。
[0141]
在一些示例中,所述更新部分1003,经配置为:
[0142]
更新由所述根节点到所述叶节点之间路径上所有节点的访问次数n(s),如下式所示:
[0143]
n(s)

n(s)+1
[0144]
更新由所述根节点到所述叶节点之间路径上所有节点状态的效用估计如下式所示:
[0145][0146]
其中,r为所述待探索子树展开后叶节点的状态评估信息,为所述路径上所有节点状态的效用估计。
[0147]
在一些示例中,所述决策部分1004,经配置为:
[0148]
根据所述更新后的效用估计信息,对于逃跑航天器,在所述第一层子节点s

中选择ucb值最大的节点所对应的动作作为当前回合最优动作决策;对于追踪航天器,在所述第一层子节点s

中选择ucb值最小的节点所对应的动作作为当前回合最优动作决策,如下式所示:
[0149]
对于逃跑航天器,
[0150]
对于追踪航天器,
[0151]
可以理解地,在本实施例中,“部分”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是单元,还可以是模块也可以是非模块化的。
[0152]
另外,在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0153]
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0154]
因此,本实施例提供了一种计算机存储介质,所述计算机存储介质存储有基于蒙特卡洛树搜索的航天器序列博弈程序,所述基于蒙特卡洛树搜索的航天器序列博弈程序被至少一个处理器执行时实现上述技术方案中所述基于蒙特卡洛树搜索的航天器序列博弈方法步骤。
[0155]
根据上述基于蒙特卡洛树搜索的航天器序列博弈装置100以及计算机存储介质,参见图11,其示出了本发明实施例提供的一种能够实施上述基于蒙特卡洛树搜索的航天器序列博弈装置100的计算设备110的具体硬件结构,该计算设备110可以为无线装置、移动或蜂窝电话(包含所谓的智能电话)、个人数字助理(pda)、视频游戏控制台(包含视频显示器、移动视频游戏装置、移动视频会议单元)、膝上型计算机、桌上型计算机、电视机顶盒、平板计算装置、电子书阅读器、固定或移动媒体播放器,等。计算设备110包括:通信接口1101,存储器1102和处理器1103;各个组件通过总线系统1104耦合在一起。可理解,总线系统1104用于实现这些组件之间的连接通信。总线系统1104除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图11中将各种总线都标为总线系统1104。其中,
[0156]
所述通信接口1101,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
[0157]
所述存储器1102,用于存储能够在所述处理器1103上运行的计算机程序;
[0158]
所述处理器1103,用于在运行所述计算机程序时,执行前述技术方案中所述基于蒙特卡洛树搜索的航天器序列博弈方法步骤,这里不再进行赘述。
[0159]
可以理解,本发明实施例中的存储器1102可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器
(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synchlink dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本文描述的系统和方法的存储器1102旨在包括但不限于这些和任意其它适合类型的存储器。
[0160]
而处理器1103可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1103中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1103可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1102,处理器1103读取存储器1102中的信息,结合其硬件完成上述方法的步骤。
[0161]
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0162]
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0163]
可以理解地,上述基于蒙特卡洛树搜索的航天器序列博弈装置100以及计算设备110的示例性技术方案,与前述基于蒙特卡洛树搜索的航天器序列博弈方法的技术方案属于同一构思,因此,上述对于基于蒙特卡洛树搜索的航天器序列博弈装置100以及计算设备110的技术方案未详细描述的细节内容,均可以参见前述基于蒙特卡洛树搜索的航天器序列博弈方法的技术方案的描述。本发明实施例对此不做赘述。
[0164]
需要说明的是:本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
[0165]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何
熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种基于蒙特卡洛树搜索的航天器序列博弈方法,其特征在于,包括:在当前回合,构建当前回合的初始状态信息s0;以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。2.根据权利要求1所述的方法,其特征在于,所述初始状态信息包括:根据自身的运动信息、观测对手航天器基于前一回合执行动作决策所形成的运动信息以及太阳相对位置,且被描述为下式所示:其中,x
sun
表示太阳的相对位置;x
i
,i=e,p表示决策航天器e和对手航天器p的包含有位置r
i
和速度v
i
的运动信息;下标t表示离散时间。3.根据权利要求2所述的方法,其特征在于,所述以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树,包括:以当前回合的初始状态信息为博弈树的根节点,将基于所述初始状态信息在离散动作空间上所产生的全部候选状态作为博弈树的第一层子节点s

;从所述第一层子节点s

中选择一个或多个节点作为待展开节点;预测自身和对手航天器后续设定数量回合的动作,并基于预测的动作对所述待展开节点的每一个进行展开,以形成与所述待展开节点的每一个所对应的待探索子树。4.根据权利要求3所述的方法,其特征在于,所述以当前回合的初始状态信息为博弈树的根节点,将基于所述初始状态信息在离散动作空间上所产生的全部候选状态作为博弈树的第一层子节点s

,包括:将连续动作空间根据进行均匀划分,获得离散动作空间;根据所述离散动作空间中的每一个采样空间对应的方向形成所述离散动作空间中的每一个采样空间对应的候选动作;根据所述初始状态信息以及每一个候选动作,通过下式进行状态转移,获得每一个候选动作对应的候选状态;其中,φ(n)表示相对运动c-w方程的状态转移矩阵;n表示离散时间;x
i,n
表示在n时刻追踪航天器或逃跑航天器的运动状态;r
n
表示基于lvlh坐标系下追踪航天器或逃跑航天器
的位置向量;v
n
表示基于lvlh坐标系下追踪航天器或逃跑航天器的速度向量;a
n
表示基于lvlh坐标系下的动作向量;将全部候选状态作为所述博弈树的第一层子节点s

。5.根据权利要求4所述的方法,其特征在于,所述从所述s

中选择一个或多个节点作为待展开节点,包括:通过下式计算所述第一层子节点s

中每一个候选状态s

对应的置信上界ucb值:其中,前一部分q(s

)表示节点状态的效用估计,体现对信息的利用,初始值为0,后续根据叶节点状态评估信息反向回溯更新;后一部分表示探索新的节点带来的信息;n(s)=∑
a∈a(s)
n(s,a)表示访问状态s的次数;c为常数,通过配置获得,一般地,当所述决策航天器为逃跑航天器时,c取正数,当所述决策航天器为追踪航天器时,c取负数;如果所述决策航天器为逃跑航天器,将所述第一层子节点s

中ucb最大值所对应的节点作为待展开节点;如果所述决策航天器为追踪航天器,将所述第一层子节点s

中ucb最小值所对应的节点作为待展开节点。6.根据权利要求3所述的方法,其特征在于,所述预测自身和对手航天器后续设定数量回合的动作,并基于预测的动作对所述待展开节点的每一个进行展开,以形成与所述待展开节点的每一个所对应的待探索子树,包括:步骤1:设置所述待展开节点对应展开的所述待探索子树展开层数最大值为m,设置m初始值为0,表征所述待探索子树的层号,所述待展开节点状态记录为s

m
,此时为对手航天器决策时刻;步骤2:在离散动作空间上随机选择一个动作a
p
∈a(s),按照被选动作对所述s

m
进行展开,状态迁移到s

m+1
=f(s

m
,a
p
),将s

m+1
作为s

m
的子节点加入到所述待探索子树中;步骤3:如果m+1小于m-1,s

m+1
对应的节点不是所述待探索子树的叶节点,继续对节点s

m+1
在动作空间上进行展开,此时为所述决策航天器的决策时刻,在离散动作空间上随机选择一个动作a
e
∈a(s),按照该动作对所述s

m+1
进行展开,状态从s

m+1
迁移到s

m+2
=f(s

m+1
,a
e
),将s

m+2
作为s

m+1
的子节点加入到所述待探索子树中;步骤4:如果m+2小于m-1,即s

m+2
对应的节点不是所述待探索子树的叶节点,则将m+2赋值给m,重复步骤2至步骤4,进行下一个回合的博弈树探索;步骤5:如果m+1=m-1或者m+2=m-1,相应地,则s

m-1
作为所述待探索子树的叶节点,所述待展开节点完成了与其对应的所述待探索子树的构建。7.根据权利要求6所述的方法,其特征在于,所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,包含:根据下式获得所述叶节点中的每一个所对应的相对距离d(t)和相对夹角θ(t):d(t)=||x
pe
||
其中,x
pe
=x
e-x
p
;x
ps
=x
sun-x
p
;基于每一个叶节点所对应的相对距离d(t)和相对夹角θ(t),通过下式获得每一个叶节点对应的状态评估信息:其中,θ表示所述相对夹角,d表示所述相对距离,θ
d
表示期望的最佳角度,d
d
表示期望的最佳距离。8.根据权利要求7所述的方法,其特征在于,所述通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息,包括:更新由所述根节点到所述叶节点之间路径上所有节点的访问次数n(s),如下式所示:n(s)

n(s)+1更新由所述根节点到所述叶节点之间路径上所有节点状态的效用估计如下式所示:其中,r为所述待探索子树展开后叶节点的状态评估信息,为所述路径上所有节点状态的效用估计。9.根据权利要求8所述的方法,其特征在于,所述根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策,包括:根据所述更新后的效用估计信息,对于逃跑航天器,在所述第一层子节点s

中选择ucb值最大的节点所对应的动作作为当前回合最优动作决策;对于追踪航天器,在所述第一层子节点s

中选择ucb值最小的节点所对应的动作作为当前回合最优动作决策,如下式所示:对于逃跑航天器,对于追踪航天器,10.一种基于蒙特卡洛树搜索的航天器序列博弈装置,其特征在于,所述装置包括:第一构建部分、第二构建部分、更新部分、决策部分和控制部分;其中,所述第一构建部分,经配置为在当前回合,构建当前回合的初始状态信息s0;所述第二构建部分,经配置为以当前回合的初始状态信息为博弈树的根节点,从离散动作空间形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;所述更新部分,经配置为根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;所述决策部分,经配置为根据所述博弈树更新后的效用估计信息,做出当前回合的最
优动作决策;所述控制部分,经配置为根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有基于蒙特卡洛树搜索的航天器序列博弈程序,所述基于蒙特卡洛树搜索的航天器序列博弈程序被至少一个处理器执行时实现权利要求1至9任一项所述基于蒙特卡洛树搜索的航天器序列博弈方法步骤。

技术总结
本发明实施例公开了一种基于蒙特卡洛树搜索的航天器序列博弈方法,属于航天器轨道控制技术领域;该方法包括:在当前回合,构建当前回合的初始状态信息s0;以当前回合的初始状态信息为博弈树的根节点,从在离散动作空间展开形成的候选状态中选择一个或多个构建所述博弈树的待探索子树;根据所述待探索子树中所展开的所有叶节点的每一个的状态评估信息,通过回溯传播更新由所述根节点到所述叶节点之间路径上的所有节点的效用估计信息;根据所述博弈树更新后的效用估计信息,做出当前回合的最优动作决策;根据所述最优动作决策控制决策航天器自身的运动状态,以使得对手航天器基于决策航天器控制后的运动状态进行动作决策。策航天器控制后的运动状态进行动作决策。策航天器控制后的运动状态进行动作决策。


技术研发人员:叶东 贾振 姜锐 田鑫龙 张剑桥
受保护的技术使用者:哈尔滨工业大学
技术研发日:2022.11.02
技术公布日:2023/5/3
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐