三维空间中基于多目标灰狼优化的二对一微分博弈方法

未命名 07-22 阅读：104 评论：0

of protecting a plane in 3-d[j].2022.)。
[0004]
综上，虽然现有方法对微分博弈领域的研究已经取得了一定的进展，但是在现有的微分博弈中并未考虑到约束的影响。

技术实现要素：

[0005]
本发明的目的是为解决现有微分博弈方法中并未考虑约束的问题，而提出的一种三维空间中基于多目标灰狼优化的二对一微分博弈方法。
[0006]
本发明为解决上述技术问题所采取的技术方案是：
[0007]
三维空间中基于多目标灰狼优化的二对一微分博弈方法，所述方法具体包括以下步骤：
[0008]
步骤一、建立追击者与逃逸者在三维空间中的相对运动方程；
[0009]
步骤二、设计值函数和hji方程，再将相对运动方程和值函数代入hji方程；
[0010]
步骤三、在目标函数和约束方程的约束下，利用多目标灰狼优化算法求解hji方程，得出最优博弈点；
[0011]
步骤四、将得出的最优博弈点代入追击者与最优博弈点的相对运动方程以及逃逸者与最优博弈点的相对运动方程，再将追击者与最优博弈点的相对运动方程、逃逸者与最优博弈点的相对运动方程以及值函数代入hji方程；
[0012]
步骤五、重复执行步骤三至步骤四的过程，直至逃逸者被追击者捕获。
[0013]
本发明的有益效果是：
[0014]
本发明提出了三维空间中基于多目标灰狼优化算法的二对一微分博弈方法，相较于考虑无限制转弯的条件，本发明给法向加速度添加了上限，重新求取了带有约束条件的hji方程，加入对法向加速度的约束可以更好的贴近实际情况，以表征博弈双方在三维空间内的机动能力，使双方的最优博弈点的计算结果更加精确。同时，为求解出双方的最优博弈点，本发明采用了多目标灰狼优化算法来求解pareto最优解集，寻找最优博弈点，并在生成pareto最优解集的过程，采用弱肉强食法则来筛选最优解。
附图说明
[0015]
图1是本发明方法的流程图；
[0016]
图2是本发明整体的设计框图；
[0017]
图3是追击者和逃逸者在三维空间的追逐逃逸模型图；
[0018]
图中，los代表追击者和逃逸者之间的视线，(xi,yi,zi)代表惯性参考坐标系，(x
pi
,y
pi
,z
pi
)代表第i个追击者的速度坐标系，(xe,ye,ze)代表逃逸者的速度坐标系，v
pi
代表第i个追击者的速度向量，ve代表逃逸者的速度向量，a
pi
代表第i个追击者的加速度，ae代表逃逸者的加速度，γ
pi
代表第i个追击者的加速度在速度坐标系下与y
pi
之间的夹角，γe代表逃逸者的加速度在速度坐标系下与ye之间的夹角，r
pi
代表追击者与逃逸者之间的距离，θ
l
代表惯性参考坐标系和p-e视线系之间的仰角，代表惯性参考坐标系和p-e视线系之间的倾角，θ
pi
代表第i个追击者的速度坐标系与p-e视线系之间的仰角，代表第i个追击者的速度坐标系与p-e视线系之间的倾角，θe代表逃逸者的速度坐标系与p-e视线系之间的仰角，代表逃逸者的速度坐标系与p-e视线系之间的倾角，i代表p-e最优博弈点，代表第i个
追击者的速度坐标系与p-i视线系之间的仰角，代表第i个追击者的速度坐标系与p-i视线系之间的倾角，代表逃逸者的速度坐标系与i-e视线系之间的仰角，代表逃逸者的速度坐标系与i-e视线系之间的倾角，代表惯性坐标系与p-i视线系之间的仰角，代表惯性坐标系与p-i视线系之间的倾角，q
ypi
代表第i个追击者的视线仰角，q
zpi
代表第i个追击者的视线倾角，q
ye
代表逃逸者的视线仰角，q
ze
代表逃逸者的视线倾角；
[0019]
图4是微分博弈的框图；
[0020]
图5是mogwo的示意图；
[0021]
图6是mogwo的流程图；
[0022]
图7是弱肉强食法则的示意图；
[0023]
图8是仿真1中，逃逸者被追击者2拦截的轨迹图；
[0024]
图9是仿真1中，逃逸者和追击者之间的距离随时间的变化图；
[0025]
图10是仿真2中，逃逸者被追击者2拦截的轨迹图；
[0026]
图11是仿真2中，逃逸者和追击者之间的距离随时间的变化图；
[0027]
图12是仿真3中，逃逸者被追击者2拦截的轨迹图；
[0028]
图13是仿真3中，逃逸者和追击者之间的距离随时间的变化图；
[0029]
图14是mopso和mogwo算法运行时间对比图；
[0030]
图15是mopso和mogwo算法内存占用对比图。
具体实施方式
[0031]
具体实施方式一、结合图1和图2说明本实施方式。本实施方式所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，所述方法具体包括以下步骤：
[0032]
步骤一、建立追击者与逃逸者在三维空间中的相对运动方程；
[0033]
步骤二、设计值函数和hji方程(哈密顿-雅可比-埃萨克斯方程)，再将相对运动方程和值函数代入hji方程；
[0034]
步骤三、在目标函数和约束方程的约束下，利用多目标灰狼优化算法(mogwo)求解hji方程，得出最优博弈点；
[0035]
步骤四、将得出的最优博弈点代入追击者与最优博弈点的相对运动方程以及逃逸者与最优博弈点的相对运动方程(这两个相对运动方程与步骤一的方程形式类似)，再将追击者与最优博弈点的相对运动方程、逃逸者与最优博弈点的相对运动方程以及值函数代入hji方程；
[0036]
步骤五、重复执行步骤三至步骤四的过程，直至逃逸者被追击者捕获。
[0037]
本发明的主要贡献在于：1)在原有的二对一微分博弈中是不考虑约束的，但是在本发明中，认为玩家是不可以无限制地转向的，即法向加速度存在上限；2)本发明采用多目标灰狼优化算法，解决了存在多个约束情况下的多个目标函数的解的求取问题；3)最优博弈点不再是提前给出，而是通过优化算法迭代计算找出的；4)本发明采用mogwo在求解最优博弈点问题上是优于mopso的。
[0038]
具体实施方式二、结合图3说明本实施方式。本实施方式与具体实施方式一不同的是，所述步骤一的具体过程为：
[0039]
在追击者p1和p2保护静止目标的同时，追击者p1和p2协同捕获试图到达目标的逃逸者e，将目标点作为三维空间直角坐标系的原点；假设追击者和逃逸者都被视为质点，不可以无限制转向，在运动过程中速度大小保持不变，速度方向受法向加速度约束；
[0040]
追击者和逃逸者在三维空间中追逐时的相对运动方程为：
[0041][0042][0043][0044]
其中，ve是逃逸者的速度向量，θe是逃逸者的速度坐标系与p-e视线系之间的仰角，是逃逸者的速度坐标系与p-e视线系之间的倾角，i＝1,2，v
pi
是第i个追击者的速度向量，θ
pi
是第i个追击者的速度坐标系与p-e视线系之间的仰角，是第i个追击者的速度坐标系与p-e视线系之间的倾角，是r
pi
的一阶导数，r
pi
是第i个追击者与逃逸者之间的距离，q
ypi
是第i个追击者的视线仰角，q
zpi
是第i个追击者的视线倾角，是q
ypi
的一阶导数，是q
zpi
的一阶导数。
[0045]
其它步骤及参数与具体实施方式一相同。
[0046]
如图3所示，所述第i个追击者的速度坐标系为：以惯性坐标系的原点为原点，以第i个追击者的速度方向为x轴，按照右手定则来确定y轴，z轴的坐标系；所述逃逸者的速度坐标系为：以逃逸者为原点，以逃逸者的速度方向为x轴，按照右手定则来确定y轴，z轴的坐标系；p-e是追击者和逃逸者的视线系，p-i是逃逸者和最优博弈点的视线系，i-e是逃逸者和最优博弈点的视线系。
[0047]
具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述设计值函数的具体过程为：
[0048]
追击者和逃逸者的状态方程为：
[0049][0050][0051]
[0052][0053]
其中，为θ
pi
的一阶导数，a
zpi
是第i个追击者在自身速度坐标系下的z轴加速度分量，为的一阶导数，a
ypi
是第i个追击者在自身速度坐标系下的y轴加速度分量，为θe的一阶导数，a
ze
是逃逸者在自身速度坐标系下的z轴加速度分量，为的一阶导数，a
ye
是逃逸者在自身速度坐标系下的y轴加速度分量；
[0054]
保留式(4)至式(7)的输入部分，将式(4)至式(7)改写为：
[0055][0056]
其中，ψ1、ψ2、ψ3和ψ4均为中间变量；
[0057]
状态方程是速度对惯性坐标系的三个轴(xi,yi,zi)的投影，即在x轴的运动速度，y轴的运动速度，z轴的运动速度，不考虑角速度带来的影响时，状态方程为：
[0058][0059][0060][0061]
由于本发明引入了角加速度的上限限制，因此状态方程中也要加入对角速度的限制：
[0062][0063]
a代表法向加速度，因此，重新计算即可得到新的状态方程
[0064]
将式(8)代入状态方程中得出：
[0065][0066][0067][0068][0069][0070][0071]
其中，t是时间，代表t时刻逃逸者的速度坐标系与i-e视线系之间的仰角，代表t时刻逃逸者的速度坐标系与i-e视线系之间的倾角，代表t时刻第i个追击者的速度坐标系与p-i视线系之间的仰角，代表t时刻第i个追击者的速度坐标系与p-i视线系之间的倾角，*代表相乘，δt代表时间间隔，即运动方程前后两次迭代计算的时间间隔；(xe,ye,ze)代表逃逸者在三维空间内的位置信息，是xe的一阶导数，是ye的一阶导数，是ze的一阶导数，(x
pi
,y
pi
,z
pi
)代表第i个追击者在三维空间内的位置信息，是x
pi
的一阶导数，是y
pi
的一阶导数，是z
pi
的一阶导数；
[0072]
本发明中考虑的博弈有两个终止条件，其中的一个终止条件是逃逸者e被任意一个追击者捕获或者逃逸者e同时被两个追击者捕获，即追击者团队获得胜利；另一个终止条件是逃逸者能够在被捕获之前到达目标点，那么逃逸者就会获得胜利，因此终止集被设置为：
[0073]
t:＝t
p
∪teꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0074]
其中，t
p
＝{x|||x
p1-xe||2＝0}∪{x|||x
p2-xe||2＝0}，t
p
代表逃逸者e到达目标之前被捕获的结果。te＝{x|||xe||2＝0}，te是逃逸者e到达目标赢得比赛的结果。终端时间tf是系统状态满足终止集的时间瞬间。终端时刻被表示为xf＝x(tf)。类博弈和程度博弈的概念是微分博弈的基础，类博弈的解决方案决定了哪个团队获得最终的胜利。微分博弈的框图如图4所示。程度博弈提供了博弈值和鞍点策略，用以解决类博弈倾向的结果。由于我们设定了两种不同的结果，因此类博弈用于解决将状态空间分为两个获胜区域，一个用于逃逸者，另一个用于追击者。将状态空间划分为两部分，追击区域r
p
和逃逸区域re，他们的定义如下：
[0075]rp
＝{x|b(x)＞0}，re＝{x|b(x)＜0}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0076]
屏障面用于分隔r
p
和re，定义如下：
[0077]
b＝{x|b(x)＝0}
ꢀꢀꢀꢀꢀꢀ
(17)
[0078]
在每一个获胜区域(追击区域r
p
和逃逸区域re)，都有一个程度的微分博弈发挥着作用。因此，每个团队都必须确定当前状态所处的区域，然后根据当前的程度博弈确定合适的最优策略。
[0079]
如果状态x∈r
p
，然后终端的性能指标函数是：
[0080]
j(ae(t),a
p1
(t),a
p2
(t)；x)＝φ
p
(x(tf))
ꢀꢀꢀꢀ
(18)
[0081]
其中博弈值是：
[0082][0083]
其中，约束为运动方程，状态方程和终端约束。根据每次迭代出来的最优博弈点，和制导率来计算出当前所需要的法向加速度。对于类博弈的解决方案是逃逸者e在到达目标之前被捕获，同时逃逸者e努力在被捕获时，缩小与目标之间的距离。这样的策略提供了一个确定的结果，如果追逐者不能采用最佳的策略，那么逃逸者就可以进一步减少与目标之间的终端距离，有可能通过到达目标赢得游戏。
[0084]
如果状态x∈re，终端的性能指标函数是：
[0085]
j(ae(t),a
p1
(t),a
p2
(t)；x)＝φe(x(tf))
ꢀꢀꢀꢀ
(20)
[0086]
其中，φe(x(tf)):＝min
pi
{(x
pi-xe)2+(y
pi-ye)2+(z
pi-ze)2}，i＝{1,2}。博弈值为
[0087][0088]
其中，约束为运动方程，状态方程和终端约束。在这种情况下，追逐者试图减少与逃逸者之间的距离，来实现对逃逸者的捕获。对于当前而言，由于目标是静止的，因此逃逸者的最优策略是直接朝向目标。
[0089]
追击者p1、追击者p2与逃逸者e之间微分博弈的全状态为：x＝(xe,x
p1
,x
p2
)∈r9，xe代表逃逸者e的状态，xe＝(xe,ye,ze)，x
p1
代表追击者p1的状态，x
p1
＝(x
p1
,y
p1
,z
p1
)，x
p2
代表追击者p2的状态，x
p2
＝(x
p2
,y
p2
,z
p2
)，r代表实数；
[0090]
按照追击和逃逸将获胜区域划分为追击区域和逃逸区域两部分，追击区域和逃逸区域表示如下：
[0091][0092]
其中，r
′e代表逃逸区域，r
′
pi
代表第i个追击者的追击区域；
[0093]
屏障函数b(x)定义为：b(x)＝max{b1(x),b2(x)}，其中，(x)}，其中，当x∈r
′
pi
时，则逃逸者到达目标之前被捕获；当逃逸者e被捕获时存在以下几种可能：e仅仅被p1或p2捕获，或者同时被两个追逐者捕获。
[0094]
则值函数v(x)为：
[0095][0096]
其中：
[0097][0098]
a＝(y
e-y
p1
)(z
e-z
p2
)-(y
e-y
p2
)(z
e-z
p1
)；
[0099]
b＝(x
e-x
p2
)(z
e-z
p1
)-(x
e-x
p1
)(z
e-z
p2
)；
[0100]
c＝(x
e-x
p1
)(y
e-y
p2
)-(x
e-x
p2
)(y
e-y
p1
)；
[0101]
值函数v(x)对xe、x
p1
、x
p2
的偏导数分别为：
[0102][0103]
其中，(x
*
,y
*
,z
*
)为最优博弈点。
[0104]
其它步骤及参数与具体实施方式一或二相同。
[0105]
具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述hji方程设计为：
[0106]
其中，代表状态方程，x表示当前的位置信息，表示当前的逃逸者e根据制导率和最优博弈点计算出的最优法向加速度，表示当前的追击者p1根据制导率和最优博弈点计算出的最优法向加速度，表示当前的追击者p2根据制导率和最优博弈点计算出的最优法向加速度，代表在博弈中的博弈值的偏向，一般设置为零。
[0107]
本发明中期望给出的目标函数在满足当前微分博弈的指标的同时也可以使当前输入的梯度最优，即导数为零。因此，本发明给出四个目标函数，目标函数1对应的是hji方程，目标函数2～4对应的是hji方程对输入的偏导数。这样当两个团队在博弈时，就都是处于最优的状态。
[0108]
其它步骤及参数与具体实施方式一至三之一相同。
[0109]
具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述目标函数包括：
[0110]
目标函数1：
[0111][0112]
其中，代表的z轴分量，代表的y轴分量，代表的z轴分量，代
表的y轴分量，代表的z轴分量，代表的y轴分量；
[0113]
目标函数2：
[0114][0115]
目标函数3：
[0116][0117]
目标函数4：
[0118][0119]
其它步骤及参数与具体实施方式一至四之一相同。
[0120]
具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述约束方程为：
[0121][0122]
subject to:
[0123][0124][0125][0126][0127][0128]
其中，代表第i个追击者的最大法向加速度，代表逃逸者的最大法向加速度，r
pi
代表第i个追击者与逃逸者之间的距离，ae代表逃逸者实际法向加速度，a
pi
代表第i个追击者实际法向加速度。
[0129]
其它步骤及参数与具体实施方式一至五之一相同。
[0130]
为了寻找到最优的结果，对狼群根据社会等级进行数学建模。alpha(α)狼被认为是最适合的解决方案。然后，beta(β)狼被认为是次优的解决方案，delta(δ)狼被认为是第三优的解决方案。狼群中其余狼被认为是omega(ω)狼被认为是候选解。在gwo算法中，种群的迭代由alpha(α)狼，beta(β)狼，和delta(δ)狼主导，omega(ω)狼追随三个头狼来寻找全局最优解决方案。mogwo的示意图如图5所示。
[0131]
具体实施方式七：结合图6说明本实施方式。本实施方式与具体实施方式一至六之一不同的是，所述利用多目标灰狼优化算法求解hji方程，得出最优博弈点；其具体过程为：
[0132]
步骤1、将两个追击者和逃逸者的当前位置信息、速度信息、角度信息、加速度信息以及当前采样时间传入优化算法；
[0133]
步骤2、初始化初始种群规模、迭代步长和迭代次数；
[0134]
步骤3、根据步骤一中传入的信息计算最优博弈点作为初始种群；
[0135]
步骤4、根据初始种群生成初始的α狼、β狼和δ狼，并将其它的狼作为ω狼；
[0136]
在三维空间内随机选取α狼、β狼和δ狼的初始位置，根据选取的初始位置分别计算出α狼、β狼和δ狼中的每头狼的四个目标函数值(通过式(25)至式(28)来计算)；
[0137]
步骤5、α狼、β狼和δ狼在初始位置根据初始化迭代步长向外扩散生成子代；
[0138]
步骤6、对于任意一头狼，判断若采用当前狼的子代作为博弈点，接下来追击者与逃逸者是否满足约束方程的需求；
[0139]
若满足，则利用该头狼的子代执行步骤7；
[0140]
否则不满足，该头狼按照正态分布随机选取搜索步长重新生成子代，直至子代满足约束方程的需求，再执行步骤7；
[0141]
同理，分别对每头狼(α狼、β狼和δ狼)进行判断；
[0142]
步骤7、对于α狼、β狼和δ狼中的任意一头狼，计算该头狼的子代的四个目标函数值；
[0143]
设置条件：该头狼的子代的各目标函数值均对应小于该头狼的目标函数值(即当前子代的第1个目标函数值小于该头狼的第1个目标函数值，
…
，当前子代的第4个目标函数值小于该头狼第4个目标函数值)；
[0144]
当该头狼满足上述设置的条件时，则将该头狼满足步骤6时的搜索步长和搜索方向作为下一次迭代的搜索步长和搜索方向；
[0145]
当该头狼不满足上述设置的条件时，则该头狼按照正态分布随机选取搜索步长重新生成子代后，再返回步骤6；
[0146]
同理，分别对α狼、β狼和δ狼的子代进行处理，直至每头狼的当前子代均满足了设置的条件；
[0147]
步骤8、将α狼、β狼和δ狼的满足步骤7设置条件的当前子代保存到可行解集中；
[0148]
步骤9、采用maxmin适应度函数对可行解集中的当前子代进行处理，得到处理结果；
[0149]
可以使所有的解都能够均匀地分布在可行域内，避免部分解聚集在某一位置；
[0150]
步骤10、基于步骤9的处理结果构造pareto(帕累托)最优解集；
[0151]
步骤11、从步骤10得到的最优解集中选取出α狼、β狼和δ狼，基于选取出的α狼、β狼和δ狼再分别生成下一子代，再返回步骤6，直至达到设置的最大迭代次数时停止迭代，利用最后一次迭代获得的α狼、β狼和δ狼来执行步骤12；
[0152]
步骤12、从最后一次迭代获得的α狼、β狼和δ狼中随机选取出一头狼作为最优博弈点。
[0153]
其它步骤及参数与具体实施方式一至六之一相同。
[0154]
本实施方式中并没有设置归档数目的上限值，但是每次算法的迭代次数是有上限
的。这是因为最优博弈点的选取是在三维空间内进行的，希望能最大程度地选取当前情况的最优值。我们无法确保每次生成的子代一定都在可行解中，因此需要我们对每一个子代都进行约束验证，在档案中种群个体都有被选择的可能，这样就可以避免陷入局部最优。同时采用maxmin适应度函数使得在档案中的个体在可行域内均匀分布，最终每一个非支配个体都有生成三个头狼的机会。采用的多目标灰狼优化算法的伪代码如下：
[0155]
伪代码：
[0156]
[0157]
[0158][0159]
具体实施方式八：结合图7说明本实施方式。本实施方式与具体实施方式一至七之一不同的是，所述步骤10基于弱肉强食法则进行，其具体过程为：
[0160]
弱小的狼将会被强大的狼支配，弱肉强食法则的主要思想是通过剔除支配解，保留非支配解，最终构造出pareto最优解集；
[0161]
步骤
①
、将步骤9处理结果中的各个当前子代分别作为一个个体，将全部个体组成的集合记为p；
[0162]
我们需要从中选取pareto最优解集，且构造出p的最大非支配集；
[0163]
步骤
②
、从集合p中选取出任意一个个体记为c1；
[0164]
步骤
③
、将c1与集合p中的其它个体依次进行比较；
[0165]
步骤
④
、比较过程中，若存在被c1支配的个体，则从集合p中删除被支配的个体，若出现了支配c1的个体c2，则从集合中删除c1，利用c2代替c1与其它个体(集合p中剩余的、未与c1进行比较过的个体)继续进行比较；
[0166]
对于c2的比较方式与c1相同(即，如果所述集合p中剩余的、未与c1进行比较过的个体中存在支配个体c2的个体，则删除c2，利用该支配c2的个体继续与集合p中剩余的、未
与c1和c2进行比较过的个体进行比较；以此类推)，不断的进行比较直至集合p中的个体均参与过比较后停止本次循环，得到集合p中剩余的个体，将剩余的个体组成的集合记为新的集合p1；
[0167]
步骤
⑤
、利用新的集合p1重复执行步骤
②
至步骤
④
的过程，直至步骤
④
获得的新集合中的个体满足条件时停止循环，将最后一次循环中步骤
④
获得的集合作为pareto(帕累托)最优解集；
[0168]
满足的条件为：对于任意两个个体，它们之间不存在着支配关系或它们之间无法比较。
[0169]
其它步骤及参数与具体实施方式一至七之一相同。
[0170]
对弱肉强食法则进一步解释如下：
[0171]
假设集合p为进化群体，1到n为n个需要构造的个体，我们需要从中选取pareto最优解集，且构造出p的最大非支配集。
[0172]
在集合为p的进化群体中任意取出一个个体c1，依次与所有个体比较，将该个体所支配的其他个体从p中删除；若某个个体无法与进行比较，则保留该个体，但还是利用个体c1进行比较；若个体c1可被其他个体c2所支配，则将个体c2取代c1，并将个体c1删除，由个体c2继续依次比对。并将最终的个体c2和无法比对个体ci放入下一次的循环。最终直到所有个体重复之前操作，无可支配个体，所生成的集合为pareto最优解集，结束循环。
[0173]
与庄家法和擂台赛法不同之处在于，本发明采用的弱肉强食法则，只会依次向后寻找，不会向前寻找，这样做的好处在于每次找到非支配个体可以直接保留下来，不需要记录编号。节省了程序的运行空间，而且每次生成的结果都是在同一个列表内进行，只是将所有可支配解依次弹出，非支配解保留。对于本发明而言，不是所有的个体之间都可以判定是否可以被支配，当两个个体不能判定之间关系的时候，算法会把无法判定的个体保留下来，以防止某些最优解的丢失。在本发明中，我们默认对于通过循环生成的进化群体是包含了最大的非支配集，即pareto最优解集。
[0174]
具体实施方式九：本实施方式与具体实施方式一至八之一不同的是，所述从步骤10得到的最优解集中选取出α狼、β狼和δ狼，其具体过程为：
[0175]
步骤1)、在最优解集中，若某个个体的各个目标函数值均对应小于其它任意一个个体的各个目标函数值(即对于第1个目标函数值，该个体的第1个目标函数值是所有个体中最小的，对于其它目标函数值同理)，则将该个体作为α狼；
[0176]
选取出α狼之后，若除了α狼之外，某个个体的各个目标函数值均对应小于其它任意一个个体的各个目标函数值，则将该个体作为β狼；
[0177]
选取出α狼和β狼之后，若除了α狼和β狼之外，某个个体的各个目标函数值均对应小于其它任意一个个体的各个目标函数值，则将该个体作为δ狼；
[0178]
步骤2)、若不存在满足步骤1)的α狼、β狼和δ狼，则从最优解集中随机选取出个体作为α狼、β狼和δ狼。
[0179]
其它步骤及参数与具体实施方式一至八之一相同。
[0180]
具体实施方式十：本实施方式与具体实施方式一至九之一不同的是，所述子代的生成方式为：
[0181]
若狼在初始位置，则狼通过向外随机扩散(将随机扩散作为第一次寻找的方式)的
方式生成子代；
[0182]
若狼不在初始位置，则子代的生成方式为：
[0183][0184][0185]
其中，t代表当前迭代的次数，为t时刻灰狼的位置向量，为t-1时刻灰狼的位置向量，为t+1时刻灰狼的位置向量，为灰狼的方向向量，κ为搜索的步长。
[0186]
其它步骤及参数与具体实施方式一至九之一相同。
[0187]
算法的正确性，时间复杂度，和收敛性
[0188]
接下来我们将证明算法的正确性：记ndset为非支配解集，pareto最优解集。s1＝{c1,c2,c3,...cn}为狼群向外扩散生成的种群。si是通过第i步迭代后生成的种群。
[0189]
1.证明第一个进入ndset的个体c1是s1的非支配个体。
[0190]
设第一个进入ndset的个体是c1，在构造方法中，c1需要与之后的所有个体进行比对，若c1不被s1中的任一个体所支配，则c1会成为ndset的第一个个体。因此不存在ci∈s1，使得ci＞c1。若在进行到下一步时，其他非支配个体也会与c1进行比对，因此，同时又不存在ci∈s1，使得c1＞ci，即c1也不支配s1中任一个体。
[0191]
2.证明第s(n》＝s》＝2)个进入ndset的个体cs是p的非支配个体。
[0192]
设当cs进入到ndset中后，假设s
s-1
＝{c1,c2,...,c
s-1
}，有构造方法可知，此时cs与s
s-1
中的任一个体无关，即不存在ci∈s
s-1
，使得ci＞cs。同时也不存在ci∈s
s-1
，使得cs＞ci。
[0193]
对于在s之前已形成的s-1个簇分别为{cluster(c1),cluster(c2),...,cluster(c
s-1
)}。且不存在ci∈{c1,c2,...,c
s-1
}，使得ci＞cs，否则在s轮比较之前，个体cs就已经被删除。对于在s之后的个体{c
s+1
,...,cn}，在第s轮比较时，不存在cl∈{c
s+1
,...,cn}，使得cl＞cs。因此个体cs不被s之前进入到ndset中的个体所支配，也不被种群中s之后的剩余个体所支配。因此第s(n》＝s》＝2)个进入ndset的个体cs是p的非支配个体。结合证明中的1和2，ndset就是p的非支配集。
[0194]
3.证明ndset是s1的最大非支配集。
[0195]
接下来的证明采用反证法，假设存在ck∈ndset，但不是s1的非支配个体。则存在ci∈s1，使得ci＞ck，则ck会在与ci的比较中从种群s1中删除，ci会取代ck。这种情况下，ck是不可能被放入到ndset中。因此假设不成立。
[0196]
反之，假设是s1的非支配个体，但是由于ck为非支配个体，因此不存在ci∈s1，使得ci＞ck，s1中的任意一个个体都不可以将ck从s1中代替。故ck一定会被放入到ndset。因此假设不成立。
[0197]
由上述两种情况可知，按照弱肉强食法则生成的非支配集ndset就是s1的最大可支配集，也是本发明所求的pareto最优解集。证明完毕。
[0198]
接下来对算法的时间复杂度进行分析，假设种群s1的大小为n，在种群s1中有m个
非支配个体，算法一共进行了t次迭代。在每次的迭代中产生si种群，设每次迭代中清除了ki个si中的个体。则下一次的种群规模变成了当m个非支配个体全部产生以后，所有支配个体被清除，共计n-m个。算法的时间复杂度变成了：
[0199][0200][0201]
time(n)＜tn＜n2[0202]
因为搜索范围是三维空间，因此我们无法判定最终究竟会有多少非支配解进入到pareto解集中。因为我们需要搜索很多的解且解的范围不固定，那么实际上当非支配解越多则循环次数越少。弱肉强食法则由于不需要“回头”，因此每一次循环需要的时间要小于擂台法。但是，需要的循环次数要多于擂台法。由于本发明需要在三维空间内寻找最优解，一般情况下本发明所针对的情况种群数量很大，非支配解较多。只需要循环很少的次数，就可以找出所有的非支配解。接下来，我们将给出证明优化算法的收敛性。
[0203]
定义1(seyedalimirjalili,seyed mohammad mirjalili,andrew lewis,grey wolf optimizer,advances in engineering software,volume 69,2014,46-61,issn 0965-9978.)：(box计数维数)在空间rk中，一个有界集s的box的计数维数定义为：
[0204][0205]
其中，n(ε)为与s相交的box的数目，且极限存在。
[0206]
引理1(veldhuizen,dav,and g.b.lamont."evolutionary computation and convergence to a pareto front."stanford university california(1999).)：给定mop(multi-objective problem)和moea(multi-objective evolutionary algorithms)，若满足条件：
[0207]
1.pareto最优边界的box计数维数不大于r-1，r为目标数。
[0208]
2.p
known
(0)是单调的，即：
[0209][0210]
则moea以概率1收敛，即
[0211][0212]
其中，p
rob
(
·
)为概率，p(t)＝p
known
(t)，p
true
为全局pareto最优解集。
[0213]
接下来将给出多目标灰狼优化算法的收敛性，证明给出的非支配解集就是全局pareto最优解集。
[0214]
证明：根据定义1，在本发明中我们的目标数是4，因此q＝4，n(ε)＝|r|＝[1/ε]
q-1
＝[1/ε]3。那么，pareto最优边界的box的计数维数
[0215][0216]
我们可以将多目标灰狼优化算法的计算过程看成，先通过循环全局域搜索找到尽可能多的可行解。然后经过弱肉强食法则删除掉被支配个体。那么算法的执行过程就可以看作是一个markov链，因此算法的状态的转移过程就是符合引理一的第二个条件的，即每一次进化群体的迭代都是选取有代表性的个体进入下一次的迭代，则进化群体以概率1收敛到pareto最优解集。
[0217]
综上所述，根据公式(33)，通过多目标灰狼优化算法构造pareto最优解集的过程是收敛的。证明完毕。
[0218]
仿真结果
[0219]
仿真1、考虑初始条件，追击者p1的初始位置在[0,-50,0]，追击者p2的初始位置在[20,250,0]，逃逸者e的初始位置在[1000,2000,1000]，初始位置是可以随机给定的，这里我们选取了一组数，具有一般性。追击者初始速度为10，逃逸者的初始速度为5。时间间隔为1，追击者和逃逸者的法向加速度的上限被设置为50g。逃逸者和追击者的轨迹如图8所示，逃逸者和追击者之间的距离如图9所示，经过682秒，逃逸者被追击者捕获。本发明采用的制导率被设计为：
[0220][0221]
本次仿真采用的仿真环境如表1所示：
[0222]
表1仿真环境
[0223][0224][0225]
仿真2、设置追击者的法向加速度的上限大于逃逸者的法向加速度的上限，其余条件相比于仿真1不变的情况下，其中追击者的方向加速度的上限设置为50g，逃逸者的法向加速度的上限设置为30g。逃逸者和追击者的轨迹如图10所示，逃逸者和追击者之间的距离如图11所示，逃逸者经过532秒被捕获。相比较于仿真1，逃逸者将会更快被捕获。
[0226]
仿真3、当逃逸者的目标设置为原点，且追击者的法向加速度的上限小于逃逸者的法向加速度的上限，其余条件相比于仿真1不变时，追击的结果图如图12所示，距离变化如
图13所示，经过452秒逃逸者被追击者捕获。
[0227]
根据仿真1和仿真2中的结果，我们可以看出当逃逸者的法向过载小于追击者的法向过载时，即由距离变化图9和图11可知，逃逸者将会更快被捕获。由仿真3中的结果，我们可以看出，当逃逸者直接以目标作为当前运动方向时，相较于仿真1和仿真2中的距离变化，由图13可知，逃逸者将会被更快被捕获。
[0228]
在本发明中，我们保持其余参数不变的情况下，只更改算法部分，来对比mogwo和mopso(多目标粒子群算法)，在运行时间和内存消耗上的不同。mogwo程序运行需要的内存为52.7mb。mogwo算法程序平均运行时间为0.33s。mopso程序运行需要的内存为65.4mb。mopso程序运行平均运行时间为0.42s。这里内存不一样的原因，主要因为多目标粒子群算法需要全部个体一起迭代运行。每次都需要计算全部个体的最优迭代方式。而多目标灰狼优化算法只需要由三个头狼带领其余的个体进行迭代，从而生成最优个体。mogwo的平均运行时间优于mopso的原因是mogwo每次迭代只需要由三个头狼来生成其余的子代，但是mopso算法需要对所有的种群个体，依次迭代。这样就会造成归档集的数目过多，每次需要计算的个体也会变多。运行时间和内存消耗如图14和图15所示。
[0229]
综上所述，证明了多目标灰狼优化算法的正确性，时间复杂度和收敛性，在仿真结果中，也验证了算法的可行性，同时，与mopso算法在平均运行时间和内存占用方面做了对比，实验结果表明，本发明采用的mogwo算法在平均运行时间和内存占用方面都要优于mopso算法。
[0230]
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

技术特征：
1.三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述方法具体包括以下步骤：步骤一、建立追击者与逃逸者在三维空间中的相对运动方程；步骤二、设计值函数和hji方程，再将相对运动方程和值函数代入hji方程；步骤三、在目标函数和约束方程的约束下，利用多目标灰狼优化算法求解hji方程，得出最优博弈点；步骤四、将得出的最优博弈点代入追击者与最优博弈点的相对运动方程以及逃逸者与最优博弈点的相对运动方程，再将追击者与最优博弈点的相对运动方程、逃逸者与最优博弈点的相对运动方程以及值函数代入hji方程；步骤五、重复执行步骤三至步骤四的过程，直至逃逸者被追击者捕获。2.根据权利要求1所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述步骤一的具体过程为：在追击者p1和p2保护静止目标的同时，追击者p1和p2协同捕获试图到达目标的逃逸者e，将目标点作为三维空间直角坐标系的原点；追击者和逃逸者在三维空间中追逐时的相对运动方程为：追击者和逃逸者在三维空间中追逐时的相对运动方程为：追击者和逃逸者在三维空间中追逐时的相对运动方程为：其中，v
e
是逃逸者的速度向量，θ
e
是逃逸者的速度坐标系与p-e视线系之间的仰角，是逃逸者的速度坐标系与p-e视线系之间的倾角，i＝1,2，v
pi
是第i个追击者的速度向量，θ
pi
是第i个追击者的速度坐标系与p-e视线系之间的仰角，是第i个追击者的速度坐标系与p-e视线系之间的倾角，是r
pi
的一阶导数，r
pi
是第i个追击者与逃逸者之间的距离，q
ypi
是第i个追击者的视线仰角，q
zpi
是第i个追击者的视线倾角，是q
ypi
的一阶导数，是q
zpi
的一阶导数。3.根据权利要求2所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述设计值函数的具体过程为：追击者和逃逸者的状态方程为：
其中，为θ
pi
的一阶导数，a
zpi
是第i个追击者在自身速度坐标系下的z轴加速度分量，为的一阶导数，a
ypi
是第i个追击者在自身速度坐标系下的y轴加速度分量，为θ
e
的一阶导数，a
ze
是逃逸者在自身速度坐标系下的z轴加速度分量，为的一阶导数，a
ye
是逃逸者在自身速度坐标系下的y轴加速度分量；将式(4)至式(7)改写为：其中，ψ1、ψ2、ψ3和ψ4均为中间变量；将式(8)代入状态方程中得出：
其中，t是时间，代表t时刻逃逸者的速度坐标系与i-e视线系之间的仰角，代表t时刻逃逸者的速度坐标系与i-e视线系之间的倾角，代表t时刻第i个追击者的速度坐标系与p-i视线系之间的仰角，代表t时刻第i个追击者的速度坐标系与p-i视线系之间的倾角，*代表相乘，δt代表时间间隔；(x
e
,y
e
,z
e
)代表逃逸者在三维空间内的位置信息，是x
e
的一阶导数，是y
e
的一阶导数，是z
e
的一阶导数，(x
pi
,y
pi
,z
pi
)代表第i个追击者在三维空间内的位置信息，是x
pi
的一阶导数，是y
pi
的一阶导数，是z
pi
的一阶导数；追击者p1、追击者p2与逃逸者e之间微分博弈的全状态为：x＝(x
e
,x
p1
,x
p2
)∈r9，x
e
代表逃逸者e的状态，x
e
＝(x
e
,y
e
,z
e
)，x
p1
代表追击者p1的状态，x
p1
＝(x
p1
,y
p1
,z
p1
)，x
p2
代表追击者p2的状态，x
p2
＝(x
p2
,y
p2
,z
p2
)，r代表实数；按照追击和逃逸将获胜区域划分为追击区域和逃逸区域两部分，追击区域和逃逸区域表示如下：其中，r
′
e
代表逃逸区域，r
′
pi
代表第i个追击者的追击区域；屏障函数b(x)定义为：b(x)＝max{b1(x),b2(x)}，其中，(x)}，其中，
则值函数v(x)为：其中：其中：a＝(y
e-y
p1
)(z
e-z
p2
)-(y
e-y
p2
)(z
e-z
p1
)；b＝(x
e-x
p2
)(z
e-z
p1
)-(x
e-x
p1
)(z
e-z
p2
)；c＝(x
e-x
p1
)(y
e-y
p2
)-(x
e-x
p2
)(y
e-y
p1
)；值函数v(x)对x
e
、x
p1
、x
p2
的偏导数分别为：其中，(x
*
,y
*
,z
*
)为最优博弈点。4.根据权利要求3所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述hji方程设计为：其中，代表状态方程，x表示当前的位置信息，表示当前的逃逸者e根据制导率和最优博弈点计算出的最优法向加速度，表示当前的追击者p1根据制导率和最优博弈点计算出的最优法向加速度，表示当前的追击者p2根据制导率和最优博弈点计算出的最优法向加速度，代表在博弈中的博弈值的偏向。5.根据权利要求4所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述目标函数包括：目标函数1：
其中，代表的z轴分量，代表的y轴分量，代表的z轴分量，代表
的y轴分量，代表的z轴分量，代表的y轴分量；目标函数2：目标函数3：目标函数4：
6.根据权利要求5所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述约束方程为：subject to:to:to:to:to:其中，代表第i个追击者的最大法向加速度，代表逃逸者的最大法向加速度，r
pi
代表第i个追击者与逃逸者之间的距离。7.根据权利要求6所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述利用多目标灰狼优化算法求解hji方程，得出最优博弈点；其具体过程为：步骤1、将两个追击者和逃逸者的当前位置信息、速度信息、角度信息、加速度信息以及当前采样时间传入优化算法；步骤2、初始化初始种群规模、迭代步长和迭代次数；步骤3、根据步骤一中传入的信息计算最优博弈点作为初始种群；步骤4、根据初始种群生成初始的α狼、β狼和δ狼，并将其它的狼作为ω狼；在三维空间内随机选取α狼、β狼和δ狼的初始位置，根据选取的初始位置分别计算出α
狼、β狼和δ狼中的每头狼的四个目标函数值；步骤5、α狼、β狼和δ狼在初始位置根据初始化迭代步长向外扩散生成子代；步骤6、对于任意一头狼，判断若采用当前狼的子代作为博弈点，追击者与逃逸者是否满足约束方程的需求；若满足，则利用该头狼的子代执行步骤7；否则不满足，该头狼按照正态分布随机选取搜索步长重新生成子代，直至子代满足约束方程的需求，再执行步骤7；同理，分别对每头狼进行判断；步骤7、对于α狼、β狼和δ狼中的任意一头狼，计算该头狼的子代的四个目标函数值；设置条件：该头狼的子代的各目标函数值均对应小于该头狼的目标函数值；当该头狼满足上述设置的条件时，则将该头狼满足步骤6时的搜索步长和搜索方向作为下一次迭代的搜索步长和搜索方向；当该头狼不满足上述设置的条件时，则该头狼按照正态分布随机选取搜索步长重新生成子代后，再返回步骤6；同理，分别对α狼、β狼和δ狼的子代进行处理，直至每头狼的当前子代均满足了设置的条件；步骤8、将α狼、β狼和δ狼的满足步骤7设置条件的当前子代保存到可行解集中；步骤9、采用maxmin适应度函数对可行解集中的当前子代进行处理，得到处理结果；步骤10、基于步骤9的处理结果构造pareto最优解集；步骤11、从步骤10得到的最优解集中选取出α狼、β狼和δ狼，基于选取出的α狼、β狼和δ狼再分别生成下一子代，再返回步骤6，直至达到设置的最大迭代次数时停止迭代，利用最后一次迭代获得的α狼、β狼和δ狼来执行步骤12；步骤12、从最后一次迭代获得的α狼、β狼和δ狼中随机选取出一头狼作为最优博弈点。8.根据权利要求7所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述步骤10基于弱肉强食法则进行，其具体过程为：步骤
①
、将步骤9处理结果中的各个当前子代分别作为一个个体，将全部个体组成的集合记为p；步骤
②
、从集合p中选取出任意一个个体记为c1；步骤
③
、将c1与集合p中的其它个体依次进行比较；步骤
④
、比较过程中，若存在被c1支配的个体，则从集合p中删除被支配的个体，若出现了支配c1的个体c2，则从集合中删除c1，利用c2代替c1与其它个体继续进行比较；对于c2的比较方式与c1相同，不断的进行比较直至集合p中的个体均参与过比较后停止本次循环，得到集合p中剩余的个体，将剩余的个体组成的集合记为新的集合p1；步骤
⑤
、利用新的集合p1重复执行步骤
②
至步骤
④
的过程，直至步骤
④
获得的新集合中的个体满足条件时停止循环，将最后一次循环中步骤
④
获得的集合作为pareto最优解集；满足的条件为：对于任意两个个体，它们之间不存在着支配关系或它们之间无法比较。9.根据权利要求8所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述从步骤10得到的最优解集中选取出α狼、β狼和δ狼，其具体过程为：
步骤1)、在最优解集中，若某个个体的各个目标函数值均对应小于其它任意一个个体的各个目标函数值，则将该个体作为α狼；选取出α狼之后，若除了α狼之外，某个个体的各个目标函数值均对应小于其它任意一个个体的各个目标函数值，则将该个体作为β狼；选取出α狼和β狼之后，若除了α狼和β狼之外，某个个体的各个目标函数值均对应小于其它任意一个个体的各个目标函数值，则将该个体作为δ狼；步骤2)、若不存在满足步骤1)的α狼、β狼和δ狼，则从最优解集中随机选取出个体作为α狼、β狼和δ狼。10.根据权利要求9所述的三维空间中基于多目标灰狼优化的二对一微分博弈方法，其特征在于，所述子代的生成方式为：若狼在初始位置，则狼通过向外随机扩散的方式生成子代；若狼不在初始位置，则子代的生成方式为：若狼不在初始位置，则子代的生成方式为：其中，t代表当前迭代的次数，为t时刻灰狼的位置向量，为t-1时刻灰狼的位置向量，为t+1时刻灰狼的位置向量，为灰狼的方向向量，κ为搜索的步长。

技术总结
三维空间中基于多目标灰狼优化的二对一微分博弈方法，它属于追击者与逃逸者的微分博弈领域。本发明解决了现有微分博弈方法中并未考虑约束的问题。本发明给法向加速度添加了上限，重新求取了带有约束条件的HJI方程，加入对法向加速度的约束可以更好的贴近实际情况，以表征博弈双方在三维空间内的机动能力，使双方的最优博弈点的计算结果更加精确。同时，为求解出双方的最优博弈点，本发明采用了多目标灰狼优化算法来求解Pareto最优解集，寻找最优博弈点，并在生成Pareto最优解集的过程，采用弱肉强食法则来筛选最优解。本发明方法可以应用于三维空间中追击者与逃逸者的微分博弈。于三维空间中追击者与逃逸者的微分博弈。于三维空间中追击者与逃逸者的微分博弈。

技术研发人员：周荻白羽张博伦何朕邹昕光祝月张锐
受保护的技术使用者：哈尔滨工业大学
技术研发日：2023.04.13
技术公布日：2023/7/20

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：光功率计及光功率测量方法与流程 下一篇：一种室内带电场景模型建立方法及室内带电场景监控方法与流程

三维空间中基于多目标灰狼优化的二对一微分博弈方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

三维空间中基于多目标灰狼优化的二对一微分博弈方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表