一种基于威胁评估的多功能雷达认知干扰决策方法
未命名
08-15
阅读:155
评论:0
1.本发明属于雷达干扰领域,特别涉及一种雷达认知干扰技术。
背景技术:
2.雷达干扰决策,是指干扰机在雷达对抗中为完成战术任务而选取合适的干扰波型对目标雷达展开干扰。发展雷达干扰决策技术,有利于提高对目标雷达的干扰效率和干扰成功率,削弱目标雷达的探测能力,提高其准确探测、定位到我方作战设备的难度,从而使我方电子作战系统占据优势,在信息战领域具有重要的意义。
3.针对多功能雷达的干扰决策问题的研究,集中于基于强化学习的认知干扰决策方法。基于强化学习的认知干扰决策,是指利用强化学习算法,赋予干扰决策器一定的认知能力,使其可以自主实现环境感知、学习推理、评估判断和存储记忆功能,从而能够适应灵活多变的多功能雷达干扰需求。文献“research on method of intelligent radar confrontation based on reinforcement learning”(ieee international conference on computational intelligence and applications(iccia),2017,pp.471
–
475.)提出了一种基于强化学习q-learning算法的多功能雷达认知干扰决策方法,该方法考虑了不同干扰波形造成的多功能雷达工作状态的转换,目的是令多功能雷达达到最低威胁的工作状态;文献“dqn based decision-making method of cognitive jamming against multifunctional radar”(systems engineering and electronics,vol.42,no.4,pp.819
–
825,2020.)采用深度q网络改进强化学习算法,解决了当雷达工作状态数增加时决策效率降低的问题;文献“research on decision-making modeling of cognitive jamming for multi-functional radar based on markov”(systems engineering and electronics,vol.44,no.8,pp.2488
–
2497,2022.)采用马尔可夫决策过程来描述干扰过程,从而建立了精确的干扰决策模型。然而,以上研究均侧重于雷达工作状态的转换来设计算法,忽略了电子对抗的其他关键要素,如干扰的时效性、干扰的紧迫性、干扰成功的概率以及敌方雷达的作战意图,具有以下缺陷:一是忽略了在实际目标突防背景下多功能雷达对被保护目标的实时威胁,不具备根据多功能雷达的战略意图灵活调整战略的能力;二是收益函数的设置使得决策侧重于使目标雷达达到最低威胁状态,削弱了干扰的实时性能;三是模型未考虑干扰生效时间和干扰成功率,这意味着对实际干扰场景的建模不够全面,实际用途受限。
技术实现要素:
4.为解决上述技术问题,本发明提出一种基于威胁评估的多功能雷达认知干扰决策方法,该方法评估多功能雷达的实时威胁程度并基于此设计认知干扰决策方法,产生的决策兼顾到多功能雷达实时状态、干扰时效和干扰成功率,能有效降低多功能雷达对目标的威胁。
5.本发明采用的技术方案为:一种基于威胁评估的多功能雷达认知干扰决策方法,
包括:
6.s1、建立多功能雷达威胁评估模型,利用多功能雷达的三维空间航迹信息和工作状态评估得到威胁指数ω
t
;
7.s2、建立多功能雷达状态转移模型,具体的:将干扰决策问题建模为带收益的马尔可夫决策过程{s,j,p,r},其中,s表示多功能雷达工作状态空间,包含多功能雷达有限的多个工作状态;j表示干扰波形空间,包含干扰决策方可以使用的有限数量的干扰模式;p表示状态转移概率空间,r表示收益函数;
8.s3、根据步骤s2的多功能雷达状态转移模型,建立认知干扰决策模型;
9.s4、认知干扰决策模型对应的收益函数为:
10.r
t
=ω
t-ω
t
11.其中,r
t
表示在t时刻采取干扰波形后导致的威胁下降程度,ω
t
为机载多功能雷达在无干扰情况下t时刻的雷达综合威胁指数;
12.s5、根据步骤s2建立的多功能雷达状态转移模型、步骤s3的认知干扰决策模型以及步骤s4的收益函数,利用q-learning算法训练获得最优干扰策略。
13.步骤s1中多功能雷达威胁评估模型包括的威胁评估指标为:d
t
、v
rt
、h
t
、a
t
、s
t
;d
t
表示距离,具体指多功能雷达与目标之间的径向相对距离,d
t
越小,威胁就越大;v
rt
表示飞行速度,具体指多功能雷达与我方被保护目标之间的径向速度,v
rt
越大,其威胁程度就越大;h
t
表示飞行高度,具体指多功能雷达飞行的海拔高度,h
t
越大,其威胁程度就越小;a
t
表示进攻角,具体指以我方被保护目标与多功能雷达连线为基准,与多功能雷达飞行航向间的夹角;s
t
表示雷达工作状态,具体指雷达在当前时刻t下所处的工作状态。
14.步骤s1中的威胁指数ω
t
计算过程为:
15.首先根据多功能雷达威胁评估模型包括的威胁评估指标构建威胁评估指标向量(d
t
,v
t
,h
t
,a
t
,s
t
);
16.其次,根据威胁评估指标向量(d
t
,v
t
,h
t
,a
t
,s
t
),采用归一化威胁效用函数计算得到目标综合威胁评估向量(fd,fv,fh,fa,fs);
17.最后根据目标综合威胁评估向量(fd,fv,fh,fa,fs);得到综合雷达威胁指数ω
t
如下:
18.ω
t
=fs·
(μdfd+μ
vfv
+μ
hfh
+μafa)
19.式中μd,μv,μh,μa为归一化权重因子,分别同目标距离、速度、飞行高度和进攻角威胁效用值相乘,且满足μd+μv+μh+μ
α
=1。
20.步骤s5中q-learning算法通过维护一个q值表的状态-动作值函数表来找到最优策略,在每次决策中,q-learning算法根据当前状态选择最大q值对应的干扰波形作为动作,并根据动作产生的收益和下一时刻的多功能雷达工作状态更新q值表,q值的更新规则为:
21.q(s
t
,j
t
)=q(s
t
,j
t
)+α(r
t
+γq(s
t+1
,j
t+1
)-q(s
t
,j
t
))
22.式中α为学习因子,r
t
为收益函数,γ为折现因子,ε为ε-greedy方法中的探索因子,ε∈(0~1);ε-greedy方法作用为在每次决策中,以1-ε的概率选择当前的最优干扰波形,除此之外有ε的概率随机选择干扰波形。
23.本发明的有益效果:在本方法中,首先将干扰决策问题建模为带收益的马尔可夫
决策过程,同时建立基于航迹的多功能雷达威胁评估模型,以威胁评估结果为依据得到干扰决策的收益函数。最后,利用强化学习算法q-learning对该问题进行求解,得到最优干扰策略;与现有技术相比,采用本发明所提出的干扰策略生成方法能有效降低多功能雷达对目标的威胁,在干扰决策实时性和有效性方面具有优势,具有较强的实用价值。
附图说明
24.图1为本发明方法流程示意图;
25.图2为本实施方式机载多功能雷达威胁评估模型示意图;
26.图3为本实施方式多功能雷达状态转移模型示意图;
27.图4为本实施方式认知干扰决策模型示意图;
28.图5为本实施方式实例q值训练结果;
29.图6为本实施方式实例不同方法下效果对比图;
30.其中,图6(a)为平均威胁指数曲线对比图,图6(b)为威胁指数统计值对比图。
具体实施方式
31.本发明主要采用仿真实验的方法进行验证,所有步骤、结论都在windows10操作系统平台上通过matlab 2021a验证正确。为便于本领域人员理解本发明的技术内容,下面结合附图表对本发明内容进一步阐述。
32.附图1为本发明方法流程示意图。
33.本实施方式的具体方法步骤为:
34.步骤a.参数初始化:初始化q-learning算法参数如下:t=0,α=0.8,γ=0.8,ε=0.8~0.05,ε随迭代次数会不断下降,初始化雷达航迹track(t),实例中航迹参数如附表1所示。
35.表1:仿真航迹参数设置
[0036][0037]
建立初始q值表如下:
[0038][0039]
其中,m、n分别为多功能雷达工作状态数和干扰波型数。
[0040]
步骤b.机载多功能雷达探测与工作状态识别:对目标机载多功能雷达进行探测与工作状态识别得到时刻t下的威胁评估指标向量(d
t
,v
t
,h
t
,a
t
,s
t
),具体模型由附图2给出。
[0041]
多功能雷达状态转移模型建立:
[0042]
为了得到最优干扰策略,模拟决策产生的环境反馈,将干扰决策问题建模为带收益的马尔可夫决策过程{s,j,p,r},对模型中元素解释如下:
[0043]
多功能雷达工作状态空间s(s∈s),包含多功能雷达有限多个工作状态。
[0044]
干扰波形空间j(j∈j),包含干扰决策方可以使用的有限数量的干扰模式。
[0045]
状态转移概率空间p(p
ij
∈p),p
ij
为干扰决策动作后多功能雷达从工作状态si转移到sj的概率,定义了工作状态与干扰波形的相互作用关系。
[0046]
收益函数r(r
t
∣∈r),r
t
为选择并执行当前干扰波形时干扰方获得的收益值。
[0047]
认知干扰机通过大量干扰对抗实验收集先验信息,可以构建基于马尔可夫决策过程的多功能雷达的状态转移模型,具体如附图3所示。
[0048]
步骤c.雷达威胁评估:根据步骤b中的威胁评估指标向量,由归一化威胁效用函数计算得到目标综合威胁评估向量(fd,fv,fh,fa,fs)
[0049]
fd为距离威胁效用值,表示机载多功能雷达在不同距离上产生的威胁程度,计算如下式:
[0050][0051]
式中d
t
的单位为千米(km),d1=5(km),d2=300(km),kd=0.1,其中d1和d2分别为目标雷达最近探测距离和目标雷达最远探测距离,取值根据目标雷达型号确定,kd为距离威胁衰减因子,取值在范围(0~1)内根据经验灵活确定。
[0052]fv
为速度威胁效用值,表示机载多功能雷达所具有的径向速度产生的威胁程度,计算如下式:
[0053][0054]
式中v
rt
为径向速度,单位为马赫(ma),kv=0.5,其中kv为速度威胁衰减因子,取值在范围(0~1)内根据经验灵活确定。
[0055]fh
为高度威胁效用值,表示机载多功能雷达实时高度所产生的威胁程度,计算如下式:
[0056][0057]
式中h
t
的单位为千米(km),h0=0.05(km),kh=2
×
10-2
,其中h0为目标雷达最大威胁高度,取值根据目标雷达型号确定,kh为高度威胁衰减因子,取值在范围(1
×
10-3
~2
×
10-2
)内根据经验灵活确定。
[0058]
fa为进攻角威胁效用值,表示机载多功能雷达实时航迹下的进攻角度所产生的威胁程度,计算如下式:
[0059][0060]
式中α
t
的单位为弧度(rad),k
α
=2
×
10-2
,其中k
α
为进攻角威胁衰减因子,取值在范围(1
×
10-3
~2
×
10-2
)内根据经验灵活确定。
[0061]fs
为目标雷达工作模式威胁效用值,表示机载多功能雷达在不同工作模式下产生的不同威胁程度值,由目标雷达工作模式直接查表获得,本发明仿真实例中假定多功能雷达存在6种基本工作状态,按照威胁等级由高至低排序依次为制导状态s1,成像状态s2,非合作目标识别状态s3,测距状态s4,监视状态s5和立体搜索状态s6,由此构建归一化工作模式
威胁效用值查找表如表2所示。
[0062]
表2:雷达工作模式威胁效用值查找表
[0063][0064]
得到目标综合威胁评估向量后,根据式(6)计算得综合雷达威胁指数ω
t
,计算式如下:
[0065]
ω
t
=fs·
(μdfd+μ
vfv
+μ
hfh
+μafa)
ꢀꢀꢀꢀ
(6)
[0066]
其中,μd,μv,μh,μa为归一化权重因子,分别同目标距离、速度、飞行高度和进攻角威胁效用值相乘,且满足μd+μv+μh+μ
α
=1。
[0067]
步骤d.选择干扰波形:根据当前雷达工作状态s
t
和当前q值表,采用ε-greedy方法选择干扰波型,即以ε的概率选择当前工作状态下q值最大的干扰波型,除此之外有1-ε的概率随机选择干扰波形。
[0068]
步骤e.实施干扰:执行干扰后可能导致雷达工作状态转移,令t=t+1,执行一次步骤b得到s
t+1
。
[0069]
根据步骤b中给出的多功能雷达状态转移模型,建立认知干扰决策模型,其基本训练模型如附图4所示,其中s
t
为多功能雷达在时刻t的工作状态,收益函数r
t
定义了从干扰波形j
t
中获得的收益值。
[0070]
在仿真实例中,为了尽快得到最优干扰策略,s
t+1
将由雷达状态转移模型给出如附图3,其中雷达工作状态空间s如下:
[0071]
s={s1,s2,s3,s4,s5,s6}
ꢀꢀ
(7)
[0072]
本发明仿真实例中假定干扰机可以采用的基本干扰波型有6种,分别为灵巧噪声干扰j1,大功率信号压制干扰j2,交叉眼干扰j3,距离欺骗干扰j4,噪声调制干扰j5,移频干扰j6,则干扰波形空间j如下:
[0073]
j={j1,j2,j3,j4,j5,j6}
ꢀꢀ
(8)
[0074]
通过大量干扰对抗实验先验信息得到状态转移概率空间p(p
ij
∈p),当多功能雷达处于立体搜索状态s6时,干扰决策停止,工作状态不再继续转换。
[0075]
步骤f.评估干扰效果:带入s
t+1
和track(t+1)执行一次步骤c,评估t+1时刻下干扰后的雷达综合威胁指数ω
t+1
和干扰前的雷达综合威胁指数ω
t+1
,将ω
t+1
、ω
t+1
一同带入式(10)计算得到干扰收益值r
t+1
。
[0076]
track(t+1)表示下一时间帧下机载mfr(multi-function radar,多功能雷达)的三维航迹。实际应用中,本发明需要通过预先设定航迹或者通过运动状态预测方法以得到track(t+1),本实例中航迹已通过表1预先确定,而运动状态预测方法不在本发明的研究范围内,本发明此处不做详细阐述。
[0077]
步骤g.更新累积q值表:将步骤a中设置参数和步骤f中的r
t+1
带入式(1),更新累积q值表。令s=s
t+1
,若此时s=s6,则说明这一轮次的干扰决策已结束,令t=0,更新当前雷达工作状态s
t
为t=0时刻的雷达工作状态并转到步骤c进行下一轮次的干扰决策,否则转到
步骤d。
[0078]
q值的更新规则为:
[0079]
q(s
t
,j
t
)=q(s
t
,j
t
)+α(r
t
+γq(s
t+1
,j
t+1
)-q(s
t
,j
t
))
ꢀꢀ
(9)
[0080]
式中α为学习因子,r
t
为收益函数,γ为折现因子,ε∈(0~1)为ε-greedy方法中的探索因子。ε-greedy方法作用为在每次决策中,以1-ε的概率选择当前的最优干扰波形,除此之外有ε的概率随机选择干扰波形。随着决策次数的增加,q值表会不断更新,干扰策略会逐渐收敛。
[0081]
收益函数r
t
由下式给出:
[0082]rt
=ω
t-ω
t
ꢀꢀ
(10)
[0083]
式中ω
t
为机载多功能雷达在无干扰情况下t时刻的雷达综合威胁指数,ω
t
由步骤a给出,表示t时刻下采取干扰后的目标雷达的综合威胁指数,r
t
表示在t时刻采取干扰波形后导致的威胁下降程度。r
t
的设置使干扰策略趋向于降低整个航迹下的雷达综合威胁指数ω
t
。
[0084]
步骤h.停止迭代:随着干扰决策轮次的增加,q值表会不断更新并累积,当q值表中各位置q值大小关系不再随循环迭代发生变动,此时干扰策略逐渐趋近收敛,每个雷达工作状态下的干扰策略由q值最大的干扰波形给出。实例中经过300次循环后,q值表训练结果如附图5,此时最优干扰策略为:
[0085]
为了评价策略,在同场景下设置对比方法分别有以下四种:无干扰(without jamming),随机干扰策略(random strategy),传统干扰策略(present strategy)和本发明提出的最优干扰策略(proposed strategy)。采用不同策略进行了10000次蒙特卡罗实验得到平均威胁指数曲线,对比情况如附图6所示,可以发现干扰后各时间帧的平均威胁指数较未干扰时明显降低,与传统干扰策略和随机干扰策略相比,本发明所提出的干扰策略在降低方面具有明显的优势,且能够更快迫使多功能雷达从高威胁的工作状态转变。威胁指数统计值对比如表3所示,显然本发明策略的累积威胁指数ω
sum
和峰值威胁指数ω
max
显著低于其他策略,证明本发明提出的干扰策略不仅从全局角度优化了结果,而且有效削弱了多功能雷达对目标的最大威胁场景。
[0086]
表3:威胁指数统计值对比表
[0087][0088]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
技术特征:
1.一种基于威胁评估的多功能雷达认知干扰决策方法,其特征在于,包括:s1、建立多功能雷达威胁评估模型,利用多功能雷达的三维空间航迹信息和工作状态评估得到威胁指数ω
t
;s2、建立多功能雷达状态转移模型,具体的:将干扰决策问题建模为带收益的马尔可夫决策过程{s,j,p,r},其中,s表示多功能雷达工作状态空间,包含多功能雷达有限的多个工作状态;j表示干扰波形空间,包含干扰决策方可以使用的有限数量的干扰模式;p表示状态转移概率空间,r表示收益函数;s3、根据步骤s2的多功能雷达状态转移模型,建立认知干扰决策模型;s4、认知干扰决策模型对应的收益函数为:r
t
=ω
t-ω
t
其中,r
t
表示在t时刻采取干扰波形后导致的威胁下降程度,ω
t
为机载多功能雷达在无干扰情况下t时刻的雷达综合威胁指数;s5、根据步骤s2建立的多功能雷达状态转移模型、步骤s3的认知干扰决策模型以及步骤s4的收益函数,利用q-learning算法训练获得最优干扰策略。2.根据权利要求1所述的一种基于威胁评估的多功能雷达认知干扰决策方法,其特征在于,步骤s1中多功能雷达威胁评估模型包括的威胁评估指标为:d
t
、v
rt
、h
t
、a
t
、s
t
;d
t
表示距离,具体指多功能雷达与目标之间的径向相对距离,d
t
越小,威胁就越大;v
rt
表示飞行速度,具体指多功能雷达与我方被保护目标之间的径向速度,v
rt
越大,其威胁程度就越大;h
t
表示飞行高度,具体指多功能雷达飞行的海拔高度,h
t
越大,其威胁程度就越小;a
t
表示进攻角,具体指以我方被保护目标与多功能雷达连线为基准,与多功能雷达飞行航向间的夹角;s
t
表示雷达工作状态,具体指雷达在当前时刻t下所处的工作状态。3.根据权利要求2所述的一种基于威胁评估的多功能雷达认知干扰决策方法,其特征在于,步骤s1中的威胁指数ω
t
计算过程为:首先根据多功能雷达威胁评估模型包括的威胁评估指标构建威胁评估指标向量(d
t
,v
t
,h
t
,a
t
,s
t
);其次,根据威胁评估指标向量(d
t
,v
t
,h
t
,a
t
,s
t
),采用归一化威胁效用函数计算得到目标综合威胁评估向量(f
d
,f
v
,f
h
,f
a
,f
s
);最后根据目标综合威胁评估向量(f
d
,f
v
,f
h
,f
a
,f
s
);得到综合雷达威胁指数ω
t
如下:ω
t
=f
s
·
(μ
d
f
d
+μ
v
f
v
+μ
h
f
h
+μ
a
f
a
)式中μ
d
,μ
v
,μ
h
,μ
a
为归一化权重因子,分别同目标距离、速度、飞行高度和进攻角威胁效用值相乘,且满足μ
d
+μ
v
+μ
h
+μ
α
=1。4.根据权利要求3所述的一种基于威胁评估的多功能雷达认知干扰决策方法,其特征在于,步骤s5中q-learning算法通过维护一个q值表的状态-动作值函数表来找到最优策略,在每次决策中,q-learning算法根据当前状态选择最大q值对应的干扰波形作为动作,并根据动作产生的收益和下一时刻的多功能雷达工作状态更新q值表,q值的更新规则为:q(s
t
,j
t
)=q(s
t
,j
t
)+α(r
t
+γq(s
t+1
,j
t+1
)-q(s
t
,j
t
))式中,j
t
表示t时刻的干扰模式,α为学习因子,r
t
为收益函数,γ为折现因子,ε为ε-greedy方法中的探索因子,ε∈(0~1);ε-greedy方法作用为在每次决策中,以1-ε的概率选择当前的最优干扰波形,除此之外有ε的概率随机选择干扰波形。
技术总结
本发明公开一种基于威胁评估的多功能雷达认知干扰决策方法,应用于雷达干扰领域,针对现有多功能雷达对目标的威胁较高的问题;本发明的多功能雷达认知干扰决策方法,首先将干扰决策问题建模为带收益的马尔可夫决策过程,同时建立基于航迹的多功能雷达威胁评估模型,以威胁评估结果为依据得到干扰决策的收益函数。最后,利用强化学习算法Q-Learning对该问题进行求解,得到最优干扰策略。得到最优干扰策略。得到最优干扰策略。
技术研发人员:杨海光 徐庚辰 霍伟博 张玉婕 杨艾炯 张寅 黄钰林 杨建宇 裴季方
受保护的技术使用者:电子科技大学
技术研发日:2023.05.16
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
