扩展目标中基于深度强化学习的传感器管理方法

未命名 08-26 阅读:122 评论:0


1.本发明涉及传感器智能管理技术领域,尤其涉及扩展目标中基于深度强化学习的传感器管理方法。


背景技术:

2.传感器管理是指通过控制传感器系统中的自由度以满足某种约束条件并优化某种性能度量,最终实现目标的过程。随着现代高分辨率传感器的出现,目标可以由多个量测源在某一时刻产生多个量测,因此可以估计目标更多的状态特征,如目标的形状轮廓,此类问题被称为扩展目标跟踪问题。通常传感器管理以优化目标跟踪性能为目的来获取最佳量测信息的方法有两大类,一类是基于任务论的传感器管理方法,此类方法通过具体的任务需求,例如状态的方差或关于目标状态分布的测度来制定相应的传感器控制策略。但此类方法难以满足多个任务需求同时存在的系统的要求。另外一类是基于信息论的传感器管理方法,通过两个概率密度函数之间的信息增益的某种度量来建立评价函数(如kullback-leibler散度、r
é
nyi散度等),进而在信息增益最大化的准则下求解传感器控制策略。基于信息论的传感器控制方法可以使包含多个任务的系统整体信息增益最大化。
3.传统目标跟踪中的传感器管理通常是在部分可观测马尔可夫决策过程的理论框架下进行研究的,传感器管理通常是在离散动作空间中进行的,因为在每次决策时都需要在建立的相应评价准则下,评价可实现的传感器控制方案中的所有动作。所以传统的方法无法处理动作空间急剧增加时造成的维度爆炸和存在计算复杂性的问题。
4.而近几年,深度强化学习是人工智能领域新的研究热点。深度强化学习与扩展目标跟踪问题的交叉融合,为传感器控制智能决策的实现提供了新的途径。深度q网络(deep q-network,dqn)算法,是深度强化学习领域的开创性工作。在dqn的基础上,又先后提出了double dqn(ddqn)、dueling dqn和double dueling dqn(d3qn)等一系列改进算法。尽管dqn及其改进算法都有不错的应用效果,但仍无法处理连续动作空间的问题。所以在深度强化学习领域出现了经典的连续控制算法,深度确定性策略梯度(ddpg)算法,是应用于复杂、连续控制的重要算法。但是ddpg算法存在critic网络对q值过估计的问题。
5.现有的目标跟踪领域的传感器管理方法中,选择传感器管理的任务为控制传感器平台的位置以优化目标跟踪的性能时,由于基于任务论和信息论这两类传感器管理方法,都需要在建立的特定任务优化或者一定的优化准则下进行研究,所以主要是基于离散的传感器动作空间进行控制决策,并且在每一次决策时都需要遍历整个动作空间,当需要考虑自由度空间中的所有待决策动作时,传统的传感器控制方法会面临维度爆炸而引起的效率急剧下降的问题,并且当需要决策的自由度维度更高时,传统的传感器控制方法将会束手无策。


技术实现要素:

6.为解决上述技术问题,本发明提出了扩展目标中基于深度强化学习的传感器管理
方法,将传统传感器管理决策空间由离散动作空间拓展到连续动作空间上,依据椭圆扩展目标跟踪估计效果建立联合优化扩展目标运动学状态和扩展状态(轮廓信息)为目标的科学的奖励回报机制,基于深度强化学习算法建立智能体学习最优控制策略,以人工智能的方式实现传感器控制的智能决策。
7.为实现上述目的,本发明提供了扩展目标中基于深度强化学习的传感器管理方法,包括:
8.针对椭圆扩展目标进行建模,并根据扩展目标滤波算法构建与深度强化学习的虚拟交互环境;
9.建立td3算法智能体;
10.将所述虚拟交互环境与所述td3算法智能体进行交互,获取传感器控制数据,并将所述传感器控制数据作为样本存放至经验回放池;基于所述经验回放池抽取样本,训练所述td3算法智能体,通过训练后的智能体决策出传感器路径规划最优动作;
11.将所述最优动作作用于传感器,所述传感器发生状态转移后获得传感器位置,由此获取当前时刻扩展目标传感器量测值,并进行滤波的预测和更新,进行扩展目标的跟踪估计。
12.优选地,针对所述椭圆扩展目标进行建模,包括:
13.设定k时刻扩展目标跟踪的状态为:ζk=(xk,xk),其中,xk表示目标的运动学状态,xk表示目标的扩展状态;
14.进行建模的方法为:
[0015][0016]
其中,wk为零均值高斯过程噪声,vk为零均值高斯量测噪声,x
s,k
(π)为当前时刻传感器位置,为系统状态演化映射,为量测映射,x
k+1
表示k+1时刻目标运动学状态,表示k时刻的多个量测值。
[0017]
优选地,所述k时刻扩展目标的扩展状态被建模为椭圆形状,用正定对称矩阵xk描述为:
[0018][0019][0020]
其中,θk为椭圆形状方向角,σ
k,1
和σ
k,2
分别为椭圆形状的长轴和短轴。
[0021]
优选地,根据所述扩展目标滤波算法构建与深度强化学习的虚拟交互环境,包括:
[0022]
基于神经网络拟合所述深度强化学习中的价值函数和策略函数,采用深度强化学习算法通过探索与利用机制进行传感器控制,建立智能传感器控制系统,通过所述智能传感器控制系统构建所述虚拟交互环境;所述扩展目标滤波算法包括预测过程和更新过程。
[0023]
优选地,所述预测过程为:
[0024][0025][0026]
其中,f
k|k-1
为状态转移矩阵,id为d维单位矩阵,p
k|k-1
为预测协方差矩阵,d
k|k-1
为零均值高斯过程噪声的协方差矩阵,x
k|k-1
为一步预测值,x
k-1|k-1
为k-1时刻滤波更新值,p
k-1|k-1
为相应的协方差矩阵。
[0027]
优选地,所述td3算法智能体,包括:
[0028]
actor网络:用于根据状态选择动作;
[0029]
目标actor网络:用于根据所述actor网络获取的结果再次根据状态选择动作;
[0030]
critic网络:用于对所述actor网络选择的动作进行评价;
[0031]
目标critic网络:用于根据所述critic网络获取的结果再次对所述actor网络选择的动作进行评价。
[0032]
优选地,获取所述传感器控制数据,包括:
[0033]
所述智能体在任一时刻,采取动作并作用于所述虚拟交互环境后,所述传感器从k时刻状态x
s,k
转移到k+1时刻状态x
s,k+1
,通过奖励函数进行评价获得奖励值r
k+1
,然后所述智能体根据所述奖励值不断改进策略,最终学习到最优策略决策传感器每一时刻的动作。
[0034]
优选地,构建所述奖励函数的方法包括:
[0035]
定义扩展目标k时刻先验概率分布和后验概率分布均服从多元高斯分布,获取先验概率分布和后验概率分布之间的高斯瓦瑟斯坦距离,基于所述高斯瓦瑟斯坦距离构建所述奖励函数。
[0036]
优选地,所述奖励函数为:
[0037][0038][0039]
其中,a
k,0
表示传感器在当前时刻处于静止状态。
[0040]
与现有技术相比,本发明具有如下优点和技术效果:
[0041]
本发明方法运用随机矩阵对椭圆扩展目标的扩展状态建模,可以对目标运动状态和扩展状态进行有效估计,然后采用类似于信息论的传感器管理方法中评价函数的设定构建应用于深度强化学习td3算法中的奖励函数,此奖励函数综合考虑了对目标运动状态和轮廓信息(扩展状态)的联合优化,使用td3算法对传感器在连续动作空间下进行有效控制
后,与无传感器控制相比不仅可以对目标质心位置估计上更加准确,同时对目标轮廓信息的估计上也更加准确,所以在整体上优化了椭圆扩展目标的跟踪效果。
附图说明
[0042]
构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0043]
图1为本发明实施例中传感器控制轨迹示意图;
[0044]
图2为本发明实施例的椭圆扩展目标半长轴及半短轴误差曲线图;
[0045]
图3为本发明实施例的质心估计误差曲线图;
[0046]
图4为本发明实施例的长安器控制扩展目标gw距离示意图;
[0047]
图5为本发明实施例的扩展目标中基于深度强化学习的传感器管理方法流程图;
[0048]
图6为本发明实施例的td3算法智能体中各网络连接关系示意图。
具体实施方式
[0049]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0050]
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0051]
本发明提出了扩展目标中基于深度强化学习的传感器管理方法,如图5,包括:
[0052]
针对椭圆扩展目标进行建模,并根据扩展目标滤波算法构建与深度强化学习的虚拟交互环境;
[0053]
(1)扩展目标跟踪问题描述:
[0054]
对扩展目标进行跟踪时,除开对目标质心运动状态的跟踪还同时跟踪目标的扩展状态即目标的形状随时间的演化.设定k时刻扩展目标跟踪的状态表示为:ζk=(xk,xk),其中,xk表示目标的运动学状态,服从多元高斯分布。xk表示目标的扩展状态,服从逆wishart分布.对系统进行建模为:
[0055][0056]
其中,wk为零均值高斯过程噪声,vk为零均值高斯量测噪声。x
s,k
(π)为当前时刻传感器位置,是系统状态演化映射,是量测映射。
[0057]
k时刻扩展目标的扩展状态被建模为椭圆形状,用正定对称矩阵xk描述为:
[0058][0059][0060]
其中,θk为椭圆形状方向角,σ
k,1
和σ
k,2
分别为椭圆形状的长轴和短轴。
[0061]
(2)扩展目标滤波算法:
[0062]
扩展目标滤波算法在贝叶斯滤波算法框架下实现,由预测过程和更新过程组成。其中每个过程又分为对运动状态和扩展状态的预测和更新:
[0063]
1)预测过程:
[0064]
对运动状态的一步预测,由于服从多元高斯分布,其均值和协方差矩阵如下:
[0065][0066][0067]
其中,f
k|k-1
为状态转移矩阵,id为d维单位矩阵,p
k|k-1
为协方差矩阵,d
k|k-1
为零均值高斯过程噪声的协方差矩阵。
[0068]
扩展状态的一步预测:
[0069]vk|k-1
=e-t/τvk-1|k-1
ꢀꢀ
(6)
[0070][0071][0072]
其中,v
k|k-1
和v
k|k-1
分别为k时刻根据k-1时刻后验预测得到的逆wishart分布中的自由度和逆尺度矩阵,t表示采样时间,τ是时间衰减常数,d表示目标扩展状态的维度,v
k-1|k-1
和v
k-1|k-1
表示k-1时刻的后验即迭代更新后得到的k-1时刻的自由度和逆尺度矩阵,e[x
k|k-1
]表示x
k|k-1
的数学期望。
[0073]
2)更新过程:
[0074]
运动状态的更新:
[0075][0076][0077][0078][0079][0080][0081][0082]
其中,表示质心量测,表示对应的散射矩阵。w
k|k-1
表示系统增益矩阵,εk为系统量测的新息部分,s
k|k-1
表示新息部分的协方差矩阵。
[0083]
扩展状态的更新:
[0084]vk|k
=v
k|k-1
+nkꢀꢀ
(16)
[0085]
[0086][0087][0088]
其中,nk为量测数。
[0089]
假定扩展目标作匀速直线运动,根据公式(1)建立系统方程,同时由公式(2)-(3)建模扩展目标形状为椭圆。由公式(4)-(19)扩展目标滤波算法设定用于与强化学习智能体交互的环境。对于交互环境,即输入k-1时刻的扩展目标运动状态的后验估计值跟协方差矩阵x
k-1|k-1
,p
k-1|k-1
和扩展状态的后验估计值v
k-1|k-1
,v
k-1|k-1
,以及传感器实时位置,通过公式(4)-(19)滤波算法得到k时刻的后验值x
k|k
,p
k|k
,v
k|k
,v
k|k

[0090]
扩展目标跟踪问题已经在雷达、计算机视觉等不同领域进行了研究,其性能依赖于观测者(测量传感器)与运动目标的相对几何形状,所以选择传感器管理的任务为传感器轨迹规划。按照图1所示的框架,首先针对椭圆扩展目标进行建模并根据扩展目标跟踪算法构建与深度强化学习的虚拟交互环境,用神经网络拟合强化学习中的价值函数和策略函数,采用深度强化学习算法通过探索与利用等机制来进行传感器控制,构建智能传感器控制系统。
[0091]
根据td3算法构建其网络结构,其中一共包含6个网络(如图6):分别为actor网络,目标actor网络,两个critic网络以及目标critic网络,其网络训练算法由公式(20)-(27)给出。至此已经搭建好两大主体即环境和强化学习智能体,之后是对智能体进行训练,最后得到最优策略然后根据传感器量测进行目标跟踪的过程。目标actor网络的作用与actor网络作用相同,同样的,目标critic网络的作用与critic网络作用相同。在进行网络参数更新时,会涉及计算下一状态所采取的动作以及下一状态采取动作后的状态动作价值,设置目标网络的目的是为了抑制再次使用原本的网络即“自举”造成的q值过高的问题。另外设置两个critic网络和目标critic网络是因为在更新网络时,取最大化的操作同样会导致q值过估计的问题,通过两个不同的critic网络选择较小值来更新可以有效抑制。
[0092]
ddpg算法是处理复杂、连续控制问题的重要深度强化学习算法,但是ddpg算法中会存在critic网络中对q值过估计的问题,所以针对该问题,双延迟深度确定性策略梯度(td3)算法对ddpg算法通过3个部分进行了优化,有效的抑制了q值过高的问题。所以为了提升深度强化学习算法对扩展目标跟踪的性能优化程度,本发明基于td3算法在采用连续任务的环境中进行传感器控制。
[0093]
(3)td3算法
[0094]
强化学习问题包含两个主体:智能体与环境。在扩展目标基于深度强化学习的传感器控制中,交互的环境为椭圆扩展目标滤波算法,训练强化学习智能体进行传感器智能控制。通常可以使用马尔可夫决策过程(mdp)对强化学习问题进行建模,表示为一个五元组为有限状态集合,即智能体在环境中探索到的所有可能的状态,用s表示当前时刻的状态,s

表示下一时刻状态,则具体状态为坐标系中传感器的位置。为有限动作集合,即智能体根据当前状态所能采取的所有可能的动作的集合,用a表示当前采取的动作,此时为传感器路径规划中,固定传感器速度后,传感器可选择移动的方向角。p为状态转移函数,即传感器从当前状态s转移到下一时刻状态s

时的概率。为奖励函数,表示传感
器根据当前时刻位置状态采取动作后所能获得的期望奖励。γ为折扣因子,表示未来期望奖励在当前时刻的价值比例。
[0095]
智能体与环境交互的过程是智能体在k时刻,采取动作ak并作用于环境后,传感器从k时刻状态x
s,k
转移到k+1时刻状态x
s,k+1
,由奖励函数进行评价得到奖励值r
k+1
,然后智能体根据奖励值不断改进策略,最终学习到最优策略决策传感器每一时刻的动作ak。
[0096]
在mdp中,价值函数包含状态价值函数和动作价值函数(q函数)两种,在td3算法中使用的是动作价值函数,表示在策略函数π的指导下,智能体根据状态s采取动作a所获得的期望奖励。强化学习算法根据环境模型是否已知可以分为两大类:分别为基于模型(model-based)的方法和无模型(model-free)的方法,由于实际问题的环境大部分是复杂未知的,导致对环境的建模困难,所以model-free的方法应用更加广泛。对于model-free的方法又可以分为基于策略(policy-based)的方法、基于价值(value-based)的方法以及综合两者的actor-critic(ac)方法。
[0097]
对于深度强化学习的td3算法是model-free的基于ac的方法,用神经网络拟合价值函数和策略函数。其中,actor表示基于策略函数的网络,用于根据状态选择动作,critic表示基于价值函数的网络,用于对actor网络选择的动作进行评价。假设分别使用参数为θ
μ
和的actor网络和critic网络,参数为θ
μ

的目标actor网络以及参数为和的两个目标critic网络。对critic网络采用梯度下降的方式进行更新,更新公式描述为:
[0098][0099][0100][0101][0102]
对actor网络通过梯度下降的方式更新,可以描述为:
[0103][0104][0105]
其中,n为每次学习采样的批量样本数,α和β为学习率。对于目标网络采用软更新的方式,更新公式可以描述为:
[0106][0107]
θ
μ


τθ
μ
+(1-τ)θ
μ

ꢀꢀ
(27)
[0108]
智能体由当前k时刻传感器位置,根据当前智能体的网络参数输出传感器动作,然后根据此动作得到传感器k+1时刻位置,将k+1时刻位置带入到滤波环境中得到传感器量测值,以此进行扩展目标跟踪伪更新,从而根据设计的奖励函数由公式(29)给出可以得到k时刻采取动作的奖励值,将数据以(x
s,k
,ak,r
k+1
,x
s,k+1
)的形式进行存储。在目标跟踪中会涉及许多时刻,即k∈{0,1,2

t},直至跟踪时刻的结束。在这个过程中环境会不断的与强化学
习智能体进行交互,会得到许多条(x
s,k
,ak,r
k+1
,x
s,k+1
)形式的数据,都将其存储在经验回放池中,设置一定的经验回放池容量,当数据超过这个容量时,丢弃之前旧的数据,重新用新的数据来填充经验回放池。
[0109]
对于深度强化学习中的奖励函数的构建:选取扩展目标先验概率密度与后验概率密度之间的信息增益来设计奖励函数,利用高斯瓦瑟斯坦距离来度量这种信息增益。此时,用先验概率密度和后验概率密度之间的高斯瓦瑟斯坦(gw)距离对扩展目标跟踪估计效果进行综合评价,gw距离越大表明信息增益越大,通过该奖励函数引导强化学习智能体选择最优策略,可以避免采用稀疏奖励使智能体难以收敛的问题。
[0110]
(4)奖励函数的设计
[0111]
由于目标跟踪涉及许多时刻,即k∈{0,1,2

t},在每一个时刻,从经验回放池中抽取小批量的数据,根据td3算法的网络更新方式即公式(20)-(27)对网络参数进行更新。不断的从经验回放池中抽取数据,设置一定的训练次数,对网络参数进行迭代更新,最终使其收敛到最优,控制智能体根据k时刻传感器位置作出最优策略得到传感器动作。
[0112]
在椭圆扩展目标跟踪中,可以将运动状态的位置分量和扩展状态定义为多元高斯分布,用来描述扩展目标跟踪的整体效果,表示为:n
x
~n(m
x
,s∑
x
),其中,m
x
由xk的位置分量确定,s∑
x
表示范围,s为缩放因子,取s=1,∑
x
由随机矩阵xk确定。则定义扩展目标k时刻先验概率分布和后验概率分布均服从多元高斯分布,描述为:两者之间的高斯瓦瑟斯坦距离为:
[0113][0114]
则基于此,奖励函数为:
[0115][0116][0117]
其中,a
k,0
表示传感器在当前时刻处于静止状态。
[0118]
用每一时刻训练好的强化学习智能体最终根据当前时刻的传感器位置选择其下一时刻的动作以获得最佳量测,新的量测根据公式(9)-(10)得到,最后带入到滤波算法(6)-(19)中得到最终的扩展目标跟踪结果。通过以上步骤的迭代最终得到最优传感器路径以优化椭圆扩展目标跟踪整体性能。
[0119]
图2为扩展目标跟踪中基于td3算法的传感器轨迹智能规划后,对目标扩展状态估计中与真实目标的半长轴和半短轴之间的估计误差,可以看出对半长轴的估计误差均在1.0以下,对半短轴的估计误差均在0.5以下,对扩展目标的形状估计比较准确。
[0120]
图3为在无传感器控制方案下与基于td3控制方案下,扩展目标状态估计与真实目标状态之间的质心估计误差。从图3中可以看出,扩展目标中加入基于深度强化学习的传感
器控制方法后,对扩展目标的质心跟踪估计更加精准。
[0121]
图4为在无传感器控制方案下与基于td3控制方案下,扩展目标估计与真实扩展目标之间的高斯瓦瑟斯坦距离,通过该指标综合考虑对目标运动状态和扩展状态估计的整体性能。从图4可以看出,扩展目标中加入基于深度强化学习的传感器控制方法后,提升了扩展目标跟踪的整体性能,不仅使质心估计更加准确,同时对目标轮廓信息的跟踪估计也更接近于目标真实形状。
[0122]
本发明运用随机矩阵对椭圆扩展目标的扩展状态建模,可以对目标运动状态和扩展状态进行有效估计,然后采用类似于信息论的传感器管理方法中评价函数的设定构建应用于深度强化学习td3算法中的奖励函数,此奖励函数综合考虑了对目标运动状态和轮廓信息(扩展状态)的联合优化,使用td3算法对传感器在连续动作空间下进行有效控制后,与无传感器控制相比不仅可以对目标质心位置估计上更加准确,同时对目标轮廓信息的估计上也更加准确,所以在整体上优化了椭圆扩展目标的跟踪效果。
[0123]
以上,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。

技术特征:
1.扩展目标中基于深度强化学习的传感器管理方法,其特征在于,包括:针对椭圆扩展目标进行建模,并根据扩展目标滤波算法构建与深度强化学习的虚拟交互环境;建立td3算法智能体;将所述虚拟交互环境与所述td3算法智能体进行交互,获取传感器控制数据,并将所述传感器控制数据作为样本存放至经验回放池;基于所述经验回放池抽取样本,训练所述td3算法智能体,通过训练后的智能体决策出传感器路径规划最优动作;将所述最优动作作用于传感器,所述传感器发生状态转移后获得传感器位置,由此获取当前时刻扩展目标传感器量测值,并进行滤波的预测和更新,进行扩展目标的跟踪估计。2.根据权利要求1所述的扩展目标中基于深度强化学习的传感器管理方法,其特征在于,针对所述椭圆扩展目标进行建模,包括:设定k时刻扩展目标跟踪的状态为:ζ
k
=(x
k
,x
k
),其中,x
k
表示目标的运动学状态,x
k
表示目标的扩展状态;进行建模的方法为:其中,w
k
为零均值高斯过程噪声,v
k
为零均值高斯量测噪声,x
s,k
(π)为当前时刻传感器位置,为系统状态演化映射,为量测映射,x
k+1
表示k+1时刻目标运动学状态,表示k时刻的多个量测值。3.根据权利要求2所述的扩展目标中基于深度强化学习的传感器管理方法,其特征在于,所述k时刻扩展目标的扩展状态被建模为椭圆形状,用正定对称矩阵x
k
描述为:描述为:其中,θ
k
为椭圆形状方向角,σ
k,1
和σk,2分别为椭圆形状的长轴和短轴。4.根据权利要求1所述的扩展目标中基于深度强化学习的传感器管理方法,其特征在于,根据所述扩展目标滤波算法构建与深度强化学习的虚拟交互环境,包括:基于神经网络拟合所述深度强化学习中的价值函数和策略函数,采用深度强化学习算法通过探索与利用机制进行传感器控制,建立智能传感器控制系统,通过所述智能传感器控制系统构建所述虚拟交互环境;所述扩展目标滤波算法包括预测过程和更新过程。5.根据权利要求4所述的扩展目标中基于深度强化学习的传感器管理方法,其特征在于,所述预测过程为:于,所述预测过程为:
其中,f
k|k-1
为状态转移矩阵,i
d
为d维单位矩阵,p
k|k-1
为预测协方差矩阵,d
k|k-1
为零均值高斯过程噪声的协方差矩阵,x
k|k-1
为一步预测值,x
k-1|k-1
为k-1时刻滤波更新值,p
k-1|k-1
为相应的协方差矩阵。6.根据权利要求1所述的扩展目标中基于深度强化学习的传感器管理方法,其特征在于,所述td3算法智能体,包括:actor网络:用于根据状态选择动作;目标actor网络:用于根据所述actor网络获取的结果再次根据状态选择动作;critic网络:用于对所述actor网络选择的动作进行评价;目标critic网络:用于根据所述critic网络获取的结果再次对所述actor网络选择的动作进行评价。7.根据权利要求1所述的扩展目标中基于深度强化学习的传感器管理方法,其特征在于,获取所述传感器控制数据,包括:所述智能体在任一时刻,采取动作并作用于所述虚拟交互环境后,所述传感器从k时刻状态x
s,k
转移到k+1时刻状态x
s,k+1
,通过奖励函数进行评价获得奖励值r
k+1
,然后所述智能体根据所述奖励值不断改进策略,最终学习到最优策略决策传感器每一时刻的动作。8.根据权利要求7所述的扩展目标中基于深度强化学习的传感器管理方法,其特征在于,构建所述奖励函数的方法包括:定义扩展目标k时刻先验概率分布和后验概率分布均服从多元高斯分布,获取先验概率分布和后验概率分布之间的高斯瓦瑟斯坦距离,基于所述高斯瓦瑟斯坦距离构建所述奖励函数。9.根据权利要求8所述的扩展目标中基于深度强化学习的传感器管理方法,其特征在于,所述奖励函数为:于,所述奖励函数为:于,所述奖励函数为:else 0其中,a
k,0
表示传感器在当前时刻处于静止状态。

技术总结
本发明公开了扩展目标中基于深度强化学习的传感器管理方法,包括:针对椭圆扩展目标进行建模,并根据扩展目标滤波算法构建与深度强化学习的虚拟交互环境;建立TD3算法智能体;将虚拟交互环境与TD3算法智能体进行交互,获取传感器控制数据,并将传感器控制数据作为样本存放至经验回放池;基于经验回放池抽取样本,训练TD3算法智能体,通过训练后的智能体决策出传感器路径规划最优动作;将最优动作作用于传感器,传感器发生状态转移后获得传感器位置,由此获取当前时刻扩展目标传感器量测值,并进行滤波的预测和更新,进行扩展目标的跟踪估计。本发明在整体上优化了椭圆扩展目标的跟踪效果。踪效果。踪效果。


技术研发人员:陈辉 张虹芸 张文旭 张新迪 田博 罗欣 缪嘉伟
受保护的技术使用者:兰州理工大学
技术研发日:2023.05.26
技术公布日:2023/8/23
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐