一种基于深度Q网络学习的车辆跟踪方法、存储介质及设备

未命名 09-22 阅读:71 评论:0

一种基于深度q网络学习的车辆跟踪方法、存储介质及设备
技术领域
1.本发明属于车辆跟踪技术领域,具体涉及一种基于深度q网络学习的车辆跟踪方法、存储介质及设备。


背景技术:

2.车辆跟踪是无线网络和智能交通领域中的一个重要研究方向。目前,路边单元(road-side unit,rsu)跟踪技术是智能交通系统中常用的一种技术,该技术与全球定位系统(global positioning system,gps)和全球移动通信系统(global system for mobile communications)不同的是:rsu跟踪技术允许车辆在未安装gps等专用设备的情况下,通过rsu信号实现车辆轨迹跟踪。更重要的是,rsu可以有效地覆盖城市中gps信号难以覆盖的位置(如隧道和建筑遮挡),其定位精度能够满足实际跟踪要求。因此,采用rsu的车辆跟踪方法是城市交通环境中车辆目标跟踪的较好选择。
3.在车辆跟踪问题中,卡尔曼滤波作为一种实用且常见的跟踪算法,其可与rsu信号有机结合。但是传统卡尔曼滤波是利用状态空间方法和递归算法来求解线性空间问题的,针对复杂场景中车辆多种运动情况无法采用某一固定的状态空间进行求解,因此在无法覆盖gps信号且场景复杂的情况下,现有技术仍然无法实现对车辆的高精度定位跟踪。


技术实现要素:

4.本发明的目的是为解决在无法覆盖gps信号且场景复杂的情况下,采用现有技术无法实现对车辆的高精度定位跟踪的问题,而提出的一种基于深度q网络学习的车辆跟踪方法、存储介质及设备。
5.本发明为解决上述技术问题所采取的技术方案是:
6.一种基于深度q网络学习的车辆跟踪方法,所述方法具体包括以下步骤:
7.步骤一、构建车辆跟踪系统模型;
8.所述步骤一具体包括:
9.步骤一一、在道路两侧安装rsu;
10.步骤一二、构建车辆运动状态预测模型;
11.步骤一三、根据车辆在运动过程中接收到的来自于rsu的到达时间(time of arrival,toa)信息,构建车辆运动状态观测模型;
12.步骤二、根据步骤一中获得的状态预测和状态观测结果,并基于深度q网络和imm(interacting multiple model,imm)卡尔曼滤波对车辆进行跟踪;
13.所述步骤二具体包括:
14.步骤二一、利用imm卡尔曼滤波对车辆进行跟踪;
15.步骤二二、根据步骤二一的跟踪结果获得状态数组(i,a
k-1
,rk,j),并将获得的状态数组(i,a
k-1
,rk,j)存储到经验重放单元,根据经验重放单元存储的状态数组更新深度q网络的价值函数的参数;
16.步骤二三、根据更新后的价值函数参数对马尔可夫状态转移概率矩阵进行更新;
17.步骤二四、判断车辆是否达到运动的终止时刻,若达到运动的终止时刻,则结束跟踪;否则未达到运动的终止时刻,则利用更新后的马尔可夫状态转移概率矩阵返回步骤二一。
18.对于首个跟踪时刻来说,其所采用的马尔可夫状态转移概率矩阵是随机设定的。
19.进一步地,所述车辆运动状态预测模型为:
20.xk=fx
k-1
+gω
k-1
21.其中,xk表示tk时刻车辆的运动状态向量,xk=[x,y,v
x
,vy,a
x
,ay]
t
,x表示车辆沿空间直角坐标系的x轴方向的位置,y表示车辆沿空间直角坐标系的y轴方向的位置,v
x
表示车辆沿空间直角坐标系的x轴方向的速度,vy表示车辆沿空间直角坐标系的y轴方向的速度,a
x
表示车辆沿空间直角坐标系的x轴方向的加速度,ay表示车辆沿空间直角坐标系的y轴方向的加速度,上角标t代表转置,x
k-1
表示t
k-1
时刻车辆的运动状态向量,f为状态转移矩阵,ω
k-1
表示t
k-1
时刻加速度扰动噪声,g为预测模型噪声矩阵。
[0022]
进一步地,所述车辆运动状态观测模型为:
[0023]
zk=hxk+vk[0024]
其中,zk为tk时刻车辆运动状态的观测值,h为接收到的来自于rsu的到达时间的映射矩阵,vk是观测噪声。
[0025]
进一步地,所述步骤二一的具体过程为:
[0026]
步骤二一一、计算tk时刻运动状态j的预测概率:
[0027][0028]
其中,μ
i,k-1
为t
k-1
时刻车辆运动状态i的概率,为tk时刻运动状态j的预测概率,p
ij
为t
k-1
时刻更新后的马尔可夫状态转移概率矩阵中的元素,i=1,2

,r,j=1,2

,r;
[0029]
根据μ
i,k-1
计算车辆从运动状态i到运动状态j的混合概率为:
[0030][0031]
其中,μ
ij,k-1k-1
为车辆从运动状态i到运动状态j的混合概率;
[0032]
利用μ
ij,k-1k-1
计算运动状态j的混合状态估计以及运动状态j的混合协方差估计:
[0033][0034][0035]
其中,为运动状态j的混合状态估计,是t
k-1
时刻车辆运动状态i的状态估计,p
0j,k-1|k-1
为运动状态j的混合协方差估计,p
i,k-1|k-1
是t
k-1
时刻车辆运动状态i的协方差估计;
[0036]
步骤二一二、根据和p
0j,k-1k-1
计算状态的一步预测和协方差的一步预测:
[0037][0038]
p
j,kk-1
=fjp
0j,k-1|k-1fjt
+gjq
jgjt
[0039]kj,k
=p
j,kk-1ht
[h p
j,kk-1ht
+r]-1
[0040]
其中,为tk时刻运动状态j的状态一步预测,p
j,k|k-1
为tk时刻运动状态j的协方差一步预测,fj为运动状态j的状态转移矩阵,gj为运动状态j的模型噪声矩阵,qj为运动状态j的扰动噪声的协方差矩阵,k
j,k
为tk时刻运动状态j的卡尔曼增益,r是rsu的观测协方差噪声矩阵,上角标-1代表矩阵的逆;
[0041]
根据p
j,k|k-1
和k
j,k
计算tk时刻车辆运动状态j的状态估计以及协方差估计:
[0042][0043]
p
j,kk
=[i-k
j,k h]p
j,k|k-1
[0044]
其中,为tk时刻车辆运动状态j的状态估计,p
j,k|k
为tk时刻车辆运动状态j的协方差估计,i是单位矩阵;
[0045]
步骤二一三、运动状态j的似然函数为:
[0046][0047]
其中,λ
j,k
是tk时刻运动状态j的似然函数值,n为zk的维数,s
j,k
为中间变量矩阵,s
j,k
=h p
j,kk-1ht
+r,|
·
|代表取模长,上角标-1代表取逆,运动状态j的概率更新为:式中,μ
j,k
为tk时刻运动状态j的概率,c为归一化的系数,
[0048]
步骤二一四、根据tk时刻运动状态j的概率μ
j,k
计算tk时刻最终的运动状态估计:
[0049][0050]
其中,是tk时刻最终的运动状态估计结果,即tk时刻对车辆跟踪的结果。
[0051]
进一步地,所述步骤二二的具体过程为:
[0052]
步骤二二一、根据计算tk时刻的奖励函数rk:
[0053][0054]
其中,e[
·
]代表求期望;
[0055]
步骤二二二、根据rk构造状态数组(i,a
k-1
,rk,j),并将获得的状态数组(i,a
k-1
,rk,j)存储到经验重放单元,a
k-1
是t
k-1
时刻所选择的动作;
[0056]
步骤二二三、再从经验重放单元中选取小批量状态数组来更新深度q网络的价值函数的参数,所述价值函数的参数更新时采用的是梯度下降法。
[0057]
进一步地,所述步骤二二三的具体过程为:
[0058]
计算t
k-1
时刻累积的q值y
k-1

[0059]
[0060]
其中,γ是权重因子,q(j

,ak;θk)是tk时刻的价值函数值,j

是tk时刻的的目标状态,ak是tk时刻的动作;
[0061]
tk时刻的价值函数参数θk为:
[0062][0063]
式中,θ
k-1
是t
k-1
时刻的价值函数参数,α为学习率,q(i,a
k-1
;θ
k-1
)是t
k-1
时刻的价值函数值,表示q(i,a
k-1
;θ
k-1
)对θ
k-1
求偏导。
[0064]
进一步地,所述根据更新后的价值函数参数对马尔可夫状态转移概率矩阵进行更新,其具体为:
[0065][0066][0067]
其中,i=1,2

,r,j=1,2

,r,qj是利用深度q网络学习得到动作ak下的价值函数对车辆运动状态j的打分。
[0068]
更进一步地,所述动作a
k-1
利用ε-贪婪方法随机选择。
[0069]
一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的一种基于深度q网络学习的车辆跟踪方法。
[0070]
一种基于深度q网络学习的车辆跟踪设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的一种基于深度q网络学习的车辆跟踪方法。
[0071]
本发明的有益效果是:
[0072]
本发明针对imm卡尔曼滤波器的状态转移概率矩阵未知的复杂情况,基于dqn学习得到imm卡尔曼滤波器的状态转移概率矩阵,利用深度强化学习的感知和决策能力,能够有效地感知外部环境,获得最优判断,而且本发明方法的实现过程不需要依赖gps信号,因此,在无法覆盖gps信号且场景复杂的情况下,本发明方法仍然可以提升车辆跟踪性能,实现对车辆的高精度定位跟踪。
附图说明
[0073]
图1是本发明所述的一种基于深度q网络学习的车辆跟踪方法的流程图;
[0074]
图2是传统卡尔曼滤波方法的车辆跟踪仿真图;
[0075]
图3是本发明的一种基于深度q网络学习的车辆跟踪方法仿真图。
具体实施方式
[0076]
下面通过具体实施方式结合附图对本技术作进一步详细说明。显然,所描述的实施方式仅仅是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施方式,都属于本
发明保护的范围。
[0077]
具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于深度q网络学习的车辆跟踪方法,所述方法具体包括以下步骤:
[0078]
步骤一、构建车辆跟踪系统模型;
[0079]
所述步骤一具体包括:
[0080]
步骤一一、在道路两侧安装rsu;
[0081]
步骤一二、构建车辆运动状态预测模型;
[0082]
步骤一三、根据车辆在运动过程中接收到的来自于rsu的到达时间(time of arrival,toa)信息,构建车辆运动状态观测模型;
[0083]
步骤二、根据步骤一中获得的状态预测和状态观测结果,并基于深度q网络和imm(interacting multiple model,imm)卡尔曼滤波对车辆进行跟踪;
[0084]
所述步骤二具体包括:
[0085]
步骤二一、利用imm卡尔曼滤波对车辆进行跟踪;
[0086]
步骤二二、根据步骤二一的跟踪结果获得状态数组(i,a
k-1
,rk,j),并将获得的状态数组(i,a
k-1
,rk,j)存储到经验重放单元,根据经验重放单元存储的状态数组更新深度q网络的价值函数的参数;
[0087]
步骤二三、根据更新后的价值函数参数对马尔可夫状态转移概率矩阵进行更新;
[0088]
步骤二四、判断车辆是否达到运动的终止时刻,若达到运动的终止时刻,则结束跟踪;否则未达到运动的终止时刻,则利用更新后的马尔可夫状态转移概率矩阵返回步骤二一。
[0089]
对于首个跟踪时刻来说,其所采用的马尔可夫状态转移概率矩阵是随机设定的。
[0090]
具体实施方式二:本实施方式与具体实施方式一不同的是,所述车辆运动状态预测模型为:
[0091]
xk=fx
k-1
+gω
k-1
[0092]
其中,xk表示tk时刻车辆的运动状态向量,xk=[x,y,v
x
,vy,a
x
,ay]
t
,x表示车辆沿空间直角坐标系的x轴方向的位置,y表示车辆沿空间直角坐标系的y轴方向的位置,v
x
表示车辆沿空间直角坐标系的x轴方向的速度,vy表示车辆沿空间直角坐标系的y轴方向的速度,a
x
表示车辆沿空间直角坐标系的x轴方向的加速度,ay表示车辆沿空间直角坐标系的y轴方向的加速度,上角标t代表转置,x
k-1
表示t
k-1
时刻车辆的运动状态向量,f为状态转移矩阵,ω
k-1
表示t
k-1
时刻加速度扰动噪声,g为预测模型噪声矩阵。
[0093]
其它步骤及参数与具体实施方式一相同。
[0094]
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述车辆运动状态观测模型为:
[0095]
zk=hxk+vk[0096]
其中,zk为tk时刻车辆运动状态的观测值,h为接收到的来自于rsu的到达时间的映射矩阵,vk是观测噪声。
[0097]
其它步骤及参数与具体实施方式一或二相同。
[0098]
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤二一的具体过程为:
[0099]
步骤二一一、计算tk时刻运动状态j的预测概率:
[0100][0101]
其中,μ
i,k-1
为t
k-1
时刻车辆运动状态i的概率,为tk时刻运动状态j的预测概率,p
ij
为t
k-1
时刻更新后的马尔可夫状态转移概率矩阵中的元素,i=1,2

,r,j=1,2

,r;
[0102]
根据μ
i,k-1
计算车辆从运动状态i到运动状态j的混合概率为:
[0103][0104]
其中,μ
ij,k-1|k-1
为车辆从运动状态i到运动状态j的混合概率;
[0105]
利用μ
ij,k-1|k-1
计算运动状态j的混合状态估计以及运动状态j的混合协方差估计:
[0106][0107][0108]
其中,为运动状态j的混合状态估计,是t
k-1
时刻车辆运动状态i的状态估计,p
0j,k-1|k-1
为运动状态j的混合协方差估计,p
i,k-1|k-1
是t
k-1
时刻车辆运动状态i的协方差估计;
[0109]
步骤二一二、根据和p
0j,k-1|k-1
计算状态的一步预测和协方差的一步预测:
[0110][0111]
p
j,k|k-1
=fjp
0j,k-1|k-1fjt
+gjq
jgjt
[0112]kj,k
=p
j,k|k-1ht
[h p
j,k|k-1ht
+r]-1
[0113]
其中,为tk时刻运动状态j的状态一步预测,p
j,k|k-1
为tk时刻运动状态j的协方差一步预测,fj为运动状态j的状态转移矩阵,gj为运动状态j的模型噪声矩阵,qj为运动状态j的扰动噪声的协方差矩阵,k
j,k
为tk时刻运动状态j的卡尔曼增益,r是rsu的观测协方差噪声矩阵,上角标-1代表矩阵的逆;
[0114]
根据p
j,k|k-1
和k
j,k
计算tk时刻车辆运动状态j的状态估计以及协方差估计:
[0115][0116]
p
j,k|k
=[i-k
j,k h]p
j,k|k-1
[0117]
其中,为tk时刻车辆运动状态j的状态估计,p
j,k|k
为tk时刻车辆运动状态j的协方差估计,i是单位矩阵;
[0118]
步骤二一三、运动状态j的似然函数为:
[0119][0120]
其中,λ
j,k
是tk时刻运动状态j的似然函数值,n为zk的维数,s
j,k
为中间变量矩阵,s
j,k
=h p
j,k|k-1ht
+r,|
·
|代表取模长,上角标-1代表取逆,运动状态j的
概率更新为:式中,μ
j,k
为tk时刻运动状态j的概率,c为归一化的系数,
[0121]
步骤二一四、根据tk时刻运动状态j的概率μ
j,k
计算tk时刻最终的运动状态估计:
[0122][0123]
其中,是tk时刻最终的运动状态估计结果,即tk时刻对车辆跟踪的结果。
[0124]
其它步骤及参数与具体实施方式一至三之一相同。
[0125]
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤二二的具体过程为:
[0126]
步骤二二一、根据计算tk时刻的奖励函数rk:
[0127][0128]
其中,e[
·
]代表求期望;
[0129]
步骤二二二、根据rk构造状态数组(i,a
k-1
,rk,j),并将获得的状态数组(i,a
k-1
,rk,j)存储到经验重放单元,a
k-1
是t
k-1
时刻所选择的动作;
[0130]
步骤二二三、再从经验重放单元中随机选取小批量状态数组来更新深度q网络的价值函数的参数,所述价值函数的参数更新时采用的是梯度下降法。
[0131]
其它步骤及参数与具体实施方式一至四之一相同。
[0132]
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤二二三的具体过程为:
[0133]
计算t
k-1
时刻累积的q值y
k-1

[0134][0135]
其中,γ是权重因子,q(j

,ak;θk)是tk时刻的价值函数值,j

是tk时刻的的目标状态,ak是tk时刻的动作;
[0136]
则tk时刻的价值函数参数θk为:
[0137][0138]
式中,θ
k-1
是t
k-1
时刻的价值函数参数,α为学习率,q(i,a
k-1
;θ
k-1
)是t
k-1
时刻的价值函数值,表示q(i,a
k-1
;θ
k-1
)对θ
k-1
求偏导。
[0139]
其它步骤及参数与具体实施方式一至五之一相同。
[0140]
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述根据更新后的价值函数参数对马尔可夫状态转移概率矩阵进行更新,其具体为:
[0141]
[0142][0143]
其中,i=1,2

,r,j=1,2

,r,qj是利用深度q网络学习得到动作ak下的价值函数q(i,ak;θk)对车辆运动状态j的打分。
[0144]
本实施方式更新后的马尔可夫状态转移概率矩阵用于下一时刻车辆运动状态的跟踪。而且,需要特别说明的是,本发明中的运动状态i和运动状态j不用于对某个具体运动状态的限定,对于任意一个当前跟踪时刻,将当前时刻的前一时刻的运动状态表示为运动状态i,前一时刻选择动作后,由运动状态i到达当前跟踪时刻的运动状态表示为运动状态j。
[0145]
其它步骤及参数与具体实施方式一至六之一相同。
[0146]
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述动作a
k-1
利用ε-贪婪方法随机选择。
[0147]
其它步骤及参数与具体实施方式一至七之一相同。
[0148]
具体实施方式九:本实施方式为一种计算机存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的一种基于深度q网络学习的车辆跟踪方法。
[0149]
应当理解,指令包括本发明描述的任何方法对应的计算机程序产品、软件或计算机化方法;所述指令可以用于编程计算机系统,或其他电子装置。计算机存储介质可以包括其上存储有指令的可读介质,可以包括但不限于磁存储介质,光存储介质;磁光存储介质包括只读存储器rom、随机存取存储器ram、可擦除可编程存储器(例如,eprom和eeprom)以及闪存层,或者适合于存储电子指令的其他类型的介质。
[0150]
具体实施方式十:本实施方式为一种基于深度q网络学习的车辆跟踪设备,所述设备包括处理器和存储器,应当理解,包括本发明描述的任何包括处理器和存储器的设备,设备还可以包括其他通过信号或指令进行显示、交互、处理、控制等以及其他功能的单元、模块;
[0151]
所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的一种基于深度q网络学习的车辆跟踪方法。
[0152]
实施例
[0153]
本发明假设rsu已经安装在已知位置的道路两侧,车辆在二维平面内做z型轨迹运动,对应三种运动状态:“匀速”、“慢转弯”和“快转弯”;如图1所示,本发明所述的一种基于深度q网络学习的车辆跟踪方法的matlab仿真实验步骤如下:
[0154]
1、建立基于rsu接收信号的车辆跟踪系统模型
[0155]
1)构建车辆运动场景
[0156]
假设rsu已经安装在已知位置的道路两侧,所有车辆都配备了无线电设备,能够实现车辆自组网(vehicular ad-hoc networks,vanet)通信,所有的vanet节点都会定期广播信号;车载惯性导航系统(inertial navigation system,ins)可以获得车辆本身的粗略位置估计,同时rsu还能够得到车辆与rsu之间的到达时间(time of arrival,toa)估计;通过获取这两个估计,rsu就可以分析出车辆的位置并进行实时跟踪;
[0157]
仿真实验中rsu的个数为6;
[0158]
2)构建车辆运动状态预测模型
[0159]
用xk=[x,y,v
x
,vy,a
x
,ay]
t
表示tk时刻车辆的运动状态向量,其中x,y、v
x
,vy和a
x
,ay分别表示车辆沿x轴和y轴方向的位置、速度和加速度,则运动状态向量的预测方程为
[0160]
xk=fx
k-1
+gω
k-1
[0161]
其中f为状态转移矩阵,表示车辆运动的具体模式,xk表示tk时刻车辆的运动状态向量,ω
k-1
表示t
k-1
时刻加速度扰动噪声,是零均值独立的高斯随机向量,协方差矩阵为q;g为模型噪声矩阵,表示扰动噪声对系统状态的影响程度;
[0162]
仿真实验中,车辆的初始状态为xk=[2000,10000,0,-15,0,0]
t
,先沿当前方向做匀速直线运动,400s后进行沿x轴方向和y轴方向加速度均为0.075m/s2的慢转弯运动,200s后车辆沿x轴方向做速度为15m/s的匀速直线运动,10s后进行沿x轴方向和y轴方向加速度均为0.3m/s2的快转弯运动,50s后沿y轴负方向做速度为15m/s的匀速直线运动,持续240s,rsu的扫描周期为t=2s;
[0163][0164]
这三种模型分别对应于“匀速”、“慢转弯”和“快转弯”运动状态,第一个模型为非机动模型,第二个和第三种模型为机动模型;模型噪声矩阵分别为
[0165][0166]
ω
k-1
为随机的2
×
1的零均值独立高斯随机向量,其对应的“匀速”、“慢转弯”、“快转弯”三种运动状态的协方差矩阵分别为三种运动状态的协方差矩阵分别为
[0167]
3)构建车辆运动状态观测模型
[0168]
车辆在运动过程中同时接收来自多个rsu的toa信息,tk时刻车辆运动状态的观测方程为:
[0169]
zk=hxk+vk[0170]
其中,h为toa信息的映射矩阵,vk是观测噪声,是协方差矩阵为r的零均值独立的
高斯随机向量,并且vk与ωk是相互独立的;
[0171]
仿真实验中观测噪声的标准差为δ=100,
[0172]
2、建立基于深度q网络的imm车辆跟踪系统
[0173]
1)构建车辆运动状态的imm卡尔曼滤波模型
[0174]
(1)假设车辆具有r个运动状态,例如转弯、加速、减速等,所有运动状态之间的转移概率由马尔可夫状态转移概率矩阵确定,表示为:
[0175][0176]
其中,p
ij
表示车辆运动状态i与运动状态j之间的转移概率,由dqn学习得到;
[0177]
仿真实验中r=3,的初始值随机设定,dqn训练过程中迭代次数为100次;
[0178]
(2)设t
k-1
时刻车辆运动状态i的概率为μ
i,k-1
,则tk时刻运动状态j的预测概率为从运动状态i到运动状态j的混合概率为在t
k-1
时刻车辆运动状态i的估计为协方差估计为p
i,k-1|k-1
,则得到运动状态j的混合状态估计为运动状态j的混合协方差估计为并将混合状态估计和混合协方差估计p
0j,k-1|k-1
作为当前循环周期的初始状态;
[0179]
仿真实验中μ
i,k-1
的初始值随机设定;
[0180]
(3)以p
0j,k-1|k-1
和zk作为卡尔曼滤波器的输入,对运动状态j进行卡尔曼滤波,得到预测运动状态为预测协方差为p
j,k|k-1
=fjp
0j,k-1|k-1fjt
+gjq
jgjt
,卡尔曼增益为k
j,k
=p
j,k|k-1ht
[h p
j,k|k-1ht
+r]-1
,其中gj、fj和qj分别为运动状态j的模型噪声矩阵、状态转移矩阵和扰动噪声的协方差矩阵,同时更新预测运动状态为更新预测协方差为p
j,k|k
=[i-k
j,k h]p
j,k|k-1

[0181]
(4)运动状态j的似然函数为:
[0182][0183]
其中,s
j,k
=h p
j,k|k-1ht
+r,n为向量zk的维数;运动状态j的概率
更新为式中为归一化的系数;
[0184]
仿真实验中n=6;
[0185]
(5)根据tk时刻运动状态j的概率μ
j,k
,对每个滤波器的预测运动状态进行加权求和,得到最终的运动状态估计为
[0186]
2)构建马尔可夫决策链过程
[0187]
马尔可夫决策过程(markov decision process,mdp)是强化学习的基础,一个mdp是由数组(i,a,p,r,γ)来描述的,其中i是所有可能状态的集合,也可称为状态空间,每一个状态i∈i均表示环境信息中的唯一独特的状态信息,每一个状态信息都是一个六维矢量,即xk,表示车辆在tk时刻分别沿x轴和y轴方向的位置、速度和加速度信息;动作空间a是车辆可以用来控制或改变运动状态的所有动作的集合,包括转弯、加速、减速等在车辆运动过程中可能出现的动力学模型;马尔可夫链的未来状态只取决于当前状态和当前动作,状态转移概率重新表示为p
ij
=p(i,a
k-1
,j)=p(j|i,a
k-1
),表示t
k-1
时刻运动状态为i,执行动作a
k-1
时在tk时刻转换到运动状态j的概率;奖励函数为r(i,a
k-1
,j),表示t
k-1
时刻车辆在执行动作a
k-1
时从运动状态i转换到运动状态j时累积的平均奖励,奖励函数具体表示为其中e为期望;γ∈[0,1]为权重因子,模拟了当前奖励对未来奖励的偏好,当γ接近0时,跟踪倾向于在执行某一动作后就可以立即获得奖励,而未来的奖励会被严重忽视,当γ接近1时,倾向于遥远的、长期的奖励;
[0188]
仿真实验中γ=0.9;
[0189]
3)利用dqn学习得到mdp过程的近似解
[0190]
dqn的目标是为一个给定的mdp过程找到最优的策略,该策略是指状态和动作之间的映射,通常用符号π表示,dqn方法通过直接学习状态-动作值函数来得到mdp过程的近似解,t
k-1
时刻的状态-动作值函数q
π
(i,a
k-1
)表示为:
[0191][0192]
dqn利用神经网络q(i,a;θ)逼近状态-动作值函数q
π
(i,a
k-1
),dqn用梯度下降法来更新网络参数θ,tk时刻网络参数θ更新为:
[0193][0194]
式中,α为学习率,表示q(i,a
k-1
;θ)对θ求偏导,y
k-1
为累积的q值,表示为:
[0195][0196]
利用更新后的网络参数θ,得到更新的神经网络q(i,a;θ);
[0197]
仿真实验中α=0.9,且利用随机的网络参数θ初始化q(i,a;θ);
[0198]
4)更新马尔可夫状态转移概率
[0199]
已知车辆t
k-1
时刻运动状态为i,执行动作a
k-1
时在tk时刻运动状态转换到j,利用dqn学习得到动作a
k-1
下的q(i,a
k-1
;θ)对车辆所有运动状态的打分qj,1≤j≤r,则马尔可夫状态转移概率为
[0200]
3、实现车辆跟踪
[0201]
1)初始化
[0202]
利用随机的网络参数θ初始化q(i,a;θ),初始运动状态设为i,随机设定状态转移概率矩阵的初始值;
[0203]
仿真实验中初始运动状态设为匀速,随机设定状态转移概率矩阵的初始值;
[0204]
2)更新马尔可夫状态转移概率
[0205]
利用ε-贪婪方法随机选择一个动作a
k-1
,执行这一动作得到奖励rk和新的运动状态j,利用步骤2中4)更新p
ij

[0206]
仿真实验中利用ε-贪婪方法随机选择一个动作a
k-1

[0207]
3)利用imm卡尔曼滤波器实现车辆跟踪
[0208]
利用步骤2中1)实现imm卡尔曼滤波,得到最终的运动状态估计即实现车辆跟踪;
[0209]
4)更新神经网络
[0210]
把(i,a
k-1
,rk,j)存储在经验重放单元,从经验重放单元小批量取出储存的状态数组,通过步骤2中3)得到的y
k-1
,更新网络参数θk,得到更新的网络q(i,a;θ);
[0211]
仿真实验中,得到一个之后更新一次网络q(i,a;θ),直到完成所有的运动状态的估计。
[0212]
本发明采用imm卡尔曼滤波器,利用两个或两个以上的模型来描述车辆运动过程中可能出现的状态,并应用有效的加权融合得到系统状态估计,本发明方法能够克服传统卡尔曼滤波器在车辆多种运动状态下无法精确描述车辆运动过程中可能出现的运动状态,导致跟踪不准确的问题。本发明利用深度q网络(deep q network,dqn)学习得到imm卡尔曼滤波器的状态转移概率,有利于克服复杂场景下imm卡尔曼滤波器不同模型之间的状态转移概率矩阵未知的问题,提高了车辆跟踪方法的鲁棒性,在无法覆盖gps信号且场景复杂的情况下,采用本发明方法仍然可以实现对车辆的高精度定位跟踪。
[0213]
利用传统卡尔曼滤波方法和本发明方法进行车辆运动轨迹跟踪,仿真结果分别如图2和图3所示。仿真图中的实际轨迹是指所跟踪的车辆的真实运动轨迹,观测轨迹是通过rsu测量得到的。从仿真图可以看出传统卡尔曼滤波方法在跟踪前期中具有良好的性能,与运动轨迹几乎完全一致。然而,当车辆出现机动变化时,它的跟踪能力显著下降,这说明了一个单一的运动模型不足以支持复杂运动状态下的车辆跟踪性能的需求。相比之下,本发明方法采用imm,利用深度q网络学习得到马尔可夫状态转移概率,提高了复杂运动状态下的车辆跟踪性能。
[0214]
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明
的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

技术特征:
1.一种基于深度q网络学习的车辆跟踪方法,其特征在于,所述方法具体包括以下步骤:步骤一、构建车辆跟踪系统模型;所述步骤一具体包括:步骤一一、在道路两侧安装rsu;步骤一二、构建车辆运动状态预测模型;步骤一三、根据车辆在运动过程中接收到的来自于rsu的到达时间信息,构建车辆运动状态观测模型;步骤二、根据步骤一中获得的状态预测和状态观测结果,并基于深度q网络和imm卡尔曼滤波对车辆进行跟踪;所述步骤二具体包括:步骤二一、利用imm卡尔曼滤波对车辆进行跟踪;步骤二二、根据步骤二一的跟踪结果获得状态数组(i,a
k-1
,r
k
,j),并将获得的状态数组(i,a
k-1
,r
k
,j)存储到经验重放单元,根据经验重放单元存储的状态数组更新深度q网络的价值函数的参数;步骤二三、根据更新后的价值函数参数对马尔可夫状态转移概率矩阵进行更新;步骤二四、判断车辆是否达到运动的终止时刻,若达到运动的终止时刻,则结束跟踪;否则未达到运动的终止时刻,则利用更新后的马尔可夫状态转移概率矩阵返回步骤二一。2.根据权利要求1所述的一种基于深度q网络学习的车辆跟踪方法,其特征在于,所述车辆运动状态预测模型为:x
k
=fx
k-1
+gω
k-1
其中,x
k
表示t
k
时刻车辆的运动状态向量,x
k
=[x,y,v
x
,v
y
,a
x
,a
y
]
t
,x表示车辆沿空间直角坐标系的x轴方向的位置,y表示车辆沿空间直角坐标系的y轴方向的位置,v
x
表示车辆沿空间直角坐标系的x轴方向的速度,v
y
表示车辆沿空间直角坐标系的y轴方向的速度,a
x
表示车辆沿空间直角坐标系的x轴方向的加速度,a
y
表示车辆沿空间直角坐标系的y轴方向的加速度,上角标t代表转置,x
k-1
表示t
k-1
时刻车辆的运动状态向量,f为状态转移矩阵,ω
k-1
表示t
k-1
时刻加速度扰动噪声,g为预测模型噪声矩阵。3.根据权利要求2所述的一种基于深度q网络学习的车辆跟踪方法,其特征在于,所述车辆运动状态观测模型为:z
k
=hx
k
+v
k
其中,z
k
为t
k
时刻车辆运动状态的观测值,h为接收到的来自于rsu的到达时间的映射矩阵,v
k
是观测噪声。4.根据权利要求3所述的一种基于深度q网络学习的车辆跟踪方法,其特征在于,所述步骤二一的具体过程为:步骤二一一、计算t
k
时刻运动状态j的预测概率:其中,μ
i,k-1
为t
k-1
时刻车辆运动状态i的概率,为t
k
时刻运动状态j的预测概率,p
ij

t
k-1
时刻更新后的马尔可夫状态转移概率矩阵中的元素,i=1,2

,r,j=1,2

,r;根据μ
i,k-1
计算车辆从运动状态i到运动状态j的混合概率为:其中,μ
ij,k-1|k-1
为车辆从运动状态i到运动状态j的混合概率;利用μ
ij,k-1|k-1
计算运动状态j的混合状态估计以及运动状态j的混合协方差估计:计算运动状态j的混合状态估计以及运动状态j的混合协方差估计:其中,为运动状态j的混合状态估计,是t
k-1
时刻车辆运动状态i的状态估计,p
0j,k-1|k-1
为运动状态j的混合协方差估计,p
i,k-1|k-1
是t
k-1
时刻车辆运动状态i的协方差估计;步骤二一二、根据和p
0j,k-1|k-1
计算状态的一步预测和协方差的一步预测:p
j,k|k-1
=f
j
p
0j,k-1|k-1
f
jt
+g
j
q
j
g
jt
k
j,k
=p
j,k|k-1
h
t
[h p
j,k|k-1
h
t
+r]-1
其中,为t
k
时刻运动状态j的状态一步预测,p
j,k|k-1
为t
k
时刻运动状态j的协方差一步预测,f
j
为运动状态j的状态转移矩阵,g
j
为运动状态j的模型噪声矩阵,q
j
为运动状态j的扰动噪声的协方差矩阵,k
j,k
为t
k
时刻运动状态j的卡尔曼增益,r是rsu的观测协方差噪声矩阵,上角标-1代表矩阵的逆;根据p
j,k|k-1
和k
j,k
计算t
k
时刻车辆运动状态j的状态估计以及协方差估计:p
j,k|k
=[i-k
j,k h]p
j,k|k-1
其中,为t
k
时刻车辆运动状态j的状态估计,p
j,k|k
为t
k
时刻车辆运动状态j的协方差估计,i是单位矩阵;步骤二一三、运动状态j的似然函数为:其中,λ
j,k
是t
k
时刻运动状态j的似然函数值,n为z
k
的维数,s
j,k
为中间变量矩阵,s
j,k
=h p
j,k|k-1
h
t
+r,|
·
|代表取模长,运动状态j的概率更新为:式中,μ
j,k
为t
k
时刻运动状态j的概率,c为归一化的系数,步骤二一四、根据t
k
时刻运动状态j的概率μ
j,k
计算t
k
时刻最终的运动状态估计:
其中,是t
k
时刻最终的运动状态估计结果,即t
k
时刻对车辆跟踪的结果。5.根据权利要求4所述的一种基于深度q网络学习的车辆跟踪方法,其特征在于,所述步骤二二的具体过程为:步骤二二一、根据计算t
k
时刻的奖励函数r
k
:其中,e[
·
]代表求期望;步骤二二二、根据r
k
构造状态数组(i,a
k-1
,r
k
,j),并将获得的状态数组(i,a
k-1
,r
k
,j)存储到经验重放单元,a
k-1
是t
k-1
时刻所选择的动作;步骤二二三、再从经验重放单元中随机选取状态数组来更新深度q网络的价值函数的参数,所述价值函数的参数更新时采用的是梯度下降法。6.根据权利要求5所述的一种基于深度q网络学习的车辆跟踪方法,其特征在于,所述步骤二二三的具体过程为:计算t
k-1
时刻累积的q值y
k-1
:其中,γ是权重因子,q(j

,a
k
;θ
k
)是t
k
时刻的价值函数值,j

是t
k
时刻的目标状态,a
k
是t
k
时刻的动作;t
k
时刻的价值函数参数θ
k
为:式中,θ
k-1
是t
k-1
时刻的价值函数参数,α为学习率,q(i,a
k-1
;θ
k-1
)是t
k-1
时刻的价值函数值,表示q(i,a
k-1
;θ
k-1
)对θ
k-1
求偏导。7.根据权利要求6所述的一种基于深度q网络学习的车辆跟踪方法,其特征在于,所述根据更新后的价值函数参数对马尔可夫状态转移概率矩阵进行更新,其具体为:根据更新后的价值函数参数对马尔可夫状态转移概率矩阵进行更新,其具体为:其中,i=1,2

,r,j=1,2

,r,q
j
是利用深度q网络学习得到动作a
k
下的价值函数对车辆运动状态j的打分。8.根据权利要求7所述的一种基于深度q网络学习的车辆跟踪方法,其特征在于,所述动作a
k-1
利用ε-贪婪方法随机选择。9.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少
一条指令由处理器加载并执行以实现如权利要求1至8任意一项所述的一种基于深度q网络学习的车辆跟踪方法。10.一种基于深度q网络学习的车辆跟踪设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8任意一项所述的一种基于深度q网络学习的车辆跟踪方法。

技术总结
一种基于深度Q网络学习的车辆跟踪方法、存储介质及设备,它属于车辆跟踪技术领域。本发明解决了在无法覆盖GPS信号且场景复杂的情况下,采用现有技术无法实现对车辆的高精度定位跟踪的问题。本发明针对IMM卡尔曼滤波器的状态转移概率矩阵未知的复杂情况,基于DQN学习得到IMM卡尔曼滤波器的状态转移概率矩阵,利用深度强化学习的感知和决策能力,能够有效地感知外部环境,获得最优判断,而且本发明方法的实现过程不需要依赖GPS信号,因此,在无法覆盖GPS信号且场景复杂的情况下,本发明方法仍然可以提升车辆跟踪性能,实现对车辆的高精度定位跟踪。本发明方法可以应用于车辆跟踪技术领域用。术领域用。术领域用。


技术研发人员:王波 徐玮明 冯志远 赵彦平 栾明桉 杨佳慧 姚宝花 王海艳
受保护的技术使用者:吉林大学
技术研发日:2023.06.27
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐