一种智能车路系统的交通事故判别方法
未命名
07-17
阅读:84
评论:0
1.本发明涉及交通信息技术领域,尤其是涉及一种智能车路系统的交通事故判别方法。
背景技术:
2.随着机动车保有量的快速增加,我国公路的交通事故问题愈发严重,极大程度减小了社会民生的出行效率。目前对智能车路系统(ivis)的交通流状态进行事故判别,已成为了智能交通信息技术领域的研究热点。但现有的事故判别方法并未考虑ivis的道路线形,容易对判别结果产生或多或少的干扰。不仅如此,由于复杂环境下ivis指标相关度较高,使得传统方法难以优化,无法进行全局交通运行态势的整体辨识,加大了影响事故判别的潜在危害因素,导致了ivis交通效率的进一步低下。因此,针对ivis的突发性交通事故,需要一种智能车路系统的交通事故判别方法,来保障道路交通的通行能力。
技术实现要素:
3.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种智能车路系统的交通事故判别方法,该发明能够动态且精准地判别ivis的突发性交通事故,进而保障道路交通的通行能力。
4.本发明的目的可以通过以下技术方案来实现:
5.本发明提供一种智能车路系统的交通事故判别方法,包括如下步骤:
6.s1:基于智能车路系统的道路线形,实时获取交通流信息,交通流信息包括交通流的流量和密度,以密度为x轴,流量为y轴,建立二维坐标系,基于交通流信息建立宏观交通流基本图模型;
7.s2:针对交通流基本图模型中的散点,通过k-means方法随机选取k个初始质心向量对散点进行聚类,基于ddpg算法对参数k进行参数寻优,对交通流基本图模型中各散点进行簇划分,得到最优输出簇;
8.s3:判断交通流基本图模型中待判别散点在最优输出簇中所处的簇,进而判别待判别散点对应时刻下的智能车路系统是否发生交通事故。
9.优选地,s1中,对于多车道的智能车路系统,描述其多车道的智能车路系统的交通流的密度和流量的公式分别为:
10.k=z(l)ρ
11.q=vk=vz(l)ρ
[0012][0013]
式中,ρ为每条车道的密度,z(l)表示位置l处的车道数,z
l-和z
l+
分别代表智能车路系统上游和下游的车道数,zl,(l∈[0,l])代表合流区的ivis车道数,q、k和v分别为智能
车路系统的交通流的流量、密度和速度。
[0014]
优选地,s2中,通过k-means方法随机选取k个初始质心向量对散点进行聚类的过程具体为:
[0015]
获得交通流基本图模型中的散点集合d={x1,x2,...xm,y1,y2,...ym},从散点集合d中随机选择k个样本{z1,z2,...zk}作为初始质心向量,对于i=1,2,...m,j=1,2,...k,计算每个样本xi与各个质心向量zj间的距离,将样本xi所对应的最小距离d
ij
标记为λi,则输出输出簇c
λi
=c
λi
u{xi},c={c1,c2,...ck};
[0016]
其中,m表示第m次采样,k为聚类的簇数。
[0017]
优选地,将交通流基本图模型中的散点输入预先构建并训练好的ddpg网络模型中,输出最优的k个质心向量,进而实现对参数k进行参数寻优;所述ddpg网络模型包括预测网络和目标网络,且预测网络和目标网络具有相同的actor网络和critic网络,所述ddpg网络模型的训练过程包括如下步骤:
[0018]
s201:令交通流基本图模型中的散点集合d作为交通流状态空间s,输入至actor网络中,由actor网络实时输出用以选取聚类簇数k的动作值,输出的动作值由critic网络接收并执行动作:重新选取k个质心作为聚类中心;
[0019]
s202:critic网络执行完一次动作后,输出当前时刻的标量奖励,计算最大化价值函数以选取最优的质心,将当前时刻的交通流状态空间、动作值、标量奖励以及下一时刻的交通流状态空间存储,通过均方差法来计算ddpg网络的损失函数,通过损失函数对ddpg网络的参数进行更新;
[0020]
s203:定期更新预测网络的critic网络参数、目标网络的actor网络参数和目标网络的critic网络参数,进行网络优化。
[0021]
优选地,s202中,描述最大化价值函数的公式为:
[0022]qμ
(s
t
,a
t
)=e[r(s
t
,a
t
)+γq
μ
(s
t+1
,μ(s
t+1
))]
[0023]
式中,价值函数q
μ
(s
t
,a
t
)为状态s
t
执行动作a
t
的价值函数,e为贝尔曼方程,r为状态s
t
执行动作a
t
获得的奖励函数,γ∈[0,1)为折扣因子,q
μ
(s
t+1
,μ(s
t+1
))为在状态s
t+1
下根据策略执行动作μ(s
t+1
)的价值函数。
[0024]
优选地,描述ddpg网络的损失函数l的公式为:
[0025][0026]
yb=rb+γq'(s
b+1
,μ'(s
b+1
|θ
μ
')|θq')
[0027]
式中,n为小批次采样数,b为采样的第b个样本,yb为第b个样本的标签,q'为目标网络的价值函数,θ
μ
和θq分别表示预测网络中actor和critic的参数,θ
μ'
和θ
q'
则分别表示目标网络中的参数,μ'是目标网络的动作策略,q(s
t
,a
t
|θq)为预测网络critic参数θq在状态s
t
执行动作a
t
获得的价值函数,q'(s
b+1
,μ'(s
b+1
|θ
μ'
)|θ
q'
)为目标网络critic参数θ
q'
在状态s
b+1
,执行动作μ'(s
b+1
|θ
μ'
)获得的价值函数。
[0028]
优选地,在训练阶段,在训练完一批次数据后,通过随机梯度下降法计算目标函数的梯度,来更新预测网络critic的参数,
[0029]
[0030]
式中,为梯度,j(μ)为目标函数,表示预测网络中目标函数的梯度,为目标网络θq在状态s下执行动作a的梯度,a=μ(s
t
)为在状态s
t
下根据动作策略μ执行的动作值,为预测网络中执行动作策略μ(s|θ
μ
)所获得的梯度。
[0031]
优选地,通过预测网络的actor网络参数θq和critic网络参数θ
μ
分别定期更新目标网络的actor网络参数θ
q'
和critic网络θ
μ'
:
[0032][0033]
其中,为更新系数。
[0034]
优选地,对于交通流基本图模型中的各散点,若前一天在该散点对应的流量和密度下发生交通事故,则将因交通事故导致的受伤人数,作为该散点的标签。
[0035]
优选地,s3判断散点对应时刻下的智能车路系统是否发生交通事故的过程具体为:
[0036]
判断交通流基本图模型中待判别散点属于最优输出簇中所处的哪个簇,再判断待判别散点所属簇中是否存在带有标签的散点,是则认为待判别散点对应时刻下的智能车路系统发生交通事故,否则认为待判别散点对应时刻下的智能车路系统没有发生交通事故。
[0037]
与现有技术相比,本发明具有以如下有益效果:
[0038]
(1)本发明提供的一种智能车路系统的交通事故判别方法,通过实时获取交通流信息,推导考虑智能车路系统的道路线形的宏观交通流基本图模型,减少因车流汇流及道路交织区的干扰因素,提高判别结果的精确度。
[0039]
(2)本发明提供的一种智能车路系统的交通事故判别方法,通过k-means算法对表征智能车路系统交通状态的散点进行聚类,有效探索指标间的相关关系,并针对k-means方法中k值难以确定的问题,利用ddpg对k值进行动态的参数寻优,划分最优输出簇,对智能车路系统的交通事故进行精准判别。
附图说明
[0040]
图1为本实施例提供的一种智能车路系统的交通事故判别方法的流程示意图。
[0041]
图2为图1所示实施例中算法结构示意图。
具体实施方式
[0042]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0043]
参考图1所示,本实施例提供一种智能车路系统的交通事故判别方法,包括如下步骤:
[0044]
s1:基于智能车路系统的道路线形,实时获取交通流信息,交通流信息包括交通流的流量和密度,以密度为x轴,流量为y轴,建立二维坐标系,基于交通流信息建立宏观交通流基本图模型,交通流基本图模型中各散点为采样时刻下的交通流信息。
[0045]
作为一种可选的实施方式,以5分钟为间隔计算智能车路系统的交通流信息。
[0046]
作为一种可选的实施方式,令q、k和v分别为ivis的交通流的流量、密度和速度,对于多车道ivis,描述其交通流的密度和流量的公式分别为:
[0047]
k=z(l)ρ
[0048]
q=vk=vz(l)ρ
[0049][0050]
式中,ρ为每条车道的密度,z(l)表示位置l处的车道数,z
l-和z
l+
分别代表ivis上游和下游的车道数,z
l
,(l∈[0,l])代表合流区的ivis车道数。
[0051]
s2:针对交通流基本图模型中的散点,通过k-means方法随机选取k个初始质心向量对散点进行聚类,基于ddpg算法对参数k进行参数寻优,对交通流基本图模型中各散点进行簇划分,得到最优输出簇。
[0052]
获得交通流基本图模型中的散点集合d={x1,x2,...xm,y1,y2,...ym},从散点集合d中随机选择k个样本{z1,z2,...zk}作为初始质心向量,对于i=1,2,...m,j=1,2,...k,计算每个样本xi与各个质心向量zj间的距离,将样本xi所对应的最小距离d
ij
标记为λi,则输出输出簇c
λi
=c
λi
u{xi},c={c1,c2,...ck};
[0053]
其中,m表示第m次采样,k为聚类的簇数。
[0054]
通过k-means方法探索宏观基本图散点的相关关系,能够有效减少冗余数据在聚类过程中的干扰性,对基本图的散点进行输出簇划分,使同一簇内的散点尽可能紧密分布在一起,不同簇的相对距离尽可能大。但由于存在k-means算法中k值的选定难以确定,聚类难以收敛的问题,将交通流基本图模型中的散点输入预先构建并训练好的ddpg网络模型中,输出最优的k个质心向量,进而实现对参数k进行参数寻优。
[0055]
ddpg算法是一种采用预测网络和目标网络的双层网络确定性策略梯度算法。ddpg网络模型包括预测网络和目标网络,且预测网络和目标网络具有相同的actor网络和critic网络。ddpg网络模型的训练过程包括如下步骤:
[0056]
s201:令交通流基本图模型中的散点集合d作为交通流状态空间s,输入至预测网络和目标网络的actor网络中,actor网络实时输出用以选取聚类簇数k的动作值,输出的动作值由critic网络接收并执行动作:选取k个质心作为聚类中心,即重新计算输出簇c中所有样本点的质心,其中,cj为第j个输出簇。获取当前时刻的标量奖励r
t
,即计算所有样本点到所有质心距离d
ij
的负数,计算最大化价值函数以选取最优的质心点。
[0057]
s202:critic网络执行完一次动作后,交通流状态空间由s
t
转变为s
t+1
,输出当前时刻的标量奖励r
t
,即计算所有样本点到所有质心距离d
ij
的负数,计算最大化价值函数以选取最优的质心。
[0058]
描述最大化价值函数的公式为:
[0059]qμ
(s
t
,a
t
)=e[r(s
t
,a
t
)+γq
μ
(s
t+1
,μ(s
t+1
))]
[0060]
式中,价值函数q
μ
(s
t
,a
t
)为状态s
t
执行动作a
t
的价值函数,e为贝尔曼方程,r为状态st执行动作at获得的奖励函数,γ∈[0,1)为折扣因子,q
μ
(s
t+1
,μ(s
t+1
))为在状态st+1下
根据策略执行动作μ(s
t+1
)的价值函数。
[0061]
将当前时刻的交通流状态空间s
t
、动作值a
t
、标量奖励r
t
以及下一时刻的交通流状态空间s
t+1
存储,通过均方差法来计算ddpg网络的损失函数,通过损失函数对ddpg网络的参数进行更新。
[0062]
描述ddpg网络的损失函数l的公式为:
[0063][0064]
yb=rb+γq'(s
b+1
,μ'(s
b+1
|θ
μ'
)|θ
q'
)
[0065]
式中,n为小批次采样数,b为采样的第b个样本,yb为第b个样本的标签,q'为目标网络的价值函数,θ
μ
和θq分别表示预测网络中actor和critic的参数,θ
μ'
和θ
q'
则分别表示目标网络中的参数,μ'是目标网络的动作策略,q(s
t
,a
t
|θq)为预测网络critic参数θq在状态s
t
执行动作a
t
获得的价值函数,q'(s
b+1
,μ'(s
b+1
|θ
μ'
)|θ
q'
)为目标网络critic参数θ
q'
在状态s
b+1
,执行动作μ'(s
b+1
|θ
μ'
)获得的价值函数。
[0066]
在训练完一批次数据后,通过随机梯度下降法计算目标函数的梯度,来更新预测网络critic的参数,
[0067][0068]
式中,为梯度,j(μ)为目标函数,表示预测网络中目标函数的梯度,为目标网络θq在状态s下执行动作a的梯度,a=μ(s
t
)为在状态s
t
下根据动作策略μ执行的动作值,为预测网络中执行动作策略μ(s|θ
μ
)所获得的梯度。
[0069]
通过预测网络的actor网络参数θq和critic网络参数θ
μ
定期分别更新目标网络的actor网络参数θ
q'
和critic网络θ
μ'
,防止网络发生过拟合。
[0070][0071]
其中,是更新系数,一般取值为0.001。
[0072]
s3:判断交通流基本图模型中待判别散点在最优输出簇中所处的簇,进而判别待判别散点对应时刻下的智能车路系统是否发生交通事故。
[0073]
作为一种可选的实施方式,对于交通流基本图模型中的各散点,若前一天在该散点对应的流量和密度下发生交通事故,则将因交通事故导致的受伤人数,作为该散点的标签,该标签不参与s2中的任何计算,仅伴随散点归类。
[0074]
判断交通流基本图模型中待判别散点属于最优输出簇中所处的哪个簇,再判断待判别散点散点所属簇中是否存在带有标签的散点,是则认为待判别散点对应时刻下的智能车路系统发生交通事故,否则认为待判别散点对应时刻下的智能车路系统没有发生交通事故。
[0075]
将上述可选的实施方式进行任意组合可以得到更优的实施方式,下面将所有的实施方式进行组合得到的一种最优的实施方式进行具体描述。
[0076]
s1:将q、k和v分别定义为ivis交通流的流量、密度和速度。对于在不同位置具有不同车道数的智能车路系统,z(l)用于表示位置l处的车道数。将具有合流区的ivis车道数量
定义为z
l
,(l∈[0,l]):
[0077][0078]
其中,z
l-和z
l+
分别代表ivis上游和下游。
[0079]
根据交通流密度的定义,对于多车道ivis,密度与速度、流量与密度的基本关系图分别为k=z(l)ρ和q=vk=vz(l)ρ,其中,ρ是每条车道的密度。本实施例以密度为x轴,流量为y轴,建立二维坐标系。通过ivis检测器实时收集道路交通流的信息,以每5分钟为间隔对ivis交通流状态进行采样,基于交通流数据建立ivis宏观基本图,获得ivis散点集合d={x1,x2,...xm,y1,y2,...ym},其中,m表示第m次采样。
[0080]
s2:本实施例利用k-means方法探索宏观基本图散点的相关关系,对于ivis的运行状态进行事故判别,可以有效减少冗余数据在聚类过程中的干扰性,对基本图的散点进行输出簇划分,使同一簇内的散点尽可能紧密分布在一起,不同簇的相对距离尽可能大。
[0081]
从ivis的散点集合d中随机选择k个样本{z1,z2,...zk}作为初始质心向量,对于i=1,2,...m,j=1,2,...k,计算每个样本xi与各个质心向量zj间的距离,即将样本xi所对应的最小距离d
ij
标记为λi。与此同时,更新输出簇c
λi
=cλiu{xi},即c={c1,c2,...ck},其中k为聚类的簇数。
[0082]
考虑到k-means算法中k值的选定难以确定,聚类难以收敛的问题,基于ddpg算法对k-means方法中的参数k进行参数寻优,参数寻优的过程具体为:
[0083]
将交通流状态作为状态空间,根据动作策略选取k个质心作为聚类中心,计算样本和质心相连的距离,输出损失函数并更新网络参数。
[0084]
ddpg算法包括actor网络和critic网络,对ddpg算法进行大量训练,通过判断当前回合k个质心向量较上一回合是否发生变化,来确定最优输出簇。若是,对于j=1,2,...k,对cj中所有样本指标点进行重新计算,选取k个质心并获取奖励函数。若此时k个质心向量都没有发生变化,则判定为最优输出簇,更新输出簇划分为c={c1,c2,...ck}。
[0085]
ddpg可以实时处理高维度的数据样本,通过大量试错实验来获取最优的训练结果,其将寻优形式转化为马尔可夫决策过程,即(s,a,p,r),设置ivis散点集合d为交通流状态空间s。设置选取聚类的簇数为交通流的动作空间a,a∈[1,k],p是状态转移的概率,设置奖励函数为r=-d
ij
。当所有样本点到所有质心距离越小,ddpg对k-means方法中的参数k寻优效果越好。
[0086]
ddpg算法是基于actor和critic网络的确定性策略梯度算法,actor网络实时输出动作策略,其目标是优化损失函数,critic网络则是通过执行动作来预估q值。参数优化的具体过程如下:
[0087]
s201:对于t时刻的状态s
t
,critic根据策略μ执行动作a
t
,选取k个质心作为聚类中心,即重新计算输出簇c中所有样本点的质心。
[0088][0089]
式中,cj为第j个输出簇。
[0090]
此时交通流状态转变为新状态s
t+1
,获取当前阶段的标量奖励r
t
,即计算所有样本点到所有质心距离d
ij
的负数,通过最大化价值函数q
μ
(s
t
,a
t
)来选取最优的质心点。
[0091]qμ
(s
t
,a
t
)=e[r(s
t
,a
t
)+γq
μ
(s
t+1
,μ(s
t+1
))]
[0092]
式中,价值函数q
μ
(s
t
,a
t
)为状态s
t
执行动作a
t
的价值函数,e为贝尔曼方程。r为状态s
t
执行动作a
t
获得的奖励函数。γ∈[0,1)是折扣因子,q
μ
(s
t+1
,μ(s
t+1
))为在状态s
t+1
下根据策略执行动作μ(s
t+1
)的价值函数。
[0093]
s202:critic网络执行完一次动作后,将当前时刻状态s
t
,动作值a
t
,奖励r
t
及下一时刻s
t+1
状态存储在重播缓冲区中。ddpg以预测网络和目标网络双层优化的方式,可以有效减少训练过程中产生的噪声,防止出现过拟合的问题,来优化actor和critic的参数。本实施例使用均方差法来计算critic的损失函数l:
[0094][0095]
yb=rb+γq'(s
b+1
,μ'(s
b+1
|θ
μ'
)|θ
q'
)
[0096]
式中,n为小批次采样数,b为采样的第b个样本,yb为第b个样本的标签,q'为目标网络的价值函数,θ
μ
和θq分别表示预测网络中actor和critic的参数,θ
μ'
和θ
q'
则分别表示目标网络中的参数,μ'是目标网络的动作策略,q(s
t
,a
t
|θq)为预测网络critic参数θq在状态s
t
执行动作a
t
获得的价值函数,q'(s
b+1
,μ'(s
b+1
|θ
μ'
)|θ
q'
)为目标网络critic参数θ
q'
在状态s
b+1
,执行动作μ'(s
b+1
|θ
μ'
)获得的价值函数。
[0097]
s203:ddpg以预测网络和目标网络双层优化的方式,可以有效减少训练过程中产生的噪声,防止出现过拟合的问题。在训练完一批次的数据后,本发明使用随机梯度下降法计算目标函数的梯度,来更新预测网络critic的参数。
[0098][0099]
其中,为梯度,j(μ)为目标函数。表示预测网络中目标函数的梯度。为目标网络θq在状态s下执行动作a的梯度,a=μ(s
t
)为在状态s
t
下根据动作策略μ执行的动作值。为预测网络中执行动作策略μ(s|θ
μ
)所获得的梯度。使用预测网络的参数θq和θ
μ
定期更新目标网络的参数θ
q'
和θ
μ'
。
[0100][0101]
其中,为更新系数,一般取值为0.001。
[0102]
s3:本发明基于ddpg输出参数k的最佳寻优策略,将之带入k-means算法中,从而更新最优输出簇。当判断待判别散点是否发生交通事故时,先判断待判别散点属于最优输出簇中的哪个簇,再判断该簇内是否存在着散点带有受伤人数的标签,是则判断此类簇的发生了交通事故,即该簇内散点所对应的交通时刻发生了交通事故。反之,则对应时刻下的ivis没有发生交通事故。根据散点(xi,yi)聚类后输出簇c
λi
所处的类别,来进行ivis交通事故的精准判别。
[0103]
本实施例通过获取前一天发生事故时ivis对应的流量和密度,使用因该事故导致的受伤人数作为相应ivis散点数据的标签,将之与当日的ivis散点集合共同放入交通流基
本图模型内,以确定最优输出簇中的各簇是否发生交通事故。
[0104]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
技术特征:
1.一种智能车路系统的交通事故判别方法,其特征在于,包括如下步骤:s1:基于智能车路系统的道路线形,实时获取交通流信息,交通流信息包括交通流的流量和密度,以密度为x轴,流量为y轴,建立二维坐标系,基于交通流信息建立宏观交通流基本图模型;s2:针对交通流基本图模型中的散点,通过k-means方法随机选取k个初始质心向量对散点进行聚类,基于ddpg算法对参数k进行参数寻优,对交通流基本图模型中各散点进行簇划分,得到最优输出簇;s3:判断交通流基本图模型中待判别散点在最优输出簇中所处的簇,进而判别待判别散点对应时刻下的智能车路系统是否发生交通事故。2.根据权利要求1所述的一种智能车路系统的交通事故判别方法,其特征在于,s1中,对于多车道的智能车路系统,描述其多车道的智能车路系统的交通流的密度和流量的公式分别为:k=z(l)ρq=vk=vz(l)ρ式中,ρ为每条车道的密度,z(l)表示位置l处的车道数,z
l-和z
l+
分别代表智能车路系统上游和下游的车道数,z
l
,(l∈[0,l])代表合流区的ivis车道数,q、k和v分别为智能车路系统的交通流的流量、密度和速度。3.根据权利要求1所述的一种智能车路系统的交通事故判别方法,其特征在于,s2中,通过k-means方法随机选取k个初始质心向量对散点进行聚类的过程具体为:获得交通流基本图模型中的散点集合d={x1,x2,...x
m
,y1,y2,...y
m
},从散点集合d中随机选择k个样本{z1,z2,...z
k
}作为初始质心向量,对于i=1,2,...m,j=1,2,...k,计算每个样本x
i
与各个质心向量z
j
间的距离,将样本x
i
所对应的最小距离d
ij
标记为λ
i
,则输出输出簇c
λi
=c
λi
u{x
i
},c={c1,c2,...c
k
};其中,m表示第m次采样,k为聚类的簇数。4.根据权利要求3所述的一种智能车路系统的交通事故判别方法,其特征在于,将交通流基本图模型中的散点输入预先构建并训练好的ddpg网络模型中,输出最优的k个质心向量,进而实现对参数k进行参数寻优;所述ddpg网络模型包括预测网络和目标网络,且预测网络和目标网络具有相同的actor网络和critic网络,所述ddpg网络模型的训练过程包括如下步骤:s201:令交通流基本图模型中的散点集合d作为交通流状态空间s,输入至actor网络中,由actor网络实时输出用以选取聚类簇数k的动作值,输出的动作值由critic网络接收并执行动作:重新选取k个质心作为聚类中心;s202:critic网络执行完一次动作后,输出当前时刻的标量奖励,计算最大化价值函数以选取最优的质心,将当前时刻的交通流状态空间、动作值、标量奖励以及下一时刻的交通流状态空间存储,通过均方差法来计算ddpg网络的损失函数,通过损失函数对ddpg网络的
参数进行更新;s203:定期更新预测网络的critic网络参数、目标网络的actor网络参数和目标网络的critic网络参数,进行网络优化。5.根据权利要求4所述的一种智能车路系统的交通事故判别方法,其特征在于,s202中,描述最大化价值函数的公式为:式中,价值函数q
μ
(s
t
,a
t
)为状态s
t
执行动作a
t
的价值函数,e为贝尔曼方程,r为状态s
t
执行动作a
t
获得的奖励函数,γ∈[0,1)为折扣因子,q
μ
(s
t+1
,μ(s
t+1
))为在状态s
t+1
下根据策略执行动作μ(s
t+1
)的价值函数。6.根据权利要求4所述的一种智能车路系统的交通事故判别方法,其特征在于,描述ddpg网络的损失函数l的公式为:y
b
=r
b
+γq'(s
b+1
,μ'(s
b+1
|θ
μ'
)|θ
q'
)式中,n为小批次采样数,b为采样的第b个样本,y
b
为第b个样本的标签,q'为目标网络的价值函数,θ
μ
和θ
q
分别表示预测网络中actor和critic的参数,θ
μ'
和θ
q'
则分别表示目标网络中的参数,μ'是目标网络的动作策略,q(s
t
,a
t
|θ
q
)为预测网络critic参数θ
q
在状态s
t
执行动作a
t
获得的价值函数,q'(s
b+1
,μ'(s
b+1
|θ
μ'
)|θ
q'
)为目标网络critic参数θ
q'
在状态s
b+1
,执行动作μ'(s
b+1
|θ
μ'
)获得的价值函数。7.根据权利要求4所述的一种智能车路系统的交通事故判别方法,其特征在于,在训练阶段,在训练完一批次数据后,通过随机梯度下降法计算目标函数的梯度,来更新预测网络critic的参数,式中,为梯度,j(μ)为目标函数,表示预测网络中目标函数的梯度,为目标网络θ
q
在状态s下执行动作a的梯度,a=μ(s
t
)为在状态s
t
下根据动作策略μ执行的动作值,为预测网络中执行动作策略μ(s|θ
μ
)所获得的梯度。8.根据权利要求4所述的一种智能车路系统的交通事故判别方法,其特征在于,通过预测网络的actor网络参数θ
q
和critic网络参数θ
μ
分别定期更新目标网络的actor网络参数θ
q'
和critic网络θ
μ'
:其中,为更新系数。9.根据权利要求1所述的一种智能车路系统的交通事故判别方法,其特征在于,对于交通流基本图模型中的各散点,若前一天在该散点对应的流量和密度下发生交通事故,则将因交通事故导致的受伤人数,作为该散点的标签。10.根据权利要求9所述的一种智能车路系统的交通事故判别方法,其特征在于,s3判
断散点对应时刻下的智能车路系统是否发生交通事故的过程具体为:判断交通流基本图模型中待判别散点属于最优输出簇中所处的哪个簇,再判断待判别散点所属簇中是否存在带有标签的散点,是则认为待判别散点对应时刻下的智能车路系统发生交通事故,否则认为待判别散点对应时刻下的智能车路系统没有发生交通事故。
技术总结
本发明涉及一种智能车路系统的交通事故判别方法,包括如下步骤:S1:基于智能车路系统的道路线形,实时获取交通流信息,交通流信息包括交通流的流量和密度,以密度为x轴,流量为y轴,建立二维坐标系,基于交通流信息建立宏观交通流基本图模型;S2:针对交通流基本图模型中的散点,通过k-means方法随机选取k个初始质心向量对散点进行聚类,基于DDPG算法对参数k进行参数寻优,对交通流基本图模型中各散点进行簇划分,得到最优输出簇;S3:判断交通流基本图模型中的散点在最优输出簇中所处的簇,进而判别当前时刻下的智能车路系统是否发生交通事故。与现有技术相比,本发明能够动态且精准地判别IVIS的突发性交通事故,进而保障道路交通的通行能力。通的通行能力。通的通行能力。
技术研发人员:张卫东 陈树康 覃善兴 衣博文 谢威 贺通 何鹭飞 杨云祥 柏林 陆锦辉
受保护的技术使用者:海南大学
技术研发日:2023.03.10
技术公布日:2023/6/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
