一种基于视频片段显著性引导的交通事故检测方法
未命名
10-09
阅读:213
评论:0
1.本发明涉及视频分析技术领域,具体的说是一种基于视频片段显著性引导的交通事故检测方法。
背景技术:
2.随着城市人口密度的增大,人均汽车拥有量逐年上升,道路交通事故发生率也在不断增长。因此及时报告交通事故对于保护公众生命安全与减少财产经济损失具有重要的意义。为减少道路交通事故发生的响应时间,交通部门在重要交通位置(例如十字路口、桥梁等位置)设置了大量的监控摄像头,并通过人工观测的方式及时反馈道路的实时交通状况。随着海量视频数据的产生,人工监控的成本因此大幅增加。
3.近年来,随着自动化技术的发展,通过计算机与物联网、互联网技术共同发挥重要作用而诞生的智慧交通正在不断取代人力,以自动、高效的方式提高城市交通的通行质量。其中,基于视频监控的城市道路交通事故检测(video-based urban road traffic accident detection,vurtad)成为智慧交通领域的一项重要且极具挑战性的任务。该任务通过不间断获取城市道路交通监控视频信息,并将这些数据送入计算机视觉处理模型中,计算出属于交通事故的异常信号并报告其发生的准确时间,进而将信息反馈给救援与事故处理人员。通过实现vurtad,可以在节约人力成本的同时也提高事故响应速度。因此,研究一套健壮、完备的vurtad算法具有重要意义。
4.在弱监督训练策略下,基于视频的交通事故检测的主流方法是使用多示例学习(multiple instance learning,mil)框架,该框架最初由sultani等人于2018年提出。该框架的核心思想是先提取视频片段的特征,然后将每个视频表示为一个由多个单示例组成的包,最后在整个实例组(包)中选择具有代表性的特征,在考虑损失函数的约束下进行深度模型的反向传播。目前,该算法框架已被用于对行人异常检测任务进行建模,并取得了相对优秀的效果。但是,在交通事故检测领域,这个基线算法的表现不佳。mil任务的核心在于初始化的二分类网络需要具有一定的先验分类能力,确保其能够选择出类内正确的样本实例。然而,相较于行人视频的异常检测,交通视频的事故和正常行为之间的特征差异更不明显。在行人视频中,非行人物体(例如自行车、汽车)的侵入、行人的异常动作(跑步、冲撞)都与正常的步行动作之间存在显著的特征差异。而在交通事故视频数据中,事故的发生通常在车与车之间、车与人的交互当中出现,事故动作与正常交通行为之间的特征差异比行人数据要细微得多。这些不明显的特征差异会导致模型在抽取实例组的代表特征时出现错误,从而积累训练误差,最终制约交通事故检测的表现。因此,在交通事故检测领域需要探索新的弱监督训练策略来提高模型的性能。
5.现有技术的监控视频的交通事故检测准确率低,交通视频中动作特征的细微差别难以区分,容易被误判为事故,但是通过特征预处理可以确定它们在时间序列上的关键位置。因此,在该基线模型中引入基于特征相似度差异的注意力机制是一个很有前途的方向,可以使模型更加关注有显著性的时间片段,进一步提升检测的表现性能。
技术实现要素:
6.本发明的目的是针对现有技术的不足而提供的一种基于视频片段显著性引导的交通事故检测方法,采用基于片段相似度显著性引导的注意力算法(similariy salient-guided attention,ssga),为多示例学习算法提供了更加健壮的视频动作聚合特征,以增强交通异常的检出能力。通过引入相似度显著性注意力机制,在抽取实例组的代表特征时更加准确,而对比损失目标函数用于增大正负实例组之间特征表示的空间距离,有助于提高异常检测性能。同时,通过对每个视频片段进行二分类器的训练,可以充分利用弱标签监督信息,进一步提高检测准确率。结合dtw正则化损失的总体损失函数可以有效地应对异常检测任务中的数据稀疏性和数据标签缺失问题,从而对于基于mil框架的弱监督视频交通事故检测任务取得了比基线算法更好的检测效果,提高了模型在训练过程中的稳定性和健壮性,实现了异常交通行为的检测,解决了常规的弱监督视频检测算法难以应用到交通场景中的问题。
7.实现本发明的具体技术方案是:一种基于视频片段显著性引导的交通事故检测方法,特点是采用基于片段相似度显著性引导的注意力算法(similariy salient-guided attention,ssga),为多示例学习算法提供了更加健壮的视频动作聚合特征,以增强交通异常的检出能力,该方法包括:采集城市道路交通数据集,并对其进行训练集和测试集的分割;视频片段的相似度显著性预处理;设计由该显著性引导的注意力模型;设计基于动态时间规整算法的损失函数正则化方法;对设计的网络进行充分的训练,具体步骤如下:
8.步骤s1:采集城市道路交通数据集。
9.步骤s2:将数据集分割成训练集和测试集。
10.步骤s3:视频片段包中的片段进行相似度显著性预处理,通过预处理视频片段相似度并计算它们的显著性,引入了一个可为mil聚合模型提供外部注意力信号。
11.所述相似度显著性引导的注意力算法设计如下:
12.对任意视频={f1,f2,
…
,fn},其中fi(i=1,2,
…
,n)为基于动作分类预训练模型提取的动作特征,定义其相似度显著性为s={s1,s2,
…
,sn},其中si为下述(a)式定义的第i片段相似度显著性:
[0013][0014]
式中,d(-,-)为下述(a-1)式表示特征向量间的余弦相似度:
[0015]
d(fa,fb)=cosine(fa,fb)
ꢀꢀꢀꢀ
(a-1)。
[0016]
通过对视频的相似度显著性s进行0-1归一化处理,可以得到下述(b)式表示标准化的视频显著性信号
[0017][0018]
其中,且s∈[0,1]为第i片段相似度显著性;r
t
为实数集。
[0019]
在mil范式中,对视频片段包ba,bn,通过以上方法分别计算得到其相应的显著性信
号随后,将这些显著性信号作为外部注意力信号送入下一步骤设计的模块,引导注意力机制模型进行计算。
[0020]
步骤s4:设计由该显著性引导的注意力模型。
[0021]
由步骤s3得到的显著性信号将实例组特征f与显著性信号同时输入模型中得到q=f,v=f.对q,k和v执行线性变换后,由下述(c)式计算实例组特征在显著性特征上的注意力分数a:
[0022]
a=(qw9)(kwk)
t
ꢀꢀꢀꢀꢀꢀ
(c)。
[0023]
其中,w9和wk分别为q和k的过度矩阵,即线性变换权重;q、k和v分别为query向量、key向量和value向量。
[0024]
对注意力分数a进行softmax归一化处理,得到由下述(d)式表示归一化后的注意力分数w:
[0025]
w=softmax(a)
ꢀꢀꢀꢀꢀꢀꢀ
(d)。
[0026]
将原特征与归一化的注意力分数进行残差处理,得到下述(e)式表示的聚合模型的输出特征h:
[0027]
h=w(vwv)+f
ꢀꢀꢀꢀꢀꢀ
(e)。
[0028]
其中,wv为v的过度矩阵。
[0029]
步骤s5:设计基于动态时间规整算法设计的损失函数正则化方法。结合tian等人的研究成果在城市道路交通数据集和事故检测任务上进行了针对性的设计。
[0030]
本发明引入了动态时间规整(dynamic time warping,dtw)算法来对模型的训练过程进行正则化。动态时间规整以一种相比于mse更弱的约束来限制聚合模型对实例的评分能力,使其在更接近于特征相似度显著性差异信号分布的同时保证聚合模型的学习能力。使用作为一组属于异常包信号的伪标签,定义动态时间规整损失为通过引入dtw损失,模型在选择视频包内的片段实例的过程中,将倾向于选中视频中动作特征表示显著相异的片段作为实例组代表,参与损失函数的计算。这使得模型的训练过程更加稳定。
[0031]
在实际的训练过程中,由于求解dtw是离散的,无法将其直接作为损失函数应用到神经网络的梯度求导的过程中。为了使dtw能够作为损失函数的一部分,本发明使用了软性动态时间规整算法(soft dynamic time warping,sdtw)。首先定义对比目标损失函数,它有助于增加正负实例组之间的特征表示空间距离,得到由下述(f)式表示的正则化损失函数
[0032][0033]
ya=1,yn=0,其它为0。
[0034]
其中,为视频动作聚合特征,下标n表示来自正常视频聚合的特征表示,a表示来自异常视频的聚合特征表示;m为边际参数,用于限制对比正负实例组异常分数间隔;d
θ,k
(-)为聚合模型θ计算出的一组正负实例组的特征强度差值;k为按大小降序排列后从头开始选取的特征强度值作为实例组代表的数量;yi和yj分别表示帧级别的注释,如果是正常片
段则为0,异常片段则为1。
[0035]
此外,对每个视频片段(包)进行一个二分类器的训练,以充分利用包的弱标签监督信息。本发明选择最大的k个特征强度值的视频片段动作聚合表示g
φ
(h)作为logits,并使用以下二分类交叉熵函数进行训练,得到由下述(g)式表示的对比目标损失函数
[0036][0037]
其中,表示最大的k个特征强度值的视频片段动作聚合表示,这种损失函数可以最大化正确预测视频片段是否为异常。
[0038]
综合以上两种损失函数,得到下述(h)式表示的总体损失函数得到下述(h)式表示的总体损失函数
[0039]
其中,λ1和λ2分别代表了二分类交叉熵损失权重和dtw正则化损失权重。
[0040]
步骤s6:基于步骤s4设计的由步骤s3得出的显著性引导的注意力模型,利用步骤s5设计的损失函数,并引入步骤s2中所准备的数据集,对设计的网络进行充分的训练。
[0041]
步骤s7:对模型进行充分的训练之后,将参数固定,输出测试集的检测结果。
[0042]
步骤s8:利用auc作为评价异常检测性能的度量标准,对模型的检测效果进行测试。
[0043]
本发明与现有技术相比具有以下有益的技术效果和显著进步:
[0044]
1)通过引入相似度显著性注意力机制,在抽取实例组的代表特征时更加准确,而以上对比损失目标函数用于增大正负实例组之间特征表示的空间距离,有助于提高异常检测性能。
[0045]
2)通过对每个视频片段进行二分类器的训练,可以充分利用弱标签监督信息,进一步提高检测准确率。结合dtw正则化损失的总体损失函数可以有效地应对异常检测任务中的数据稀疏性和数据标签缺失问题,从而对于基于mil框架的弱监督视频交通事故检测任务取得了比基线算法更好的检测效果。
[0046]
3)提高了模型在训练过程中的稳定性和健壮性,实现了异常交通行为的检测,解决了常规的弱监督视频检测算法难以应用到交通场景中的问题。
附图说明
[0047]
图1为本发明架构的基于显著性引导的注意力机制(ssga)模型示意图。
具体实施方式
[0048]
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0049]
实施例1
[0050]
参阅图1,一种基于视频片段显著性引导的注意力算法,用于交通事故的检测。具体实施步骤及实施细节包括:
[0051]
步骤s1:采集城市道路交通数据集
[0052]
使用模拟数据集ctad和真实数据集tad,cadp和utd交通事故视频数据作为本发明
的训练和测试数据集,数据集的统计如下表1所示:
[0053]
表1交通事故数据集统计数据
[0054][0055]
以上真实交通视频数据集简介如下:
[0056]
(1)tad数据集,该数据集是由hui lv等人出的从youtube上收集的,其中包括事故、违反交通规则和正常事件的真实世界的交通监控视频。tad提供了帧级别的注释。本发明使用了250个正常交通视频和104个事故视频进行实验。
[0057]
(2)汽车事故检测和预测数据集(car accident detection and prediction,cadp),该cadp数据集从youtube上收集得到。在数据集中,所有的视频包片段包含事故。本发明采用cadp数据测试基于ctad仿真数据集训练的模型的有效性,因此所有数据均用于测试集。
[0058]
(3)城市交通数据集utd,本实施例收集了一个真实世界的城市交通数据集(urban traffic dataset,utd),其中包括83个平均长度为15分钟的交通监控视频。将每段视频分成正常和事故两部分,并在帧级手动标记在帧层面上对事故段进行了人工标注。
[0059]
步骤s2:将数据集分割成训练集和测试集,对训练集和测试集,两者均包含了正常的视频vn和异常视频va。其中,训练集的所有视频仅含有整段视频的正常和异常标签,在测试集中为了测试异常检测的性能,需要对异常视频配置发生异常的帧级别的标签。
[0060]
步骤s3:视频片段的相似度显著性预处理。通过预处理视频片段相似度并计算它们的显著性,引入了一个可为mil聚合模型提供外部注意力信号。该算法设计如下:对任意视频v={f1,f2,
…
,fn}。其中,fi(i=1,2,
…
,n)为基于动作分类预训练模型提取的动作特征,定义其相似度显著性为s={s1,s2,
…
,sn},其中si为下述(a)式定义的第片段相似度显著性:
[0061][0062]
式中,d(-,-)为为下述(a-1)式定义的特征向量间的余弦相似度:
[0063]
d(fa,fb)=cosine(fa,fb)
ꢀꢀꢀꢀ
(a-1)。
[0064]
通过对视频的相似度显著性s进行0-1归一化处理,可以得到下述(b)式一个标准化的视频显著性信号
[0065][0066]
式中,其中s∈[0,12。
[0067]
在mil范式中,对视频片段包ba,bn,本发明通过以上方法分别计算得到其相应的显
著性信号随后,本发明将这些显著性信号作为外部注意力信号送入下一步骤设计的模块,引导注意力机制模型进行计算。
[0068]
步骤s4:设计由该显著性引导的注意力模型。
[0069]
由步骤s3得到的显著性信号将实例组特征f与显著性信号同时输入模型中得到q=f,v=f.对q,k和v执行线性变换后,由下述(c)式计算实例组特征在显著性特征上的注意力分数a:
[0070]
a=(qwq)(kwk)
t
ꢀꢀꢀꢀꢀꢀ
(c。)
[0071]
其中,w9,wk和wv分别为q,k和v的过度矩阵,也即线性变换权重。然后,对注意力分数a进行softmax归一化处理,得到由下述(d)式表示归一化后的注意力分数w:
[0072]
w=softmax(a)
ꢀꢀꢀꢀꢀ
(d)。
[0073]
将原特征与归一化的注意力分数进行残差处理,得到下述(e)式表示的聚合模型的输出特征h:
[0074]
h=w(vwv)+f
ꢀꢀꢀꢀꢀꢀ
(e)。
[0075]
步骤s5:设计基于动态时间规整算法设计的损失函数正则化方法,本发明结合tian等人的研究成果在城市道路交通数据集和事故检测任务上进行了针对性的设计。根据tian等人的研究结论,由上一步得到的聚合特征对其每一个实例h进行2-范数计算的值在视频片段的动作视觉特征空间中具有如下规律:在异常包ba中,特征强度值越大的实例分布得越稠密,而负样本(正常视频)包中的实例的特征强度值最大的几个实例在特征空间中的分布则较为稀疏。因此在其研究工作中,对于一组正负包的计算,每个包仅选取了k个最大特征强度的实例进行对比学习。在实验过程中,观察到在正包的实例选择中,模型仍然会因为无可避免地选择到类别为负的实例,在训练过程中产生误差。造成这一现象的原因是某些负例的特征表示接近正例,使其在特征强度的计算过程中无法与正例分开。
[0076]
为了避免这一现象对模型的影响,本发明引入了动态时间规整(dynamic time warping,dtw)算法来对模型的训练过程进行正则化。动态时间规整以一种相比于mse更弱的约束来限制聚合模型对实例的评分能力,使其在更接近于特征相似度显著性差异信号分布的同时保证聚合模型的学习能力。本发明使用作为一组属于异常包信号的伪标签,定义动态时间规整损失为通过引入dtw损失,模型在选择视频包内的片段实例的过程中,将倾向于选中视频中动作特征表示显著相异的片段作为实例组代表,参与损失函数的计算。这使得模型的训练过程更加稳定。
[0077]
值得注意的是,在实际的训练过程中,由于求解dtw是离散的,无法将其直接作为损失函数应用到神经网络的梯度求导的过程中。为了使dtw能够作为损失函数的一部分,本发明使用了软性动态时间规整算法(soft dynamic time warping,sdtw)。首先定义对比目标损失函数,它有助于增加正负实例组之间的特征表示空间距离,得到由下述(f)式表示的正则化损失函数
[0078]
[0079]
ya=1,yn=0,其它为0。
[0080]
其中,为由上一步计算出的视频动作聚合特征,下标n表示来自正常视频聚合的特征表示,a表示来自异常视频的聚合特征表示。m代表边际参数,用于限制对比正负实例组异常分数间隔。d
θ,k
(-)是由聚合模型计算出的一组正负实例组的特征强度差值,其中θ为聚合模型,k为按大小降序排列后从头开始选取的特征强度值作为实例组代表的数量。yi和yj分别表示帧级别的注释,如果是正常片段则为0,异常片段则为1。
[0081]
本发明对每个视频片段包进行一个二分类器的训练,以充分利用包的弱标签监督信息。选择最大的k个特征强度值的视频片段动作聚合表示g
φ
(h)作为logits,并使用以下二分类交叉熵函数进行训练,得到由下述(g)式表示的对比目标损失函数
[0082][0083]
其中,表示最大的k个特征强度值的视频片段动作聚合表示。这种损失函数可以最大化正确预测视频片段是否为异常。
[0084]
综合以上两种损失函数,得到下述(h)式表示的总体损失函数得到下述(h)式表示的总体损失函数
[0085]
其中,λ1和λ2分别代表了二分类交叉熵损失权重和dtw正则化损失权重。
[0086]
步骤s6:基于步骤s4设计的由步骤s3得出的显著性引导的注意力模型,利用步骤s5设计的损失函数,并引入步骤s2中所准备的数据集,对设计的网络进行充分的训练。
[0087]
本发明在ubuntu 20.04的操作系统下使用nvidia geforce gtx 3090显卡下对每个数据集进行15,000轮次的迭代训练在每一次训练的迭代过程中,本发明设置batch为64,每个视频采样片段t为32,每个视频片段由16个帧组成。对每一个视频片段,本发明采用i3d模型提取动作特征,并使用10-crop方式进行数据增强,使每个片段的视频动作特征表示包含10
×
2048的浮点数据。在计算显著性信号时,使用平均值池化方法对动作特征进行降维操作。
[0088]
步骤s7:在对模型进行充分的训练之后,将参数固定,输出测试集的检测结果。
[0089]
步骤s8:利用auc作为评价异常检测性能的度量标准,对模型的检测效果进行测试,其结果如下表2所示:
[0090]
表2弱监督交通事故检测的auc性能比较
[0091][0092][0093]
在加入显著性注意力机制的情形下,相较于基线方法,本发明在不同的数据集下检测性能均具有明显的提升。其中,在模拟数据集ctad上,auc指标在ctad数据集上从基线
方法的0.8133和ar-net方法的0.8201提高到了0.8257。在真实数据集中,在tad数据集上,本发明的算法分别从以上两种代表性的弱监督的算法上从0.6089和0.6083提高到了0.6132;在cadp数据集上,从0.5724和0.5772提高到0.5879;在utd数据集上从0.5316和0.5378提高到了0.5449。
[0094]
从以上的实验结果可以看出,本发明引入的相似度显著性注意力机制在交通事故检测中有明显的性能提升。在过去此类具有代表性的研究中,由于实验对象数据的区别,此类算法均未将动作特征的先验统计数据加入到mil模型的聚合过程中。本发明的设计充分利用了交通视频中交通异常和正常事件之间的差异,并在训练过程中进行了特征增强,因此对任务起到了一定程度上的辅助作用。
[0095]
本发明对dtw损失部分进行了消融实验,在不同的backbone网络模型上分别加入了dtw损失进行实验,并与原损失函数的训练结果进行对比,得到的auc普遍比不加入dtw的效果更好。造成这一现象的原因可能是引入dtw损失函数所训练的模型能够与原视频的动作特征表示的时间序列保持一定的关联,降低了多示例学习过程中模型从包内选择代表的随机性,尽可能使得每一轮得到的正负实例对正确以降低模型累积的误差,本实验表明dtw损失能够在一定程度上增强模型的性能。
[0096]
本发明提出了一个基于视频显著性引导的注意力机制算法,为多示例学习算法提供了更加健壮的视频动作聚合特征,以增强交通异常的检出能力。通过引入相似度显著性注意力机制,在抽取实例组的代表特征时更加准确,而对比损失目标函数用于增大正负实例组之间特征表示的空间距离,有助于提高异常检测性能。同时,通过对每个视频片段进行二分类器的训练,可以充分利用弱标签监督信息,进一步提高检测准确率。最终,结合dtw正则化损失的总体损失函数可以有效地应对异常检测任务中的数据稀疏性和数据标签缺失问题,从而对于基于mil框架的弱监督视频交通事故检测任务取得了比基线算法更好的检测效果,提高了模型在训练过程中的稳定性和健壮性,实现了异常交通行为的检测,解决了常规的弱监督视频检测算法难以应用到交通场景中的问题。
[0097]
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
技术特征:
1.一种基于视频片段显著性引导的交通事故检测方法,其特征在于,该交通事故检测具体包括下述步骤:步骤s1:采集城市道路交通数据集;步骤s2:将上述采集的数据集分割成训练集和测试集;步骤s3:对视频片段包中的片段进行相似度显著性处理,并将其引入多示例学习聚合模型,作为提供外部注意力信号,得到显著性引导的注意力模型;步骤s4:将实例组特征f和显著性信号同时输入上述构建的注意力模型中,计算实例组特征f在显著性特征上的注意力分数a,将其进行softmax归一化处理,然后将原特征与归一化的注意力分数a进行残差处理,得到聚合模型θ的输出特征h;步骤s5:采用软性动态时间规整算法对聚合模型θ的训练过程进行损失函数正则化,并定义对比目标损失函数,对每个视频片段包进行二分类器的训练,综合正则化损失函数和对比目标损失函数,得到总体损失函数;步骤s6:基于步骤s4设计的聚合模型θ,利用步骤s5得到的总体损失函数,并引入训练集和测试集,对设计的聚合模型θ网络进行训练;步骤s7:将上述训练后的参数固定,并输出测试集的检测结果;步骤s8:对上述检测结果利用auc作为评价异常检测性能的度量标准,对聚合模型进行检测,测试交通事故的检测效果。2.根据权利要求1所述的基于视频片段显著性引导的交通事故检测方法,其特征在于,所述步骤s2中的数据集分割处理是将cadp数据用于测试集,其余数据用于训练集集,所述训练集与测试集的划分比例为7:3。3.根据权利要求1所述的基于视频片段显著性引导的交通事故检测方法,其特征在于,所述步骤s3中的相似度显著性处理,具体包括:s3-1:对任意视频v={f1,f2,
…
,f
n
},其中f1,f2,
…
,f
n
为基于动作分类预训练模型提取的动作特征;s3-2:相似度显著性s={s1,s2,
…
,s
n
},其中s
i
为下述(a)式定义的第i片段相似度显著性:其中,d(-,-)为特征向量间的余弦相似度:s3-3:对相似度显著性s进行0-1归一化处理,得到由下述(b)式表示标准化的显著性信号号其中,目s∈[0,1]为第i片段相似度显著性;r
t
为实数集;s3-4:将显著性信号作为外部注意力信号送入步骤s4设计的聚合模型θ,引导注意力机制模型进行计算。
4.根据权利要求1所述的基于视频片段显著性引导的交通事故检测方法,其特征在于,所述步骤s4具体包括:s4-1:将实例组特征f与显著性信号同时输入聚合模型θ,得到q=f,v=f,对q,k和v执行线性变换后,由下述(c)式计算实例组特征f在显著性特征上的注意力分数a:a=(qw
q
)(kw
k
)
t
ꢀꢀꢀꢀ
(c);其中,w
q
和w
k
分别为q、k的过度矩阵,即线性变换权重;q、k和v分别为query向量、key向量和value向量;s4-2:对注意力分数a进行softmax归一化处理,得到由下述(d)式表示归一化处理后的注意力分数w:w=softmax(a)
ꢀꢀ
(d);s4-3:将原特征与归一化的注意力分数a进行残差处理,得到由下述(e)式表示聚合模型θ的输出特征h;h=w(vwv)+f
ꢀꢀꢀ
(e);其中,wv为v的过度矩阵。5.根据权利要求1所述的基于视频片段显著性引导的交通事故检测方法,其特征在于,所述步骤s5的软性动态时间规整算法使用显著性信号s
θ
作为一组属于异常包信号的伪标签,具体包括:s5-1:定义动态时间规整损失为和对比目标损失函数;;s5-2:通过计算正负实例组之间的特征表示空间距离,得到由下述(f)式表示的正则化损失函数损失函数其中,为视频动作聚合特征,下标表示来自正常视频聚合的特征表示,a表示来自异常视频的聚合特征表示;为边际参数,用于限制对比正负实例组异常分数间隔;d
θ,k
(-)为聚合模型θ计算出的一组正负实例组的特征强度差值;k为按大小降序排列后从头开始选取的特征强度值作为实例组代表的数量;y
i
和y
j
分别表示帧级别的注释,如果是正常片段则为0,异常片段则为1;s5-3:对每个视频片段包中的片段进行一个二分类器的训练,选择最大的k个特征强度值的视频片段动作聚合表示g
φ
(h)作为logits,使用下述(g)式表示的二分类交叉熵函数进行训练,得到由下述(g)式表示的对比目标损失函数得到由下述(g)式表示的对比目标损失函数其中,表示最大的k个特征强度值的视频片段动作聚合表示;s5-4:综合上述两种损失函数,得到由下述(h)式表示的总体损失函数得到由下述(h)式表示的总体损失函数其中,λ1和λ2分别为二分类交叉熵损失权重和dtw正则化损失权重。6.根据权利要求1所述的基于视频片段显著性引导的交通事故检测方法,其特征在于,
所述步骤s6对设计的聚合模型θ网络进行训练是在ubuntu 20.04的操作系统,使用nvidia geforce gtx 3090显卡下对每个数据集进行15,000轮次的迭代训练,在每一次训练的迭代过程中,设置batch为64,每个视频采样片段t为32,每个视频片段由16个帧组成,对每一个视频片段采用i3d模型提取动作特征,并使用10-crop方式进行数据增强,使每个片段的视频动作特征表示包含10
×
2048的浮点数据。7.根据权利要求1或权利要求3所述的基于视频片段显著性引导的交通事故检测方法,其特征在于,所述显著性信号计算时,使用平均值池化方法对动作特征进行降维操作。
技术总结
本发明公开了一种基于视频片段显著性引导的交通事故检测方法,其特点是该方法包括:采集城市道路交通数据集,并对其进行训练集和测试集的分割;视频片段的相似度显著性预处理;设计由该显著性引导的注意力模型;设计基于动态时间规整算法的损失函数正则化方法;对设计的网络进行充分的训练等步骤。本发明与现有技术相比具有为多示例学习算法提供了更加健壮的视频动作聚合特征,以增强交通异常的检出能力,提高异常检测性能,有效地应对异常检测任务中的数据稀疏性和数据标签缺失问题,从而对于基于MIL框架的弱监督视频交通事故检测任务取得了比基线算法更好的检测效果,解决了常规的弱监督视频检测算法难以应用到交通场景中的问题。景中的问题。景中的问题。
技术研发人员:王峰 于梦涵 孙仕亮 罗浩涵
受保护的技术使用者:华东师范大学
技术研发日:2023.06.30
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
