多模态信息融合的视频暴力行为检测方法、系统及设备与流程
未命名
10-19
阅读:106
评论:0
1.本发明涉及计算机视觉领域,特别是涉及一种多模态信息融合的视频暴力行为检测方法、系统及设备。
背景技术:
2.暴力行为指打架斗殴或进一步威胁人身体安全的负面行为,减少暴力违法犯罪,维护人民群众的安全感,是公共安全领域重要关切之一。视频中的暴力行为检测是指利用图像处理和计算机视觉技术来对视频内容进行自动地、智能地分析,准确快速地检测出监控场景中人物的暴力行为并预警,协助相关工作人员尽快地给出应对方案进行干预处理,进而规避危险情况的发生。
3.深度学习在暴力行为监测领域的研究仍处于起步阶段,所面临的问题主要包括:
4.(1)高精度暴力行为视频样本稀缺。现有方法需要对视频逐帧标记是否存在暴力行为,指定具体的帧数,即视频行为监测需要对每一帧进行详细标记,样本采集困难,成本较高。
5.(2)多模态信息联合学习挖掘程度不够。现有视频分析技术未充分利用行为发生时,音、视特征的时间一致性和行为一致性。
技术实现要素:
6.本发明的目的是提供一种多模态信息融合的视频暴力行为检测方法、系统及设备,以解决高精度视频样本稀缺以及多模态特征联合学习程度不足的问题。
7.为实现上述目的,本发明提供了如下方案:
8.一种多模态信息融合的视频暴力行为检测方法,包括:
9.获取不同来源以及不同角度的视频并对所述视频进行划分,生成视频片段;
10.采用弱监督标记方式,将存在暴力行为的视频片段标记为暴力视频,制作弱标签;
11.将待检测视频输入至暴力行为检测模型,识别所述待检测视频中的暴力行为;所述暴力行为检测模型是根据具有所述弱标签的视频片段训练弱监督视频暴力行为检测模型得到的;所述弱监督视频暴力行为检测模型包括结合图卷积、多尺度机制以及图lstm结构的三分支多模态信息优化器;所述三分支多模态信息优化器用于提取所述视频片段中的rgb特征、光流特征以及音频特征。
12.可选的,所述三分支多模态信息优化器,具体包括:rgb特征优化器、光流特征优化器以及音频特征优化器;
13.当三分支多模态信息优化器提取所述rgb特征时,采用i3d网络提取所述rgb特征并输入至所述rgb特征优化器中;
14.所述rgb特征优化器包括依次连接的四层多尺度结构卷积以及图卷积结构;所述四层多尺度结构卷积包括不考虑邻域以及综合所有时间序列的1
×
1卷积,考虑邻域以及综合所有时间序列的3
×
3常规卷积,考虑邻域以及时间序列上间隔5个单位的3
×
3卷积,以
及,考虑邻域以及时间序列上间隔9个单位的3
×
3卷积;所述四层多尺度结构卷积用于确定存在所述暴力行为的rgb特征的时间边界,突出所述暴力行为存在时的视频异常特征;所述图卷积用于接收经过所述四层多尺度结构卷积的rgb特征,并缩小所述rgb特征的尺度。
15.可选的,当三分支多模态信息优化器提取所述光流特征时,采用i3d网络提取所述光流特征并输入至所述光流特征优化器中的图卷积结构;所述图卷积结构的执行过程为:其中,为第l+1层的i节点特征;j为节点i的邻接节点;di为节点i的度;dj为节点j的度,w
l
为第l层的权重参数矩阵,σ为非线性激活函数。
16.可选的,当三分支多模态信息优化器提取所述音频特征时,通过vggish网络提取所述音频特征并输入到所述音频特征优化器中;所述音频特征优化器为图lstm结构;
17.所述图lstm结构包括输入门ii、遗忘门fi、自适应遗忘门记忆门ri以及输出门oi;所述图lstm结构中各个门控的循环过程为:
[0018][0019]fi
=δ(wfl
i,t+1
+ufh
i,t
+bf),
[0020][0021][0022][0023]
其中,i为节点;t为层数;δ表示sigmoid函数;wu为输入门权重矩阵;l
i,t+1
为输入的节点状态;uu为输入门节点隐藏状态权重参数;h
i,t
为节点i在t层的隐藏状态;u
in
为输入门邻接节点的状态权重参数;bu为输入门常数变量;wf为遗忘门权重矩阵;uf为遗忘门节点隐藏状态权重参数;bf为遗忘门常数变量;u
fn
为遗忘门邻接节点的状态权重参数;自适应遗忘门常数变量;wr为记忆门权重矩阵;ur为记忆门节点隐藏状态权重参数;u
rn
为记忆门邻接节点的状态权重参数;为节点i相邻节点在t层的隐藏状态;br为记忆门常数变量;wo为输出门权重矩阵;uo为输出门节点隐藏状态权重参数;u
on
为输出门邻接节点的状态权重参数;bo为输出门常数变量。
[0024]
可选的,根据5个门控对图lstm结构输出节点的隐藏状态和存储状态进行更新;
[0025]
更新过程为:
[0026][0027]hi,t+1
=oi⊙
tanh(c
i,t+1
)
[0028]
其中,c
i,t+1
为输出节点的存储状态;
⊙
为逐点乘积;n(i)为邻接节点数量;h
i,t+1
为输出节点的隐藏状态。
[0029]
可选的,所述弱监督视频暴力行为检测模型,还包括:
[0030]
将所述rgb特征、所述光流特征以及所述音频特征进行求和,确定求和特征;
[0031]
将所述求和特征依次经过1
×
1卷积以及gelu激活函数,确定特征权重;
[0032]
将所述特征权重与所述求和特征进行乘积,确定乘积特征;
[0033]
将所述乘积特征与所述求和特征叠加输出至全连接层,确定尺度为batch
×
2c的特征;batch为批处理大小,c为特征时间序列长度;
[0034]
将所述batch
×
2c的特征划分为2个尺度为batch
×
c的特征;其中一个batch
×
c的特征用于输出逐帧结果,另一个batch
×
c的特征再次进行1
×
1卷积输出全局结果,两个batch
×
c的特征的差异用于表征逐帧损失。
[0035]
一种多模态信息融合的视频暴力行为检测系统,包括:
[0036]
视频片段生成模块,用于获取不同来源以及不同角度的视频并对所述视频进行划分,生成视频片段;
[0037]
弱标签制作模块,用于采用弱监督标记方式,将存在暴力行为的视频片段标记为暴力视频,制作弱标签;
[0038]
暴力行为识别模块,用于将待检测视频输入至暴力行为检测模型,识别所述待检测视频中的暴力行为;所述暴力行为检测模型是根据具有所述弱标签的视频片段训练弱监督视频暴力行为检测模型得到的;所述弱监督视频暴力行为检测模型包括结合图卷积、多尺度机制以及图lstm结构的三分支多模态信息优化器;所述三分支多模态信息优化器用于提取所述视频片段中的rgb特征、光流特征以及音频特征。
[0039]
可选的,所述三分支多模态信息优化器,具体包括:rgb特征优化器、光流特征优化器以及音频特征优化器;
[0040]
当三分支多模态信息优化器提取所述rgb特征时,采用i3d网络提取所述rgb特征并输入至所述rgb特征优化器中;
[0041]
所述rgb特征优化器包括依次连接的四层多尺度结构卷积以及图卷积结构;所述四层多尺度结构卷积包括不考虑邻域以及综合所有时间序列的1
×
1卷积,考虑邻域以及综合所有时间序列的3
×
3常规卷积,考虑邻域以及时间序列上间隔5个单位的3
×
3卷积,以及,考虑邻域以及时间序列上间隔9个单位的3
×
3卷积;所述四层多尺度结构卷积用于确定存在所述暴力行为的rgb特征的时间边界,突出所述暴力行为存在时的视频异常特征;所述图卷积用于接收经过所述四层多尺度结构卷积的rgb特征,并缩小所述rgb特征的尺度。
[0042]
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述多模态信息融合的视频暴力行为检测方法。
[0043]
一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述多模态信息融合的视频暴力行为检测方法。
[0044]
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种多模态信息融合的视频暴力行为检测方法、系统及设备,本发明仅标注整段视频是否存在暴力行为,采用弱监督标记方式,自适应学习全局整体信息和局部临近信息,实现整段视频(全局)暴力行为存在判定和逐帧暴力行为监测,降低样本采集难度以及采集成本。
[0045]
本发明采用结合图卷积、多尺度机制以及图lstm结构的三分支多模态信息优化器提取视频中rgb特征、光流特征以及音频特征,实现多模态信息的融合。
附图说明
[0046]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0047]
图1为本发明所提供的多模态信息融合的视频暴力行为检测方法流程图;
[0048]
图2为本发明所提供的弱监督视频暴力行为检测模型结构图;
[0049]
图3为本发明的检测结果示例图;图3(a)为地铁站监控视角第一张存在暴力行为的截图;图3(b)为地铁站监控视角第二张存在暴力行为的截图;图3(c)为近距离场景中第一张存在暴力行为的截图;图3(d)为近距离场景中第二张存在暴力行为的截图。
具体实施方式
[0050]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051]
本发明的目的是提供一种多模态信息融合的视频暴力行为检测方法、系统及设备,能够降低样本采集难度以及采集成本,实现多模态信息融合。
[0052]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0053]
实施例一
[0054]
本发明提供了一种多模态信息融合的视频暴力行为检测方法,包括:
[0055]
获取不同来源以及不同角度的视频并对所述视频进行划分,生成视频片段。
[0056]
采用弱监督标记方式,将存在暴力行为的视频片段标记为暴力视频,制作弱标签。
[0057]
在实际应用中,以公开的异常行为数据集ucf-crime、ucf-fight、xd及部分电影片段制作暴力行为训练数据集,通过视频剪辑的方式将其切分成3分钟以下视频片段,逐个视频片段人工观看判断其中是否存在暴力行为,当视频中存在暴力行为时则标记为暴力视频,该行为主体对象、具体产生时间、持续时间不进行标记.
[0058]
将待检测视频输入至暴力行为检测模型,识别所述待检测视频中的暴力行为;所述暴力行为检测模型是根据具有所述弱标签的视频片段训练弱监督视频暴力行为检测模型得到的;所述弱监督视频暴力行为检测模型包括结合图卷积、多尺度机制以及图lstm结构的三分支多模态信息优化器;所述三分支多模态信息优化器用于提取所述视频片段中的rgb特征、光流特征以及音频特征。
[0059]
在实际应用中,本发明所提供的多模态信息融合的视频暴力行为检测方法如图1所示。
[0060]
步骤101:获取不同来源、不同角度的视频,可为监控或影视片段。
[0061]
步骤102:制作弱标签标记的暴力行为训练数据集:将视频切分为3分钟以下的视频片段,手工标记存在暴力行为的片段。
[0062]
步骤103:设计一种多模态信息融合视频暴力行为检测模型。
[0063]
步骤104:将所述的暴力行为训练数据集输入到模型中,根据损失函数迭代优化模型,保存检测精度最高的模型作为暴力行为检测模型。
[0064]
步骤105:将待检测视频输入到暴力行为检测模型中,识别视频中是否存在暴力行为。
[0065]
如图2所示,弱监督视频暴力行为检测模型包括三分支特征提取器,分别提取视频的光流、rgb、音频特征,再通过特征优化及融合实现特征表征的统一,最终输出检测结果,主要结构包括i3d、vggish、图卷积、多尺度机制、图lstm结构等。图2中batch
×
数字
×
c为特征图尺度,batch为模型输入的batchsize、数字为特征尺度,c为特征时间序列长度,flow后的x1-x4表示输入节点,f1-f4表示输出节点,audio后的x1-x9表示节点。
[0066]
本实施例以视频片段训练及预测时batch=128,c=各输入视频片段帧数,实时预测时batch=1,c=20,即取当前时间前20帧作为数据源。
[0067]
在实际应用中,所述三分支多模态信息优化器,具体包括:rgb特征优化器、光流特征优化器以及音频特征优化器;
[0068]
当三分支多模态信息优化器提取所述rgb特征时,采用i3d网络提取所述rgb特征并输入至所述rgb特征优化器中;
[0069]
所述rgb特征优化器包括依次连接的四层多尺度结构卷积以及图卷积结构;所述四层多尺度结构卷积包括不考虑邻域以及综合所有时间序列的1
×
1卷积,考虑邻域以及综合所有时间序列的3
×
3常规卷积(步长s=1),考虑邻域以及时间序列上间隔5个单位的3
×
3卷积(步长s=5),以及,考虑邻域以及时间序列上间隔9个单位的3
×
3卷积(步长s=9);所述四层多尺度结构卷积用于确定存在所述暴力行为的rgb特征的时间边界,突出所述暴力行为存在时的视频异常特征;所述图卷积用于接收经过所述四层多尺度结构卷积的rgb特征,并缩小所述rgb特征的尺度。
[0070]
该四层多尺度结构卷积有助于模型找到存在暴力行为特征的时间边界,突出行为存在时的视频异常特征,该结构不改变特征尺度,输出结果叠加输入到图卷积中,将尺度从1024缩小至32,该图卷积结构与光流特征优化器中的图卷积结构一致。
[0071]
在实际应用中,当三分支多模态信息优化器提取所述光流特征时,采用i3d网络提取所述光流特征并输入至所述光流特征优化器中的图卷积结构;所述图卷积结构的执行过程为:程为:其中,为第l+1层的i节点特征;j为节点i的邻接节点;di为节点i的度;dj为节点j的度,w
l
为第l层的权重参数矩阵,σ为非线性激活函数。
[0072]
在实际应用中,当三分支多模态信息优化器提取所述音频特征时,通过vggish网络提取所述音频特征并输入到所述音频特征优化器中;所述音频特征优化器为图lstm结构;
[0073]
所述图lstm结构包括输入门ii、遗忘门fi、自适应遗忘门记忆门ri以及输出门oi;所述图lstm结构中各个门控的循环过程为:
[0074][0075]fi
=δ(wfl
i,t+1
+ufh
i,t
+bf),
[0076][0077][0078][0079]
其中,i为节点;t为层数;δ表示sigmoid函数;wu为输入门权重矩阵;l
i,t+1
为输入的节点状态;uu为输入门节点隐藏状态权重参数;h
i,t
为节点i在t层的隐藏状态;u
in
为输入门邻接节点的状态权重参数;bu为输入门常数变量;wf为遗忘门权重矩阵;uf为遗忘门节点隐藏状态权重参数;bf为遗忘门常数变量;u
fu
为遗忘门邻接节点的状态权重参数;自适应遗忘门常数变量;wr为记忆门权重矩阵;ur为记忆门节点隐藏状态权重参数;u
rn
为记忆门邻接节点的状态权重参数;为节点i相邻节点在t层的隐藏状态;br为记忆门常数变量;wo为输出门权重矩阵;uo为输出门节点隐藏状态权重参数;u
on
为输出门邻接节点的状态权重参数;bo为输出门常数变量。
[0080]
在实际应用中,根据5个门控对图lstm结构输出节点的隐藏状态和存储状态进行更新;
[0081]
更新过程为:
[0082][0083]hi,t+1
=oi⊙
tanh(c
i,t+1
)
[0084]
其中,c
i,t+1
为输出节点的存储状态;
⊙
为逐点乘积;n(i)为邻接节点数量;h
i,t+1
为输出节点的隐藏状态。
[0085]
通过反向传播训练所有的权重参数。
[0086]
在实际应用中,所述弱监督视频暴力行为检测模型,还包括:将所述rgb特征、所述光流特征以及所述音频特征进行求和,确定求和特征;将所述求和特征依次经过1
×
1卷积以及gelu激活函数,确定特征权重;将所述特征权重与所述求和特征进行乘积,确定乘积特征;将所述乘积特征与所述求和特征叠加输出。此运算过程用于获得求和特征与真实特征的残差值,特征权重用于融合多通道实现时间尺度上下文信息,充分利用时间前后特征存在的关联性进行信息交互补充,提高时间序列上暴力事件预估的准确性。
[0087]
所述乘积特征与所述求和特征叠加结构输出时,通过全连接层获得尺度为batch
×
2c的特征;batch为批处理大小,c为特征时间序列长度;将所述batch
×
2c的特征划分为2个尺度为batch
×
c的特征;其中一个batch
×
c的特征用于输出逐帧结果,另一个batch
×
c的特征再次进行1
×
1卷积输出全局结果,两个batch
×
c的特征的差异用于表征逐帧损失。
[0088]
本发明设计的模型的总损失l包括3个组成部分,其中,全局损失la、逐帧实时损失lm采用bceloss函数计算,全局结果、逐帧结果相似度ls采用交叉熵损失函数度量。
[0089]
l=la+lm+2ls[0090]
本发明训练网络均在基于python的深度学习框架pytorch1.11上实现,采用设备为nvidiaa40,为保证方法对比的公平性,所有网络模型超参数均统一设置为:训练批次(epoch)为40,学习率(learning rate)为0.01。数据集共计10000个视频片段,在训练数据
集视频片段输入模型过程中,网络将输入视频片段通过ffmpeg将视频转存为每0.2秒一帧的图像。
[0091]
本发明与弱监督异常行为监测方法xd进行对比,输出各模型损失值和检测精度,本发明在训练批次为20时,与对比方法xd在30个批次损失接近,如表1所示,本发明在信息挖掘上优于对比方法,三分支结构有助于特征提取。
[0092]
表1迭代损失函数对比表
[0093][0094][0095]
对整个数据集进行精度测试,其中逐帧检测精度通过随机采样后人工判断,在本实例中随机采集2000个视频画面进行结果分析,与对比方法相比,本发明在全局检测精度上达到79.583%,提高约3个百分点,在逐帧检测精度上达到76.9%,提高4.45个百分点。
[0096]
表2模型性能对比表
[0097][0098]
图3为本发明的检测结果示例图,展示了两个视频场景检测出暴力行为的结果截图,其中,图3(a)和图3(b)展示地铁站监控视角,人数多且行为复杂,图3(c)和图3(d)展示近距离场景,人数较少。本发明能够在不同场景下鉴别视频暴力行为,识别行为产生节点并发出预警,显示“anomaly detected”,可有效应用于视频暴力行为检测。
[0099]
实施例二
[0100]
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种多模态信息融合的视频暴力行为检测系统。
[0101]
一种多模态信息融合的视频暴力行为检测系统,包括:
[0102]
视频片段生成模块,用于获取不同来源以及不同角度的视频并对所述视频进行划分,生成视频片段。
[0103]
弱标签制作模块,用于采用弱监督标记方式,将存在暴力行为的视频片段标记为暴力视频,制作弱标签。
[0104]
暴力行为识别模块,用于将待检测视频输入至暴力行为检测模型,识别所述待检测视频中的暴力行为;所述暴力行为检测模型是根据具有所述弱标签的视频片段训练弱监督视频暴力行为检测模型得到的;所述弱监督视频暴力行为检测模型包括结合图卷积、多尺度机制以及图lstm结构的三分支多模态信息优化器;所述三分支多模态信息优化器用于提取所述视频片段中的rgb特征、光流特征以及音频特征。
[0105]
在实际应用中,所述三分支多模态信息优化器,具体包括:rgb特征优化器、光流特征优化器以及音频特征优化器;当三分支多模态信息优化器提取所述rgb特征时,采用i3d网络提取所述rgb特征并输入至所述rgb特征优化器中;所述rgb特征优化器包括依次连接的四层多尺度结构卷积以及图卷积结构;所述四层多尺度结构卷积包括不考虑邻域以及综合所有时间序列的1
×
1卷积,考虑邻域以及综合所有时间序列的3
×
3常规卷积,考虑邻域以及时间序列上间隔5个单位的3
×
3卷积,以及,考虑邻域以及时间序列上间隔9个单位的3
×
3卷积;所述四层多尺度结构卷积用于确定存在所述暴力行为的rgb特征的时间边界,突出所述暴力行为存在时的视频异常特征;所述图卷积用于接收经过所述四层多尺度结构卷积的rgb特征,并缩小所述rgb特征的尺度。
[0106]
实施例三
[0107]
本发明实施例提供一种电子设备包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一提供的多模态信息融合的视频暴力行为检测方法。
[0108]
在实际应用中,上述电子设备可以是服务器。
[0109]
在实际应用中,电子设备包括:至少一个处理器(processor)、存储器(memory)、总线及通信接口(communications interface)。
[0110]
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。
[0111]
通信接口,用于与其它设备进行通信。
[0112]
处理器,用于执行程序,具体可以执行上述实施例所述的方法。
[0113]
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
[0114]
处理器可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0115]
存储器,用于存放程序。存储器可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0116]
基于以上实施例的描述,本技术实施例提供一种存储介质,其上存储有计算机程序指令,计算机程序指令可被处理器执行以实现任意实施例所述的方法
[0117]
本技术实施例提供的多模态信息融合的视频暴力行为检测系统以多种形式存在,包括但不限于:
[0118]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供语音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
[0119]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网性能。这类终端包括:pda、mid和umpc设备等,例如ipad。
[0120]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0121]
(4)其他具有数据交互功能的电子设备。
[0122]
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的
范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
[0123]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0124]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0125]
本技术是参照根据本技术实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0126]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0127]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0128]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0129]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0130]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、
[0131]
数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带、磁盘存储或其他磁性
存储设备
[0132]
或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0133]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0134]
本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0135]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0136]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
技术特征:
1.一种多模态信息融合的视频暴力行为检测方法,其特征在于,包括:获取不同来源以及不同角度的视频并对所述视频进行划分,生成视频片段;采用弱监督标记方式,将存在暴力行为的视频片段标记为暴力视频,制作弱标签;将待检测视频输入至暴力行为检测模型,识别所述待检测视频中的暴力行为;所述暴力行为检测模型是根据具有所述弱标签的视频片段训练弱监督视频暴力行为检测模型得到的;所述弱监督视频暴力行为检测模型包括结合图卷积、多尺度机制以及图lstm结构的三分支多模态信息优化器;所述三分支多模态信息优化器用于提取所述视频片段中的rgb特征、光流特征以及音频特征。2.根据权利要求1所述的多模态信息融合的视频暴力行为检测方法,其特征在于,所述三分支多模态信息优化器,具体包括:rgb特征优化器、光流特征优化器以及音频特征优化器;当三分支多模态信息优化器提取所述rgb特征时,采用i3d网络提取所述rgb特征并输入至所述rgb特征优化器中;所述rgb特征优化器包括依次连接的四层多尺度结构卷积以及图卷积结构;所述四层多尺度结构卷积包括不考虑邻域以及综合所有时间序列的1
×
1卷积,考虑邻域以及综合所有时间序列的3
×
3常规卷积,考虑邻域以及时间序列上间隔5个单位的3
×
3卷积,以及,考虑邻域以及时间序列上间隔9个单位的3
×
3卷积;所述四层多尺度结构卷积用于确定存在所述暴力行为的rgb特征的时间边界,突出所述暴力行为存在时的视频异常特征;所述图卷积用于接收经过所述四层多尺度结构卷积的rgb特征,并缩小所述rgb特征的尺度。3.根据权利要求2所述的多模态信息融合的视频暴力行为检测方法,其特征在于,当三分支多模态信息优化器提取所述光流特征时,采用i3d网络提取所述光流特征并输入至所述光流特征优化器中的图卷积结构;所述图卷积结构的执行过程为:述光流特征优化器中的图卷积结构;所述图卷积结构的执行过程为:其中,为第l+1层的i节点特征;j为节点i的邻接节点;d
i
为节点i的度;d
j
为节点j的度,w
l
为第l层的权重参数矩阵,σ为非线性激活函数。4.根据权利要求2所述的多模态信息融合的视频暴力行为检测方法,其特征在于,当三分支多模态信息优化器提取所述音频特征时,通过vggish网络提取所述音频特征并输入到所述音频特征优化器中;所述音频特征优化器为图lstm结构;所述图lstm结构包括输入门i
i
、遗忘门f
i
、自适应遗忘门记忆门r
i
以及输出门o
i
;所述图lstm结构中各个门控的循环过程为:f
i
=δ(w
f
l
i,t+1
+u
f
h
i,t
+b
f
),),),其中,i为节点;t为层数;δ表示sigmoid函数;w
u
为输入门权重矩阵;l
i,t+1
为输入的节点
状态;u
u
为输入门节点隐藏状态权重参数;h
i,t
为节点i在t层的隐藏状态;u
in
为输入门邻接节点的状态权重参数;b
u
为输入门常数变量;w
f
为遗忘门权重矩阵;u
f
为遗忘门节点隐藏状态权重参数;b
f
为遗忘门常数变量;u
fn
为遗忘门邻接节点的状态权重参数;自适应遗忘门常数变量;w
r
为记忆门权重矩阵;u
r
为记忆门节点隐藏状态权重参数;u
rn
为记忆门邻接节点的状态权重参数;为节点i相邻节点在t层的隐藏状态;b
r
为记忆门常数变量;w
o
为输出门权重矩阵;u
o
为输出门节点隐藏状态权重参数;u
on
为输出门邻接节点的状态权重参数;b
o
为输出门常数变量。5.根据权利要求4所述的多模态信息融合的视频暴力行为检测方法,其特征在于,根据5个门控对图lstm结构输出节点的隐藏状态和存储状态进行更新;更新过程为:h
i,t+1
=o
i
⊙
tanh(c
i,t+1
)其中,c
i,t+1
为输出节点的存储状态;
⊙
为逐点乘积;n(i)为邻接节点数量;h
i,t+1
为输出节点的隐藏状态。6.根据权利要求1所述的多模态信息融合的视频暴力行为检测方法,其特征在于,所述弱监督视频暴力行为检测模型,还包括:将所述rgb特征、所述光流特征以及所述音频特征进行求和,确定求和特征;将所述求和特征依次经过1
×
1卷积以及gelu激活函数,确定特征权重;将所述特征权重与所述求和特征进行乘积,确定乘积特征;将所述乘积特征与所述求和特征叠加输出至全连接层,确定尺度为batch
×
2c的特征;batch为批处理大小,c为特征时间序列长度;将所述batch
×
2c的特征划分为2个尺度为batch
×
c的特征;其中一个batch
×
c的特征用于输出逐帧结果,另一个batch
×
c的特征再次进行1
×
1卷积输出全局结果,两个batch
×
c的特征的差异用于表征逐帧损失。7.一种多模态信息融合的视频暴力行为检测系统,其特征在于,包括:视频片段生成模块,用于获取不同来源以及不同角度的视频并对所述视频进行划分,生成视频片段;弱标签制作模块,用于采用弱监督标记方式,将存在暴力行为的视频片段标记为暴力视频,制作弱标签;暴力行为识别模块,用于将待检测视频输入至暴力行为检测模型,识别所述待检测视频中的暴力行为;所述暴力行为检测模型是根据具有所述弱标签的视频片段训练弱监督视频暴力行为检测模型得到的;所述弱监督视频暴力行为检测模型包括结合图卷积、多尺度机制以及图lstm结构的三分支多模态信息优化器;所述三分支多模态信息优化器用于提取所述视频片段中的rgb特征、光流特征以及音频特征。8.根据权利要求7所述的多模态信息融合的视频暴力行为检测系统,其特征在于,所述三分支多模态信息优化器,具体包括:rgb特征优化器、光流特征优化器以及音频特征优化器;
当三分支多模态信息优化器提取所述rgb特征时,采用i3d网络提取所述rgb特征并输入至所述rgb特征优化器中;所述rgb特征优化器包括依次连接的四层多尺度结构卷积以及图卷积结构;所述四层多尺度结构卷积包括不考虑邻域以及综合所有时间序列的1
×
1卷积,考虑邻域以及综合所有时间序列的3
×
3常规卷积,考虑邻域以及时间序列上间隔5个单位的3
×
3卷积,以及,考虑邻域以及时间序列上间隔9个单位的3
×
3卷积;所述四层多尺度结构卷积用于确定存在所述暴力行为的rgb特征的时间边界,突出所述暴力行为存在时的视频异常特征;所述图卷积用于接收经过所述四层多尺度结构卷积的rgb特征,并缩小所述rgb特征的尺度。9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1-6中任一项所述的多模态信息融合的视频暴力行为检测方法。10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的多模态信息融合的视频暴力行为检测方法。
技术总结
本发明提供了一种多模态信息融合的视频暴力行为检测方法、系统及设备,涉及计算机视觉领域。该方法包括:获取不同来源以及不同角度的视频对视频进行划分,生成视频片段;采用弱监督标记方式,将存在暴力行为的视频片段标记为暴力视频,制作弱标签;将待检测视频输入至根据具有弱标签的视频片段训练弱监督视频暴力行为检测模型得到的暴力行为检测模型中,识别待检测视频中的暴力行为;弱监督视频暴力行为检测模型包括结合图卷积、多尺度机制以及图LSTM结构的三分支多模态信息优化器;三分支多模态信息优化器提取所述视频片段中的RGB特征、光流特征以及音频特征。本发明能够降低样本采集难度以及采集成本,实现多模态信息融合。合。合。
技术研发人员:刘洋 张学鹏 勾鹏 聂维 王坤鑫 欧阳宁雷 赵博 王思瑜 周天宇 王峰 王朋
受保护的技术使用者:南湖实验室
技术研发日:2023.06.29
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
