事件识别模型的训练方法、装置、设备及事件识别方法

未命名 07-19 阅读:97 评论:0


1.本发明涉及事件识别技术,具体涉及事件识别模型的训练方法、装置、设备及事件识别方法。


背景技术:

2.事件相机因其低功耗、低延迟、高动态范围等优于传统rgb摄像机的优点,具有更加广阔的应用场景成为了当前研究的热门领域。基于事件相机事件流的识别是该领域的一个基本问题。为了实现事件的事件流的识别,首先需要基于事件的事件流得到一个特征表示,然后利用识别模型获取事件识别结果。
3.另外,仅基于事件流来获取事件识别结果的效果并不理想。如今已出现可以同时记录rgb视频和事件流双模态数据的事件相机,例如davis(dynamic and active pixel vision sensor,主动像素视觉传感器)346相机,有效利用双模态数据实现更加高效的事件识别具有重要意义。
4.现有的事件识别方法有以下问题:
5.(1)现有事件的事件流表示方法会引入冗余信息或损失事件流具有的时空属性;
6.(2)识别模型中人工神经网络(artificial neural network,ann)需要密集的计算,带来巨大的开销,而脉冲神经网络(spiking neural network,snn)性能不高;
7.(3)现有方法不能很好的利用rgb视频和事件流的双模态数据。


技术实现要素:

8.鉴于以上所述现有技术的缺点,本发明提供能保留事件的时间和空间信息并利用双模态数据提高识别性能的事件识别模型的训练方法。
9.为实现上述目的及其他相关目的,本发明提供事件识别模型的训练方法,包括:
10.获取事件样本数据的事件段、视频帧和标签;
11.将所述事件段输入待训练的事件识别模型的脉冲卷积神经网络,得到事件段特征;
12.将所述视频帧输入待训练的事件识别模型的记忆transformer网络,得到视频帧特征;
13.将所述事件段特征和所述视频帧特征进行特征融合,得到识别结果;
14.根据所述识别结果与所述标签之间的损失函数对模型参数进行调整,得到训练完成的事件识别模型。
15.在本发明的一个实施例中,所述获取事件样本数据的事件段、视频帧和标签的步骤包括:
16.获取所述事件样本数据及所述标签;
17.对所述事件样本数据的事件流和rgb视频进行处理,得到所述事件段和所述视频帧。
18.在本发明的一个实施例中,所述将所述事件段输入待训练的事件识别模型的脉冲卷积神经网络,得到事件段特征的步骤包括:
19.将所述事件段输入所述脉冲卷积神经网络,得到第一特征、第二特征和第三特征;
20.将所述第一特征、第二特征和第三特征拼接并经过可变形卷积神经网络进行融合,得到所述事件段特征。
21.在本发明的一个实施例中,所述将所述事件段输入所述脉冲卷积神经网络,得到第一特征、第二特征和第三特征的步骤包括:
22.所述事件段经过脉冲神经元和二维卷积层交错的神经网络处理八次,并分别在第八次、第六次和第四次处理后输出所述第一特征、所述第二特征和所述第三特征。
23.在本发明的一个实施例中,所述将所述第一特征、第二特征和第三特征拼接并经过可变形卷积神经网络进行融合,得到所述事件段特征的步骤包括:
24.将所述第一特征经过两层残差网络和一层反卷积层处理后与所述第二特征拼接,得到第一中间特征;
25.将所述第一中间特征经过一层反卷积层处理后与所述第三特征拼接,得到第二中间特征;
26.将所述第二中间特征经过所述可变形卷积神经网络处理,得到所述事件段特征。
27.在本发明的一个实施例中,所述将所述视频帧输入待训练的事件识别模型的记忆transformer网络,得到视频帧特征的步骤包括:
28.将所述视频帧按时间分割为多个顺序排列的视频段;
29.按照顺序将每个所述视频段及前一视频段对应的记忆信息输入至所述记忆transformer网络,得到对应的中间视频特征以及所述记忆信息;
30.最后一个所述视频段经所述记忆transformer网络输出的所述中间视频特征作为所述视频帧特征。
31.在本发明的一个实施例中,所述将所述事件段特征和所述视频帧特征进行特征融合,得到识别结果的步骤包括:
32.将若干个所述事件段特征和所述视频帧特征分别拼接成事件流特征和rgb视频特征;
33.根据通道维度,将所述事件流特征和所述rgb视频特征拼接融合得到所述识别结果。
34.为实现上述目的及其他相关目的,本发明还提供事件识别方法,包括:
35.获取待识别的事件数据;
36.将所述事件数据输入经所述事件识别模型的训练方法得到的事件识别模型,得到事件识别结果。
37.为实现上述目的及其他相关目的,本发明还提供事件识别模型的训练系统,包括:
38.获取模块,用于获取事件样本数据的事件段、视频帧和标签;
39.事件段特征获取模块,用于将所述事件段输入待训练的事件识别模型的脉冲卷积神经网络,得到事件段特征;
40.视频帧特征获取模块,用于将所述视频帧输入待训练的事件识别模型的记忆transformer网络,得到视频帧特征;
41.结果获取模块,用于将所述事件段特征和所述视频帧特征进行特征融合,得到识别结果;
42.模型调整模块,用于根据所述识别结果与所述标签之间的损失函数对模型参数进行调整,得到训练完成的事件识别模型。
43.为实现上述目的及其他相关目的,本发明还提供一种电子设备,所述电子设备包括:
44.一个或多个处理器;
45.存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现所述事件识别模型的训练方法。
46.本发明通过将事件样本数据的事件流和rgb视频分别经过待训练的事件识别模型的脉冲卷积神经网络和记忆transformer网络进行处理获得事件流特征和rgb视频特征,并将二者进行双模态数据融合获得识别结果,最后结合事件样本数据的标签进行模型参数的调整,使得最终训练完成的事件识别模型不仅同时具有时间和空间的信息,并且准确又高性能。
附图说明
47.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
48.图1是本发明的实施例所提供的事件识别模型的训练方法的流程示意图;
49.图2是本发明的实施例所提供的事件识别模型的训练方法的具体流程图;
50.图3是本发明的实施例所提供的记忆transformer网络的流程示意图;
51.图4是本发明的实施例所提供的事件识别方法的流程示意图;
52.图5是本发明的实施例所提供的事件识别模型的训练系统的流程示意图;
53.图6是本发明的实施例所提供的电子设备的结构示意图。
具体实施方式
54.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
55.记忆transformer网络(memory transformer network)区别于传统的卷积神经网络(convolutional neural network,cnn)和循环神经网络(recurrent neural networks,rnn)只能从左向右依次计算或者从右向左依次计算的限制,记忆transformer是一个全连接加注意力机制(attention mechanism)的结合体。记忆transformer可以将序列中的任意两个位置之间的距离缩小为一个常量;其次它具有更好的并行性,而不是类似rnn的顺序结构,符合了现有的图形处理器(graphics processing unit,gpu)框架。
56.请参阅图1-6。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明
的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
57.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
58.图1示出了本发明的事件识别模型的训练方法的较佳实施例的流程图,图2是本发明的实施例所提供的事件识别模型的训练方法的具体流程图,图3是本发明的实施例所提供的记忆transformer网络的流程示意图。
59.下面将结合图1、图2和图3来详细阐述本发明的事件识别模型的训练方法,所述方法包括:
60.步骤s11:获取事件样本数据的事件段、视频帧和标签。
61.在一实施例中,该步骤包括:获取所述事件样本数据及所述标签;对所述事件样本数据的事件流和rgb视频进行处理,得到所述事件段和所述视频帧。
62.具体地,本发明待训练的事件识别模型是基于可同时获取rgb视频和事件流的事件相机,结合事件样本数据的事件流和rgb视频进行事件识别。获取具有已知结果(即标签)的事件样本数据,事件样本数据的事件流大小为t
×
x
×y×
p,其中t表示时间、x表示横坐标,y表示纵坐标、p表示事件的极性,将有事件的空间位置表示为1,没有事件的位置标记为0,按照时间t进行划分,形成大小为t
×
x
×
y的片段,共有段。如图2所示,对dvs的事件流进行预处理并按时间顺序分成若干段,得到包括n个片段的事件段,并从rgb视频中对应事件段提取视频帧。
63.步骤s12:将所述事件段输入待训练的事件识别模型的脉冲卷积神经网络,得到事件段特征。
64.在一实施例中,该步骤包括:将所述事件段输入所述脉冲卷积神经网络,得到第一特征、第二特征和第三特征;将所述第一特征、第二特征和第三特征拼接并经过可变形卷积神经网络进行融合,得到所述事件段特征。
65.在一实施例中,所述将所述事件段输入所述脉冲卷积神经网络,得到第一特征、第二特征和第三特征的步骤包括:所述事件段经过脉冲神经元和二维卷积层交错的神经网络处理八次,并分别在第八次、第六次和第四次处理后输出所述第一特征、所述第二特征和所述第三特征。
66.在一实施例中,所述将所述第一特征、第二特征和第三特征拼接并经过可变形卷积神经网络进行融合,得到所述事件段特征的步骤包括:将所述第一特征经过两层残差网络和一层反卷积层处理后与所述第二特征拼接,得到第一中间特征;将所述第一中间特征经过一层反卷积层处理后与所述第三特征拼接,得到第二中间特征;将所述第二中间特征经过可变形卷积神经网络处理,得到所述事件段特征。
67.具体地,待训练的事件识别模型的脉冲卷积神经网络(spiking convolutional neural network,scnn)包括卷积层和脉冲的leaky integrate-and-fire(lif)神经元模
型。将事件段包含的片段数目n作为步长(simulation step),对事件段进行八层二维卷积层和lif神经元交错的网络结构处理,具体公式为
68.m
i+1
=lif(convmi),0≤i≤7
69.其中m代表一层二维卷积和lif神经元输出的特征,i表示二维卷积和lif神经元的层数,conv是二维卷积层,lif是lif神经元。
70.如图2中的simulation step部分从t0片段到tn片段依次进行脉冲卷积处理并将特征叠加,最后对tn片段进行脉冲卷积处理时,分别在经过二维卷积层和lif神经元交错的第八次、第六次和第四次处理后输出处理结果即第一特征a1、第二特征a2和第三特征a3,a1、a2、a3均包括n个片段即事件段的特征。将a1经过两层带残差的二维卷积与一层反卷积层t1后与a2沿着通道维度进行拼接,得到第一中间特征;将第一中间特征经过一层反卷积层t2后与a3沿着通道维度进行拼接,得到第二中间特征;将所述第二中间特征经过一个可变形卷积模块处理得到融合后的事件段特征。
71.步骤s13:将所述视频帧输入待训练的事件识别模型的记忆transformer网络,得到视频帧特征。
72.在一实施例中,该步骤包括:将所述视频帧按时间分割为多个顺序排列的视频段;按照顺序将每个所述视频段及前一视频段对应的记忆信息输入至所述记忆transformer网络,得到对应的中间视频特征以及所述记忆信息;最后一个所述视频段经所述记忆transformer网络输出的所述中间视频特征作为所述视频帧特征。
73.具体地,将视频帧输入待训练的事件识别模型的记忆transformer网络时,会按时间将视频帧分割为多个顺序排列的视频段,记忆transformer网络处理当前视频段时,会结合前一视频段的记忆信息,且输出中间视频特征的同时压缩保存当前视频段的记忆信息以供处理下一视频段时使用;在处理完最后一段视频段时输出的中间视频特征即为视频帧特征。如图2所示,在本实施例中,按时间顺序将视频帧分割为四段视频段。图中clip-1、clip-2、clip-3和clip-4分别对应四段视频段的处理模块,每段视频段都经过三层mformer网络处理且每一层mformer网络都会压缩保存当前处理的视频段的记忆信息,本实施例将注意力机制中的k和v(即key和value)作为记忆信息。第一层mformer网络对第一视频段处理后输出第一中间视频特征并压缩保存当前的记忆信息k11和v11,第二层mformer网络对第一中间视频特征处理后输出第二中间视频特征并压缩保存当前的记忆信息k12和v12,第三层mformer网络对第二中间视频特征处理后压缩保存当前的记忆信息k13和v13;第一层mformer网络结合k11和v11对第二视频段处理后输出第三中间视频特征并压缩保存当前的记忆信息k21和v21,第二层mformer网络结合k12和v12对第三中间视频特征处理后输出第四中间视频特征并压缩保存当前的记忆信息k22和v22,第三层mformer网络结合k13和v13对第四中间视频特征处理后压缩保存当前的记忆信息k23和v23;依次对第三视频段和第四视频段进行上述步骤处理,最后第四视频段经三层mformer网络处理后输出视频帧特征。其中mformer网络主要包括多头自注意力机制(multi-head self-attention,msa)和多层感知机(multilayer perceptron,mlp)。具体流程如图3所示,图中以mformer网络对第四视频段处理的过程举例。输入第四视频段通过层归一化norm获得特征函数v(t)、k(t)和q(t);将v(t)和k(t)经过压缩f(c)处理获得记忆信息k4和v4(可以是k41和v41、k42和v42或是k43和v43),将k4和v4与第三视频段的记忆信息k3和v3(对应是k31和v31、k32和v32或是k33和
v33)拼接为特征k

和v

,再将k

和v

与q(t)经过注意力attention处理。attention的公式为:
[0074][0075]
其中softmax为柔性最大传递函数,q为注意力机制中的query即q(t),c表示通道维度,k
t
为当前视频段的记忆信息与前一视频段的记忆信息拼接而成的记忆信息如k

即注意力机制中的key,v
t
为当前视频段的记忆信息与前一视频段的记忆信息拼接而成的记忆信息如v

即注意力机制中的value。其中k
t
和v
t
的计算公式如下:
[0076]km
,vm=compress(k,v),k
t
=concat(km,k),v
t
=concat(vm,v)
[0077]
其中k和v表示mformer网络处理当前视频段时保存的记忆信息,compress表示一维卷积压缩,km,vm表示压缩后的记忆信息,concat为拼接函数,k
t
和v
t
即将前一视频段的记忆信息与当前视频段的记忆信息拼接后得到的记忆信息。本实施例通过compress尽可能的将当前记忆信息变小,以减少后续的计算量。
[0078]
之后通过下式实现msa:
[0079]
msa=concat(head1...headh)w0,headi=attention(q;k
t
;v
t
)
[0080]
其中headh是指msa中head有h个头,concat为拼接函数,w0是权重矩阵;headi是代表headh中其中一个头的具体操作,q为注意力机制中的query,k
t
为注意力机制中的key,v
t
为注意力机制中的value。
[0081]
最后通过下式实现mformer网络处理:
[0082]yrgb
=x0+msa[ln(x0)],x1=y
rgb
+mlp[ln(y
rgb
)]
[0083]
其中y
rgb
为中间值,ln为层归一化,x0为输入值,x1为输出值,msa是多头自注意力机制,mlp是多层感知机。
[0084]
因mformer网络处理每一段视频段时都会结合前一视频段的记忆信息,因此最后一段视频段所结合的记忆信息包括之前所有视频段的记忆信息,如在本实施例中,与第四视频段记忆信息k4和v4结合的第三视频段记忆信息k3和v3包含了第一视频段和第二视频段的记忆信息。
[0085]
步骤s14:将所述事件段特征和所述视频帧特征进行特征融合,得到识别结果。
[0086]
在一实施例中,该步骤包括:将若干个所述事件段特征和所述视频帧特征分别拼接成事件流特征和rgb视频特征;根据通道维度,将所述事件流特征和所述rgb视频特征拼接融合得到所述识别结果。
[0087]
具体地,处理获得若干个事件段特征和视频帧特征后,将其分别拼接成事件流特征和rgb视频特征;沿着通道维度将事件流特征和rgb视频特征拼接起来,再经过两层全连接层(fc)处理得到双模态数据融合后的识别结果results,如图2所示。
[0088]
步骤s15:根据所述识别结果与所述标签之间的损失函数对模型参数进行调整,得到训练完成的事件识别模型。
[0089]
具体地,将识别结果与标签之间通过最小化损失函数进行迭代训练,并根据损失值对模型参数进行调整;待识别结果与标签之间的损失值低于一定阈值后,即得到训练完成的事件识别模型。
[0090]
图4是本发明的实施例所提供的事件识别方法的流程示意图。
[0091]
本发明还提供事件识别方法,结合图4,所示方法包括:
[0092]
步骤s41:获取待识别的事件数据。
[0093]
步骤s42:将所述事件数据输入经上述事件识别模型的训练方法得到的事件识别模型,得到事件识别结果。
[0094]
本发明通过将事件样本数据的事件流和rgb视频分别经过待训练的事件识别模型的脉冲卷积神经网络和记忆transformer网络进行处理获得事件流特征和rgb视频特征,并将二者进行双模态数据融合获得识别结果,最后结合事件样本数据的标签进行模型参数的调整,使得最终训练完成的事件识别模型不仅同时具有时间和空间的信息,并且准确又高性能。
[0095]
需要说明的是,上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
[0096]
图5是本发明的实施例所提供的事件识别模型的训练系统的流程示意图。
[0097]
如图5所示,该装置包括获取模块51、事件段特征获取模块52、视频帧特征获取模块53、结果获取模块54和模型调整模块55;
[0098]
所述获取模块51,用于获取事件样本数据的事件段、视频帧和标签;
[0099]
所述事件段特征获取模块52,用于将所述事件段输入待训练的事件识别模型的脉冲卷积神经网络,得到事件段特征;
[0100]
所述视频帧特征获取模块53,用于将所述视频帧输入待训练的事件识别模型的记忆transformer网络,得到视频帧特征;
[0101]
所述结果获取模块54,用于将所述事件段特征和所述视频帧特征进行特征融合,得到识别结果;
[0102]
所述模型调整模块55,用于根据所述识别结果与所述标签之间的损失函数对模型参数进行调整,得到训练完成的事件识别模型。
[0103]
需要说明的是,本实施例的事件识别模型的训练系统是与上述事件识别模型的训练方法相对应的系统,事件识别模型的训练系统中的功能模块或者分别对应事件识别模型的训练方法中的相应步骤。本实施例的事件识别模型的训练系统可与事件识别模型的训练方法相互相配合实施。相应地,本实施例的事件识别模型的训练系统中提到的相关技术细节也可应用在上述事件识别模型的训练方法中。
[0104]
需要说明的是,上述的各功能模块实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的部分或全部步骤,或以上的各功能模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0105]
本技术的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所
述电子设备实现上述各个实施例中提供的事件识别模型的训练方法。
[0106]
如图6所示,本发明为实现事件识别模型的训练方法所使用的较佳实施例的电子设备的结构示意图。需要说明的是,图6示出的电子设备的计算机系统600仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0107]
如图6所示,计算机系统600包括中央处理单元(central processing unit,cpu)601,其可以根据存储在只读存储器(read-only memory,rom)602中的程序或者从储存部分608加载到随机访问存储器(random access memory,ram)603中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在ram603中,还存储有系统操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(input/output,i/o)接口605也连接至总线604。
[0108]
以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分607;包括硬盘等的储存部分608;以及包括诸如lan(local area network,局域网)卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入储存部分608。
[0109]
特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本技术的系统中限定的各种功能。
[0110]
需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0111]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一
个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0112]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0113]
本技术的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机的处理器执行时,使计算机执行如前所述的事件识别模型的训练方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
[0114]
本技术的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的事件识别模型的训练方法。
[0115]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0116]
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术特征:
1.事件识别模型的训练方法,其特征在于,包括:获取事件样本数据的事件段、视频帧和标签;将所述事件段输入待训练的事件识别模型的脉冲卷积神经网络,得到事件段特征;将所述视频帧输入待训练的事件识别模型的记忆transformer网络,得到视频帧特征;将所述事件段特征和所述视频帧特征进行特征融合,得到识别结果;根据所述识别结果与所述标签之间的损失函数对模型参数进行调整,得到训练完成的事件识别模型。2.根据权利要求1所述的事件识别模型的训练方法,其特征在于,所述获取事件样本数据的事件段、视频帧和标签的步骤包括:获取所述事件样本数据及所述标签;对所述事件样本数据的事件流和rgb视频进行处理,得到所述事件段和所述视频帧。3.根据权利要求1所述的事件识别模型的训练方法,其特征在于,所述将所述事件段输入待训练的事件识别模型的脉冲卷积神经网络,得到事件段特征的步骤包括:将所述事件段输入所述脉冲卷积神经网络,得到第一特征、第二特征和第三特征;将所述第一特征、第二特征和第三特征拼接并经过可变形卷积神经网络进行融合,得到所述事件段特征。4.根据权利要求3所述的事件识别模型的训练方法,其特征在于,所述将所述事件段输入所述脉冲卷积神经网络,得到第一特征、第二特征和第三特征的步骤包括:所述事件段经过脉冲神经元和二维卷积层交错的神经网络处理八次,并分别在第八次、第六次和第四次处理后输出所述第一特征、所述第二特征和所述第三特征。5.根据权利要求3所述的事件识别模型的训练方法,其特征在于,所述将所述第一特征、第二特征和第三特征拼接并经过可变形卷积神经网络进行融合,得到所述事件段特征的步骤包括:将所述第一特征经过两层残差网络和一层反卷积层处理后与所述第二特征拼接,得到第一中间特征;将所述第一中间特征经过一层反卷积层处理后与所述第三特征拼接,得到第二中间特征;将所述第二中间特征经过所述可变形卷积神经网络处理,得到所述事件段特征。6.根据权利要求1所述的事件识别模型的训练方法,其特征在于,所述将所述视频帧输入待训练的事件识别模型的记忆transformer网络,得到视频帧特征的步骤包括:将所述视频帧按时间分割为多个顺序排列的视频段;按照顺序将每个所述视频段及前一视频段对应的记忆信息输入至所述记忆transformer网络,得到对应的中间视频特征以及所述记忆信息;最后一个所述视频段经所述记忆transformer网络输出的所述中间视频特征作为所述视频帧特征。7.根据权利要求1所述的事件识别模型的训练方法,其特征在于,所述将所述事件段特征和所述视频帧特征进行特征融合,得到识别结果的步骤包括:将若干个所述事件段特征和所述视频帧特征分别拼接成事件流特征和rgb视频特征;根据通道维度,将所述事件流特征和所述rgb视频特征拼接融合得到所述识别结果。
8.事件识别方法,其特征在于,包括:获取待识别的事件数据;将所述事件数据输入经权利要求1至权利要求7所述的事件识别模型的训练方法得到的事件识别模型,得到事件识别结果。9.事件识别模型的训练系统,其特征在于,包括:获取模块,用于获取事件样本数据的事件段、视频帧和标签;事件段特征获取模块,用于将所述事件段输入待训练的事件识别模型的脉冲卷积神经网络,得到事件段特征;视频帧特征获取模块,用于将所述视频帧输入待训练的事件识别模型的记忆transformer网络,得到视频帧特征;结果获取模块,用于将所述事件段特征和所述视频帧特征进行特征融合,得到识别结果;模型调整模块,用于根据所述识别结果与所述标签之间的损失函数对模型参数进行调整,得到训练完成的事件识别模型。10.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至7中任一项所述事件识别模型的训练方法。

技术总结
本发明涉及事件识别技术,具体涉及事件识别模型的训练方法、装置、设备及事件识别方法,包括:获取事件样本数据的事件段、视频帧和标签;将事件段和视频帧分别输入待训练的事件识别模型的脉冲卷积神经网络和记忆Transformer网络,得到事件段特征和视频帧特征;将事件段特征和视频帧特征进行融合,得到识别结果;根据识别结果与标签之间的损失函数对模型参数进行调整,得到训练完成的事件识别模型。本发明训练的事件识别模型利用记忆Transformer网络处理RGB视频,更好的表示RGB视频的时间和空间信息;另一方面利用脉冲卷积神经网络处理事件流,低开销的同时保留高性能;最后将双模态数据进行融合进一步提高识别性能。数据进行融合进一步提高识别性能。数据进行融合进一步提高识别性能。


技术研发人员:王逍 吴宗振 江波
受保护的技术使用者:安徽大学
技术研发日:2023.05.08
技术公布日:2023/7/18
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐