一种基于层级任务信息的少样本视频动作识别方法及系统与流程

未命名 08-05 阅读：78 评论：0

1.本发明涉及视频识别技术领域，尤其涉及一种基于层级任务信息的少样本视频动作识别方法及系统。

背景技术：

2.随着大数据和计算能力的增强，深度学习相关技术已经得到快速发展。在深度学习领域中，少样本学习已经被应用到许多下游任务中。例如，视频的显著性检测、视频跟踪以及视频的目标检测任务。当然，少样本动作识别任务也是下游任务其中之一，且该任务旨在用少量有标签的视频样本训练一个分类器，根据与已知动作相似程度对未知动作进行分类。
3.然而，现阶段的少样本动作识别方法仍存在两个问题：(1)在与动作识别视频相关的样本较少的条件下，训练出来的深度学习模型存在泛化性能差，难以适用于新的任务上；(2)不同视频内容具有特征间语义相关信息，使得训练出来的深度学习模型对于度量视频特征间语义相关性的能力较弱，导致度量效率与准确性不足。
4.因此，为了解决以上两个问题，有必要提供一种高泛化性能和高度量效率的少样本视频动作识别方法。

技术实现要素：

5.本发明实施例所要解决的技术问题在于，提供一种基于层级任务信息的少样本视频动作识别方法及系统，用以解决现有少样本视频动作识别方法中泛化性能差及度量效率不足的问题。
6.为了解决上述技术问题，本发明实施例提供了一种基于层级任务信息的少样本视频动作识别方法，所述方法包括以下步骤：
7.s1、获取具有x个动作类别的视频数据集，并基于所述视频数据集，构建出多个任务，且对每一个任务中的视频进行预处理；其中，每一个任务均具有n组动作类别相异的支持集视频以及与其n组支持集视频内容不一致的1组查询集视频；x和n均为正整数，且x》n；
8.s2、使用低阶特征提取网络，提取每一个任务中所含n+1组视频的低阶特征，以得到各任务中n组支持集视频所对应的n个低阶特征以及1组查询集视频所对应的单个低阶特征，并根据各任务中n组支持集视频所对应的n个低阶特征，得到各任务用于高阶特征提取网络中的自适应参数；
9.s3、基于各任务用于高阶特征提取网络中的自适应参数，调整各任务所用高阶特征提取网络中的三维卷积层，并使用各任务对应调整后的高阶特征提取网络，对各任务所提取的n+1个低阶特征进行高阶特征提取，以得到各任务中n组支持集视频所对应的n个高阶特征以及1组查询集视频所对应的单个高阶特征；
10.s4、根据各任务中n组支持集视频所对应的n个高阶特征和查询集视频所对应的单个高阶特征，计算出各任务的时空自注意力相似度和相关交叉注意力度量相似度；
11.s5、根据各任务的时空自注意力相似度和相关交叉注意力度量相似度，在各任务的n组支持集视频中，均对应筛选出一组符合预定条件的支持集视频。
12.其中，所述步骤s1具体包括：
13.构建视频数据集，所述视频数据集包括x个动作类别的动作视频；
14.将数据集划分成出m个任务，且每一个任务均包含n组不同动作类别的视频作为支持集视频，以及在这n类中随机挑选出1组与支持集视频的内容完全不一致的视频作为查询集视频；
15.对各任务中的每组支持集视频和查询集视频均进行预处理。
16.其中，所述对每组支持集视频和查询集视频均进行预处理的步骤均包括视频帧采样和采样之后帧图像处理，具体为：
17.随机选择每组视频的第一帧图像初始位置，然后连续采样16帧；
18.对每帧都裁剪成长宽分辨率为224
×
224的图像块，并进行归一化，得到归一化处理之后的n+1组视频被记作{s
p1
,s
p2
,...，s
pn
,q
pi
}；其中，s
p1
,s
p2
,...，s
pn
表示归一化处理之后的n组不同动作类别的支持集视频；q
pi
表示归一化处理之后的1组动作类别i的支持集视频；i∈n。
19.其中，所述步骤s2具体包括：
20.确定低阶特征提取网络是由一层三维卷积层、一层归一化层和一层最大池化层构成的；
21.在每一个任务中，n+1组视频均经过所述低阶特征提取网络中的一层具有64个3
×3×
3的三维卷积核、输出通道为64的三维卷积层进行处理，得到f
conv
，并将f
conv
经过所述低阶特征提取网络中的归一化层进行处理，得到f
batchnorm
，且进一步将f
batchnorm
输入到所述低阶特征提取网络中的最大池化层进行处理，得到n组支持集视频所对应的n个低阶特征f
sl
和1组查询集视频所对应的单个低阶特征f
ql
：
[0022][0023]fbatchnorm
＝batchnorm3(f
conv
)；
[0024]
其中，是一层包含了64个3
×3×
3的三维卷积核、输出通道个数为64的三维卷积层，vn＝{s
n1
,s
n2
,...，s
nn
,q
ni
}；batchnorm3()表示归一化操作；
[0025]
求解每一个任务中n组支持集视频所对应的n个低阶特征f
sl
各自的期望μ和标准差σ，并通过公式info＝g(μ,diag(σ2))，对每一个任务所求解的期望μ和标准差σ进行多元高斯化，且进一步将每一个任务的多元高斯化的输出值info，均传入全连接层进行线性变换，以转化成各任务用于高阶特征提取网络的三维卷积自适应参数p
adaptive
；其中，p
adaptive
＝f(info)；info表示对期望μ和标准差σ进行多元高斯化的输出值；diag()表示对角矩阵构建函数。
[0026]
其中，所述步骤s3具体包括：
[0027]
基于各任务用于高阶特征提取网络中的自适应参数p
adaptive
，调整各任务所用高阶特征提取网络中的三维卷积层；其中，每个任务所用高阶特征提取网络中三维卷积层均是三层具有64个3
×3×
3的三维卷积核、输出通道个数为64的三维卷积构成；
[0028]
在每一个任务中，n+1个低阶特征均经过各自对应调整后的高阶特征提取网络中
的三层具有64个3
×3×
3的三维卷积核、输出通道个数为64的三维卷积进行处理，得到n组支持集视频所对应的n个高阶特征f
sh
和1组查询集视频所对应的单个高阶特征f
qh
：
[0029][0030][0031]
其中，所述步骤s4具体包括：
[0032]
第一步、计算出各任务的时空自注意力相似度，具体为：
[0033]
在每一个任务中，根据n组支持集视频所对应的n个高阶特征f
sh
和1组查询集视频所对应的单个高阶特征f
qh
，并通过公式m
st
＝mean(f
sh
×
(f
sh
)
t
)，得到每组支持集视频的时空自注意力向量m
st
，以及通过公式m
qt
＝mean(f
qh
×
(f
qh
)
t
)，得到查询集视频的时空自注意力向量m
qt
；其中，mean()表示求取平均值操作；t表示转置；
[0034]
确定任务内学习器k
inner
()是由一层二维卷积层、一层relu非线性激活层、一层二维卷积层和softmax逻辑回归函数构成的；
[0035]
将各任务中的每组支持集视频的时空自注意力向量m
st
和查询集视频的时空自注意力向量m
qt
分别输入任务内信息学习器k
inner
()，得到各任务的每组支持集视频的优化自注意力向量a
st
和各任务的查询集视频的优化自注意力向量a
qt
；其中，a
st
＝k
inner
(m
st
)；a
qt
＝k
inner
(m
qt
)；
[0036]
通过公式t
st
＝f
sh
×ast
+f
sh
，得到各任务中的每组支持集视频的强化时空自信息的特征t
st
，以及通过公式t
qt
＝f
qh
×aqt
+f
qh
，得到各任务中的查询集视频的强化时空自信息的特征t
qt
；
[0037]
通过公式sim
t
＝dcos(t
st
，t
qt
)，计算每一个任务中的查询集视频的强化时空自信息的特征t
qt
与其同任务中每一组支持集视频的强化时空自信息的特征t
st
的余弦距离，以得到各任务的n个时空自注意力相似度sim
t
：
[0038]
第二步、计算出各任务的相关交叉注意力度量相似度，具体为：
[0039]
在每一个任务中，根据n组支持集视频所对应的n个高阶特征f
sh
和1组查询集视频所对应的单个高阶特征f
qh
，并通过公式m
sr
＝mean(f
sh
·
(f
qh
)
t
)，得到每组支持集视频的相关交叉注意力向量m
sr
，以及通过公式m
qr
＝mean(f
qh
·
(f
sh
)
t
)，得到查询集视频的相关交叉注意力向量m
qr
；
[0040]
将各任务中的每组支持集视频的相关交叉注意力向量m
sr
和查询集视频的相关交叉注意力向量m
qr
分别输入任务内信息学习器k
inner
()，得到各任务的每组支持集视频的优化相关交叉注意力向量a
sr
和各任务的查询集视频的优化相关交叉注意力向量a
qr
；其中，a
sr
＝k
inner
(m
sr
)；a
qr
＝k
inner
(m
qr
)；
[0041]
通过公式r
sr
＝f
sh
×asr
+f
sh
，得到各任务中的每组支持集视频的强化时空自信息的特征r
sr
，以及通过公式r
qr
＝f
qh
×aqr
+f
qh
，得到各任务中的查询集视频的强化时空自信息的特征r
qr
；
[0042]
通过公式simr＝dcos(r
sr
，r
qr
)，计算每一个任务中的查询集视频的强化时空自信息的特征r
qr
与其同任务中每一组支持集视频的强化时空自信息的特征r
sr
的余弦距离，以得到各任务的n个相关交叉注意力相似度simr。
[0043]
其中，所述步骤s5具体包括：
[0044]
在每一个任务中，根据所得到的n个时空自注意力相似度sim
t
与n个相关交叉注意力相似度simr，确定出同属一个动作类别的时空自注意力相似度sim
t
及交叉注意力相似度simr，并通过公式sim＝α
×
sim
t
+(1-α)
×
simr，得到查询集视频与n组支持集视频所对应的n个相似度sim；
[0045]
将各任务中所对应得到的n个相似度sim均进行从大到小排序，并在每一个任务的n组支持集视频中，对应筛选出相似度sim均为最大时所对应的支持集视频。
[0046]
本发明实施例还提供了一种基于层级任务信息的少样本视频动作识别系统，包括：
[0047]
视频任务构建单元，用于获取具有x个动作类别的视频数据集，并基于所述视频数据集，构建出多个任务，且对每一个任务中的视频进行预处理；其中，每一个任务均具有n组动作类别相异的支持集视频以及与其n组支持集视频内容不一致的1组查询集视频；x和n均为正整数，且x》n；
[0048]
低阶特征提取单元，用于使用低阶特征提取网络，提取每一个任务中所含n+1组视频的低阶特征，以得到各任务中n组支持集视频所对应的n个低阶特征以及1组查询集视频所对应的单个低阶特征，并根据各任务中n组支持集视频所对应的n个低阶特征，得到各任务用于高阶特征提取网络中的自适应参数；
[0049]
高阶特征提取单元，用于基于各任务用于高阶特征提取网络中的自适应参数，调整各任务所用高阶特征提取网络中的三维卷积层，并使用各任务对应调整后的高阶特征提取网络，对各任务所提取的n+1个低阶特征进行高阶特征提取，以得到各任务中n组支持集视频所对应的n个高阶特征以及1组查询集视频所对应的单个高阶特征；
[0050]
相似度计算单元，用于根据各任务中n组支持集视频所对应的n个高阶特征和查询集视频所对应的单个高阶特征，计算出各任务的时空自注意力相似度和相关交叉注意力度量相似度；
[0051]
视频识别单元，用于根据各任务的时空自注意力相似度和相关交叉注意力度量相似度，在各任务的n组支持集视频中，均对应筛选出一组符合预定条件的支持集视频。
[0052]
实施本发明实施例，具有如下有益效果：
[0053]
1、本发明通过元学习来解决样本少的问题。元学习的目的是为了让深度神经网络“学会学习”，通过对神经网络的设计，并在有少量样本作为预训练的前提下，使得神经网络模型能够快速的泛化到其他场景中去，能够解决现有少样本视频动作识别方法中泛化性能差及度量效率不足的问题；
[0054]
2、本发明通过少量样本就能使得深度学习模型具有较高的泛化性能和较高的度量性能，而且根据输入任务动态生成特征提取网络的自适应参数，用以构建任务相关特征空间，进而提升模型泛化性；
[0055]
3、本发明将任务内信息学习器结合自注意力机制、交叉注意力机制，用以挖掘任务内特征关键自信息和互信息，强化特征时空关键信息及特征间相关性,进而提升度量效率。
附图说明
[0056]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。
[0057]
图1为本发明实施例提供的一种基于层级任务信息的少样本视频动作识别方法的流程图；
[0058]
图2为本发明实施例提供的一种基于层级任务信息的少样本视频动作识别方法中部分视频进行预处理过程中一帧的示意图；
[0059]
图3为本发明实施例提供的一种基于层级任务信息的少样本视频动作识别方法的逻辑工作框架图；
[0060]
图4为本发明实施例提供的一种基于层级任务信息的少样本视频动作识别结构示意图。
具体实施方式
[0061]
为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。
[0062]
如图1所示，为本发明实施例中，提供的一种基于层级任务信息的少样本视频动作识别方法，所述方法包括以下步骤：
[0063]
步骤s1、获取具有x个动作类别的视频数据集，并基于所述视频数据集，构建出多个任务，且对每一个任务中的视频进行预处理；其中，每一个任务均具有n组动作类别相异的支持集视频以及与其n组支持集视频内容不一致的1组查询集视频；x和n均为正整数，且x》n；
[0064]
具体过程为，首先，构建视频数据集，该视频数据集包括x个动作类别的动作视频；其中，相同类别的动作被归为一类。
[0065]
其次，将数据集划分成出m个任务，且每一个任务均包含n组不同动作类别的视频作为支持集视频，以及在这n类中随机挑选出1组与支持集视频的内容完全不一致的视频作为查询集视频。因此，每个任务包含了n+1组视频。一个任务由{s1,s2,...，sn,qi}视频集构成,i＝1,2,...,n。其中，s1,s2,...,sn表示n组不同动作类别视频构成的支持集视频，qi表示动作类别i视频的查询集视频。
[0066]
最后，对各任务中的每组支持集视频和查询集视频均进行预处理，具体包括视频帧采样和采样之后帧图像处理。此时，处理的过程具体如下：随机选择每组视频的第一帧图像初始位置，然后连续采样16帧；对每帧都裁剪成长宽分辨率为224
×
224的图像块，并进行归一化，得到归一化处理之后的n+1组视频被记作{s
p1
,s
p2
,...，s
pn
,q
pi
}；其中，s
p1
,s
p2
,...，s
pn
表示归一化处理之后的n组不同动作类别的支持集视频；q
pi
表示归一化处理之后的1组动作类别i的支持集视频；i∈n。其中，图2为部分视频进行预处理过程中一帧的示意图。
[0067]
步骤s2、使用低阶特征提取网络，提取每一个任务中所含n+1组视频的低阶特征，以得到各任务中n组支持集视频所对应的n个低阶特征以及1组查询集视频所对应的单个低阶特征，并根据各任务中n组支持集视频所对应的n个低阶特征，得到各任务用于高阶特征
提取网络中的自适应参数；
[0068]
具体过程为，首先，确定低阶特征提取网络是由一层三维卷积层、一层归一化层和一层最大池化层构成的。
[0069]
其次，在每一个任务中，n+1组视频均经过低阶特征提取网络中的一层具有64个3
×3×
3的三维卷积核、输出通道为64的三维卷积层进行处理，得到f
conv
，并将f
conv
经过低阶特征提取网络中的归一化层进行处理，得到f
batchnorm
，且进一步将f
batchnorm
输入到低阶特征提取网络中的最大池化层进行处理，得到n组支持集视频所对应的n个低阶特征f
sl
和1组查询集视频所对应的单个低阶特征f
ql
：
[0070][0071]fbatchnorm
＝batchnorm3(f
conv
)；
[0072]
其中，是一层包含了64个3
×3×
3的三维卷积核、输出通道个数为64的三维卷积层，vn＝{s
n1
,s
n2
,...，s
nn
,q
ni
}；batchnorm3()表示归一化操作；
[0073]
最后，求解每一个任务中n组支持集视频所对应的n个低阶特征f
sl
各自的期望μ和标准差σ，并通过公式info＝g(μ,diag(σ2))，对每一个任务所求解的期望μ和标准差σ进行多元高斯化，且进一步将每一个任务的多元高斯化的输出值info，均传入全连接层进行线性变换，以转化成各任务用于高阶特征提取网络的三维卷积自适应参数p
adaptive
；其中，p
adaptive
＝f(info)；info表示对期望μ和标准差σ进行多元高斯化的输出值；diag()表示对角矩阵构建函数。
[0074]
步骤s3、基于各任务用于高阶特征提取网络中的自适应参数，调整各任务所用高阶特征提取网络中的三维卷积层，并使用各任务对应调整后的高阶特征提取网络，对各任务所提取的n+1个低阶特征进行高阶特征提取，以得到各任务中n组支持集视频所对应的n个高阶特征以及1组查询集视频所对应的单个高阶特征；
[0075]
具体过程为，首先，基于各任务用于高阶特征提取网络中的自适应参数p
adaptive
，调整各任务所用高阶特征提取网络中的三维卷积层；其中，每个任务所用高阶特征提取网络中三维卷积层均是三层具有64个3
×3×
3的三维卷积核、输出通道个数为64的三维卷积构成。
[0076]
其次，在每一个任务中，n+1个低阶特征均经过各自对应调整后的高阶特征提取网络中的三层具有64个3
×3×
3的三维卷积核、输出通道个数为64的三维卷积进行处理，得到n组支持集视频所对应的n个高阶特征f
sh
和1组查询集视频所对应的单个高阶特征f
qh
：
[0077][0078][0079]
步骤s4、根据各任务中n组支持集视频所对应的n个高阶特征和查询集视频所对应的单个高阶特征，计算出各任务的时空自注意力相似度和相关交叉注意力度量相似度；
[0080]
具体过程为，第一步、计算出各任务的时空自注意力相似度，具体为：
[0081]
(1)在每一个任务中，根据n组支持集视频所对应的n个高阶特征f
sh
和1组查询集视频所对应的单个高阶特征f
qh
，并通过公式m
st
＝mean(f
sh
×
(f
sh
)
t
)，得到每组支持集视频的
时空自注意力向量m
st
，以及通过公式m
qt
＝mean(f
qh
×
(f
qh
)
t
)，得到查询集视频的时空自注意力向量m
qt
；其中，mean()表示求取平均值操作；t表示转置；
[0082]
(2)确定任务内学习器k
inner
()是由一层二维卷积层、一层relu非线性激活层、一层二维卷积层和softmax逻辑回归函数构成的；
[0083]
(3)将各任务中的每组支持集视频的时空自注意力向量m
st
和查询集视频的时空自注意力向量m
qt
分别输入任务内信息学习器k
inner
()，得到各任务的每组支持集视频的优化自注意力向量a
st
和各任务的查询集视频的优化自注意力向量a
qt
；其中，a
st
＝k
inner
(m
st
)；a
qt
＝k
inner
(m
qt
)；
[0084]
(4)通过公式t
st
＝f
sh
×ast
+f
sh
，得到各任务中的每组支持集视频的强化时空自信息的特征t
st
，以及通过公式t
qt
＝f
qh
×aqt
+f
qh
，得到各任务中的查询集视频的强化时空自信息的特征t
qt
；
[0085]
(5)通过公式sim
t
＝dcos(t
st
，t
qt
)，计算每一个任务中的查询集视频的强化时空自信息的特征t
qt
与其同任务中每一组支持集视频的强化时空自信息的特征t
st
的余弦距离，以得到各任务的n个时空自注意力相似度sim
t
。
[0086]
第二步、计算出各任务的相关交叉注意力度量相似度，具体为：
[0087]
(1)在每一个任务中，根据n组支持集视频所对应的n个高阶特征f
sh
和1组查询集视频所对应的单个高阶特征f
qh
，并通过公式m
sr
＝mean(f
sh
·
(f
qh
)
t
)，得到每组支持集视频的相关交叉注意力向量m
sr
，以及通过公式m
qr
＝mean(f
qh
·
(f
sh
)
t
)，得到查询集视频的相关交叉注意力向量m
qr
；
[0088]
(2)将各任务中的每组支持集视频的相关交叉注意力向量m
sr
和查询集视频的相关交叉注意力向量m
qr
分别输入第一步中的任务内信息学习器k
inner
()，得到各任务的每组支持集视频的优化相关交叉注意力向量a
sr
和各任务的查询集视频的优化相关交叉注意力向量a
qr
；其中，a
sr
＝k
inner
(m
sr
)；a
qr
＝k
inner
(m
qr
)；
[0089]
(3)通过公式r
sr
＝f
sh
×asr
+f
sh
，得到各任务中的每组支持集视频的强化时空自信息的特征r
sr
，以及通过公式r
qr
＝f
qh
×aqr
+f
qh
，得到各任务中的查询集视频的强化时空自信息的特征r
qr
；
[0090]
(4)通过公式simr＝dcos(r
sr
，r
qr
)，计算每一个任务中的查询集视频的强化时空自信息的特征r
qr
与其同任务中每一组支持集视频的强化时空自信息的特征r
sr
的余弦距离，以得到各任务的n个相关交叉注意力相似度simr。
[0091]
步骤s5、根据各任务的时空自注意力相似度和相关交叉注意力度量相似度，在各任务的n组支持集视频中，均对应筛选出一组符合预定条件的支持集视频。
[0092]
具体过程为，首先，在每一个任务中，根据所得到的n个时空自注意力相似度sim
t
与n个相关交叉注意力相似度simr，确定出同属一个动作类别的时空自注意力相似度sim
t
及交叉注意力相似度simr，并通过公式sim＝α
×
sim
t
+(1-α)
×
simr，得到查询集视频与n组支持集视频所对应的n个相似度sim；其中，α等于0.25或其他小于1的小数。
[0093]
其次，将各任务中所对应得到的n个相似度sim均进行从大到小排序，并在每一个任务的n组支持集视频中，对应筛选出相似度sim均为最大时所对应的支持集视频。
[0094]
由此可见，可将上述步骤s1～s5进行逻辑结构归纳，得到如图3所示的框架图。
[0095]
如图4所示，为本发明实施例中，提供的一种基于层级任务信息的少样本视频动作
识别系统，包括：
[0096]
视频任务构建单元110，用于获取具有x个动作类别的视频数据集，并基于所述视频数据集，构建出多个任务，且对每一个任务中的视频进行预处理；其中，每一个任务均具有n组动作类别相异的支持集视频以及与其n组支持集视频内容不一致的1组查询集视频；x和n均为正整数，且x》n；
[0097]
低阶特征提取单元120，用于使用低阶特征提取网络，提取每一个任务中所含n+1组视频的低阶特征，以得到各任务中n组支持集视频所对应的n个低阶特征以及1组查询集视频所对应的单个低阶特征，并根据各任务中n组支持集视频所对应的n个低阶特征，得到各任务用于高阶特征提取网络中的自适应参数；
[0098]
高阶特征提取单元130，用于基于各任务用于高阶特征提取网络中的自适应参数，调整各任务所用高阶特征提取网络中的三维卷积层，并使用各任务对应调整后的高阶特征提取网络，对各任务所提取的n+1个低阶特征进行高阶特征提取，以得到各任务中n组支持集视频所对应的n个高阶特征以及1组查询集视频所对应的单个高阶特征；
[0099]
相似度计算单元140，用于根据各任务中n组支持集视频所对应的n个高阶特征和查询集视频所对应的单个高阶特征，计算出各任务的时空自注意力相似度和相关交叉注意力度量相似度；
[0100]
视频识别单元150，用于根据各任务的时空自注意力相似度和相关交叉注意力度量相似度，在各任务的n组支持集视频中，均对应筛选出一组符合预定条件的支持集视频。
[0101]
实施本发明实施例，具有如下有益效果：
[0102]
1、本发明通过元学习来解决样本少的问题。元学习的目的是为了让深度神经网络“学会学习”，通过对神经网络的设计，并在有少量样本作为预训练的前提下，使得神经网络模型能够快速的泛化到其他场景中去，能够解决现有少样本视频动作识别方法中泛化性能差及度量效率不足的问题；
[0103]
2、本发明通过少量样本就能使得深度学习模型具有较高的泛化性能和较高的度量性能，而且根据输入任务动态生成特征提取网络的自适应参数，用以构建任务相关特征空间，进而提升模型泛化性；
[0104]
3、本发明将任务内信息学习器结合自注意力机制、交叉注意力机制，用以挖掘任务内特征关键自信息和互信息，强化特征时空关键信息及特征间相关性,进而提升度量效率。
[0105]
值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
[0106]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如rom/ram、磁盘、光盘等。
[0107]
以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

技术特征：
1.一种基于层级任务信息的少样本视频动作识别方法，其特征在于，所述方法包括以下步骤：s1、获取具有x个动作类别的视频数据集，并基于所述视频数据集，构建出多个任务，且对每一个任务中的视频进行预处理；其中，每一个任务均具有n组动作类别相异的支持集视频以及与其n组支持集视频内容不一致的1组查询集视频；x和n均为正整数，且x>n；s2、使用低阶特征提取网络，提取每一个任务中所含n+1组视频的低阶特征，以得到各任务中n组支持集视频所对应的n个低阶特征以及1组查询集视频所对应的单个低阶特征，并根据各任务中n组支持集视频所对应的n个低阶特征，得到各任务用于高阶特征提取网络中的自适应参数；s3、基于各任务用于高阶特征提取网络中的自适应参数，调整各任务所用高阶特征提取网络中的三维卷积层，并使用各任务对应调整后的高阶特征提取网络，对各任务所提取的n+1个低阶特征进行高阶特征提取，以得到各任务中n组支持集视频所对应的n个高阶特征以及1组查询集视频所对应的单个高阶特征；s4、根据各任务中n组支持集视频所对应的n个高阶特征和查询集视频所对应的单个高阶特征，计算出各任务的时空自注意力相似度和相关交叉注意力度量相似度；s5、根据各任务的时空自注意力相似度和相关交叉注意力度量相似度，在各任务的n组支持集视频中，均对应筛选出一组符合预定条件的支持集视频。2.如权利要求1所述的基于层级任务信息的少样本视频动作识别方法，其特征在于，所述步骤s1具体包括：构建视频数据集，所述视频数据集包括x个动作类别的动作视频；将数据集划分成出m个任务，且每一个任务均包含n组不同动作类别的视频作为支持集视频，以及在这n类中随机挑选出1组与支持集视频的内容完全不一致的视频作为查询集视频；对各任务中的每组支持集视频和查询集视频均进行预处理。3.如权利要求2所述的基于层级任务信息的少样本视频动作识别方法，其特征在于，所述对每组支持集视频和查询集视频均进行预处理的步骤均包括视频帧采样和采样之后帧图像处理，具体为：随机选择每组视频的第一帧图像初始位置，然后连续采样16帧；对每帧都裁剪成长宽分辨率为224
×
224的图像块，并进行归一化，得到归一化处理之后的n+1组视频被记作{s
p1
,s
p2
,...，s
pn
,q
pi
}；其中，s
p1
,s
p2
,...，s
pn
表示归一化处理之后的n组不同动作类别的支持集视频；q
pi
表示归一化处理之后的1组动作类别i的支持集视频；i∈n。4.如权利要求3所述的基于层级任务信息的少样本视频动作识别方法，其特征在于，所述步骤s2具体包括：确定低阶特征提取网络是由一层三维卷积层、一层归一化层和一层最大池化层构成的；在每一个任务中，n+1组视频均经过所述低阶特征提取网络中的一层具有64个3
×3×
3的三维卷积核、输出通道为64的三维卷积层进行处理，得到f
conv
，并将f
conv
经过所述低阶特征提取网络中的归一化层进行处理，得到f
batchnorm
，且进一步将f
batchnorm
输入到所述低阶特
征提取网络中的最大池化层进行处理，得到n组支持集视频所对应的n个低阶特征f
sl
和1组查询集视频所对应的单个低阶特征f
ql
：f
batchnorm
＝batchnorm3(f
conv
)；其中，是一层包含了64个3
×3×
3的三维卷积核、输出通道个数为64的三维卷积层，v
n
＝{s
n1
,s
n2
,...，s
nn
,q
ni
}；batchnorm3()表示归一化操作；求解每一个任务中n组支持集视频所对应的n个低阶特征f
sl
各自的期望μ和标准差σ，并通过公式info＝g(μ,diag(σ2))，对每一个任务所求解的期望μ和标准差σ进行多元高斯化，且进一步将每一个任务的多元高斯化的输出值info，均传入全连接层进行线性变换，以转化成各任务用于高阶特征提取网络的三维卷积自适应参数p
adaptive
；其中，p
adaptive
＝f(info)；info表示对期望μ和标准差σ进行多元高斯化的输出值；diag()表示对角矩阵构建函数。5.如权利要求4所述的基于层级任务信息的少样本视频动作识别方法，其特征在于，所述步骤s3具体包括：基于各任务用于高阶特征提取网络中的自适应参数p
adaptive
，调整各任务所用高阶特征提取网络中的三维卷积层；其中，每个任务所用高阶特征提取网络中三维卷积层均是三层具有64个3
×3×
3的三维卷积核、输出通道个数为64的三维卷积构成；在每一个任务中，n+1个低阶特征均经过各自对应调整后的高阶特征提取网络中的三层具有64个3
×3×
3的三维卷积核、输出通道个数为64的三维卷积进行处理，得到n组支持集视频所对应的n个高阶特征f
sh
和1组查询集视频所对应的单个高阶特征f
qh
：：6.如权利要求5所述的基于层级任务信息的少样本视频动作识别方法，其特征在于，所述步骤s4具体包括：第一步、计算出各任务的时空自注意力相似度，具体为：在每一个任务中，根据n组支持集视频所对应的n个高阶特征f
sh
和1组查询集视频所对应的单个高阶特征f
qh
，并通过公式m
st
＝mean(f
sh
×
(f
sh
)
t
)，得到每组支持集视频的时空自注意力向量m
st
，以及通过公式m
qt
＝mean(f
qh
×
(f
qh
)
t
)得到查询集视频的时空自注意力向量m
qt
；其中，mean()表示求取平均值操作；t表示转置；确定任务内学习器k
inner
()是由一层二维卷积层、一层relu非线性激活层、一层二维卷积层和softmax逻辑回归函数构成的；将各任务中的每组支持集视频的时空自注意力向量m
st
和查询集视频的时空自注意力向量m
qt
分别输入任务内信息学习器k
inner
()，得到各任务的每组支持集视频的优化自注意力向量a
st
和各任务的查询集视频的优化自注意力向量a
qt
；其中，a
st
＝k
inner
(m
st
)；a
qt
＝k
inner
(m
qt
)；通过公式t
st
＝f
sh
×
a
st
+f
sh
，得到各任务中的每组支持集视频的强化时空自信息的特征t
st
，以及通过公式t
qt
＝f
qh
×
a
qt
+f
qh
，得到各任务中的查询集视频的强化时空自信息的特征
t
qt
；通过公式sim
t
＝dcos(t
st
，t
qt
)，计算每一个任务中的查询集视频的强化时空自信息的特征t
qt
与其同任务中每一组支持集视频的强化时空自信息的特征t
st
的余弦距离，以得到各任务的n个时空自注意力相似度sim
t
：第二步、计算出各任务的相关交叉注意力度量相似度，具体为：在每一个任务中，根据n组支持集视频所对应的n个高阶特征f
sh
和1组查询集视频所对应的单个高阶特征f
qh
，并通过公式m
sr
＝mean(f
sh
·
(f
qh
)
t
)，得到每组支持集视频的相关交叉注意力向量m
sr
，以及通过公式m
qr
＝mean(f
qh
·
(f
sh
)
t
)得到查询集视频的相关交叉注意力向量m
qr
；将各任务中的每组支持集视频的相关交叉注意力向量m
sr
和查询集视频的相关交叉注意力向量m
qr
分别输入任务内信息学习器k
inner
()，得到各任务的每组支持集视频的优化相关交叉注意力向量a
sr
和各任务的查询集视频的优化相关交叉注意力向量a
qr
；其中，a
sr
＝k
inner
(m
sr
)；a
qr
＝k
inner
(m
qr
)；通过公式r
sr
＝f
sh
×
a
sr
+f
sh
，得到各任务中的每组支持集视频的强化时空自信息的特征r
sr
，以及通过公式r
qr
＝f
qh
×
a
qr
+f
qh
，得到各任务中的查询集视频的强化时空自信息的特征r
qr
；通过公式sim
r
＝dcos(r
sr
，r
qr
)，计算每一个任务中的查询集视频的强化时空自信息的特征r
qr
与其同任务中每一组支持集视频的强化时空自信息的特征r
sr
的余弦距离，以得到各任务的n个相关交叉注意力相似度sim
r
。7.如权利要求6所述的基于层级任务信息的少样本视频动作识别方法，其特征在于，所述步骤s5具体包括：在每一个任务中，根据所得到的n个时空自注意力相似度sim
t
与n个相关交叉注意力相似度sim
r
，确定出同属一个动作类别的时空自注意力相似度sim
t
及交叉注意力相似度sim
r
，并通过公式sim＝α
×
sim
t
+(1-α)
×
sim
r
，得到查询集视频与n组支持集视频所对应的n个相似度sim；将各任务中所对应得到的n个相似度sim均进行从大到小排序，并在每一个任务的n组支持集视频中，对应筛选出相似度sim均为最大时所对应的支持集视频。8.一种基于层级任务信息的少样本视频动作识别系统，其特征在于，包括：视频任务构建单元，用于获取具有x个动作类别的视频数据集，并基于所述视频数据集，构建出多个任务，且对每一个任务中的视频进行预处理；其中，每一个任务均具有n组动作类别相异的支持集视频以及与其n组支持集视频内容不一致的1组查询集视频；x和n均为正整数，且x>n；低阶特征提取单元，用于使用低阶特征提取网络，提取每一个任务中所含n+1组视频的低阶特征，以得到各任务中n组支持集视频所对应的n个低阶特征以及1组查询集视频所对应的单个低阶特征，并根据各任务中n组支持集视频所对应的n个低阶特征，得到各任务用于高阶特征提取网络中的自适应参数；高阶特征提取单元，用于基于各任务用于高阶特征提取网络中的自适应参数，调整各任务所用高阶特征提取网络中的三维卷积层，并使用各任务对应调整后的高阶特征提取网络，对各任务所提取的n+1个低阶特征进行高阶特征提取，以得到各任务中n组支持集视频
所对应的n个高阶特征以及1组查询集视频所对应的单个高阶特征；相似度计算单元，用于根据各任务中n组支持集视频所对应的n个高阶特征和查询集视频所对应的单个高阶特征，计算出各任务的时空自注意力相似度和相关交叉注意力度量相似度；视频识别单元，用于根据各任务的时空自注意力相似度和相关交叉注意力度量相似度，在各任务的n组支持集视频中，均对应筛选出一组符合预定条件的支持集视频。

技术总结
本发明提供一种基于层级任务信息的少样本视频动作识别方法，包括获取视频数据集，构建多个均有N+1组视频的任务并预处理；使用低阶特征提取网络，提取各任务中所含N+1组视频的低阶特征，并根据各任务中N组支持集视频的低阶特征，生成各任务用于高阶特征提取网络的自适应参数；基于自适应参数，调整各任务所用高阶特征提取网络，以提取N+1组视频的高阶特征；根据各任务所提取的N+1个高阶特征，计算出各任务的时空自注意力相似度和相关交叉注意力度量相似度；根据各任务所计算的两个相似度，在各任务的N组支持集视频中均对应筛选出一组符合预定条件的支持集视频。实施本发明，用以解决现有少样本视频动作识别方法中泛化性能差及度量效率不足的问题。性能差及度量效率不足的问题。性能差及度量效率不足的问题。

技术研发人员：王智新魏天强翁向高陈贵之韩浩然
受保护的技术使用者：温州市鹿城区大数据管理中心
技术研发日：2022.12.20
技术公布日：2023/8/4

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于层级任务信息的少样本视频动作识别方法及系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于层级任务信息的少样本视频动作识别方法及系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表