基于多尺度时空特征蒸馏的动作识别方法

未命名 10-19 阅读：103 评论：0

1.本发明属于计算机视觉技术领域，尤其是视觉模型压缩与动作识别领域，具体涉及一种基于多尺度时空特征蒸馏的动作识别方法。

背景技术：

2.动作识别旨在准确捕获视频中的动作模式并给出所属类别，被广泛应用于运动分析、安全驾驶、智能监控、人机交互、影视娱乐等多个领域的现实场景中。近年来，由于深度学习技术在计算机视觉领域的迅速普及，现有动作识别方法主要采用卷积神经网络为代表的深度模型，但是复杂的模型结构和庞大的参数量需要较多的计算资源，使得处理视频数据需要较大的计算资源，导致动作识别模型难以部署在计算资源有限的终端，如嵌入式设备或边缘设备。对此，研究人员提出模型压缩技术，旨在尽量不损失精度的条件下减少深度神经网络的参数量，降低存储和计算开销。因此，将模型压缩技术用于动作识别从而实现模型的轻量化以利于终端部署，具有重要现实需求。
3.动作识别的关键是准确提取原始视频的时空特征进行动作所属类别的判断。现有的动作识别方法主要分为三类：1)使用单个三维卷积神经网络(3d convolutional neural network，3d cnn)对原始视频片段进行时空建模，提取时空特征；2)使用两个不同的卷积神经网络(即双流网络)分别提取空间特征和时序特征，再进行特征融合获得视频时空特征；3)先使用二维卷积神经网络对视频逐帧进行空间特征提取，再使用循环神经网络(recurrent neural network，rnn)如长短期记忆网络(long short-term memory，lstm)对提取到的单帧空间特征进行时序建模，获得包含空间信息和时序信息的视频时空特征。
4.作为实现模型压缩的一种重要手段，知识蒸馏使用大模型的知识指导小模型训练，使得后者精度与前者接近，最终代替前者进行推理。现有的知识蒸馏方法按照知识类型可以分为响应蒸馏、特征蒸馏和关系蒸馏。响应蒸馏将教师模型的输出作为知识供学生模型学习；特征蒸馏将教师特征蒸馏通过将教师模型中间层特征作为学生模型中间层特征的学习目标，实现学生模型向教师模型学习的目的，常见的做法是将教师模型每层特征分别作为学生模型相应层特征的学习目标，简单计算教师特征与学生特征的均方差损失对学生模型进行优化；关系蒸馏将教师模型层与层之间的关系信息作为知识，指导学生模型的训练。
5.上述方法的不足点主要表现在以下几个方面：(1)无论是二维或三维cnn，固定大小的卷积核使得模型的感受野只能捕获到固定尺度的局部特征，但是不同视频的关键空间特征的尺度大小并不固定；(2)使用lstm进行时序建模，只能建立短期的时序依赖关系。对于持续较久的动作，无法捕捉完整的时序信息；(3)使用特征蒸馏对动作识别模型进行压缩时，现有方法假设教师特征的所有局部区域对识别任务具有相同的重要性，但与实际不符合，如人物特征、物体特征对识别的影响较大而背景特征则影响较小；若无差别计算每个区域的均方差，则学生模型易受相对不重要特征的干扰。基于以上考虑，迫切需要一种既能充分发掘并融合视频时空特征、又能有效学习任务相关的区域特征的动作识别方法。

技术实现要素：

6.本发明的目的就是针对现有技术的不足，提供一种基于多尺度时空特征蒸馏的动作识别方法，既能捕捉多尺度局部特征增强原始空间特征，构建短时时序特征的长时时序依赖关系，又能通过让学生模型关注对任务影响较大的特征区域达到更好的特征蒸馏效果，实现动作识别模型轻量化。
7.本发明方法对给定含类别标记的视频数据集合依次进行如下操作：
8.步骤(1)对原始视频进行均匀采样，获得帧流图像序列和光流图像序列；
9.步骤(2)构建教师编码器和学生编码器，输入帧流图像序列和光流图像序列，分别输出教师时空编码特征和学生时空编码特征；
10.步骤(3)构建教师和学生多尺度时空特征融合模块，分别输入教师时空编码特征和学生时空编码特征，输出均为对应的多尺度空间特征与多尺度时空特征；所述的多尺度时空特征融合模块由时序特征增强子模块、空间特征增强子模块和一个三维卷积层组成；
11.步骤(4)构建教师分类器和学生分类器，输入为对应的多尺度时空特征，输出分别为教师和学生动作类别概率；利用随机梯度下降法优化由教师编码器、教师多尺度时空特征融合模块、教师分类器组成的教师网络；将步骤(2)的教师时空编码特征依次输入已训练的教师多尺度时空特征融合模块、教师分类器，得到更新的教师多尺度空间特征、更新的教师动作类别概率；
12.步骤(5)构建掩膜特征蒸馏模块，输入为更新的教师多尺度空间特征和步骤(3)的学生多尺度空间特征，输出为教师和学生的掩膜空间特征；
13.步骤(6)计算真实标记与学生动作类别概率之间的交叉熵损失，计算更新的教师动作类别概率与学生动作类别概率之间的距离损失，计算教师和学生的掩膜空间特征之间的蒸馏损失，利用随机梯度下降法优化由学生编码器、学生多尺度时空特征融合模块、学生分类器组成的学生网络，对新视频依次通过步骤(1)～(4)的学生网络得到更新的学生动作类别概率，选择概率最大的类别作为视频的动作类别。
14.进一步，步骤(1)具体是：
15.(1-1)以每秒10～20帧的采样率将视频v处理为一个帧流图像序列下标i表示帧流，n表示帧流图像数目，ii表示序列中索引为i、宽为w0、高为h0的rgb三通道图像，i＝1,2,
…
,n，,n，表示实数域；
16.视频v对应的独热(one-hot)编码形式动作类别标记为y＝[y1,y2,
…
,yn]，如其中索引为l的动作类别y
l
＝1则表示视频属于该动作类别，如y
l
＝0则表示视频不属于该动作类别，l＝1,2,
…
,n，n表示动作类别数量，
[0017]
(1-2)采用卢卡斯-卡纳德方法计算光流，获得光流图像序列其中，下标o表示光流(optical flow)，n为与帧流图像数目相同的光流图像数目，oi表示序列中索引为i、宽为w0、高为h0的光流双通道图像，且根据索引i与帧流图像对应。
[0018]
再进一步，步骤(2)具体是：
[0019]
(2-1)两个resnet34组成教师编码器，所述的resnet34为经过imagenet数据集预训练的层数为34的残差神经网络(residual neural network，resnet)；两个resnet34分别
用于处理帧流图像和光流图像；两个参数随机初始化的resnet18组成学生编码器；
[0020]
(2-2)将帧流图像序列和光流图像序列分别输入教师编码器的两个resnet34，获得教师空间编码特征和教师时序编码特征上标(t)表示教师网络(teacher network)，下标s表示空间(spatial)，下标t表示时序(temporal)，w1、h1和c1分别表示编码特征的宽度、高度和通道数；
[0021]
将帧流图像序列和光流图像序列分别输入学生编码器的两个resnet18，获得学生空间编码特征和时序编码特征上标(s)表示学生网络(student network)。
[0022]
更进一步，步骤(3)具体是：
[0023]
(3-1)利用自注意力机制构建教师和学生时序特征增强子模块，分别输入教师和学生时序编码特征和获得重构教师和学生时序编码特征和reshape(
·
)为维度重构函数，在保持张量中元素不变的情况下将张量维度由重构为ds＝w1·
h1·
c1表示空间维度；
[0024]
将重构教师序编码特征利用全连接层映射并划分为相应的查询特征、键特征和值特征将重构学生序编码特征利用全连接层映射并划分为相应的查询特征、键特征和值特征其中，fc(
·
)表示全连接层，将维度由映射为下标a表示注意力(attention)，split(
·
)为划分函数，将维度为的特征划分为三个维度为的特征；
[0025]
计算教师注意力特征和学生注意力特征其中将教师和学生注意力特征分别利用全连接层映射并进行维度重构，获得教师长时时序特征和学生长时时序特征fc(
·
)将维度由映射为reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为输出教师和学生长时时序特征和
[0026]
(3-2)利用不同尺寸的二维卷积核和最邻近插值上采样融合操作构建教师和学生空间特征增强子模块，分别输入教师和学生空间编码特征和计算不同尺度的教师和学生局部空间特征和学生局部空间特征{hr(
·
)＝relu(conv2dr(
·
))|r＝3,5,7}表示经过大小为r
×
r、输入输出通道均为c1的二维卷积操作再通过relu函数激活，
和分别表示相应的教师和学生局部空间特征，w3和h3、w5和h5、w7和h7分别表示相应空间特征的宽度和高度；
[0027]
计算不同尺度的教师和学生上采样融合特征计算不同尺度的教师和学生上采样融合特征计算不同尺度的教师和学生上采样融合特征其中，分别表示将宽和高为w
r1
×hr1
的空间特征上采样为w
r2
×hr2
的空间特征的最邻近插值上采样操作，的空间特征的最邻近插值上采样操作，分别表示通过相应上采样操作和相加操作获得的不同尺度的教师和学生上采样融合特征，将和作为教师和学生多尺度空间特征进行输出；下标s3和s5表示尺寸大小为3
×
3和5
×
5的二维卷积；
[0028]
(3-3)利用三维卷积神经网络构建教师和学生多尺度时空特征融合模块，输入分别为步骤(3-1)与(3-2)输出的教师长时时序特征与多尺度空间特征学生长时时序特征与多尺度空间特征分别利用相加操作和三维卷积操作计算教师和学生多尺度时空特征和其中，conv3d(
·
)表示卷积核大小为n
×
w1×
h1、输入通道为c1、输出通道为d
ts
的三维卷积操作，下标ts表示时空(temporal-spatial)，输出教师和学生多尺度时空特征和
[0029]
又进一步，步骤(4)具体是：
[0030]
(4-1)利用全连接层和softmax函数构建教师分类器和学生分类器，输入教师和学生多尺度时空特征和计算教师和学生动作类别概率分布和fc(
·
)将维度由映射为计算真实标记y与教师动作类别概率分布p
(t)
之间的交叉熵损失下标ce表示交叉熵(cross entropy)，表示两种概率分布之间的交叉熵；
[0031]
(4-2)利用随机梯度下降法，根据教师交叉熵损失优化由教师编码器、教师多尺度时空特征融合模块、教师分类器组成的教师网络；
[0032]
(4-3)将步骤(2)的教师时空编码特征和依次输入已训练的教师多尺度时空特征融合模块、教师分类器，得到更新的教师多尺度空间特征更新的教师长时时序特征更新的教师动作类别概率
[0033]
还进一步，步骤(5)具体是：
[0034]
(5-1)构建掩膜特征蒸馏模块，随机初始化掩膜张量m
表示掩膜张量能够生成的掩膜数量；对更新的教师多尺度空间特征进行维度重构，得到重构教师多尺度空间特征reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为
[0035]
(5-2)计算教师掩膜特征*表示矩阵的khatri-rao积(即列维度的kronecker)；对进行维度重构，得到重构教师掩膜特征进行维度重构，得到重构教师掩膜特征reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为在最后一个维度上计算平均值得到教师平均掩膜特征将和输入已训练的教师多尺度时空特征融合模块，获得教师多尺度时空掩膜特征
[0036]
(5-3)将教师多尺度时空掩膜特征输入已训练的教师分类器，获得教师掩膜动作类别概率分布计算真实标记y与的交叉熵损失计算掩膜张量e的多样性损失下标div表示多样性(diversity)；利用随机梯度下降法，根据掩膜损失更新掩膜张量e；
[0037]
(5-4)将学生多尺度空间特征进行重构，获得重构学生多尺度空间特征其中reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为
[0038]
(5-5)利用更新的掩膜张量e'构建掩膜特征蒸馏模块，输入为步骤(5-1)的重构教师多尺度空间特征和步骤(5-4)的重构学生多尺度空间特征计算教师和学生掩膜特征和作为该模块的输出。
[0039]
最后再进一步，步骤(6)具体是：
[0040]
(6-1)计算真实标记y与步骤(4-1)的学生动作类别概率分布p
(s)
之间的交叉熵损失计算步骤(4-3)的更新的教师动作类别概率p
(t)'
与步骤(4-1)的学生动作类别概率分布p
(s)
之间的kl(kullback-leibler)散度作为距
离损失，其中下标kl表示kl散度；计算步骤(5-5)的教师掩膜特征和学生掩膜特征之间的l2损失作为蒸馏损失，下标fd表示特征蒸馏(feature distillation)；
[0041]
(6-2)构建由学生编码器、学生多尺度时空特征融合模块、学生分类器组成的学生网络，其总体损失函数为利用随机梯度下降法优化该学生网络；
[0042]
(6-3)对新视频v'重复步骤步骤(1-1)～(4-1)的学生网络得到新的学生动作类别概率p
(s)'
，选择概率最大的类别l'＝argmax(p
(s)'
)，即索引为l'的类别作为新视频v'的动作类别。
[0043]
本发明方法具有以下几个特点：1)利用不同尺寸的卷积操作捕捉不同尺度的空间特征，使得视频空间特征包含不同尺寸大小的局部空间信息；2)通过自注意力机制构建原始短时时序编码特征的长时关系，能够完整地学习到持续时长较久的动作的时序依赖；3)通过对任务相关的多尺度空间特征进行掩膜蒸馏，学生模型能够学习到对任务影响较大的教师知识，提高模型压缩的精度。本发明方法适用于有实时性要求的动作识别任务，有益效果包括：1)使用不同尺寸的卷积操作对不同尺度的局部空间特征进行捕获，以此增强原始空间编码特征，相比于使用固定尺寸的卷积操作，能够学习到尺度更丰富的视频空间信息；2)利用自注意力机制对视频帧之间的短时时序特征进行全局建模，获得长时时序特征，使得视频时序特征包含更长时间跨度的动作信息；3)利用掩膜特征蒸馏将教师模型中的任务相关知识迁移到学生模型，使得参数量较少的学生模型具有与教师模型相近的精度，实现动作识别模型的轻量化。这为安全驾驶、智能监控、人机交互等实际应用场景奠定了基础。
附图说明
[0044]
图1是本发明方法的流程图。
具体实施方式
[0045]
以下结合附图对本发明作进一步说明。
[0046]
如图1所示，基于多尺度时空特征蒸馏的动作识别方法，该方法首先对原始视频进行均匀采样获得rgb帧图像序列和光流图像序列，利用教师和学生编码器提取视频时空编码特征；接着利用多尺度时空特征融合模块，通过不同尺寸的卷积核捕捉空间特征中不同尺度的局部空间特征并进行融合，增强原始空间编码特征；同时利用自注意力机制对短时时序特征构建长时依赖关系，增强原始时序编码特征；再利用三维卷积获得多尺度时空特征，以此进行动作类别判定；此外，利用掩膜特征蒸馏模块，根据教师和学生多尺度空间特征生成相应的掩膜特征，使得学生模型能够关注教师特征中的任务相关局部区域，达到更好的知识蒸馏效果，提高模型压缩的精度。具体步骤如下：
[0047]
步骤(1)对原始视频进行均匀采样，获得帧流图像序列和光流图像序列；具体是：
[0048]
(1-1)以每秒16帧的采样率将视频v处理为一个帧流图像序列下标i表示帧流，n表示帧流图像数目，ii表示序列中索引为i、宽为w0、高为h0的rgb三通道图像，i＝
1,2,
…
,n，,n，表示实数域；
[0049]
视频v对应的独热编码形式动作类别标记为y＝[y1,y2,
…
,yn]，如其中索引为l的动作类别y
l
＝1则表示视频属于该动作类别，如y
l
＝0则表示视频不属于该动作类别，l＝1,2,
…
,n，n表示动作类别数量，
[0050]
(1-2)采用卢卡斯-卡纳德方法计算光流，获得光流图像序列下标o表示光流，n为与帧流图像数目相同的光流图像数目，oi表示序列中索引为i、宽为w0、高为h0的光流双通道图像，且根据索引i与帧流图像对应。
[0051]
步骤(2)构建教师编码器和学生编码器，输入帧流图像序列和光流图像序列，分别输出教师时空编码特征和学生时空编码特征；具体是：
[0052]
(2-1)两个resnet34组成教师编码器，所述的resnet34为经过imagenet数据集预训练的层数为34的残差神经网络；两个resnet34分别用于处理帧流图像和光流图像；两个参数随机初始化的resnet18组成学生编码器；
[0053]
(2-2)将帧流图像序列和光流图像序列分别输入教师编码器的两个resnet34，获得教师空间编码特征和教师时序编码特征上标(t)表示教师网络，下标s表示空间，下标t表示时序，w1、h1和c1分别表示编码特征的宽度、高度和通道数；
[0054]
将帧流图像序列和光流图像序列分别输入学生编码器的两个resnet18，获得学生空间编码特征和学生时序编码特征上标(s)表示学生网络。
[0055]
步骤(3)构建教师和学生多尺度时空特征融合模块，分别输入教师时空编码特征和学生时空编码特征，输出均为对应的多尺度空间特征与多尺度时空特征；所述的多尺度时空特征融合模块由时序特征增强子模块、空间特征增强子模块和一个三维卷积层组成；具体是：
[0056]
(3-1)利用自注意力机制构建教师时序特征增强子模块和学生时序特征增强子模块，分别输入教师时序编码特征和学生时序编码特征获得重构教师和学生时序编码特征和reshape(
·
)为维度重构函数，在保持张量中元素不变的情况下将张量维度由重构为空间维度ds＝w1·
h1·
c1；
[0057]
将重构教师序编码特征利用全连接层映射并划分为相应的查询特征、键特征和值特征将重构学生序编码特征利用全连接层映射并划分为相应的查询特征、键特征和值特征其中，fc(
·
)表示全连接层，将维度由映射为下标a表示注意力，split(
·
)为划分函数，将维度为的特征划分为三个维度为的特征；
[0058]
计算教师注意力特征和学生注意力特征其中将教师和学生注意力特征分别利用全连接层映射并进行维度重构，获得教师长时时序特征和学生长时时序特征fc(
·
)将维度由映射为reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为输出教师长时时序特征和学生长时时序特征
[0059]
(3-2)利用不同尺寸的二维卷积核和最邻近插值上采样融合操作，构建教师和学生空间特征增强子模块，分别输入教师空间编码特征和学生空间编码特征计算不同尺度的教师和学生局部空间特征尺度的教师和学生局部空间特征{hr(
·
)＝relu(conv2dr(
·
))|r＝3,5,7}表示经过大小为r
×
r、输入输出通道均为c1的二维卷积操作再通过relu函数激活，的二维卷积操作再通过relu函数激活，和分别表示相应的教师和学生局部空间特征，w3和h3、w5和h5、w7和h7分别表示相应空间特征的宽度和高度；
[0060]
计算不同尺度的教师和学生上采样融合特征计算不同尺度的教师和学生上采样融合特征计算不同尺度的教师和学生上采样融合特征其中，{u
r1
→
r2
(
·
)}
(r1,r2)＝{(7,5),(5,3),(3,1)}
表示将宽和高为w
r1
×hr1
的空间特征上采样为w
r2
×hr2
的空间特征的最邻近插值上采样操作，的空间特征的最邻近插值上采样操作，分别表示通过相应上采样操作和相加操作，获得的不同尺度的教师和学生上采样融合特征，将和作为教师和学生多尺度空间特征进行输出；下标s3和s5表示尺寸大小为3
×
3和5
×
5的二维卷积；
[0061]
(3-3)利用三维卷积神经网络构建教师多尺度时空特征融合模块和学生多尺度时空特征融合模块，输入分别为教师长时时序特征与多尺度空间特征学生长时时序特征与多尺度空间特征分别利用相加操作和三维卷积操作计算教师和学生多尺度时空特征和conv3d(
·
)表示卷积核大小为n
×
w1×
h1、输入通道为c1、输出通道为d
ts
的三维卷积操作，下标ts表示时空，输出教师多尺度时空特征和学生多尺度时空特征
[0062]
步骤(4)构建教师分类器和学生分类器，输入为对应的多尺度时空特征，输出分别为教师和学生动作类别概率，利用随机梯度下降法优化由教师编码器、教师多尺度时空特
征融合模块、教师分类器组成的教师网络；将教师时空编码特征依次输入已训练的教师多尺度时空特征融合模块、教师分类器，得到更新的教师多尺度空间特征、更新的教师动作类别概率；具体是：
[0063]
(4-1)利用全连接层和softmax函数构建教师分类器和学生分类器，分别输入教师和学生多尺度时空特征和计算教师动作类别概率分布和学生动作类别概率分布fc(
·
)将维度由映射为计算真实标记y与教师动作类别概率分布p
(t)
之间的交叉熵损失下标ce表示交叉熵，表示两种概率分布之间的交叉熵；
[0064]
(4-2)利用随机梯度下降法，根据教师交叉熵损失优化由教师编码器、教师多尺度时空特征融合模块、教师分类器组成的教师网络；
[0065]
(4-3)将教师空间编码特征和教师时序编码特征依次输入已训练的教师多尺度时空特征融合模块、教师分类器，得到更新的教师多尺度空间特征更新的教师长时时序特征更新的教师动作类别概率
[0066]
步骤(5)构建掩膜特征蒸馏模块，输入为更新的教师多尺度空间特征和学生多尺度空间特征，输出为教师和学生的掩膜空间特征；具体是：
[0067]
(5-1)构建掩膜特征蒸馏模块，随机初始化掩膜张量m表示掩膜张量能够生成的掩膜数量；对更新的教师多尺度空间特征进行维度重构，得到重构教师多尺度空间特征reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为
[0068]
(5-2)计算教师掩膜特征*表示矩阵的khatri-rao积；对进行维度重构得到重构教师掩膜特征进行维度重构得到重构教师掩膜特征reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为在最后一个维度上计算平均值得到教师平均掩膜特征将和输入已训练的教师多尺度时空特征融合模块，获得教师多尺度时空掩膜特征
[0069]
(5-3)将教师多尺度时空掩膜特征输入已训练的教师分类器，获得教师掩膜动作类别概率分布计算真实标记y与的交叉熵损失
计算掩膜张量e的多样性损失下标div表示多样性；利用随机梯度下降法，根据掩膜损失更新掩膜张量e；
[0070]
(5-4)将学生多尺度空间特征进行重构，获得重构学生多尺度空间特征reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为
[0071]
(5-5)利用更新的掩膜张量e'构建掩膜特征蒸馏模块，输入为重构教师多尺度空间特征和重构学生多尺度空间特征计算教师掩膜特征和学生掩膜特征作为该模块的输出。
[0072]
步骤(6)计算真实标记与学生动作类别概率之间的交叉熵损失，计算更新的教师动作类别概率与学生动作类别概率之间的距离损失，计算教师和学生的掩膜空间特征之间的蒸馏损失，利用随机梯度下降法优化由学生编码器、学生多尺度时空特征融合模块、学生分类器组成的学生网络，对新视频依次通过步骤(1)～(4)的学生网络得到更新的学生动作类别概率，选择概率最大的类别作为视频的动作类别；具体是：
[0073]
(6-1)计算真实标记y与学生动作类别概率分布p
(s)
之间的交叉熵损失计算更新的教师动作类别概率p
(t)'
与学生动作类别概率分布p
(s)
之间的kl散度作为距离损失，下标kl表示kl散度；计算教师掩膜特征和学生掩膜特征之间的l2损失作为蒸馏损失，下标fd表示特征蒸馏；
[0074]
(6-2)构建由学生编码器、学生多尺度时空特征融合模块、学生分类器组成的学生网络，其总体损失函数为利用随机梯度下降法优化该学生网络；
[0075]
(6-3)对新视频v'重复步骤步骤(1-1)～(4-1)的学生网络得到新的学生动作类别概率p
(s)'
，选择概率最大的类别l'＝argmax(p
(s)'
)，即索引为l'的类别作为新视频v'的动作类别。
[0076]
本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

技术特征：
1.基于多尺度时空特征蒸馏的动作识别方法，其特征在于，对给定含类别标记的视频数据集合，依次进行如下操作：步骤(1)对原始视频进行均匀采样，获得帧流图像序列和光流图像序列；步骤(2)构建教师编码器和学生编码器，输入帧流图像序列和光流图像序列，分别输出教师时空编码特征和学生时空编码特征；步骤(3)构建教师和学生多尺度时空特征融合模块，分别输入教师时空编码特征和学生时空编码特征，输出均为对应的多尺度空间特征和多尺度时空特征；所述的多尺度时空特征融合模块由时序特征增强子模块、空间特征增强子模块和一个三维卷积层组成；步骤(4)构建教师分类器和学生分类器，输入为对应的多尺度时空特征，输出分别为教师和学生动作类别概率，利用随机梯度下降法优化由教师编码器、教师多尺度时空特征融合模块、教师分类器组成的教师网络；将教师时空编码特征依次输入已训练的教师多尺度时空特征融合模块、教师分类器，得到更新的教师多尺度空间特征、更新的教师动作类别概率；步骤(5)构建掩膜特征蒸馏模块，输入为更新的教师多尺度空间特征和学生多尺度空间特征，输出为教师和学生的掩膜空间特征；步骤(6)计算真实标记与学生动作类别概率之间的交叉熵损失，计算更新的教师动作类别概率与学生动作类别概率之间的距离损失，计算教师和学生的掩膜空间特征之间的蒸馏损失，利用随机梯度下降法优化由学生编码器、学生多尺度时空特征融合模块、学生分类器组成的学生网络，对新视频依次通过步骤(1)～(4)的学生网络得到更新的学生动作类别概率，选择概率最大的类别作为视频的动作类别。2.如权利要求1所述的基于多尺度时空特征蒸馏的动作识别方法，其特征在于，步骤(1)具体是：(1-1)以每秒10～20帧的采样率将视频v处理为一个帧流图像序列下标i表示帧流，n表示帧流图像数目，i
i
表示序列中索引为i、宽为w0、高为h0的rgb三通道图像，i＝1,2,
…
,n，,n，表示实数域；视频v对应的独热编码形式动作类别标记为y＝[y1,y2,
…
,y
n
]，如其中索引为l的动作类别y
l
＝1则表示视频属于该动作类别，如y
l
＝0则表示视频不属于该动作类别，l＝1,2,
…
,n，n表示动作类别数量，(1-2)采用卢卡斯-卡纳德方法计算光流，获得光流图像序列下标o表示光流，n为与帧流图像数目相同的光流图像数目，o
i
表示序列中索引为i、宽为w0、高为h0的光流双通道图像，且根据索引i与帧流图像对应。3.如权利要求2所述的基于多尺度时空特征蒸馏的动作识别方法，其特征在于，步骤(2)具体是：(2-1)两个resnet34组成教师编码器，所述的resnet34为经过imagenet数据集预训练的层数为34的残差神经网络；两个resnet34分别用于处理帧流图像和光流图像；两个参数随机初始化的resnet18组成学生编码器；(2-2)将帧流图像序列和光流图像序列分别输入教师编码器的两个resnet34，获
得教师空间编码特征和教师时序编码特征上标(t)表示教师网络，下标s表示空间，下标t表示时序，w1、h1和c1分别表示编码特征的宽度、高度和通道数；将帧流图像序列和光流图像序列分别输入学生编码器的两个resnet18，获得学生空间编码特征和学生时序编码特征上标(s)表示学生网络。4.如权利要求3所述的基于多尺度时空特征蒸馏的动作识别方法，其特征在于，步骤(3)具体是：(3-1)利用自注意力机制构建教师时序特征增强子模块和学生时序特征增强子模块，分别输入教师时序编码特征和学生时序编码特征获得重构教师和学生时序编码特征和reshape(
·
)为维度重构函数，在保持张量中元素不变的情况下将张量维度由重构为空间维度d
s
＝w1·
h1·
c1；将重构教师序编码特征利用全连接层映射并划分为相应的查询特征、键特征和值特征将重构学生序编码特征利用全连接层映射并划分为相应的查询特征、键特征和值特征其中，fc(
·
)表示全连接层，将维度由映射为下标a表示注意力，split(
·
)为划分函数，将维度为的特征划分为三个维度为的特征；计算教师注意力特征和学生注意力特征其中将教师和学生注意力特征分别利用全连接层映射并进行维度重构，获得教师长时时序特征和学生长时时序特征fc(
·
)将维度由映射为reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为输出教师长时时序特征和学生长时时序特征(3-2)利用不同尺寸的二维卷积核和最邻近插值上采样融合操作，构建教师和学生空间特征增强子模块，分别输入教师空间编码特征和学生空间编码特征计算不同尺度的教师和学生局部空间特征度的教师和学生局部空间特征其中，{h
r
(
·
)＝relu(conv2d
r
(
·
))|r＝3,5,7}表示经过大小为r
×
r、输入输出通道均为c1的二维卷积操作再通过relu函数激活，的二维卷积操作再通过relu函数激活，和分别表示相应的教师和学生局部空间特征，w3和h3、w5和h5、w7和h7分别表示相应空间特征的宽度和高度；
计算不同尺度的教师和学生上采样融合特征计算不同尺度的教师和学生上采样融合特征计算不同尺度的教师和学生上采样融合特征其中，{u
r1
→
r2
(
·
)}
(r1,r2)＝{(7,5),(5,3),(3,1)}
表示将宽和高为w
r1
×
h
r1
的空间特征上采样为w
r2
×
h
r2
的空间特征的最邻近插值上采样操作，分别表示通过相应上采样操作和相加操作，获得的不同尺度的教师和学生上采样融合特征，将和作为教师和学生多尺度空间特征进行输出；下标s3和s5表示尺寸大小为3
×
3和5
×
5的二维卷积；(3-3)利用三维卷积神经网络构建教师多尺度时空特征融合模块和学生多尺度时空特征融合模块，输入分别为教师长时时序特征与多尺度空间特征学生长时时序特征与多尺度空间特征分别利用相加操作和三维卷积操作计算教师和学生多尺度时空特征和conv3d(
·
)表示卷积核大小为n
×
w1×
h1、输入通道为c1、输出通道为d
ts
的三维卷积操作，下标ts表示时空，输出教师多尺度时空特征和学生多尺度时空特征5.如权利要求4所述的基于多尺度时空特征蒸馏的动作识别方法，其特征在于，步骤(4)具体是：(4-1)利用全连接层和softmax函数构建教师分类器和学生分类器，分别输入教师和学生多尺度时空特征和计算教师动作类别概率分布和学生动作类别概率分布fc(
·
)将维度由映射为计算真实标记y与教师动作类别概率分布p
(t)
之间的交叉熵损失下标ce表示交叉熵，表示两种概率分布之间的交叉熵；(4-2)利用随机梯度下降法，根据教师交叉熵损失优化由教师编码器、教师多尺度时空特征融合模块、教师分类器组成的教师网络；(4-3)将教师空间编码特征和教师时序编码特征依次输入已训练的教师多尺度时空特征融合模块、教师分类器，得到更新的教师多尺度空间特征更新的教师长时时序特征更新的教师动作类别概率6.如权利要求5所述的基于多尺度时空特征蒸馏的动作识别方法，其特征在于，步骤(5)具体是：(5-1)构建掩膜特征蒸馏模块，随机初始化掩膜张量m表示掩膜张量能够生成的掩膜数量；对更新的教师多尺度空间特征进行维度重构，得到重
构教师多尺度空间特征reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为d
(mask)
＝n
·
w1·
h1；(5-2)计算教师掩膜特征*表示矩阵的khatri-rao积；对进行维度重构得到重构教师掩膜特征进行维度重构得到重构教师掩膜特征reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为在最后一个维度上计算平均值得到教师平均掩膜特征将和输入已训练的教师多尺度时空特征融合模块，获得教师多尺度时空掩膜特征(5-3)将教师多尺度时空掩膜特征输入已训练的教师分类器，获得教师掩膜动作类别概率分布计算真实标记y与的交叉熵损失计算掩膜张量e的多样性损失下标div表示多样性；利用随机梯度下降法，根据掩膜损失更新掩膜张量e；(5-4)将学生多尺度空间特征进行重构，获得重构学生多尺度空间特征reshape(
·
)在保持张量中元素不变的情况下将张量维度由重构为(5-5)利用更新的掩膜张量e'构建掩膜特征蒸馏模块，输入为重构教师多尺度空间特征和重构学生多尺度空间特征计算教师掩膜特征和学生掩膜特征作为该模块的输出。7.如权利要求6所述的基于多尺度时空特征蒸馏的动作识别方法，其特征在于，步骤(6)具体是：(6-1)计算真实标记y与学生动作类别概率分布p
(s)
之间的交叉熵损失计算更新的教师动作类别概率p
(t)'
与学生动作类别概率分布p
(s)
之间的kl散度作为距离损失，下标kl表示kl散度；计算教师掩膜特征和学生掩膜特征之间的l2损失作为蒸馏损失，下标fd表示特征蒸馏；
(6-2)构建由学生编码器、学生多尺度时空特征融合模块、学生分类器组成的学生网络，其总体损失函数为利用随机梯度下降法优化该学生网络；(6-3)对新视频v'重复步骤步骤(1-1)～(4-1)的学生网络得到新的学生动作类别概率p
(s)'
，选择概率最大的类别l'＝argmax(p
(s)'
)，即索引为l'的类别作为新视频v'的动作类别。

技术总结
本发明公开了基于多尺度时空特征蒸馏的动作识别方法。本发明方法首先对给定原始视频采样获得帧图像序列和光流图像序列，利用卷积神经网络得到时空编码特征；然后通过不同尺寸的卷积操作捕获不同尺度的局部特征，获得多尺度空间特征；同时，利用自注意力机制构建时序编码特征的长时依赖关系，获得长时时序特征；再融合多尺度空间特征与长时时序特征获得多尺度时空特征，进行动作分类；最后通过将多尺度空间特征进行掩膜蒸馏，实现教师模型中任务相关知识向学生模型的迁移。本发明方法不仅能够对视频的时空编码特征进行增强和融合获得多尺度时空特征，还能利用掩膜特征蒸馏实现模型的轻量化，提升了动作识别的准确率并有利于终端部署。终端部署。终端部署。

技术研发人员：黄焯奇李平陈家俊徐向华
受保护的技术使用者：杭州电子科技大学
技术研发日：2023.07.14
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种存储数据的数据处理系统的制作方法 下一篇：一种减少空白病例的编码选择方法、装置、设备及介质与流程

基于多尺度时空特征蒸馏的动作识别方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于多尺度时空特征蒸馏的动作识别方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表