一种基于帧级和特征级增强的半监督动作识别训练方法
未命名
09-13
阅读:150
评论:0
1.本发明涉及一种一种模型训练方法,具体涉及一种半监督动作识别训练方法。
背景技术:
2.动作识别旨在识别视频片段中包含的人类行为,由于其在人机交互、辅助驾驶、社会公共安全等领域的广泛应用,已成为计算机视觉领域的研究热点。得益于深度学习的蓬勃发展,动作识别在理论和实践上都经历了巨大革命。基于深度学习的方法以端到端的方式,利用可训练的特征提取模型从视频中自动学习行为表征,并在大规模数据集上取得了显著的性能提升。然而,这类方法大都采用全监督训练策略,严重依赖于复杂和昂贵的人工标注。在数据规模快速增长的情况下,获取并标注数据集需要大量的资源、时间和努力,限制了动作识别方法的进一步应用。为了克服对大规模标注数据集的需求,一些研究人员转向设计半监督动作识别方法,借助大量无标注视频数据,使得模型在有限的标注的训练环境下仍具有良好的性能表现。
3.如何有效利用大量无标注视频数据使模型学习到鲁棒动作特征是半监督动作识别的关键挑战。过往研究尝试采用半监督图像分类中一致性正则化策略,探索针对视频的数据增强方法,对视频数据进行多样化变换以学习到不变的动作特征表示。然而,这类工作仅在帧级上进行颜色变化、随机裁剪或遮挡,忽视了视频数据的时空冗余性和复杂性。尤其在提取视频特征过程中,这种帧级增强可能会使扰动被邻近帧的上下文信息所抵消,弱化了对无标注数据的变换效果,阻碍模型学习到鲁棒的动作表征。
技术实现要素:
4.发明目的:为解决半监督动作识别中利用帧级增强对无标注数据进行表征一致性学习的局限性,提出一种基于帧级和特征级增强的半监督动作识别训练方法。
5.技术方案:一种基于帧级和特征级增强的半监督动作识别训练方法,包括:
6.步骤1:对无标注视频进行随机采样,获得原始rgb模态和梯度模态视频片段作为输入数据;对两种视频片段分别进行帧级弱增强和帧级强增强,将增强后的片段输入至双模态特征编码器,获得对应的帧级弱增强特征和帧级强增强特征;
7.步骤2:将帧级增强后的特征进行时序平均池化操作,再利用特征扰动器对平均后的特征进行扰动,得到对应的帧级-特征级弱增强特征和帧级-特征级强增强特征;
8.步骤3:将步骤1和步骤2得到的特征分别经过分类头得到相应的类别分布预测,然后将rgb模态和梯度模态分别对应的帧级弱增强类别分布预测进行特征融合后计算伪标签,并获得伪标签置信度大于阈值的伪标签集合,再计算所述伪标签集合内无标注视频的无监督约束损失;
9.步骤4:将有标注视频的类别分布预测与真实标签计算有监督分类损失,并与步骤3得到的无监督约束损失按权重进行相加,得到最终模型损失以优化网络。
10.进一步的,所述步骤1中,所述帧级弱增强尺寸调整、随机裁剪和图像翻转,所述帧
级强增强包括随机图像块切除和randaugment组合增强。
11.进一步的,所述步骤1中,所述特征扰动器包括空间特征丢弃、噪声干扰和特征翻转。
12.进一步的,所述步骤3中,计算所述伪标签集合内无标注视频的无监督约束损失包括:
13.根据帧级强增强特征对应的类别分布预测ps计算帧级强增强流的损失
[0014][0015]
其中,ps为帧级强增强特征对应的类别分布预测,bu为一个训练批次中无标注视频数量,为交叉熵损失函数,为伪标签,为rgb模态的帧级强增强特征对应的类别分布预测,为梯度模态的帧级强增强特征对应的类别分布预测;
[0016]
根据帧级-特征级弱增强特征对应的类别分布预测p
w_p
计算帧级-特征级弱增强流的损失根据帧级-特征级强增强特征对应的类别分布预测p
s_p
计算帧级-特征级强增强流的损失即:
[0017][0018][0019]
其中,为rgb模态的帧级-特征级弱增强特征对应的类别分布预测,为梯度模态的帧级-特征级弱增强特征对应的类别分布预测;为rgb模态的帧级-特征级强增强特征对应的类别分布预测,为梯度模态的帧级-特征级强增强特征对应的类别分布预测。
[0020]
进一步的,所述步骤4中,计算得到的有监督分类损失为与步骤3得到的无监督约束损失按权重进行相加,得到最终模型损失以优化网络,即:
[0021][0022]
其中,α,β,γ是平衡三个损失的权重参数。
[0023]
有益效果:本发明提出了一种基于帧级和特征级增强的半监督动作识别框架,包括渐进式增强和多头伪标签两部分,使模型在复杂多变的视频场景下仍能学习到鲁棒的动作表征。渐进式增强模块实现了在更广泛的扰动空间中对无标注视频进行多样性变换,弥补了单一帧级增强变换效果受限的缺陷;多头伪标签模块使得多种增强特征与普通弱增强生成的伪标签对齐,充分发挥了表征一致性约束以学习到更鲁棒的动作表征。
附图说明
[0024]
图1为本发明方法的流程图;
[0025]
图2为本发明方法对应的框架图;
[0026]
图3为本发明使用的3d主干网络的参数配置,使用3
×8×
2242的视频片段作为输入样例;
[0027]
图4为本发明与现有方法的结果比较。
具体实施方式
[0028]
下面结合附图对本发明做更进一步的解释。
[0029]
如图1、图2所示,一种基于帧级和特征级增强的半监督动作识别训练方法,包括帧级增强、特征级增强、多头伪标签和损失计算四个过程。
[0030]
帧级增强包括以下步骤:
[0031]
步骤1:对无标注视频进行随机采样,获得原始rgb模态的视频片段xv∈r
t
×h×w×3和梯度模态的视频片段xg∈r
t
×h×w×3作为输入数据,其中每一视频片段分别包含t张分辨率为h
×
w的帧图像,v表示rgb模态,g表示梯度模态。
[0032]
步骤2:对两种视频片段分别进行帧级强/弱增强,将增强后的片段输入至双模态特征编码器,获得对应的帧级弱增强特征zw∈r
t
×h×w×c和帧级强增强特征zs∈r
t
×h×w×c,即:
[0033][0034][0035]
其中,x为输入的视频片段(此处省略上标);为帧级弱增强,包括尺寸调整、随机裁剪和图像翻转;为帧级强增强,包括随机图像块切除和randaugment组合增强;e(
·
)为3d主干网络,具体参数见附图3;h和w表示特征空间维度大小,c表示特征通道维度大小。
[0036]
特征级增强包括以下步骤:
[0037]
步骤3:对于步骤2得到的增强特征zw和zs,先采用时序平均池化操作对特征上每个元素的激活度进行平均,再利用特征扰动器对平均后的特征进行扰动,即:
[0038][0039][0040]
其中,z
w_p
为帧级-特征级弱增强特征,z
s_p
为帧级-特征级强增强特征,tap为时序平均池化操作,为特征扰动器,包括空间特征丢弃、噪声干扰和特征翻转。
[0041]
多头伪标签包括以下步骤:
[0042]
步骤4:将步骤2和步骤3得到的多种增强特征{zw,zs,z
w_p
,z
s_p
}输入至分类头,以计算相应的类别分布预测{pw,ps,p
w_p
,p
s_p
},即:
[0043]
p=fc(avgpool(z))
[0044]
其中,fc(
·
)为全连接层,avgpool(
·
)为3d自适应平均池化层,p为类别分布预测(此处省略上标和下标),z为输入的增强特征(此处省略上标和下标)。
[0045]
对应rgb模态,即得到对应梯度模态,即得到
[0046]
步骤5:将步骤4得到的rgb模态和梯度模态分别对应的帧级弱增强类别分布预测
和进行特征融合,即:
[0047][0048]
其中,为融合后的特征,agg(
·
)为平均操作。
[0049]
步骤6:将步骤5得到的经argmax操作得到对应的伪标签并根据预先设置的阈值计算一个训练批次中置信度大于阈值的伪标签集合以过滤置信度较低的预测结果,即:
[0050][0051]
其中,τ为预先设置的阈值,在本实施例中设置τ=0.3。
[0052]
步骤7:将步骤6得到的伪标签对步骤4得到的ps,p
w_p
,p
s_p
进行约束,分别计算无监督损失。
[0053]
根据ps计算帧级强增强流的损失
[0054][0055]
其中,bu为一个训练批次中无标注视频数量,为交叉熵损失函数。相似地,根据p
w_p
计算帧级-特征级弱增强流的损失根据p
s_p
计算帧级-特征级强增强流的损失即:
[0056][0057][0058]
损失计算包括以下步骤:
[0059]
步骤8:参照步骤1,对有标注视频获取两种模态的视频片段,参照步骤2进行帧级弱增强后依次经过双模态特征编码器和分类头,并根据真实标签分别计算两种模态的有监督分类损失即和
[0060][0061][0062]
其中,b
l
为一个训练批次中有标注视频数量,f(
·
)=fc(avgpool(e(
·
))),y为真实标签。
[0063]
步骤9:根据步骤8得到的和计算完整有监督分类损失最后与步骤7得到的无监督约束损失按权重进行相加,得到最终模型损失以优化网络,即:
[0064]
[0065]
其中,α,β,γ是平衡三个损失的权重参数,本实施例中分别设置为2,2和1。
[0066]
为解决半监督动作识别中利用帧级增强对无标注数据进行表征一致性学习的局限性,本发明探索渐进式帧级和特征级的增强机制,在更广泛的扰动空间中对无标注视频进行多样性变换,并采用一致性约束使得模型利用表征不变性学到到更鲁棒的动作表征,加强模型在复杂和动态的视频场景中的泛化性。
[0067]
图4为本发明与现有方法的结果比较,以top-1准确率作为评价指标,最好的结果通过加粗标记,排名第二位的用下划线标记。
[0068]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种基于帧级和特征级增强的半监督动作识别训练方法,其特征在于,包括:步骤1:对无标注视频进行随机采样,获得原始rgb模态和梯度模态视频片段作为输入数据;对两种视频片段分别进行帧级弱增强和帧级强增强,将增强后的片段输入至双模态特征编码器,获得对应的帧级弱增强特征和帧级强增强特征;步骤2:将帧级增强后的特征进行时序平均池化操作,再利用特征扰动器对平均后的特征进行扰动,得到对应的帧级-特征级弱增强特征和帧级-特征级强增强特征;步骤3:将步骤1和步骤2得到的特征分别经过分类头得到相应的类别分布预测,然后将rgb模态和梯度模态分别对应的帧级弱增强类别分布预测进行特征融合后计算伪标签,并获得伪标签置信度大于阈值的伪标签集合,再计算所述伪标签集合内无标注视频的无监督约束损失;步骤4:将有标注视频的类别分布预测与真实标签计算有监督分类损失,并与步骤3得到的无监督约束损失按权重进行相加,得到最终模型损失以优化网络。2.根据权利要求1所述的基于帧级和特征级增强的半监督动作识别训练方法,其特征在于,所述步骤1中,所述帧级弱增强尺寸调整、随机裁剪和图像翻转,所述帧级强增强包括随机图像块切除和randaugment组合增强。3.根据权利要求1所述的基于帧级和特征级增强的半监督动作识别训练方法,其特征在于,所述步骤1中,所述特征扰动器包括空间特征丢弃、噪声干扰和特征翻转。4.根据权利要求1所述的基于帧级和特征级增强的半监督动作识别训练方法,其特征在于,所述步骤3中,计算所述伪标签集合内无标注视频的无监督约束损失包括:根据帧级强增强特征对应的类别分布预测p
s
计算帧级强增强流的损失计算帧级强增强流的损失其中,p
s
为帧级强增强特征对应的类别分布预测,b
u
为一个训练批次中无标注视频数量,为交叉熵损失函数,为伪标签,为rgb模态的帧级强增强特征对应的类别分布预测,为梯度模态的帧级强增强特征对应的类别分布预测;根据帧级-特征级弱增强特征对应的类别分布预测p
w_p
计算帧级-特征级弱增强流的损失根据帧级-特征级强增强特征对应的类别分布预测p
s_p
计算帧级-特征级强增强流的损失即:即:其中,为rgb模态的帧级-特征级弱增强特征对应的类别分布预测,为梯度模态的帧级-特征级弱增强特征对应的类别分布预测;为rgb模态的帧级-特征级强增强特征对应的类别分布预测,为梯度模态的帧级-特征级强增强特征对应的类别分布预测。
5.根据权利要求4所述的基于帧级和特征级增强的半监督动作识别训练方法,其特征在于,所述步骤4中,计算得到的有监督分类损失为与步骤3得到的无监督约束损失按权重进行相加,得到最终模型损失以优化网络,即:其中,α,β,γ是平衡三个损失的权重参数。
技术总结
本发明公开了一种基于帧级和特征级增强的半监督动作识别训练方法,包括渐进式增强和多头伪标签两部分,使模型在复杂多变的视频场景下仍能学习到鲁棒的动作表征。渐进式增强模块先在帧级对视频片段进行弱/强增强,继而在特征级进行特征扰动操作,实现了在更广泛的扰动空间中对无标注视频进行多样性变换,弥补了单一帧级增强变换效果受限的缺陷。多头伪标签模块使得帧级强增强、帧级-特征级弱增强和帧级-特征级强增强特征特征与帧级弱增强特征对齐,使多种特征间距离最小化,充分发挥了表征一致性约束以学习到更丰富而鲁棒的动作表征。一致性约束以学习到更丰富而鲁棒的动作表征。一致性约束以学习到更丰富而鲁棒的动作表征。
技术研发人员:舒祥波 涂哲维
受保护的技术使用者:南京理工大学
技术研发日:2023.06.06
技术公布日:2023/9/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
