一种全监督时序动作定位方法、系统、设备及介质与流程

未命名 07-27 阅读：315 评论：0

1.本发明属于计算机视觉与模式识别技术领域，特别涉及一种全监督时序动作定位方法、系统、设备及介质。

背景技术：

2.时序动作定位旨在自动地检索视频中动作的开始时间、结束时间以及预测类别；大多数现有时序动作定位方法都依赖于训练集视频的密集的动作标签。
3.目前，现有的tal(temporal action localization，时序动作定位)方法通常生成一组冗余的锚点或具有分类的建议评分，然后部署nms(non-maximum suppression，非极大值抑制)删除重复结果，定位和分类头通常独立训练，但在测试过程中复合使用；上述这种现有方式中分类分数不能总是反映时序的定位质量，对检测性能造成很大损害，会降低时序动作定位检测器的性能。
4.综上，在分类头和定位头之间建立正确的关系至关重要，亟需一种新的基于联合优化的全监督时序动作定位方法、系统、设备及介质。

技术实现要素：

5.本发明的目的在于提供一种全监督时序动作定位方法、系统、设备及介质，以解决上述存在的一个或多个技术问题。本发明公开的全监督时序动作定位方法，具体是一种基于联合优化的全监督时序动作定位方法，其利用基于联合优化的方法提出了iou感知的目标函数以及对齐权重分配策略来对分类头和定位头进行对齐，能够有效地提升全监督时序动作定位检测器的性能。
6.为达到上述目的，本发明采用以下技术方案：
7.本发明第一方面提供的一种全监督时序动作定位方法，包括以下步骤：
8.获取待时序动作定位的编码后视频特征序列，并利用骨干网络提取获得编码后视频特征序列的特征；
9.基于获得的编码后视频特征序列的特征，利用训练好的时序动作定位模型进行预测，获得分类结果和定位结果；
10.其中，所述训练好的时序动作定位模型在训练时，基于加权的损失函数进行梯度回传；
11.所述损失函数的表达式为，
[0012][0013]
式中，p∈[0,1]是预测的分类分数，是输出结果经过了一层sigmoid函数得到的；t为种类标签对应的one-hot格式，t＝1代表当前特征为主要特征，t＝0代表当前特征为背景特征；q代表iou分数代替之后的one-hot标签；
[0014]
加权是将样本权重乘以样本对应的损失函数以实现对齐权重分配，所述样本权重
ω
pos
的表达式为，
[0015]
ω
pos
＝
βω
；ω＝iou*s；
[0016]
式中，β是用于调节权重分配幅度的超参数；iou是由当前训练过程中定位头的定位结果产生的起止边界预测值与真实值的交并比，s代表分类头产生的分类分数。
[0017]
本发明方法的进一步改进在于，所述编码后视频特征序列包含每个视频片段的rgb信息和相邻片段之间的光流信息。
[0018]
本发明方法的进一步改进在于，所述骨干网络为i3d、tsp或slowfast网络。
[0019]
本发明方法的进一步改进在于，所述时序动作定位模型包括：
[0020]
特征提取模块，用于输入编码后视频特征序列的特征进行特征提取，输出提取的特征；
[0021]
样本筛选模块，用于输入所述特征输入模块输出的特征进行标签分配，获得带有标签的特征；
[0022]
分类定位融合模块，包括分类头和定位头，用于输入带有标签的特征进行分类和定位，输出分类结果和定位结果。
[0023]
本发明方法的进一步改进在于，所述特征提取模块为cnn网络或tranformer模型。
[0024]
本发明方法的进一步改进在于，所述训练好的时序动作定位模型的训练步骤包括：
[0025]
获取训练样本数据集；其中，每个训练样本均包括编码后视频特征序列的特征以及每个动作的实例级的数据标注；
[0026]
训练时，对于选定的训练样本，将选定的训练样本中的编码后视频特征序列的特征输入时序动作定位模型进行预测，获得每个的动作的开始时间、结束时间和动作种类标签预测值；基于加权的损失函数进行梯度回传，达到预设收敛条件后获得训练好的时序动作定位模型。
[0027]
本发明第二方面提供的一种全监督时序动作定位系统，包括：
[0028]
特征获取模块，用于获取待时序动作定位的编码后视频特征序列，并利用骨干网络提取获得编码后视频特征序列的特征；
[0029]
结果获取模块，用于基于获得的编码后视频特征序列的特征，利用训练好的时序动作定位模型进行预测，获得分类结果和定位结果；
[0030]
其中，所述训练好的时序动作定位模型在训练时，基于加权的损失函数进行梯度回传；
[0031]
所述损失函数的表达式为，
[0032][0033]
式中，p∈[0,1]是预测的分类分数，是输出结果经过了一层sigmoid函数得到的；t为种类标签对应的one-hot格式，t＝1代表当前特征为主要特征，t＝0代表当前特征为背景特征；q代表iou分数代替之后的one-hot标签；
[0034]
加权是将样本权重乘以样本对应的损失函数以实现对齐权重分配，所述样本权重ω
pos
的表达式为，
[0035]
ω
pos
＝
βω
；ω＝iou*s；
[0036]
式中，β是用于调节权重分配幅度的超参数；iou是由当前训练过程中定位头的定位结果产生的起止边界预测值与真实值的交并比，s代表分类头产生的分类分数。
[0037]
本发明第三方面提供的一种电子设备，包括：
[0038]
至少一个处理器；以及，
[0039]
与所述至少一个处理器通信连接的存储器；其中，
[0040]
所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本发明第一方面任一项所述的全监督时序动作定位方法。
[0041]
本发明第四方面提供的一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现本发明第一方面任一项所述的全监督时序动作定位方法。
[0042]
与现有技术相比，本发明具有以下有益效果：
[0043]
为解决一个在时序动作定位任务未被探索的问题，即如何解决时序动作两个子任务的不匹配导致的性能下降问题；本发明具体提供了一种全监督时序动作定位方法，具体是一种基于联合优化的全监督时序动作定位方法，其利用基于联合优化的方法提出了iou感知的目标函数以及对齐权重分配策略来对分类头和定位头进行对齐，能够有效地提升全监督时序动作定位检测器的性能。具体解释性的，本发明的损失函数建立了分类和定位任务之间的密切关系；其中，为了合并两个子任务检测头，本发明利用正样本的iou分数而不是传统的one-hot标签来学习；同时，在训练过程中学习更多重要的锚点，探索了一个新的加权范式(也即对齐加权)，以指定具有较高分类和本地化分数的建议；本发明这种联合训练方式能够有效减弱时序动作定位中两个子任务的不对齐问题，并放大利用关键样本的能力，最终能够有效地提升全监督时序动作定位检测器的性能。
附图说明
[0044]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0045]
图1是本发明实施例提供的一种全监督时序动作定位方法的流程示意图；
[0046]
图2是本发明实施例中，时序动作定位模型的架构示意图；
[0047]
图3是本发明实施例中，阐述研究动机的示意图；
[0048]
图4是本发明实施例中，分类头目标函数的三维函数对比示意图；
[0049]
图5是本发明实施例中，在thumos14数据集上的部分检测结果示意图；
[0050]
图6是本发明实施例中，在thumo14数据集上统计的总体结果示意图；其中，图6中(a)为baseline的错误率统计示意图，图6中(b)为本发明实施例方法的错误率统计示意图；
[0051]
图7是本发明实施例提供的一种全监督时序动作定位系统的示意图。
具体实施方式
[0052]
为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是
本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
[0053]
需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0054]
下面结合附图对本发明做进一步详细描述：
[0055]
请参阅图1，本发明实施例提供的一种全监督时序动作定位方法，包括以下步骤：
[0056]
步骤1，获取待时序动作定位的编码后视频特征序列；基于获得的编码后视频特征序列，利用骨干网络提取获得编码后视频特征序列的特征；
[0057]
步骤2，基于步骤1获得的特征，利用训练好的时序动作定位模型进行预测，获得分类结果和定位结果；
[0058]
其中，所述训练好的时序动作定位模型在训练时，基于加权的损失函数进行梯度回传；
[0059]
所述损失函数的表达式为，
[0060][0061]
式中，p∈[0,1]是预测的分类分数，是输出结果经过了一层sigmoid函数得到的；t为种类标签对应的one-hot格式，t＝1代表当前特征为主要特征，t＝0代表当前特征为背景特征；q代表iou分数代替之后的one-hot标签；
[0062]
加权是将样本权重乘以样本对应的损失函数以实现对齐权重分配，所述样本权重ω
pos
的表达式为，
[0063]
ω
pos
＝
βω
；ω＝iou*s；
[0064]
式中，β是用于调节权重分配幅度的超参数；iou是由当前训练过程中定位头的定位结果产生的起止边界预测值与真实值的交并比，s代表分类头产生的分类分数。
[0065]
本发明实施例中，提出一种新的联合优化的方法，对时序动作定位中的分类子任务和定位子任务建立正确的联系，从而得到定位信息感知的分类分数用于最终的非极大值抑制环节，进而消除训练阶段和测试阶段的误差，最终得到正确的测试结果。由于在训练过程中分类和定位头的差异性质，定位特征和分类的特征分布不尽相同，因此设计一个对齐权重对整体样本进行筛选，以便去除掉那些对模型会产生极大负面影响的样本。
[0066]
本发明实施例的步骤1中，所述获取待时序动作定位的编码后视频特征序列的步骤具体包括：
[0067]
将时序动作定位的原始未剪辑的视频序列分解为若干个视频片段，每个视频片段包含原始视频序列固定长度的连续帧；
[0068]
利用一个预训练好的特征提取器编码每个视频片段，获得编码后的视频特征序
列；其中，所述编码后的视频特征序列包含每个视频片段的rgb信息和相邻片段之间的光流信息。示例性的，编码后的视频特征序列表示为其中，f
t
表示第t个视频片段的特征向量，t表示视频片段的总数量。
[0069]
本发明实施例的步骤1中，骨干网络可为i3d、tsp或slowfast网络。
[0070]
本发明实施例的步骤2中，所述时序动作定位模型的架构包括：
[0071]
特征提取模块，可为cnn网络或tranformer模型，用于输入编码后视频特征序列的特征进行特征提取，输出提取的特征；
[0072]
样本筛选模块，用于输入所述特征输入模块输出的特征进行标签分配，获得带有标签的特征；
[0073]
分类定位融合模块，包括分类头和定位头，用于输入带有标签的特征进行分类和定位，输出分类结果和定位结果。
[0074]
本发明实施例的步骤2中，所述训练好的时序动作定位模型的训练步骤包括：
[0075]
获取训练样本数据集；其中，每个训练样本均包括：编码后视频特征序列的特征，每个动作的实例级的数据标注(即每个的动作的开始时间、结束时间和动作种类标签)；具体示例性的，时序动作定位数据集的标注格式为其中n代表数据集合中的视频数量；已知一个标注数据集中的视频，它包含的一组动作实例，每个动作的标注都可以表示为(ts，te，c)，其中ts、te和c分别表示该动作实例的开始时间、结束时间和动作类别；
[0076]
训练时，对于选定的训练样本，将选定的训练样本中的编码后视频特征序列的特征输入时序动作定位模型进行预测，获得每个的动作的开始时间、结束时间和动作种类标签预测值；基于加权的损失函数进行梯度回传，达到预设收敛条件获得训练好的时序动作定位模型；
[0077]
本发明实施例中，基于iou分数感知的分类目标函数，在分类头的目标函数中添加定位头的回归信息即所述的iou分数建立正确的分类头和定位头的联系；基于对齐权重分类策略，利用训练中得到的分类和定位结果对下一轮的样本权重筛选进行分配，最终生成的权重是以系数的方式分配到最终的各个目标函数上面。
[0078]
请参阅图1至图4，本发明实施例提供的一种基于联合优化的全监督时序动作定位方法，包括以下步骤：
[0079]
步骤1，已知一个未剪辑的视频序列，为降低计算量，将所述未剪辑的视频序列分解为若干个视频片段，每个视频片段包含视频固定长度的连续帧。本发明实施例具体示例性的，利用一个预训练好的双流网络作为特征提取器编码每个视频片段，进而得到一个编码后的视频特征序列；最终获得特征编码后的训练视频集和测试视频集。
[0080]
步骤2，已知步骤1中得到的视频特征序列，将其输入到本发明实施例中设计的时序动作定位模型中，最终输出相应的检测结果；模型架构示例性的如图2所示；
[0081]
本发明实施例的步骤1中，利用一个预训练好的双流网络作为特征提取器编码每个视频片段，进而得到一个编码后的视频特征序列的具体步骤包括：
[0082]
步骤1.1，已知一个未剪辑的视频序列，将视频序列分解为t个互不重叠的片段，作为双流网络i3d网络的输入；
[0083]
步骤1.2，为了分别探索视频序列的外观和运动信息，对原始视频序列进行编码，以生成视频表示；具体示例性的，本发明实施例利用i3d网络处理每个视频片段，并提取得
到d维的rgb特征向量和光流特征向量。
[0084]
本发明实施例的步骤2中，设计一个新的时序动作定位任务的检测器模型，是基于现有的one-stage方法进行设计的，具体可包括以下步骤：
[0085]
步骤2.1，其基础设定是给定步骤1中获取的视频特征t代表了视频特征中片段的数量，时序动作定位任务的标签可以表示为ψ
x
＝{φm,cm}，φm＝{sm,em}代表了当前视频片段的开始时间和结束时间，cm代表了当前视频片段代表的动作种类；在得到当前视频片段的特征之后，检测器模型可以预测出当前片段所处的时序边界其中分别代表了当前视频特征距离标签开始的距离和结束的距离，因此每个视频片段的预测结果就可以表示为
[0086]
步骤2.2，在上述检测器的基础上，本发明实施例中提出了一种新的定位感知的分类loss函数来对分类头和定位头建立正确的联系；具体为，使用训练中定位头给出的iou分数代替分类loss函数中的目标函数，损失函数是基于二分交叉熵损失函数的，具体为：
[0087][0088]
其中，p∈[0,1]是预测的分类分数，该分数是输出结果经过了一层sigmoid函数得到的，t为相应的种类标签对应的one-hot格式，t＝1代表了当前特征为主要特征，t＝0则代表当前特征为背景特征；q代表了相应的iou分数代替之后的one-hot标签，通过这样的形式初步建立了分类头和定位头之间的联系；如图4所示，本发明相比以往的方法，建立了分类头和定位头的之间的正确联系；
[0089]
步骤2.3，在对分类头和定位头建立了正确的联系之后，还需要解决的问题是现有的时序动作定位检测方法对于样本没有做出有效的筛选；在训练过程中，为了更好的和任务匹配，应该对正样本做出一种动态优化，由于某些样本特征在训练过程中不能得到真正的标签预测结果，这些样本特征的预测结果对最终的模型也是有害的，因此降低它们在训练中的权重是很有必要的。本发明实施例中，对齐权重策略具体表示为：构造出一个关于iou和分类分数的函数，利用这个函数值的集合对现有的样本进行权重分配，用来降低那些对模型产生较多负面影响的样本，具体包括：
[0090]
ω＝iou*s；其中，iou是由当前训练过程中回归头的定位结果产生的，s代表分类头产生的分类分数；
[0091]
得到这个分数之后，使用一个函数设计样本权重为，
[0092]
ω
pos
＝
βω
；
[0093]
其中，β是超参数用于调节权重分配的幅度；
[0094]
最终将该权重乘以该样本对应的损失函数以达到对齐权重分配的效果。
[0095]
请参阅图5和图6，本发明实施例中，使用平均精度(map)对提出的方法进行了评价，采用activitynet提供的官方评估代码来评估本发明实施例技术方案在这两个数据集上的性能。对于thumos14和activitynet v1.3，tiou阈值分别来自{0.3、0.4、0.5、0.5、0.6、0.7}和{0.5、0.75、0.95、0.95}。在activitynet v1.3上，本发明实施例报告了10个不同的tiou阈值[0.5：0.05：0.95]的map。
[0096]
表1是不同的方法在用于评价半监督时序动作定位任务的公开数据集thumos14和
activitynet v1.3上的实验结果，由表1可以看出，本发明实施例提出的基于联合优化的全监督时序动作定位方法具有明显定位性能优势。
[0097]
表1.在thumos14和activitynet v1.3数据集上与不同时序动作定位任务对比的实验结果
[0098][0099]
综上所述，本发明实施例具体公开了一种基于联合优化的全监督时序动作定位方法，属于计算机视觉与模式识别领域，其步骤包括：首先利用双流网络编码输入视频的特征序列，其包含视频内的外观特征信息和运动光流信息；随后将特征输入到发明中设计的检测器中得到期望的输出结果；其中，本发明设计两种联合优化方法：一是建立定位感知的分类损失函数，通过改变传统分类损失函数中的one-hot标签来对时序动作定位的分类子任务和定位子任务建立正确的联系；二是设计了一种新的权重分配方案，基于设计的联合的指标函数目的是降低在训练过程中，那些对模型有害的样本的负面影响。本发明实施例提出的技术方案首次针对时序动作定位任务中子任务不对齐的问题进行研究，引入两种新的联合优化的技术，解决所述问题，使得现有的方法性能大幅提升。
[0100]
下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未披露的细节，请参照本发明方法实施例。
[0101]
请参阅图7，本发明实施例提供的一种全监督时序动作定位系统，包括：
[0102]
特征获取模块，用于获取待时序动作定位的编码后视频特征序列，并利用骨干网络提取获得编码后视频特征序列的特征；
[0103]
结果获取模块，用于基于获得的编码后视频特征序列的特征，利用训练好的时序动作定位模型进行预测，获得分类结果和定位结果；
[0104]
其中，所述训练好的时序动作定位模型在训练时，基于加权的损失函数进行梯度回传；
[0105]
所述损失函数的表达式为，
[0106]
[0107]
式中，p∈[0,1]是预测的分类分数，是输出结果经过了一层sigmoid函数得到的；t为种类标签对应的one-hot格式，t＝1代表当前特征为主要特征，t＝0代表当前特征为背景特征；q代表iou分数代替之后的one-hot标签；
[0108]
加权是将样本权重乘以样本对应的损失函数以实现对齐权重分配，所述样本权重ω
pos
的表达式为，
[0109]
ω
pos
＝
βω
；ω＝iou*s；
[0110]
式中，β是用于调节权重分配幅度的超参数；iou是由当前训练过程中定位头的定位结果产生的起止边界预测值与真实值的交并比，s代表分类头产生的分类分数。
[0111]
本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于全监督时序动作定位方法的操作。
[0112]
本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关全监督时序动作定位方法的相应步骤。
[0113]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0114]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0115]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0116]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0117]
最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

技术特征：
1.一种全监督时序动作定位方法，其特征在于，包括以下步骤：获取待时序动作定位的编码后视频特征序列，并利用骨干网络提取获得编码后视频特征序列的特征；基于获得的编码后视频特征序列的特征，利用训练好的时序动作定位模型进行预测，获得分类结果和定位结果；其中，所述训练好的时序动作定位模型在训练时，基于加权的损失函数进行梯度回传；所述损失函数的表达式为，式中，p∈[0,1]是预测的分类分数，是输出结果经过了一层sigmoid函数得到的；t为种类标签对应的one-hot格式，t＝1代表当前特征为主要特征，t＝0代表当前特征为背景特征；q代表iou分数代替之后的one-hot标签；加权是将样本权重乘以样本对应的损失函数以实现对齐权重分配，所述样本权重ω
pos
的表达式为，ω
pos
＝
βω
；ω＝iou*s；式中，β是用于调节权重分配幅度的超参数；iou是由当前训练过程中定位头的定位结果产生的起止边界预测值与真实值的交并比，s代表分类头产生的分类分数。2.根据权利要求1所述的一种全监督时序动作定位方法，其特征在于，所述编码后视频特征序列包含每个视频片段的rgb信息和相邻片段之间的光流信息。3.根据权利要求1所述的一种全监督时序动作定位方法，其特征在于，所述骨干网络为i3d、tsp或slowfast网络。4.根据权利要求1所述的一种全监督时序动作定位方法，其特征在于，所述时序动作定位模型包括：特征提取模块，用于输入编码后视频特征序列的特征进行特征提取，输出提取的特征；样本筛选模块，用于输入所述特征输入模块输出的特征进行标签分配，获得带有标签的特征；分类定位融合模块，包括分类头和定位头，用于输入带有标签的特征进行分类和定位，输出分类结果和定位结果。5.根据权利要求4所述的一种全监督时序动作定位方法，其特征在于，所述特征提取模块为cnn网络或tranformer模型。6.根据权利要求1所述的一种全监督时序动作定位方法，其特征在于，所述训练好的时序动作定位模型的训练步骤包括：获取训练样本数据集；其中，每个训练样本均包括编码后视频特征序列的特征以及每个动作的实例级的数据标注；训练时，对于选定的训练样本，将选定的训练样本中的编码后视频特征序列的特征输入时序动作定位模型进行预测，获得每个的动作的开始时间、结束时间和动作种类标签预测值；基于加权的损失函数进行梯度回传，达到预设收敛条件后获得训练好的时序动作定位模型。7.一种全监督时序动作定位系统，其特征在于，包括：
特征获取模块，用于获取待时序动作定位的编码后视频特征序列，并利用骨干网络提取获得编码后视频特征序列的特征；结果获取模块，用于基于获得的编码后视频特征序列的特征，利用训练好的时序动作定位模型进行预测，获得分类结果和定位结果；其中，所述训练好的时序动作定位模型在训练时，基于加权的损失函数进行梯度回传；所述损失函数的表达式为，式中，p∈[0,1]是预测的分类分数，是输出结果经过了一层sigmoid函数得到的；t为种类标签对应的one-hot格式，t＝1代表当前特征为主要特征，t＝0代表当前特征为背景特征；q代表iou分数代替之后的one-hot标签；加权是将样本权重乘以样本对应的损失函数以实现对齐权重分配，所述样本权重ω
pos
的表达式为，ω
pos
＝
βω
；ω＝iou*s；式中，β是用于调节权重分配幅度的超参数；iou是由当前训练过程中定位头的定位结果产生的起止边界预测值与真实值的交并比，s代表分类头产生的分类分数。8.一种电子设备，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的全监督时序动作定位方法。9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的全监督时序动作定位方法。

技术总结
本发明公开了一种全监督时序动作定位方法、系统、设备及介质，属于计算机视觉与模式识别技术领域；所述全监督时序动作定位方法包括以下步骤：获取待时序动作定位的编码后视频特征序列，并利用骨干网络提取获得编码后视频特征序列的特征；基于获得的编码后视频特征序列的特征，利用训练好的时序动作定位模型进行预测，获得分类结果和定位结果。本发明公开的全监督时序动作定位方法，具体是一种基于联合优化的全监督时序动作定位方法，其利用基于联合优化的方法提出了IoU感知的目标函数以及对齐权重分配策略来对分类头和定位头进行对齐，能够有效地提升全监督时序动作定位检测器的性能。能。能。

技术研发人员：王乐宁前雄周三平陈仕韬辛景民郑南宁
受保护的技术使用者：宁波市舜安人工智能研究院
技术研发日：2023.03.29
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种全监督时序动作定位方法、系统、设备及介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种全监督时序动作定位方法、系统、设备及介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表