动作计时计数方法、装置、电子设备及机器可读存储介质与流程

未命名 07-20 阅读：148 评论：0

1.本技术涉及深度学习技术领域，尤其涉及一种动作计时计数方法、装置、电子设备及机器可读存储介质。

背景技术：

2.随着近些年互联网，尤其是移动互联网、人工智能技术的快速发展，信息化已经渗透到了社会的各个领域和人们日常生活的方方面面。例如，在学校体育、学生体质健康测试等领域，可以对学生的考核项目，如跳绳、引体向上等动作进行自动计数。
3.常规动作计数方案主要包括：基于传感器的动作计数方法和基于视觉的动作计数方法。基于传感器的动作计数方法其优点主要是计数准确率高，但其受限于场景或者是工具，人工成本较大、效率低，且动作训练考核结果无法回溯，无法进行姿态矫正，考核过程容易作弊。基于视觉的动作计数方法能够进行结果回溯和动作矫正，但其需为每个动作训练不同的特征提取模型对不同的动作进行分类，功能拓展性差，不便于功能复用。

技术实现要素：

4.有鉴于此，本技术提供一种动作计时计数方法、装置、电子设备及机器可读存储介质。
5.具体地，本技术是通过如下技术方案实现的：
6.根据本技术实施例的第一方面，提供一种动作计时计数方法，包括：
7.获取待检测视频，并对所述待检测视频进行目标检测追踪；
8.利用训练好的姿态估计模型，提取视频帧中的检出目标的骨骼关键点，并依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量；其中，所述空间向量用于判断动作姿态，所述运动向量用于描述动作运动状态；
9.依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征；其中，所述标准动作底库中存储有标准动作特征以及标准动作特征的标签，所述标准动作特征包括标准动作的不同状态的空间向量和运动向量；
10.依据查询结果确定该视频帧对应的标签；
11.依据所述待检测视频对应的标签序列，进行动作计时计数。
12.根据本技术实施例的第二方面，提供一种动作计时计数装置，包括：
13.获取单元，用于获取待检测视频；
14.检测单元，用于对所述待检测视频进行目标检测追踪；
15.提取单元，用于利用训练好的姿态估计模型，提取视频帧中的检出目标的骨骼关键点；
16.第一确定单元，用于依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量；其中，所述空间向量用于判断动作姿态，所述运动向量用于描述动作运动状态；
17.查询单元，用于依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征；其中，所述标准动作底库中存储有标准动作特征以及标准动作特征的标签，所述标准动作特征包括标准动作的不同状态的空间向量和运动向量；
18.第二确定单元，用于依据查询结果确定该视频帧对应的标签；
19.计时计数单元，用于依据所述待检测视频对应的标签序列，进行动作计时计数。
20.根据本技术实施例的第三方面，提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现第一方面提供的方法。
21.根据本技术实施例的第四方面，提供一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现第一方面提供的方法。
22.本技术提供的技术方案至少可以带来以下有益效果：
23.通过对待检测视频进行目标检测追踪，利用训练好的姿态估计模型，提取视频帧中的检出目标的骨骼关键点，依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量，并依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征，依据查询结果确定该视频帧对应的标签，进而，依据待检测视频对应的标签序列，进行动作计时计数，通过引入依据骨骼关键点的坐标信息确定的空间向量和运动向量，以标准动作的不同状态的空间向量和时间向量，作为动作计时计数的通用特征模板，并通过与标准动作特征模板匹配的方式实现了通用的动作计时计数，提高了方案的功能拓展性，降低了功能复用的难度。
附图说明
24.图1是本技术示例性实施例示出的一种动作计时计数方法的流程示意图；
25.图2是本技术示例性实施例示出的一种骨骼关键点的示意图；
26.图3是本技术示例性实施例示出的一种人体姿态估计模型训练流程示意图；
27.图4是本技术示例性实施例示出的一种底库构建流程示意图；
28.图5是本技术示例性实施例示出的一种动作计时计数流程示意图；
29.图6a是本技术示例性实施例示出的一种引体向上动作拆解示意图；
30.图6b是本技术示例性实施例示出的一种引体向上动作计数的标签序列示意图；
31.图7是本技术示例性实施例示出的一种动作计时计数装置的结构示意图；
32.图8是本技术示例性实施例示出的另一种动作计时计数装置的结构示意图；
33.图9是本技术示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
34.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
35.在本技术使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。
36.为了使本领域技术人员更好地理解本技术实施例提供的技术方案，并使本技术实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本技术实施例中技术方案作进一步详细的说明。
37.请参见图1，为本技术实施例提供的一种动作计时计数方法的流程示意图，如图1所示，该动作计时计数方法可以包括以下步骤：
38.步骤s100、获取待检测视频，并对待检测视频进行目标检测追踪。
39.示例性的，待检测视频可以包括实时采集的视频数据或录像视频数据。
40.以实时采集为例，应用本技术实施例提供的动作计时计数方案进行动作计时计数的终端设备，可以通过设备自带的视频采集设备或外界的视频采集设备，进行待检测视频采集。
41.示例性的，该终端设备可以包括但不限于智能手机或平板电脑等。上述视频采集设备可以为智能手机或平板电脑的摄像头。
42.本技术实施例中，可以对获取到的待检测视频进行目标检测，并对检出目标进行追踪，确定同一检出目标在不同视频帧中的位置。
43.步骤s110、利用训练好的姿态估计模型，提取视频帧中的检出目标的骨骼关键点，并依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量。
44.本技术实施例中，在视频帧中存在检出目标的情况下，可以利用训练好的姿态估计模型，提取视频帧中的检出目标的骨骼关键点，并依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量。
45.其中，空间向量提供静态信息，用于判断动作姿态。示例性的，空间向量可以依据单个视频帧中骨骼关键点的坐标信息确定。
46.运动向量提供动态信息，用于描述动作运动状态。示例性的，运动向量可以依据视频帧以及视频帧的相邻视频帧中相同位置的骨骼关键点的坐标信息确定。
47.以引体向上动作为例，空间向量可以用于判断动作姿态为双手伸直状态或下颚过杆状态；运动向量可以用于判断身体处于向上运动状态或向下运动状态。
48.示例性的，骨骼关键点可以包括骨骼关节点在视频图像中对应的坐标点。
49.骨骼关键点的坐标信息可以为骨骼关键点的图像坐标信息(如像素坐标信息)。
50.需要说明的是，对于视频采集设备固定部署的场景，骨骼关键点的坐标信息也可以为骨骼关键点的相机坐标信息(即视频采集设备坐标系中的坐标信息)。
51.步骤s120、依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征；其中，标准动作底库中存储有标准动作特征以及标准动作特征的标签，标准动作特征包括标准动作的不同状态的空间向量和运动向量。
52.本技术实施例中，可以依据需要进行计时计数动作的标准动作的视频数据，构建标准动作底库，该标准动作底库中可以存储有标准动作特征以及标准动作特征的标签。
53.其中，标准动作特征可以包括标准动作的不同状态的空间向量和运动向量。
54.以需要计时计数动作为引体向上动作为例，标准动作的不同状态可以包括标准引
体向上动作的不同状态，如双手伸直状态、下颚过杆状态等。
55.可以依据标准动作不同状态下的视频数据，确定标准动作的不同状态的空间向量和运动向量，并生成对应的标准动作特征。
56.示例性的，标准动作特征的标签用于标准动作的状态进行标识。
57.例如，引体向上动作中双手伸直状态的标签可以为0，下颚过杆状态的标签可以为1。
58.示例性的，可以分别为不同类型的动作，构建不同的标准动作底库。
59.例如，对于跳绳动作和引体向上动作，可以分别构建不同的标准动作底库。
60.本技术实施例中，在按照上述方式确定了视频帧对应的空间向量和运动向量的情况下，可以依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的标准动作特征(可以称为目标标准动作特征)。
61.示例性的，在进行目标标准动作特征查询时，可以依据当前动作的动作类型，从该动作类型对应的标准动作底库中查询目标标准动作特征。
62.示例性的，动作类型可以依据检测到的动作类型选择指令确定。
63.例如，应用本技术实施例提供的动作计时计数方案进行动作计时计数的终端设备可以提供动作类型选择界面，以便用户在该选择界面中选择动作类型，并根据用户的选择指令，确定选中的动作类型。
64.步骤s130、依据查询结果确定该视频帧对应的标签。
65.本技术实施例中，可以依据目标标准动作特征的查询结果，确定该视频帧对应的标签。
66.步骤s140、依据待检测视频对应的标签序列，进行动作计时计数。
67.本技术实施例中，对于待检测视频中的任一视频帧，可以按照步骤s110～s130中描述的方式，确定该视频帧对应的标签，进而，可以依据待检测视频对应的标签序列，进行动作计时计数(计时和/或计数)。
68.需要说明的是，在本技术实施例中，在视频帧中存在多个检出目标的情况下，对于任一检出目标，均可以按照上述实施例中描述的方式进行动作计时计数，或者，可以从该多个检出目标中确定需要进行动作计时计数的检出目标，并按照上述实施例中描述的方式对该检出目标进行动作计时计数。例如，可以依据接收到的选择指令，确定需要进行动作计时计数的检出目标，其具体实现不做限定。
69.可见，在图1所示方法流程中，通过对待检测视频进行目标检测追踪，利用训练好的姿态估计模型，提取视频帧中的检出目标的骨骼关键点，依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量，并依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征，依据查询结果确定该视频帧对应的标签，进而，依据待检测视频对应的标签序列，进行动作计时计数，通过引入依据骨骼关键点的坐标信息确定的空间向量和运动向量，以标准动作的不同状态的空间向量和时间向量，作为动作计时计数的通用特征模板，并通过与标准动作特征模板匹配的方式实现了通用的动作计时计数，提高了方案的功能拓展性，降低了功能复用的难度。
70.在一些实施例中，上述依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量，可以包括：
71.依据该视频帧中所提取出的骨骼关键点中相邻骨骼点的坐标信息，确定该视频帧对应的空间向量；以及，
72.依据该视频帧中所提取出的骨骼关键点，以及，该视频帧的相邻视频帧中所提取出的骨骼关键点中，相同部位的骨骼关键点的坐标信息，确定该视频帧对应的运动向量。
73.示例性的，视频帧中对应的空间向量可以依据该视频帧中所提取出的骨骼关键点中相邻骨骼点的坐标信息确定。
74.以图2所示骨骼关键点为例，该视频帧对应的空间向量可以依据相邻骨骼点的坐标信息确定。例如，依据关键点0的坐标信息和关键点1坐标信息确定的空间向量、依据关键点1的坐标信息和关键点2的坐标信息确定的空间向量、依据关键点1的坐标信息和关键点2的坐标信息确定的空间向量、
…
、依据关键点11的坐标信息和关键点13的坐标信息确定的空间向量等。
75.其中，假设关键点2的坐标为k2(x2，y2)，关键点4的坐标为k4(x4，y4)，则关键点2和关键点4对应的空间向量可用v＝(x
4-x2，y
4-y2)表示。
76.示例性的，视频帧中对应的运动向量可以依据该视频帧中所提取出的骨骼关键点，以及，该视频帧的相邻视频帧的骨骼关键点中，相同部位的骨骼点的坐标信息确定。
77.例如，假设当前视频帧为第i帧，该视频帧中左肩的关键点为第i-1帧左肩的关键点为第i+1帧左肩的关键点为则当前视频帧左肩对应的运动向量可以用和表示。
78.示例性的，在进行目标标准特征查询的过程中，可以将该视频帧中所有骨骼关键点对应的空间向量进行拼接，以及将所有骨骼关键点对应运动向量进行拼接，然后进行目标标准特征的查询。
79.在一些实施例中，上述依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征，可以包括：
80.对于任一标准动作特征，分别确定该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离，以及，该视频帧对应的运动向量与该标准动作特征包括的运动向量之间的距离；
81.在该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离小于第一距离阈值，且该视频帧对应的运动向量与该标准动作特征包括的运动向量之间的距离小于第二距离阈值的情况下，确定该标准动作特征为与该视频帧匹配的目标标准动作特征。
82.示例性的，在查询目标标准动作特征的过程中，可以分别确定该视频帧对应的空间向量与各标准动作特征包括的空间向量之间的距离(如余弦距离)，以及，确定该视频帧对应的运动向量与各标准动作特征包括的运动向量之间的距离。
83.示例性的，可以遍历标准动作底库中的各标准动作特征，对于所遍历的标准动作特征，可以分别确定该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离，以及，该视频帧对应的运动向量与该标准动作特征包括的运动向量之间的距离。
84.在该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离小于距离阈值(可以称为第一距离阈值)，且该视频帧对应的运动向量与该标准动作特征包括的
运动向量之间的距离小于距离阈值(可以称为第二距离阈值)的情况下，确定该标准动作特征为与该视频帧匹配的目标标准动作特征。
85.在一些实施例中，上述依据查询结果确定该视频帧对应的标签，包括：
86.在查询到与该视频帧匹配的目标标准动作特征的情况下，依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定该视频帧对应的标签；
87.在未查询到与该视频帧匹配的目标标准动作特征的情况下，确定该视频帧对应的标签为中间状态标签。
88.示例性的，考虑到标准动作底库中保存的标准动作特征通常为标准动作的部分状态的标准动作特征。
89.以引体向上动作为例，在进行标准动作特征存储时，通常会保存双手伸直状态下的特征(如上述空间向量和运动向量)以及下颚过杆状态下的特征，而完整的引体向上动作还会包括该两个状态之间的中间状态，该中间状态的特征与该两个状态的特征均可能会存在较为明显的差异。
90.因而，在按照上述方式从标准动作底库中查询与该视频帧匹配的目标标准动作特征的情况下，查询结果可以包括查询到与该视频帧匹配的目标标准动作特征或未查询到与该视频帧匹配的目标标准动作特征。
91.在查询到与该视频帧匹配的目标标准动作特征的情况下，可以依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定该视频帧对应的标签。
92.在未查询到与该视频帧匹配的目标标准动作特征的情况下，可以确定该视频帧对应的标签为中间状态(也可以称为背景状态)标签。
93.仍以引体向上动作为例，假设双手伸直状态的标签为0，下颚过杆状态的标签为1，则中间状态的标签可以为0和1之外的标签，如-1。
94.在一个示例中，上述依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定该视频帧对应的标签，可以包括：
95.依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定各标签的匹配次数，并将匹配次数最多的标签，确定为该视频帧对应的标签。
96.示例性的，考虑到不同目标做相同动作时可能也会存在一定的差异，因而，为了提高动作计时计数的准确性，在构建标准动作底库的情况下，对于同一动作，同一标签的标准动作特征可以包括多个不同目标做该动作时的标准动作特征。
97.相应地，标准动作底库中可以包括多个相同标签的标准动作特征。
98.仍以上述引体向上动作为例，标签为1的标准动作特征和标签为0的标准动作特征均可以为多个。例如，标准动作底库中标签为1的标准动作特征和标签为0的标准动作特征的数量均可以为50个。
99.此外，考虑到在目标标准动作特征查询的过程中，所确定的目标标准动作特征可能会存在错误，导致单次目标标准动作特征的查询结果可能会存在错误，因而，为了提高视频帧对应的标签的确定的准确率，可以将视频帧对应的空间向量和运动向量分别与标准动作底库中的各标准动作特征均进行比较，确定目标标准动作特征，并在存在目标标准动作特征的情况下，依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定各标签的匹配次数，并将匹配次数最多的标签，确定为该视频帧对应的标签。
100.在一些实施例中，上述依据待检测视频对应的标签序列，进行动作计时计数，可以包括：
101.在依据待检测视频对应的标签序列，确定标准动作的所有状态全部发生的情况下，进行动作计时或计数。
102.示例性的，在按照上述方式确定了待检测视频对应的标签序列的情况下，可以依据所确定的标签序列，确定标准动作的所有状态(标准动作底库中记录了的状态)是否全部发生。
103.在确定标准动作的所有状态全部发生的情况下，可以进行动作计时或计数。
104.在一个示例中，在依据所述待检测视频对应的标签序列，确定标准动作的所有状态全部发生的情况下，进行动作计时或计数，包括：
105.对于标准动作包括多个不同状态的动作，在标签序列中该多个不同状态中各状态的标签按序均连续出现至少n1次的情况下，动作计数加1；n1≥2；
106.对于标准动作包括单个状态的动作，在标签序列中该状态的标签连续出现至少n2次的情况下，开始对该动作进行计时，直至该状态的标签连续至少n3次未出现时，停止计时；n2≥2，n3≥2。
107.示例性的，对于标准动作包括多个不同状态的动作(可以称为动态动作)，如跳绳或引体向上等，可以在标签序列中该多个不同状态中各状态的标签按序均出现的情况下，确定该动作发生了一次。
108.示例性的，考虑到实际场景中，在做动作的过程中，同一状态可能会在连续多帧中出现，例如，对于引体向上动作，可能会连续多帧均为双手伸直状态。
109.因而，为了避免由于标签确定错误导致的动作计数错误，提高动作计数的准确性，对于标准动作包括多个不同状态的动作，在标签序列中该多个不同状态中各状态的标签按序均连续出现至少n1次的情况下，动作计数加1；n1≥2。
110.示例性的，对于标准动作包括单个状态的动作(可以称为静止动作)，如平板支撑，可以在在标签序列中该状态的标签出现的情况下，开始对该动作进行计时，并在该状态的标签未出现时，停止计时。
111.为了避免由于标签确定错误导致的动作计数错误，提高动作计时的准确性，对于标准动作包括单个状态的动作，在标签序列中该状态的标签连续出现至少n2次的情况下，开始对该动作进行计时，直至该状态的标签连续至少n3次未出现时，停止计时；n2≥2，n3≥2。
112.在一些实施例中，上述标准动作底库可以通过以下方式构建：
113.对待计时计数动作的标准动作进行状态拆解，得到该标准动作的至少一个状态；
114.对于标准动作的任一状态对应视频帧，利用训练好的姿态估计模型提取骨骼关键点；
115.依据该视频帧中相邻骨骼关键点的坐标信息，确定该状态的空间向量；以及，
116.依据该视频帧，以及，该视频帧的相邻视频帧中，相同部位的骨骼关键点的坐标信息，确定该状态的运动向量；
117.将该状态的空间向量和运动向量，作为该状态的标准动作特征，并将该标准动作特征与该状态对应的标签绑定存储至标准动作底库。
118.示例性的，为了实现标准动作底库的构建，对于待计时计数动作，例如，引体向上、跳绳或平板支撑等，可以对其标准动作进行状态拆解。
119.例如，对于引体向上，可以包括双手伸直状态以及下颚过杆状态等；对于跳绳，可以包括向上跳起状态以及向下落下状态等。
120.示例性的，一个动作的标准动作的状态可以包括一个或多个状态。
121.例如，对于引体向上、跳绳等动态动作，标准动作的状态可以包括多个状态；对于平板支撑等静止动作，标准动作的状态可以包括一个状态。
122.对于标准动作的任一状态，可以获取对应的视频帧，并利用训练好的姿态估计模型提取骨骼关键点。
123.一方面，可以依据该视频帧中相邻骨骼关键点的坐标信息，确定该状态的空间向量。
124.另一方面，可以依据该该视频帧，以及，该视频帧的相邻视频帧中，相同部位的骨骼关键点的坐标信息，确定该状态的运动向量。
125.进而，可以将该状态的空间向量和运动向量，作为该状态的标准动作特征，并将该标准动作特征与该状态对应的标签绑定存储至标准动作库。
126.在一个示例中，本技术实施例提供的动作计时计数方法还可以包括：
127.依据标准特征底库中相同标签的状态的空间向量之间的距离，确定该标签的状态的空间向量对应的距离阈值；以及，
128.依据标准特征底库中相同标签的状态的运动向量之间的距离，确定该标签状态的的运动向量对应的距离阈值。
129.示例性的，为了提高动作状态识别的准确性和合理性，进而提高动作计时计数的准确性，可以依据标准特征底库中相同标签的状态的空间向量之间的距离(如余弦距离)，确定该标签的状态的空间向量对应的距离阈值(如上述第一距离阈值)。
130.例如，假设标签为1的标准动作特征包括标准动作特征1～3(即标准动作特征1～3对应同一标准动作的同一状态)，则可以分别计算标准动作特征1的空间向量和标准动作特征2的空间向量之间的距离、标准动作特征1的空间向量和标准动作特征3的空间向量之间的距离，以及，标准动作特征2的空间向量和标准动作特征3的空间向量之间的距离，并依据各标准动作特征的空间向量之间的距离，确定标签1的空间向量对应的距离阈值。
131.需要说明的是，由于一个状态下的空间向量通常会有多个，以图2所示骨骼关键点为例，任一状态下的空间向量可以包括关键点0和关键点1对应的空间向量、关键点1和关键点2对应的空间向量、关键点1和关键点3对应的空间向量、
…
、关键点11和关键点13对应的空间向量、关键点10和关键点12对应的空间向量等，在计算相同标签的状态的空间向量之间的距离时，需要分别计算相同标签的状态的各空间向量之间的距离，例如，在计算标准动作特征1的空间向量和标准动作特征2的空间向量之间的距离的过程中，需要分别计算标准动作特征1中关键点0和关键点1对应的空间向量与标准动作特征2中关键点0和关键点1对应的空间向量之间的距离、标准动作特征1中关键点1和关键点2对应的空间向量与标准动作特征2中关键点1和关键点2对应的空间向量之间的距离、
…
、标准动作特征1中关键点10和关键点12对应的空间向量和标准动作2中关键点10和关键点12对应的空间向量之间的距离，并将各距离的总和，确定为该两个相同标签的状态的空间向量之间的距离。
132.同理，可以依据标准特征底库中相同标签的状态的运动向量之间的距离，确定该标签的状态的运动向量对应的距离阈值(如上述第二距离阈值)。
133.为了使本领域技术人员更好地理解本技术实施例提供的技术方案，下面结合具体实施例对本技术实施例提供的技术方案进行说明。
134.在该实施例中，以人体动作计时计数为例。
135.在该实施例中，动作计时计数实现流程可以包括三个部分：人体姿态估计模型训练、底库构建(标准动作底库构建)以及动作计时计数。
136.下面分别对各部分进行说明。
137.一、人体姿态估计模型训练
138.示例性的，人体姿态估计模型可以为卷积神经网络，例如，可以选用hrnet作为人体姿态估计模型进行训练。
139.示例性的，如图3所示，人体姿态估计模型训练流程可以包括：
140.s300、人体骨骼关键点数据标定。
141.示例性的，人体骨骼关键点标定的示意图可以如图2所示。
142.s310、利用标定好的数据，对初始模型进行训练，得到训练好的人体姿态估计模型。
143.示例性，在模型训练过程中，可以依据模型预测出的人体骨骼关键点与标定好的人体骨骼关键点之间的坐标差异，对模型进行反馈优化，直至训练到模型收敛。
144.二、底库构建
145.如图4所示，底库构建流程可以包括：
146.s400、对待计时计数动作的标准动作进行状态拆解。
147.例如：将引体向上过程拆解成双手伸直和下颚过杆两个状态，其示意图可以如图6a所示。
148.s410、使用人体姿态估计模型提取标准动作不同状态的人体骨骼关键点，确定标准动作不同状态下的空间向量和运动向量，并将不同状态下的空间向量和运动向量作为标准动作特征，与该状态对应的标签绑定存储至底库。
149.示例性的，可以将视频帧中相邻骨骼关键点坐标转换为空间向量，用于表征当前动作姿态；将视频帧与相邻视频帧的相同部位的骨骼关键点坐标转换为运动向量，用于描述动作运动状态，将空间向量和运动向量(可以称为时空向量)作为当前状态的标准动作特征，并与标签绑定存储到底库中。
150.例如，假设人体左肩的关键骨骼点坐标为k2(x2，y2)，左肘的关键骨骼点坐标为k4(x4，y4)，则左肩到左肘可用空间向量v＝(x
4-x2，y
4-y2)表示。假设第i帧人体左肩的骨骼关键点为第i-1帧人体左肩的骨骼关键点为第i+1帧人体左肩的骨骼关键点为则当前状态人体左肩的运动信息可用运动向量和运动向量表示。将所有骨骼关键点的空间向量和运动向量拼接即得到用于匹配的特征模板。
151.s420、计算底库内相同标签特征的余弦距离，取平均值后作为当前标签的阈值。
152.例如，将引体向上动作中所有的双手伸直状态提取空间向量和运动向量后，分别
计算余弦距离，最后将所有余弦距离的均值作为双手伸直状态的阈值。
153.举例来说，假设视频帧1和视频帧2均为双手伸直状态对应的视频帧，双手伸直状态下空间向量包括空间向量1～空间向量3，则可以分别计算视频帧1中空间向量1和视频帧2中空间向量1之间的余弦距离(假设为余弦距离1)、视频帧1中空间向量2和视频帧2中空间向量2之间的余弦距离(假设为余弦距离2)，以及，视频帧1中空间向量3和视频帧2中空间向量3之间的余弦距离(假设为余弦距离3)，并将余弦距离1、余弦距离2以及余弦距离3的总和，确定为视频帧1的空间向量与视频帧2的空间向量之间的余弦距离(假设为余弦距离12)。
154.若双手伸直状态对应的视频帧还包括视频帧3，则可以同理计算得到余弦距离13(视频帧1的空间向量与视频帧3空间向量之间的余弦距离)以及余弦距离23(视频帧2的空间向量与视频帧3空间向量之间的余弦距离)，将余弦距离12、余弦距离13以及余弦距离23的平均值作为双手伸直状态下空间向量对应的距离阈值(如上述第一距离阈值)。
155.运动向量对应的距离阈值同理可得。
156.三、动作计时计数
157.如图5所示，动作计时计数流程可以包括：
158.s500、获取待检测视频，并对待检测视频帧进行目标检测追踪。
159.s510、利用训练好的人体姿态估计模型，提取视频帧中检测目标的骨骼关键点，并依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量。
160.s520、依据该视频帧对应的空间向量和运动向量，与底库中各标准动作特征进行匹配，对匹配到的标签进行投票处理，将票数最多的标签作为该视频帧的标签。
161.示例性的，对于任一标准动作特征，若该标准动作特征包括的空间向量与该视频帧对应的空间向量之间的距离小于距离阈值(如上述第一距离阈值)，且该标准动作特征包括的运动向量与该视频帧对应的运动向量之间的距离小于距离阈值(如上述第二距离阈值)，则确定该视频帧与该标准动作特征匹配，该标准动作特征的匹配票数加1。
162.s530、通过待检测视频对应的标签序列，判断标准动作的所有状态是否全部发生进行计数或计时。
163.例如：假设引体向上双手伸直状态的标签为0，下颚过杆状态的标签为1，则可以依据状态0和状态1是否先后顺序发生，进行引体向上动作的计数。
164.如图6b所示，对于引体向上动作，在标签序列中先连续出现至少2次“1”，然后，再连续出现至少2次“0”的情况下，可以对引体向上动作的计数+1。
165.以上对本技术提供的方法进行了描述。下面对本技术提供的装置进行描述：
166.请参见图7，为本技术实施例提供的一种动作计时计数装置的结构示意图，如图7所示，该动作计时计数装置可以包括：
167.获取单元710，用于获取待检测视频；
168.检测单元720，用于对所述待检测视频进行目标检测追踪；
169.提取单元730，用于利用训练好的姿态估计模型，提取视频帧中的检出目标的骨骼关键点；
170.第一确定单元740，用于依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量；其中，所述空间向量用于判断动作姿态，所述运动向量用于描述动
作运动状态；
171.查询单元750，用于依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征；其中，所述标准动作底库中存储有标准动作特征以及标准动作特征的标签，所述标准动作特征包括标准动作的不同状态的空间向量和运动向量；
172.第二确定单元760，用于依据查询结果确定该视频帧对应的标签；
173.计时计数单元770，用于依据所述待检测视频对应的标签序列，进行动作计时计数。
174.在一些实施例中，所述第一确定单元740依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量，包括：
175.依据该视频帧中所提取出的骨骼关键点中相邻骨骼点的坐标信息，确定该视频帧对应的空间向量；以及，
176.依据该视频帧中所提取出的骨骼关键点，以及，该视频帧的相邻视频帧中所提取出的骨骼关键点中，相同部位的骨骼关键点的坐标信息，确定该视频帧对应的运动向量。
177.在一些实施例中，所述查询单元750依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征，包括：
178.对于任一标准动作特征，分别确定该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离，以及，该视频帧对应的运动向量与该标准动作特征包括的运动向量之间的距离；
179.在该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离小于第一距离阈值，且该视频帧对应的运动向量与该标准动作特征包括的运动向量之间的距离小于第二距离阈值的情况下，确定该标准动作特征为与该视频帧匹配的目标标准动作特征。
180.在一些实施例中，所述第二确定单元760依据查询结果确定该视频帧对应的标签，包括：
181.在查询到与该视频帧匹配的目标标准动作特征的情况下，依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定该视频帧对应的标签；
182.在未查询到与该视频帧匹配的目标标准动作特征的情况下，确定该视频帧对应的标签为中间状态标签。
183.在一些实施例中，所述第二确定单元760依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定该视频帧对应的标签，包括：
184.依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定各标签的匹配次数，并将匹配次数最多的标签，确定为该视频帧对应的标签。
185.在一些实施例中，所述计时计数单元770依据所述待检测视频对应的标签序列，进行动作计时计数，包括：
186.在依据所述待检测视频对应的标签序列，确定标准动作的所有状态全部发生的情况下，进行动作计时或计数。
187.在一些实施例中，所述计时计数单元770在依据所述待检测视频对应的标签序列，确定标准动作的所有状态全部发生的情况下，进行动作计时或计数，包括：
188.对于标准动作包括多个不同状态的动作，在标签序列中该多个不同状态中各状态的标签按序均连续出现至少n1次的情况下，动作计数加1；n1≥2；
189.对于标准动作包括单个状态的动作，在标签序列中该状态的标签连续出现至少n2次的情况下，开始对该动作进行计时，直至该状态的标签连续至少n3次未出现时，停止计时；n2≥2，n3≥2。
190.在一些实施例中，如图8所示，所述装置还包括：
191.构建单元780，用于通过以下方式构建标准动作底库：
192.对待计时计数动作的标准动作进行状态拆解，得到该标准动作的至少一个状态；
193.对于标准动作的任一状态对应视频帧，利用训练好的姿态估计模型提取骨骼关键点；
194.依据该视频帧中相邻骨骼关键点的坐标信息，确定该状态的空间向量；以及，
195.依据该视频帧，以及，该视频帧的相邻视频帧中，相同部位的骨骼关键点的坐标信息，确定该状态的运动向量；
196.将该状态的空间向量和运动向量，作为该状态的标准动作特征，并将该标准动作特征与该状态对应的标签绑定存储至标准动作底库。
197.在一些实施例中，所述构建单元780，还用于依据所述标准特征底库中相同标签的状态的空间向量之间的距离，确定该标签的状态的空间向量对应的距离阈值；以及，
198.依据所述标准特征底库中相同标签的状态的运动向量之间的距离，确定该标签的状态的运动向量对应的距离阈值。
199.本技术实施例提供一种电子设备，包括处理器和存储器，其中，存储器存储有能够被所述处理器执行的机器可执行指令，处理器用于执行机器可执行指令，以实现上文描述的动作计时计数方法。
200.请参见图9，为本技术实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器901、存储有机器可执行指令的存储器902。处理器901与存储器902可经由系统总线903通信。并且，通过读取并执行存储器902中与动作计时计数逻辑对应的机器可执行指令，处理器901可执行上文描述的动作计时计数方法。
201.本文中提到的存储器902可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：ram(radom access memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。
202.在一些实施例中，还提供了一种机器可读存储介质，如图9中的存储器902，该机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现上文描述的动作计时计数方法。例如，所述存储介质可以是rom、ram、cd-rom、磁带、软盘和光数据存储设备等。
203.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
204.以上所述仅为本技术的较佳实施例而已，并不用以限制本技术，凡在本技术的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术保护的范围之内。

技术特征：
1.一种动作计时计数方法，其特征在于，包括：获取待检测视频，并对所述待检测视频进行目标检测追踪；利用训练好的姿态估计模型，提取视频帧中的检出目标的骨骼关键点，并依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量；其中，所述空间向量用于判断动作姿态，所述运动向量用于描述动作运动状态；依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征；其中，所述标准动作底库中存储有标准动作特征以及标准动作特征的标签，所述标准动作特征包括标准动作的不同状态的空间向量和运动向量；依据查询结果确定该视频帧对应的标签；依据所述待检测视频对应的标签序列，进行动作计时计数。2.根据权利要求1所述的方法，其特征在于，所述依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量，包括：依据该视频帧中所提取出的骨骼关键点中相邻骨骼点的坐标信息，确定该视频帧对应的空间向量；以及，依据该视频帧中所提取出的骨骼关键点，以及，该视频帧的相邻视频帧中所提取出的骨骼关键点中，相同部位的骨骼关键点的坐标信息，确定该视频帧对应的运动向量。3.根据权利要求1所述的方法，其特征在于，所述依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征，包括：对于任一标准动作特征，分别确定该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离，以及，该视频帧对应的运动向量与该标准动作特征包括的运动向量之间的距离；在该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离小于第一距离阈值，且该视频帧对应的运动向量与该标准动作特征包括的运动向量之间的距离小于第二距离阈值的情况下，确定该标准动作特征为与该视频帧匹配的目标标准动作特征。4.根据权利要求1所述的方法，其特征在于，所述依据查询结果确定该视频帧对应的标签，包括：在查询到与该视频帧匹配的目标标准动作特征的情况下，依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定该视频帧对应的标签；在未查询到与该视频帧匹配的目标标准动作特征的情况下，确定该视频帧对应的标签为中间状态标签。5.根据权利要求4所述的方法，其特征在于，所述依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定该视频帧对应的标签，包括：依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定各标签的匹配次数，并将匹配次数最多的标签，确定为该视频帧对应的标签。6.根据权利要求1所述的方法，其特征在于，所述依据所述待检测视频对应的标签序列，进行动作计时计数，包括：在依据所述待检测视频对应的标签序列，确定标准动作的所有状态全部发生的情况下，进行动作计时或计数。7.根据权利要求6所述的方法，其特征在于，所述在依据所述待检测视频对应的标签序
列，确定标准动作的所有状态全部发生的情况下，进行动作计时或计数，包括：对于标准动作包括多个不同状态的动作，在标签序列中该多个不同状态中各状态的标签按序均连续出现至少n1次的情况下，动作计数加1；n1≥2；对于标准动作包括单个状态的动作，在标签序列中该状态的标签连续出现至少n2次的情况下，开始对该动作进行计时，直至该状态的标签连续至少n3次未出现时，停止计时；n2≥2，n3≥2。8.根据权利要求1-7任一项所述的方法，其特征在于，所述标准动作底库通过以下方式构建：对待计时计数动作的标准动作进行状态拆解，得到该标准动作的至少一个状态；对于标准动作的任一状态对应视频帧，利用训练好的姿态估计模型提取骨骼关键点；依据该视频帧中相邻骨骼关键点的坐标信息，确定该状态的空间向量；以及，依据该视频帧，以及，该视频帧的相邻视频帧中，相同部位的骨骼关键点的坐标信息，确定该状态的运动向量；将该状态的空间向量和运动向量，作为该状态的标准动作特征，并将该标准动作特征与该状态对应的标签绑定存储至标准动作底库。9.根据权利要求8所述的方法，其特征在于，所述方法还包括：依据所述标准特征底库中相同标签的状态的空间向量之间的距离，确定该标签的状态的空间向量对应的距离阈值；以及，依据所述标准特征底库中相同标签的状态的运动向量之间的距离，确定该标签的状态的运动向量对应的距离阈值。10.一种动作计时计数装置，其特征在于，包括：获取单元，用于获取待检测视频；检测单元，用于对所述待检测视频进行目标检测追踪；提取单元，用于利用训练好的姿态估计模型，提取视频帧中的检出目标的骨骼关键点；第一确定单元，用于依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量；其中，所述空间向量用于判断动作姿态，所述运动向量用于描述动作运动状态；查询单元，用于依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征；其中，所述标准动作底库中存储有标准动作特征以及标准动作特征的标签，所述标准动作特征包括标准动作的不同状态的空间向量和运动向量；第二确定单元，用于依据查询结果确定该视频帧对应的标签；计时计数单元，用于依据所述待检测视频对应的标签序列，进行动作计时计数。11.根据权利要求10所述的装置，其特征在于，所述第一确定单元依据提取出的骨骼关键点的坐标信息，确定该视频帧对应的空间向量和运动向量，包括：依据该视频帧中所提取出的骨骼关键点中相邻骨骼点的坐标信息，确定该视频帧对应的空间向量；以及，依据该视频帧中所提取出的骨骼关键点，以及，该视频帧的相邻视频帧中所提取出的骨骼关键点中，相同部位的骨骼关键点的坐标信息，确定该视频帧对应的运动向量；
和/或，所述查询单元依据该视频帧对应的空间向量和运动向量，从标准动作底库中查询与该视频帧匹配的目标标准动作特征，包括：对于任一标准动作特征，分别确定该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离，以及，该视频帧对应的运动向量与该标准动作特征包括的运动向量之间的距离；在该视频帧对应的空间向量与该标准动作特征包括的空间向量之间的距离小于第一距离阈值，且该视频帧对应的运动向量与该标准动作特征包括的运动向量之间的距离小于第二距离阈值的情况下，确定该标准动作特征为与该视频帧匹配的目标标准动作特征；和/或，所述第二确定单元依据查询结果确定该视频帧对应的标签，包括：在查询到与该视频帧匹配的目标标准动作特征的情况下，依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定该视频帧对应的标签；在未查询到与该视频帧匹配的目标标准动作特征的情况下，确定该视频帧对应的标签为中间状态标签；其中，所述第二确定单元依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定该视频帧对应的标签，包括：依据查询到的与该视频帧匹配的目标标准动作特征的标签，确定各标签的匹配次数，并将匹配次数最多的标签，确定为该视频帧对应的标签；和/或，所述计时计数单元依据所述待检测视频对应的标签序列，进行动作计时计数，包括：在依据所述待检测视频对应的标签序列，确定标准动作的所有状态全部发生的情况下，进行动作计时或计数；其中，所述计时计数单元在依据所述待检测视频对应的标签序列，确定标准动作的所有状态全部发生的情况下，进行动作计时或计数，包括：对于标准动作包括多个不同状态的动作，在标签序列中该多个不同状态中各状态的标签按序均连续出现至少n1次的情况下，动作计数加1；n1≥2；对于标准动作包括单个状态的动作，在标签序列中该状态的标签连续出现至少n2次的情况下，开始对该动作进行计时，直至该状态的标签连续至少n3次未出现时，停止计时；n2≥2，n3≥2；和/或，所述装置还包括：构建单元，用于通过以下方式构建标准动作底库：对待计时计数动作的标准动作进行状态拆解，得到该标准动作的至少一个状态；对于标准动作的任一状态对应视频帧，利用训练好的姿态估计模型提取骨骼关键点；依据该视频帧中相邻骨骼关键点的坐标信息，确定该状态的空间向量；以及，依据该视频帧，以及，该视频帧的相邻视频帧中，相同部位的骨骼关键点的坐标信息，确定该状态的运动向量；将该状态的空间向量和运动向量，作为该状态的标准动作特征，并将该标准动作特征
与该状态对应的标签绑定存储至标准动作底库；其中，所述构建单元，还用于依据所述标准特征底库中相同标签的状态的空间向量之间的距离，确定该标签的状态的空间向量对应的距离阈值；以及，依据所述标准特征底库中相同标签的状态的运动向量之间的距离，确定该标签的状态的运动向量对应的距离阈值。12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现如权利要求1-9任一项所述的方法。13.一种机器可读存储介质，其特征在于，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现如权利要求1-9任一项所述的方法。

技术总结
本申请提供一种动作计时计数方法、装置、电子设备及机器可读存储介质，该方法包括：获取目标视频；使用人体姿态估计模型提取目标的骨骼关键点信息；将骨骼关键点信息转化成时空向量特征并和标准动作底库中的特征进行检索匹配，得到标准动作不同的动作状态标签；对匹配到的不同动作状态标签进行逻辑分析，从而得到标准动作的计数计时结果。该方法具有效率高、功能拓展强等特点，可以使用通用的逻辑去获取不同动作的计数计时结果。获取不同动作的计数计时结果。获取不同动作的计数计时结果。

技术研发人员：黄球
受保护的技术使用者：杭州海康威视数字技术股份有限公司
技术研发日：2023.03.27
技术公布日：2023/7/18

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种干扰仪的制作方法 下一篇：一种便携式频率干扰仪和显示控制装置的制作方法

动作计时计数方法、装置、电子设备及机器可读存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

动作计时计数方法、装置、电子设备及机器可读存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表