步态识别训练数据的生成方法、装置、电子设备及介质

未命名 07-28 阅读:88 评论:0


1.本技术涉及步态识别技术领域,尤其是涉及一种步态识别训练数据的生成方法、装置、电子设备及介质。


背景技术:

2.步态识别是最具应用价值的远距离生物识别技术之一,然而衣着、鞋帽和附属物带来的外观变化成为步态识别最大的瓶颈。具体的,在步态识别模型的训练数据中,由于各个样本行人的外观变化有限(即同一样本行人的衣着、鞋帽和附属物通常是不变的),就会导致步态识别模型无法学习到对外观变化鲁棒的整体姿态特征,从而导致识别性能下降。
3.例如,使用外观变量有限的训练数据训练得到的步态识别模型在应用过程中,在获取到目标行人的目标步态序列后,通常是通过步态识别模型从目标步态序列中提取出目标行人的目标步态特征,然后将该目标步态特征与底库中的各个步态特征进行相似度比较,判断该目标行人是否为底库中的行人。在这个过程中,若目标行人实际上是底库中的行人,但是由于目标行人的着装与底库中该行人的着装变化较大的原因,可能会导致步态识别模型提取出的目标步态特征与底库中的步态特征的区别较大,导致这两个步态特征的相似度较低,进而会影响判断目标行人是否为底库中的行人的判断结果,导致识别结果不够准确。


技术实现要素:

4.有鉴于此,本技术的目的在于提供一种步态识别训练数据的生成方法、装置、电子设备及介质,以增加模型训练样本中样本行人的外观变化,生成具有丰富外观的模型训练样本,扩充模型训练样本集合,进而提高步态识别模型的识别精度。
5.第一方面,本技术实施例提供了一种步态识别训练数据的生成方法,包括:
6.将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中,得到所述第一步态序列中每张第一步态图像帧对应的所述第一样本行人的第一姿态特征和第一外观特征,以及得到所述第二步态序列中每张第二步态图像帧对应的所述第二样本行人的第二姿态特征和第二外观特征;
7.针对每个所述第一外观特征,将该第一外观特征分别与各个所述第二姿态特征进行合并,得到该第一外观特征对应的多个第一合并特征;以及针对每个所述第二外观特征,将该第二外观特征分别与各个所述第一姿态特征进行合并,得到该第二外观特征对应的多个第二合并特征;
8.将同一所述第一外观特征对应的多个所述第一合并特征输入至预先训练好的解码器中,生成具有该第一外观特征的所述第二样本行人的第三步态序列;以及将同一所述第二外观特征对应的多个所述第二合并特征输入至所述解码器中,生成具有该第二外观特征的所述第一样本行人的第四步态序列。
9.结合第一方面,本技术实施例提供了第一方面的第一种可能的实施方式,其中,所
述将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中之前,所述方法还包括:
10.从原始训练集中获取所述第一样本行人的所述第一步态序列和所述第二样本行人的所述第二步态序列;
11.生成所述第三步态序列和所述第四步态序列之后,所述方法还包括:
12.将所述第二样本行人的所述第三步态序列和所述第一样本行人的所述第四步态序列加入到所述原始训练集中,得到新训练集;所述新训练集中包含有每个样本行人对应多个步态序列,同一样本行人对应的各个步态序列中包含各自的外观。
13.结合第一方面,本技术实施例提供了第一方面的第二种可能的实施方式,其中,所述将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中之前,所述方法还包括:
14.将第三样本行人在不同外观下的第五步态序列和第六步态序列输入至待训练的初始编码器中,得到所述第五步态序列中每张第三步态图像帧各自对应的第三外观特征和第三姿态特征,以及所述第六步态序列中每张第四步态图像帧各自对应的第四外观特征和第四姿态特征;
15.针对每个所述第三姿态特征,将该第三姿态特征分别与除该第三姿态特征之外的其他第三姿态特征所对应的各个所述第三外观特征进行合并,得到该第三姿态特征对应的多个第三合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与除该第四姿态特征之外的其他第四姿态特征所对应的各个所述第四外观特征进行合并,得到该第四姿态特征对应的多个第四合并特征;
16.针对每个所述第三姿态特征对应的每个所述第三合并特征,通过待训练的初始解码器将该第三合并特征转换为所述第三样本行人的第一合成图像帧,得到每个所述第三合并特征各自对应的第一合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第四合并特征,通过所述初始解码器将该第四合并特征转换为所述第三样本行人的第二合成图像帧;
17.针对每个所述第三姿态特征对应的每个所述第一合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第一合成图像帧在各个像素点处的像素差的第一像素平均值,得到每个所述第一合成图像帧各自对应的第一像素平均值;以及针对每个所述第四姿态特征对应的每个所述第二合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第二合成图像帧在各个像素点处的像素差的第二像素平均值,得到每个所述第二合成图像帧各自对应的第二像素平均值;
18.计算所有所述第三姿态特征对应的所有所述第一像素平均值和所有所述第四姿态特征对应的所有所述第二像素平均值的平均值,得到所述第三样本行人对应的第三像素平均值,以将所述第三像素平均值作为第一损失值;所述第一损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
19.结合第一方面的第二种可能的实施方式,本技术实施例提供了第一方面的第三种可能的实施方式,其中,所述得到所述第五步态序列中每张第三步态图像帧各自对应的第三外观特征和第三姿态特征,以及所述第六步态序列中每张第四步态图像帧各自对应的第四外观特征和第四姿态特征之后,所述方法还包括:
20.针对每个所述第三姿态特征,将该第三姿态特征分别与各个所述第四外观特征进行合并,得到该第三姿态特征对应的多个第五合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与各个所述第三外观特征进行合并,得到该第四姿态特征对应的多个第六合并特征;
21.针对每个所述第三姿态特征对应的每个所述第五合并特征,通过所述初始解码器将该第五合并特征转换为所述第三样本行人的第三合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第六合并特征,通过所述初始解码器将该第六合并特征转换为所述第三样本行人的第四合成图像帧;
22.针对每个所述第三姿态特征对应的每个所述第三合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第三合成图像帧在各个像素点处的像素差的第四像素平均值,得到每个所述第三合成图像帧各自对应的第四像素平均值;以及针对每个所述第四姿态特征对应的每个所述第四合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第四合成图像帧在各个像素点处的像素差的第五像素平均值,得到每个所述第四合成图像帧各自对应的第五像素平均值;
23.计算所有所述第三姿态特征对应的所有所述第四像素平均值和所有所述第四姿态特征对应的所有所述第五像素平均值的平均值,得到所述第三样本行人对应的第六像素平均值,以将所述第六像素平均值作为第二损失值;所述第二损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
24.结合第一方面的第三种可能的实施方式,本技术实施例提供了第一方面的第四种可能的实施方式,其中,所述方法还包括:
25.将第四样本行人的第七步态序列输入至所述初始编码器中,得到所述第七步态序列中每张第七步态图像帧各自对应的第五外观特征和第五姿态特征;
26.针对每个所述第三姿态特征,将该第三姿态特征分别与各个所述第五外观特征进行合并,得到该第三姿态特征对应的多个第七合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与各个所述第五外观特征进行合并,得到该第四姿态特征对应的多个第八合并特征;
27.针对每个所述第三姿态特征对应的每个所述第七合并特征,通过所述初始解码器将该第七合并特征转换为所述第三样本行人的第五合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第八合并特征,通过所述初始解码器将该第八合并特征转换为所述第三样本行人的第六合成图像帧;
28.将每个所述第五合成图像帧输入到所述初始编码器中,得到每个所述第五合成图像帧各自对应的第六姿态特征和第六外观特征;以及将每个所述第六合成图像帧输入到所述初始编码器中,得到每个所述第六合成图像帧各自对应的第七姿态特征和第七外观特征;
29.针对每个所述第六姿态特征,将该第六姿态特征分别与各个所述第三外观特征进行合并,得到该第六姿态特征对应的多个第九合并特征;以及针对每个所述第七姿态特征,将该第七姿态特征分别与各个所述第三外观特征进行合并,得到该第七姿态特征对应的多个第十合并特征;
30.针对每个所述第六姿态特征对应的每个所述第九合并特征,通过所述初始解码器
将该第九合并特征转换为所述第三样本行人的第七合成图像帧;以及针对每个所述第七姿态特征对应的每个所述第十合并特征,通过所述初始解码器将该第十合并特征转换为所述第三样本行人的第八合成图像帧;
31.针对每个所述第六姿态特征对应的每个所述第七合成图像帧,计算该第六姿态特征对应的第三步态图像帧与该第七合成图像帧在各个像素点处的像素差的第七像素平均值;以及针对每个所述第七姿态特征对应的每个所述第八合成图像帧,计算该第七姿态特征对应的第四步态图像帧与该第八合成图像帧在各个像素点处的像素差的第八像素平均值;
32.计算所有所述第六姿态特征对应的所有所述第七像素平均值和所有所述第七姿态特征对应的所有所述第八像素平均值的平均值,得到第九像素平均值,以将所述第九像素平均值作为第三损失值;所述第三损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
33.结合第一方面的第三种可能的实施方式,本技术实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:
34.计算所述第三样本行人的各个所述第三姿态特征的平均特征,得到第一姿态平均特征;以及计算所述第三样本行人的各个所述第四姿态特征的平均特征,得到第二姿态平均特征;
35.计算所述第一姿态平均特征与所述第二姿态平均特征的差值,得到第四损失值;所述第四损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
36.结合第一方面的第四种可能的实施方式,本技术实施例提供了第一方面的第六种可能的实施方式,其中,所述方法还包括:
37.针对所述第三样本行人的每个所述第三姿态特征,将该第三姿态特征与各个所述第五外观特征进行合并,得到该第三姿态特征对应的多个第十一合并特征;
38.通过infonce loss损失函数,使用所述第三姿态特征、所述第三外观特征和所述第十一合并特征,计算第一infonce损失值;以及通过infonce loss损失函数,使用所述第五外观特征、所述第五姿态特征和所述第十一合并特征,计算第二infonce损失值;
39.将所述第一infonce损失值和所述第二infonce损失值的和确定为第五损失值;所述第五损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
40.第二方面,本技术实施例还提供一种步态识别训练数据的生成装置,包括:
41.第一输入模块,用于将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中,得到所述第一步态序列中每张第一步态图像帧对应的所述第一样本行人的第一姿态特征和第一外观特征,以及得到所述第二步态序列中每张第二步态图像帧对应的所述第二样本行人的第二姿态特征和第二外观特征;
42.第一合并模块,用于针对每个所述第一外观特征,将该第一外观特征分别与各个所述第二姿态特征进行合并,得到该第一外观特征对应的多个第一合并特征;以及针对每个所述第二外观特征,将该第二外观特征分别与各个所述第一姿态特征进行合并,得到该第二外观特征对应的多个第二合并特征;
43.生成模块,用于将同一所述第一外观特征对应的多个所述第一合并特征输入至预先训练好的解码器中,生成具有该第一外观特征的所述第二样本行人的第三步态序列;以及将同一所述第二外观特征对应的多个所述第二合并特征输入至所述解码器中,生成具有该第二外观特征的所述第一样本行人的第四步态序列。
44.结合第二方面,本技术实施例提供了第二方面的第一种可能的实施方式,其中,还包括:
45.获取模块,用于在所述第一输入模块将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中之前,从原始训练集中获取所述第一样本行人的所述第一步态序列和所述第二样本行人的所述第二步态序列;
46.加入模块,用于在所述生成模块生成所述第三步态序列和所述第四步态序列之后,将所述第二样本行人的所述第三步态序列和所述第一样本行人的所述第四步态序列加入到所述原始训练集中,得到新训练集;所述新训练集中包含有每个样本行人对应多个步态序列,同一样本行人对应的各个步态序列中包含各自的外观。
47.结合第二方面,本技术实施例提供了第二方面的第二种可能的实施方式,其中,还包括:
48.第二输入模块,用于在第一输入模块将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中之前,将第三样本行人在不同外观下的第五步态序列和第六步态序列输入至待训练的初始编码器中,得到所述第五步态序列中每张第三步态图像帧各自对应的第三外观特征和第三姿态特征,以及所述第六步态序列中每张第四步态图像帧各自对应的第四外观特征和第四姿态特征;
49.第二合并模块,用于针对每个所述第三姿态特征,将该第三姿态特征分别与除该第三姿态特征之外的其他第三姿态特征所对应的各个所述第三外观特征进行合并,得到该第三姿态特征对应的多个第三合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与除该第四姿态特征之外的其他第四姿态特征所对应的各个所述第四外观特征进行合并,得到该第四姿态特征对应的多个第四合并特征;
50.第一转换模块,用于针对每个所述第三姿态特征对应的每个所述第三合并特征,通过待训练的初始解码器将该第三合并特征转换为所述第三样本行人的第一合成图像帧,得到每个所述第三合并特征各自对应的第一合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第四合并特征,通过所述初始解码器将该第四合并特征转换为所述第三样本行人的第二合成图像帧;
51.第一计算模块,用于针对每个所述第三姿态特征对应的每个所述第一合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第一合成图像帧在各个像素点处的像素差的第一像素平均值,得到每个所述第一合成图像帧各自对应的第一像素平均值;以及针对每个所述第四姿态特征对应的每个所述第二合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第二合成图像帧在各个像素点处的像素差的第二像素平均值,得到每个所述第二合成图像帧各自对应的第二像素平均值;
52.第二计算模块,用于计算所有所述第三姿态特征对应的所有所述第一像素平均值和所有所述第四姿态特征对应的所有所述第二像素平均值的平均值,得到所述第三样本行人对应的第三像素平均值,以将所述第三像素平均值作为第一损失值;所述第一损失值用
于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
53.结合第二方面的第二种可能的实施方式,本技术实施例提供了第二方面的第三种可能的实施方式,其中,还包括:
54.第三合并模块,用于在所述第二输入模块得到所述第五步态序列中每张第三步态图像帧各自对应的第三外观特征和第三姿态特征,以及所述第六步态序列中每张第四步态图像帧各自对应的第四外观特征和第四姿态特征之后,针对每个所述第三姿态特征,将该第三姿态特征分别与各个所述第四外观特征进行合并,得到该第三姿态特征对应的多个第五合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与各个所述第三外观特征进行合并,得到该第四姿态特征对应的多个第六合并特征;
55.第二转换模块,用于针对每个所述第三姿态特征对应的每个所述第五合并特征,通过所述初始解码器将该第五合并特征转换为所述第三样本行人的第三合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第六合并特征,通过所述初始解码器将该第六合并特征转换为所述第三样本行人的第四合成图像帧;
56.第三计算模块,用于针对每个所述第三姿态特征对应的每个所述第三合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第三合成图像帧在各个像素点处的像素差的第四像素平均值,得到每个所述第三合成图像帧各自对应的第四像素平均值;以及针对每个所述第四姿态特征对应的每个所述第四合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第四合成图像帧在各个像素点处的像素差的第五像素平均值,得到每个所述第四合成图像帧各自对应的第五像素平均值;
57.第四计算模块,用于计算所有所述第三姿态特征对应的所有所述第四像素平均值和所有所述第四姿态特征对应的所有所述第五像素平均值的平均值,得到所述第三样本行人对应的第六像素平均值,以将所述第六像素平均值作为第二损失值;所述第二损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
58.结合第二方面的第三种可能的实施方式,本技术实施例提供了第二方面的第四种可能的实施方式,其中,还包括:
59.第三输入模块,用于将第四样本行人的第七步态序列输入至所述初始编码器中,得到所述第七步态序列中每张第七步态图像帧各自对应的第五外观特征和第五姿态特征;
60.第四合并模块,用于针对每个所述第三姿态特征,将该第三姿态特征分别与各个所述第五外观特征进行合并,得到该第三姿态特征对应的多个第七合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与各个所述第五外观特征进行合并,得到该第四姿态特征对应的多个第八合并特征;
61.第三转换模块,用于针对每个所述第三姿态特征对应的每个所述第七合并特征,通过所述初始解码器将该第七合并特征转换为所述第三样本行人的第五合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第八合并特征,通过所述初始解码器将该第八合并特征转换为所述第三样本行人的第六合成图像帧;
62.第四输入模块,用于将每个所述第五合成图像帧输入到所述初始编码器中,得到每个所述第五合成图像帧各自对应的第六姿态特征和第六外观特征;以及将每个所述第六合成图像帧输入到所述初始编码器中,得到每个所述第六合成图像帧各自对应的第七姿态特征和第七外观特征;
63.第五合并模块,用于针对每个所述第六姿态特征,将该第六姿态特征分别与各个所述第三外观特征进行合并,得到该第六姿态特征对应的多个第九合并特征;以及针对每个所述第七姿态特征,将该第七姿态特征分别与各个所述第三外观特征进行合并,得到该第七姿态特征对应的多个第十合并特征;
64.第四转换模块,用于针对每个所述第六姿态特征对应的每个所述第九合并特征,通过所述初始解码器将该第九合并特征转换为所述第三样本行人的第七合成图像帧;以及针对每个所述第七姿态特征对应的每个所述第十合并特征,通过所述初始解码器将该第十合并特征转换为所述第三样本行人的第八合成图像帧;
65.第五计算模块,用于针对每个所述第六姿态特征对应的每个所述第七合成图像帧,计算该第六姿态特征对应的第三步态图像帧与该第七合成图像帧在各个像素点处的像素差的第七像素平均值;以及针对每个所述第七姿态特征对应的每个所述第八合成图像帧,计算该第七姿态特征对应的第四步态图像帧与该第八合成图像帧在各个像素点处的像素差的第八像素平均值;
66.第六计算模块,用于计算所有所述第六姿态特征对应的所有所述第七像素平均值和所有所述第七姿态特征对应的所有所述第八像素平均值的平均值,得到第九像素平均值,以将所述第九像素平均值作为第三损失值;所述第三损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
67.结合第二方面的第三种可能的实施方式,本技术实施例提供了第二方面的第五种可能的实施方式,其中,还包括:
68.第七计算模块,用于计算所述第三样本行人的各个所述第三姿态特征的平均特征,得到第一姿态平均特征;以及计算所述第三样本行人的各个所述第四姿态特征的平均特征,得到第二姿态平均特征;
69.第八计算模块,用于计算所述第一姿态平均特征与所述第二姿态平均特征的差值,得到第四损失值;所述第四损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
70.结合第二方面的第四种可能的实施方式,本技术实施例提供了第二方面的第六种可能的实施方式,其中,还包括:
71.第六合并模块,用于针对所述第三样本行人的每个所述第三姿态特征,将该第三姿态特征与各个所述第五外观特征进行合并,得到该第三姿态特征对应的多个第十一合并特征;
72.第九计算模块,用于通过infonce loss损失函数,使用所述第三姿态特征、所述第三外观特征和所述第十一合并特征,计算第一infonce损失值;以及通过infonce loss损失函数,使用所述第五外观特征、所述第五姿态特征和所述第十一合并特征,计算第二infonce损失值;
73.确定模块,用于将所述第一infonce损失值和所述第二infonce损失值的和确定为第五损失值;所述第五损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
74.第三方面,本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述
存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。
75.第四方面,本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
76.本技术实施例提供的一种步态识别训练数据的生成方法、装置、电子设备及介质,通过将第一样本行人的第一外观特征与第二样本行人的第二姿态特征进行合并,得到第二样本行人具有第一外观特征的第三步态序列(即第二样本行人换装之后的新样本);以及通过将第一样本行人的第一姿态特征与第二样本行人的第二外观特征进行合并,得到第一样本行人具有第二外观特征的第四步态序列(即第一样本行人换装之后的新样本)。通过该方法,增加了第一样本行人和第二样本行人的外观变化,有利于生成具有丰富外观的模型训练样本,扩充了模型训练样本集合,有利于提高步态识别模型的识别精度。
77.为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
78.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
79.图1示出了本技术实施例所提供的一种步态识别训练数据的生成方法的流程图;
80.图2示出了本技术实施例所提供的另一种步态识别训练数据的生成方法的流程图;
81.图3示出了本技术实施例所提供的一种步态识别训练数据的生成装置的结构示意图;
82.图4示出了本技术实施例所提供的一种电子设备的结构示意图。
具体实施方式
83.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
84.考虑到在步态识别模型的训练数据中,当样本行人的外观变化有限(即同一样本行人的衣着、鞋帽和附属物通常是不变的)时,容易导致步态识别模型无法学习到对外观变化鲁棒的整体姿态特征,从而导致识别性能下降的问题。基于此,本技术实施例提供了一种步态识别训练数据的生成方法、装置、电子设备及介质,以增加模型训练样本中样本行人的
外观变化,生成具有丰富外观的模型训练样本,扩充模型训练样本集合,进而提高步态识别模型的识别精度,下面通过实施例进行描述。
85.实施例一:
86.为便于对本实施例进行理解,首先对本技术实施例所公开的一种步态识别训练数据的生成方法进行详细介绍。图1示出了本技术实施例所提供的一种步态识别训练数据的生成方法的流程图,如图1所示,包括以下步骤s101-s103:
87.s101:将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中,得到第一步态序列中每张第一步态图像帧对应的第一样本行人的第一姿态特征和第一外观特征,以及得到第二步态序列中每张第二步态图像帧对应的第二样本行人的第二姿态特征和第二外观特征。
88.该实施例中,第一步态序列中包含有第一样本行人的多帧连续的第一步态图像帧,第二步态序列中包含有第二样本行人的多帧连续的第二步态图像帧。
89.将第一样本行人的第一步态序列输入至预先训练好的编码器中,通过该编码器,输出第一步态序列中的每张第一步态图像帧各自对应的第一样本行人的第一姿态特征和第一外观特征。第一姿态特征用于表征与其对应的第一步态图像帧中第一样本行人的姿态信息,第一外观特征用于表征与其对应的第一步态图像帧中第一样本行人的外观信息,外观信息例如服饰(衣服鞋子裤子)、背包、帽子等信息。
90.同样的,将第二样本行人的第二步态序列输入至预先训练好的编码器中,通过该编码器,输出第二步态序列中的每张第二步态图像帧各自对应的第二样本行人的第二姿态特征和第二外观特征。第二姿态特征用于表征与其对应的第二步态图像帧中第二样本行人的姿态信息,第二外观特征用于表征与其对应的第二步态图像帧中第二样本行人的外观信息。
91.每个第一步态序列对应多个第一姿态特征和多个第一外观特征,每个第二步态序列对应多个第二姿态特征和多个第二外观特征。
92.在一种可能的实施方式中,在执行步骤s101之前,具体可以:从原始训练集中获取第一样本行人的第一步态序列和第二样本行人的第二步态序列。
93.该实施例中,原始训练集中包含有每个样本行人各自对应的步态序列,其中,步态序列是由样本行人的多帧连续的步态图像生成的。第一样本行人为原始训练集中的任意一个样本行人,第二样本行人为原始训练集中除第一样本行人之外的任意一个样本行人。
94.s102:针对每个第一外观特征,将该第一外观特征分别与各个第二姿态特征进行合并,得到该第一外观特征对应的多个第一合并特征;以及针对每个第二外观特征,将该第二外观特征分别与各个第一姿态特征进行合并,得到该第二外观特征对应的多个第二合并特征。
95.示例性的,假设第一步态序列对应5个第一姿态特征和5个第一外观特征,第二步态序列对应5个第二姿态特征和5个第二外观特征,那么,以其中一个第一外观特征为例,该第一外观特征分别与5个第二姿态特征进行合并,得到该第一外观特征对应的5个第一合并特征。5个第一外观特征也就有25个第一合并特征。
96.该实施例中,第一合并特征中包含第一样本行人的第一外观特征和第二样本行人的第二姿态特征。第二合并特征中包含第二样本行人的第二外观特征和第一样本行人的第
一姿态特征。
97.s103:将同一第一外观特征对应的多个第一合并特征输入至预先训练好的解码器中,生成具有该第一外观特征的第二样本行人的第三步态序列;以及将同一第二外观特征对应的多个第二合并特征输入至解码器中,生成具有该第二外观特征的第一样本行人的第四步态序列。
98.该实施例中,第二样本行人的第三步态序列与第二步态序列为外观不同姿态相同的两个步态序列,即,第二步态序列中包含的第二样本行人的外观信息与第三步态序列中包含的第二样本行人的外观信息不同,但是姿态信息相同。
99.并且,第一样本行人的第四步态序列与第一步态序列也为外观不同姿态相同的两个步态序列。
100.在一种可能的实施方式中,在生成第二样本行人的第三步态序列和第一样本行人的第四步态序列之后,还可以:将第二样本行人的第三步态序列和第一样本行人的第四步态序列加入到原始训练集中,得到新训练集;新训练集中包含有每个样本行人对应多个步态序列,同一样本行人对应的各个步态序列中包含各自的外观。
101.在得到新训练集后,可以使用新训练集中包含的每个样本行人的每个步态序列,训练步态识别模型。由于新训练集中的各个样本行人具有丰富的外观变化,因此,使用新训练集训练步态识别模型,有利于提高训练完成后的目标步态识别模型的识别精度。
102.在一种可能的实施方式中,图2示出了本技术实施例所提供的另一种步态识别训练数据的生成方法的流程图,如图2所示,在执行步骤s101之前,还可以通过以下步骤s1001-s1005训练上述编码器和解码器:
103.s1001:将第三样本行人在不同外观下的第五步态序列和第六步态序列输入至待训练的初始编码器中,得到第五步态序列中每张第三步态图像帧各自对应的第三外观特征和第三姿态特征,以及第六步态序列中每张第四步态图像帧各自对应的第四外观特征和第四姿态特征。
104.该实施例中,第五步态序列和第六步态序列为同一第三样本行人的不同外观下采集的,不同外观例如同一第三样本行人的衣着服饰不同。
105.示例性的,第三样本行人a的第五步态序列a1中包括a11、a12、a13三张第三步态图像帧,第六步态序列a2中包括a21、a22、a23三张第四步态图像帧。那么,将第五步态序列a1输入至待训练的初始编码器中,初始编码器输出第三步态图像帧a11对应的第三外观特征aw11和第三姿态特征az11,第三步态图像帧a12对应的第三外观特征aw12和第三姿态特征az12,第三步态图像帧a13对应的第三外观特征aw13和第三姿态特征az13。
106.同样的,将第六步态序列a2输入至初始编码器中,输出第四步态图像帧a21对应的第四外观特征aw21和第四姿态特征az21,第四步态图像帧a22对应的第四外观特征aw22和第四姿态特征az22,第四步态图像帧a23对应的第四外观特征aw23和第四姿态特征az23。
107.s1002:针对每个第三姿态特征,将该第三姿态特征分别与除该第三姿态特征之外的其他第三姿态特征所对应的各个第三外观特征进行合并,得到该第三姿态特征对应的多个第三合并特征;以及针对每个第四姿态特征,将该第四姿态特征分别与除该第四姿态特征之外的其他第四姿态特征所对应的各个第四外观特征进行合并,得到该第四姿态特征对应的多个第四合并特征。
108.示例性的,第三姿态特征包括az11、az12、az13。以第三姿态特征az11为例,将该第三姿态特征az11分别与第三姿态特征az12和第三姿态特征az13所对应的各个第三外观特征进行合并,即将第三姿态特征az11分别与第三外观特征aw12和第三外观特征aw13进行合并,得到两个第三合并特征。即此时,每个第三姿态特征对应两个第三合并特征,三个第三姿态特征对应六个第三合并特征。
109.同样的,第四姿态特征包括az21、az22、az23,以四姿态特征az21为例,将该第四姿态特征az21分别与第四姿态特征az22和第四姿态特征az23所对应的各个第三外观特征进行合并,即将该第四姿态特征az21分别与第四外观特征aw22和第四外观特征aw23进行合并,得到两个第四合并特征。每个第四姿态特征对应两个第四合并特征,三个第四姿态特征对应六个第四合并特征。
110.s1003:针对每个第三姿态特征对应的每个第三合并特征,通过待训练的初始解码器将该第三合并特征转换为第三样本行人的第一合成图像帧,得到每个第三合并特征各自对应的第一合成图像帧;以及针对每个第四姿态特征对应的每个第四合并特征,通过初始解码器将该第四合并特征转换为第三样本行人的第二合成图像帧。
111.示例性的,以第三姿态特征az11为例,将该第三姿态特征az11对应的每个第三合并特征输入至待训练的初始解码器,通过初始解码器将该第三合并特征转换为第三样本行人的第一合成图像帧。其中,每个第三合并特征对应一个第一合成图像帧,每个第三姿态特征对应两个第一合成图像帧。第三姿态特征az11对应的两个第一合成图像帧中,分别包含第三姿态特征az11和第三外观特征aw12、以及包含第三姿态特征az11和aw13。
112.以四姿态特征az21为例,将该四姿态特征az21对应的每个第四合并特征输入至初始解码器中,通过初始解码器将该第四合并特征转换为第三样本行人的第二合成图像帧。其中,每个第四合并特征对应一个第二合成图像帧,每个第四姿态特征对应两个第四合并特征,因此每个第四姿态特征对应两个第二合成图像帧。第四姿态特征az21对应的两个第二合成图像帧中分别包含:第四姿态特征az21和第四外观特征aw22,以及包含第四姿态特征az21和第四外观特征aw23。
113.s1004:针对每个第三姿态特征对应的每个第一合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第一合成图像帧在各个像素点处的像素差的第一像素平均值,得到每个第一合成图像帧各自对应的第一像素平均值;以及针对每个第四姿态特征对应的每个第二合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第二合成图像帧在各个像素点处的像素差的第二像素平均值,得到每个第二合成图像帧各自对应的第二像素平均值。
114.示例性的,以第三姿态特征az11为例,该第三姿态特征az11对应两个第一合成图像帧,以其中一个第一合成图像帧为例,计算第三姿态特征az11对应的第三步态图像帧a11与该第一合成图像帧在各个像素点处的像素差,得到每个像素点处的像素差,然后计算所有像素差的平均值,得到第一像素平均值。该实施例中,每个第三姿态特征对应两个第一合成图像帧,因此每个第三姿态特征对应两个第一像素平均值,三个第三姿态特征对应六个第一像素平均值。
115.同样的,每个第四姿态特征对应两个第二像素平均值。
116.s1005:计算所有第三姿态特征对应的所有第一像素平均值和所有第四姿态特征
对应的所有第二像素平均值的平均值,得到第三样本行人对应的第三像素平均值,以将第三像素平均值作为第一损失值;第一损失值用于训练初始编码器中的可学习参数以及初始解码器中的可学习参数。
117.该实施例中,使用第一损失值训练初始编码器中的可学习参数以及初始解码器中的可学习参数,直至第一损失值收敛,停止训练,得到训练完成后的编码器和解码器。第一损失值越小,表示初始编码器能更好的将步态特征中的姿态特征和外观特征区分开,以及初始解码器能更好的将合并特征转换为合成图像帧。
118.在一种可能的实施方式中,在执行完步骤s1001之后,还可以按照以下步骤s1006-s1009执行:
119.s1006:针对每个第三姿态特征,将该第三姿态特征分别与各个第四外观特征进行合并,得到该第三姿态特征对应的多个第五合并特征;以及针对每个第四姿态特征,将该第四姿态特征分别与各个第三外观特征进行合并,得到该第四姿态特征对应的多个第六合并特征。
120.示例性的,第三姿态特征包括az11、az12、az13,以第三姿态特征az11为例,将第三姿态特征az11分别与各个第四外观特征aw21、aw22、aw23进行合并,得到每个第四外观特征对应的第五合并特征。此时,每个第四外观特征对应一个第五合并特征,每个第三姿态特征对应三个第五合并特征。
121.同样的,以第四姿态特征az21为例,将该第四姿态特征az21分别与各个第三外观特征aw11、aw12、aw13进行合并,得到每个第三外观特征对应的第六合并特征。
122.s1007:针对每个第三姿态特征对应的每个第五合并特征,通过初始解码器将该第五合并特征转换为第三样本行人的第三合成图像帧;以及针对每个第四姿态特征对应的每个第六合并特征,通过初始解码器将该第六合并特征转换为第三样本行人的第四合成图像帧。
123.示例性的,以第三姿态特征az11为例,将第三姿态特征az11对应的每个第五合并特征输入至初始解码器中,通过初始解码器将各个第五合并特征转换为第三样板行人的第三合成图像帧。每个第五合并特征对应一个第三合成图像帧,该实施例中,每个第三姿态特征对应三个第五合并特征,因此每个第三姿态特征对应三个第三合成图像帧。
124.第三姿态特征az11对应的三个第三合成图像帧中分别包含:第三姿态特征az11和第四外观特征aw21,第三姿态特征az11和第四外观特征aw22,第三姿态特征az11和第四外观特征aw23。
125.第四合成图像帧的生成过程参数第三合成图像帧的生成过程,本技术对此不再赘述。
126.s1008:针对每个第三姿态特征对应的每个第三合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第三合成图像帧在各个像素点处的像素差的第四像素平均值,得到每个第三合成图像帧各自对应的第四像素平均值;以及针对每个第四姿态特征对应的每个第四合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第四合成图像帧在各个像素点处的像素差的第五像素平均值,得到每个第四合成图像帧各自对应的第五像素平均值。
127.示例性的,以第三姿态特征az11为例,针对第三姿态特征az11对应的三个第三合
成图像帧,计算该第三姿态特征az11对应的第三步态图像帧a11与该第三合成图像帧在各个像素点处的像素差,得到在每个像素点处的像素差,然后计算所有像素点处的像素差的平均值,得到第四像素平均值。每个第三合成图像帧对应一个第四像素平均值,第三姿态特征az11对应的三个第三合成图像帧,因此第三姿态特征az11对应的三个第四像素平均值。
128.第五像素平均值的计算过程参数第四像素平均值的计算过程,本技术对此不再赘述。
129.s1009:计算所有第三姿态特征对应的所有第四像素平均值和所有第四姿态特征对应的所有第五像素平均值的平均值,得到第三样本行人对应的第六像素平均值,以将第六像素平均值作为第二损失值;第二损失值用于训练初始编码器中的可学习参数以及初始解码器中的可学习参数。
130.该实施例中,可以使用第一损失值和第二损失值共同训练初始编码器中的可学习参数以及初始解码器中的可学习参数,直至第一损失值、第二损失值收敛,停止训练,得到训练完成后的编码器和解码器。
131.在一种可能的实施方式中,在执行完步骤s1001之后,还可以按照以下步骤s1011-s1018执行:
132.s1011:将第四样本行人的第七步态序列输入至初始编码器中,得到第七步态序列中每张第七步态图像帧各自对应的第五外观特征和第五姿态特征。
133.示例性的,第四样本行人b的第七步态序列b1包括b11、b12、b13三张第七步态图像帧,将第七步态序列b1输入至初始编码器中,初始编码器输出第七步态图像帧b11对应的第五外观特征bw11和第五姿态特征bz11,以及输出第七步态图像帧b12对应的第五外观特征bw12和第五姿态特征bz12,第七步态图像帧b13对应的第五外观特征bw13和第五姿态特征bz13。
134.s1012:针对每个第三姿态特征,将该第三姿态特征分别与各个第五外观特征进行合并,得到该第三姿态特征对应的多个第七合并特征;以及针对每个第四姿态特征,将该第四姿态特征分别与各个第五外观特征进行合并,得到该第四姿态特征对应的多个第八合并特征。
135.示例性的,以第三姿态特征az11为例,将第三姿态特征az11分别与各个第五外观特征bw11、bw12和bw13进行合并,得到该第三姿态特征az11对应的三个第七合并特征。
136.以第四姿态特征az21为例,将第四姿态特征az21分别与各个第五外观特征bw11、bw12和bw13进行合并,得到该第四姿态特征az21对应的三个第八合并特征。
137.s1013:针对每个第三姿态特征对应的每个第七合并特征,通过初始解码器将该第七合并特征转换为第三样本行人的第五合成图像帧;以及针对每个第四姿态特征对应的每个第八合并特征,通过初始解码器将该第八合并特征转换为第三样本行人的第六合成图像帧。
138.示例性的,以第三姿态特征az11为例,针对第三姿态特征az11对应的每个第七合并特征,将第三姿态特征az11对应的每个第七合并特征输入至初始解码器中,通过初始解码器将该第七合并特征转换为第三样本行人的第五合成图像帧。其中,每个第七合并特征对应一个第五合成图像帧,每个第三姿态特征对应三个第五合成图像帧。
139.第三姿态特征az11对应的三个第五合成图像帧中分别包含:第三姿态特征az11和
第五外观特征bw11,第三姿态特征az11和第五外观特征bw12,第三姿态特征az11和第五外观特征bw13。
140.以第四姿态特征az21为例,针对第四姿态特征az21对应的每个第八合并特征,将第四姿态特征az21对应的每个第八合并特征输入至初始解码器中,通过初始解码器将该第八合并特征转换为第三样本行人的第六合成图像帧。每个第八合并特征对应一个第六合成图像帧,每个第四姿态特征对应三个第六合成图像帧。
141.第四姿态特征az21对应的三个第六合成图像帧中分别包含:第四姿态特征az21和第五外观特征bw11,第四姿态特征az21和第五外观特征bw12,第四姿态特征az21和第五外观特征bw13。
142.s1014:将每个第五合成图像帧输入到初始编码器中,得到每个第五合成图像帧各自对应的第六姿态特征和第六外观特征;以及将每个第六合成图像帧输入到初始编码器中,得到每个第六合成图像帧各自对应的第七姿态特征和第七外观特征。
143.示例性的,以第三姿态特征az11对应的其中一个第五合成图像帧为例,将该第五合成图像帧输入到初始编码器中,得到该第五合成图像帧对应的第六姿态特征az31和第六外观特征aw31。
144.以第四姿态特征az21对应的其中一个第六合成图像帧为例,将该第六合成图像帧输入到初始编码器中,得到该第六合成图像帧对应的第七姿态特征az41和第七外观特征aw41。
145.s1015:针对每个第六姿态特征,将该第六姿态特征分别与各个第三外观特征进行合并,得到该第六姿态特征对应的多个第九合并特征;以及针对每个第七姿态特征,将该第七姿态特征分别与各个第三外观特征进行合并,得到该第七姿态特征对应的多个第十合并特征。
146.s1016:针对每个第六姿态特征对应的每个第九合并特征,通过初始解码器将该第九合并特征转换为第三样本行人的第七合成图像帧;以及针对每个第七姿态特征对应的每个第十合并特征,通过初始解码器将该第十合并特征转换为第三样本行人的第八合成图像帧。
147.s1017:针对每个第六姿态特征对应的每个第七合成图像帧,计算该第六姿态特征对应的第三步态图像帧与该第七合成图像帧在各个像素点处的像素差的第七像素平均值;以及针对每个第七姿态特征对应的每个第八合成图像帧,计算该第七姿态特征对应的第四步态图像帧与该第八合成图像帧在各个像素点处的像素差的第八像素平均值。
148.示例性的,以第六姿态特征az31为例,针对第六姿态特征az31对应的每个第七合成图像帧,计算第六姿态特征az31对应的第三步态图像帧a11与该第七合成图像帧在各个像素点处的像素差的第七像素平均值。
149.以第七姿态特征az41为例,针对第七姿态特征az41对应的每个第八合成图像帧,计算该第七姿态特征az41对应的第四步态图像帧a21与该第八合成图像帧在各个像素点处的像素差的第八像素平均值。
150.s1018:计算所有第六姿态特征对应的所有第七像素平均值和所有第七姿态特征对应的所有第八像素平均值的平均值,得到第九像素平均值,以将第九像素平均值作为第三损失值;第三损失值用于训练初始编码器中的可学习参数以及初始解码器中的可学习参
数。
151.该实施例中,可以使用第一损失值、第二损失值和第三损失值共同训练初始编码器中的可学习参数以及初始解码器中的可学习参数。直至第一损失值、第二损失值、第三损失值收敛,停止训练,得到训练完成后的编码器和解码器。
152.在一种可能的实施方式中,在执行完步骤s1001之后,具体还可以:
153.计算第三样本行人的各个第三姿态特征的平均特征,得到第一姿态平均特征;以及计算第三样本行人的各个第四姿态特征的平均特征,得到第二姿态平均特征;
154.计算第一姿态平均特征与第二姿态平均特征的差值,得到第四损失值;第四损失值用于训练初始编码器中的可学习参数以及初始解码器中的可学习参数。
155.该实施例中,可以使用第一损失值、第二损失值、第三损失值和第四损失值共同训练初始编码器中的可学习参数以及初始解码器中的可学习参数,直至第一损失值、第二损失值、第三损失值、第四损失值收敛,停止训练,得到训练完成后的编码器和解码器。
156.在一种可能的实施方式中,在执行完步骤s1011之后,具体还可以:
157.针对第三样本行人的每个第三姿态特征,将该第三姿态特征与各个第五外观特征进行合并,得到该第三姿态特征对应的多个第十一合并特征;
158.通过infonce loss损失函数,使用第三姿态特征、第三外观特征和第十一合并特征,计算第一infonce损失值;以及通过infonce loss损失函数,使用第五外观特征、第五姿态特征和第十一合并特征,计算第二infonce损失值;
159.将第一infonce损失值和第二infonce损失值的和确定为第五损失值;第五损失值用于训练初始编码器中的可学习参数以及初始解码器中的可学习参数。
160.该实施例中,可以使用第一损失值、第二损失值、第三损失值、第四损失值和第五损失值共同训练初始编码器中的可学习参数以及初始解码器中的可学习参数,直至第一损失值、第二损失值、第三损失值、第四损失值和第五损失值收敛,停止训练,得到训练完成后的编码器和解码器。
161.实施例二:
162.基于相同的技术构思,本技术还提供了一种步态识别训练数据的生成装置,图3示出了本技术实施例所提供的一种步态识别训练数据的生成装置的结构示意图,如图3所示,所述装置包括:
163.第一输入模块301,用于将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中,得到所述第一步态序列中每张第一步态图像帧对应的所述第一样本行人的第一姿态特征和第一外观特征,以及得到所述第二步态序列中每张第二步态图像帧对应的所述第二样本行人的第二姿态特征和第二外观特征;
164.第一合并模块302,用于针对每个所述第一外观特征,将该第一外观特征分别与各个所述第二姿态特征进行合并,得到该第一外观特征对应的多个第一合并特征;以及针对每个所述第二外观特征,将该第二外观特征分别与各个所述第一姿态特征进行合并,得到该第二外观特征对应的多个第二合并特征;
165.生成模块303,用于将同一所述第一外观特征对应的多个所述第一合并特征输入至预先训练好的解码器中,生成具有该第一外观特征的所述第二样本行人的第三步态序列;以及将同一所述第二外观特征对应的多个所述第二合并特征输入至所述解码器中,生
成具有该第二外观特征的所述第一样本行人的第四步态序列。
166.可选地,还包括:
167.获取模块,用于在所述第一输入模块301将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中之前,从原始训练集中获取所述第一样本行人的所述第一步态序列和所述第二样本行人的所述第二步态序列;
168.加入模块,用于在所述生成模块303生成所述第三步态序列和所述第四步态序列之后,将所述第二样本行人的所述第三步态序列和所述第一样本行人的所述第四步态序列加入到所述原始训练集中,得到新训练集;所述新训练集中包含有每个样本行人对应多个步态序列,同一样本行人对应的各个步态序列中包含各自的外观。
169.可选地,还包括:
170.第二输入模块,用于在第一输入模块301将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中之前,将第三样本行人在不同外观下的第五步态序列和第六步态序列输入至待训练的初始编码器中,得到所述第五步态序列中每张第三步态图像帧各自对应的第三外观特征和第三姿态特征,以及所述第六步态序列中每张第四步态图像帧各自对应的第四外观特征和第四姿态特征;
171.第二合并模块,用于针对每个所述第三姿态特征,将该第三姿态特征分别与除该第三姿态特征之外的其他第三姿态特征所对应的各个所述第三外观特征进行合并,得到该第三姿态特征对应的多个第三合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与除该第四姿态特征之外的其他第四姿态特征所对应的各个所述第四外观特征进行合并,得到该第四姿态特征对应的多个第四合并特征;
172.第一转换模块,用于针对每个所述第三姿态特征对应的每个所述第三合并特征,通过待训练的初始解码器将该第三合并特征转换为所述第三样本行人的第一合成图像帧,得到每个所述第三合并特征各自对应的第一合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第四合并特征,通过所述初始解码器将该第四合并特征转换为所述第三样本行人的第二合成图像帧;
173.第一计算模块,用于针对每个所述第三姿态特征对应的每个所述第一合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第一合成图像帧在各个像素点处的像素差的第一像素平均值,得到每个所述第一合成图像帧各自对应的第一像素平均值;以及针对每个所述第四姿态特征对应的每个所述第二合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第二合成图像帧在各个像素点处的像素差的第二像素平均值,得到每个所述第二合成图像帧各自对应的第二像素平均值;
174.第二计算模块,用于计算所有所述第三姿态特征对应的所有所述第一像素平均值和所有所述第四姿态特征对应的所有所述第二像素平均值的平均值,得到所述第三样本行人对应的第三像素平均值,以将所述第三像素平均值作为第一损失值;所述第一损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
175.可选地,还包括:
176.第三合并模块,用于在所述第二输入模块得到所述第五步态序列中每张第三步态图像帧各自对应的第三外观特征和第三姿态特征,以及所述第六步态序列中每张第四步态图像帧各自对应的第四外观特征和第四姿态特征之后,针对每个所述第三姿态特征,将该
第三姿态特征分别与各个所述第四外观特征进行合并,得到该第三姿态特征对应的多个第五合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与各个所述第三外观特征进行合并,得到该第四姿态特征对应的多个第六合并特征;
177.第二转换模块,用于针对每个所述第三姿态特征对应的每个所述第五合并特征,通过所述初始解码器将该第五合并特征转换为所述第三样本行人的第三合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第六合并特征,通过所述初始解码器将该第六合并特征转换为所述第三样本行人的第四合成图像帧;
178.第三计算模块,用于针对每个所述第三姿态特征对应的每个所述第三合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第三合成图像帧在各个像素点处的像素差的第四像素平均值,得到每个所述第三合成图像帧各自对应的第四像素平均值;以及针对每个所述第四姿态特征对应的每个所述第四合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第四合成图像帧在各个像素点处的像素差的第五像素平均值,得到每个所述第四合成图像帧各自对应的第五像素平均值;
179.第四计算模块,用于计算所有所述第三姿态特征对应的所有所述第四像素平均值和所有所述第四姿态特征对应的所有所述第五像素平均值的平均值,得到所述第三样本行人对应的第六像素平均值,以将所述第六像素平均值作为第二损失值;所述第二损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
180.可选地,还包括:
181.第三输入模块,用于将第四样本行人的第七步态序列输入至所述初始编码器中,得到所述第七步态序列中每张第七步态图像帧各自对应的第五外观特征和第五姿态特征;
182.第四合并模块,用于针对每个所述第三姿态特征,将该第三姿态特征分别与各个所述第五外观特征进行合并,得到该第三姿态特征对应的多个第七合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与各个所述第五外观特征进行合并,得到该第四姿态特征对应的多个第八合并特征;
183.第三转换模块,用于针对每个所述第三姿态特征对应的每个所述第七合并特征,通过所述初始解码器将该第七合并特征转换为所述第三样本行人的第五合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第八合并特征,通过所述初始解码器将该第八合并特征转换为所述第三样本行人的第六合成图像帧;
184.第四输入模块,用于将每个所述第五合成图像帧输入到所述初始编码器中,得到每个所述第五合成图像帧各自对应的第六姿态特征和第六外观特征;以及将每个所述第六合成图像帧输入到所述初始编码器中,得到每个所述第六合成图像帧各自对应的第七姿态特征和第七外观特征;
185.第五合并模块,用于针对每个所述第六姿态特征,将该第六姿态特征分别与各个所述第三外观特征进行合并,得到该第六姿态特征对应的多个第九合并特征;以及针对每个所述第七姿态特征,将该第七姿态特征分别与各个所述第三外观特征进行合并,得到该第七姿态特征对应的多个第十合并特征;
186.第四转换模块,用于针对每个所述第六姿态特征对应的每个所述第九合并特征,通过所述初始解码器将该第九合并特征转换为所述第三样本行人的第七合成图像帧;以及针对每个所述第七姿态特征对应的每个所述第十合并特征,通过所述初始解码器将该第十
合并特征转换为所述第三样本行人的第八合成图像帧;
187.第五计算模块,用于针对每个所述第六姿态特征对应的每个所述第七合成图像帧,计算该第六姿态特征对应的第三步态图像帧与该第七合成图像帧在各个像素点处的像素差的第七像素平均值;以及针对每个所述第七姿态特征对应的每个所述第八合成图像帧,计算该第七姿态特征对应的第四步态图像帧与该第八合成图像帧在各个像素点处的像素差的第八像素平均值;
188.第六计算模块,用于计算所有所述第六姿态特征对应的所有所述第七像素平均值和所有所述第七姿态特征对应的所有所述第八像素平均值的平均值,得到第九像素平均值,以将所述第九像素平均值作为第三损失值;所述第三损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
189.可选地,还包括:
190.第七计算模块,用于计算所述第三样本行人的各个所述第三姿态特征的平均特征,得到第一姿态平均特征;以及计算所述第三样本行人的各个所述第四姿态特征的平均特征,得到第二姿态平均特征;
191.第八计算模块,用于计算所述第一姿态平均特征与所述第二姿态平均特征的差值,得到第四损失值;所述第四损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
192.可选地,还包括:
193.第六合并模块,用于针对所述第三样本行人的每个所述第三姿态特征,将该第三姿态特征与各个所述第五外观特征进行合并,得到该第三姿态特征对应的多个第十一合并特征;
194.第九计算模块,用于通过infonce loss损失函数,使用所述第三姿态特征、所述第三外观特征和所述第十一合并特征,计算第一infonce损失值;以及通过infonce loss损失函数,使用所述第五外观特征、所述第五姿态特征和所述第十一合并特征,计算第二infonce损失值;
195.确定模块,用于将所述第一infonce损失值和所述第二infonce损失值的和确定为第五损失值;所述第五损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。
196.实施例三:
197.图4为本技术实施例提供的一种电子设备的结构示意图,包括:处理器401、存储器402和总线403,所述存储器402存储有所述处理器401可执行的机器可读指令,当电子设备运行上述的信息处理方法时,所述处理器401与所述存储器402之间通过总线403通信,所述处理器401执行所述机器可读指令,以执行实施例一中所述的方法步骤。
198.实施例四:
199.本技术实施例四还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例一中所述的方法步骤。
200.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、电子设备和计算机可读存储介质的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
201.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
202.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
203.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
204.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
205.最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种步态识别训练数据的生成方法,其特征在于,包括:将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中,得到所述第一步态序列中每张第一步态图像帧对应的所述第一样本行人的第一姿态特征和第一外观特征,以及得到所述第二步态序列中每张第二步态图像帧对应的所述第二样本行人的第二姿态特征和第二外观特征;针对每个所述第一外观特征,将该第一外观特征分别与各个所述第二姿态特征进行合并,得到该第一外观特征对应的多个第一合并特征;以及针对每个所述第二外观特征,将该第二外观特征分别与各个所述第一姿态特征进行合并,得到该第二外观特征对应的多个第二合并特征;将同一所述第一外观特征对应的多个所述第一合并特征输入至预先训练好的解码器中,生成具有该第一外观特征的所述第二样本行人的第三步态序列;以及将同一所述第二外观特征对应的多个所述第二合并特征输入至所述解码器中,生成具有该第二外观特征的所述第一样本行人的第四步态序列。2.根据权利要求1所述方法,其特征在于,所述将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中之前,所述方法还包括:从原始训练集中获取所述第一样本行人的所述第一步态序列和所述第二样本行人的所述第二步态序列;生成所述第三步态序列和所述第四步态序列之后,所述方法还包括:将所述第二样本行人的所述第三步态序列和所述第一样本行人的所述第四步态序列加入到所述原始训练集中,得到新训练集;所述新训练集中包含有每个样本行人对应多个步态序列,同一样本行人对应的各个步态序列中包含各自的外观。3.根据权利要求1所述方法,其特征在于,所述将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中之前,所述方法还包括:将第三样本行人在不同外观下的第五步态序列和第六步态序列输入至待训练的初始编码器中,得到所述第五步态序列中每张第三步态图像帧各自对应的第三外观特征和第三姿态特征,以及所述第六步态序列中每张第四步态图像帧各自对应的第四外观特征和第四姿态特征;针对每个所述第三姿态特征,将该第三姿态特征分别与除该第三姿态特征之外的其他第三姿态特征所对应的各个所述第三外观特征进行合并,得到该第三姿态特征对应的多个第三合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与除该第四姿态特征之外的其他第四姿态特征所对应的各个所述第四外观特征进行合并,得到该第四姿态特征对应的多个第四合并特征;针对每个所述第三姿态特征对应的每个所述第三合并特征,通过待训练的初始解码器将该第三合并特征转换为所述第三样本行人的第一合成图像帧,得到每个所述第三合并特征各自对应的第一合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第四合并特征,通过所述初始解码器将该第四合并特征转换为所述第三样本行人的第二合成图像帧;针对每个所述第三姿态特征对应的每个所述第一合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第一合成图像帧在各个像素点处的像素差的第一像素平均值,得
到每个所述第一合成图像帧各自对应的第一像素平均值;以及针对每个所述第四姿态特征对应的每个所述第二合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第二合成图像帧在各个像素点处的像素差的第二像素平均值,得到每个所述第二合成图像帧各自对应的第二像素平均值;计算所有所述第三姿态特征对应的所有所述第一像素平均值和所有所述第四姿态特征对应的所有所述第二像素平均值的平均值,得到所述第三样本行人对应的第三像素平均值,以将所述第三像素平均值作为第一损失值;所述第一损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。4.根据权利要求3所述方法,其特征在于,所述得到所述第五步态序列中每张第三步态图像帧各自对应的第三外观特征和第三姿态特征,以及所述第六步态序列中每张第四步态图像帧各自对应的第四外观特征和第四姿态特征之后,所述方法还包括:针对每个所述第三姿态特征,将该第三姿态特征分别与各个所述第四外观特征进行合并,得到该第三姿态特征对应的多个第五合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与各个所述第三外观特征进行合并,得到该第四姿态特征对应的多个第六合并特征;针对每个所述第三姿态特征对应的每个所述第五合并特征,通过所述初始解码器将该第五合并特征转换为所述第三样本行人的第三合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第六合并特征,通过所述初始解码器将该第六合并特征转换为所述第三样本行人的第四合成图像帧;针对每个所述第三姿态特征对应的每个所述第三合成图像帧,计算该第三姿态特征对应的第三步态图像帧与该第三合成图像帧在各个像素点处的像素差的第四像素平均值,得到每个所述第三合成图像帧各自对应的第四像素平均值;以及针对每个所述第四姿态特征对应的每个所述第四合成图像帧,计算该第四姿态特征对应的第四步态图像帧与该第四合成图像帧在各个像素点处的像素差的第五像素平均值,得到每个所述第四合成图像帧各自对应的第五像素平均值;计算所有所述第三姿态特征对应的所有所述第四像素平均值和所有所述第四姿态特征对应的所有所述第五像素平均值的平均值,得到所述第三样本行人对应的第六像素平均值,以将所述第六像素平均值作为第二损失值;所述第二损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。5.根据权利要求4所述方法,其特征在于,所述方法还包括:将第四样本行人的第七步态序列输入至所述初始编码器中,得到所述第七步态序列中每张第七步态图像帧各自对应的第五外观特征和第五姿态特征;针对每个所述第三姿态特征,将该第三姿态特征分别与各个所述第五外观特征进行合并,得到该第三姿态特征对应的多个第七合并特征;以及针对每个所述第四姿态特征,将该第四姿态特征分别与各个所述第五外观特征进行合并,得到该第四姿态特征对应的多个第八合并特征;针对每个所述第三姿态特征对应的每个所述第七合并特征,通过所述初始解码器将该第七合并特征转换为所述第三样本行人的第五合成图像帧;以及针对每个所述第四姿态特征对应的每个所述第八合并特征,通过所述初始解码器将该第八合并特征转换为所述第三
样本行人的第六合成图像帧;将每个所述第五合成图像帧输入到所述初始编码器中,得到每个所述第五合成图像帧各自对应的第六姿态特征和第六外观特征;以及将每个所述第六合成图像帧输入到所述初始编码器中,得到每个所述第六合成图像帧各自对应的第七姿态特征和第七外观特征;针对每个所述第六姿态特征,将该第六姿态特征分别与各个所述第三外观特征进行合并,得到该第六姿态特征对应的多个第九合并特征;以及针对每个所述第七姿态特征,将该第七姿态特征分别与各个所述第三外观特征进行合并,得到该第七姿态特征对应的多个第十合并特征;针对每个所述第六姿态特征对应的每个所述第九合并特征,通过所述初始解码器将该第九合并特征转换为所述第三样本行人的第七合成图像帧;以及针对每个所述第七姿态特征对应的每个所述第十合并特征,通过所述初始解码器将该第十合并特征转换为所述第三样本行人的第八合成图像帧;针对每个所述第六姿态特征对应的每个所述第七合成图像帧,计算该第六姿态特征对应的第三步态图像帧与该第七合成图像帧在各个像素点处的像素差的第七像素平均值;以及针对每个所述第七姿态特征对应的每个所述第八合成图像帧,计算该第七姿态特征对应的第四步态图像帧与该第八合成图像帧在各个像素点处的像素差的第八像素平均值;计算所有所述第六姿态特征对应的所有所述第七像素平均值和所有所述第七姿态特征对应的所有所述第八像素平均值的平均值,得到第九像素平均值,以将所述第九像素平均值作为第三损失值;所述第三损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。6.根据权利要求4所述方法,其特征在于,所述方法还包括:计算所述第三样本行人的各个所述第三姿态特征的平均特征,得到第一姿态平均特征;以及计算所述第三样本行人的各个所述第四姿态特征的平均特征,得到第二姿态平均特征;计算所述第一姿态平均特征与所述第二姿态平均特征的差值,得到第四损失值;所述第四损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。7.根据权利要求5所述方法,其特征在于,所述方法还包括:针对所述第三样本行人的每个所述第三姿态特征,将该第三姿态特征与各个所述第五外观特征进行合并,得到该第三姿态特征对应的多个第十一合并特征;通过infonce loss损失函数,使用所述第三姿态特征、所述第三外观特征和所述第十一合并特征,计算第一infonce损失值;以及通过infonce loss损失函数,使用所述第五外观特征、所述第五姿态特征和所述第十一合并特征,计算第二infonce损失值;将所述第一infonce损失值和所述第二infonce损失值的和确定为第五损失值;所述第五损失值用于训练所述初始编码器中的可学习参数以及所述初始解码器中的可学习参数。8.一种步态识别训练数据的生成装置,其特征在于,包括:第一输入模块,用于将第一样本行人的第一步态序列和第二样本行人的第二步态序列输入至预先训练好的编码器中,得到所述第一步态序列中每张第一步态图像帧对应的所述第一样本行人的第一姿态特征和第一外观特征,以及得到所述第二步态序列中每张第二步
态图像帧对应的所述第二样本行人的第二姿态特征和第二外观特征;第一合并模块,用于针对每个所述第一外观特征,将该第一外观特征分别与各个所述第二姿态特征进行合并,得到该第一外观特征对应的多个第一合并特征;以及针对每个所述第二外观特征,将该第二外观特征分别与各个所述第一姿态特征进行合并,得到该第二外观特征对应的多个第二合并特征;生成模块,用于将同一所述第一外观特征对应的多个所述第一合并特征输入至预先训练好的解码器中,生成具有该第一外观特征的所述第二样本行人的第三步态序列;以及将同一所述第二外观特征对应的多个所述第二合并特征输入至所述解码器中,生成具有该第二外观特征的所述第一样本行人的第四步态序列。9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述方法的步骤。10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。

技术总结
本申请提供了一种步态识别训练数据的生成方法、装置、电子设备及介质,其中,该方法包括:将第一样本行人的第一外观特征分别与第二样本行人的各个第二姿态特征进行合并,得到该第一外观特征对应的多个第一合并特征;将第二样本行人的第二外观特征分别与第一样本行人的各个第一姿态特征进行合并,得到该第二外观特征对应的多个第二合并特征;根据同一第一外观特征对应的多个第一合并特征生成具有该第一外观特征的第二样本行人的第三步态序列;以及根据同一第二外观特征对应的多个第二合并特征生成具有该第二外观特征的第一样本行人的第四步态序列。通过该方法,有利于增加模型训练样本中样本行人的外观变化,进而提高步态识别模型的识别精度。识别模型的识别精度。识别模型的识别精度。


技术研发人员:胡学财 黄永祯 侯赛辉 黄攀坚
受保护的技术使用者:北京师范大学
技术研发日:2023.05.16
技术公布日:2023/7/26
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐