动作图像处理方法、装置、设备和存储介质

未命名 08-13 阅读：111 评论：0

1.本公开涉及计算机技术领域，尤其涉及一种动作图像处理方法、装置、设备和存储介质。

背景技术：

2.相关技术中，一般采用3dcnn网络或者采用rnn网络根据当前目标动作图像帧预测目标动作视频。3dcnn网络很难在处理匮乏的时间信息与丰富的空间信息的同时关注到局部特征，导致预测的目标动作视频局部动作不连贯，动态内容较少。rnn网络由于局部特征的冗余信息产生累积，导致预测的目标动作视频比较模糊。

技术实现要素：

3.为克服相关技术中存在的问题，本公开提供一种动作图像处理方法、装置、设备和存储介质，以解决上述的问题。
4.根据本公开实施例的第一方面，提供一种动作图像处理方法，包括：
5.获取目标动作图像帧；
6.将所述目标动作图像帧输入到预先训练的vstgan模型中进行预测得到目标动作视频；
7.输出目标动作视频；
8.其中，所述vstgan模型包括：t-net模块与s-net模块；
9.所述t-net模块，用于在时间维度生成所述内容连贯的目标动作视频；；
10.所述s-net模块，用于在空间维度提高所述目标动作视频的清晰度。
11.在一种实施方式中，所述t-net模块包括视频生成器和视频判别器；
12.所述视频生成器包括多个视频生成循环神经网络g-vrnn；
13.所述视频判别器包括多个视频判别循环神经网络d-vrnn；
14.每个视频生成循环神经网络g-vrnn和对应的视频判别循环神经网络d-vrnn为一组；
15.其中，每个视频生成循环神经网络g-vrnn包括：多组交替设置的逆卷积层和相加add层；多个堆叠的逆卷积层，多组交替设置的逆卷积层和注意单元convau；
16.每个视频判别循环神经网络d-vrnn包括：多组交替设置的卷积层和注意单元convau；多个堆叠的卷积层。
17.在一种实施方式中，在每组视频生成循环神经网络g-vrnn和视频判别循环神经网络d-vrnn中，所述视频生成循环神经网络g-vrnn用于生成预测目标动作图像帧；
18.所述视频判别循环神经网络d-vrnn用于根据实际的目标动作图像帧对所述预测目标动作图像帧进行判别；
19.如果判别不通过，则更新所述视频生成循环神经网络g-vrnn，调整生成预测的目标动作图像帧，以提升所述生成预测目标动作图像帧中的动作连贯性。
20.在一种实施方式中，所述目标动作视频包括多个预测目标动作图像帧；
21.对于任意的两个相邻时刻的预测目标动作图像帧；
22.所述t-net模块用于根据前一时刻的预测目标动作图像帧特征图对后一时刻的预测目标动作图像帧特征图进行修正与融合，以提升后一时刻的预测目标动作图像帧的动作连贯性，得到经过修正与融合的后一时刻的预测目标动作图像帧。
23.在一种实施方式中，根据前一时刻的预测目标动作图像帧特征图对后一时刻的预测目标动作图像帧特征图进行修正与融合，包括：
24.根据前一时刻的预测目标动作图像帧特征图确定通道注意力系数，具体包括：
25.对所述前一时刻预测目标动作图像帧特征图进行最大池化处理得到第四中间值；
26.对所述前一时刻预测目标动作图像帧特征图进行平均池化处理得到第五中间值；
27.对所述第四中间值和所述第五中间值进行卷积处理与add操作后得到第六中间值；
28.对所述第六中间值输入激活函数处理得到所述通道注意力系数；
29.根据所述通道注意力系数对所述前一时刻的预测目标动作图像帧特征图f
t-1
进行调整得到所述前一时刻的预测目标动作图像帧特征图的调整值f
′
t-1
；
30.根据所述通道注意力系数对后一时刻的预测目标动作图像帧特征图ft进行调整得到调整值f
t
′
；
31.根据所述调整值f
′
t-1
确定空间注意力系数，具体包括：
32.对所述调整值f
′
t-1
进行取最大值处理得到第一中间值；
33.对所述调整值f
′
t-1
进行取平均值处理得到第二中间值；
34.对所述第一中间值和所述第二中间值进行concat操作与卷积处理得到第三中间值；
35.将所述第三中间值输入到激活函数进行处理，得到所述空间注意力系数；
36.根据所述空间注意力系数、所述调整值f
t
′
和所述调整值f
′
t-1
确定所述经过修正与融合的后一时刻的预测目标动作图像帧特征图。
37.在一种实施方式中，根据所述通道注意力系数对所述前一时刻的预测目标动作图像帧特征图f
t-1
进行调整得到所述前一时刻的预测目标动作图像帧特征图的调整值f
′
t-1
，包括：
38.将所述通道注意力系数与所述前一时刻的预测目标动作图像帧特征图f
t-1
进行hadamard乘法运算，得到所述调整值f
′
t-1
；
39.根据所述通道注意力系数对后一时刻的预测目标动作图像帧特征图f
t
进行调整得到调整值f
t
′
，包括：
40.确定1与所述通道注意力系数的第一差值；
41.将所述第一差值与所述后一时刻的预测目标动作图像帧特征图f
t
进行hadamard乘法运算得到所述f
t
′
；
42.根据所述空间注意力系数、所述调整值f
t
′
和所述调整值f
′
t-1
确定所述经过修正与融合的后一时刻的预测目标动作图像帧特征图,包括：
43.确定1与所述空间注意力系数的第二差值；
44.确定所述第二差值与所述调整值f
t
′
的第一hadamard乘积；
45.确定所述空间注意力系数与所述调整值f
′
t-1
的第二hadamard乘积；
46.将所述第一hadamard乘积、所述第二hadamard乘积和预定的偏置值进行求和得到和值；
47.将所述和值经过激活函数处理得到所述经过修正与融合的后一时刻的预测目标动作图像帧特征图。
48.在一种实施方式中，所述t-net模块的损失函数包括动作损失函数、对抗损失函数和分辨率损失函数的和；
49.其中，所述动作损失函数的计算公式：
[0050][0051]
t表示时刻的数量；
[0052]
t表示t时刻；
[0053]
i表示g-vrnn总的层数；
[0054]
i表示第i个g-vrnn层；
[0055]
n表示数量；
[0056]
n表示第n个gram矩阵；
[0057]
表示gram矩阵；
[0058][0059]
表示对特征图进行转换计算后的矩阵；
[0060]
v＝h
×
w；
[0061]
其中，h为预测目标动作特征图的高度；w为预测目标动作特征图的宽度；
[0062]
c表示通道数量；
[0063]
所述分辨率损失函数的计算公式：
[0064][0065]
其中，v
′
表示预测目标动作视频；
[0066]
y表示实际的目标动作视频；
[0067][0068][0069]
其中，σ是sigmoid激活函数，是t时刻g-vrnn层中的一个卷积操作，表示结合t时刻前景与背景信息的掩码，v
t
′
表示所述t-net模块生成的t时刻的预测目标动作图像帧；
[0070]
所述对抗损失函数的计算公式：
[0071][0072]
其中，d
t
表示多个d-vrnn组成的视频判别器；
[0073]
x表示输入的目标动作图像帧；
[0074]gt
表示多个g-vrnn组成的视频生成器。
[0075]
第二方面，本技术提出了一种动作图像处理装置，包括：
[0076]
获取模块，用于获取目标动作图像帧；
[0077]
处理模块，用于将所述目标动作图像帧输入到预先训练的vstgan模型中进行预测得到目标动作视频；
[0078]
输出模块，用于输出所述目标动作视频；
[0079]
其中，所述vstgan模型包括：t-net模块与s-net模块；
[0080]
所述t-net模块，用于在时间维度生成所述内容连贯的目标动作视频；
[0081]
所述s-net模块，用于在空间维度提高所述目标动作视频的清晰度。
[0082]
第三方面，本技术提出了一种动作图像处理方法设备，包括：
[0083]
处理器；用于存储处理器可执行指令的存储器；
[0084]
其中，所述处理器被配置为运行所述可执行指令以实现上述任一项所述的方法。
[0085]
第四方面，本技术提出了一种非临时性计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现上述任一项所述方法的步骤。
[0086]
本公开的实施例提供的技术方案可以包括以下有益效果：本技术上述的技术方案，vstgan模型中的t-net模块在时间维度生成内容连贯的目标动作视频，所述s-net模块在空间维度提高目标动作视频的清晰度。对于预测的目标动作视频，既生成了连贯的动作，又提高了清晰度。
[0087]
应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
[0088]
此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
[0089]
图1是根据一示例性实施例示出的一种动作图像处理方法的流程图；
[0090]
图2是根据一示例性实施例示出的一种vstgan模型的结构示意图；
[0091]
图3是根据一示例性实施例示出的一种t-net的结构示意图；
[0092]
图4是根据一示例性实施例示出的另一种动作图像处理方法的流程图
[0093]
图5是根据一示例性实施例示出的一种调节权重的流程图；
[0094]
图6是根据一示例性实施例示出的一种channel注意力模块和spatial注意力模块；
[0095]
图7是根据一示例性实施例示出的一种frb的结构示意图；
[0096]
图8是根据一示例性实施例示出的一种gs的结构示意图；
[0097]
图9是根据一示例性实施例示出的一种图片训练集；
[0098]
图10是根据一示例性实施例示出的另一种图片训练集；
[0099]
图11是根据一示例性实施例示出的一种多个模型的定性对比图；
[0100]
图12是根据一示例性实施例示出的另一种多个模型的定性对比图；
[0101]
图13是根据一示例性实施例示出的另一种多个模型的定性对比图；
[0102]
图14是根据一示例性实施例示出的一种t-net与s-net的预测结果对比图；
[0103]
图15是根据一示例性实施例示出的一种动作图像处理装置的结构示意图；
[0104]
图16是根据一示例性实施例示出的一种动作图像处理设备的结构示意图。
具体实施方式
[0105]
这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。
[0106]
本技术提出了一种动作图像处理方法，参见附图1，包括：
[0107]
步骤s102中，获取目标动作图像帧。
[0108]
在本实施例中，目标动作图像帧的数量为1个。目标动作图像帧是从动作的视频帧中随机抽取的一帧图像帧。通过该图像帧可以生成动作视频。其中，上述的目标动作可以为，眨眼、举手等。
[0109]
步骤s104中，将所述目标动作图像帧输入到预先训练的vstgan模型中进行预测得到目标动作视频。
[0110]
其中，所述vstgan模型包括：t-net模块与s-net模块。
[0111]
所述t-net模块，用于在时间维度生成所述内容连贯的目标动作视频。
[0112]
所述s-net模块，用于在空间维度提高目标动作视频的清晰度。
[0113]
在本实施例中，时空对抗网络模型(video spatio-temporal gan，vstgan)时间(temporal net，t-net)模块与空间(spatial-net，s-net)模块。
[0114]
步骤s106中，输出目标动作视频。
[0115]
本技术上述的技术方案，vstgan模型中的t-net模块在时间维度生成目标动作视频，该目标动作视频中，可以显示丰富的动作内容，局部特征，可以使得视频中的相邻的图像帧之间更加连贯。所述s-net模块在空间维度提高目标动作视频的清晰度。从而解决了相关技术中的对于目标动作视频的连贯性差，或者不清晰的问题。
[0116]
在一种实施方式中，参见附图2所示的vstgan模型的结构示意图；
[0117]
所述t-net模块包括视频生成器和视频判别器；
[0118]
所述视频生成器包括多个视频生成循环神经网络g-vrnn；
[0119]
所述视频判别器包括多个视频判别循环神经网络d-vrnn；
[0120]
其中，每个视频生成循环神经网络g-vrnn和对应的视频判别循环神经网络d-vrnn为一组；
[0121]
每个视频生成循环神经网络g-vrnn包括：多组交替设置的逆卷积层和相加add层；多个堆叠的逆卷积层，多组交替设置的逆卷积层和注意单元convau；
[0122]
每个视频判别循环神经网络d-vrnn包括：多组交替设置的卷积层和注意单元convau；多个堆叠的卷积层。
[0123]
在本实施例中，该vstgan模型包括t-net和s-net两个gan网络。
[0124]
其中，t-net由generator g
t
与discriminator d
t
组成。其中g
t
为双流结构，包括背景流和前景流。背景流中的编码器对输入的静态图像x∈r3×h×w进行特征提取，生成编码向量fz∈rc×1×1。解码器将fz进行还原，生成背景信息。前景流由多个g-vrnn层组成，以fz作为输入生成不同时刻帧图像的前景动态信息。采用mask机制使背景信息与前景动态信息结合
生成动作视频v
′
。d
t
由多个d-vrnn层组成，每层d-vrnn分别判别v
′
中相应的动态帧图像。
[0125]
s-net由generator gs与discriminator ds组成。gs同样为双流结构，背景流中的编码器与解码器处理静态图像，生成背景信息。前景流由堆叠的frb模块与cbam模块组成，对v
′
进行分辨率重构，生成前景信息。同样采用mask机制与背景信息与前景信息结合生成最终的预测动作视频v
″
。由堆叠的三维卷积组成的ds对v
″
进行判别。
[0126]
在一种实施方式中，在每组视频生成循环神经网络g-vrnn和视频判别循环神经网络d-vrnn中，所述视频生成循环神经网络g-vrnn用于生成预测目标动作图像帧；
[0127]
所述视频判别循环神经网络d-vrnn用于根据实际的目标动作图像帧对所述预测目标动作图像帧进行判别；
[0128]
如果判别不通过，则更新所述视频生成循环神经网络g-vrnn，调整生成预测的目标动作图像帧，以提升所述生成预测目标动作图像帧中的动作连贯性。
[0129]
在本实施例中，判别循环神经网络d-vrnn校验时，可以采用实际的动作图像帧和生成的动作图像帧进行比较。这样，就可以使生成的动作图像帧能够显示更多的动作细节，从而可以提高相邻两个动作图像帧的动作连贯性。
[0130]
示例性的，参见附图3，d-vrnn包括两组交替设置的卷积层和卷积注意单元convau，堆叠的卷积层的数量为6个。
[0131]
g-vrnn中，设置两组交替设置的逆卷积层和相加add层；堆叠的逆卷积层的数量为3个，三组交替设置的逆卷积层和卷积注意单元convau。
[0132]
在一种实施方式中，所述目标动作视频包括多个预测目标动作图像帧；
[0133]
对于任意的两个相邻时刻的预测目标动作图像帧；
[0134]
所述t-net模块用于根据前一时刻的预测目标动作图像帧特征图对后一时刻的预测目标动作图像帧特征图进行修正与融合，以提升后一时刻的预测目标动作图像帧的动作连贯性，得到经过修正与融合的后一时刻的预测目标动作图像帧。
[0135]
在本实施例中，上述的卷积注意单元convau，可以执行根据前一时刻的预测目标动作图像帧特征图对后一时刻的预测目标动作图像帧特征图进行修正与融合的步骤。
[0136]
每个(generate-videornn，g-vrnn)层的结构与背景流中的解码器一样，输入均为fz。对fz进行上采样，生成t时刻的前景信息y
t
。而t时刻帧图像的特征很大程度上会受到前t-1个时刻帧图像的影响。对于不同时刻g-vrnn层中的特征图希望具有语义特征的特征图与之间的信息丢失越少越好，因此将前一时刻与当前时刻的特征相加，计算语义特征如下：
[0137][0138]
其中，表示t时刻g-vrnn层中的第i层逆卷积输出的特征图。高分辨率特征图往往拥有更多的细节与动作内容。为了使得前景流能够更加关注时间维度中局部特征的动作变化，减少对冗余信息的学习，使用convau融合不同时刻g-vrnn层中的高分辨率特征。
[0139]
如图所示，定义的计算高分辨率特征的公式如下：
[0140][0141]
参见附图3，d-vrnn中，d
t
中discriminate-videornn(d-vrnn)层的结构与背景流
中的编码器一样。但在d-vrnn层中不再融合语义特征，只采用convau融合高分辨率特征。每个d-vrnn层分别对每帧图像进行编码，分辨每帧预测图像的真假以促进g
t
的进一步学习。
[0142]
在一种实施方式中，参见附图4，根据前一时刻的预测目标动作图像帧特征图对后一时刻的预测目标动作图像帧特征图进行修正与融合，可以进一步包括以下步骤：
[0143]
步骤s401中，根据前一时刻的预测目标动作图像帧特征图确定通道注意力系数，可以具体包括以下步骤：
[0144]
对所述前一时刻预测目标动作图像帧特征图进行最大池化处理得到第四中间值；
[0145]
对所述前一时刻预测目标动作图像帧特征图进行平均池化处理得到第五中间值；
[0146]
对所述第四中间值和所述第五中间值进行卷积处理与add操作后得到第六中间值；
[0147]
对所述第六中间值输入激活函数处理得到所述通道注意力系数。
[0148]
在本实施例中，通道注意力系数采用以下的公式计算：
[0149]
mc＝σ(conv(max(f
t-1
),avg(f
t-1
)))；
[0150]
mc为通道注意力系数。
[0151]
上述的f
t-1
为前一时刻的预测目标动作图像帧特征图。
[0152]
参见附图6所示，注意力模块包括channel注意力模块和spatial注意力模块。其中，channel注意力模块用于实现对于通道注意力系数的学习，spatial注意力模块用于实现对于空间注意力系数的学习。
[0153]
如图所示，通道注意力模块，包括平均池化层和最大池化层，两个卷积单元，求和单元和激活函数单元。特征图分别输入到平均池化层和最大池化层；然后经过两个卷积单元conv，经过求和单元add，最后经过激活函数sigmoid。
[0154]
步骤s403中，根据所述通道注意力系数对所述前一时刻的预测目标动作图像帧特征图f
t-1
进行调整得到所述前一时刻的预测目标动作图像帧特征图的调整值f
′
t-1
；
[0155]
步骤s405中，根据所述通道注意力系数对后一时刻的预测目标动作图像帧特征图f
t
进行调整得到调整值f
t
′
。
[0156]
在一些实施例中，根据所述调整值f
′
t-1
确定空间注意力系数，可以进一步具体包括以下步骤：
[0157]
对所述调整值f
′
t-1
进行取最大值处理得到第一中间值；
[0158]
对所述调整值f
′
t-1
进行取平均值处理得到第二中间值；
[0159]
对所述第一中间值和所述第二中间值进行concat操作与卷积处理得到第三中间值；
[0160]
将所述第三中间值输入到激活函数进行处理，得到所述空间注意力系数。
[0161]
在本实施例中，空间注意力系数的计算公式如下：
[0162]ms
＝σ(conv(max(f
′
t-1
),avg(f
′
t-1
)))；
[0163]
其中，上述的f
′
t-1
代表前一时刻的预测目标动作图像帧特征图调整后的调整值。
[0164]
参见附图6中，spatial注意力模块的网络结构包括：取平均值层和取最大值层，卷积单元，激活函数单元。特征图分别输入到平均池化层和最大池化层；经过concat操作与卷积，激活函数处理，输出。
[0165]
步骤s407中，根据所述空间注意力系数、所述调整值f
t
′
和所述调整值f
′
t-1
确定所
述经过修正与融合的后一时刻的预测目标动作图像帧特征图。
[0166]
在一种实施方式中，步骤s403中，根据所述通道注意力系数对所述前一时刻的预测目标动作图像帧特征图f
t-1
进行调整得到所述前一时刻的预测目标动作图像帧特征图的调整值f
′
t-1
，可以包括以下的步骤：
[0167]
将所述通道注意力系数与所述前一时刻的预测目标动作图像帧特征图f
t-1
进行hadamard乘法运算，得到所述调整值f
′
t-1
。
[0168]
在本实施例中，计算公式如下：
[0169][0170]
代表hadamard乘法运算。
[0171]
在一些实施例中，步骤s405中，根据所述通道注意力系数对后一时刻的预测目标动作图像帧特征图f
t
进行调整得到调整值f
t
′
，可以包括以下步骤：
[0172]
确定1与所述通道注意力系数的第一差值；
[0173]
将所述第一差值与所述后一时刻的预测目标动作图像帧特征图f
t
进行hadamard乘法运算得到所述f
t
′
。
[0174]
在本实施例中，计算公式如下：
[0175][0176]
其中，f
t
代表后一时刻的预测目标动作图像帧特征图；
[0177]
上述的f
t
′
代表后一时刻的预测目标动作图像帧特征图f
t
进行调整得到调整值。
[0178]
在一些实施例中，步骤s407中，根据所述空间注意力系数、所述调整值f
t
′
和所述调整值f
′
t-1
确定所述经过修正与融合的后一时刻的预测目标动作图像帧特征图,可以进一步包括以下步骤：
[0179]
确定1与所述空间注意力系数的第二差值；
[0180]
确定所述第二差值与所述调整值f
t
′
的第一hadamard乘积；
[0181]
确定所述空间注意力系数与所述调整值f
′
t-1
的第二hadamard乘积；
[0182]
将所述第一hadamard乘积、所述第二hadamard乘积和预定的偏置值进行求和得到和值；
[0183]
将所述和值经过激活函数处理得到所述经过修正与融合的后一时刻的预测目标动作图像帧特征图f
″
t
。
[0184]
在一些实施例中，结合图5，采用以下的公式进行计算：
[0185][0186]
其中，f
″
t
表示经过修正与融合的后一时刻的预测目标动作图像帧特征图。
[0187]
f()代表激活函数。
[0188]
b表示偏置值。
[0189]
本技术的上述方法，使用空间注意力系数和通道注意力系数动态生成权重。通过上述的通道注意力系数和空间注意力系数选择隐藏状态下的重要信道和空间特征。使用hadamard积将上述的注意力系数与输入结合。使得convau能够专注于本地特征并减少冗余，同时有效地融合来自不同时间步长的特征映射的信息并更新隐藏状态。因此，convau可以更好地应用于三维时间序列数据。
[0190]
在一种实施方式中，所述t-net模块的损失函数包括动作损失函数、对抗损失函数和分辨率损失函数的和。
[0191]
在本实施例中，t-net模块的损失定义如下：
[0192][0193]
为了使模型可以区分生成的动态内容与真实的动态内容，分别根据生成动作视频v
′
与真实动作视频计算与使用l1范数计算与之间的距离，以此作为动作损失函数来促进模型学习到更多的动态内容，定义的计算动作损失的公式如下:
[0194][0195]
t表示时刻的数量；
[0196]
t表示t时刻；
[0197]
i表示g-vrnn总的层数；
[0198]
i表示第i个g-vrnn层；
[0199]
n表示数量；
[0200]
n表示第n个gram矩阵；
[0201]
表示gram矩阵；
[0202][0203]
表示对特征图进行转换计算后的矩阵；
[0204]
v＝h
×
w；
[0205]
其中，h为预测目标动作特征图的高度；w为预测目标动作特征图的宽度；
[0206]
c表示通道数量。
[0207]
其中，上述的gram矩阵的数量为n个，可以被用来合成动态的纹理信息，以实现图像风格迁移等操作，使用gram矩阵可以进一步促进网络生成更为丰富的动态内容。对于t时刻的g-vrnn层，将该层中的特征图vrnn层，将该层中的特征图转换成n个
[0208]
在一些实施例中，使用l1范数计算生成动作视频v
′
与真实动作视频y的分辨率损失
[0209]
所述分辨率损失函数的计算公式如下：
[0210][0211]
其中，v
′
表示预测目标动作视频；
[0212]
y表示实际的目标动作视频；
[0213][0214][0215]
其中，σ是sigmoid激活函数，是t时刻g-vrnn层中的一个卷积操作，表示结
合t时刻前景与背景信息的掩码，v
′
t
表示所述t-net模块生成的t时刻的预测目标动作图像帧。
[0216]
t时刻g-vrnn层所生成的前景信息y
t
，会偏向于包含更多的动作内容。为了保证帧图像在含有前景动态信息的同时也能拥有一定的背景信息，采用mask掩码机制去结合前景流y
t
中的动态信息与背景流yb中的背景信息。
[0217]
所述对抗损失函数的计算公式如下：
[0218][0219]
其中，d
t
表示多个d-vrnn组成的视频判别器；
[0220]
x表示输入的目标动作图像帧；
[0221]gt
表示多个g-vrnn组成的视频生成器。
[0222]
在一种实施方式中，所述s-net模块中，包括frb模块，所述frb模块包括第一卷积核为1
×k×
k，第二卷积核为k
×1×
1。
[0223]
在本实施例中，frb是一个轻量级三维卷积模块，如图7所示，堆叠两个卷积核分别为1
×k×
k、k
×1×
1的三维卷积，采用残差结构将输入与输出进行相加。这种结构可以在减少一定计算量的同时又可以完成动作视频的超分辨率任务。
[0224]
上述的frb与由channel注意力和spatial注意力组成的cbam被引入s-net中在空间维度聚焦局部特征，重构分辨率信息。
[0225]
在一些实施例中，s-net为二阶段网络，网络结构如图1所示。
[0226]gs
的背景流结构与g
t
一样，采用编码-解码结构u-net生成背景信息。如图8所示，前景流通过堆叠多个frb模块，以保证网络有足够的空间映射能力去学习重构分辨率信息。在frb模块中插入cbam模块，帮助前景流更好的关注重构局部特征。对于输入v
′
，前景流会对帧图像下采样，再通过pixelshuffle上采样进行还原。采用掩码公式将前景与背景信息进行结合，生成分辨率重构后的视频v
″
。
[0227]ds
由三维卷积组成，对v
″
进行下采样操作，输出判别概率。通过ds判断v
″
的真假不断促进gs像更加真实的方向进行学习。在s-net中的对抗损失定义如下：
[0228][0229]
为了保证s-net网络可以从语义特征和分辨率特征两个层面来完成分辨率的重构任务，对v
″
计算特征损失与分辨率损失。对于特征损失，将生成视频v
″
和真实视频y分别送入vgg网络，分别得到对应vgg网络第h层所输出的特征图fh，采用mse计算两个特征图之间的距离
[0230][0231]fh
＝vggh(y)；
[0232]
其中特征损失定义如下：
[0233][0234]
采用l1范式计算v
″
与真实视频y的距离作为分辨率损失与真实视频y的距离作为分辨率损失定义如下：
[0235][0236]
最终s-net网络的损失函数定义如下：
[0237][0238]
在一些实施例中，数据集的选择可以选择眨眼数据集。
[0239]
眨眼既属于局部动作，又有足够的细节信息体现在整个动作过程当中。因此选择通过从小尺度局部动作和大尺度局部动作两个层面预测眨眼动作视频来验证模型聚焦局部特征，预测细节信息的能力。并选择在kth中同样具有局部动作特点的数据上进一步验证模型的通用性。
[0240]
创建两个小样本数据集，分别为具有小尺度局部动作特点的人脸眨眼数据集和具有大尺度局部动作特点的眼部截取眨眼数据集。调整每个动作视频分辨率的大小为256
×
256。每个动作视频由七帧组成，且其能够包含完整的眼部闭眼、睁眼动作。其中人脸眨眼数据集共352组动作视频数据，如图9所示，划分训练集数据为300组，测试集数据为52组。眼部截取眨眼数据集共448组动作视频数据。
[0241]
如图10所示，划分训练集数据为377组，测试集数据为71组。
[0242]
kth数据集是经典动作识别数据集，动作视频的分辨率为160
×
128。其包含6个动作，并且每个动作都由25个人完成。处理每个动作视频由7帧组成，调整分辨率大小为128
×
128。选择其中1到16人的挥手动作作为训练集，共300组动作视频数据，17到25人作为测试集，共75组动作视频数据。
[0243]
在t-net中，使用adam优化器，lr为0.0002，β1为0.5，β2为0.999，数据批量为2，训练t-net 150轮。生成器g
t
中每个卷积层后面会使用实例归一化与relu激活函数。判别器d
t
中每个卷积层后面使用实例归一化与leaky_relu函数。g-vrnn与d-vrnn中需要计算损失、隐向量与添加向量的卷积层如表1所示，具体的相关参数如表2所示。
[0244][0245]
表1
[0246]
[0247][0248]
表2
[0249]
在s-net中，使用adam优化器，lr为0.0002，β1为0.5，β2为0.999，数据批量为2，训练s-net 100轮，设置α＝0.01，γ＝0.06，vgg模型应用前34层计算特征损失gs中背景流的参数设置与g
t
一样，同时frb模块由prelu激活函数与两层三维卷积组成，卷积核分别为1
×3×
3、3
×1×
1。判别器ds中的三维卷积后面使用实例归一化、leaky_relu。s-net网络中ds具体的相关参数如表3所示。
[0250][0251]
表3
[0252]
在两个眨眼数据集的实验中，对图像的像素值进行归一化，将数值范围映射到[-1,1]区间上，模型的输入为分辨率是256
×
256的静态眼部截取图像或静态人脸图像。模型在眨眼数据集上生成的数据大小为3
×7×
256
×
256。
[0253]
相较于整个动作视频画面，眼部截取动作视频中的眨眼动作范围尺度相对较大。因此在眼部截取数据集进行训练以验证模型处理大尺度局部特征的效果。
[0254]
参见表4所示的基于静态眼部图像预测七帧的定量对比结果统计表，模型的预测动作视频帧在图像级别和像素级别都达到较好的效果。
[0255][0256][0257]
表4
[0258]
参见图11所示的多个模型的定性对比图，对比模型可以学习到眼部动作的变化，实现针对眼部运动趋势的有效预测，预测动作视频的动作内容较为连贯。但对眼部特征的处理能力较低，导致预测动作视频的质量较差，眼部细节信息仍然趋于模糊。而本技术模型预测的动作视频不但具有连贯的动作内容，而且可以较为精准的预测出眼部的细节信息。
[0259]
与眼部截取眨眼数据集不同，人脸眨眼数据集的眼部特征较小，可以进一步验证模型处理小尺度局部特征的效果。
[0260][0261]
表5
[0262]
参见附图12所示的对比图，可见各个模型的预测效果都产生了一定的下降，其中vgan几乎不能学习到眼部的特征变化，预测动作视频的动态内容较少。而参见表5，本技术的模型依旧可以聚焦到小尺度特征，预测出较为连贯的动作内容，能够较好的重构脸部的细节信息。
[0263]
在一些实施例中，在kth数据集的实验中，同样对图像的像素值进行归一化。模型的输入为分辨率是128
×
128的静态挥手图像。模型在kth数据集上生成的数据大小为3
×7×
128
×
128。
[0264]
选择kth数据集挥手数据进一步验证模型的鲁棒性。
[0265]
参见图13所示的模型预测结果对比图，表6所示的各个模型预测的结果的对比表。
[0266][0267][0268]
表6
[0269]
对于经典的行为识别数据，对比模型都可以预测挥手的运动趋势，但是手臂的细节特征在运动过程中存在模糊与缺失。但本技术的模型同样可以聚焦挥手的局部特征，预测出连贯的挥手动作，并比较精准的预测出手臂的细节信息。
[0270]
在三个数据集上的实验说明，上述的convau可以有效应用于三维时序数据，聚焦不同尺度的局部特征。t-net在时间维度上充分发挥了rnn与gan的优势，堆叠的g-vrnn层使用convau可以预测出较为逼真的局部动态内容，而堆叠的d-vrnn层使用convau可以对局部动态内容进行有效的判别。s-net则在空间维度上充分发挥了cnn与gan的优势。使用堆叠的3dcnn与注意力模块有效重构了t-net所预测动作视频的分辨率，减少了模糊现象的出现。在使用3dcnn进行判别的情况下，预测动作视频的质量得到了进一步的提升。而将注意力机制加入到convau与s-net前景流中的方式可以使模型有效关注重要特征，在小样本数据集上表现出较好的性能。
[0271]
参见图14所示的t-net与s-net的对比图。t-net可以做到在时间维度上聚焦局部特征，并生成局部动态信息。但由于convau并不能完全消除冗余信息，冗余信息会随着特征向量的传递而不断叠加。因此t-net预测动作视频中的细节信息在一定程度上也会存在模糊问题。
[0272]
s-net则可以做到重构t-net预测动作视频的分辨率。两种眨眼图像中眼部细节信息与挥手图像中手臂细节信息的模糊问题都得到了有效的缓解。
[0273]
本技术提出了两阶段模型vstgan，包含t-net与s-net两个gan网络。实现由动作预测。其中，t-net在时间维度上预测局部动态信息，s-net在空间维度上重构动态信息的分辨
率。基于动作图像帧，模型可以依次从时间与空间两个维度进行建模。同时提出convau动态生成rnn中的权重，以更好的适用于三维时序数据。实验表明，上述模型可以有效预测局部细节信息，并且在小样本数据集上的表现效果依然良好。
[0274]
第二方面，本技术提出了一种动作图像处理装置，参见附图15所示的一种动作图像处理装置的结构示意图，该装置包括：
[0275]
获取模块121，用于获取目标动作图像帧；
[0276]
处理模块122，用于将所述目标动作图像帧输入到预先训练的vstgan模型中进行预测得到目标动作视频；
[0277]
输出模块123，用于输出所述目标动作视频；
[0278]
其中，所述vstgan模型包括：t-net模块与s-net模块；
[0279]
所述t-net模块，用于在时间维度生成所述内容连贯的目标动作视频；
[0280]
所述s-net模块，用于在空间维度提高所述目标动作视频的清晰度。
[0281]
第三方面，本技术提出了一种动作图像处理设备，参见附图16，包括：
[0282]
处理器31；用于存储处理器131可执行指令的存储器132；
[0283]
其中，所述处理器131被配置为运行所述可执行指令以实现上述任一项所述的方法。
[0284]
第四方面，本技术提出了一种非临时性计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现上述任一项所述方法的步骤。
[0285]
在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0286]
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。
[0287]
本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0288]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征：
1.一种动作图像处理方法，其特征在于，包括：获取目标动作图像帧；将所述目标动作图像帧输入到预先训练的vstgan模型中进行预测得到目标动作视频；输出所述目标动作视频；其中，所述vstgan模型包括：t-net模块与s-net模块；所述t-net模块，用于在时间维度生成所述内容连贯的目标动作视频；所述s-net模块，用于在空间维度提高所述目标动作视频的清晰度。2.根据权利要求1所述的动作图像处理方法，其特征在于，所述t-net模块包括视频生成器和视频判别器；所述视频生成器包括多个视频生成循环神经网络g-vrnn；所述视频判别器包括多个视频判别循环神经网络d-vrnn；每个视频生成循环神经网络g-vrnn和对应的视频判别循环神经网络d-vrnn为一组；其中，每个视频生成循环神经网络g-vrnn包括：多组交替设置的逆卷积层和相加add层；多个堆叠的逆卷积层，多组交替设置的逆卷积层和注意单元convau；每个视频判别循环神经网络d-vrnn包括：多组交替设置的卷积层和注意单元convau；多个堆叠的卷积层。3.根据权利要求1所述的动作图像处理方法，其特征在于，在每组视频生成循环神经网络g-vrnn和视频判别循环神经网络d-vrnn中，所述视频生成循环神经网络g-vrnn用于生成预测目标动作图像帧；所述视频判别循环神经网络d-vrnn用于根据实际的目标动作图像帧对所述预测目标动作图像帧进行判别；如果判别不通过，则更新所述视频生成循环神经网络g-vrnn，调整生成预测的目标动作图像帧，以提升所述生成预测目标动作图像帧中的动作连贯性。4.根据权利要求1所述的动作图像处理方法，其特征在于，所述目标动作视频包括多个预测目标动作图像帧；对于任意的两个相邻时刻的预测目标动作图像帧；所述t-net模块用于根据前一时刻的预测目标动作图像帧特征图对后一时刻的预测目标动作图像帧特征图进行修正与融合，以提升后一时刻的预测目标动作图像帧的动作连贯性，得到经过修正与融合的后一时刻的预测目标动作图像帧。5.根据权利要求4所述的动作图像处理方法，其特征在于，根据前一时刻的预测目标动作图像帧特征图对后一时刻的预测目标动作图像帧特征图进行修正与融合，包括：根据前一时刻的预测目标动作图像帧特征图确定通道注意力系数，具体包括：对所述前一时刻预测目标动作图像帧特征图进行最大池化处理得到第四中间值；对所述前一时刻预测目标动作图像帧特征图进行平均池化处理得到第五中间值；对所述第四中间值和所述第五中间值进行卷积处理与add操作后得到第六中间值；对所述第六中间值输入激活函数处理得到所述通道注意力系数；根据所述通道注意力系数对所述前一时刻的预测目标动作图像帧特征图f
t-1
进行调整得到所述前一时刻的预测目标动作图像帧特征图的调整值f
′
t-1
；
根据所述通道注意力系数对后一时刻的预测目标动作图像帧特征图f
t
进行调整得到调整值f
′
t
；根据所述调整值f
′
t-1
确定空间注意力系数，具体包括：对所述调整值f
′
t-1
进行取最大值处理得到第一中间值；对所述调整值f
′
t-1
进行取平均值处理得到第二中间值；对所述第一中间值和所述第二中间值进行concat操作与卷积处理得到第三中间值；将所述第三中间值输入到激活函数进行处理，得到所述空间注意力系数；根据所述空间注意力系数、所述调整值f
′
t
和所述调整值f
′
t-1
确定所述经过修正与融合的后一时刻的预测目标动作图像帧特征图。6.根据权利要求5所述的动作图像处理方法，其特征在于，根据所述通道注意力系数对所述前一时刻的预测目标动作图像帧特征图f
t-1
进行调整得到所述前一时刻的预测目标动作图像帧特征图的调整值f
′
t-1
，包括：将所述通道注意力系数与所述前一时刻的预测目标动作图像帧特征图f
t-1
进行hadamard乘法运算，得到所述调整值f
′
t-1
；根据所述通道注意力系数对后一时刻的预测目标动作图像帧特征图f
t
进行调整得到调整值f
′
t
，包括：确定1与所述通道注意力系数的第一差值；将所述第一差值与所述后一时刻的预测目标动作图像帧特征图f
t
进行hadamard乘法运算得到所述f
′
t
；根据所述空间注意力系数、所述调整值f
′
t
和所述调整值f
′
t-1
确定所述经过修正与融合的后一时刻的预测目标动作图像帧特征图,包括：确定1与所述空间注意力系数的第二差值；确定所述第二差值与所述调整值f
′
t
的第一hadamard乘积；确定所述空间注意力系数与所述调整值f
′
t-1
的第二hadamard乘积；将所述第一hadamard乘积、所述第二hadamard乘积和预定的偏置值进行求和得到和值；将所述和值经过激活函数处理得到所述经过修正与融合的后一时刻的预测目标动作图像帧特征图。7.根据权利要求1所述的动作图像处理方法，其特征在于，所述t-net模块的损失函数包括动作损失函数、对抗损失函数和分辨率损失函数的和；其中，所述动作损失函数的计算公式：t表示时刻的数量；t表示t时刻；i表示g-vrnn总的层数；i表示第i个g-vrnn层；n表示数量；n表示第n个gram矩阵；
表示gram矩阵；表示gram矩阵；表示对特征图进行转换计算后的矩阵；v＝h
×
w；其中，h为预测目标动作特征图的高度；w为预测目标动作特征图的宽度；c表示通道数量；所述分辨率损失函数的计算公式：其中，v
′
表示预测目标动作视频；y表示实际的目标动作视频；y表示实际的目标动作视频；其中，σ是sigmoid激活函数，是t时刻g-vrnn层中的一个卷积操作，表示结合t时刻前景与背景信息的掩码，v
′
t
表示所述t-net模块生成的t时刻的预测目标动作图像帧；所述对抗损失函数的计算公式：其中，d
t
表示多个d-vrnn组成的视频判别器；x表示输入的目标动作图像帧；g
t
表示多个g-vrnn组成的视频生成器。8.一种动作图像处理装置，其特征在于，包括：获取模块，用于获取目标动作图像帧；处理模块，用于将所述目标动作图像帧输入到预先训练的vstgan模型中进行预测得到目标动作视频；输出模块，用于输出所述目标动作视频；其中，所述vstgan模型包括：t-net模块与s-net模块；所述t-net模块，用于在时间维度生成所述内容连贯的目标动作视频；所述s-net模块，用于在空间维度提高所述目标动作视频的清晰度。9.一种动作图像处理方法设备，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为运行所述可执行指令以实现权利要求1至7中任一项所述的方法。10.一种非临时性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。

技术总结
本公开涉及一种动作图像处理方法、装置、设备和存储介质。该方法包括：获取目标动作图像帧；将目标动作图像帧输入到预先训练的VSTGAN模型中进行预测得到目标动作视频；输出目标动作视频。VSTGAN模型包括T-net模块与S-net模块,T-net模块用于在时间维度生成内容连贯的目标动作视频，S-net模块用于在空间维度提高目标动作视频的清晰度。本申请的T-net模块可以生成内容连贯的目标动作视频，S-net可以提高目标动作视频的清晰度。以提高目标动作视频的清晰度。以提高目标动作视频的清晰度。

技术研发人员：刘学君郭嘉程晏涌沙芸李忠林王汝墨刘家译栾海英
受保护的技术使用者：北京石油化工学院
技术研发日：2023.04.23
技术公布日：2023/8/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

动作图像处理方法、装置、设备和存储介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

动作图像处理方法、装置、设备和存储介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表