一种基于强化学习的人脸图像编辑方法与流程

未命名 08-26 阅读：105 评论：0

1.本发明涉及图像编辑技术领域，更具体的说是涉及一种基于强化学习的人脸图像编辑方法。

背景技术：

2.对美的追求，是人类的本性和客观需要，它能满足人的情感需要，令人感到愉快。图像是传递信息，表达情感的重要载体，不同图像之间的美学吸引力差异很大，它的质量影响着观众的感受。人工智能在认知美、评价美的方面发展迅速，但在创造美方面仍然具有很大进步空间。
3.随着社交应用的普及，人们希望在软件上传更为美观的个人图像，增加自己交友的魅力，越来越多的美图应用投入实际生产研发。从原图发送到如今更多人选择对图像修饰美化后再上传，可以看出人们的审美要求在不断提高。目前的美图软件对人脸图像的美化遵循模板化标准，对真实人脸图像进行智能编辑，并且提供个性化的美化指导，在日常生活中有广泛的应用需求，而且在医疗美容、平面广告设计、图像后期处理等专业领域也具有巨大的发展潜力，前景一片光明。
4.因此，如何能够根据不同的审美需求选择面部属性并编辑得到美学高质量的人脸图像，是本领域技术人员亟需解决的问题。

技术实现要素：

5.有鉴于此，本发明通过强化学习方法对stylegan生成器底层的面部语义属性进行调整，进而编辑得到更符合人类审美的美丽人脸图像。
6.为了实现上述目的，本发明采用如下技术方案：
7.一种基于强化学习的人脸图像编辑方法，其特征在于，步骤包括：
8.获取待编辑人脸图像并提取第一面部属性；
9.将所述待编辑人脸图像并通过编码模块对所述待编辑人脸图像进行映射，得到图像隐变量；
10.获取预训练的生成器；
11.将所述图像隐变量输入至所述生成器，生成第一人脸图像；
12.在所述第一面部属性中选择待编辑属性并将第一人脸图像输入至训练好的图像评估模型，得到评估结果；
13.将所述待编辑属性和所述评估结果输入至训练好的强化学习模块，生成第二面部属性；
14.将所述图像隐变量与所述第二面部属性输入连续归一化流模块生成目标人脸图像的隐变量；
15.将所述目标人脸图像的隐变量输入所述图像生成模块，生成第二人脸图像。
16.进一步的，将所述第一人脸图像输入至训练好的图像评估模型，得到评估结果，步
骤包括：
17.对所述第一人脸图像进行预处理后输入到主干网络中进行特征提取，得到特征向量；
18.将所述特征向量输入至通道注意力模块，得到三维向量，在经过激活和自适应平均池化后展开成一维向量；
19.将所述一维向量输入到回归网络，输出评估结果。
20.进一步的，所述图像评估模型的训练步骤包括：
21.训练一个分类网络，将训练数据输入到主干网络提取特征，并通过所述分类网络进行分类；所述分类网络训练时，损失值通过交叉熵函数进行参数回传，并保持回归网络的参数不进行回传；
22.在分类网络基础上对数据进行回归训练，以提取更多的美学特征，此时仅放开回归网络，将主干网络和分类网络的参数冻结。
23.进一步的，所述强化学习模块的训练步骤，具体为：
24.对面部属性进行初始化，并根据选择的属性生成对应的多组训练图像；
25.根据预设的强化学习策略对各组所述训练图像分别进行计算，生成新的面部属性，并产生对应新面部属性的新面部图像；
26.通过所述图像评估模型对新面部图像进行评估，并根据评估结果采用软梯度策略更新梯度进行迭代，直至收敛。
27.进一步的，所述强化学习的策略为：
[0028][0029]
其中为第t次迭代的状态向量，为第t次迭代的动作向量，r是满足0≤r≤1的贴现因子；为熵，为超参数，控制在目标中的相对重要性；为策略的概率。
[0030]
进一步的，所述软梯度策略计算式为：
[0031][0032]
其中，是控制探测范围的温度超参数，是策略的值，是依赖于状态的基线；策略中的是一个可微的参数。
[0033]
进一步的，所述强化学习模块包括特征提取单元和门控循环单元；
[0034]
所述特征提取单元提取所述初始图像中的图像特征，并输入至所述门控循环单元；
[0035]
所述门控循环单元中的隐藏层末端连接有一层全连接层，通过所述全连接层输出所选属性的值。
[0036]
进一步的，所述特征提取单元为resnet18网络。
[0037]
一种神经网络模型，包括：编码器、生成器、图像评估网络和强化学习网络；
[0038]
所述编码器将待编辑图像转换为隐空间向量后，通过生成器进行图像重建；重建时，生成器根据隐空间向量产生面部属性，并得到重建后的图像；
[0039]
所述图像评估网络对重建的图像进行评估；
[0040]
所述强化学习网络根据重建过程中的产生的面部属性进行选择，并根据评估结构进行优化，得到优化后的面部属性，再次输入至所述生成器，生成最终图像。
[0041]
一种基于强化学习的人脸图像编辑系统，包括图像获取模块、图像编辑模块和图像生成模块；
[0042]
所述图像获取模块用于获取待编辑人脸图像；
[0043]
所述图像编辑模块用于根据所述待编辑人脸图像选取编辑属性；
[0044]
所述图像生成模块用于根据所述待编辑人脸图像进行初步评估，并根据所述评估结果对选取的所述编辑属性进行优化，得到优化后的面部属性；用于根据优化后的面部属性生成编辑结果。
[0045]
本发明的有益效果：
[0046]
经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于强化学习的人脸图像编辑方法，通过强化学习实现对图像面部属性的自动调整，生成符合图像评估的美学高质量人脸图像；本发明通过强化学习增强人脸图像，在强化学习中提供了一种新的具有自批判训练方式的软梯度策略的模型优化方法。
附图说明
[0047]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
[0048]
图1为本发明实施例提供的一种基于强化学习的人脸图像编辑方法示意图；
[0049]
图2为本发明实施例中的图像评估过程示意图；
[0050]
图3为本发明实施例中强化学习模块结构示意图。
具体实施方式
[0051]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0052]
如图1，本发明实施例提供一种基于强化学习的人脸图像编辑方法，步骤包括：
[0053]
s1：获取待编辑人脸图像并提取第一面部属性；将待编辑人脸图像并通过编码模块对所述待编辑人脸图像进行映射，得到图像隐变量；其中，编码模块采用pixel2style2pixel框架，以下简称psp。psp框架基于新型编码器网络，该网络生成一系列style向量。第一面部属性包括了姿势、发量、胡须、年龄、表情等。
[0054]
s2：获取预训练的生成器；将图像隐变量输入至生成器，生成第一人脸图像；具体的，使用stylegan网络模型结构作为生成器，生成分辨率为1024*1024的图像。由psp编码器将待编辑人脸图像转换为隐空间里的style向量后，由该生成器进行重建。
[0055]
s3：在第一面部属性中选择待编辑属性并将第一人脸图像输入至训练好的图像评
估模型，得到评估结果。
[0056]
在一种实施例中，图像评估模型由主干网络和回归网络组成，主干网络用于提取图像特征，回归网络用于根据图像特征进行回归计算，输出最终值，作为评估结果；具体的，主干网络和回归网络之间还具有通道注意力模块，评估过程为：对人脸图像预处理，以人脸为中心旋转裁剪缩放至800
×
800的分辨率，采用预先搭建的神经网络提取图像特征，并对提取的图像特征进行卷积；对卷积后的结果进行归一化后通过激活函数进行激活；将激活后的特征输入至eca注意力模块，得到三维向量，在经过激活和自适应平均池化后展开成一维向量；将一维向量输入到回归网络，输出图像质量参数，即美学评分，数范围为0到1。可使用efficientnet-b4作为预训练模型提取待评价图像的特征，进行图像特征的提取，提取特征后进行核大小为3的卷积操作。
[0057]
在本实施例中，图像评估模型的训练步骤为：
[0058]
训练一个分类网络，将训练数据输入到主干网络提取特征，并通过所述分类网络进行分类；所述分类网络训练时，损失值通过交叉熵函数进行参数回传，并保持回归网络的参数不进行回传；在分类网络基础上对数据进行回归训练，以提取更多的美学特征，此时仅放开回归网络，将主干网络和分类网络的参数冻结。
[0059]
具体的，先以0.1为步长训练一个十分类网络，分类网络训练时损失值通过交叉熵函数进行参数回传，并保持回归网络的参数不进行回传。在分类网络基础上对数据进行回归训练，以提取更多的美学特征，此时仅放开回归网络，将主干网络和分类网络的参数冻结。
[0060]
在分类训练中，设置单次处理数量为32，初始学习率设为0.001，当准确率连续多轮不提高时学习率自动降为一半，选择了adam 优化算法，将计算梯度以及梯度平方的运行平均值的系数设置为(0.98, 0.999)，将权重衰减系数设置为0.0001。在回归训练中，设置批处理大小为64，如果经过多轮训练均方误差没有下降，学习率同样地自动减半。
[0061]
s4：将待编辑属性和评估结果输入至训练好的强化学习模块，生成第二面部属性。如图2，强化学习模块包括特征提取单元和门控循环单元；特征提取单元提取初始图像中的图像特征，并输入至门控循环单元；门控循环单元中的隐藏层末端连接有一层全连接层，通过全连接层输出所选属性的值；特征提取单元为resnet18网络。
[0062]
强化学习模块的训练步骤包括：
[0063]
s41：对面部属性进行初始化，并根据选择的属性生成多组训练图像。
[0064]
s42：每组所述训练图像均通过强化学习模块计算对应属性的值，即新的面部属性。采用预设的强化学习策略对各组所述训练图像分别进行计算，生成新的面部属性，并产生对应新面部属性的新面部图像；其中，在强化学习中，智能体agent不断地与环境交互，定义为，其中和是状态和动作空间，是状态转移概率，是奖励，是初始状态s0的分布，γ贴现因子限定了智能体会在多大程度上受到较远状态的影响。目标是学习一个随机策略，这样当在采取行动时，轨迹的预期奖励最大化。
[0065]
具体步骤为：
[0066]
首先，将选择的特征维度对应的属性值设为0；然后对选择的特征维度分别进行探
索，探索过程需要根据预设值建立多条探索轨迹；因此，通过克隆初始属性得到5幅初始图像，其中，每幅图像对应一条探索轨迹的输入，每条探索轨迹对某一属性进行探索，通过探索计算新的属性值，并生成图像；最后，进行图像质量评估，得到5个评分，依赖于状态的基线被设置为五个分数的平均值，以此更新强化学习模块，以提高获得更高美学分数轨迹的概率，基线能有效降低学习过程中的方差，从而提升训练过程的稳定性。在本步骤中，贴现因子γ设置为1。此外，agent只对终端状态的奖励，对轨迹的中间状态也没有奖励。奖励值是指图像经过一系列调整后的评分。通过adam优化器优化下降梯度，其使用的学习率为1e-5，对参数没有l2正则化。resnet18模块是imagenet上的一个预训练版本。对于门控循环单元，隐藏状态的大小为512，与resnet18模块的输出相同。
[0067]
s43：通过图像评估模型对新面部图像进行评估，并根据评估结果采用软梯度策略更新梯度进行迭代，直至收敛。
[0068]
在本实施例中，进行强化学习的训练时，采用最大熵强化学习的框架来保证探索的随机性，防止过早收敛到次优策略。强化学习的目标设置为策略：
[0069][0070]
其中，s和a分别是agent 遇到的所有可能的状态空间集合和所有可能产生的动作空间集合，r是满足0≤r≤1的贴现因子。为熵，是一个超参数，设置为0.01，控制在目标中的相对重要性。
[0071]
软策略梯度公式如下：
[0072][0073]
其中，是控制探测范围的温度超参数，是策略的值，是一个依赖于状态的基线，只要不随动作变化可以是任何函数。
[0074]
在一种实施例中，将自批判的训练方式纳入软策略梯度更新中。用蒙特卡罗方法计算强化学习的q值，其中，q值即图像质量评估模型给出的美学分数。在本实施例中，强化学习模块使用的批次大小为16，每个梯度更新步骤的批处理大小为80。
[0075]
s5：将所述图像隐变量与新的面部属性输入连续归一化流模块(continuous normalizing flow，cnf)生成目标人脸图像的隐变量；
[0076]
s6：将所述目标人脸图像的隐变量输入所述图像生成模块，生成最终人脸图像。
[0077]
实施例2
[0078]
基于同一发明构思，本发明实施例公开一种神经网络模型，该神经网络模型用于实现实施例1中的图像编辑方法，包括：编码器、生成器、图像评估网络和强化学习网络；编码器将待编辑图像转换为隐空间向量后，通过生成器进行图像重建；重建时，生成器根据隐空间向量产生面部属性，并得到重建后的图像；图像评估网络对重建的图像进行评估；强化学习网络根据重建过程中的产生的面部属性进行选择，并根据评估结构进行优化，得到优化后的面部属性，再次输入至生成器，生成最终图像。
[0079]
实施例3
[0080]
基于同一发明构思，本发明实施例公开一种基于强化学习的人脸图像编辑系统，
其特征在于，包括图像获取模块、图像编辑模块和图像生成模块；图像获取模块用于获取待编辑人脸图像；图像编辑模块用于根据待编辑人脸图像选取编辑属性；图像生成模块用于根据待编辑人脸图像进行初步评估，并根据评估结果对选取的编辑属性进行优化，得到优化后的面部属性；用于根据优化后的面部属性生成编辑结果。
[0081]
本发明通过强化学习实现对人脸图像面部属性的控制，能够根据不同的审美需求自主选择面部属性并编辑得到高质量人脸图像；在推理过程中，不根据强化学习模块的softmax层进行采样，而是选择概率最大的动作，智能体为选取的特征维度依次自动设置数值后，得到新的面部属性。将所述图像隐变量与新的面部属性输入连续归一化流模块生成目标人脸图像的隐变量，然后输入图像生成模块，得到编辑后的人脸图像。
[0082]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0083]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：
1.一种基于强化学习的人脸图像编辑方法，其特征在于，步骤包括：获取待编辑人脸图像并提取第一面部属性；将所述待编辑人脸图像并通过编码模块对所述待编辑人脸图像进行映射，得到图像隐变量；获取预训练的生成器；将所述图像隐变量输入至所述生成器，生成第一人脸图像；在所述第一面部属性中选择待编辑属性并将第一人脸图像输入至训练好的图像评估模型，得到评估结果；将所述待编辑属性和所述评估结果输入至训练好的强化学习模块，生成第二面部属性；将所述图像隐变量与所述第二面部属性输入连续归一化流模块生成目标人脸图像的隐变量；将所述目标人脸图像的隐变量输入所述图像生成模块，生成第二人脸图像。2.根据权利要求1所述的一种基于强化学习的人脸图像编辑方法，其特征在于，将所述第一人脸图像输入至训练好的图像评估模型，得到评估结果，步骤包括：对所述第一人脸图像进行预处理后输入到主干网络中进行特征提取，得到特征向量；将所述特征向量输入至通道注意力模块，得到三维向量，在经过激活和自适应平均池化后展开成一维向量；将所述一维向量输入到回归网络，输出评估结果。3.根据权利要求1所述的一种基于强化学习的人脸图像编辑方法，其特征在于，所述图像评估模型的训练步骤包括：训练一个分类网络，将训练数据输入到主干网络提取特征，并通过所述分类网络进行分类；所述分类网络训练时，损失值通过交叉熵函数进行参数回传，并保持回归网络的参数不进行回传；在分类网络基础上对数据进行回归训练，以提取更多的美学特征，此时仅放开回归网络，将主干网络和分类网络的参数冻结。4.根据权利要求1所述的一种基于强化学习的人脸图像编辑方法，其特征在于，所述强化学习模块的训练步骤，具体为：对面部属性进行初始化，并根据选择的属性生成对应的多组训练图像；根据预设的强化学习策略对各组所述训练图像分别进行计算，生成新的面部属性，并产生对应新面部属性的新面部图像；通过所述图像评估模型对新面部图像进行评估，并根据评估结果采用软梯度策略更新梯度进行迭代，直至收敛。5.根据权利要求4所述的一种基于强化学习的人脸图像编辑方法，其特征在于，所述强化学习的策略为：其中为第t次迭代的状态向量，为第t次迭代的动作向量，r是满足0≤r≤1的贴现
因子；为熵，为超参数，控制在目标中的相对重要性；为策略的概率。6.根据权利要求5所述的一种基于强化学习的人脸图像编辑方法，其特征在于，所述软梯度策略计算式为：其中，是控制探测范围的温度超参数，是策略的值，是依赖于状态的基线；策略中的是一个可微的参数。7.根据权利要求1所述的一种基于强化学习的人脸图像编辑方法，其特征在于，所述强化学习模块包括特征提取单元和门控循环单元；所述特征提取单元提取所述初始图像中的图像特征，并输入至所述门控循环单元；所述门控循环单元中的隐藏层末端连接有一层全连接层，通过所述全连接层输出所选属性的值。8.根据权利要求7所述的一种基于强化学习的人脸图像编辑方法，其特征在于，所述特征提取单元为resnet18网络。9.一种神经网络模型，其特征在于，该神经网络模型用于实现权利要求1-8中任一项所述的图像编辑方法，包括：编码器、生成器、图像评估网络和强化学习网络；所述编码器将待编辑图像转换为隐空间向量后，通过生成器进行图像重建；重建时，生成器根据隐空间向量产生面部属性，并得到重建后的图像；所述图像评估网络对重建的图像进行评估；所述强化学习网络根据重建过程中的产生的面部属性进行选择，并根据评估结构进行优化，得到优化后的面部属性，再次输入至所述生成器，生成最终图像。10.一种基于强化学习的人脸图像编辑系统，其特征在于，包括图像获取模块、图像编辑模块和图像生成模块；所述图像获取模块用于获取待编辑人脸图像；所述图像编辑模块用于根据所述待编辑人脸图像选取编辑属性；所述图像生成模块用于根据所述待编辑人脸图像进行初步评估，并根据所述评估结果对选取的所述编辑属性进行优化，得到优化后的面部属性；用于根据优化后的面部属性生成编辑结果。

技术总结
一种基于强化学习的人脸图像编辑方法，步骤包括：获取待编辑人脸图像并提取第一面部属性；将所述待编辑人脸图像并通过编码模块对所述待编辑人脸图像进行映射，得到图像隐变量；获取预训练的生成器；将所述图像隐变量输入至所述生成器，生成第一人脸图像；将所述第一人脸图像输入至训练好的图像评估模型，得到评估结果；将所述第一面部属性和所述评估结果输入至训练好的强化学习模块，生成第二面部属性；将所述图像隐变量与所述第二面部属性输入连续归一化流模块生成目标人脸图像的隐变量；将所述目标人脸图像的隐变量输入所述图像生成模块，生成第二人脸图像；本发明通过强化学习实现对人脸面部属性的自动调整，提高人脸图像的美学质量。的美学质量。的美学质量。

技术研发人员：金鑫赵姝章乐赵鑫邓强肖超恩
受保护的技术使用者：北京隐算科技有限公司
技术研发日：2023.07.24
技术公布日：2023/8/24

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于强化学习的人脸图像编辑方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于强化学习的人脸图像编辑方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表