一种解构图像生成网络中层表征的方法和装置与流程

未命名 07-22 阅读：105 评论：0

1.本发明属于深度学习、生成对抗神经网络及可解释性应用技术领域，尤其涉及一种解构图像生成网络中层表征的方法和装置。

背景技术：

2.深度学习日益在人们的日常生活中许多场景下发挥越来越重要的作用，生成式对抗网络(generative adversarial networks，gan)是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。生成对抗网络在医学领域、自动驾驶领域及其他图像处理领域得到了广泛的应用。但基于其端到端的的训练方式也带来了不可解释性的固有缺陷，这限制了其在金融、医疗及法律等领域的应用。同时为模型赋予可解释性也有助于确保公平性，隐私保护性和鲁棒性。
3.解构gan是探索gan可解释性的直接方法，之前的研究主要集中与两个角度解构gan。一些工作主要针对与分离生成图像的属性，radford[1]同时可视化gan中的滤波器的感受野，表明特定滤波器对应生成特定的语义特征。voynov[2]关注于优化gan生成器的参数空间，以学习可解释的表示。shen[3]通过改变输入的隐向量来探索生成图片的不同属性，jahania[4]探索gan的隐向量空间可实现对gan生成图像的简单变换。其他工作主要集中于生成图像的结构和纹理分离，singh[5]将背景、物体形状和物体外观分离，可实现以分层方式生成图像。collin[6]在无监督条件下控制和调节gan生成图像的基本特征，实现了生成图像中对象部件分解，但其并不能确保每个滤波器独立对应单个视觉概念。然而，这些研究仅限于探索gan的可解释性并未提出一个通用的方法来增强gan可解释性。zhang[7]提出了可解释卷积神经网络,通过对每个卷积核加一个残差函数用来促进卷积核独立表示目标部件。本发明在之前研究的基础上，不仅探索gan的可解释性，更提出了一种通用的方法增强gan的可解释性。
[0004]
本发明的贡献可以总结如下。我们提出了一种通用的方法，将传统的gan修改为可解释的gan，而不需要任何视觉概念的注释。在可解释gan中，生成器中间层中的每个滤波器在生成不同图像时始终生成相同的局部视觉概念。实验表明，我们的方法可以应用于不同类型的gan。

技术实现要素：

[0005]
本发明目的是针对现有技术的不足，提供了一种解构图像生成网络中层表征的方法和装置。本发明使得gan生成器的中间层解构局部的视觉概念，即为生成模型中间层的每个滤波器在生成不同图像时始终生成相同的局部视觉特征概念。
[0006]
本发明目的是通过下述技术方案实现的：一种解构图像生成网络中层表征的方法，包括以下步骤：
[0007]
(1)给定生成对抗网络的生成器g，构建高斯混合模型来对g的任一层进行分组，使得每一组的滤波器独立生成相同图像区域；
[0008]
(2)建立能量模型来表示生成图像真实性；具体为：设置能量函数为选定层的每个滤波器输出的特征图和其所属组的特征图点乘并乘以能量模型参数，以增强gan生成图像的真实性；
[0009]
(3)设计残差函数使得同一组滤波器中的每个滤波器都能独立生成相同的图像区域以及不同组滤波器生成图像区域的独立性；具体为：对能量模型参数进行优化使得当第j个滤波器属于第c类时，使得能量模型参数w
jc
》0，当第j个滤波器不属于第c类时，使得能量模型参数w
jc
《0；
[0010]
(4)整体残差函数设计，通过将gan训练的loss和优化ebm的loss以及使得目标层滤波器解构的loss融合起来从而实现优化的目的；
[0011]
(5)能量模型模型优化,采用ebm和gan交替训练方式，通过交替多次训练ebm和gan，直至满足每一类滤波器可以确定的代表一类视觉概念；
[0012]
所述步骤(3)中，一个组内所有滤波器独立生成相同的图像区域，即滤波器属于第c类；不同的滤波器生成不同的图像区域，即滤波器不属于第c类。
[0013]
进一步地，所述步骤(1)具体为：
[0014]
将高斯混合模型选定层的滤波器看作变量，利用高斯混合模型来对其进行聚类,将对应的类别对应高斯混合模型的若干个峰，通过em算法优化gmm参数即可得到每一个滤波器所属的类别；再根据滤波器所属的类别进行分组。
[0015]
进一步地，所述步骤(2)中，能量模型表示生成图像真实性；还包括：对于gan随机输入的隐向量noise，利用朗之万动力学来对隐向量noise进行优化，以优化图像质量。
[0016]
进一步地，所述步骤(5)具体为：
[0017]
先训练判别器d后训练生成器g的方法来多次训练gan；再开始训练能量模型的参数及gan的生成器g从第一层到目标层的参数。
[0018]
进一步地，所述训练能量模型的参数及gan的生成器g从第一层到目标层的参数，包括以下步骤：
[0019]
对每个输入gan的隐向量计算langevin dynamics进行mcmc采样得到修正向量，利用修正向量前向传播得到理想特征图；
[0020]
将ebm参数视为一个可学习参数，更新ebm参数及gan从第一层到目标层的参数。
[0021]
进一步地，所述步骤(2)中，通过直接操纵滤波器输出的特征图来操纵生成图像。
[0022]
进一步地，所述步骤(2)中，对滤波器输出的特征图平移、旋转和缩放操作来操纵生成图像的语义概念的变化。
[0023]
进一步地，所述步骤(2)中，通过交换不同组的滤波器输出的特征图，从而实现在生成图像之间交换视觉概念的目的。
[0024]
一种解构图像生成网络中层表征的装置，包括一个或多个处理器，用于实现上述的一种解构图像生成网络中层表征的方法。
[0025]
一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的一种解构图像生成网络中层表征的方法。
[0026]
本发明的有益效果是：本发明考虑到过程计算量问题、增强可解释性问题，采用高斯混合模型(gaussian mixture model，gmm)对模型目标层滤波器分组，通过设计一种新的残差函数增强gan可解释性。本发明提出的方法可以实现无监督学习，使得每组滤波器自觉
生成对应视觉概念的图像区域。本发明可以实现无标注，使得其自己学习对应的视觉概念的图像区域，更加符合神经网络内部实际表示。
附图说明
[0027]
为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0028]
图1为发明方法的流程示意图；
[0029]
图2为传统gan生成的图像与本发明生成的图像的对比图；
[0030]
图3为可视化本发明提出的可解释gan的感受野的图；
[0031]
图4为利用本发明提出的可解释gan在两幅图像之间交换视觉概念的结果图；
[0032]
图5为本发明的一种硬件结构图。
具体实施方式
[0033]
这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0034]
在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0035]
应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0036]
下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。
[0037]
如图1所示，本发明的一种解构基于生成式对抗网络的图像生成模型中层表征的方法，包括以下步骤：
[0038]
步骤1、给定生成器g，利用gmm来求解分组情况q使得每一组的滤波器独立生成相同图像区域；包括以下子步骤：
[0039]
步骤1.1，建立高斯混合模型。具体公式如下：
[0040]
[0041][0042]
θ为建立的高斯混合模型，之后求解模型参数即可。
[0043]
其中
x
代表选定目标层的滤波器；k代表混合模型中子高斯模型的数量，即为聚类数目；k＝1,2,...,k；pk代表选定filter属于第k类的概率，φ(x∣θk)代表第k类的分布，其本身满足一个高斯模型的分布；μk为第k个子高斯模型的均值，σk为第k个子高斯模型的方差。
[0044]
步骤1.2、建立gmm的优化目标即为多样本聚类似然函数，具体表示如下：
[0045][0046]
l(θ)即为建立似然函数，通过最大化似然函数来学习高斯混合模型参数{pk,μk,σ2}∈θ。
[0047]
其中s＝1,2,...s，s代表样本图片数目j＝1,2,...,n，n代表选定目标层滤波器数目，xj代表目标层的第j个滤波器。
[0048]
步骤1.3、利用em算法估计gmm参数；包括以下子步骤：
[0049]
步骤1.3.1、隐变量说明
[0050][0051][0052]
其中zj∈{1,2,...,k}代表对与第j个滤波器所属类别；k∈{1,2,...,k}代表对滤波器分组的组数，；θ为建立的gmm模型参数；s＝1,2,...s，s代表样本图片数目；代表第s个样本的k个滤波器
[0053]
步骤1.3.2、e步：计算期望及后验概率
[0054][0055]
e步为根据当前gmm参数，计算第s个样本的第j个filter属于类别k的概率。其中，，代表第s个样本第k个滤波器，
[0056]
θk为第k个高斯模型的参数，表示在当前模型参数下，样本图片的第j个滤波器
来自第k组概率。
[0057]
步骤1.3.3、m步：计算模型参数
[0058][0059]
其中分别代表第k个高斯模型的均值和方差；代表每个高斯模型的权重；表示在当前模型参数下，样本图片的第j个滤波器来自第k组概率；代表第s个样本第k个滤波器
[0060]
s＝1,2,...s，s代表样本图片数目j＝1,2,...,n，n代表选定目标层滤波器数目，k＝1,2,...k代表所有的组数。
[0061]
步骤1.3.4、检查gmm聚类次数是否到达最大步骤或者最大似然估计的变化量小于设定阈值，如果满足条件则认为聚类已完成，否则返回步骤1.3.2。
[0062]
步骤2、能量模型可输出特征图概率从而提高图像真实性，建立能量模型来表示生成图像真实性，设计loss如下：
[0063][0064]
其中，z代表能量模型对gan输入隐向量优化后得到的filter，fg(z)代表目标层的特征图，q代表gmm聚类分组的结果，pw(fg(z)∣q)为确定分类q后的能量模型，λ1为权重设计，l(
×
)为指示函数，z(w)＝∫exp(gw(fg′
(z)))p0(z)dz用于归一化，其中z～n(0,σ2id)代表z满足高斯分布，id代表d维单位矩阵。σ2代表方差。
[0065][0066][0067]gw
(fg(z))为能量函数，作为生成图像真实性的衡量指标。
[0068]
其中，fj代表第j个滤波器输出的特征图，代表第c类的聚类中心输出的特征图，w
jc
代表能量模型参数。
[0069]
步骤3、设计残差函数使得同一组滤波器中的每个滤波器都能独立生成相同的图像区域以及不同组滤波器生成图像区域的独立性，具体表示为：
[0070][0071]
为了表示可解释性，一个组内所有滤波器独立生成相同的图像区域，即为第j个滤波器属于第c类，为了fj接近通过设置w
jck
》0，gw(fg(z))使得其近似；不同的滤波器生成不同的图像区域，即为第j个滤波器不属于第c类，为了fj远离通过设置w
jck
《0，gw(fg(z))使得其不同。
[0072]
步骤4、整体残差函数设计
[0073]
为实现可解释性引入loss为：
[0074][0075]
其中，λ2,λ3为权重，为实现目标层滤波器分组，为增加生成图像的真实性，为增加可解释性。
[0076][0077]
l为整体残差函数，λ0为权重。
[0078]
其中为gan的loss，
[0079]
总体loss优化为：
[0080][0081]
步骤4、模型训练，采用ebm和gan交替训练方式；
[0082]
步骤4.1、多次训练gan；包括以下子步骤：
[0083]
步骤4.1.1、固定生成器g，训练判别器d；
[0084][0085]
其中，xi为输入图像，为生成器生成图像，θd为判别器参数，i＝1,2,...m代表参与训练的第i个样本，d(xi)代表判别器d对真实信号数据的输出，代表判别器d对生成器g生成虚假图像的输出，代表生成器g和判别器d之间的对抗损失函数。表示d试图将真实数据和假数据区分开的能力；代表求导
[0086]
步骤4.1.1、固定判别器d，训练生成器g；
[0087][0088]
其中，θg为生成器参数，代表生成器g和判别器d之间的对抗损失函数。表示d试图将真实数据和假数据区分开的能力。g(zi)代表生成器g输入隐向量的输出。
[0089]
步骤4.2、多次训练ebm参数的和gan从第一层到目标层；包括以下子步骤：
[0090]
步骤4.2.1、对每个输入gan的隐向量zi计算langevin dynamics进行mcmc采样得
到修正向量
[0091][0092]
其中τ代表时间步骤，δ代表每一步的权重，u
τ
～n(0,id)代表高斯噪声，d是z的维度，基于此可得到修正隐向量利用修正向量前向传播得到理想特征图
[0093]
步骤4.2.2、将ebm模型的参数w视为一个可学习参数，更新其ebm参数及gan从第一层到可解释层的参数
[0094][0095]
可对其直接求梯度可得：
[0096][0097][0098]
步骤4.3，重复步骤4.1，步骤4.2直到loss不再下降。
[0099]
如图2所示，与传统gan相比，可解释gan中的每个滤波器在生成不同图像时始终如一地代表一个有意义的视觉概念；不同的过滤器代表不同的视觉概念。
[0100]
图3是可视化利用本发明增强可解释性后的stylegan的滤波器对应的感受野(rfs)，并将其放大到图像分辨率。在生成不同的图像时，利用本发明增强可解释性的gan模型滤波器生成相同的视觉概念对应的图像区域，不同的滤波器生成不同的视觉概念对应的图像区域。第一列显示生成的图像。第二列显示了在中间层过滤器中编码的视觉概念分布的可视化。图中剩下的每一列都对应于某个类别的滤波器。可视化结果表明，可解释gan中的每组滤波器都能一致地生成对应于相同视觉概念的图像区域。不同的组滤波器生成的图像区域对应不同的视觉概念。
[0101]
图4为在原始图像和源图像之间交换特定的视觉概念。第二栏显示选择的交换部件，用红色标记。第四列显示修改后的图像。第五列显示了原始图像和修改后图像之间的均方误差热力图。热力图显示，我们的修改是可察觉的和局部的。
[0102]
图5为通过对我们的可解释gan中的相应特征图应用几何变换，修改生成的教堂图像上的尖顶。结果表明，我们的方法还可以用于几何控制特定视觉概念的外观
[0103]
对于一对图像，将原始图像的人脸替换为源图像的人脸来生成修改后的图像，然后测试修改后的图像和源图像的人脸是否具有相同的身份。具体来说为选择2k对人脸，并使用arcface方法来测试结果。结果显示本发明的方法在换脸后保持身份方面优于其他最先进的人脸交换方法。如表1所示：
[0104]
表1：人脸验证实验评估人脸交换的结果
[0105][0106]
与前述一种解构图像生成网络中层表征的方法的实施例相对应，本发明还提供了一种解构图像生成网络中层表征的装置的实施例。
[0107]
参见图5，本发明实施例提供的一种解构图像生成网络中层表征的装置，包括一个或多个处理器，用于实现上述实施例中的一种解构图像生成网络中层表征的方法。
[0108]
本发明的一种解构图像生成网络中层表征的装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明的一种解构图像生成网络中层表征的装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。
[0109]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。
[0110]
对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0111]
本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种解构图像生成网络中层表征的方法。
[0112]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(smart media card，smc)、sd卡、闪存卡(flash card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。
[0113]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。
[0114]
以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术
人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。
[0115]
本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
[0116]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

技术特征：
1.一种解构图像生成网络中层表征的方法，其特征在于，包括以下步骤：(1)给定生成对抗网络的生成器g，构建高斯混合模型来对g的任一层进行分组，使得每一组的滤波器独立生成相同图像区域；(2)建立能量模型来表示生成图像真实性；具体为：设置能量函数为选定层的每个滤波器输出的特征图和其所属组的特征图点乘并乘以能量模型参数，以增强gan生成图像的真实性；(3)设计残差函数使得同一组滤波器中的每个滤波器都能独立生成相同的图像区域以及不同组滤波器生成图像区域的独立性；具体为：对能量模型参数进行优化使得当第j个滤波器属于第c类时，使得能量模型参数w
jc
>0，当第j个滤波器不属于第c类时，使得能量模型参数w
jc
<0；(4)整体残差函数设计，通过将gan训练的loss和优化ebm的loss以及使得目标层层滤波器解构的loss融合起来从而实现优化的目的；(5)能量模型模型优化,采用ebm和gan交替训练方式，通过交替多次训练ebm和gan，直至满足每一类滤波器可以确定的代表一类视觉概念；所述步骤(3)中，一个组内所有滤波器独立生成相同的图像区域，即滤波器属于第c类；不同的滤波器生成不同的图像区域，即滤波器不属于第c类。2.根据权利要求1所述的一种解构图像生成网络中层表征的方法，其特征在于，所述步骤(1)具体为：将高斯混合模型选定层的滤波器看作变量，利用高斯混合模型来对其进行聚类,将对应的类别对应高斯混合模型的若干个峰，通过em算法优化gmm参数即可得到每一个滤波器所属的类别；再根据滤波器所属的类别进行分组。3.根据权利要求1所述的一种解构图像生成网络中层表征的方法，其特征在于，所述步骤(2)中，能量模型表示生成图像真实性；还包括：对于gan随机输入的隐向量noise，利用朗之万动力学来对隐向量noise进行优化，以优化图像质量。4.根据权利要求1所述的一种解构图像生成网络中层表征的方法，其特征在于，所述步骤(5)具体为：先训练判别器d后训练生成器g的方法来多次训练gan；再开始训练能量模型的参数及gan的生成器g从第一层到目标层的参数。5.根据权利要求4所述的一种解构图像生成网络中层表征的方法，其特征在于，所述训练能量模型的参数及gan的生成器g从第一层到目标层的参数，包括以下步骤：对每个输入gan的隐向量计算langevin dynamics进行mcmc采样得到修正向量，利用修正向量前向传播得到理想特征图；将ebm参数视为一个可学习参数，更新ebm参数及gan从第一层到目标层的参数。6.根据权利要求1所述的一种解构图像生成网络中层表征的方法，其特征在于，所述步骤(2)中，通过直接操纵滤波器输出的特征图来操纵生成图像。7.根据权利要求1所述的一种解构图像生成网络中层表征的方法，其特征在于，所述步骤(2)中，对滤波器输出的特征图平移、旋转和缩放操作来操纵生成图像的语义概念的变化。8.根据权利要求1所述的一种解构图像生成网络中层表征的方法，其特征在于，所述步
骤(2)中，通过交换不同组的滤波器输出的特征图，从而实现在生成图像之间交换视觉概念的目的。9.一种解构图像生成网络中层表征的装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-8中任一项所述的一种解构图像生成网络中层表征的方法。10.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-8中任一项所述的一种解构图像生成网络中层表征的方法。

技术总结
本发明公开了一种解构图像生成网络中层表征的方法和装置，属于生成式对抗网络及可解释性应用技术领域。本方法将传统的GAN修改为可解释的GAN而不需要手动标注语义特征。该发明设计一种残差函数来优化通过解构中层表征来增强模型可解释性。本发明提出的方法可以实现无监督学习，使得每组滤波器自觉学习一致的视觉概念的图像区域，同时避免了人为标注语义的操作，更符合神经网络内部真实特性。更符合神经网络内部真实特性。更符合神经网络内部真实特性。

技术研发人员：李超耿浩棒王劲姚柯璐
受保护的技术使用者：之江实验室
技术研发日：2023.03.07
技术公布日：2023/7/21

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种调味料烘干装置的制作方法 下一篇：一种密封防水的装配式建筑叠合板的制作方法

一种解构图像生成网络中层表征的方法和装置与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种解构图像生成网络中层表征的方法和装置与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表