基于注意力机制和金字塔池化的多模态图像合成方法

未命名 08-26 阅读：92 评论：0

1.本发明属于图像深度伪造领域，具体涉及基于注意力机制和金字塔池化的多模态图像合成方法。

背景技术：

2.多模态图像合成指将输入的描述性语句转换为向量以作为附加信息，约束生成对抗网络生成整张图像，属于计算机视觉和自然语言处理的交叉应用领域，其相关研究有助于挖掘文本和图像之间的潜在关系，形成计算机的视觉语义机制。而相较于单模态图像合成，多模态图像合成是跨模态的数据映射，生成过程更加困难，但相较于单模态图像合成方法对生成图像的控制能力和表意能力不强的缺陷，多模态图像合成在一定程度增强了对生成图像的控制能力和表意能力。但现有技术中的多模态图像合成方法中合成的图像细节不足，生成的图像缺乏视觉真实性。

技术实现要素：

3.本发明提出基于注意力机制和金字塔池化的多模态图像合成方法，增加不同通道件的信息交互，生成包含更多细节的特征图，并引入金字塔池化，进一步合成细节更加真实的合成图像。
4.本发明通过以下技术方案实现：
5.基于注意力机制和金字塔池化的多模态图像合成方法，包括如下步骤：
6.步骤s1、利用生成对抗网络的生成器获取特征图gn，生成器包括n个结构相同的上采样模块和一个金字塔池化模块，各上采样模块均包括上采样层、第一仿射层、第一卷积层、通道注意力层、第二仿射层和第二卷积层，利用文本编码器lstm编码句子向量，将编码后的句子向量s输入第一个上采样模块；
7.对于第一个上采样模块：
8.句子向量s经上采样层采样后得到句子采样向量s
′
，在第一仿射层，利用多层感知机将句子采样向量s
′
转化为仿射变换的通道缩放参数γ和位移参数β，并根据公式aff(x|s
′
)＝γ
·
x+β进行仿射变换，得到仿射特征图x；
9.分别对仿射特征图x的每个通道进行全局均值池化和全局最大池化，将池化结果相加得到池化特征图f，并根据该池化特征图f得到对应于仿射特征图x的第i个通道的注意力权重wi，根据公式x
1-att
＝wi⊙ci
得到通道注意力层的输出x
1-att
，其中，ci表示仿射特征图x的第i个通道，i为整数；
10.将通道注意力层的输出x
1-att
依次经第二仿射层和第二卷积层后得到输入第二上采样模块的特征图g1，并将该特征图g1输入第二个上采样模块，以此类推，得到第n个上采样模块输出的特征图gn；
11.步骤s2、生成器的金字塔池化模块根据特征图gn生成合成图像x：将特征图gn分成大小为m
×
m的尺度子区域，m取不同的值以得到不同的尺度子区域，对于各尺度子区域，分
别对特征图gn进行平均池化，并对各池化输出结果的通道数进行卷积降维，对降维后的结果进行双线性插值上采样得到尺寸与特征图gn相同的恢复特征图，将这些恢复特征图和特征图gn在通道维数拼接相加得到金字塔池化全局特征图，并根据该金字塔池化全局特征图输出生成合成图像x；
12.步骤s3、生成对抗网络还包括判别器，利用匹配感知梯度惩罚和合页损失函数完成生成器与判别器的训练。
13.进一步的，所述步骤s1中，设置n＝6个上采样模块。
14.进一步的，所述步骤s1中，生成对抗网络还具有全连接层，将随机噪声z作为全连接层的输入，全连接层将该随机噪声z映射成和句子向量相级联的三维张量后输入第一个上采样模块。
15.进一步的，所述步骤s1中，根据公式对仿射特征图x的每个通道进行全局均值池化，根据公式对仿射特征图x的每个通道进行全局最大池化，根据公式wi＝σ(conv(fi))获取注意力权重wi，其中，conv(
·
)为1
×
1卷积运算，σ为sigmoid激活函数，wi表示第i个通道的宽，hi表示第i个通道的高。
16.进一步的，所述步骤s2中，m分别取值1、2、3和6，即将特征图gn分成大小分别为1
×
1、2
×
2、3
×
3和6
×
6四种尺度子区域。
17.进一步的，所述步骤s2中，根据公式x
ppm
＝cat[bu(conv(xc×1×1)),bu(conv(xc×2×2)),bu(conv(xc×3×3)),bu(conv(xc×6×6))，g6]得到金字塔池化全局特征图，其中xc×1×1＝apc×1×1(g6)，xc×2×2＝apc×2×2(g6)，xc×3×3＝apc×3×3(g6)，xc×6×6＝apc×6×6(g6)，ap(
·
)为平均池化操作，conv(
·
)为1
×
1卷积操作，bu(
·
)为双线性插值上采样操作，cat(
·
)为连接函数。
[0018]
进一步的，所述步骤s2中，对金字塔池化全局特征图x
ppm
进行1
×
1卷积操作得到合成图像x。
[0019]
进一步的，所述步骤s3中，判别器总的损失函数ld为其中：为判别器的合页损失函数，根据公式计算，其中，pr为与文本匹配的真实图像分布，x
′
为真实图像，d(
·
)表示判别器计算，e为求期望，s为句子向量，pg为与文本匹配的生成图像分布，p
mis
为与文本不匹配的真实图像分布；l
ma-gp
为匹配感知梯度惩罚的损失函数，根据公式计算，其中，k和p为超参数，为梯度算子。
[0020]
本发明具有如下有益效果：
[0021]
1、本发明在仿射层和卷积层后利用通道注意力机制关注特征图的重要通道，利用注意力机制对特征图进行加权，增加不同通道间的信息交互，使生成图像的细节更丰富；另一方面，利用金字塔池化兼顾特征图的上下文信息和全局信息，从而增强特征图的细节和边缘，同时增强生成图像的整体亮度、对比度等宏观特征，使生成图像的细节更真实。
附图说明
[0022]
下面结合附图对本发明做进一步详细说明。
[0023]
图1为本发明的步骤流程图。
[0024]
图2为本发明的整体框架流程图。
[0025]
图3为本发明的对抗生成器的网络结构图。
[0026]
图4为本发明的通道注意力结构图。
[0027]
图5为本发明的金字塔池化结构图。
[0028]
图6为双向判别器网络和单向判别器网络的对比图。
[0029]
图7为匹配感知梯度惩罚示意图。
[0030]
图8为cub数据集示例图。
[0031]
图9为coco数据集示例图。
[0032]
图10为multi-modal celeba-hq数据集示例图。
[0033]
图11为本发明与现有其他方法的实验效果图。
[0034]
图12为本发明与现有其他方法的定性消融实验效果比较图。
具体实施方式
[0035]
如图1和图2所示，基于注意力机制和金字塔池化的多模态图像合成方法包括如下步骤：
[0036]
步骤s1、利用生成对抗网络的生成器获取特征图gn，，生成器包括n＝6个结构相同的上采样模块和一个金字塔池化模块，如图3所示，各上采样模块均包括上采样层、第一仿射层、第一卷积层、通道注意力层、第二仿射层和第二卷积层，利用文本编码器lstm编码句子向量，将编码后的句子向量s将编码后的句子向量s输入第一个上采样模块；
[0037]
生成对抗网络还具有全连接层，将随机噪声z作为全连接层的输入，全连接层将该随机噪声z映射成和句子向量相级联的三维张量后输入第一个上采样模块，该过程表示为g0＝f0(z)，f0为全连接层，第一个上采样模块的输出可表示为g1＝f
1up
(g0,s)，其余五个上采样模块的输出可表示为gj＝f
jup
(g
j-1
,s),j＝2,3,...,6，其中，f
jup
为上采样模块；
[0038]
对于第一个上采样模块：
[0039]
句子向量s经上采样层采样后得到句子采样向量s
′
，在第一仿射层，利用多层感知机将句子采样向量s
′
转化为仿射变换的通道缩放参数γ和位移参数β，并根据公式aff(x|s
′
)＝γ
·
x+β进行仿射变换，得到仿射特征图x；
[0040]
其中，通道缩放参数γ的计算为γ＝mlp1(s
′
)，位移参数β的计算为β＝mlp2(s
′
)，mlp1(
·
)、mlp2(
·
)均为多层感知机；
[0041]
根据公式对仿射特征图x的每个通道进行全局均值池化，根据公式对仿射特征图x的每个通道进行全局最大池化，将池化结果相加得到池化特征图并根据公式wi＝σ(conv(fi))得到对应于仿射特征图x的第i个通道的注意力权重wi，获取各通道的注意力权重后根据公式x
1-att
＝wi⊙ci
得到通道注意力层的输出x
1-att
，其中，ci表示仿射特征图x的第i个通
道，i为整数，conv(
·
)为1
×
1卷积运算，σ为sigmoid激活函数，wi表示第i个通道的宽，hi表示第i个通道的高，
⊙
为逐元素乘积；通道注意力结构图如图4所示；
[0042]
将通道注意力层的输出x
1-att
依次经第二仿射层和第二卷积层后得到输入第二个上采样模块的特征图g1，并将该特征图g1输入第二上采样模块，在第二上采样模块，对特征图g1进行上采样后，再依次经第一仿射层、第一卷积层、通道注意力层、第二仿射层和第二卷积层，得到第二个上采样模块输出的特征图g2，该特征图g2也作为第三个上采样模块的输入，依次类推，直至得到第六个上采样模块输出的特征图g6；
[0043]
步骤s2、生成器的金字塔池化模块根据特征图gn生成合成图像x：将特征图gn分成大小为m
×
m的尺度子区域，m取不同的值以得到不同的尺度子区域，对于各尺度子区域，分别对特征图gn进行平均池化，并对各池化输出结果的通道数进行卷积降维，对降维后的结果进行双线性插值上采样得到尺寸与特征图gn相同的恢复特征图，将这些恢复特征图和特征图gn在通道维数拼接相加得到金字塔池化全局特征图，并根据该金字塔池化全局特征图输出生成合成图像x；
[0044]
特征图的全局信息和上下文信息对于合成图像的质量至关重要，故利用不同尺度的池化操作来捕获特征图的上下文信息，减少不同尺度特征图间上下文信息的丢失，从而增强特征图的细节和边缘，同时，在最终特征图上构造全局场景先验信息，以提高网络获取全局信息的能力；
[0045]
具体地，如图5所示，m分别取值1、2、3和6，即将特征图gn分成大小分别为1
×
1、2
×
2、3
×
3和6
×
6四种尺度子区域，其中，1
×
1尺度的特征最粗略，6
×
6尺度的特征则较为精细，此时多尺度特征图聚合了特征图整体和细节信息，得到全局信息扩大感受野；
[0046]
根据公式得到金字塔池化全局特征图x
ppm
，对该金字塔池化全局特征图x
ppm
进行1
×
1卷积操作得到合成图像x，即x＝conv(x
ppm
)，其中，x
ppm
∈r
2c
×h×w，x∈rc×h×w，xc×1×1＝apc×1×1(g6)，xc×2×2＝apc×2×2(g6)，xc×3×3＝apc×3×3(g6)，xc×6×6＝apc×6×6(g6)，ap(
·
)为平均池化操作，conv(
·
)为1
×
1卷积操作，bu(
·
)为双线性插值上采样操作，cat(
·
)为连接函数，将各个特征图沿纵向通道连接；
[0047]
步骤s3、模型训练：生成对抗网络还包括判别器，判别器判别图像是否真实且是否符合文本，利用匹配感知梯度惩罚和合页损失函数完成生成器与判别器的训练；
[0048]
对于堆叠式多模态图像合成网络，判别器需要判别两个问题：图像是否真实、图像是否符合文本。双向判别需要计算无条件损失和条件损失，将二者求和得到对抗损失。在迭代过程，对抗损失与前二者损失在收敛过程中存在一定偏差，可能出现模式坍塌的问题。
[0049]
本实施例的判别器使用匹配感知梯度惩罚损失，判别器根据单向判别收敛。图6为双向判别器网络和单向判别器网络的对比。匹配感知梯度惩罚的好处在于，可以根据梯度惩罚，确保判别器有一个平滑的损失函数，利用梯度下降的方式帮助生成器收敛至期望值，匹配感知梯度惩罚示意图如图7所示。
[0050]
本实施例的判别器中，对抗损失采用合页损失，判别器的合页损失具体为本实施例的判别器中，对抗损失采用合页损失，判别器的合页损失具体为生成器对抗损失为生成对抗网络中生成器的损失函数为其中，
pr为与文本匹配(即句子向量)的真实图像分布，x
′
为真实图像，d(
·
)表示判别器计算，e为求期望，x为合成图像，s为句子向量，pg为与文本匹配的生成图像分布，p
mis
为与文本不匹配的真实图像分布；l
ma-gp
为文本生成图像的匹配感知梯度惩罚的损失函数，根据公式计算，其中，k和p为超参数，训练时设置为2与6，为梯度算子。
[0051]
为了充分验证本发明引入通道注意力机制和金字塔池化的有效性，在三个数据集上进行了实验，分别是cub鸟类数据集、coco数据集和multi-modal celeba-hq数据集。
[0052]
cub鸟类数据集是由加利福尼亚理工大学构建，包含200种鸟类11788张图片。每一种鸟类都有特定文法的文本描述，每张图片都与10个语言描述相对应，如图8所示。本发明选择150种鸟类8855张图片作为训练集，50种鸟类2933张图片作为测试集。
[0053]
coco数据集由微软构建，是一个大型数据集，用于多个基于视觉的任务，例如图像识别，图像分割和字幕显示等。数据集包含各种图像的特征，每个图像的5个不同的人工注释标题文本，如图9所示。数据集有包含多对象的实物图像，也有单个实例对象的图片，例如飞机、人物和动物等。本发明选择80k图像作为训练集，40k图像作为测试集。
[0054]
multi-modal celeba-hq数据集[44]是一个大规模人脸图像数据集。因为添加了描述文本的缘故，multi-modal celeba-hq数据集在数据格式方面和其他常见的数据集并无不同，诸如coco数据集和cub数据集，它们的数据格式均一样，如图10所示。本发明选择24k张图像作为训练集，6k张图像作为测试集。
[0055]
本发明的评价指标是fid，fid是评价生成图像和真实图像差距的衡量指标，具体做法是提取真实图像和生成图像的特征，并计算对比它们的特征分布，即其中，μr和εr是真实图像的特征均值和协方差矩阵，μg和εg是生成图像的特征均值和协方差矩阵，tr(
·
)是矩阵的迹。
[0056]
fid的大小与图像质量成反比，fid评价指标需要更小，则表示生成了更加真实的图像。
[0057]
本发明选择了三个现有技术中具有代表性的方法作为基线方法，进行对比实验，具体如下：
[0058]
attngan方法：通过注意力驱动的多阶段细化来实现细粒度的多模态图像合成，借助注意力生成网络，attngan关注了文本单词，该模型堆叠了三个生成器网络和三个判别器网络，完成低分辨率图像到高分辨率图像的生成；
[0059]
dm-gan方法：利用记忆机制确定文本中哪些信息是重要的，使生成的图像更加符合文本描述，该模型在一定程度解决生成图片不够细节和不够符合文本描述的问题，但也堆叠了两个阶段的图像生成；
[0060]
df-gan方法：提出了单阶段多模态图像合成框架，通过残差连接建立生成器和判别器，引入仿射变换和梯度惩罚方式使生成的图像更加符合文本，但是df-gan方法仍然存在细节合成不充分的问题。
[0061]
上述三个方法中，attngan和dm-gan是基于堆叠式生成对抗网络的方法，df-gan是基于单阶段生成对抗网络的方法。
[0062]
对比实验分析：
[0063]
将本发明与上述三个基线方法进行实验对比，实验结果如表1所示，最好的结果加粗显示，次优结果下划线显示，本发明合成图像的效果如图11所示。
[0064]
表1:对比实验结果(fid)
[0065][0066][0067]
对于cub数据集，本发明的fid最低，说明在鸟类多模态图像的合成中，本发明合成的图像最为真实，融合注意力机制和金字塔池化是有效的。三个基线方法的fid值都较低，说明三个基线方法基本能合成较为真实的鸟类图像，只是在细节合成方面不如本发明。本发明的fid只比次优方法低了3.59，本发明与次优方法都是基于单阶段生成对抗网络的方法，说明单阶段生成对抗网络对生成鸟类图像是有效的，基于堆叠式生成对抗网络的方法在一定程度损害了鸟类生成图像的真实性。本发明不仅能合成符合文本描述的鸟类图像，而且合成的鸟类图像细节丰富且真实。
[0068]
对于coco数据集，本发明的fid最低，说明在多场景多模态图像合成中，本发明合成的多场景图像与真实图像最为接近。本发明的fid比次优方法低了6.22，有较大的下降。这是由于多场景图像较为复杂，本发明先采用通道注意力机制加强通道间的信息交互，使生成的场景更加丰富；再利用金字塔池化，融合上下文信息和全局信息，增强细节和边缘，处理整体亮度、对比度等，使生成的场景更加真实。本发明合成的多场景图像内容丰富，有细节但是还需提高。
[0069]
对于multi-modal celeba-hq数据集，本发明的fid最低，说明在多场景人脸图像合成中，本发明合成的人脸图像与真实图像最为接近。本发明的fid比次优方法低了3.44，有小幅度的下降，三种基线方法的fid值都较高。这是由于图像中人物可能带着饰品、梳着不同的发型，人脸具有不同表情神态，在生成复杂的人物图像时，在细节方面存在困难。本发明能合成符合文本描述的人物图像，但是部分人物的背景还存在伪影。
[0070]
消融实验分析：
[0071]
为了验证通道注意力机制和金字塔池化对多模态图像合成任务的贡献，本发明在cub数据集和coco数据集上设计了消融实验，试验结果如表2所示：
[0072]
表2:定量消融实验结果(fid)
[0073][0074]
对于cub数据集，当在df-gan方法中引入通道注意力机制调整通道信息权重时，生成图像和真实图像的距离(fid)下降了3.21，这是由于图像中主要物体是鸟，通道注意力增加不同通道间的信息交互，使生成图像的细节更丰富，比如丰富了毛发、头部、嘴巴和姿势等细节；当在df-gan方法中引入金字塔池化时，生成图像和真实图像的距离(fid)下降了2.84，金字塔池化获取上下文信息和全局信息，使生成图像的细节更真实，比如增强鸟的细节和边缘，同时关注鸟毛发的质感和图像的亮度；当同时引入通道注意力机制和金字塔池化时，生成图像和真实图像的距离(fid)下降了3.59，二者结合进一步合成更加真实的鸟类图像。
[0075]
对于coco数据集，当在df-gan方法中引入通道注意力机制调整通道信息权重时，生成图像和真实图像的距离(fid)下降了5.43，coco数据集场景复杂，通道注意力增加不同通道间的信息交互，专注合成场景结构的重要部分，使合成图的场景更丰富；当在df-gan方法中引入金字塔池化时，生成图像和真实图像的距离(fid)下降了5.65，在合成场景复杂的图像时，相比引入通道注意力机制，引入金字塔池化的fid下降更多，说明金字塔池化获取的上下文信息和全局信息，更有利于复杂场景的合成；当同时引入通道注意力机制和金字塔池化时，生成图像和真实图像的距离(fid)下降了6.22，二者结合进一步提高合成复杂场景图像的能力。
[0076]
定性消融实验效果比较如图12所示，利用可视化结果在cub数据集和coco数据集两个数据集展示了本发明的性能，图中用黑色方框标出略微欠缺的部分。定性消融实验设置为：将以同一文本描述为条件的基础方法1、基础方法2、基础方法3和本发明最终生成的图像进行对比。
[0077]
对于cub数据集，当未引入通道注意力机制和金字塔池化时，基础方法1抓住了“yellow bird”、“black trail”和的颜色特征以及“small”的形状特征，但是对于毛发的质感、爪子的合成还有欠缺，细节信息“yellowalong the top of the feathers”合成不明显；当在df-gan方法中引入通道注意力机制调整通道信息权重时，可以看出基础方法2不仅抓住了主要的颜色特征和形状特征，对于细节毛发、爪子的合成也有一定进步，但细节信息“yellow along the top of the feathers”依旧合成不明显；当在df-gan方法中引入金字塔池化时，可以看出基础方法3抓住了主要物体的合成，合成了较为真实的毛发质感，爪子细节合成较好，但是相对于基础方法1和基础方法2，细节信息“yellow along the top of the feathers”合成更不明显；当同时引入通道注意力机制和金字塔池化时，本发明不仅抓住了主要的颜色特征和形状特征，能够合成符合文本描述的图像，合成的细节也更加真实，
并且合成了更加真实的背景。
[0078]
对于coco数据集，当未引入通道注意力机制和金字塔池化时，基础方法1抓住了主要的文本信息，合成的图像大致符合文本，但是由于场景复杂，较难合成人物正常的姿态，自然光下的明暗对比也较难合成，图像的细节和整体都有所欠缺；当在df-gan方法中引入通道注意力机制调整通道信息权重时，图像中合成了较多的场景要素，但是人物的姿态略微变形、场景中存在伪影，合成图像中雪地的纹理还不够真实；当在df-gan方法中引入金字塔池化时，相比基础方法1和基础方法3，合成图像中人物的姿态更加正常；当同时引入通道注意力机制和金字塔池化时，本发明兼顾人物姿态和背景合成，相比前三种基础方法，本发明合成的要素更多、细节也更加真实，但是在合成复杂场景图时，本发明仍然有所欠缺。
[0079]
综上所述，本发明实验结果表明，与主流的方法相比，本发明在三种数据集上均取得了先进的效果。
[0080]
以上所述，仅为本发明的较佳实施例而已，故不能以此限定本发明实施的范围，即依本发明申请专利范围及说明书内容所作的等效变化与修饰，皆应仍属本发明专利涵盖的范围。

技术特征：
1.基于注意力机制和金字塔池化的多模态图像合成方法，其特征在于：包括如下步骤：步骤s1、利用生成对抗网络的生成器先获取特征图g
n
，生成器包括n个结构相同的上采样模块，各上采样模块均包括上采样层、第一仿射层、第一卷积层、通道注意力层、第二仿射层和第二卷积层，利用文本编码器lstm编码句子向量，将编码后的句子向量s输入第一个上采样模块；对于第一个上采样模块：句子向量s经上采样层采样后得到句子采样向量s
′
，在第一仿射层，利用多层感知机将句子采样向量s
′
转化为仿射变换的通道缩放参数γ和位移参数β，并根据公式aff(x|s
′
)＝γ
·
x+β进行仿射变换，得到仿射特征图x；分别对仿射特征图x的每个通道进行全局均值池化和全局最大池化，将池化结果相加得到池化特征图f，并根据该池化特征图f得到对应于仿射特征图x的第i个通道的注意力权重w
i
，根据公式x
1-att
＝w
i
⊙
c
i
得到通道注意力层的输出x
1-att
，其中，c
i
表示仿射特征图x的第i个通道，i为整数；将通道注意力层的输出x
1-att
依次经第二仿射层和第二卷积层后得到输入第二上采样模块的特征图g1，并将该特征图g1输入第二个上采样模块，以此类推，得到第n个上采样模块输出的特征图g
n
；步骤s2、生成器根据特征图g
n
生成合成图像x：将特征图g
n
分成大小为m
×
m的尺度子区域，m取不同的值以得到不同的尺度子区域，对于各尺度子区域，分别对特征图g
n
进行平均池化，并对各池化输出结果的通道数进行卷积降维，对降维后的结果进行双线性插值上采样得到尺寸与特征图g
n
相同的恢复特征图，将这些恢复特征图和特征图g
n
在通道维数拼接相加得到金字塔池化全局特征图，并根据该金字塔池化全局特征图输出生成合成图像x；步骤s3、生成对抗网络还包括判别器，利用匹配感知梯度惩罚和合页损失函数完成生成器与判别器的训练。2.根据权利要求1所述的基于注意力机制和金字塔池化的多模态图像合成方法，其特征在于：所述步骤s1中，设置n＝6个上采样模块。3.根据权利要求2所述的基于注意力机制和金字塔池化的多模态图像合成方法，其特征在于：所述步骤s1中，生成对抗网络还具有全连接层，将随机噪声z作为全连接层的输入，全连接层将该随机噪声z映射成和句子向量相级联的三维张量后输入第一个上采样模块。4.根据权利要求1或2或3所述的基于注意力机制和金字塔池化的多模态图像合成方法，其特征在于：所述步骤s1中，根据公式对仿射特征图x的每个通道进行全局均值池化，根据公式对仿射特征图x的每个通道进行全局最大池化，根据公式w
i
＝σ(conv(f
i
))获取注意力权重w
i
，其中，conv(
·
)为1
×
1卷积运算，σ为sigmoid激活函数，w
i
表示第i个通道的宽，h
i
表示第i个通道的高。5.根据权利要求1或2或3所述的基于注意力机制和金字塔池化的多模态图像合成方法，其特征在于：所述步骤s2中，m分别取值1、2、3和6，即将特征图g
n
分成大小分别为1
×
1、2
×
2、3
×
3和6
×
6四种尺度子区域。
6.根据权利要求2或3所述的基于注意力机制和金字塔池化的多模态图像合成方法，其特征在于：所述步骤s2中，根据公式x
ppm
＝cat[bu(conv(x
c
×1×1)),bu(conv(x
c
×2×2)),bu(conv(x
c
×3×3)),bu(conv(x
c
×6×6))，g6]得到金字塔池化全局特征图，其中x
c
×1×1＝ap
c
×1×1(g6)，x
c
×2×2＝ap
c
×2×2(g6)，x
c
×3×3＝ap
c
×3×3(g6)，x
c
×6×6＝ap
c
×6×6(g6)，ap(
·
)为平均池化操作，conv(
·
)为1
×
1卷积操作，bu(
·
)为双线性插值上采样操作，cat(
·
)为连接函数。7.根据权利要求6所述的基于注意力机制和金字塔池化的多模态图像合成方法，其特征在于：所述步骤s2中，对金字塔池化全局特征图x
ppm
进行1
×
1卷积操作得到合成图像x。8.根据权利要求1或2或3所述的基于注意力机制和金字塔池化的多模态图像合成方法，其特征在于：所述步骤s3中，判别器总的损失函数l
d
为其中：为判别器的合页损失函数，根据公式计算，其中，p
r
为与文本匹配的真实图像分布，x
′
为真实图像，d(
·
)表示判别器计算，e为求期望，s为句子向量，p
g
为与文本匹配的生成图像分布，p
mis
为与文本不匹配的真实图像分布；l
ma-gp
为匹配感知梯度惩罚的损失函数，根据公式计算，其中，k和p为超参数，为梯度算子。

技术总结
本发明提供基于注意力机制和金字塔池化的多模态图像合成方法，包括步骤S1、利用生成对抗网络的生成器获取特征图g

技术研发人员：李弼程候哲晓李佳乐王成皮慧娟王华珍
受保护的技术使用者：华侨大学
技术研发日：2023.05.26
技术公布日：2023/8/23

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于注意力机制和金字塔池化的多模态图像合成方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于注意力机制和金字塔池化的多模态图像合成方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表