基于轻量化注意力机制的风格迁移方法
未命名
10-09
阅读:152
评论:0
1.本发明涉及人工智能技术领域,具体而言,尤其涉及基于轻量化注意力机制的风格迁移方法。
背景技术:
2.图像风格迁移是计算机视觉领域中备受关注的研究方向之一。随着深度学习技术的飞速发展,图像风格迁移得到了巨大的突破。简单来说,图像风格迁移就是将一张真实图像的内容与另一幅艺术作品(如油画)的风格相结合,以创造出一幅融合了艺术风格的新图像。在进行图像风格迁移时,输入的图像通常包括一张内容图和一张风格图,输出则是一张结合了两者的风格化结果。
3.现有的风格迁移技术可以分为基于优化的方法和基于神经网络的方法两种。基于优化的方法是指通过最小化目标函数来进行风格迁移的方法。其中最经典的算法是通过将待转换图片的内容特征与目标图片的内容特征保持一致,将待转换图片的风格特征与目标图片的风格特征保持一致,最终得到一张既保留了待转换图片的内容,又具有目标图片的风格的图片。该算法使用了卷积神经网络中的卷积层来提取特征,并通过最小化特征之间的差异来实现风格迁移。
4.基于神经网络的方法是指使用神经网络来进行风格迁移的方法。其中最经典的算法是使用了一种称为“风格损失”的损失函数,通过将待转换图片的内容特征与目标图片的内容特征保持一致,将待转换图片的风格特征与目标图片的风格特征保持不一致,最终得到一张既保留了待转换图片的内容,又具有目标图片的风格的图片。
5.然而,上述两种方法中均存在计算资源消耗大以及生成的图像不够逼真,具有一定的内容损失和风格损失的缺陷。
技术实现要素:
6.有鉴于此,本发明提供了一种基于轻量化注意力机制的风格迁移方法,本发明设计了一种轻量型注意力网络架构,利用共享权重层提取图像特征,在高维空间中利用额外的编码层进一步提取内容特征和风格特征,在节省时间的同时避免设备资源的浪费,能够高效生成逼真风格化的图像。
7.为此,本发明采用的技术手段如下:
8.本发明提供了一种基于轻量化注意力机制的风格迁移方法,包括:
9.构建基于轻量化注意力机制的神经网络风格迁移模型;神经网络风格迁移模型中,利用一个线性层将内容图像和风格图像投影为多个图像块,将图像块重塑成内容图像序列和风格图像序列;将从图像块中学习到的位置编码分别添加到内容图像序列和风格图像序列中;使用编码器网络对内容图像序列和风格图像序列进行编码,得到内容特征和风格特征;将内容和风格特征进行数学操作或者卷积神经网络结合,生成融合特征;使用解码器网络将融合特征转换为新的图像;
10.将一张内容图像和一张风格图像输入神经网络风格迁移模型,神经网络风格迁移模型输出一张同时保留原始内容和获取艺术风格的图像。
11.进一步地,使用编码器网络对内容图像序列和风格图像序列进行编码,得到内容特征和风格特征,包括:
12.针对内容图像序列和风格图像序列,利用共享权重编码层提取图像的特征;
13.利用内容编码层和风格编码层分别提取高维图像内容特征和风格特征。
14.进一步地,使用解码器网络将融合特征转换为新的图像,包括:
15.利用adain模块获取特征融合后的序列利用adain模块获取特征融合后的序列其中σ(
·
)和μ(
·
)分别用于计算特征方差和均值;fc为特征提取得到的内容特征,fs为特征提取得到的风格特征;
16.利用基于跨注意力机制的解码层将特征融合后的序列x
cs
和添加了位置编码的风格图像序列得到风格化特征相结合;
17.通过一个上采样解码器神经网络生成风格化后的图像。
18.进一步地,解码器神经网络为反卷积神经网络或变分自编码器,用于将特征矩阵转换为新的像素级图像。
19.进一步地,在解码过程中,添加用于确保生成的图像保持一定的视觉感受和内容一致性的正则化项。
20.进一步地,将内容和风格特征进行数学操作或者卷积神经网络结合,生成融合特征,包括:
21.计算风格图像中的格拉姆矩阵;
22.将格拉姆矩阵与内容图像中的特征矩阵相乘,生成融合特征。
23.进一步地,使用反向传播算法进行模型优化,以最小化生成图像和目标图像之间的差异。
24.较现有技术相比,本发明具有以下优点:
25.目前而言,传统的风格迁移模型需要大量的艺术作品数据集和高级的卷积神经网络架构进行训练才能产生逼真的艺术图像,这一过程是耗时且耗力的。然而本发明中设计了一种轻量型注意力架构,用于解决基于cnn的风格迁移方法由于空间感知域的限制而难以捕捉艺术品中丰富和长程语义概念的问题。相比于最先进的风格迁移注意力模型,该模型规模缩小了约20%的参数规模,提高了约30%的迭代优化速度。此外,通过注意力机制让内容图像自动适应地选择细节风格元素来探索自适应的风格迁移方法,从而鼓励输出图像既具有吸引力又具有合理性。本发明在内容保留、风格呈现等方面表现优秀,同时计算复杂度更低,得到了多样的可信风格化图像。该方法具有较高的实用价值和应用潜力。
附图说明
26.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
27.图1为本发明实施例中风格迁移基本框架示意图;
28.图2为本发明实施例中基于轻量化注意力机制的风格迁移方法流程图;
29.图3为本发明实施例与其他风格化模型对比示意图;
30.图4为本发明实施例逼真风格化图像生成示意图;
31.图5为本发明实施例风格化后的艺术作品示例。
具体实施方式
32.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
33.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.本发明主要用于人工智能行业的风格迁移中,利用艺术图像的风格对真实图像进行渲染,使其具有相同的艺术风格且保留原始图像内容。
35.风格迁移定义如下:通过使用卷积神经网络从一张图像中提取内容信息,从另一张图像中提取风格信息,并将这些信息结合起来生成新的图像。在这个过程中,图像的内容被保留不变,而风格被转换成另一个风格。这一过程通常基于优化算法,例如梯度下降,以最小化生成图像与原始图像在内容和风格上的差异。通过这种技术,人们可以生成出具有新颖视觉效果的图像,例如将一张照片转换成像梵高画作一样的图像。
36.风格迁移主要分为三个部分:特征提取、特征融合和特征解码。在特征提取阶段,使用编码器网络对内容图像和风格图像进行编码,得到它们的内容特征和风格特征。接下来,在特征融合阶段,将内容和风格特征进行数学操作或者卷积神经网络结合,生成融合特征。最后,在特征解码阶段,将融合特征从隐空间映射到更高维度的空间中,生成最终具有新风格的图像。具体过程如图1所示,包括:
37.第一部分:特征提取。使用一个预训练的卷积神经网络(通常是vgg网络)对内容图像和风格图像进行特征提取。具体来说,可以选择网络中的某些层,将其作为特征提取器,以便提取不同尺度和抽象程度的特征。对于内容图像,可以选择网络的一些较低层,如卷积层或池化层,以提取像素级的细节信息。对于风格图像,可以选择网络的较高层,如卷积层或全连接层,以提取更高层次的风格特征。
38.第二部分:特征融合。在特征编码完成后,将风格特征融合到内容特征中。这可以通过计算风格图像中不同特征之间的相关性来实现。具体地,可以计算风格图像中的格拉姆矩阵(gram矩阵),然后将其与内容图像中的特征矩阵相乘,从而将风格特征融合到内容
特征中。融合后的特征矩阵将包含内容和风格的信息。
39.第三部分:特征解码。在特征融合后,使用解码器网络将融合后的特征矩阵转换为新的图像。解码器网络通常是一个反卷积神经网络或变分自编码器,它将特征矩阵转换为新的像素级图像。在这个过程中,可以添加一些正则化项来确保生成的图像保持一定的视觉感受和内容一致性。
40.最后,通过不断调整优化参数,可以逐步优化模型,使其生成的图像更加逼真,同时具有风格图像的特征。整个过程可以使用反向传播算法进行优化,以最小化生成图像和目标图像之间的差异。
41.本发明中的风格迁移方法是一种基于注意力机制的方法,利用长相关性、捕捉局部语义的特性提取图像的内容特征和风格特征。具体来说,将图像序列视为通过块嵌入模块投影图像块所获得的输入。在编码之前,将从图像块中学习到的位置编码添加到图像序列中,以获得更好的全局交互。与传统的风格迁移方法不同,它们为不同的特征提取设置了多个编码器,本质上内容和样式特征之间的差异应该存在于高维空间中,这些差异能够在编码器的顶层被捕捉到。因此,本发明设计了第一个具有共享参数的编码器层,在编码器的高维层分别提取内容和风格特征。与目前风格迁移大模型相比,本发明减少了大约20%的计算参数,并提高了30%的模型优化速度。更低的计算消耗和内存需求进一步提高了注意力机制的应用价值。
42.如图2所示,本发明实施例提供的用于实现逼真的图像风格化的一种基于注意力机制的神经网络模型,包括:
43.a、图像块嵌入
44.注意力机制是深度学习中常用的一种技术,其可以加强神经网络对相关信息的关注,从而提高模型的精度和鲁棒性。针对注意力机制的长相关性优点,本发明提出了一种新的图像迁移算法。此算法把图像迁移任务定义为图像序列化任务,通过映射和重构图像块,从而使得注意力机制能够更好地捕获长时间跨度上的信息。具体而言,利用一个线性层将内容图像ic∈rh×w×c和风格图像is∈rh×w×c投影为n个图像块,然后将这些图像块重塑成图像序列,即内容图像序列xc∈rn×
l
和风格图像序列xs∈rn×
l
。这样,就成功地将原始的二维图像转换为了一维的图像序列,有效地利用了注意力机制的长相关性优势。
45.b、位置编码
46.深度学习网络是一种数据驱动的机器学习方法,通过构建多层次的神经网络来进行特征学习和模式识别。其中,局部性和空间不变性是深度网络学习潜在信息的关键。对于序列迁移任务而言,位置编码是非常重要的。传统的注意力网络利用余弦函数来表示位置信息,但是由于序列维度固定,位置信息会受到限制。因此,在图像序列中引入位置编码,能够帮助模型学习更加完整的本身的空间信息以及增强每对序列之间的交互作用。本方法分别从内容图像块和风格图像块中学习对应的位置信息pc、ps,并融合到了图像序列中,即ac=xc+pc,as=xs+ps。通过结合位置编码的方式,每个序列都拥有与源信息相关的位置编码,这导致更好的空间感知能力,并帮助模型捕捉更多的潜在信息。当模型在处理图像序列时,位置编码可以提供更加丰富的空间信息,使模型具备更强的视觉感知能力和泛化能力。同时,位置编码也可以用于其他序列数据的处理,如自然语言处理中的序列数据,提供更好的位置信息。
47.c、特征提取
48.在传统注意力网络的基础上,本方法利用注意力机制来考虑长距离的依赖关系,并结合残差块最小化信息损失,展示了强大的学习序列表示的能力,能够有效从内容和风格序列中提取出对应的特征信息。然而,为每种特征提取都构建一个对应的编码器会消耗大量计算资源。实际上,内容特征和风格特征的区别体现在高维空间中。本方法中将两种图像序列xc、xs输入到编码器e网络中进行图像特征提取,得到内容特征fc和风格特征fs。首先利用n
enc
层共享编码层去提取图像的特征,然后利用额外的编码层ec、es分别提取高维图像内容特征和风格特征,即内容特征和风格特征,即通过设置共享权重,本发明中的模型大大减少了参数量,进一步提高了计算效率,扩展了模型的应用场景。
49.d、特征解码
50.现有的风格迁移方法主要关注如何减轻特征融合中风格损失问题。本方法利用多层跨注意力机制结合adain模块(adaptive instance normalization,自适应实例标准化,该方法将内容图像特征的均值和方差对齐到风格图像的均值和方差),以解决内容和风格损失问题。首先通过获得特征结合后的序列其中σ(
·
)和μ(
·
)分别用于计算特征方差和均值。然后,本方法利用n
dec
层基于跨注意力机制的解码层r将风格化特征序列x
cs
和风格序列as结合,尽可能降低风格丢失,最终得到风格化特征f
cs
,即,即最后通过一个上采样解码器神经网络d生成风格化后的图像i
cs
=d(f
cs
),输出图像既获得了艺术图像的风格,又保留了输入图像的内容。
51.如图3所示,其使出了上述实施例中的模型与其他现有风格化模型的对比结果,其他现有风格化模型包括:stytr2、adain、sanet、linear、swap、mst、avatar、mcc、aams。相比这些风格化模型,本发明上述实施例中的模型得到的风格迁移图像更加逼真(第三列)。
52.相比于最先进的风格迁移注意力模型,该模型规模缩小了约20%的参数规模,提高了约30%的迭代优化速度。
53.如图4和图5所示,其示出了生成的逼真风格化图像,在上述本发明中的基于注意力机制的神经网络模型中输入一张内容图像和一张风格图像,输出一张同时保留原始内容和获取艺术风格的图像。本发明中的风格迁移方法,能够适用于多种风格,生成逼真的艺术作品。
54.本发明可应用于多个方面:
55.1、艺术创作风格迁移技术是一种基于深度学习的图像处理技术,通过将一幅图像的风格应用于另一幅图像,实现两幅图像的融合。在艺术创作领域中,风格迁移技术可以创造出许多令人惊叹的艺术作品。例如,可以将梵高的星空风格与毕加索的立体主义风格融合,生成出充满幻想、神秘感和几何形态的新的艺术作品。此外,风格迁移技术还可以将不同风格的艺术品与照片、视频等多种形式的媒体进行融合,创造出更加独特和有趣的艺术作品。
56.2、图像编辑风格迁移技术也可以用于图像编辑。在图像编辑中,风格迁移技术可以将一张普通的照片变成卡通风格的图片,或将一张黑白照片变成彩色风格的图片。通过使用风格迁移技术,图像编辑者可以轻松地将不同的风格应用于同一张图片,从而实现各
种有趣的效果。
57.3、视频处理与图像编辑类似,风格迁移技术也可以用于视频处理。在视频处理中,风格迁移技术可以将一个人在不同场景下的视频风格进行转换,使其看起来像是在不同的环境中拍摄的。此外,风格迁移技术还可以将不同风格的视频进行融合,生成出全新的视频作品。这对于电影、动画和其他视频创作领域来说都具有非常大的潜力。
58.4、广告设计在广告设计中,风格迁移技术可以将一张风景图片的风格转移到广告设计中,使其更具有吸引力和艺术感。此外,风格迁移技术还可以将不同的广告设计风格进行融合,创造出更加独特和有趣的广告作品。这对于广告设计师来说是一个非常有用的工具。
59.5、游戏开发在游戏开发中,风格迁移技术可以用于将不同的游戏场景进行融合,生成全新的游戏场景。例如,游戏开发者可以将一个城市场景的风格与一个古代场景的风格进行融合,生成一个充满奇幻和历史感。
60.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
技术特征:
1.一种基于轻量化注意力机制的风格迁移方法,其特征在于,包括:构建基于轻量化注意力机制的神经网络风格迁移模型;所述神经网络风格迁移模型中,利用一个线性层将内容图像和风格图像投影为多个图像块,将所述图像块重塑成内容图像序列和风格图像序列;将从所述图像块中学习到的位置编码分别添加到所述内容图像序列和所述风格图像序列中;使用编码器网络对所述内容图像序列和所述风格图像序列进行编码,得到内容特征和风格特征;将内容和风格特征进行数学操作或者卷积神经网络结合,生成融合特征;使用解码器网络将所述融合特征转换为新的图像;将一张内容图像和一张风格图像输入所述神经网络风格迁移模型,所述神经网络风格迁移模型输出一张同时保留原始内容和获取艺术风格的图像。2.根据权利要求1所述的一种基于轻量化注意力机制的风格迁移方法,其特征在于,使用编码器网络对所述内容图像序列和所述风格图像序列进行编码,得到内容特征和风格特征,包括:针对所述内容图像序列和所述风格图像序列,利用共享权重编码层提取图像的特征;利用内容编码层和风格编码层分别提取高维图像内容特征和风格特征。3.根据权利要求1所述的一种基于轻量化注意力机制的风格迁移方法,其特征在于,使用解码器网络将所述融合特征转换为新的图像,包括:利用自适应实例标准化adain模块获取特征融合后的序列利用自适应实例标准化adain模块获取特征融合后的序列其中σ(
·
)和μ(
·
)分别用于计算特征方差和均值;f
c
为特征提取得到的内容特征,f
s
为特征提取得到的风格特征;利用基于跨注意力机制的解码层将特征融合后的序列x
cs
和添加了位置编码的风格图像序列得到风格化特征相结合;通过一个上采样解码器神经网络生成风格化后的图像。4.根据权利要求3所述的一种基于轻量化注意力机制的风格迁移方法,其特征在于,解码器神经网络为反卷积神经网络或变分自编码器,用于将特征矩阵转换为新的像素级图像。5.根据权利要求4所述的一种基于轻量化注意力机制的风格迁移方法,其特征在于,在解码过程中,添加用于确保生成的图像保持一定的视觉感受和内容一致性的正则化项。6.根据权利要求1所述的一种基于轻量化注意力机制的风格迁移方法,其特征在于,将内容和风格特征进行数学操作或者卷积神经网络结合,生成融合特征,包括:计算风格图像中的格拉姆矩阵;将所述格拉姆矩阵与内容图像中的特征矩阵相乘,生成融合特征。7.根据权利要求1所述的一种基于轻量化注意力机制的风格迁移方法,其特征在于,使用反向传播算法进行模型优化,以最小化生成图像和目标图像之间的差异。
技术总结
本发明提供一种基于轻量化注意力机制的风格迁移方法,涉及人工智能技术领域,方法包括:构建基于轻量化注意力机制的神经网络风格迁移模型;模型中,利用一个线性层将内容图像和风格图像投影为多个图像块,将图像块重塑成图像序列;将从图像块中学习到的位置编码添加到图像序列中;使用编码器网络进行编码,得到内容特征和风格特征;基于内容和风格特征生成融合特征;使用解码器网络将融合特征转换为新的图像;将一张内容图像和一张风格图像输入该模型,输出一张同时保留原始内容和获取艺术风格的图像。本发明设计了一种轻量型注意力网络架构,在节省时间的同时避免设备资源的浪费,能够高效生成逼真风格化的图像。能够高效生成逼真风格化的图像。能够高效生成逼真风格化的图像。
技术研发人员:李祎 付海燕 郭艳卿 谢鑫
受保护的技术使用者:大连理工大学
技术研发日:2023.06.12
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
