一种从渲染中学习的雨景图像合成方法、装置及存储介质

未命名 09-20 阅读:231 评论:0


1.本发明涉及图像处理领域,尤其是涉及一种从渲染中学习的高分辨率雨景图像合成方法。


背景技术:

2.单图像去雨(sirr,single image rain removal)是一个广受关注的任务,由于神经网络强大的拟合能力,基于深度学习的sirr方法是当前的主要趋势,而这类数据驱动的方法的效果很大程度上受到数据集的质量的影响。现有sirr数据集的获取方式主要可以分成三种,真实数据集、人工生成的数据集和合成数据集。真实数据集是通过在雨天下拍摄现实世界场景图像得到的,这类方法往往受天气条件限制,且难以得到配对数据。人工生成的数据集通过洒水器在现实世界中模拟下雨场景,通过相机拍摄获取图像,从而得到干净和雨景图像对,但这类方法需要消耗大量时间人力。而图像合成方法只需少量或无需人工干预,就能从清晰背景图像中合成雨景图像,能够节省时间人力,为大规模配对图像数据集的获取提供了可能性。
3.现有的雨景图像合成方法主要分为两类,基于渲染(rendering-based)的方法和基于学习(learning-based)的方法。基于渲染的方法对雨滴动力学模型和雨纹的外观模型进行建模,通过输入的场景深度图、光源属性和一些自定义的雨相关属性参数渲染雨,并以符合物理原理的方式将雨层和背景图像混合得到合成雨景图像,能够真实地反映出雨在特定光照环境下的颜色外观。基于学习的方法使用真实雨景图像数据集对生成模型进行训练,使模型能够捕获到真实图像中的雨纹复杂分布,从而在不需要人为主观干预和经验参数设置的情况下,自动高效地生成多样化和非重复的雨纹。
4.例如中国专利申请cn114332460a公开方案,尽管这些方法能够用于合成数据集,但仍存在着一些局限性。基于渲染的方法的输入数据较为复杂,涉及到一些根据经验人为设置的参数,限制了生成的雨的类型,物理仿真和渲染也增加了大量时间开销。基于学习的方法一般将雨层作为单通道的灰阶图层,并且往往通过线性叠加的方式将雨层和背景图像进行混合,忽略了雨的颜色外观和对环境的折射、透射等光学现象。此外,现有的合成数据集在光照环境方面缺乏多样性,以白天光照环境下的图像为主,包含夜晚等复杂的光照环境下的图像较少,此外,这些合成图像的分辨率较低。
5.如图1所示,展示了从5个合成数据集bdd350、coco、rain100h、rain100l和raincityscapes随机选取出的雨景图像和真实雨景图像的对比,现有数据集中的雨景图像的雨层颜色外观与真实雨景图像存在着较大的差异。用这些数据集训练出的sirr模型难以泛化到夜晚等复杂的光照环境,性能受到很大的影响。如图2所示,展示了4种基于深度学习的sirr模型对真实夜间雨景图像的去雨结果,从结果可以看出,几种sirr模型很难完全去除有颜色的雨纹并还原清晰的背景。因此,目前缺乏有效的复杂光照环境下的高分辨率雨景图像合成方法,来创建高质量的配对雨景数据集用以训练基于深度学习的sirr模型,使其能够泛化到夜晚等复杂的光照环境。


技术实现要素:

6.本发明的目的就是为了提供一种从渲染中学习的高分辨率雨景图像合成方法及装置。
7.本发明的目的可以通过以下技术方案来实现:
8.作为本发明的第一方面,提供一种从渲染中学习的雨景图像合成方法,所述方法步骤包括:
9.渲染阶段,创建高分辨率配对雨景-背景图像数据集,所述数据集包含多个场景和光照条件下不同时刻包括雨层遮罩图像、背景图像和雨景图像的图像对;
10.学习阶段,在隐式扩散模型中引入引导扩散模型,使用自编码器模型学习一个与图像空间在感知上等价的隐空间,用编码器对图像进行感知压缩,在隐空间中得到与图像空间的像素等价的隐变量;在隐空间完成扩散模型的前向过程和反向过程,其中所述反向过程使用交叉注意力和串联两种条件机制进行约束;通过解码器将输出的隐变量变换到图像空间,生成高分辨率的雨景图像。
11.进一步的,所述渲染阶段,具体步骤如下:
12.使用建模工具创建场景模型,使用粒子模拟器创建雨滴模型;将场景模型和雨滴模型合并得到雨景模型;设定好环境相关参数后,使用渲染引擎渲染出雨层遮罩图像、背景图像和雨景图像组成一个图像对。
13.进一步的,所述隐式扩散模型通过在时间步t的马尔科夫链上逐步为数据添加噪声,在原始数据分布和高斯分布之间进行转换,具体步骤包括:
14.隐式扩散模型先训练好一个感知压缩自编码器模型,包括编码器ε和解码器用编码器将图像从高维的像素空间压缩到低维的隐空间;
15.在前向过程为真实数据x0~q(x0)逐步添加噪声:
[0016][0017]
其中,为超参数,x1,...,x
t
是与原始数据x0具有相同维度的隐变量;
[0018]
通过重参数化技巧,对任意时间步进行采样其中
[0019]
通过训练隐式扩散模型,学习反向过程,对变量施加可学习的高斯转换进行逐步去噪,其中使用神经网络预测p
θ
的统计特征μ
θ
和∑
θ
,其中μ
θ
表示高斯分布的均值向量,∑
θ
表示高斯分布的协方差矩阵;将μ
θ
重参数化为一个去噪网络∈
θ
(x
t
,t);
[0020]
基于给定高分辨率的雨天图像x
high
,由编码器编码的对应隐变量为z
high
,隐式扩散模型ldm的目标函数表示为:
[0021][0022]
其中,∈表示从标准高斯分布采样的变量,t从{1,...,t}中均匀采样。
[0023]
进一步的,所述引导扩散模型在低分辨率图像的隐变量上训练,粗略预测低分辨率雨景图像的隐变量;在高分辨图像生成过程中,将引导扩散模型预测出的隐变量作为扩
散模型反向过程的条件,用于引导图像生成;具体步骤包括:
[0024]
对输入的背景图像进行下采样得到低分辨率图像将低分辨率图像与遮罩图像结合后得到低分辨率遮罩图像
[0025]
将低分辨率图像与低分辨率遮罩图像编码到隐空间得到隐变量和并输入到引导扩散模型预测出低分辨率雨景图像的隐变量所述引导扩散模型gdm的目标函数表示为:
[0026][0027]
其中,z
low
为真实低分辨率雨景图像的隐变量,所述引导扩散模型的骨干采用unet实现。
[0028]
进一步的,所述反向过程中使用条件机制进行约束的具体步骤包括:
[0029]
使用引导模型预测得到低分辨率雨景图像的隐变量;
[0030]
基于交叉注意力机制,用低分辨率雨景图像的隐变量对扩散模型的底层骨干进行增强;
[0031]
将高分辨背景图像和高分辨雨层遮罩合成高分辨遮罩图像,并通过编码器压缩得到隐变量,通过串联机制作为反向过程的条件。
[0032]
进一步的,基于所述交叉注意力机制进行约束的具体步骤包括:
[0033]
将隐式扩散模型的反向过程建模为一个条件分布p(z|y),采用条件去噪网络∈
θ
(z
t
,t,y)对反向过程进行约束;
[0034]
通过交叉注意力机制将引导扩散模型预测出的低分辨率雨景隐变量作为条件,将通过交叉注意力层映射到扩散模型底层unet的中间层,表示为:
[0035][0036]
其中,其中,表示unet实现的∈
θ
的中间表示,是可学习的投影矩阵。
[0037]
进一步的,基于所述串联机制进行约束的具体步骤包括:
[0038]
将高分辨率背景图像和雨层遮罩合成遮罩图像通过编码器将压缩为隐变量将隐变量与输入的隐藏变量串联,作为反向过程的条件,具体而言,反向过程输入的变量为
[0039]
基于串联和交叉注意力条件机制,通过以下目标函数学习条件隐式扩散模型ldm:
[0040][0041]
式中,表示反向过程输入的变量,表示引导模型预测出低分辨率雨景图像的隐变量。
[0042]
进一步的,通过所述模型生成雨景图像后,对生成雨景图像进行后处理:
[0043]
采用lighten的混合模式混合生成雨景图像和背景图像,并用雨层遮罩保持雨范围外的像素颜色不变:
[0044][0045]
其中,m表示雨遮罩层,

表示逐元素乘法,表示生成雨景图像,表示高分辨率背景图像。
[0046]
作为本发明的第二方面,提供一种从渲染中学习的雨景图像合成装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上所述的从渲染中学习的雨景图像合成方法。
[0047]
作为本发明的第三方面,提供一种存储介质,其上存储有程序,所述程序被执行时实现如上所述的从渲染中学习的雨景图像合成方法。
[0048]
与现有技术相比,本发明具有以下有益效果:
[0049]
本发明提出了一种实用的从渲染中学习的高分辨率雨景图像合成方法:
[0050]
在渲染阶段,本发明使用基于渲染的方法来渲染逼真的高分辨率配对雨景-背景图像,并创建配对雨景-背景图像数据集,其中包含多个场景和光照条件下不同时刻的逼真配对的雨景图像。
[0051]
在学习阶段,用渲染得到的数据集训练高分辨率雨景图像生成网络hrignet,在隐式扩散模型中引入一个引导扩散模型,用低分辨率图像指导高分辨率图像的合成;并且使用交叉注意力和concatenation条件机制控制雨景图像合成;可以从背景图像中学习光照信息,生成与背景图像相同照明条件下的高分辨率雨景图像。
[0052]
本发明所提供方法兼具了基于渲染方法的真实性优点和基于学习方法的高效性优点,又避免了基于渲染方法的效率低的缺点和基于学习方法的真实性差的缺点。
附图说明
[0053]
图1为现有合成数据集的雨景图像对比图,(a)bdd350;(b)coco;(c)rain100h;(d)rain100l;(e)raincityscapes;(f)-(h)真实雨景图像;
[0054]
图2为现有基于深度学习的sirr模型对真实夜间雨景图像的去雨结果对比图,(a)输入图像;(b)restormer;(c)maxim;(d)dgnl-net;(e)prenet;
[0055]
图3为本发明从渲染中学习的雨景图像合成方法的流程示意图;
[0056]
图4为本发明hri数据集的雨景图像示意图,第一行是道路场景的雨景图像,第二行是城市街景场景的雨景图像;
[0057]
图5为本发明hrignet架构示意图;
[0058]
图6为本发明生成雨景图像和输出图像对比图,(a)背景图像;(b)基准图像;(c)生成的雨景图像;(d)后处理输出图像;
[0059]
图7为本发明方案与基本模型的输出图像对比图,第一行是清晰背景图像和生成图像,第二行是真实雨景图像和输出图像,(a)清晰背景图像;(b)asset生成图像;(c)ldm生成图像;(d)dit生成图像;(e)hrignet生成图像;(f)真实雨景图像;(g)asset输出图像;(h)ldm输出图像;(i)dit输出图像;(j)hrignet输出图像。
具体实施方式
[0060]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0061]
实施例1
[0062]
在本发明中,为了有效地合成大量复杂光照环境下的高分辨率雨景图像,提出了一个实用的从渲染中学习(learning-from-rendering)的管线(pipeline)。该pipeline分为两阶段,在渲染阶段中创建高分辨率配对雨景-背景图像数据集,在学习阶段用数据集训练一个雨景图像生成网络。该pipeline兼具了基于渲染方法的真实性优点和基于学习方法的高效性优点,又避免了基于渲染方法的效率低的缺点和基于学习方法的真实性差的缺点。
[0063]
为了训练高质量雨景图像生成网络,需要有一个逼真的配对雨景-背景图像数据集。考虑到搜集相机拍摄的真实雨景图像比较耗时耗力,且难以获得对应的背景图像,因此本发明提出一种采用基于渲染的方法来构造高分辨率雨景图像(hri,high-resolution rainy image)数据集的方法。其中,数据集中包含了多个场景和不同时刻的光照环境下的逼真配对雨景-背景图像。
[0064]
为了从清晰的背景图像中学习到光照信息,生成对应光照环境下的高分辨率雨景图像,在学习阶段提出一种基于扩散模型(dms,diffusion models)的高分辨率雨景图像生成网络(hrignet,high-resolution rainy image generation network)。
[0065]
采用低分辨率图像指导高分辨率图像的合成,能为高分辨图像的合成提供更多的指导信息,有望改进合成图像的质量。本发明在隐式扩散模型(ldm,latent diffusion model)中引入一个引导扩散(guiding diffusion)模型;为了使生成的雨景图像和输入的背景图像配对,需要对图像生成过程施加有效的约束,使用交叉注意力(cross-attention)和串联(concatenation)条件机制控制雨景图像合成,分别将guiding diffusion模型预测的低分辨率雨景图像和高分辨率的遮罩图像(masked image)的隐变量(latent code)分别作为条件(conditioning)。
[0066]
为了有效地合成复杂光照环境下的高分辨率雨景图像,创建高质量的合成雨景数据集,提出了一个实用的从渲染中学习的pipeline。如图3所示是该pipeline的总览。具体而言,该pipeline结合了基于渲染的方法和基于学习的方法,分为两个阶段,渲染阶段和学习阶段。在渲染阶段,使用基于渲染的方法来渲染逼真的高分辨率配对雨景-背景图像,并创建配对雨景-背景图像数据集。在学习阶段,用渲染得到的数据集训练一个雨景图像生成网络,以高效地生成高分辨率的雨景图像。该pipeline兼具了基于渲染方法的真实性优点和基于学习方法的高效性优点,又避免了基于渲染方法的效率低的缺点和基于学习方法的真实性差的缺点。
[0067]
1.渲染阶段
[0068]
为了训练一个高质量雨景图像生成网络,需要有一个逼真的雨景配对图像数据集,包含不同光照环境下的背景图像、雨层遮罩图像和雨景图像对。考虑到搜集相机拍摄的真实雨景图像比较耗时耗力,且难以获得对应的背景图像和雨层遮罩图像,采用一种基于渲染的方法来构造数据集。
[0069]
基于光线追踪的离线渲染技术可以模拟出真实物理世界关于物体表面交互的大部分自然现象,渲染出照片般逼真的影像,目前已被广泛运用在电影、动漫、设计等领域。blender是一个开源的3d内容创作软件,能够方便自由地创建真三维场景模型,包括多种常见的光源,其中的物理引擎和粒子系统可用于模拟下雨效果,并提供了一个基于物理算法的gpu光线追踪渲染器cycles。可以渲染出逼真的雨景图像。
[0070]
基于blender实现渲染阶段,渲染阶段如图3所示。具体而言,使用建模工具创建场景模型,使用粒子模拟器创建雨滴模型,将场景模型和雨滴模型合并得到雨景模型,设定好光照等其他环境相关参数后,使用渲染引擎渲染出雨层遮罩图像、背景图像和雨景图像,从而组成一个图像对。
[0071]
1.1高分辨率雨景图像数据集(hri)
[0072]
在渲染阶段中,本实施例构造了一个逼真的高分辨率雨景配对图像数据集hri。hri数据集包含了1300个图像对,如表1所示,包括了两个场景道路(lane)和城市街景(citystreet),图像分辨率分别为720
×
960和512
×
512,lane场景共有1000个图像对,包括4个摄像机视角的图像,每个视角包括50个时刻的图像,每个时刻包括5种强度和方向的雨景图像;citystreet场景共有300个图像对,包括6个摄像机视角的图像,每个视角包括从白天到夜晚25个时刻的图像,每个时刻包括2种强度和方向的雨景图像。如图4所示展示了其中一些图像。
[0073]
按照摄像机视角将数据集划分为训练集和测试集,对于lane场景,训练集包括3个摄像机视角的图像,测试集包括1个摄像机视角的图像;对于citystreet场景,训练集包括5个像机视角的图像,测试集包括1个摄像机视角的图像。因此,训练集总共包括1000个图像对,测试集总共包括300个图像对。
[0074]
表1hri数据集
[0075][0076]
2.高分辨率雨景图像生成网络(hrignet)
[0077]
本发明提出了一个高分辨率雨景图像生成网络(hrignet),可以从清晰的背景图像和对应的雨层遮罩图像中合成高分辨率的雨景图像。具体来说,给定一张rgb清晰场景图像,以及一张遮罩图像表示雨纹在场景图像中的位置,本方法能够生成遮罩对应位置的雨纹,合成的雨纹具有与背景图像对应的光照条件和颜色外观。此外,本方法能生成分辨率达到512x512的高分辨率图像。
[0078]
hrignet的架构如图5所示。根据ldm,为了降低在高分辨率图像上训练扩散模型的开销,使用一个自编码器模型学习一个与图像空间在感知上等价的隐空间,用编码器对图像进行感知压缩,在隐空间中得到与图像空间的像素等价的隐变量。因此,扩散模型的前向过程和反向过程可以在隐空间完成,最后通过解码器将输出的隐变量变换到图像空间。
[0079]
为了对扩散模型的图像合成过程进行控制,使用串联和交叉注意力两种条件机制对反向过程进行约束。先使用一个引导扩散guiding diffusion模型先预测得到低分辨率
雨景图像的隐变量latent code,基于交叉注意力机制,用隐变量对扩散模型的底层unet骨干(backbone)进行增强。在低分辨率图像下进行扩散模型的训练和采样的计算成本较低,因此先在低分辨率下对雨景图像进行预测,将预测得到的低分辨率雨景图像的隐变量用于指导高分辨率合成,为高分辨图像的合成提供更多的指导信息,改进合成图像的质量。为了对图像合成过程施加更强的约束,将背景图像和雨层遮罩合成masked image,通过串联机制作为反向过程的条件。
[0080]
2.1隐式扩散模型
[0081]
扩散模型是一种概率模型,通过在时间步t的马尔科夫链上,逐步为数据添加噪声,在原始数据分布和高斯分布之间进行转换。扩散模型的前向过程为真实数据x0~q(x0)逐步添加噪声其中为超参数,x1,...,x
t
是与原始数据x0具有相同维度的隐变量。通过reparameterization trick,可以对任意时间步进行采样其中通过训练扩散模型,可以学习到反向过程,即前向过程的逆向转换,对变量施加可学习的高斯转换进行逐步去噪,其中神经网络被用来预测p
θ
的统计特征μ
θ
和∑
θ
。将μ
θ
重参数化为一个去噪网络∈
θ
(x
t
,t),对应的目标函数可以被简化为:
[0082][0083]
其中,∈表示从标准高斯分布采样的变量,t从{1,...,t}中均匀采样。
[0084]
对于图像合成,为了降低在高分辨率图像上训练扩散模型的计算成本,ldm先训练好一个感知压缩自编码器模型vqgan,包括了编码器ε和解码器用编码器将图像从高维的像素空间压缩到低维的隐空间,其中高频率的、难以解释的细节被抽象出来,使得在低维的隐空间中对扩散模型的训练更加高效。给定一个高分辨率的rgb雨天图像x
high
,由编码器编码的对应隐变量为z
high
。ldm的目标函数可以表示为:
[0085][0086]
2.2引导扩散模型
[0087]
在低分辨率图像下进行扩散模型的训练和采样的计算成本较低,用低分辨率图像指导高分辨率图像的合成,能为高分辨图像的合成提供更多的指导信息,有望改进合成图像的质量。
[0088]
本实施例使用一个引导扩散guiding diffusion模型在低分辨率图像的隐变量上训练,由于隐变量维数较小,引导扩散模型可以快速地进行训练和采样过程,粗略预测低分辨率雨景图像的隐变量,再后续的高分辨图像生成过程中,将模型模型预测出的隐变量作为扩散模型反向过程的条件,用于引导图像生成。具体而言,对输入的rgb背景图像进行下采样得到低分辨率图像与遮罩图像结合后得到低分辨率遮罩图像将两张图像编码到隐空间得到隐变量和输入到引导扩散模型预测出低分辨率雨景图像的隐变量引导扩散模型的目标函数可以表示为:
[0089][0090]
其中,z
low
为真实低分辨率雨景图像的隐变量,引导扩散模型gdm的骨干(backbone)是用unet实现的。
[0091]
2.3条件机制
[0092]
将扩散模型的反向过程建模为一个条件分布p(z|y),可以对反向过程进行约束,以达到控制图像合成过程的目的,该过程可以用一个条件去噪网络∈
θ
(z
t
,t,y)实现。在图像合成的背景下,ldm通过交叉注意力机制使得不同模态的输入可以作为dms的条件。在本方法中,通过交叉注意力机制将guiding transformer预测出的低分辨率雨景隐变量作为条件,将通过交叉注意力层映射到unet的中间层,表示为其中
[0093][0094][0095][0096]
这里,表示unet实现的∈
θ
的中间表示,是可学习的投影矩阵。
[0097]
除了使用交叉注意力条件机制外,为了对图像生成过程施加更强的约束,还使用了串联条件机制。将高分辨率背景图像和雨层遮罩合成遮罩图像通过vqgan编码器将其压缩为隐变量将其与输入的隐藏变量串联,以作为反向过程的条件。具体而言,反向过程输入的变量为
[0098]
基于串联和交叉注意力条件机制,通过以下目标函数学习条件隐式扩散模型ldm:
[0099][0100]
因此,hrignet总的目标函数为
[0101]
l
hrig
=l
gdm
+l
ldm
ꢀꢀꢀꢀ
(5)
[0102]
2.4后处理
[0103]
通过hrignet,给定一张清晰背景图像和雨层遮罩,可以得到对应的雨景图像。为了简单起见,不考虑雾等天气存在时的影响,假设在图像中没有雨的区域与清晰背景图像的颜色相同,并且在通常情况下,较亮的雨纹会加亮该处的颜色,较暗的雨纹不可见,因此并不会使该处的颜色变得比背景颜色更暗,而是保持与原来相同的颜色。
[0104]
因此,在得到模型生成的雨景图像后,进一步对其进行后处理,采用lighten的混合模式混合雨景图像和背景图像,并用雨层遮罩保持雨范围外的像素颜色不变,即
[0105][0106]
其中,m表示雨遮罩层,

表示逐元素乘法。
[0107]
如图6所示展示了生成的雨景图像(generated image)和经过后处理的输出图像(output image)的对比,可以看到经过后处理的图像更视觉效果上更好。
[0108]
3.效果验证
[0109]
在实验部分,基于hri数据集对hrignet模型进行训练,并与多个图像生成baseline模型进行了量化和视觉对比,以验证hrignet在高分辨率雨景图像合成上的能力。同时,还针对hrignet的guiding model和diffusion backbone做了消融实验,以验证hrignet的效果。
[0110]
3.1训练详细
[0111]
先使用大小为256
×
256的低分辨率图像对基于公式3的l
gdm
预训练一个guiding diffusion模型,然后固定guiding diffusion的权重,使用大小为512
×
512的高分辨率图像,基于公式4的l
ldm
对hrignet进行训练。
[0112]
在guiding diffusion和hrig net的训练过程中,使用adamw优化器。训练guiding diffusion时,first stage model和cond stage model使用同一个vqgan模型,即图5中的e2,模型权重使用ldm预训练好的vq-f8-256。diffusion的初始学习率为2
×
10-6
,batch size大小为4,unet backbone的image size为32
×
32,model channels为224。
[0113]
训练hrig net时,first stage model和cond stage model使用同一个vqgan模型,即图5中的e1,模型权重使用ldm预训练好的vq-f4。diffusion的初始学习率为2
×
10-6
,batch size大小为1,unet backbone的image size为128
×
128,model channels为224。
[0114]
3.2与baselines模型对比
[0115]
为了验证hrig net在高分辨率雨景图像合成上的能力,将本发明的方法和几个图像生成模型baselines进行对比:asset,ldm,dit,评估指标采用fid、lpips、ssim、psnr,具体的模型设置在附加材料中。如表2的实验结果所示,本发明所提出的模型在这几个指标上都达到了最好的结果。几种方法的雨景图像合成结果如图7所示,从图中可以看到,本发明的模型能够很好地捕捉到背景环境中的光照和颜色,将其映射到生成的雨层上,使其具有逼真的、与背景图像对应的颜色外观。
[0116]
表2模型baselines和hrignet在512
×
512分辨率的指标对比
[0117]
方法分辨率fid

lpips

ssim

psnr

asset512
×
512330.9180.2550.79223.562ldm512
×
512166.8740.2430.78422.932dit512
×
512279.6630.3420.71919.810hrignet512
×
512130.1860.2030.81924.030
[0118]
3.3消融实验
[0119]
通过消融实验,以评估使用diffusion作为guiding model的效果。比较了使用transformer和diffusion模型作为hrignet的guiding model的性能。如表3所示,在fid、lpips和ssim指标上,使用guiding diffusion的模型效果要好于使用guiding transformer的模型。扩散模型在每个时间步长都是用一个简单的高斯分布来拟合的,它很容易收敛,因此更容易取得好的结果。这可以合理地解释为什么在低分辨率下使用引导扩散模型的图像合成结果会更好。
[0120]
表3使用不同guiding model的hrignet在512
×
512分辨率的指标对比
[0121]
guiding model图像分辨率fid

lpips

ssim

psnr

transformer512
×
512133.7380.2040.81824.056diffusion512
×
512130.1860.2030.81924.030
[0122]
为了探索diffusion模型中使用不同backbone对hrig net的影响,在backbone上也进行了消融实验,分别使用unet和transformer,结果如表4所示,使用unet的hrig net结果要好于transformer。根据dit中transformer的可缩放特性也使用于使用transformer backbone模型,但正因此特性,在参数量不足的情况下使用transformer backone的模型表现也不佳。此外,本发明的模型采用的unet backbone的相较于基于transformer backbone的模型收敛速度更快。
[0123]
表4使用不同backbone的hrignet在512
×
512分辨率的指标对比
[0124]
backbone图像分辨率fid

lpips

ssim

psnr

transformer512
×
512217.1820.2630.78022.469unet512
×
512130.1860.2030.81924.030
[0125]
实施例2
[0126]
作为本发明的第二方面,本技术还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述从渲染中学习的雨景图像合成方法。除了上述处理器、存储器以及接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0127]
实施例3
[0128]
作为本发明的第三方面,本技术还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述从渲染中学习的雨景图像合成方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0129]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

技术特征:
1.一种从渲染中学习的雨景图像合成方法,其特征在于,所述方法步骤包括:渲染阶段,创建高分辨率配对雨景-背景图像数据集,所述数据集包含多个场景和光照条件下不同时刻包括雨层遮罩图像、背景图像和雨景图像的图像对;学习阶段,在隐式扩散模型中引入引导扩散模型,使用自编码器模型学习一个与图像空间在感知上等价的隐空间,用编码器对图像进行感知压缩,在隐空间中得到与图像空间的像素等价的隐变量;在隐空间完成扩散模型的前向过程和反向过程,其中所述反向过程使用交叉注意力和串联两种条件机制进行约束;通过解码器将输出的隐变量变换到图像空间,生成高分辨率的雨景图像。2.根据权利要求1所述的一种从渲染中学习的雨景图像合成方法,其特征在于,所述渲染阶段,具体步骤如下:使用建模工具创建场景模型,使用粒子模拟器创建雨滴模型;将场景模型和雨滴模型合并得到雨景模型;设定好环境相关参数后,使用渲染引擎渲染出雨层遮罩图像、背景图像和雨景图像组成一个图像对。3.根据权利要求1所述的一种从渲染中学习的雨景图像合成方法,其特征在于,所述隐式扩散模型通过在时间步t的马尔科夫链上逐步为数据添加噪声,在原始数据分布和高斯分布之间进行转换,具体步骤包括:隐式扩散模型先训练好一个感知压缩自编码器模型,包括编码器ε和解码器用编码器将图像从高维的像素空间压缩到低维的隐空间;在前向过程为真实数据x0~q(x0)逐步添加噪声:其中,为超参数,x1,...,x
t
是与原始数据x0具有相同维度的隐变量;通过重参数化技巧,对任意时间步进行采样其中通过训练隐式扩散模型,学习反向过程,对变量施加可学习的高斯转换进行逐步去噪,其中使用神经网络预测p
θ
的统计特征μ
θ
和∑
θ
,其中μ
θ
表示高斯分布的均值向量,∑
θ
表示高斯分布的协方差矩阵;将μ
θ
重参数化为一个去噪网络∈
θ
(x
t
,t);基于给定高分辨率的雨天图像x
high
,由编码器编码的对应隐变量为z
high
,隐式扩散模型ldm的目标函数表示为:其中,∈表示从标准高斯分布采样的变量,t从{1,...,t}中均匀采样。4.根据权利要求3所述的一种从渲染中学习的雨景图像合成方法,其特征在于,所述引导扩散模型在低分辨率图像的隐变量上训练,粗略预测低分辨率雨景图像的隐变量;在高分辨图像生成过程中,将引导扩散模型预测出的隐变量作为扩散模型反向过程的条件,用于引导图像生成;具体步骤包括:对输入的背景图像进行下采样得到低分辨率图像将低分辨率图像与遮罩图像结
合后得到低分辨率遮罩图像将低分辨率图像与低分辨率遮罩图像编码到隐空间得到隐变量和并输入到引导扩散模型预测出低分辨率雨景图像的隐变量所述引导扩散模型gdm的目标函数表示为:其中,z
low
为真实低分辨率雨景图像的隐变量,所述引导扩散模型的骨干采用unet实现。5.根据权利要求4所述的一种从渲染中学习的雨景图像合成方法,其特征在于,所述反向过程中使用条件机制进行约束的具体步骤包括:使用引导模型预测得到低分辨率雨景图像的隐变量;基于交叉注意力机制,用低分辨率雨景图像的隐变量对扩散模型的底层骨干进行增强;将高分辨背景图像和高分辨雨层遮罩合成高分辨遮罩图像,并通过编码器压缩得到隐变量,通过串联机制作为反向过程的条件。6.根据权利要求5所述的一种从渲染中学习的雨景图像合成方法,其特征在于,基于所述交叉注意力机制进行约束的具体步骤包括:将隐式扩散模型的反向过程建模为一个条件分布p(z|y),采用条件去噪网络∈
θ
(z
t
,t,y)对反向过程进行约束;通过交叉注意力机制将引导扩散模型预测出的低分辨率雨景隐变量作为条件,将通过交叉注意力层映射到扩散模型底层unet的中间层,表示为:其中,其中,表示unet实现的∈θ的中间表示,是可学习的投影矩阵。7.根据权利要求5所述的一种从渲染中学习的雨景图像合成方法,其特征在于,基于所述串联机制进行约束的具体步骤包括:将高分辨率背景图像和雨层遮罩合成遮罩图像通过编码器将压缩为隐变量将隐变量与输入的隐藏变量串联,作为反向过程的条件,具体而言,反向过程输入的变量为基于串联和交叉注意力条件机制,通过以下目标函数学习条件隐式扩散模型ldm:式中,表示反向过程输入的变量,表示引导模型预测出低分辨率雨景图像的隐变量。8.根据权利要求1所述的一种从渲染中学习的雨景图像合成方法,其特征在于,通过所述模型生成雨景图像后,对生成雨景图像进行后处理:
采用lighten的混合模式混合生成雨景图像和背景图像,并用雨层遮罩保持雨范围外的像素颜色不变:其中,m表示雨遮罩层,

表示逐元素乘法,表示生成雨景图像,表示高分辨率背景图像。9.一种从渲染中学习的雨景图像合成装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的从渲染中学习的雨景图像合成方法。10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的从渲染中学习的雨景图像合成方法。

技术总结
本发明涉及一种从渲染中学习的雨景图像合成方法、装置及存储介质,该方法步骤包括:渲染阶段创建高分辨率配对雨景-背景图像数据集,包含多个场景和光照条件下不同时刻的图像对;学习阶段在隐式扩散模型中引入引导扩散模型,使用自编码器模型学习一个与图像空间在感知上等价的隐空间,用编码器对图像进行感知压缩,在隐空间中得到与图像空间的像素等价的隐变量;在隐空间完成扩散模型的前向过程和反向过程,其中所述反向过程使用交叉注意力和串联两种条件机制进行约束;通过解码器将输出的隐变量变换到图像空间,生成高分辨率的雨景图像。与现有技术相比,本发明兼具基于渲染方法的真实性优点和基于学习方法的高效性优点。的真实性优点和基于学习方法的高效性优点。的真实性优点和基于学习方法的高效性优点。


技术研发人员:赵生捷 周楷彬 邓浩
受保护的技术使用者:同济大学
技术研发日:2023.06.29
技术公布日:2023/9/19
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐