一种红外与可见光图像融合的方法
未命名
07-23
阅读:181
评论:0
1.本发明属于图像处理技术领域,具体涉及一种红外与可见光图像融合的方法。
背景技术:
2.随着传感硬件的快速发展,多模态成像在广泛的应用中引起了极大的关注,例如夜间监控和自动驾驶。特别是,红外和可见光传感器的结合对于后续的智能处理具有显着优势。可见光成像在明确定义的光照条件下提供具有高空间分辨率的丰富细节,而红外传感器捕捉物体发出的环境温度变化,突出显示对光照变化不敏感的热目标结构。然而,可见光很难捕捉到在黑暗情况下的物体,而红外图像通常伴随着空间分辨率较低的模糊细节。由于它们在外观上的明显差异,融合具有视觉吸引力的图像或者支持更高级视觉任务(例如分割、跟踪、和检测)是具有挑战性的。因此,设计一种经量级的红外与可见光图像融合方法是十分重要的。
技术实现要素:
3.本发明针对单一模态传感器拍摄的图像无法有效和全面地描述成像场景的问题,提出一种红外与可见光图像融合的方法。
4.本发明采取的技术方案为:
5.一种红外与可见光图像融合的方法,包括以下步骤:
6.s1:对红外与可见光图像数据集进行数据预处理,首先将红外与可见光图像进行配对,然后将红外图像和可见光图像进行尺度变换,最后对这些图像进行颜色通道上的分离;
7.s2:构建编码器,以实现对红外图像特征和可见光图像特征的提取;
8.s3:将s2步骤得到的特征进行融合,得到融合图像;
9.s4:构建解码器,实现对s3步骤得到的融合图像进行重建,最终得到从融合特征中恢复的融合图像;
10.s5:通过设计的损失函数判断融合图像的好坏,计算s4步骤得到融合图像的损失,不断地训练编码器以及解码器得到使损失函数最小的模型参数。
11.进一步地,所述步骤s2包括:
12.s21:将输入的红外图像i
ir
和可见光图像i
vi
分别利用三个1x1的卷积进行特征投影,得到3组丰富的中间特征,其中,所述三组中间特征经过全连接后作为卷积模块的输入,同时也分别作为query、key和value组成的自注意力机制模块的输入;
13.s22:设计用于提取局部特征和全局特征的卷积和自注意力机制结合模块(acmod),其中和分别表示卷积模块和自注意力机制模块的输出,其最终的输出的结果可表示为:f
out
=αfa+βfc;
14.s23:将上述的输出结果输入到由两个卷积层组成的深度特征提取模块f
2conv
,其输
出的特征可表示为:f
out
=f
2conv
(f
out
);
15.s24:分别将配对的红外图像和可见光经过上述的解码器模块,最终得到的红外图像的输出特征和可见光图像的输出特征
16.其中,h表示图像的高,w表示图像的宽,c
in
表示输入图像的通道,c
out
表示输出图像的通道,α和β表示是可学习的权重因子,用于平衡自注意力和卷积的输出。
17.进一步地,所述步骤s3包括:
18.s31:将s2步骤的输出特征进行融合,该过程可表示为:i
fuse
=c
fuse
(f
ir
,f
vi
);
19.其中的表示融合图像,c
fuse
()表示融合策略,即在通道维度上串联。
20.进一步地,所述步骤s4包括:
21.s41:设计一个用于图像重建的解码器结构,其是由4个串联的卷积层构成,可表示为f
4r
();
22.s42:将步骤s3得到的融合图像作为解码器的输入,得到最终的输出结果f
fuse
∈rh×w×3,即融合图像,该过程可表示为:f
fuse
=f
4r
(i
fuse
)。
23.进一步地,所述步骤s5包括:
24.s51:设计融合图像的损失包括纹理损失l
tex
和强度损失l
int
,其融合图像的总体损失la可表示为:la=l
int
+γl
tex
;
25.其中γ为权重因子,所以最终的目标是获取解码器和编码器的模型参数使得总体损失la最小;
26.其中的纹理损失可表示为:
27.其中的强度损失可表示为:
28.表示梯度操作,
·
表示l1范数;
29.s52:通过利用训练集的红外与可见光图像对进行训练,使得总损失达到最小得到最终的网络模型参数。
30.本发明具有如下有益效果:
31.(1)本发明提出了一种基于卷积和自注意力机制结合的双分支特征提取网络,该深度学习模型在红外与可见光图像的特征提取模块中利用了卷积和自注意力机制的结合,可以更好地提取到源图像的特征,有利于防止融合图像在全局特征以及局部梯度特征上的信息丢失。
32.(2)本方法有着卓越的运行速率,可以轻易地部署为高级视觉任务的实时预处理模块。本方法通过融合了红外和可见光图像,得到结合了两个模态信息的融合图像,可以有助于高级视觉任务(如目标跟踪、目标检测和语义分割)提高性能,获得更好的效果。
33.(3)本发明提出了一种新的红外图像与可见光图像融合工作流程,即首先对输入的红外与可见光图像进行投影升维(为获取源图像的更多特征信息),再依次将其作为卷积和自注意力的输入进行特征提取,最后通过卷积得到了最终的融合图像。该流程充分地将卷积和自注意力机制这两个在深度学习模型中效果都很好的模块结合起来,充分地获取两者的优势,以融合得到更好的融合图像。
附图说明
34.图1为本发明的流程图;
35.图2为本发明的实现流程图;
36.图3为本发明处理得到的白天场景环境下的融合结果示意图;
37.图4为本发明处理得到的黑夜场景环境下的融合结果示意图。
具体实施方式
38.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
39.实施1:
40.如图1和图2所示的一种红外与可见光图像融合的方法,包括以下步骤:
41.s1:对红外与可见光图像数据集进行数据预处理,首先将红外与可见光图像进行配对,然后将红外图像和可见光图像进行尺度变换,最后对这些图像进行颜色通道上的分离;
42.s2:构建编码器,以实现对红外图像特征和可见光图像特征的提取;
43.s3:将s2步骤得到的特征进行融合,得到融合图像;
44.s4:构建解码器,实现对s3步骤得到的融合图像进行重建,最终得到从融合特征中恢复的融合图像;
45.s5:通过设计的损失函数判断融合图像的好坏,计算s4步骤得到融合图像的损失,不断地训练编码器以及解码器得到使损失函数最小的模型参数。
46.其中,所述步骤s2包括:
47.s21:将输入的红外图像i
ir
和可见光图像i
vi
分别利用3个1x1的卷积进行特征投影,得到3组丰富的中间特征。一方面,这三组特征经过全连接后作为卷积模块的输入,另一方面,这三组特征分别作为query、key和value组成的自注意力机制模块的输入。
48.s22:将s21步骤的中间特征输入用于提取局部特征和全局特征的卷积和自注意力机制结合模块(acmod),其中和分别表示卷积模块和自注意力机制模块的输出,其最终的输出的结果可表示为:
49.f
out
=αfa+βfc50.s23:将上述的输出结果输入到由两个卷积层组成的深度特征提取模块f
2conv
,其输出的特征可表示为:
51.f
out
=f
2conv
(f
out
)
52.s24:分别将配对的红外图像和可见光经过上述的解码器模块,最终得到的红外图像的输出特征和可见光图像的输出特征
53.其中,h表示图像的高,w表示图像的宽,c
in
表示输入图像的通道,c
out
表示输出图像的通道,α和β表示是可学习的权重因子,用于平衡自注意力和卷积的输出。
54.其中,所述步骤s3包括:
55.s31:将s2步骤的输出特征进行融合,该过程可表示为:
56.i
fuse
=c
fuse
(i
ir
,f
vi
)
57.其中的表示融合图像,c
fuse
(
·
)表示融合策略,即在通道维度上串联。
58.其中所述步骤s4包括:
59.s41:设计一个用于图像重建的解码器结构,其是由4个串联的卷积层构成,可表示为f
4r
(
·
)。
60.s42:将步骤s3得到的融合图像作为解码器的输入,得到最终的输出结果f
fuse
∈rh×w×3,即融合图像,该过程可表示为:
[0061][0062]
其中,所述步骤s5包括:
[0063]
s51:设计融合图像的损失包括纹理损失l
tex
和强度损失l
int
,其融合图像的总体损失la可表示为:
[0064]
la=l
int
+γl
tex
[0065]
其中γ为权重因子,所以最终的目标是获取解码器和编码器的模型参数使得总体损失la最小。
[0066]
其中的纹理损失可表示为:
[0067][0068]
其中的强度损失可表示为:
[0069][0070]
表示梯度操作,||
·
||表示l1范数,|
·
|表示绝对值运算操作。
[0071]
s52:通过利用训练集的红外与可见光图像对进行训练,使得总损失达到最小得到最终的网络模型参数。
[0072]
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
[0073]
图3给出了经本发明方法处理得到的白天场景环境下的融合结果示意图,图4给出了经本发明方法处理得到的黑夜场景环境下的融合结果示意图。
[0074]
图3和图4结果表明,本发明可以很好地保留红外图像的识别目标,融合图像中的人物,对比度高、轮廓突出,有利于视觉观察,其次,本发明融合的结果可以从可见光图像中保留丰富的纹理细节,其能更好的符合人类的视觉系统。
[0075]
总的来说,本发明得到的融合结果,具有突出的人物目标、更清晰的边缘轮廓,并且保留了丰富的纹理细节。
[0076]
虽然本发明已以较佳的实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可以做各种改动和修饰,因此本发明的保护范围应该以权利要求书所界定的为准。
技术特征:
1.一种红外与可见光图像融合的方法,其特征在于,包括以下步骤:s1:对红外与可见光图像数据集进行数据预处理,首先将红外与可见光图像进行配对,然后将红外图像和可见光图像进行尺度变换,最后对这些图像进行颜色通道上的分离;s2:构建编码器,以实现对红外图像特征和可见光图像特征的提取;s3:将s2步骤得到的特征进行融合,得到融合图像;s4:构建解码器,实现对s3步骤得到的融合图像进行重建,最终得到从融合特征中恢复的融合图像;s5:通过设计的损失函数判断融合图像的好坏,计算s4步骤得到融合图像的损失,不断地训练编码器以及解码器得到使损失函数最小的模型参数。2.如权利要求1所述的一种红外与可见光图像融合的方法,其特征在于,所述步骤s2包括:s21:将输入的红外图像i
ir
和可见光图像i
vi
分别利用三个1x1的卷积进行特征投影,得到3组丰富的中间特征,其中,所述三组中间特征经过全连接后作为卷积模块的输入,同时也分别作为query、key和value组成的自注意力机制模块的输入;s22:设计用于提取局部特征和全局特征的卷积和自注意力机制结合模块(acmod),其中和分别表示卷积模块和自注意力机制模块的输出,其最终的输出的结果可表示为:f
out
=αf
a
+βf
c
;s23:将上述的输出结果输入到由两个卷积层组成的深度特征提取模块f
2conv
,其输出的特征可表示为:f
out
=f
2conv
(f
out
);s24:分别将配对的红外图像和可见光经过上述的解码器模块,最终得到的红外图像的输出特征和可见光图像的输出特征其中,h表示图像的高,w表示图像的宽,c
in
表示输入图像的通道,c
out
表示输出图像的通道,α和β表示是可学习的权重因子,用于平衡自注意力和卷积的输出。3.如权利要求1所述的一种红外与可见光图像融合的方法,其特征在于,所述步骤s3包括:s31:将s2步骤的输出特征进行融合,该过程可表示为:i
fuse
=c
fuse
(f
ir
,f
vi
);其中的表示融合图像,c
fuse
()表示融合策略,即在通道维度上串联。4.如权利要求1所述的一种红外与可见光图像融合的方法,其特征在于,所述步骤s4包括:s41:设计一个用于图像重建的解码器结构,其是由4个串联的卷积层构成,可表示为f
4r
();s42:将步骤s3得到的融合图像作为解码器的输入,得到最终的输出结果f
fuse
∈r
h
×
w
×3,即融合图像,该过程可表示为:f
fuse
=f
4r
(i
fuse
)。5.如权利要求1所述的一种红外与可见光图像融合的方法,其特征在于,所述步骤s5包括:s51:设计融合图像的损失包括纹理损失l
tex
和强度损失l
int
,其融合图像的总体损失l
a
可表示为:l
a
=l
int
+γl
tex
;其中γ为权重因子,所以最终的目标是获取解码器和编码器的模型参数使得总体损失
l
a
最小;其中的纹理损失可表示为:其中的强度损失可表示为:其中的强度损失可表示为:表示梯度操作,||
·
||表示l1范数;s52:通过利用训练集的红外与可见光图像对进行训练,使得总损失达到最小得到最终的网络模型参数。
技术总结
本发明是属于图像融合技术领域,具体涉及一种基于卷积与自注意力机制结合的红外与可见光图像融合方法;所述方法包括编码器、融合策略和解码器三个阶段:在编码器阶段,将可将光图像和红外图像分别输入到基于卷积和自注意力机制结合的模块,得到图像特征;在融合策略阶段,将上述得到的特征在Y通道上进行融合,得到融合图像;最后通过级联的解码器重建融合图像,得到最终的红外与可见光融合图像。本发明通过建立一个图像融合的模型,得到红外与可见光融合图像,该图像不仅包含显著目标和丰富的纹理信息,而且有助于高级视觉任务的完成。而且有助于高级视觉任务的完成。而且有助于高级视觉任务的完成。
技术研发人员:朱华毅 潘细朋 刘振丙
受保护的技术使用者:桂林电子科技大学
技术研发日:2023.04.14
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
