一种基于图像解纠缠表示的跨模态图像融合方法

未命名 07-23 阅读：187 评论：0

1.本发明属于对多源传感器生成的跨模态图像进行特征分离、显著性提取、信息融合、图像重构等技术领域，具体涉及一种基于图像解纠缠表示的跨模态图像融合方法。

背景技术：

2.跨模态图像(cross modal image，cmi)指由多源传感器捕捉的对同一场景进行不同形式表现的一组图像。其特点在于不同模态的图像能够表示不同侧重倾向的信息，进而可以从不同的角度和方位对场景特征进行描述。但随着传感器等技术的发展，跨模态图像的表现形式更趋向于专一化和多元化，单一图像所呈现的信息往往不能完整地对场景进行描述，造成后续的场景分析和应用较为困难。因此，为了改善单一图像对场景信息描述的局限性，综合跨模态图像各自的有用信息，为后续对场景进行全方位、多层次的分析提供可能，提出了跨模态图像融合(image fusion，if)的概念。图像融合将跨模态图像中人们感兴趣的信息进行分别提取，并通过一定的规则融合在一张复合图像中进行表达。生成的融合图像在和所有输入图像保持最大相似度的同时，信息聚合度更高，信息量更大，特征更为显著，灰度分布均匀、边缘轮廓清晰，且有效地降低了数据维度，减少了数据储存量。可广泛应用于医学诊断、地质勘测、环境监控、设备安全监控、军事侦查、虚拟现实以及多媒体娱乐等诸多领域。
3.然而，由于多源传感器之间成像原理的区别较大，造成场景特征表达方式存在较大差异，甚至是表达方式完全相反或互斥特征的出现。因此，如果使用一般的特征提取方法对这些特征进行提取，将会引起特征的表达错误，从而造成融合图像中出现鬼影或振铃效应，影响融合质量。同时，还需要设置合适的规则来对这些差异较大的特征进行处理和融合，从而避免由于特征平均和处理错误造成的图像整体对比度的降低和显著信息的丢失。跨模态图像融合的关键在于对这些互斥特征的提取和处理，这和一般图像的特征提取和融合方式具有显著的不同，也是本发明的难点和重点。
4.目前在对跨模态图像进行融合时，通常使用人工制定的全局统一的特征提取方法和融合规则，以针对性地对某一特定特征或任务进行调整，从而提升融合质量。但这种方式通常会因为全局性的规则造成局部融合精度的下降，并且在融合任务未知时融合效果不稳定，模型泛化性较差。此外，目前还有基于卷积神经网络的融合方法，虽然能够自适应地进行特征提取和融合，但由于缺乏真实的融合图像作为监督，因此融合质量难以保证。

技术实现要素：

5.针对现有技术存在的缺陷，本发明的目的在于提供一种基于图像解纠缠表示的跨模态图像融合方法。该方法利用图像解纠缠表示(disentangled representation，dr)分解得到图像的内容和模态分量，再通过基于生成对抗网络(generative adversarial network，gan)的内容分量重构和模态分量注入，避免了互斥特征对内容特征重构的干扰，实现特征自适应提取和融合的目的。
6.为达到上述发明创造目的，本发明采用如下构思：
7.根据跨模态图像对同一场景进行成像这一先验信息，它们之间应该存在一个共享的高层语义特征空间，该空间中的特征向量可以构成图像对场景信息的基本表述，包含了图像大部分的能量信息。跨模态图像间对场景的不同表达方式可以看作是不同传感器对这个共享特征空间中某个特征向量的不同渲染方式。这些不同的渲染方式由每个跨模态图像独享，构成了各自独立的特征空间，其中包含图像剩余的小部分能量信息。考虑到跨模态图像的这个特性，我们使用图像解纠缠表示来剥离这两个空间，其中共享的空间称为内容分量，独特的空间称为模态分量。由于内容分量中包含图像的大部分能量，对其进行融合和重构可以得到融合图像的总体结构和绝大部分的特征信息。而由于不同图像模态分量在融合分量中的占比可以调整图像渲染方式的偏向，因此模态分量的融合可以根据应用需求灵活调整。通过这种将内容和模态分离并分别融合的方式，使网络能够专注于特征的提取，避免了互斥特征对内容重构的影响，且不受跨模态图像种类的影响，是一种能够生成高质量融合图像的通用的跨模态图像融合框架。
8.根据上述发明构思，本发明采用如下技术方案：
9.一种基于图像解纠缠表示的跨模态图像融合方法，对跨模态图像使用密集连接的内容编码器和模态编码器进行解纠缠表示分解，对获取到的内容分量使用多尺度融合的方式在密集连接的融合解码器中进行重构，对模态分量使用自适应标准化的方式注入内容重构中，得到融合图像。具体如下：
10.步骤1：设计密集连接的内容编码器、重构解码器和模态编码器，输入训练集一中非成对跨模态图像并进行编码，得到图像的内容和模态分量；
11.步骤2：将步骤1中图像的内容和模态分量进行重构、模态转换和循环分解重构，设计判别器通过生成对抗网络训练内容、模态编码器和重构解码器；
12.步骤3：重复步骤1和步骤2，直到训练完训练集一中所有图像且达到设定的迭代数，得到预训练的内容、模态编码器和重构解码器；
13.步骤4：加载步骤3的内容、模态编码器，将训练集二中的跨模态图像输入，得到内容和模态分量；
14.步骤5：设计密集连接的融合解码器，并输入步骤4的内容、模态分量得到融合图像。将融合图像解纠缠表示分解，得到重构的内容、模态分量，并通过融合图像和重构的内容、模态分量和生成对抗网络训练融合解码器；
15.步骤6：重复步骤4和步骤5，直到训练完训练集二中所有图像，得到训练好的融合模型。
16.与现有技术相比，本发明具有如下突出的实质性特点和显著的进步：
17.本发明利用跨模态图像存在共享的内容特征空间和独享的模态特征空间这一特性，基于生成对抗网络，分别构建内容编码器和模态编码器，对内容和模态分量进行编码和提取，并通过构建的融合解码器生成融合图像。由于跨模态图像之间的互斥特征本质上是由于传感器成像方式的不同所造成的像素值过大差异，在融合解码器中采用“内容分量重构，模态分量注入”的方式生成融合图像，可以消除互斥特征对融合的干扰。同时，本方法采用无监督端对端的生成方式，训练过程无需真实图像监督，直接生成融合图像，因此省去了人工制定融合规则和特征提取方法的复杂过程，使网络专注于特征的提取和融合，提高了
模型的泛化性和通用性。
附图说明
18.图1为本发明的基于图像解纠缠表示的跨模态图像融合整体步骤。
19.图2为本发明的网络数据流框架。
20.图3为本发明的生成器结构(包含内容、模态编码器和融合解码器)。
21.图4为本发明的判别器结构。
22.图5为本发明的训练损失图。
23.图6为本发明图像解纠缠表示的跨模态图像融合方法的原理图。
具体实施方式
24.下面结合附图，对本发明的具体实施例做进一步的说明。
25.如图1、图2和图6所示，一种基于图像解纠缠表示的跨模态图像融合方法，其实现过程如下：
26.步骤1：设计密集连接的内容编码器、重构解码器和模态编码器，输入训练集一中非成对跨模态图像并进行编码，得到图像的内容和模态分量。
27.在所述步骤1中，利用跨模态图像在高层语义空间中的特性，对其共享的内容特征空间和独享的模态特征空间进行剥离。如图3所示，为了进行完整的分解，设计了密集连接的内容编码器和模态编码器并进行训练。由于此阶段的训练不涉及图像的融合，因此训练数据集一采用数量更多的非成对跨模态图像。以两输入网络为例，设输入的非成对跨模态图像表示为(x1,x2)，内容编码器为模态编码器为则图像解纠缠表示分解得到：
[0028][0029]
其中，(c
x1
，c
x2
)为跨模态图像的内容分量，(m
x1
，m
x2
)为模态分量。
[0030]
步骤2：将步骤1中图像的内容和模态分量进行重构、模态转换和循环分解重构，如图4所示，设计判别器通过生成对抗网络训练内容、模态编码器和重构解码器；
[0031]
1)在所述步骤2中，首先为了确保图像解纠缠分解后可以通过得到的内容和模态分量重构生成原图像，将步骤1中的(c
x1
，c
x2
)和(m
x1
，m
x2
)输入到重构解码器中进行重构：
[0032][0033]
在重构解码器中使用卷积层将内容分量连接后重构生成图像，并使用自适应实例标准化(adaptive instance normalization，adain)的方式将模态分量注入到重构过程中，避免其干扰内容特征的表达。并且重构解码器和内容编码器之间通过长连接构成多尺度融合结构，增强融合图像的表达层次。之后，在重构图像和源图像间计算重构损失：
[0034]
l
rec
＝||x
1-x1→1||1+||x
2-x2→2||1#(3)
[0035]
其中||
·
||1为l1范数。重构损失能够训练内容编码器和模态编码器进行准确的
特征提取，是特征重构的最基本保障。
[0036]
2)在所述步骤2中，之后为了确保图像的内容和模态分量得到完整的剥离，将步骤1中的(c1，c2)转换模态后再次重构，生成模态转换图像即：
[0037][0038]
模态转换图像不能与原图直接进行l1范数，因此使用对抗损失来衡量它们与对应模态源图像之间的相似性：
[0039]
l
cyc_adv
＝log(dis1(x1))+log(1-dis1(x2→1))+log(dis2(x2))+log(1-dis2(x1→2))#(5)
[0040]
理想情况下，判别器不能判别真实的跨模态图像和对应模态的模态转移图像，这表明内容编码器能够将跨模态图像间共享的内容分量进行剥离，并通过模态编码器编码的独特模态分量，生成其他模态的图像。
[0041]
3)在所述步骤2中，为了进一步提升内容、模态编码器的性能，将模态转移图像再次进行解纠缠表示分解并重构，我们称为循环分解重构。先对模态转移图像进行分解：
[0042][0043]
之后进行循环重构：
[0044][0045]
使用循环分解损失来衡量模态转移过程中的特征损失量：
[0046][0047]
在循环重构图像和源图像间使用循环重构损失来加强内容、模态编码器提取特征的准确性和分离的完整性：
[0048]
l
cyc_pix
＝||x1→2→
1-x1||1+||x2→1→
2-x2||1#(9)
[0049]
步骤3：重复步骤1和步骤2，直到训练完训练集一中所有图像且达到设定的迭代数，得到预训练的内容、模态编码器和重构解码器。
[0050]
在所述步骤3中，如图5所示，先判断训练集一中图像是否已训练完，若是，则视为完成一次迭代，迭代次数自动加一，否则继续在当前迭代次数中训练。之后，继续判断是否已达到设定的迭代次数，若是，则停止训练得到训练好的内容、模态编码器和重构解码器，否则继续进行迭代训练。
[0051]
步骤4：加载步骤3的内容、模态编码器，将训练集二中的跨模态图像输入，得到内容和模态分量。
[0052]
在所述步骤4中，为了训练融合解码器，首先需要对训练集二中的图像使用步骤3中预训练的模块进行解纠缠表示分解。由于涉及到图像的融合，因此训练集二中的图像需要严格配准的图像对，设为(y1,y2)。之后加载预训练模块对图像对进行分解：
[0053]
[0054]
本发明使用预训练模式，先预训练内容、模态编码器和重构解码器，后训练融合解码器。这种方式比同时训练这些模块更加稳定，网络收敛速度更快。
[0055]
步骤5：设计密集连接的融合解码器，并输入步骤4的内容、模态分量得到融合图像。将融合图像解纠缠表示分解，得到重构的内容、模态分量，并通过融合图像和重构的内容、模态分量和生成对抗网络训练融合解码器。
[0056]
1)在所述步骤5中，首先将步骤4中的内容和模态分量输入到双支路密集连接融合解码器df中，通过多尺度融合重构生成融合图像：
[0057]
f＝df(c
y1
，c
y2
，adain(m
y1
)，adain(m
y2
))#(11)
[0058]
其中adain(
·
)为自适应标准化，两个跨模态图像的内容分量连接后直接送入卷积层重构，而模态分量则通过adain对每层的卷积进行标准化，从而注入到内容分量的重构中，影响融合图像的渲染方式。得到融合图像后，为了训练融合图像与输入的跨模态图像拥有最高的相似性，本发明提出融合像素损失：
[0059]
l
fus_pix
＝||f-y1||1+||f-y2||1#(12)
[0060]
和融合对抗损失：
[0061]
l
fus_adv
＝log(dis1(y1))+log(1-dis1(f))+log(dis2(γ2))+log(1-dis2(f))#(13)
[0062]
2)在所述步骤5中，为了保证融合图像中最大程度地包含源图像的所有信息，对融合图像使用步骤3中的内容、模态编码器进行解纠缠表示分解：
[0063][0064]
之后在步骤4的内容、模态分量和融合图像的内容、模态分量之间计算重构损失来衡量融合图像中损失的内容和模态信息：
[0065]
l
fus_rec
＝||c
f1-c
y1
||1+||c
f2-c
y2
||1+||m
f1-m
y1
||1+||m
f2-m
y2
||1#(15)
[0066]
步骤6：重复步骤4和步骤5，直到训练完训练集二中所有图像，得到训练好的融合模型。
[0067]
在所述步骤6中，先判断训练集二中图像是否已训练完，若是，则视为完成一次迭代，迭代次数自动加一，否则继续在当前迭代次数中训练。之后，继续判断是否已达到设定的迭代次数，若是，则停止训练得到训练好的融合解码器，否则继续进行迭代训练。
[0068]
本发明上述实施例基于图像解纠缠表示的跨模态图像融合方法，首先设计了基于密集连接的内容编码器和模态编码器，对跨模态图像的内容分量和模态分量进行解纠缠表示分解。之后设计了重构解码器，并在其和内容编码器之间通过多尺度长连接构成多尺度融合结构。重构解码器将内容分量进行卷积重构，并将模态分量通过多层感知网络生成的自适应参数通过自适应标准化的方式注入到内容重构的过程中，避免了互斥模态特征的干扰。之后，设计了判别器，并通过生成对抗网络对跨模态图像内容、模态分量的重构，模态转换重构和循环分解重构，训练内容、模态编码器和重构解码器。同时，设计了双支路密集连接的融合解码器，通过多尺度融合的方式生成融合图像。为了训练融合解码器的良好性能，使用生成对抗网络对融合图像和源图像的l1范数损失和对抗损失进行寻优。最后，将融合图像进行解纠缠表示分解，并通过融合图像和源图像的内容、模态分量构建内容、模态重构损失，来保证融合图像最大程度地对源图像的信息进行了保留。
[0069]
上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以
根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

技术特征：
1.一种基于图像解纠缠表示的跨模态图像融合方法，其特征在于：对跨模态图像使用密集连接的内容编码器和模态编码器进行解纠缠表示分解，对获取到的内容分量使用多尺度融合的方式在密集连接的融合解码器中进行重构，对模态分量使用自适应标准化的方式注入内容重构中得到融合图像，具体如下：步骤1：设计密集连接的内容编码器、重构解码器和模态编码器，输入训练集一中非成对跨模态图像并进行编码，得到图像的内容和模态分量；步骤2：将步骤1中图像的内容和模态分量进行重构、模态转换和循环分解重构，设计判别器通过生成对抗网络训练内容、模态编码器和重构解码器；步骤3：重复步骤1和步骤2，直到训练完训练集一中所有图像且达到设定的迭代数，得到预训练的内容、模态编码器和重构解码器；步骤4：加载步骤3的内容、模态编码器，将训练集二中的跨模态图像输入，得到内容和模态分量；步骤5：设计密集连接的融合解码器，并输入步骤4的内容、模态分量得到融合图像；将融合图像解纠缠表示分解，得到重构的内容、模态分量，并通过融合图像和重构的内容、模态分量和生成对抗网络训练融合解码器；步骤6：重复步骤4和步骤5，直到训练完训练集二中所有图像，得到训练好的融合模型。2.根据权利要求1所述的基于图像解纠缠表示的跨模态图像融合方法，其特征在于：所述图像解纠缠表示分解，设计密集连接的内容编码器、模态编码器和重构解码器，并通过图像重构、模态转换和循环重构对它们进行训练：1)按照密集连接模型，内容编码器中每层卷积都使用前层所有输出的特征图作为输入，以此来设计密集连接的内容编码器和重构解码器；模态编码器设计为具有下采样功能的卷积网络，并通过多层感知网络生成模态分量；2)将非成对跨模态图像进行解纠缠表示分解和重构，并根据下式(1)构建图像重构损失训练内容、模态编码器和重构解码器：l
rec
＝||x
1-x1→1||1+||x
2-x2→2||1ꢀꢀꢀꢀ
#(1)其中，x1，x2为非成对跨模态图像，x1→1，x2→2为通过内容、模态分量组合生成的重构图像，||
·
||1为l1范数；3)将图像的内容分量交换模态后生成模态转换图像，设计判别器，并根据下式(2)构建图像模态转移对抗损失训练内容、模态编码器：l
cyc_adv
＝log(dis1(x1))+log(1-dis1(x2→1))+log(dis2(x2))+log(1-dis2(x1→2))
ꢀꢀꢀ
#(2)其中，dis1，dis2为判别器，x2→1，x1→2为模态转换图像；4)将模态转换图像进行解纠缠表示分解，并根据下式(3)构建循环分解损失训练内容、模态编码器：其中，为模态转换图像的内容、模态分量，c
x1
，c
x2
、m
x1
，m
x2
为输入跨模态图像的内容、模态分量；5)将模态转换图像的内容、模态分量输入到重构解码器中生成循环重构图像，并根据下式(4)构建循环重构损失训练内容、模态编码器和重构解码器：
l
cyc_pix
＝||x1→2→
1-x1||1+||x2→1→
2-x2||1ꢀꢀꢀ
#(4)其中，x1→2→1，x2→1→2为循环重构图像。3.根据权利要求1所述的基于图像解纠缠表示的跨模态图像融合方法，其特征在于：所述内容、模态分量融合和重构，设计双支路密集连接的融合解码器和多尺度融合结构，并加载预训练的内容、模态编码器，通过融合图像和其重构内容、模态分量训练融合解码器：1)加载预训练的内容、模态编码器，对成对的跨模态图像进行解纠缠表示分解，将内容、模态分量输入到融合解码器中生成融合图像，并根据下式(5)构建融合像素损失和下式(6)构建融合对抗损失训练融合解码器：l
fus_pix
＝||f-y1||1+||f-y2||1ꢀꢀꢀ
#(5)l
fus_adv
＝log(dis1(y1))+log(1-dis1(f))+log(dis2(y2))+log(1-dis2(f))
ꢀꢀꢀ
#(6)其中，y1，y2为成对的跨模态图像，f为融合图像；2)将融合图像分别使用两个模态的内容、模态解码器进行解纠缠表示分解，在得到的融合图像的内容、模态分量和输入图像的内容、模态分量之间根据下式(7)构建内容、模态重构损失：l
fus_rec
＝||c
f1-c
y1
||1+||c
f2-c
y2
||1+||m
f1-m
y1
||1+||m
f2-m
y2
||1ꢀꢀꢀ
#(7)其中，c
f1
，c
f2
、m
f1
，m
f2
分别为融合图像通过两个内容、模态解码器解纠缠表示分解后得到的内容、模态分量，c
y1
，c
y2
、m
y1
，m
y2
分别为输入成对跨模态图像的内容、模态分量。

技术总结
本发明公开了一种基于图像解纠缠表示的跨模态图像融合方法，设计基于密集连接的内容编码器和模态编码器，对跨模态图像的内容分量和模态分量进行解纠缠表示分解；再设计重构解码器，并在其和内容编码器之间通过多尺度长连接构成多尺度融合结构；重构解码器将内容分量进行卷积重构；然后设计判别器，通过生成对抗网络对跨模态图像内容、模态分量的重构，模态转换重构和循环分解重构，训练内容、模态编码器和重构解码器。还设计了双支路密集连接的融合解码器，通过多尺度融合的方式生成融合图像。将融合图像进行解纠缠表示分解，并通过融合图像和源图像的内容、模态分量构建内容、模态重构损失，来保证融合图像最大程度地对源图像的信息进行保留。像的信息进行保留。像的信息进行保留。

技术研发人员：马世伟高远
受保护的技术使用者：上海大学
技术研发日：2022.08.08
技术公布日：2023/7/21

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于图像解纠缠表示的跨模态图像融合方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于图像解纠缠表示的跨模态图像融合方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表