基于协同学习的跨模态遥感图文匹配网络及其匹配方法

未命名 08-14 阅读:100 评论:0


1.本发明属于计算机视觉与自然语言处理交叉技术领域,特别涉及一种遥感图文跨模态匹配网络,可用于地理位置搜索、自然灾害分析和预警。


背景技术:

2.遥感图文跨模态匹配旨在处理遥感图像和相关文本数据的信息,并进一步实现跨模态内容匹配搜索,即对于给定的一组遥感图像和文本,要首先处理图像和文本之间的信息,再根据图像匹配相关文本或者根据文本匹配对应的图像,其实现需要跨模态匹配模型具备理解遥感图像与文本语义内容的能力,并在跨模态的语义空间能进行图文匹配与对应。
3.在深度学习技术的帮助下,现有技术已经提出了多种跨模态遥感图文匹配方法。
4.袁志强等人在tgrs1

19,2022开发了一种用于跨模态遥感图文匹配任务的非对称跨模态特征匹配网络amfmn,其充分考虑了遥感图像的多尺度特征,以深入解释其多样的信息:首先,通过引入基于多尺度视觉的自注意方法找到遥感图像中的显著区域,同时利用遥感图像信息指导文本表示学习;然后,通过开发的一个特定三元组损失,连接来自不同模态的数据之间的关系。该amfmn网络在他们构建的数据集上展现出令人满意的结果暗示了amfmn的有效性。
5.为了增强匹配方法的可行性,袁志强等人在tgrs 1

19,2021中又提出了一个轻量级匹配模型的轻量化多尺度跨模态匹配网络lw-mcr,其结合了多尺度特征学习方案、丰富的特征过滤机制、轻量级文本表示提取策略和知识提取策略来进行跨模态遥感图文匹配。
6.与此同时,同一小组发表在tgrs 1

16,2022.的另一个模型-全局与局部注意力网络galr。在galr中,作者强调了视觉特征学习在跨模态遥感图文检索中的重要性。在将遥感图像转换为视觉特征时,同时考虑全局和局部信息,使得隐藏在遥感图像中的复杂内容可以被理解,进而用于跨模态图文匹配。
7.上述三种网络模型都是双分支网络,其中一个分支网络旨在从遥感图像中学习视觉特征,另一个分支侧重于从文本中提取文本表示。当获得跨模态的特征后,再将它们映射到统一的语义空间中,从而直接测量遥感图像和文本之间的相似性。所述学习视觉特征,其的常用工具是深度卷积神经网络dcnns;所述文本表示学习的常用技术是递归神经网络rnn,常用的损失函数是三元组损失及其变体。尽管这些双分支方法是可行的,但它们的性能仍然无法达到预期。主要原因有两方面:首先,由于这些模型通常独立地学习遥感图像和文本的特征,因此不同特征表示之间的语义差距是不同的,这将降低相似性测量的可靠性。其次,上述跨模态遥感图文匹配方法主要强调特征学习,而忽视了对遥感图像和文本进行适当的特征交互,对挖掘跨模态场景下的语义对应关系造成不利影响。
8.transformer最近引起了学者的注意,因为它在挖掘隐藏在输入数据中的关系方面具有优势。目前,基于transformer的模型在各种计算机视觉算法中都很流行,一方面,由于其独特的结构,图像和文本可以被输入到一个统一的transformer网络中,相应的视觉特
征和文本特征可以同时学习,不仅保证了不同特征之间的语义一致性,而且得益于自注意机制sam,使得图像与文本之间的关系也可以在基于transformer的模型中进行深入建模。有利于建立两种模态之间的语义对应关系。
9.尽管上述基于transformer的方法在自然图像处理中显示出了它们的优势,但在将它们应用于遥感图像时仍有一些挑战需要解决。首先,基于transformer的方法侧重于建立跨模态关系,而不重视图像特征学习,这种限制对自然图像来说并不明显,但对遥感图像来说却是灾难性的,因为它们包含大量不同类型和多尺度的信息。其次,在应用自注意机制对跨模态关系进行建模时,虽然只考虑了图像的空间信息,而隐藏在相应特征图中的通道知识并没有得到应有的关注,因而限制基于transformer网络理解遥感图像的能力,导致对图文匹配的性能带来负面影响,无法达到令人满意的精度。


技术实现要素:

10.本发明的目的在于针对上述现有技术的补足,提出一种基于协同学习的跨模态遥感图文匹配网络及其匹配方法,以提高图文匹配的精度。
11.本发明的技术方案是:通过transformer进行图像和文本之间的特征交互,实现学习二者之间的语义关系,同时考虑到遥感图像包含复杂内容而进一步增强对于遥感图像信息的解译,其实现如下:
12.1.一种基于协同学习的跨模态遥感图文匹配网络,其特征在于,包括:特征嵌入模块、信息交互增强模块和检索模块;
13.所述特征嵌入模块,其包括一个文本嵌入子模块和图像嵌入子模块,用于获取文本和图像的最终嵌入特征,输出给信息交互增强模块;
14.所述信息交互增强模块,其包括三个串联的特征交互增强子模块组成,每个特征交互增强子模块包括模态间关系交互单元、通道角度特征增强单元和局部角度特征增强单元,用于将文本和图像的嵌入特征协同输入transformer进行对齐图文之间的语义关系,同时对遥感图像从通道和局部两方面进一步解译特征中包含的信息,并输出给检索模块;
15.所述检索模块,其包括一个多层模态间关系交互子模块、一个图像-文本匹配器子模块和交叉熵损失函数组成,用于将信息交互增强模块输出的特征再进行跨模态特征交互,并输出最终的匹配分数。
16.进一步,所述文本嵌入子模块,其由bert的分词器与嵌入器、文本分类标记文本位置嵌入矩阵和文本类别的判别矩阵组成,用于将文本整体映射为文本的最终嵌入特征,为后续的文本理解与分析提供了较为充分的特征表达;所述图像嵌入子模块,其由简单的线性映射、图像分类标记图像位置嵌入矩阵和图像类别的判别矩阵组成,用于将图像映射为图像的最终嵌入表示,该嵌入特征既保留了图像的视觉语义信息,也包含图像的空间信息,为后续的图像信息的理解与分析提供了较为全面与结构化的特征表达。
17.进一步,所述模态间关系交互单元,用于协同输入图文特征进行跨模态信息的学习,其由一个transformer组成,该transformer包含两层层归一化层、一层多头注意力层和一层多层感知机层,其结构为:第一层归一化层

多头注意力层

第二层归一化层

多层
感知机层,且第一归一化层的输入和多头注意力层的输出残差连接,第二归一化层的输入和多层感知机层的输出残差连接;所述通道角度特征增强单元,用于对遥感图像的通道信息进行解译学习,其结构与模态间关系交互单元相同;所述局部角度特征增强单元,用于利用深度卷积学习遥感图像的局部信息,增强网络区别背景和重要区域的能力,其包括一个层归一化层,三个1
×
1卷积核,两个3
×
3的深度卷积和一个高斯误差线性单元。
18.进一步,所述多层模态间关系交互子模块,用于深度挖掘图像和文本之间的语义关系,其由三层transformer组成,具体结构为:第一transformer层

第二transformer层

第三transformer层;其中,每个transformer包含两层层归一化层、一层多头注意力层和一层多层感知机层,其具体结构为:第一层归一化层

多头注意力层

第二层归一化层

多层感知机层,且第一归一化层的输入和多头注意力层的输出残差连接,第二归一化层的输入和多层感知机层的输出残差连接;
19.所述图像-文本匹配器子模块,用于最终计算图像和文本的匹配分数,由多层感知器和激活函数tanh(
·
)组成,其具体结构为:第一感知机层e
itm
(
·
)

激活函数tanh(
·
)

第二感知机层e
match
(
·
);所述交叉熵损失函数公式为:
[0020][0021]
其中si为第i对图文的匹配分数,m为其图像-文本关系标签,当其为匹配图文时m=1,否则m=0。
[0022]
2.一种利用上述网络进行协同学习跨模态遥感图文匹配的方法,其特征在于,包括如下步骤:
[0023]
1)从遥感图文匹配数据库中获取其训练样本集和测试样本集,每个包含对应的图像、文本数据和图像-文本关系标签;
[0024]
2)通过特征嵌入模块获取文本和图像的嵌入特征:
[0025]
2a)将文本输入到文本嵌入子模块获得文本最终嵌入特征;
[0026]
2b)将图像输入到图像嵌入子模块获得图像最终嵌入特征;
[0027]
3)利用信息交互增强模块学习多模态特征,以对齐图文之间的语义关系,并解译遥感图像特征中包含的信息:
[0028]
3a)将文本嵌入特征和图像嵌入特征拼接生成图文交互特征,并将该特征输入到模态间关系交互子块,以交互特征的协同学习方式实现弥合两种模态之间的语义差距;
[0029]
3b)从模态间关系交互子块输出的特征中分离出遥感图像模态特征;
[0030]
3c)将遥感图像模态特征转换为遥感图像通道特征,并将其输入到通道角度特征增强单元以获得遥感图像通道全局特征,以挖掘图像通道中的长距离依赖关系,进一步学习遥感图像的通道信息;
[0031]
3d)将遥感图像通道全局特征转换为遥感图像局部特征,并将其输入到局部角度特征增强单元以获得遥感图像局部角度增强特征,利用其深度卷积捕获局部信息,获得区分背景或显著区域的能力;
[0032]
3e)将遥感图像局部角度增强特征先转换为一维特征,再与2b)中被分离的特征拼接生成图文交互特征,作为下一轮特征交互增强块的输入或者信息交互增强模块整体输出的初步图文交互特征;
[0033]
4)将初步图文交互特征输入到多层模态间关系交互子模块中进一步对齐图文模
态之间的语义关系获得最终图文交互特征,再将最终图文交互特征通过图像-文本匹配器子模块得到图文匹配分数;
[0034]
5)将训练样本集输入网络中进行前向传播,获取其图文匹配分数,并将该图文匹配分数与对应的图像-文本关系标签输入到交叉熵损失函数中,再进一步结合反向传播迭代更新图文匹配网络,达到最大迭代次数时停止更新,以获得优化更新后的图文匹配网络;
[0035]
6)将测试样本集的图像和文本数据输入已经优化过的图文匹配网络中,计算图像和文本之间的匹配分数,并对这些分数进行降序排序,得到匹配图像和匹配文本的结果。
[0036]
本发明与现有技术相比,具有如下优点:
[0037]
本发明所构建的图文匹配网络模型,由于在其中的信息交互增强模块中设置模态间关系交互单元、通道角度特征增强单元和局部角度特征增强单元这三部分,故可在训练过程中避免现有技术中忽视图文信息的交互,且仅关注遥感图像的全局信息而忽视了图像通道和局部信息的缺陷,保障了对图文语义关系更全面的语义关系建模和对遥感图像信息更完善的解译;
[0038]
同时由于在检索模块中设有多层模态间关系交互子模块和图像-文本匹配器子模块,因而在训练过程中可避免现有技术仅利用距离度量获得图文匹配分数而忽视了图文语义存在巨大语义鸿沟的缺陷,有效提高了遥感图文匹配的精度;
[0039]
此外由于在嵌入模块中的图像嵌入子模块仅利用轻量化的线性映射获取图像嵌入特征,因而在训练过程中可避免现有技术利用包含更多参数的卷积神经网络提取图像嵌入特征导致增加网络冗余参数的缺陷,有效减少网络模型的参数。
附图说明
[0040]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
[0041]
图1是本发明基于协同学习的跨模态遥感图文匹配网络结构图;
[0042]
图2是图1中特征嵌入模块结构图;
[0043]
图3是图1中模态间关系交互子块的结构图;
[0044]
图4是图1中通道角度特征增强单元的结构图;
[0045]
图5是图1中局部角度特征增强单元的结构图;
[0046]
图6是本发明利用图1网络进行协同学习跨模态遥感图文匹配的实现流程图。
具体实施方式
[0047]
下面结合附图和具体实施例,对本发明作进一步详细描述
[0048]
参照图1,本实例基于协同学习的跨模态遥感图文匹配网络,包括特征嵌入模块1,信息交互增强模块2和检索模块3,其中,特征嵌入模块1用于提取文本的最终嵌入表示gi和图像的最终嵌入表示fi;将二者拼接后生成图文交互特征xi=[gi,fi]输入信息交互增强模块2;信息交互增强模块2将图文之间的语义关系进行对齐,同时考虑到遥感图像特征包含的复杂信息,对遥感图像特征从通道和局部角度进行增强学习,实现更全面解译遥感图像中的信息;信息交互增强模块2输出的特征传输给检索模块3进一步对齐图文模态之间的语
义关系,并通过多层感知机层映射以获得图文匹配分数;
[0049]
参照图2,所述特征嵌入模块1,包括一个文本嵌入子模块11和图像嵌入子模块12:
[0050]
该文本嵌入子模块11,由bert的分词器与嵌入器、文本分类标记文本位置嵌入矩阵和文本类别的判别矩阵组成,用于将文本ti整体映射为文本的最终嵌入特征
[0051]
本实例中文本为l=39个单词,分词器将ti转换为序号向量其中是第j个单词的序号向量,其维度为do=30522;
[0052]
将序号向量oi通过嵌入器获得词嵌入特征本实例中d=768,获得的词嵌入特征公式如下:
[0053]
其中为j个单词的词嵌入特征;
[0054]
将所获得的词嵌入特征与一个固定的文本分类标记拼接,并进一步添加文本位置嵌入矩阵以获得文本的初步嵌入表示g'i:
[0055][0056]
再将文本的初步嵌入表示g'i添加文本类别的判别矩阵得到文本的最终嵌入特征
[0057]
该图像嵌入子模块12由简单的线性映射e
image
、图像分类标记图像位置嵌入矩阵和图像类别的判别矩阵组成,用于将遥感图像vi映射为图像的最终嵌入表示:
[0058]
本实例中遥感图像vi的高度、宽度和通道分别设但不限于h=384,w=384和c=3;
[0059]
将遥感图像vi进行划分图像块操作并展平为n=144个图像块,表示为:
[0060][0061]
其中为第j个图像块,本实例中图像块的高度和宽度设但不限于h=w=32;
[0062]
将图像块pi通过可学习的线性映射映射为d=768维视觉特征公式如下所示:
[0063]
其中为第j个图像块的视觉特征
[0064]
将所获得的视觉特征与图像分类标记进行拼接,并添加图像位置嵌入矩阵以获得图像的初步嵌入特征f'i:
[0065][0066]
再将初步嵌入特征f'i和图像类别的判别矩阵相加得到图像的最终嵌入特征
[0067]
参照图3,所述模态间关系交互单元21,由一个transformer组成,用于将图文交互特征以协同学习的方式获得图文全局交互特征其
transformer包含两层层归一化层、一层多头注意力层和一层多层感知机层,具体结构为:第一个层归一化层

多头注意力层

第二个层归一化层

多层感知机层,且第一层归一化层的输入和多头注意力层的输出残差连接,第二归一化层的输入和多层感知机层的输出残差连接;
[0068]
参照图4,所述通道角度特征增强单元22,由一个transformer组成,用于从通道全局角度增强对遥感图像信息的解译;其transformer包含两层层归一化层、一层多头注意力层和一层多层感知机层,具体结构为:第一个层归一化层

多头注意力层

第二个层归一化层

多层感知机层,且第一层归一化层的输入和多头注意力层的输出残差连接,第二归一化层的输入和多层感知机层的输出残差连接;
[0069]
参照图5,所述局部角度特征增强单元23,由一个层归一化层,三个1
×
1卷积层,两个3
×
3的深度卷积层和一个高斯误差线性激活函数单元,用于学习遥感图像的局部信息,增强网络区别遥感图像背景和重要区域的能力:
[0070]
通过层归一化层将图像局部特征标准化,并重塑为图像局部二维特征
[0071]
通过第一1
×
1卷积层将图像局部二维特征映射为第一局部高维特征并通过第二1
×
1卷积层将图像局部二维特征映射为第二局部高维特征
[0072]
将第一图像局部高维特征通过第一3
×
3深度卷积层和一个高斯误差线性单元获得图像局部背景特征本实例中du=2042,以实现抑制非显著图像背景信息;
[0073]
将第二图像局部高维特征输入到第二3
×
3深度卷积层获得图像局部前景特征以突出图像显著区域信息;
[0074]
将局部背景特征和局部前景特征进行点积操作,以获得图像局部融合特征该特征ci包含丰富的局部信息;
[0075]
将局部融合特征ci通过第三1
×
1卷积层降低通道数,再与局部二维特征相加获得图像局部角度增强特征实现对图像局部信息的进一步学习。
[0076]
参照图6,应用本实例网络进行跨模态图文匹配的方法,具体实现如下:
[0077]
步骤1:从遥感跨模态图文数据库中获取划分好的训练样本集合测试样本集。
[0078]
本实例中共获取4个不同的遥感图文匹配数据集,分别为rsicd数据集、rsitmd数据集、ucm-captions数据集和sydney-captions数据集,训练样本集与测试样本集分别占各自总数据集90%和10%,其中rsicd数据集包含9828个训练样本和1093个测试样本,rsitmd数据集包含4270个训练样本和483个测试样本,ucm-captions数据集包含2000个训练样本和100个测试样本,sydney-captions数据集包含555个训练样本和58个测试样本;每个样本均包含一张图像、对应于图像的五个文本和图像-文本关系标签mi。
[0079]
步骤2:通过特征嵌入模块1获取文本的最终嵌入表示gi和图像的最终嵌入表示fi。
[0080]
2.1)将文本ti通过文本嵌入子模块11整体映射为文本的最终嵌入特征gi;
[0081]
2.2)将遥感图像vi通过图像嵌入子模块12获得图像的最终嵌入表示fi。
[0082]
步骤3:信息交互增强模块2对特征嵌入模块1的输出进行图文信息交互学习和遥感图像特征的增强学习,以获得初步图文交互特征。
[0083]
3.1)将文本的最终嵌入表示gi和图像的最终嵌入表示fi拼接生成图文交互特征
[0084]
3.2)将图文交互特征xi输入第一特征交互增强子模块,将图文之间的语义关系进行对齐,同时考虑到遥感图像特征包含的复杂信息,对遥感图像特征从通道和局部角度进行增强学习,实现更全面解译遥感图像中的信息,其过程如下:
[0085]
将图文交互特征xi通过第一特征交互增强子模块中的模态间关系交互单元21输出图文全局交互特征以交互特征的协同学习方式弥合两种模态之间的语义差距,实现图文之间的语义关系对齐;
[0086]
从模态间关系交互子块21输出的图文全局交互特征中分离出其他特征和遥感图像模态特征;
[0087]
将遥感图像模态特征转换为遥感图像通道特征并将其输入到通道角度特征增强单元22,输出图像通道全局特征以挖掘图像通道中的长距离依赖关系,进一步对图像的通道进行增强学习,获得对图像通道信息更好的解译;
[0088]
将图像通道全局特征转换为遥感图像局部特征并将其输入到局部角度特征增强单元23,输出图像局部角度增强特征以利用其深度卷积捕获局部信息,实现对图像局部信息的增强学习,以更好地解译图像的局部信息;
[0089]
将图像局部角度增强特征转换为一维特征,并与3.2)中的其他特征拼接生成第一图文交互特征,作为下一特征交互增强块的输入;
[0090]
3.3)将第一特征交互增强子模块输出的第一图文交互特征输入到第二特征交互增强子模块,以获得第二图文交互特征,其过程和作用与步骤3.2)相同;
[0091]
3.4)将第二特征交互增强子模块输出的第二图文交互特征输入第三特征交互增强子模块,并将其输出的初步图文交互特征作为检索模块3的输入,其过程和作用与步骤3.2)相同。
[0092]
步骤4:检索模块3对信息交互增强模块2的输出初步图文交互特征的语义信息进行处理,得到图文匹配分数。
[0093]
4.1)将信息交互增强模块2的输出的初步图文交互特征输入到多层模态间关系交互子模块31,将其图文语义关系进行对齐,建立图文语义关系之间的联系,以获得最终图文交互特征
[0094]
4.2)将图文交互特征输入到图像-文本匹配器子模块32,以多层感知机映射的方式获得最终的图文匹配分数si。
[0095]
步骤5:对图文匹配网络进行训练。
[0096]
5.1)设置初始化迭代次数为t=1,最大迭代次数为t:
[0097]
5.2)从训练样本集随机选取n个图文训练样本,输入到图文匹配网络获得n个图文训练样本的图文匹配分数s=[s1,

,si,

sn],其中si为第i个图文样本的图文匹配分数;
[0098]
5.3)将每个图文匹配分数s=[s1,

,si,

sn]和其对应的真实标签向量m=[m1,

,mi,

,mn]通过交叉熵损失函数计算损失值,其中mi表示第i个样本的图像-文本关系标签,并将该损失值进行反向传播,以对图文匹配网络进行迭代更新;
[0099]
5.4)判断t≥t是否成立:
[0100]
若是,得到优化更新后的图文匹配网络;
[0101]
否则令t=t+1,返回5.2)。
[0102]
步骤6:对图文匹配网络进行测试,包含匹配文本和匹配图像两个任务。
[0103]
6.1)用测试样本集中所包含的i张图像和t个文本组成h=i
×
t个测试样本集的所有图文样本对,将该h个图文样本对输入到已经优化过的图文匹配网络中,计算测试样本集中所有图文对的匹配分数其中s
(i-1)
×
t+t
表示测试样本中第i个图像和第j个文本组成的图文样本的图文匹配分数;
[0104]
6.2)对第i个图像和所有文本的匹配分数si·
=[s
(i-1)
×
t+1
,s
(i-1)
×
t+2
,

,si×
t
]进行降序排序,将第i个图像和排序为前10的文本组成的图文对的预测标签分别设定为匹配,并将该第i个图像和其余文本组成图文对的预测标签设定为不匹配,完成对文本的匹配;
[0105]
6.2)对第j个文本和所有图像的匹配分数s
·j=[sj,s
t+j
,

,s
(i-1)
×
t+j
]进行降序排序,并将第j个文本和排序为前10的图像组成的图文对的预测标签分别设定为匹配,并将该第j个文本和其余图像组成图文对的预测标签设定为不匹配,完成对图像的匹配。
[0106]
本发明的技术效果可通过以下仿真实验作进一步说明。
[0107]
一、仿真条件
[0108]
所有实验都是在两个具有48g内存的nvidia rtxa6000 gpu上进行。
[0109]
仿真使用的四个数据集分别是rsicd数据集、rsitmd数据集,ucm-captions数据集和sydney-captions数据集:
[0110]
rsicd数据集包含10921个遥感图像,每张遥感图像都有五个匹配文本;
[0111]
rsitmd数据集包含4743个分辨率为256
×
256的遥感图像,其中每张遥感图像都有五个匹配文本;
[0112]
ucm-captions数据集包含2100个遥感图像,每张图像的像素分辨率和大小分别为1英尺和256
×
256,其中每张图像都有五个匹配文本;
[0113]
sydney-captions数据集包含613张大小为500
×
500,空间分辨率约为0.5米遥感图像,其中每张图像都有五个匹配文本。
[0114]
二.仿真内容:
[0115]
在上述仿真条件下,分别用本发明和现有八个方法clip、msit、amfmn-soft,amfmn-fusion、amfmn-sim、lw-wcr-b、lw-wcr-d、galr在四个数据集上进行遥感图文匹配仿
真,包含四个仿真实验;为了定量说明所提出网络的性能,选择了遥感图文匹配任务常用的7个数值性能指标来衡量上述现有方法和本发明的差异:
[0116]
仿真1,用本发明和八种现有方法在rsicd数据集上进行遥感图文匹配,对各自的图文匹配结果分别对匹配文本的第1准确率tr@1、前5准确率tr@5、前10准确率tr@10和匹配图像的第1准确率ir@1、前5准确率ir@5、前10准确率ir@10及平均匹配准确率mr这7个评价指标进行计算,得到数值化结果如表1:
[0117]
表1本发明与现有技术在rsicd数据集的数值化结果
[0118][0119]
从表1中明显可见,本发明相对于八个现有方法在rsicd数据集中,其7个常用的评价指标的精度更高,泛化能力更强,进一步说明本发明所提出网络的优越性。
[0120]
仿真2,用本发明和八种现有方法在rsitmd数据集上进行遥感图文匹配,对各自的图文匹配结果分别对匹配文本的第1准确率tr@1、前5准确率tr@5、前10准确率tr@10和匹配图像的第1准确率ir@1、前5准确率ir@5、前10准确率ir@10及平均匹配准确率mr这7个评价指标进行计算,得到数值化结果如表2:
[0121]
表2本发明与现有技术在rsitmd数据集的数值化结果
[0122][0123]
从表2中明显可见,本发明相对于八个现有方法在rsitmd数据集中,其7个评价指标的精度更高,具备更强的探索图文匹配关系的能力,进一步说明本发明所提出网络的优越性。
[0124]
仿真3,用本发明和八种现有方法在ucm-captions数据集上进行遥感图文匹配,对各自的图文匹配结果分别对匹配文本的第1准确率tr@1、前5准确率tr@5、前10准确率tr@10和匹配图像的第1准确率ir@1、前5准确率ir@5、前10准确率ir@10及平均匹配准确率mr这7个评价指标进行计算,得到数值化结果如表3:
[0125]
表3本发明与现有技术在ucm-captions数据集的数值化结果
[0126][0127][0128]
从表3中明显可见,本发明相对于八个现有方法在ucm-captions数据集中,其7个
评价指标的精度更高,具备更好的拉齐图文语义关系的能力,进一步说明本发明所提出网络的优越性。
[0129]
仿真4,用本发明和八种现有方法在sydney-captions数据集上进行遥感图文匹配对各自的图文匹配结果分别对匹配文本的第1准确率tr@1、前5准确率tr@5、前10准确率tr@10和匹配图像的第1准确率ir@1、前5准确率ir@5、前10准确率ir@10及平均匹配准确率mr这7个评价指标进行计算,得到数值化结果如表4。
[0130]
表4本发明与现有技术在sydney-captions数据集的数值化结果
[0131][0132][0133]
从表4中明显可见,本发明相对于八个现有方法在sydney-captions数据集中,其平均匹配准确率mr的结果始终优于现有的方法,展现了本发明更好的泛化性能,表明了所提出的遥感图文匹配网络的有效性和优越性。
[0134]
所述八个现有技术的出处:
[0135]
clip是radford等人在pmlr上发表的用于图文匹配的网络,即:a.radford,j.w.kim,c.hallacy,a.ramesh,g.goh,s.agarwal,g.sastry,a.askell,p.mishkin,j.clark et al.,“learning transferable visual models from natural language supervision,”in international conference on machine learning.pmlr,2021,pp.8748

8763;
[0136]
msit是王懿婧等人在在ieee igarss上发表的用于遥感图文匹配的网络,即:y.wang,j.ma,m.li,x.tang,x.han,and l.jiao,“multi scale interactive transformer for remote sensing cross-modal image-text retrieval,”in igarss 2022-2022ieee international geoscience and remote sensing symposium.ieee,2022,pp.839

842;
[0137]
amfmn-soft,amfmn-fusion和amfmn-sim是袁志强等人在ieee tgrs上发表的用于遥感图文匹配的网络,即:z.yuan,w.zhang,k.fu,x.li,c.deng,h.wang,and x.sun,“exploring a fine-grained multiscale method for cross-modal remote sensing image retrieval,”ieee transactions on geoscience and remote sensing,vol.60,
pp.1

19,2022;
[0138]
lw-wcr-b和lw-wcr-d是袁志强等人在ieee tgrs上发表的用于遥感图文匹配的网络,即:z.yuan,w.zhang,x.rong,x.li,j.chen,h.wang,k.fu,and x.sun,“alightweight multi-scale crossmodal text-image retrieval method in remote sensing,”ieee transactions on geoscience and remote sensing,vol.60,pp.1

19,2021;
[0139]
galr是袁志强等人在ieee tgrs上发表的用于遥感图文匹配的网络,即:z.yuan,w.zhang,c.tian,x.rong,z.zhang,h.wang,k.fu,and x.sun,“remote sensing cross-modal text-image retrieval based on global and local information,”ieee transactions on geoscience and remote sensing,vol.60,pp.1

16,2022;
[0140]
上述匹配文本的第1准确率tr@1:在完成对文本的匹配后,对每个图像,获取与该图像相关且预测标签为匹配的10个图文对,并进一步获取其中匹配分数最高的图文对的图像-文本关系标签;对所有图像,统计其获取的最高匹配分数的图文对的图像-文本关系标签为匹配的图像个数,并将其除以总的图像个数,该值即为匹配文本的第1准确率tr@1,其值在0~100%之间,此值越大说明匹配效果越好;
[0141]
上述匹配文本的前5准确率tr@5:在完成对文本的匹配后,对每个图像,获取与该图像相关且预测标签为匹配的10个图文对,并进一步获取取这些图文对中匹配分数为前5的图文对的图像-文本关系标签;对所有图像,统计其获取的前5图文对的图像-文本关系标签中存在匹配的图像个数,并将其除以总的图像个数,该值即为匹配文本的前5准确率tr@5,其值在0~100%之间,此值越大说明匹配效果越好;
[0142]
上述匹配文本的前10准确率tr@10:在完成对文本的匹配后,对每个图像,获取与该图像相关且预测标签为匹配的10个图文对,并获取10个图文对的图像-文本关系标签;对所有图像,统计获取的前10图像-文本关系标签中存在匹配的图像个数,并将其除以总的图像个数,该值即为匹配文本的前10准确率tr@10,其值在0~100%之间,此值越大说明匹配效果越好;
[0143]
上述匹配图像的第1准确率ir@1:在完成对图像的匹配后,对每个文本,获取与该文本相关且预测标签为匹配的图像组成的10个图文对,获取其中匹配分数最高的图文对的图像-文本关系标签;对所有文本,统计获取的最高匹配分数的图像-文本关系标签为匹配的文本个数,并将其除以总的文本个数,该值即为匹配图像的第1准确率ir@1,其值在0~100%之间,此值越大说明匹配效果越好;
[0144]
上述匹配图像的前5准确率ir@5:在完成对图像的匹配后,对每个文本,获取与该文本相关且预测标签为匹配的图像组成的10个图文对,获取其匹配分数为前5的样本对的图像-文本关系标签;对所有文本,统计获取的前5图像-文本关系标签中存在匹配的文本个数,并将其除以总的文本个数,该值即为匹配图像的前5准确率ir@5,其值在0~100%之间,此值越大说明匹配效果越好;
[0145]
上述匹配图像的前10准确率ir@10:在完成对图像的匹配后,对每个文本,获取与该文本相关且预测标签为匹配的图像组成的10个图文对,并获取10个图文对的图像-文本关系标签;对所有文本,统计其获取的10个图像-文本关系标签中存在匹配的文本个数,并将其除以总的文本个数,该值即为匹配图像的前10准确率ir@10,其值在0~100%之间,此值越大说明匹配效果越好;
[0146]
上述平均匹配准确率mr:获取匹配文本的第1准确率tr@1,前5准确率tr@5,前10准确率tr@10和匹配图像的第1准确率ir@1,前5准确率ir@5,前10准确率ir@10的数值化结果后,对以上6个评价指标的结果取均值,即为平均匹配准确率mr,其值在0~100%之间,此值越大说明匹配效果越好。

技术特征:
1.一种基于协同学习的跨模态遥感图文匹配网络,其特征在于,包括:特征嵌入模块(1)、信息交互增强模块(2)和检索模块(3);所述特征嵌入模块(1),其包括一个文本嵌入子模块(11)和图像嵌入子模块(12),用于获取文本和图像的最终嵌入特征,输出给信息交互增强模块(2);所述信息交互增强模块(2),其包括三个串联的特征交互增强子模块组成,每个特征交互增强子模块包括模态间关系交互单元(21)、通道角度特征增强单元(22)和局部角度特征增强单元(23),用于将文本和图像的嵌入特征协同输入transformer进行对齐图文之间的语义关系,同时对遥感图像从通道和局部两方面进一步解译特征中包含的信息,并输出给检索模块(3);所述检索模块(3),其包括一个多层模态间关系交互子模块(31)、一个图像-文本匹配器子模块(32)和交叉熵损失函数组成,用于将信息交互增强模块输出的特征再进行跨模态特征交互,并利用输出最终的匹配分数。2.根据权利要求1所述的网络,其特征在于:所述文本嵌入子模块(11),其由bert的分词器与嵌入器、文本分类标记文本位置嵌入矩阵和文本类别的判别矩阵组成,用于将文本整体映射为文本的最终嵌入特征,为后续的文本理解与分析提供了较为充分的特征表达;所述图像嵌入子模块(12),其由简单的线性映射组成、图像分类标记图像位置嵌入矩阵和图像类别的判别矩阵组成,用于将图像映射为图像的最终嵌入表示,该嵌入特征既保留了图像的视觉语义信息,也包含图像的空间信息,为后续的图像信息的理解与分析提供了较为全面与结构化的特征表达。3.根据权利要求1所述的网络,其特征在于:所述模态间关系交互单元(21),用于协同输入图文特征进行跨模态信息的学习,其由一个transformer组成,该transformer包含两层层归一化层、一层多头注意力层和一层多层感知机层,其结构为:第一层归一化层

多头注意力层

第二层归一化层

多层感知机层,且第一归一化层的输入和多头注意力层的输出残差连接,第二归一化层的输入和多层感知机层的输出残差连接,所述通道角度特征增强单元(22),用于对遥感图像的通道信息进行解译学习,其结构与模态间关系交互单元(21)相同;所述局部角度特征增强单元(23),用于利用深度卷积学习遥感图像的局部信息,增强网络区别背景和重要区域的能力,其包括一个层归一化层,三个1
×
1卷积核,两个3
×
3的深度卷积和一个高斯误差线性单元。4.根据权利要求1所述的网络,其特征在于:所述多层模态间关系交互子模块(31),用于深度挖掘图像和文本之间的语义关系,拉近图文跨模态的语义鸿沟;其由三层transformer组成,每个transformer包含两层层归一化层、一层多头注意力层和一层多层感知机层,其结构为:第一层归一化层

多头注意力层

第二层归一化层

多层感知机层,且第一归一化层的输入和多头注意力层的输出残差连接,第二归一化层的输入和多层感知机层的输出残差连接;
所述图像-文本匹配器子模块(32),由多层感知器和激活函数tanh(
·
)组成,其具体结构为:第一感知机层e
itm
(
·
)

激活函数tanh(
·
)

第二感知机层e
match
(
·
),用于最终输出图像和文本的匹配分数,作为最终检索结果的排序分数;所述交叉熵损失函数公式为:其中s
i
为第i对图文的匹配分数,m为其图像-文本关系标签,当其为匹配图文时m=1,否则m=0。5.一种利用权利要求1网络进行协同学习跨模态遥感图文匹配的方法,其特征在于,包括如下步骤:1)从遥感图文匹配数据库中获取其训练样本集和测试样本集,每个包含对应的图像、文本数据和图像-文本关系标签;2)通过特征嵌入模块(1)获取文本和图像的嵌入特征:2a)将文本输入到文本嵌入子模块(11)获得文本最终嵌入特征;2b)将图像输入到图像嵌入子模块(12)获得图像最终嵌入特征;3)利用信息交互增强模块(2)学习多模态特征,以对齐图文之间的语义关系,并解译遥感图像特征中包含的信息:3a)将文本嵌入特征和图像嵌入特征拼接生成图文交互特征,并将该特征输入到模态间关系交互子块(21),以交互特征的协同学习方式实现弥合两种模态之间的语义差距;3b)从模态间关系交互子块(21)输出的特征中分离出遥感图像模态特征;3c)将遥感图像模态特征转换为遥感图像通道特征,并将其输入到通道角度特征增强单元(22)以获得遥感图像通道全局特征,以挖掘图像通道中的长距离依赖关系,进一步学习遥感图像的通道信息;3d)将遥感图像通道全局特征转换为遥感图像局部特征,并将其输入到局部角度特征增强单元(23)以获得遥感图像局部角度增强特征,利用其深度卷积捕获局部信息,获得区分背景或显著区域的能力;3e)将遥感图像局部角度增强特征先转换为一维特征,再与2b)中被分离的特征拼接生成图文交互特征,作为下一轮特征交互增强块的输入或者信息交互增强模块(2)整体输出的初步图文交互特征;4)将初步图文交互特征输入到多层模态间关系交互子模块(31)中进一步对齐图文模态之间的语义关系获得最终图文交互特征,再将最终图文交互特征通过图像-文本匹配器子模块(32)得到图文匹配分数;5)将训练样本集输入网络中获取其图文匹配分数,并将该图文匹配分数与对应的图像-文本关系标签输入到交叉熵损失函数中,再进一步结合反向传播迭代更新图文匹配网络,达到最大迭代次数时停止更新,以获得优化更新后的图文匹配网络;6)将测试样本集的图像和文本数据输入已经优化过的图文匹配网络中,计算图像和文本之间的匹配分数,并对这些分数进行降序排序,得到图像和文本的预测匹配标签。6.根据权利要求5所述的方法,其特征在于,步骤3a)将图文交互特征输入到模态间关系交互子块(21)进行协同学习,实现如下:
3a1)将图文交互特征通过第一层归一化层获得标准化图文交互特征3a2)通过多头注意力层协同处理标准化图文交互特征实现建模图文语义关系,获得图文信息交互特征3a3)将和x
i
的总和输入到第二层归一化层和多层感知机层中得到图文全局交互特征进一步学习图文特征之间全局关系,并将作为模态间关系交互子块(21)的输出。7.根据权利要求1所述的方法,其特征在于,步骤3c)中遥感图像通道特征通过通道角度特征增强单元(22)进一步学习遥感图像的通道信息,实现如下:3c1)图像通道特征通过第一层归一化层获得标准化图像通道特征3c3)通过一层多头注意力层输出图像通道增强特征以建模图像通道之间的关系;3c4)将和的总和依次输入到第二层归一化层和多层感知机层中,进一步从通道全局角度增强对遥感图像信息的解译,得到图像通道全局特征并将作为通道角度特征增强单元(22)的输出。8.根据权利要求1所述的方法,其特征在于,步骤3d)中局部角度特征增强单元(23),利用其深度卷积捕获局部信息,实现如下:3d1)图像局部特征通过层归一化后,重塑为图像局部二维特征3d2)采用两个1
×
1卷积将映射为两个图像局部高维特征和3d3)将输入到一个3
×
3深度卷积和一个高斯误差线性单元获得图像局部背景特征以实现抑制非显著图像背景信息;3d4)将输入到另一个3
×
3深度卷积获得图像局部前景特征以突出图像显著区域信息;3d5)对和进行点积操作,以获得图像局部融合特征该特征c
i
包含丰富的局部信息;3d6)将c
i
通过一个1
×
1卷积降低通道数,再与相加获得图像局部角度增强特征作为局部角度特征增强单元(23)的输出。9.根据权利要求1所述的方法,其特征在于,步骤4)中最终图文交互特征通过图像-文本匹配器子模块(32)得到图文匹配分数,是将最终图文交互特征先输入到该模块的第一层感知机层e
itm
(
·
)和激活函数tanh(
·
)获得图文匹配特征再将图文匹配特征输入到该模块的第二层感知机层e
match
(
·
),获得最终的图文匹配分数s
i
。10.根据权利要求1所述的方法,其特征在于,步骤5)中利用交叉熵损失函数结合反向
传播迭代更新图文匹配网络,实现如下5a)初始化迭代次数为t,最大迭代次数为t,并令t=1:5b)将从训练样本集随机选取的n个图文训练样本作为网络模型的输入进行前向传播以获得预测标签向量集合y={y1,y2,

,y
n
,

y
n
},其中y
n
表示第n个训练样本对应的预测标签向量;5c)利用交叉熵损失函数计算每个预测标签向量y
n
和其对应的真实标签向量m
n
之间的关系,其中m
n
表示第n个训练样本对应的图像-文本关系标签,并采用梯度下降法,通过损失函数值对图文匹配网络的权值参数ω进行更新;5d)判断t≥t是否成立:若是,得到优化更新后的图文匹配网络,否则令t=t+1,返回5b)。

技术总结
本发明公开了一种基于协同学习的跨模态遥感图文匹配网络及其匹配方法,主要解决现有遥感图文匹配能力不足的问题。该图文匹配网络由特征嵌入模块、信息交互增强模块和检索模块组成。特征嵌入模块提取文本和遥感图像的最终嵌入特征;信息交互增强模块对特征嵌入模块输出的嵌入特征进行图文语义关系的协同学习,并增强对遥感图像通道和局部信息的学习,输出初步图文交互特征;检索模块对信息交互增强模块输出的初步图文交互特征进行图文语义关系的对齐,输出最终图文匹配分数。本发明通过信息交互增强模块学习图文语义关系,提高了网络性能,进一步挖掘了遥感图像的通道和局部信息,增强了网络的泛化性能,可用于地理位置搜索、自然灾害分析和预警。自然灾害分析和预警。自然灾害分析和预警。


技术研发人员:唐旭 王懿婧 马晶晶 张向荣 焦李成
受保护的技术使用者:西安电子科技大学
技术研发日:2023.05.23
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐