基于注意力多尺度融合的图像哈希检索方法

未命名 10-18 阅读:156 评论:0


1.本发明属于图像检索技术领域,具体涉及到图像哈希检索方法。


背景技术:

2.近年来,哈希检索由于其空间复杂度和时间复杂度低的特性,在大规模图像检索领域备受关注。现有的方法中,研究人员更多关注如何设计深层神经网络以此来提取更为深层的语义特征,而忽略了其中中间层特征独具的含义。哈希函数将键值映射到哈希表中,会导致多个键值被映射到相同的位置处,因此引发冲突,也称之为np难题,现有的深度哈希方法常通过松弛离散约束为连续来解决np难题,虽然简化了哈希函数的优化过程,但是阈值难以确定的同时存储和计算成本都会增加,由此产生较大的量化误差,导致检索精度下降。hashnet利用对tanh函数设置不同系数,一定程度上解决梯度优化问题,但是该方法没有考虑到图像的全局和局部信息。
3.在网络图像检索技术领域,当前需迫切解决的一个技术问题是一种搜索速度快、效率高、检索分类准确的网络图像检索方法。


技术实现要素:

4.本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种搜索速度快、效率高、检索分类准确的基于注意力多尺度融合的图像哈希检索方法。
5.解决上述技术问题所采用的技术方案是由下述步骤组成:
6.(1)数据集预处理
7.在nus-wide数据集和ms coco数据集中随机选取数据集按2:1划分成训练集x与测试集q,x∈{x1,x2,...,xn},输入图像尺寸归一化像素为256
×
256。
8.(2)构建注意力多尺度融合网络
9.注意力多尺度融合网络由主干网络与多尺度-注意力模块、串联的两个全连接层、哈希层依次串联构成。
10.(3)训练注意力多尺度融合网络
11.1)确定目标函数
12.目标函数包括损失函数评价函数map,按下式确定损失函数
[0013][0014]
《hi,hj》=k-2disth(hi,hj)
[0015][0016]
[0017][0018]
其中,s
ij
为成对图像xi和xj的相似性标签,u为成对图像标签集合中相似性标签s
ij
的个数,s
ijk
表示第k个相似性标签,hi和hj为成对输入的哈希码,disth(
·
)表示汉明距离,《
·
》表示内积,w
ij
为成对输入的成对图像和相似性标签(xi,xj,s
ij
)的权重,s1表示相似图像标签,s0表示不相似图像标签,c
ij
为图像连续相似性,yi为xi的输出,yj为xj的输出;按下式确定评价函数map:
[0019][0020][0021]
其中,|q|表示测试集q中的图像个数,s(qj)为检索到的相似图像集合,|s(qj)|表示集合s(qj)中的图像个数,pre(i)表示在前i个相似图像中检索正确的比例,rel(i)表示第i个相似图像是否与测试图像相似,tp(i)表示前i个相似图像中检索正确的个数。
[0022]
2)哈希优化
[0023]
按式(3)确定优化函数softsign(a):
[0024][0025]
3)训练注意力多尺度融合网络
[0026]
将训练集输入到注意力多尺度融合网络中进行训练,在训练过程中,使用随机梯度下降sgd作为优化器,初始学习率为1.0,动量梯度下降为0.9,训练至损失函数收敛。
[0027]
(4)保存模型
[0028]
在训练注意力多尺度融合网络过程中,不断更新权重,保存权重文件。
[0029]
(5)测试注意力多尺度融合网络
[0030]
将测试集q输入到训练好的注意力多尺度融合网络中进行测试,加载保存的权重文件,输出检索结果和平均精度。
[0031]
在本发明的步骤(2)构建注意力多尺度融合网络中,所述的主干网络由卷积层1与软池化层1、卷积层2、软池化层2、卷积层3、软池化层3依次串联构成。
[0032]
本发明的卷积层1的卷积核大小为64
×3×
3、步长为1,卷积层2的卷积核大小为128
×3×
3、步长为1,卷积层3的卷积核大小为256
×3×
3,步长为1。
[0033]
在本发明得步骤(2)构建注意力多尺度融合网络中,所述的多尺度-注意力模块由多尺度融合模块与注意力机制模块串联构成。
[0034]
本发明的多尺度融合模块由卷积层4与多尺度模块、concat层依次串联构成。
[0035]
本发明的多尺度模块由3~6层依次串联的卷积层构成,卷积层的卷积核大小为512
×3×
3、步长为1。
[0036]
本发明的多尺度模块最佳由4层依次串联的卷积层构成,卷积层的卷积核大小为512
×3×
3、步长为1。
[0037]
本发明的注意力机制模块为senet注意力模型,由全局平均池化层与全连接层3、relu激活函数层、全连接层4、sigmoid激活函数层依次串联构成。
[0038]
由于本发明采用了将多尺度特征融合和注意力机制充分加入到图像特征提取部分,解决了现有技术没有全面考虑图像局部和全局特征问题。在注意力多尺度融合网络中,采用了软池化层,解决了现有技术模型池化可视化效果不好、保留激活领域内部信息不够多的技术问题。在哈希优化部分,采用优化函数softsign代替原函数,解决了梯度消失问题。本发明具有检索精度高、搜索速度快、效率高、检索分类准确、网络的稳健性强等优点,可用于图像检索技术领域。
附图说明
[0039]
图1是本发明实施的流程图。
[0040]
图2是注意力多尺度融合网络的结构示意图。
[0041]
图3是图2中主干网络的结构示意图。
[0042]
图4是多尺度融合模块的结构示意图
[0043]
图5是注意力机制模块的结构示意图。
具体实施方式
[0044]
下面结合附图和实施例对本发明进一步详细说明,但本发明不限于下面的实施例。
[0045]
实施例1
[0046]
在图1中,本实施例的基于注意力多尺度融合的图像哈希检索方法由下述步骤组成:
[0047]
(1)数据集预处理
[0048]
在nus-wide数据集和ms coco数据集中随机选取数据集按2∶1划分成训练集x与测试集q,x∈{x1,x2,...,xn},输入图像尺寸归一化像素为256
×
256。
[0049]
(2)构建注意力多尺度融合网络
[0050]
图2给出了本实施例注意力多尺度融合网络的结构示意图。在图2中,本实施例的注意力多尺度融合网络由主干网络与多尺度-注意力模块、全连接层1、全连接层2、哈希层依次串联构成。
[0051]
图3给出了图2中主干网络的结构示意图。在图3中,本实施例的主干网络由卷积层1与软池化层1、卷积层2、软池化层2、卷积层3、软池化层3依次串联构成。
[0052]
本实施例卷积层1的卷积核大小为64
×3×
3、步长为1,卷积层2的卷积核大小为128
×3×
3、步长为1,卷积层3的卷积核大小为256
×3×
3,步长为1。
[0053]
本实施例的多尺度-注意力模块由多尺度融合模块与注意力机制模块串联构成。
[0054]
图4给出了多尺度融合模块的结构示意图。在图4中,本实施例的多尺度融合模块由卷积层4、多尺度模块、concat层依次串联构成,多尺度模块由3~6层依次串联的卷积层构成,本实施例的多尺度模块由4层卷积层依次串联构成,即由卷积层5与卷积层6、卷积层7、卷积层8依次串联构成,卷积层4、卷积层5、卷积层6、卷积层7、卷积层8的卷积核大小为512
×3×
3、步长为1。
[0055]
图5给出了注意力机制模块的结构示意图。在图5中,本实施例的注意力机制模块由全局平均池化与全连接层3、relu激活函数层、全连接层4、sigmoid激活函数层依次串联
构成。
[0056]
(3)训练注意力多尺度融合网络
[0057]
1)确定目标函数
[0058]
目标函数包括损失函数评价函数map,按下式确定损失函数
[0059][0060]
《hi,hj》=k-2disth(hi,hj)
[0061][0062][0063][0064]
其中,s
ij
为成对图像xi和xj的相似性标签,u为成对图像标签集合中相似性标签s
ij
的个数,s
ijk
表示第k个相似性标签,hi和hj为成对输入的哈希码,disth(
·
)表示汉明距离,《
·
》表示内积,w
ij
为成对输入的成对图像和相似性标签(xi,xj,s
ij
)的权重,s1表示相似图像标签,s0表示不相似图像标签,c
ij
为图像连续相似性,yi为xi的输出,yj为xj的输出。按下式确定评价函数map:
[0065][0066][0067]
其中,|q|表示测试集q中的图像个数,s(qj)为检索到的相似图像集合,|s(qj)|表示集合s(qj)中的图像个数,pre(i)表示在前i个相似图像中检索正确的比例,rel(i)表示第i个相似图像是否与测试图像相似,tp(i)表示前i个相似图像中检索正确的个数。
[0068]
2)哈希优化
[0069]
按式(3)确定优化函数softsign(a):
[0070][0071]
3)训练注意力多尺度融合网络
[0072]
将训练集输入到注意力多尺度融合网络中进行训练,在训练过程中,使用随机梯度下降sgd作为优化器,初始学习率为1.0,动量梯度下降为0.9,训练至损失函数收敛;
[0073]
(4)保存模型
[0074]
在训练注意力多尺度融合网络过程中,不断更新权重,保存权重文件;
[0075]
(5)测试注意力多尺度融合网络
[0076]
将测试集q输入到训练好的注意力多尺度融合网络中进行测试,加载保存的权重文件,输出检索结果和平均精度。
[0077]
完成基于注意力多尺度融合的图像哈希检索方法。
supervised hashing(简称ksh)、iterative quantization and canonical correlation analysis(简称itq-cca)、supervised discrete hashing (简称sdh)
[0104]
深度哈希:convolutional neural network hashing(简称cnnh)、deep neural network hashing(简称dnnh)、deep hashing network(简称dhn)、hashnet。
[0105]
实验结果见表1。
[0106]
表1不同方法在nus-wide和ms coco的map值
[0107][0108]
从表1中可以得出,传统有监督方法表现优于无监督,这得益于标签中包含丰富的图像信息。深度哈希模型采用卷积神经网络进行特征提取,精度明显高于传统方法。本发明方法在两个数据集中表现最优,可以看出相比于cnnh和dnnh方法,本发明方法精度提升了15%,相比于基线方法hashnet,本发明方法在16,32,48,64比特下精度都有所提高。在ms coco数据集下提高精度为3.91%,在nus-wide数据集下提高精度为2.93%。实验结果验证了本发明方法的有效性。

技术特征:
1.一种基于注意力多尺度融合的图像哈希检索方法,其特征在于由下述步骤组成:(1)数据集预处理在nus-wide数据集和ms coco数据集中随机选取数据集按2:1划分成训练集x与测试集q,x∈{x1,x2,...,x
n
},输入图像尺寸归一化像素为256
×
256;(2)构建注意力多尺度融合网络注意力多尺度融合网络由主干网络与多尺度-注意力模块、串联的两个全连接层、哈希层依次串联构成;(3)训练注意力多尺度融合网络1)确定目标函数目标函数包括损失函数评价函数map,按下式确定损失函数评价函数map,按下式确定损失函数<h
i
,h
j
>=k-2dist
h
(h
i
,h
j
)))其中,s
ij
为成对图像x
i
和x
j
的相似性标签,u为成对图像标签集合中相似性标签s
ij
的个数,s
ijk
表示第k个相似性标签,h
i
和h
j
为成对输入的哈希码,dist
h
(
·
)表示汉明距离,<
·
>表示内积,w
ij
为成对输入的成对图像和相似性标签(x
i
,x
j
,s
ij
)的权重,s1表示相似图像标签,s0表示不相似图像标签,c
ij
为图像连续相似性,y
i
为x
i
的输出,y
j
为x
j
的输出;按下式确定评价函数map:定评价函数map:其中,|q|表示测试集q中的图像个数,s(q
j
)为检索到的相似图像集合,|s(q
j
)|表示集合s(q
j
)中的图像个数,pre(i)表示在前i个相似图像中检索正确的比例,rel(i)表示第i个相似图像是否与测试图像相似,tp(i)表示前i个相似图像中检索正确的个数;2)哈希优化按式(3)确定优化函数softsign(a):3)训练注意力多尺度融合网络将训练集输入到注意力多尺度融合网络中进行训练,在训练过程中,使用随机梯度下
降sgd作为优化器,初始学习率为1.0,动量梯度下降为0.9,训练至损失函数收敛;(4)保存模型在训练注意力多尺度融合网络过程中,不断更新权重,保存权重文件;(5)测试注意力多尺度融合网络将测试集q输入到训练好的注意力多尺度融合网络中进行测试,加载保存的权重文件,输出检索结果和平均精度。2.根据权利要求1所述的基于注意力多尺度融合的图像哈希检索方法,其特征在于在步骤(2)构建注意力多尺度融合网络中,所述的主干网络由卷积层1与软池化层1、卷积层2、软池化层2、卷积层3、软池化层3依次串联构成。3.根据权利要求2所述的基于注意力多尺度融合的图像哈希检索方法,其特征在于:所述的卷积层1的卷积核大小为64
×3×
3、步长为1,卷积层2的卷积核大小为128
×3×
3、步长为1,卷积层3的卷积核大小为256
×3×
3,步长为1。4.根据权利要求1所述的基于注意力多尺度融合的图像哈希检索方法,其特征在于:在步骤(2)构建注意力多尺度融合网络中,所述的多尺度-注意力模块由多尺度融合模块与注意力机制模块串联构成。5.根据权利要求4所述的基于注意力多尺度融合的图像哈希检索方法,其特征在于:所述的多尺度融合模块由卷积层4与多尺度模块、concat层依次串联构成。6.根据权利要求5所述的基于注意力多尺度融合的图像哈希检索方法,其特征在于:所述的多尺度模块由3~6层依次串联的卷积层构成,卷积层的卷积核大小为512
×3×
3、步长为1。7.根据权利要求5或6所述的基于注意力多尺度融合的图像哈希检索方法,其特征在于:所述的多尺度模块由4层依次串联的卷积层构成,卷积层的卷积核大小为512
×3×
3、步长为1。8.根据权利要求4所述的基于注意力多尺度融合的图像哈希检索方法,其特征在于:所述的注意力机制模块为senet注意力模型,由全局平均池化层与全连接层3、relu激活函数层、全连接层4、sigmoid激活函数层依次串联构成。

技术总结
一种基于注意力多尺度融合的图像哈希检索方法,由数据集预处理、构建注意力多尺度融合网络、训练注意力多尺度融合网络、保存模型、测试注意力多尺度融合网络步骤组成。由于本发明采用了将多尺度特征融合和注意力机制加入到图像特征提取部分,解决了现有技术没有全面考虑图像局部和全局特征问题。在注意力多尺度融合网络中,采用了软池化层,解决了现有技术模型池化可视化效果差、保留激活领域内部信息不够多的技术问题。在哈希优化步骤中,采用优化函数SoftSign代替原函数,解决了梯度消失问题。本发明具有检索精度高、搜索速度快、效率高、检索分类准确、网络的稳健性高等优点,可用于图像检索技术领域。于图像检索技术领域。于图像检索技术领域。


技术研发人员:刘颖 钞路 周澳东 李大湘 郝羽 许志杰
受保护的技术使用者:西安邮电大学
技术研发日:2023.08.23
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐