一种多模态水下图像的三维模型量化检索方法及系统

未命名 07-23 阅读：134 评论：0

1.本发明涉及三维模型检索技术领域，更具体的说是涉及一种多模态水下图像的三维模型量化检索方法及系统。

背景技术：

2.目前，海洋资源开发技术发展迅猛，各种装备和技术的进步极大的推动了海洋开发活动的不断拓展，而视觉图像技术在海洋的发展依然存在很大的进步空间，受限于水下的复杂环境，光学成像技术的使用受到了很大的限制，往往很难得到完整清晰的三维图像特征，声呐图像技术使用较为普遍，但图像特征往往损失严重，都辨别出图像中的目标形状特征，一种既可以处理光学图像又可以处理声呐图像多模态的图像处理技术具有重要意义，也使得跨模态数据的检索将会更加直观便捷。
3.而且，现有方法只是对于水上图像进行检索，并没有针对水下光学图像以及水下声呐图像进行模型检索，在已有的基于二维图像的三维模型检索方法中，大多数方法是对于图像对模型进行总体类别的检索，并不能确定图像对应的具体三维模型，这在很大程度上限制了视觉技术在海洋探测、人员搜救等领域的应用
4.因此，如何提供一种多模态水下图像的三维模型量化检索方法及系统是本领域技术人员亟需解决的问题。

技术实现要素：

5.有鉴于此，本发明提供了一种多模态水下图像的三维模型量化检索方法及系统，利用三维模型多角度的渲染视图来表征三维模型的特征信息，构建了一个既可以处理水下光学图像又可以处理声呐图像来检索三维模型的网络结构，并依托于自注意力机制和图注意力网络缩小三维模型与水下光学及声呐图像之间的相似度差距，提升三维模型检索精度。
6.为了实现上述目的，本发明采用如下技术方案：
7.一种多模态水下图像的三维模型量化检索方法，包括：采集水下图像，将水下图像输入图注意力网络模型，输出三维模型检索结果；
8.图注意力网络模型的具体内容包括：
9.s1.构建水下图像的二维图像数据集和三维模型库；
10.s2.建立图像特征提取网络以及模型特征提取网络，将二维图像和三维模型输入至图像特征提取网络和模型特征提取网络中分别得到二维图像和三维模型的特征向量，映射到同一高维空间中并建立邻接矩阵，建立图结构；
11.s3.利用自注意力机制对图结构节点的特征向量v和邻接矩阵a进行更新，将所有节点更新后的特征向量与邻接矩阵组合成新的图结构并输入至图注意力网络得到图嵌入后的特征向量，根据图嵌入后的特征向量经过损失函数计算二维图像与三维模型的相似度损失，反向传播更新模型参数，得到训练后的图注意力网络模型。
12.优选的，图注意力网络模型的具体内容还包括：
13.s4.选取待测水下图像，通过s2的图像特征提取网络，得到图像特征向量，并与图结构中的所有节点的特征向量计算相似度，并设置阈值，相似度小于阈值时在图结构中增加待测图像节点，并将增加待测图像节点后的图结构输入至训练后的图注意力网络模型进行图嵌入，将待测图像经过图嵌入后更新的特征向量与三维模型节点进行损失函数计算，并按序排列，获得三维模型检索结果。
14.优选的，水下图像包括水下光学图像或水下声呐图像。
15.优选的，s2的具体内容包括：
16.s21.将二维图像进行下采样，选取vgg网络作为图像特征提取网络，使用imagenet预训练权重作为特征提取网络的初始参数，将下采样后的图像输入至vgg网络中，通过多层卷积神经网络，输出图像特征向量；
17.s22.将三维模型转换为不同视角下的渲染视图，将三维模型多视角的渲染视图进行下采样，输入至mvcnn网络中，得到融合多视角信息的模型特征向量；
18.s23.将二维图像与三维模型视作节点并建立图结构中的邻接矩阵a，根据图像特征向量、模型特征向量和邻接矩阵建立图结构g(v,e)，v代表二维图像与三维模型的特征向量，e代表节点之间关系的邻接矩阵a。
19.优选的，s3的更新特征向量v的具体内容包括：
20.利用自注意力机制对图结构节点的特征向量进行更新，将特征相似的节点的特征向量进行聚类，得到更新后的节点的特征向量具体为
[0021][0022]
其中，q∈rn×d和k∈rn×d是与特征向量同大小的初始化矩阵，v∈rn×d为输入特征向量，其中n为图像与模型的总数，d为设置向量维数。
[0023]
优选的，s3的更新邻接矩阵a的具体内容包括：
[0024]
采用自注意力机制来更新邻接矩阵的取值，将邻接矩阵的取值从二元取值替换为[0,1]范围内的权重值，具体为：
[0025][0026]
其中，为更新后的邻接矩阵，qa∈rn×n和ka∈rn×n是与邻接矩阵同大小的初始化矩阵，a∈rn×n为输入特征向量的邻接矩阵，其中n为图像与模型的总数，d为设置向量维数。
[0027]
优选的，s3的通过图注意力网络得到图嵌入后的特征向量的具体内容包括：
[0028]
(1)将新的图结构输入至图注意力网络，图注意力网络对于输入的各个节点i，逐个计算节点i和其邻居节点j∈ni的相关系数e
ij
：
[0029]eij
＝a([whi||whj])
[0030]
其中，w为模型初始化参数，用于将节点i与节点j的特征向量进行特征增强，实数e
ij
为节点i与节点j的相关系数；
[0031]
(2)对节点在邻接矩阵中所有邻近节点的相关性系数进行概率归一化，同时对得到的相关性系数使用leakyrelu激活函数激活，得到最终的注意力系数：
[0032][0033]
(3)将注意力系数与特征增强后的特征向量进行加权求和，并采用多头机制将特征向量进行拼接，最终得到图嵌入后的特征向量：
[0034][0035]
其中，α
ij
为注意力系数，wk为图注意力网络中第k层的模型初始化参数，h
ik
为第k层第i个节点的特征向量，σ为激活函数。
[0036]
优选的，s3的损失函数为：
[0037]
loss＝max(d(a,p)-d(a,random(n))+margin,0)
[0038]
其中，d(
·
)为欧式距离函数，a为目标节点通过模型图嵌入后的特征向量，p为与目标标签的模型特征向量，n为非目标标签的模型特征向量，margin为一个超参数，用于衡量正样本与负样本相距的最大距离。
[0039]
优选的，s4中相似度计算包括：
[0040]
待测试图像i
test
和图像节点i
image
的相似度s1计算：
[0041]
s1(i
test
,i
image
)＝||v
test-v
image
||2[0042]
其特征向量分别为v
test
与v
image
；
[0043]
待测试图像i
test
和三维模型节点m的相似度s2计算：
[0044]
s2(i
test
,m)＝||v
test-vm||2[0045]
其特征向量为v
test
和v
model
。
[0046]
一种多模态水下图像的三维模型量化检索系统，包括图像采集模块、图注意力网络模型、三维模型输出模块和图注意力网络模型建立模块；图注意力网络模型建立模块包括数据集构建单元、图结构建立单元和训练单元；
[0047]
数据集构建单元，用于构建水下图像的二维图像数据集和三维模型库，水下图像包括水下光学图像或水下声呐图像；
[0048]
图结构建立单元，用于建立图像特征提取网络以及模型特征提取网络，将二维图像和三维模型输入至图像特征提取网络和模型特征提取网络中分别得到二维图像和三维模型的特征向量，映射到同一高维空间中并建立邻接矩阵，建立图结构；
[0049]
训练单元，用于利用自注意力机制对图结构节点的特征向量v和邻接矩阵a进行更新，将所有节点更新后的特征向量与邻接矩阵组合成新的图结构并输入至图注意力网络得到图嵌入后的特征向量，图嵌入后的特征向量经过损失函数计算二维图像与三维模型的相似度损失，反向传播更新模型参数，得到训练后的图注意力网络模型。
[0050]
经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种多模态水下图像的三维模型量化检索方法及系统，以三维模型的多视角渲染图作为中介，依托于自注意力机制与图注意力网络，缩小三维模型与水下光学、声呐图像之间的相似度差距，构建了以水下光学或声呐图像检索三维模型的网络结构，对水下光学图像或声呐图像均可实现三维模型的检索，对输入的水下图像存在部分有效特征的遮挡图片也可实现三维模型的检
索，为三维模型量化检索在海底环境探测、水下搜救领域的应用提供了一种技术方案。
附图说明
[0051]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
[0052]
图1附图为本发明提供的一种多模态水下图像的三维模型量化检索方法示意图；
[0053]
图2附图为本发明提供的获得三维模型不同视角渲染视图方法的示意图；
[0054]
图3附图为本发明提供的建立图结构方法的示意图；
[0055]
图4附图为本发明提供的图注意力网络训练示意图；
[0056]
图5附图为本发明提供的待测水下图像三维模型检索示意图。
具体实施方式
[0057]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0058]
本发明实施例公开了一种多模态水下图像的三维模型量化检索方法，如图1，包括包括：采集水下图像，将水下图像输入图注意力网络模型，输出三维模型检索结果；
[0059]
图注意力网络模型的具体内容包括：
[0060]
s1.构建水下图像的二维图像数据集和三维模型库；
[0061]
s2.建立图像特征提取网络以及模型特征提取网络，将二维图像和三维模型输入至图像特征提取网络和模型特征提取网络中分别得到二维图像和三维模型的特征向量，映射到同一高维空间中并建立邻接矩阵，建立图结构，如图3；
[0062]
s3.利用自注意力机制对图结构节点的特征向量v和邻接矩阵a进行更新，将所有节点更新后的特征向量与邻接矩阵组合成新的图结构并输入至图注意力网络得到图嵌入后的特征向量，根据图嵌入后的特征向量经过损失函数计算二维图像与三维模型的相似度损失，反向传播更新模型参数，得到训练后的图注意力网络模型，如图4。
[0063]
为了进一步实施上述技术方案，图注意力网络模型的具体内容还包括：
[0064]
s4.选取待测水下图像，通过s2的图像特征提取网络，得到图像特征向量，并与图结构中的所有节点的特征向量计算相似度，并设置阈值，相似度小于阈值时在图结构中增加待测图像节点，并将增加待测图像节点后的图结构输入至训练后的图注意力网络模型进行图嵌入，将待测图像经过图嵌入后更新的特征向量与三维模型节点进行损失函数计算，并按序排列，获得三维模型检索结果，如图5。
[0065]
在本实施例中，s1的具体内容包括：s11利用拟真模型建立水下目标环境，通过水下双目摄像头获取不同场景下包含目标的光学图像，并与pascol3d+数据集中的三维模型结合，将数据分为训练集和测试集，并将数据进行标定，与库中的三维模型进行匹配，完成
数据采集工作；
[0066]
本实例中水下光学图像数量为5326，分为4类，分别为飞机，船只，瓶子以及汽车，三维模型数量为32个；
[0067]
s12通过模拟声呐成像软件，获得不同目标的仿真声呐图像，并与pascol3d+数据集中的三维模型结合，将数据分为训练集和测试集，并将数据进行标定，与库中的三维模型进行匹配，完成数据采集工作；
[0068]
本实例中水下声呐图像数量为989，分为2类，分别为飞机与船只，三维模型数量为14个。
[0069]
为了进一步实施上述技术方案，水下图像包括水下光学图像或水下声呐图像。
[0070]
为了进一步实施上述技术方案，如图3，s2的具体内容包括：
[0071]
s21将二维图像进行下采样，选取vgg网络作为图像特征提取网络，使用imagenet预训练权重作为特征提取网络的初始参数，将下采样后的图像输入至vgg网络中，通过多层卷积神经网络，输出图像特征向量；
[0072]
s22将三维模型转换为不同视角下的渲染视图，将三维模型多视角的渲染视图进行下采样，输入至mvcnn网络中，得到融合了多视角信息的模型特征向量，如图2；
[0073]
s23将二维图像与三维模型视作节点并建立图结构中的邻接矩阵a，根据图像特征向量、模型特征向量和邻接矩阵建立图结构g(v,e)，v代表二维图像与三维模型的特征向量，e代表节点之间关系的邻接矩阵a。
[0074]
在实际应用中，如图2，s22中通过将三维模型导入至三维图形图像软件中，根据检索需求将n个虚拟摄像机根据环形的位置摆放，通过虚拟摄像机可以将三维模型转换为不同角度下的渲染视图，之后将模型多视角渲染视图下采样，输入至mvcnn网络中，每个视图首先经过带有imagenet预训练权重的resnet进行特征提取，获得n个视角下的特征向量，之后使用视角池化层将n个视角得到的特征向量进行归一化，得到融合了多视角信息的模型特征向量；s23中将图像与模型视作节点并建立图结构中的邻接矩阵a，在训练集中根据图像与模型对应的类别关系设置邻接矩阵a的取值，即当节点的类别相同时a(i,j)＝1，表示节点i与节点j有内在联系，否则a(i,j)＝0，表示节点i与节点j之间没有联系。
[0075]
本实施例中，s21中将二维图像尺寸下采样至224
×
224，向量维数设置为128；s22中三维图形图像软件为blender，虚拟摄像机数量n为12，每个虚拟摄像机的角度间隔为30
°
，将模型多视角渲染图图下采样至224
×
224，模型特征向量维数设置为128。
[0076]
为了进一步实施上述技术方案，如图4，s3的更新特征向量v的具体内容包括：
[0077]
利用自注意力机制对图结构节点的特征向量进行更新，将特征相似的节点的特征向量进行聚类，得到更新后的节点的特征向量具体为
[0078][0079]
其中，q∈rn×d和k∈rn×d是与特征向量同大小的初始化矩阵，v∈rn×d为输入特征向量，其中n为图像与模型的总数，d为设置向量维数。
[0080]
为了进一步实施上述技术方案，s3的更新邻接矩阵a的具体内容包括：
[0081]
步骤s2中邻接矩阵a的取值是二元的，其中a(i,j)＝1代表节点之间是有关联的，a(i,j)＝0则代表没有关联，这对于节点之间关系的描述是不够准确的，节点之间的联系有
强有弱，因此模型也同样采用自注意力机制来更新邻接矩阵a的取值，将a的取值从二元取值替换为[0,1]范围内的权重值，使得模型可以衡量节点之间关系的强弱，此外通过自注意力机制后，模型可以给出不同种类节点之间的潜在关系，提高模型的检索精度，使得更新后的邻接矩阵可以更准确的反应节点之间的联系，具体为：
[0082][0083]
其中，为更新后的邻接矩阵，qa∈rn×n和ka∈rn×n是与邻接矩阵同大小的初始化矩阵，a∈rn×n为输入特征向量的邻接矩阵，其中n为图像与模型的总数，d为设置向量维数。
[0084]
为了进一步实施上述技术方案，s3的通过图注意力网络得到图嵌入后的特征向量的具体内容包括：
[0085]
(1)将新的图结构输入至图注意力网络，图注意力网络对于输入的各个节点i，逐个计算节点i和其邻居节点j∈ni的相关系数e
ij
：
[0086]eij
＝a([whi||whj])
[0087]
其中，w为模型初始化参数，用于将节点i与节点j的特征向量进行特征增强，实数e
ij
为节点i与节点j的相关系数；
[0088]
(2)对节点在邻接矩阵中所有邻近节点的相关性系数进行概率归一化，同时对得到的相关性系数使用leakyrelu激活函数激活，得到最终的注意力系数：
[0089][0090]
(3)将注意力系数与特征增强后的特征向量进行加权求和，并采用多头机制将特征向量进行拼接，最终得到图嵌入后的特征向量，图注意力网络根据邻接矩阵的取值进行图嵌入，聚类相关性高的节点：
[0091][0092]
其中，α
ij
为注意力系数，wk为图注意力网络中第k层的模型初始化参数，h
ik
为第k层第i个节点的特征向量，σ为激活函数。
[0093]
在本实施例中，使用relu作为激活函数，通过从模型层与层之间的联系，获取各个节点最终图嵌入后的特征向量。
[0094]
在实际应用中，利用多头机制，将临近节点的特征融入节点自身，达到聚类的目的，从而提高检索精度，即使提取的目标特征并不明显，也可以通过其临近节点的特征进行补充，达到检索的目的，从而使得模型可以不用对光学图像与声呐图像加以区分，均可以给出检索模型结果并获得较好的检索效果。
[0095]
为了进一步实施上述技术方案，s3的损失函数的具体内容为：计算更新后图像特征向量与模型特征向量之间的三元损失，拉近检索图像与目标模型特征向量之间的距离，拉远检索图像与非目标模型的距离，使得同类节点距离更近，异类节点距离更远，可以降低相似度相近的情况，提高检索精度，按序排列得到检索结果，三元损失函数为：
[0096]
loss＝max(d(a,p)-d(a,random(n))+margin,0)
[0097]
其中，d(
·
)为欧式距离函数，a为目标节点通过模型图嵌入后的特征向量，p为与目标标签的模型特征向量，n为非目标标签的模型特征向量，margin为一个超参数，用于衡量正样本与负样本相距的最大距离。
[0098]
在本实施例中，输入是一个三元组，包括目标anchor、正样本positive、负样本negative，模型通过输入节点的特征向量，拉近与标签所示的三维模型特征向量的距离，拉远非标签所示的三维模型特征向量的距离，通过优化正样本与目标之间的相似度距离，从而缩小不同模态同类数据之间的差异性，提高模型检索的准确率。
[0099]
在实际应用中，对于水下复杂环境，根据节点之间特征向量的相关性，通过将同类型的易于辨认目标的图像特征融入环境复杂或者目标遮挡的待检索图像中，从而消弭复杂环境或者目标遮挡对于检索的影响，最终可以提高模型在水下目标的检索精度。
[0100]
为了进一步实施上述技术方案，s4中相似度计算包括：
[0101]
待测试图像i
test
和图像节点i
image
的相似度s1计算：
[0102]
s1(i
test
,i
image
)＝||v
test-v
image
||2[0103]
其特征向量分别为v
test
与v
image
；
[0104]
待测试图像i
test
和三维模型节点m的相似度s2计算：
[0105]
s2(i
test
,m)＝||v
test-vm||2[0106]
其特征向量为v
test
和v
model
。
[0107]
在本实施例中，硬件环境为intel xeon w-2125+gv100 32g+32g ram，软件环境为ubuntu 18.04+cuda 11.3+pytorch 1.9+python 3.9，使用python处理数据并完成图像检索以及检索指标评价。
[0108]
采用中值误差和准确率这两个评价指标来衡量模型的效果：
[0109]
平均误差为：
[0110][0111]
其中v
image
为待检索图像的特征向量，v
label
待检索图像标签对应三维模型的特征向量，n为某一类别图像的总数；
[0112]
准确率为：
[0113][0114]
其中，tp为预测正类的数量，tn为预测负类的数量n为某一类别图像的总数，即模型预测正确的数量占总数的比例。
[0115]
种类检索结果进行评价：
[0116][0117]
量化检索结果进行评价：
[0118][0119][0120]
评价结果表明本发明的方法对输入图像为水下光学图像以及声呐图像，均可以给出较高精度的模型检索结果。
[0121]
一种多模态水下图像的三维模型量化检索系统，包括图像采集模块、图注意力网络模型、三维模型输出模块和图注意力网络模型建立模块；图注意力网络模型建立模块包括数据集构建单元、图结构建立单元和训练单元；
[0122]
数据集构建单元，用于构建水下图像的二维图像数据集和三维模型库，水下图像包括水下光学图像或水下声呐图像；
[0123]
图结构建立单元，用于建立图像特征提取网络以及模型特征提取网络，将二维图像和三维模型输入至图像特征提取网络和模型特征提取网络中分别得到二维图像和三维模型的特征向量，映射到同一高维空间中并建立邻接矩阵，建立图结构；
[0124]
训练单元，用于利用自注意力机制对图结构节点的特征向量v和邻接矩阵a进行更新，将所有节点更新后的特征向量与邻接矩阵组合成新的图结构并输入至图注意力网络得到图嵌入后的特征向量，图嵌入后的特征向量经过损失函数计算二维图像与三维模型的相似度损失，反向传播更新模型参数，得到训练后的图注意力网络模型；
[0125]
为了进一步实施上述技术方案，图注意力网络模型建立模块还包括测试单元，用于选取待测水下光学图像或水下声呐图像，通过s3的图像特征提取网络，得到图像特征向量，并与图结构中的所有节点的特征向量计算相似度，并设置阈值，相似度小于阈值时在图结构中增加待测图像节点，并将增加待测图像节点后的图结构输入至训练后的图注意力网络进行图嵌入，将待测图像经过图嵌入后更新的特征向量与三维模型节点进行三元损失函数计算，并按序排列，获得三维模型检索结果。
[0126]
计算结果会根据相似度排序，输出的检索结果为相似度最高的模型。
[0127]
为了进一步实施上述技术方案，图结构建立模块包括图像特征向量获取单元、模型特征向量获取单元、连接矩阵获取单元和图结构获取单元；
[0128]
图像特征向量获取单元，用于将二维图像进行下采样，选取vgg网络作为图像特征提取网络，使用imagenet预训练权重作为特征提取网络的初始参数，将下采样后的图像输入至vgg网络中，通过多层卷积神经网络，输出图像特征向量；
[0129]
模型特征向量获取单元，用于将三维模型转换为不同视角下的渲染视图，将三维模型多视角的渲染视图进行下采样，输入至mvcnn网络中，得到融合了多视角信息的模型特征向量；
[0130]
邻接矩阵获取获取单元，用于将二维图像与三维模型视作节点并建立图结构中的邻接矩阵a；
[0131]
图结构获取单元，用于根据图像特征向量、模型特征向量和邻接矩阵建立图结构g(v,e)，v代表图像与模型的特征向量，e代表节点之间关系的邻接矩阵a。
[0132]
为了进一步实施上述技术方案，训练模块包括：自注意力处理单元、图注意力处理单元和相似度损失处理单元；
[0133]
自注意力处理单元，用于利用自注意力机制对图结构节点的特征向量进行更新，将特征相似的节点的特征向量进行聚类，得到更新后的节点的特征向量具体为
[0134][0135]
其中，q∈rn×d和k∈rn×d是与特征向量同大小的初始化矩阵，v∈rn×d为输入特征向量，其中n为图像与模型的总数，d为设置向量维数；
[0136]
还用于采用自注意力机制来更新邻接矩阵的取值，将邻接矩阵的取值从二元取值替换为[0,1]范围内的权重值，具体为：
[0137][0138]
其中，为更新后的邻接矩阵，qa∈rn×n和ka∈rn×n是与邻接矩阵同大小的初始化矩阵，a∈rn×n为输入特征向量，其中n为图像与模型的总数，d为设置向量维数：
[0139]
图注意力处理单元，用于将新的图结构输入至图注意力网络，图注意力网络对于输入的各个节点i，逐个计算节点i和其邻居节点j∈ni的相关系数e
ij
：
[0140]eij
＝a([whi||whj])
[0141]
其中，w为模型初始化参数，用于将节点i与节点j的特征向量进行特征增强，实数e
ij
为节点i与节点j的相关系数；
[0142]
还用于对节点在邻接矩阵中所有邻近节点的相关性系数进行概率归一化，同时对得到的相关性系数使用leakyrelu激活函数激活，得到最终的注意力系数：
[0143][0144]
还用于将注意力系数与特征增强后的特征向量进行加权求和，并采用多头机制将特征向量进行拼接，最终得到图嵌入后的特征向量：
[0145][0146]
相似度损失处理单元，用于计算更新后图像特征向量与模型特征向量之间的三元损失，按序排列得到检索结果，三元损失函数为：
[0147]
loss＝max(d(a,p)-d(a,random(n))+margin,0)
[0148]
其中输入是一个三元组，包括目标anchor、正样本positive、负样本negative。
[0149]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0150]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：
1.一种多模态水下图像的三维模型量化检索方法，其特征在于，包括：采集水下图像，将水下图像输入图注意力网络模型，输出三维模型检索结果；图注意力网络模型的具体内容包括：s1.构建水下图像的二维图像数据集和三维模型库；s2.建立图像特征提取网络以及模型特征提取网络，将二维图像和三维模型输入至图像特征提取网络和模型特征提取网络中分别得到二维图像和三维模型的特征向量，映射到同一高维空间中并建立邻接矩阵，建立图结构；s3.利用自注意力机制对图结构节点的特征向量v和邻接矩阵a进行更新，将所有节点更新后的特征向量与邻接矩阵组合成新的图结构并输入至图注意力网络得到图嵌入后的特征向量，根据图嵌入后的特征向量经过损失函数计算二维图像与三维模型的相似度损失，反向传播更新模型参数，得到训练后的图注意力网络模型。2.根据权利要求1所述的一种多模态水下图像的三维模型量化检索方法，其特征在于，图注意力网络模型的具体内容还包括：s4.选取待测水下图像，通过s2的图像特征提取网络，得到图像特征向量，并与图结构中的所有节点的特征向量计算相似度，并设置阈值，相似度小于阈值时在图结构中增加待测图像节点，并将增加待测图像节点后的图结构输入至训练后的图注意力网络模型进行图嵌入，将待测图像经过图嵌入后更新的特征向量与三维模型节点进行损失函数计算，并按序排列，获得三维模型检索结果。3.根据权利要求1所述的一种多模态水下图像的三维模型量化检索方法，其特征在于，水下图像包括水下光学图像或水下声呐图像。4.根据权利要求1所述的一种多模态水下图像的三维模型量化检索方法，其特征在于，s2的具体内容包括：s21.将二维图像进行下采样，选取vgg网络作为图像特征提取网络，使用imagenet预训练权重作为特征提取网络的初始参数，将下采样后的图像输入至vgg网络中，通过多层卷积神经网络，输出图像特征向量；s22.将三维模型转换为不同视角下的渲染视图，将三维模型多视角的渲染视图进行下采样，输入至mvcnn网络中，得到融合多视角信息的模型特征向量；s23.将二维图像与三维模型视作节点并建立图结构中的邻接矩阵a，根据图像特征向量、模型特征向量和邻接矩阵建立图结构g(v,e)，v代表二维图像与三维模型的特征向量，e代表节点之间关系的邻接矩阵a。5.根据权利要求1所述的一种多模态水下图像的三维模型量化检索方法，其特征在于，s3的更新特征向量v的具体内容包括：利用自注意力机制对图结构节点的特征向量进行更新，将特征相似的节点的特征向量进行聚类，得到更新后的节点的特征向量具体为：其中，q∈r
n
×
d
和k∈r
n
×
d
是与特征向量同大小的初始化矩阵，v∈r
n
×
d
为输入特征向量，
其特征向量分别为v
test
与v
image
；待测试图像i
test
和三维模型节点m的相似度s2计算：s2(i
test
,m)＝||v
test-v
m
||2其特征向量为v
test
和v
model
。10.一种多模态水下图像的三维模型量化检索系统，基于权利要求1-9任意一项所述的一种多模态水下图像的三维模型量化检索方法，其特征在于，包括图像采集模块、图注意力网络模型、三维模型输出模块和图注意力网络模型建立模块；图注意力网络模型建立模块包括数据集构建单元、图结构建立单元和训练单元；数据集构建单元，用于构建水下图像的二维图像数据集和三维模型库，水下图像包括水下光学图像或水下声呐图像；图结构建立单元，用于建立图像特征提取网络以及模型特征提取网络，将二维图像和三维模型输入至图像特征提取网络和模型特征提取网络中分别得到二维图像和三维模型的特征向量，映射到同一高维空间中并建立邻接矩阵，建立图结构；训练单元，用于利用自注意力机制对图结构节点的特征向量v和邻接矩阵a进行更新，将所有节点更新后的特征向量与邻接矩阵组合成新的图结构并输入至图注意力网络得到图嵌入后的特征向量，图嵌入后的特征向量经过损失函数计算二维图像与三维模型的相似度损失，反向传播更新模型参数，得到训练后的图注意力网络模型。

技术总结
本发明公开了一种多模态水下图像的三维模型量化检索方法及系统，包括采集水下图像，输入图注意力网络模型，输出三维模型检索结果；图注意力网络模型包括构建水下图像的二维图像数据集和三维模型库；建立图像特征提取网络和模型特征提取网络获取二维图像和三维模型的特征向量，映射到同一高维空间中建立邻接矩阵并建立图结构；利用自注意力机制、图注意力网络得到图嵌入后的特征向量，经过损失函数反向传播更新模型参数；待测水下图像通过训练后的图注意力网络获得三维模型检索结果；本发明对水下光学图像或声呐图像以及对水下图像存在部分有效特征的遮挡图也可实现三维模型检索，有助于三维模型量化检索在海底环境探测及水下搜救领域的应用。及水下搜救领域的应用。及水下搜救领域的应用。

技术研发人员：叶秀芬刘月聪王寅文刘逸飞刘文智李海波
受保护的技术使用者：哈尔滨工程大学
技术研发日：2023.01.16
技术公布日：2023/7/21

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：用于翻转容器的底部的翻转装置的制作方法 下一篇：用于推导机动车的横向引导的调节参量的方法和机动车与流程

一种多模态水下图像的三维模型量化检索方法及系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种多模态水下图像的三维模型量化检索方法及系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表