一种基于声光融合的水下目标检测识别方法

未命名 07-23 阅读：303 评论：0

1.本发明属于水下目标检测技术领域，具体为一种基于声光融合的水下目标检测识别方法。

背景技术：

2.基于视觉的传感器已被广泛用于自主潜水器的应用中，在环境监测或地质勘测场景下，光学传感器的价值来自于其包含水下应用中最重要的高细节和颜色信息。光学相机提供的高分辨率数据在诸如珊瑚礁监测、船体检查、运动估计和考古调查等应用中具有特殊的意义。
3.然而，光学图像依赖于周围环境，光的衰减和水的浊度会严重影响光学传感器的拍摄范围和性能。另一个问题是，在水下环境中，潜艇会扬起淤泥，也会影响光学传感器的性能。与之相反，声纳可以适应昏暗的环境，拥有更大的感知范围。不同的声纳可以提供关于海底和沉没物的不同信息。但是与光学相机相比，声纳的分辨率较低，而且不包含颜色。
4.目前已提出了一种结合声学和光学数据的多模态目标检测算法，但该检测算法存在以下缺点：
5.(1)目前的多模态目标检测算法在特征提取过程中忽略了目标图像的多尺度问题；
6.(2)目前的多模态目标检测算法在声学和光学数据融合时只融合了单独的特征层，导致多尺度检测任务对小目标的低稳定性；
7.(3)目前的多模态目标检测算法所使用的融合方法是直接串联进行的，忽略了水底不同光照条件下各模式特征信息的差异，导致检测结果的不充分；
8.(4)目前的多模态目标检测算法集中在放大样本和图像机制上，没有考虑目标的真实环境，如泥沙的阻挡、目标部位的遗漏、目标的多种状态以及真实声纳数据的阴影和反射物，以及缺少声光配套的水下人工数据集。

技术实现要素：

9.发明目的：为解决现有多模态目标检测算法对小目标检测稳定性低的问题，以及为解决现有多模态目标检测算法的检测结果不充分的问题，本发明提出了一种基于声光融合的水下目标检测识别方法，利用光学与声学传感器的整合模型，提高水下环境数据收集的准确度。
10.技术方案：一种基于声光融合的水下目标检测识别方法，包括以下步骤：
11.获取同一水下目标的光学图像和声学图像，采用基于风格转移的数据增强方法，得到具有声学图像风格的转移图像，将一张光学图像和该光学图像对应的具有声学图像风格的转移图像的转移图像作为一组声光融合数据，以此构建得到声光融合数据集；
12.构建复合连接的可重参数化主干网络；
13.采用声光融合数据集对复合连接的可重参数化主干网络进行训练，得到可用的水
下目标检测识别模型；
14.采用可用的水下目标检测识别模型，实现水下目标检测；
15.其中，所述复合连接的可重参数化主干网络包括基干层、瓶颈层、第一检测头、第二检测头和第三检测头；
16.所述基干层包括用于提取光学图像的特征数据的第一特征提取网络和用于提取具有声学图像风格的转移图像的特征数据的第二特征提取网络；所述第一特征提取网络和第二特征提取网络结构相同，均由mobileone块和若干卷积层依次串联构成；取第一特征提取网络和第二特征提取网络中倒数第一、第二、第三卷积层提取到的特征数据作为基干层的输出；
17.所述瓶颈层包括第一fusion模块、第二fusion模块、第三fusion模块、第一elan模块、第二elan模块、第三elan模块、第四elan模块和sppcspc模块；
18.第一特征提取网络倒数第三卷积层提取到的特征数据和第二特征提取网络倒数第三卷积层提取到的特征数据输入至第一fusion模块；
19.第一特征提取网络倒数第二卷积层提取到的特征数据和第二特征提取网络倒数第二卷积层提取到的特征数据输入至第二fusion模块；
20.第一特征提取网络倒数第一卷积层提取到的特征数据和第二特征提取网络倒数第一卷积层提取到的特征数据输入至第三fusion模块；
21.第一fusion模块、第二fusion模块和第三fusion模块输出的融合特征数据分别作为第一elan模块、第二elan模块和sppcspc模块的输入；
22.取第一elan模块输出的特征数据和第二elan模块输出的特征数据作为第三elan模块的输入；
23.取第三elan模块输出的特征数据和sppcspc模块输出的特征数据作为第四elan模块的输入；
24.第二elan模块输出的特征数据输入至第一检测头，所述第一检测头输出第一预测框；
25.第三elan模块输出的特征数据输入至第二检测头，所述第二检测头输出第二预测框；
26.第四elan模块输出的特征数据输入至第三检测头，所述第三检测头输出第三预测框。
27.进一步的，所述的采用声光融合数据集对复合连接的可重参数化主干网络进行训练，得到可用的水下目标检测识别模型，具体包括：
28.步骤1：通过最小化如式(21)所示的损失函数loss，得到复合连接的可重参数化主干网络的最佳网络参数，以此得到训练好的复合连接的可重参数化主干网络；
29.loss＝ω
box
loss
box
+ω
obj
loss
obj
+ω
cls
loss
cls
ꢀꢀꢀꢀꢀꢀꢀ
(21)
30.式中，loss
box
表示检测方框损失函数，ω
box
表示检测方框损失函数的权重，loss
obj
表示对象损失函数，ω
obj
表示对象损失函数的权重，loss
cls
表示二元交叉熵损失函数，ω
cls
表示二元交叉熵损失函数的权重；
31.所述检测方框损失函数loss
box
，表示为：
[0032][0033][0034]
其中，s2表示s
×
s网格，每个网格产生b个候选盒，为判断网格i中的候选盒j中是否有物体的函数，有则输出1，否则输出0；p∩g代表真实边界框和预测框的交集，p∪g代表真实边界框和预测框的并集；所述真实边界框为声光融合数据集中声光融合数据自带的；
[0035]
所述对象损失函数loss
obj
，表示为：
[0036][0037]
其中，δ表示距离损失，ω表示形状损失；
[0038]
所述二元交叉熵损失函数loss
cls
，表示为：
[0039][0040]
式中，p(c)表示预测该物体为类别c的概率，p
gt
(c)表示实际该物体为类别c的概率；classes表示类别集合；
[0041]
步骤2：对训练好复合连接的可重参数化主干网络中的mobileone块进行重新参数化，得到可用的水下目标检测识别模型。
[0042]
进一步的，在所述第一fusion模块、第二fusion模块和第三fusion模块中进行的操作相同，表示为：
[0043][0044][0045][0046][0047]
其中，ci和ci'分别代表在第一特征提取网络i层输出的特征数据和在第二特征提取网络i层输出的特征数据，
⊙
是哈达玛积，conv(
·
)表示3
×
3卷积层，σ(
·
)表示残差层，和表示激活特征，ap(
·
)表示平均池化操作，mp(
·
)表示最大池化操作，bi表示残差特征，fi表示最终融合特征。
[0048]
进一步的，所述采用基于风格转移的数据增强方法，得到具有声学图像风格的转移图像，具体包括：
[0049]
利用深度神经网络，对光学图像中的水下目标进行标记和注释，得到具有真实边界框和标记的光学图像，以及对应的注释文件；
[0050]
对具有真实边界框和标记的光学图像依次进行自动色阶处理、颜色反转处理和灰度调整，得到处理后的光学图像；
[0051]
以声学图像的背景作为风格图像，以处理后的光学图像作为内容图像，将风格图像和内容图像输入至风格转移网络中，得到具有声学图像风格的转移图像；
[0052]
其中，所述风格转移网络是利用风格图像和内容图像，是最小化式(2)所示的损失函数训练得到的；
[0053]
l(a,f,p)＝α
×
l
style
(p,f)+β
×
l
content
(a,f)
ꢀꢀꢀꢀꢀꢀꢀ
(2)
[0054]
其中，l(a,f,p)表示损失函数，l
style
(p,f)表示具有声学图像风格的转移图像f在风格方面与声学图像的背景p更相似，l
content
(a,f)表示具有声学图像风格的转移图像f在内容方面与光学图像a更相似；f表示具有声学图像风格的转移图像，p表示声学图像的背景，a表示光学图像。
[0055]
进一步的，用于构建声光融合数据的光学图像，按照以下步骤处理：
[0056]
将所述处理后的光学图像进行随机高斯模糊和随机伽马值调整，得到用于构建的声光融合数据的光学图像。
[0057]
进一步的，距离损失δ表示为：
[0058][0059][0060][0061]
ξ＝2-λ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0062][0063][0064][0065]
其中，(cw,ch)表示真实边界框和预测框的最小包围矩阵的宽度和高度；表示真实边界框的中心坐标，表示预测框的中心坐标；ch表示真实边界框的中心点与预测框之间的高度距离，σ表示真实边界框和预测框之间的中心点距离；max(
·
)表示输出最大值，min(
·
)表示输出最小值。
[0066]
进一步的，形状损失ω表示为：
[0067][0068]
[0069][0070]
其中，w,h分别表示预测框的宽度和高度，分别表示真实边界框的宽度和高度，θ表示对形状损失的关注程度。
[0071]
有益效果：本发明与现有技术相比，具有以下优点：
[0072]
(1)本发明通过提出一个复合连接的可重参数化主干网络来提高不同模态的相关性，以及引入融合模块以提高融合的效率和准确度，并利用快速风格转化生成人工数据集，解决了数据集缺少的问题，通过样本数量足够的声光融合数据对复合连接的可重参数化主干网络进行训练，从而提高了多模态水下算法的检测性能；
[0073]
(2)本发明方法在不同的光照条件下都能得到最佳的目标检测结果，这意味着其在实际的水下场景下可以有更低的漏检率和误检率，可以更好地保证水下目标检测的质量，在精度和速度方面达到了良好的平衡；
[0074]
(3)本发明方法能很好地检测密集和重叠目标；
[0075]
(4)本发明方法通过重参数化降低了参数量，因此可以应用到便携式图形计算卡中，解决了因参数量大无法应用到工业现场的问题，本发明方法具有更好地整体应用性。
附图说明
[0076]
图1为一种基于声光融合的水下目标检测识别方法的流程图；
[0077]
图2为生成声光融合数据集的流程图；
[0078]
图3为复合连接的可重参数化主干网络的结构示意图；
[0079]
图4为elan模块、sppcspc模块和fusion模块的结构示意图；
[0080]
图5为mobileone块的结构示意图；
[0081]
图6为本发明方法与yolov7目标检测算法的对比效果示意图；
[0082]
图7为本发明方法对检测密集和重叠目标的效果示意图。
具体实施方式
[0083]
现结合附图和实施例进一步阐述本发明的技术方案。
[0084]
本实施例提出了一种基于声光融合的水下目标检测识别方法，如图1所示，主要包括以下步骤：
[0085]
步骤1：由一个绿激光水下摄像机完成水下目标的光学图像采集，由声呐同步采集水下目标的声学图像，为解决样本稀少问题，使用基于风格转移的数据增强方法，得到具有声学图像风格的转移图像，以一张光学图像和该光学图像对应的具有声学图像风格的转移图像为一组，构建声光融合数据集。如图2所示，具体操作包括：
[0086]
s110：通过绿激光水下摄像机对水下场景进行拍摄，得到视频源，从视频源中提取包含水下目标的光学图像，利用深度神经网络，对光学图像中的水下目标进行标记和注释，得到具有真实边界框和标记的光学图像，以及对应的注释文件，为方便表示，在以下步骤中提及的光学图像指的都是具有真实边界框和标记的光学图像，每张光学图像都具有对应的注释文件。
[0087]
s120：对每张光学图像进行增强处理，得到处理后的光学图像；本步骤提及的增强处理为增强光学图像中水下目标的阴影和特征的处理，具体操作包括：
[0088]
对光学图像依次进行自动色阶处理、颜色反转处理和灰度调整，表示为：
[0089][0090]
其中，autolevel(
·
)表示自动色阶，i(
·
)表示颜色反转，g(
·
)表示伽马函数，γ表示伽马函数的阈值，表示处理后的光学图像。
[0091]
s130：以声学图像的背景作为风格图像，以处理后的光学图像作为内容图像，将风格图像和内容图像输入至风格转移网络中，得到具有声学图像风格的转移图像，该具有声学图像风格的转移图像为在风格方面与声学图像的背景更相似，在内容方面与处理后的光学图像更相似；
[0092]
上述提及到的风格转移网络是利用风格图像和内容图像，最小化式(2)所示的损失函数训练得到的；
[0093]
l(a,f,p)＝α
×
l
style
(p,f)+β
×
l
content
(a,f)
ꢀꢀꢀꢀꢀꢀꢀ
(2)
[0094]
其中，l(a,f,p)表示损失函数，l
style
(p,f)表示具有声学图像风格的转移图像f在风格方面与声学图像的背景p更相似，l
content
(a,f)表示具有声学图像风格的转移图像f在内容方面与光学图像a更相似；f表示具有声学图像风格的转移图像，p表示声学图像的背景，a表示光学图像；
[0095]
s140：为了模拟昏暗水下环境下采集到的光学图像，以及对后续可重参数化主干网络进行稳定性测试，将对处理后的光学图像进行随机高斯模糊和随机伽马值调整，得到最终用于构建的声光融合数据集的光学图像；
[0096]
s150：将具有声学图像风格的转移图像归一化为与光学图像相同的数值范围，即[0,1]，再以一张最终用于构建的声光融合数据集的光学图像和对应的具有声学图像风格的转移图像为一组，构建得到声光融合数据集。
[0097]
构建注释的图像数据集通常是手工建立的，非常耗时，以及在实际环境中，水下环境多变，获取到的光学图像无法达到稳定的质量，负面效果包括低光照、失焦、抖动等，因此初始可用的样本数量就不多，为了解决样本稀少问题，本步骤采用了基于风格转移的数据增强方法，可以获得稳定的具有声学图像风格的转移图像。同时，本实施例还通过改变随机的光学图像的伽马值和进行高斯模糊，模拟昏暗水下环境，确保后续训练得到的复合连接的可重参数化主干网络精度更高，实现检测及识别效果的提升。
[0098]
步骤2：构建复合连接的可重参数化主干网络，采用步骤1得到的声光融合数据集对复合连接的可重参数化主干网络进行训练，得到可用的水下目标检测识别模型。
[0099]
本实施例构建的复合连接的可重参数化主干网络包括基干层、瓶颈层和检测头。
[0100]
其中，基干层用于处理输入的光学图像和具有声学图像风格的转移图像，在基干层使用两个特征提取网络对输入的光学图像和具有声学图像风格的转移图像进行独立处理，基干层输出6通道的张量，其中，三个通道为rgb图像特征数据，另三个通道为具有声学图像风格的转移图像的特征数据；具体的，基干层的特征提取网络由mobileone块和若干卷积层构成。如图3所示，mobileone块的输入为光学图像/具有声学图像风格的转移图像，mobileone块的输出与第一卷积层的输入连接，第一卷积层的输出与第二卷积层的输入连
接，第二卷积层的输出与第三卷积层的输入连接，依次类推，构成特征提取网络。随着层数增加，特征图会变得越来越小，特征数量则会增加。
[0101]
本实施例的mobileone块为卷积层设计，卷积层被分解为纵深和纵点层。此外，引入过度参数化分支以提供进一步收益。如图5所示，基本模块是在mobilenet-v1的3
×
3深度卷积和1
×
1点卷积的基础上，引入可重新参数化的跳过连接与批标准化，以及复制结构的分支，使用relu作为激活函数。本实施例将过参数化因子设置为4，即有4个重复的3
×
3深度卷积块
[0102]
取两个特征提取网络中倒数第一、第二、第三卷积层提取到的特征图(记为c3、c4和c5，c’3、c’4和c’5)作为基干层的输出，即6通道的张量。
[0103]
其中，瓶颈层包括三个fusion模块、四个elan模块和一个sppcspc模块，具体的，基干层输出的6通道的张量作为三个fusion模块的输入，特征图c3和特征图c’3输入至第一fusion模块，特征图c4和特征图c’4输入至第二fusion模块，特征图c5和特征图c’5输入至第三fusion模块，三个fusion模块输出的融合特征图(记为f3、f4、f5)分别被用作第一elan模块、第二elan模块和sppcspc模块的输入，取第一elan模块输出的特征图p3和第二elan模块输出的特征图p4作为第三elan模块的输入，取第三elan模块输出的特征图n4和sppcspc模块输出的特征图p5作为第四elan模块的输入。
[0104]
其中，第二elan模块输出的特征图p3输入至第一检测头，第三elan模块输出的特征图n4输入至第二检测头，第四elan模块输出的特征图n5输入至第三检测头，第一检测头、第二检测头和第三检测头用来处理三种不同分辨率的检测，对于三种不同分辨率的特征图，分别创建了三个预测框。
[0105]
如图4所示，现对elan和sppcspc模块的结构进行说明。
[0106]
elan模块是一个卷积聚合架构，主要目的是解决在缩放时模型的收敛性会逐渐恶化的问题，通过设计多个分支，使模型具有更丰富的梯度组合，从而更好地提取特征信息。
[0107]
sppcspc模块采用特征金字塔结构，主要目的是避免对图像裁剪、缩放操作导致的图像失真等问题，并解决了卷积网络对图相关重复特征提取的问题，提高了产生候选框的效率。
[0108]
如图3所示，声纳数据和图像数据在基干层不同层级的特征图分别通过fusion模块进行组合，例如，c’3和c3融合产生f3。在训练和测试时，此处的声纳数据和图像数据为随机高斯模糊和随机伽马值调整后的光学图像和将光学图像输入至风格转移网络中出的声纳图像所构成地数据集，在实际运用中使用的是实时获取的光学数据和声纳数据。
[0109]
本实施例为了有效地结合来自不同模态的影像特征，提出了上述的fusion模块，同时选择在基干层之后进行内部融合，现对fusion模块中进行的操作说明如下。
[0110]
如图4所示，通过以下操作获得两个模态特征ci和c'i融合后的特征表示。
[0111][0112][0113]
[0114][0115]
其中，ci和c'i分别代表在第一特征提取网络i层输出的特征数据和在第二特征提取网络i层输出的特征数据，
⊙
是哈达玛积，conv(
·
)表示3
×
3卷积层，σ(
·
)表示残差层，和表示激活特征，ap(
·
)表示平均池化操作，mp(
·
)表示最大池化操作，bi表示残差特征，fi表示最终融合特征。
[0116]
本实施例选择在基干层之后进行内部融合，可以加强激活，同时保留了多模态数据的大部分特征。由于融合后的特征图保留了更多的有用信息，网络可以提取更好的深层特征，这反过来又提高了最终的准确性。
[0117]
其中，采用声光融合数据集对复合连接的可重参数化主干网络进行训练，训练复合连接的可重参数化主干网络使用的损失函数为检测方框损失函数、对象损失函数和类损失函数的加权和之和：检测方框损失函数用于测量坐标定位误差的预测框的误差。对象损失函数反映了预测框的置信度误差。类损失函数反映了预测框对目标类别的预测错误所造成的误差。
[0118]
本实例中的检测方框损失函数表示为平均的真实方框和预测框的交并比损失：
[0119][0120][0121]
其中，s2表示s
×
s网格，每个网格产生b个候选盒，为判断网格i中的候选盒j中是否有物体的函数，有则输出1，否则输出0；p∩g代表真实边界框和预测框的交集，p∪g代表真实边界框和预测框的并集；所述真实边界框为声光融合数据集中声光融合数据自带的；本实例采用二元交叉熵损失函数实现类损失函数，表示为：
[0122][0123]
式中，p(c)表示预测该物体为类别c的概率，表示实际该物体为类别c的概率。
[0124]
本实施例采用siou损失函数作为对象损失函数。siou损失函数引入了地面实景框和预测框之间的矢量角度来重新定义相关关系，包含四个部分：角度损失、距离损失、形状损失和重叠度(iou)损失。
[0125]
角度损失由如下公式定义。
[0126][0127]
其中，ch表示真实边界框的中心点与预测框之间的高度距离，σ表示真实边界框和预测框之间的中心点距离。
[0128]
[0129][0130]
其中，表示真实方框的中心坐标，表示预测框的中心坐标。max(
·
)表示输出最大值，min(
·
)表示输出最小值。
[0131]
距离损失由如下公式定义。
[0132][0133][0134][0135]
ξ＝2-λ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0136]
其中，(cw,ch)表示真实边界框和预测框的最小包围矩阵的宽度和高度。
[0137]
形状损失由如下公式定义。
[0138][0139][0140][0141]
其中，w,h分别表示预测框的宽度和高度，分别表示真实方框的宽度和高度，θ表示对形状损失的关注程度。
[0142]
重叠度(iou)损失表示为：
[0143][0144]
其中，a代表真实边界框和预测框的交集，b代表真实边界框和预测框的并集。
[0145]
综上所述，对象损失函数即siou损失由如下公式组成：
[0146][0147]
综上所述，网络的损失函数为三个部分的加权和：
[0148]
loss＝ω
box
loss
box
+ω
obj
loss
obj
+ω
cls
loss
cls
ꢀꢀꢀꢀꢀꢀꢀ
(21)
[0149]
本实施例中的权重参数选为：ω
box
＝0.05，ω
obj
＝1，ω
cls
＝0.025。
[0150]
如图5所示，可对训练好的复合连接的可重参数化主干网络中的mobileone块进行重新参数化，即去除mobileone模型中的其他多余分支；在训练的时候充分利用多分支的模型潜力，学习参数，在推理的时候又能利用无分支的高计算速度。具体的：
[0151]
在训练好的复合连接的可重参数化主干网络中，找到并分析mobileone块的结构。
通常，这包括多个卷积层、批标准层和激活函数。
[0152]
折叠卷积层和批标准层。对于卷积核大小为k，输入通道尺寸为c
in
，输出通道尺寸为c
out
的卷积层，权重矩阵表示为偏置表示为批标准层包含累积平均数μ、累积标准差σ、比例γ和偏置β。将卷积层和紧随其后的批标准层折叠为一个单独的卷积层。对于权重和偏置的计算，有：
[0153]
和
[0154]
将跳过连接中的批标准层折叠到等效的1
×
1卷积核中。这可以通过将批标准层的参数与1
×
1卷积核的参数相结合来实现。
[0155]
在多分支结构中，将各个分支的权重和偏置相加以得到合并分支后最终卷积层的权重和偏置。对于推理时的卷积层权重w和偏置b，有：
[0156][0157]
其中m是分支的数量。
[0158]
将原始mobileone块中的多余分支以及折叠的卷积层和批标准层替换为重新参数化后的简化结构。
[0159]
步骤3：对复合连接的可重参数化主干网络进行消融实验和对比实验，分析复合连接的可重参数化主干网络性能。
[0160]
本实施例使用基于重合度iou的多类别平均精度map对模型的性能指标进行评价。
[0161]
iou表示模型计算检测及识别出的预测框与实际的目标框重合的比率，具体计算公式如下所示。
[0162][0163]
当iou的值高于一个特定的阈值时，则认为该预测正确。
[0164]
多类别平均精度map与ap有关，即多个类别ap取平均值可得map。
[0165][0166]
其中，n表示类别总数。
[0167]
map能够反映各类别的目标的识别精度，并用于评价多个类目标检测识别的效果，显然，ap以及map越大，说明所设计的模型性能越好。
[0168]
fps表示模型一秒可以处理的帧数，衡量所设计的模型的运算速率以及所采用计算平台的处理性能。计算公式如下所示。
[0169][0170]
步骤4：将复合连接的可重参数化主干网络合成到水下数据收集装置上，实现实时水下目标识别。在一些实施例中，水下数据收集装置由一个绿激光水下摄像机和一个didson双频识别声纳组成，二者成对获取水下目标的光学图像和声学图像。装置使用内嵌的图形计算卡运行模型，实时检测水下目标。识别结果将目标方框和目标种类展示给用户。
[0171]
本实施例基于通过深度学习，利用光学信息和声纳的不同优点，提高了水下目标
识别的准确度。
[0172]
为验证本实施例提出的一种基于声光融合的水下目标检测识别方法的水下目标识别准确率，现采用yolov7目标检测算法作为对比例，通过采用本实施例方法和对比例方法对同一水下目标进行检测，如图6所示，本实施例相对比例具有更高的水下目标识别准确率。
[0173]
为验证本实施例提出的一种基于声光融合的水下目标检测识别方法能很好地检测密集和重叠目标，选取具有多个水下目标且水下目标处于重叠的水下图像进行检测，如图7所示，本实施例方法能很好地检测密集和重叠目标。

技术特征：
1.一种基于声光融合的水下目标检测识别方法，其特征在于：包括以下步骤：获取同一水下目标的光学图像和声学图像，采用基于风格转移的数据增强方法，得到具有声学图像风格的转移图像，将一张光学图像和该光学图像对应的具有声学图像风格的转移图像的转移图像作为一组声光融合数据，以此构建得到声光融合数据集；构建复合连接的可重参数化主干网络；采用声光融合数据集对复合连接的可重参数化主干网络进行训练，得到可用的水下目标检测识别模型；采用可用的水下目标检测识别模型，实现水下目标检测；其中，所述复合连接的可重参数化主干网络包括基干层、瓶颈层、第一检测头、第二检测头和第三检测头；所述基干层包括用于提取光学图像的特征数据的第一特征提取网络和用于提取具有声学图像风格的转移图像的特征数据的第二特征提取网络；所述第一特征提取网络和第二特征提取网络结构相同，均由mobileone块和若干卷积层依次串联构成；取第一特征提取网络和第二特征提取网络中倒数第一、第二、第三卷积层提取到的特征数据作为基干层的输出；所述瓶颈层包括第一fusion模块、第二fusion模块、第三fusion模块、第一elan模块、第二elan模块、第三elan模块、第四elan模块和sppcspc模块；第一特征提取网络倒数第三卷积层提取到的特征数据和第二特征提取网络倒数第三卷积层提取到的特征数据输入至第一fusion模块；第一特征提取网络倒数第二卷积层提取到的特征数据和第二特征提取网络倒数第二卷积层提取到的特征数据输入至第二fusion模块；第一特征提取网络倒数第一卷积层提取到的特征数据和第二特征提取网络倒数第一卷积层提取到的特征数据输入至第三fusion模块；第一fusion模块、第二fusion模块和第三fusion模块输出的融合特征数据分别作为第一elan模块、第二elan模块和sppcspc模块的输入；取第一elan模块输出的特征数据和第二elan模块输出的特征数据作为第三elan模块的输入；取第三elan模块输出的特征数据和sppcspc模块输出的特征数据作为第四elan模块的输入；第二elan模块输出的特征数据输入至第一检测头，所述第一检测头输出第一预测框；第三elan模块输出的特征数据输入至第二检测头，所述第二检测头输出第二预测框；第四elan模块输出的特征数据输入至第三检测头，所述第三检测头输出第三预测框。2.根据权利要求1所述的一种基于声光融合的水下目标检测识别方法，其特征在于：所述的采用声光融合数据集对复合连接的可重参数化主干网络进行训练，得到可用的水下目标检测识别模型，具体包括：步骤1：通过最小化如式(21)所示的损失函数loss，得到复合连接的可重参数化主干网络的最佳网络参数，以此得到训练好的复合连接的可重参数化主干网络；loss＝ω
box
loss
box
+ω
obj
loss
obj
+ω
cls
loss
cls
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21)式中，loss
box
表示检测方框损失函数，ω
box
表示检测方框损失函数的权重，loss
obj
表示
对象损失函数，ω
obj
表示对象损失函数的权重，loss
cls
表示二元交叉熵损失函数，ω
cls
表示二元交叉熵损失函数的权重；所述检测方框损失函数loss
box
，表示为：，表示为：其中，s2表示s
×
s网格，每个网格产生b个候选盒，为判断网格i中的候选盒j中是否有物体的函数，有则输出1，否则输出0；p∩g代表真实边界框和预测框的交集，p∪g代表真实边界框和预测框的并集；所述真实边界框为声光融合数据集中声光融合数据自带的；所述对象损失函数loss
obj
，表示为：其中，δ表示距离损失，ω表示形状损失；所述二元交叉熵损失函数loss
cls
，表示为：式中，p(c)表示预测该物体为类别c的概率，p
gt
(c)表示实际该物体为类别c的概率；classes表示类别集合；步骤2：对训练好复合连接的可重参数化主干网络中的mobileone块进行重新参数化，得到可用的水下目标检测识别模型。3.根据权利要求1所述的一种基于声光融合的水下目标检测识别方法，其特征在于：在所述第一fusion模块、第二fusion模块和第三fusion模块中进行的操作相同，表示为：所述第一fusion模块、第二fusion模块和第三fusion模块中进行的操作相同，表示为：所述第一fusion模块、第二fusion模块和第三fusion模块中进行的操作相同，表示为：所述第一fusion模块、第二fusion模块和第三fusion模块中进行的操作相同，表示为：其中，c
i
和c
i
'分别代表在第一特征提取网络i层输出的特征数据和在第二特征提取网络i层输出的特征数据，
⊙
是哈达玛积，conv(
·
)表示3
×
3卷积层，σ(
·
)表示残差层，和表示激活特征，ap(
·
)表示平均池化操作，mp(
·
)表示最大池化操作，b
i
表示残差特征，f
i
表示最终融合特征。4.根据权利要求1所述的一种基于声光融合的水下目标检测识别方法，其特征在于：所述采用基于风格转移的数据增强方法，得到具有声学图像风格的转移图像，具体包括：利用深度神经网络，对光学图像中的水下目标进行标记和注释，得到具有真实边界框和标记的光学图像，以及对应的注释文件；
对具有真实边界框和标记的光学图像依次进行自动色阶处理、颜色反转处理和灰度调整，得到处理后的光学图像；以声学图像的背景作为风格图像，以处理后的光学图像作为内容图像，将风格图像和内容图像输入至风格转移网络中，得到具有声学图像风格的转移图像；其中，所述风格转移网络是利用风格图像和内容图像，是最小化式(2)所示的损失函数训练得到的；l(a,f,p)＝α
×
l
style
(p,f)+β
×
l
content
(a,f)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中，l(a,f,p)表示损失函数，l
style
(p,f)表示具有声学图像风格的转移图像f在风格方面与声学图像的背景p更相似，l
content
(a,f)表示具有声学图像风格的转移图像f在内容方面与光学图像a更相似；f表示具有声学图像风格的转移图像，p表示声学图像的背景，a表示光学图像。5.根据权利要求4所述的一种基于声光融合的水下目标检测识别方法，其特征在于：用于构建声光融合数据的光学图像，按照以下步骤处理：将所述处理后的光学图像进行随机高斯模糊和随机伽马值调整，得到用于构建的声光融合数据的光学图像。6.根据权利要求2所述的一种基于声光融合的水下目标检测识别方法，其特征在于：距离损失δ表示为：离损失δ表示为：离损失δ表示为：ξ＝2-λ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)(16)(16)其中，(c
w
,c
h
)表示真实边界框和预测框的最小包围矩阵的宽度和高度；表示真实边界框的中心坐标，表示预测框的中心坐标；c
h
表示真实边界框的中心点与预测框之间的高度距离，σ表示真实边界框和预测框之间的中心点距离；max(
·
)表示输出最大值，min(
·
)表示输出最小值。7.根据权利要求2所述的一种基于声光融合的水下目标检测识别方法，其特征在于：形状损失ω表示为：
其中，w,h分别表示预测框的宽度和高度，w
gt
,h
gt
分别表示真实边界框的宽度和高度，θ表示对形状损失的关注程度。

技术总结
本发明公开了一种基于声光融合的水下目标检测识别方法，包括以下步骤：获取同一水下目标的光学图像和声学图像，采用基于风格转移的数据增强方法，得到具有声学图像风格的转移图像，将一张光学图像和该光学图像对应的具有声学图像风格的转移图像的转移图像作为一组声光融合数据，以此构建得到声光融合数据集；构建复合连接的可重参数化主干网络；采用声光融合数据集对复合连接的可重参数化主干网络进行训练，得到可用的水下目标检测识别模型；采用可用的水下目标检测识别模型，实现水下目标检测。标检测。标检测。

技术研发人员：葛慧林戴跃伟连静朱志宇王彪欧阳佳力郭辰凯
受保护的技术使用者：江苏科技大学
技术研发日：2023.04.10
技术公布日：2023/7/21

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：基于XR技术的虚拟对象动作的捕捉方法、装置及存储介质与流程 下一篇：一种四足机器人及脊椎-腿足耦合驱动方法

一种基于声光融合的水下目标检测识别方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于声光融合的水下目标检测识别方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表