一种无人艇垃圾回收方法及系统

未命名 07-09 阅读:104 评论:0


1.本发明涉及垃圾回收技术领域,具体为一种无人艇垃圾回收方法及系统。


背景技术:

2.水面垃圾主要是指漂浮在各种水面(江河、湖泊、河道、海面等)上层的、并影响水体质量的各种废弃物,其主要包括玻璃瓶、塑料瓶、塑料袋、食物、动物尸体等。水面垃圾如不及时清理会严重影响人们正常的生活与生产,如航道运河、发电站前池漂浮的垃圾,另一方面也不符合人们对绿色生态环境的追求。然而目前水面垃圾的清理主要靠人力手工打捞,在水面上人工作业不仅效率低下、劳动强度大、危险系数高,而且水面垃圾所释放出的有毒有害气体将会严重危害作业人员的身体健康。
3.为了解决以上问题,本发明设计了一种基于视觉的无人艇垃圾回收系统。目前常见的基于视觉的目标检测方法分为单阶段和双阶段方法。单阶段方法以yolo算法为代表,yolo算法将目标检测看成一个对于边界框和相关类概率的回归问题,仅使用单个神经网络从输入图像中同时预测目标的边界框和类别概率,由于yolo算法基于整个输入图像进行检测而非基于局部进行推断,这使其背景误检率很低,且模型推断速度较快,但也存在精度较差以及对于水面上成群的小目标检测效果较差的缺点;双阶段方法以faster r-cnn为代表,第一个阶段获取图像的兴趣区域,第二个阶段才对前一个阶段兴趣区域进行边界框回归和类别预测,faster r-cnn检测方法精度较高,但模型参数过多,导致网络推理速度慢,检测帧数过低,为此我们提出了一种无人艇垃圾回收方法及系统。


技术实现要素:

4.(一)解决的技术问题
5.针对现有技术的不足,本发明提供了一种无人艇垃圾回收方法及系统,解决了上述的问题。
6.(二)技术方案
7.为实现上述所述目的,本发明提供如下技术方案:一种基于注意力机制的无人艇垃圾回收系统,包括电源、中央处理模块、通信模块、gps模块、运动控制模块、垃圾回收装置以及云台相机,中央处理模块与通信模块、gps模块、运动控制模块以及云台相机连接,垃圾回收装置设置在垃圾收集艇上,电源分别与中央处理模块、通信模块、gps模块、运动控制模块、垃圾回收装置以及云台相机连接。
8.一种无人艇垃圾回收方法,包括以下步骤:
9.第一步:无人艇在水面上巡航作业,云台相机监视水面,并将实时视频信息传输到中央处理模块;
10.第二步:在中央处理模块使用基于注意力机制的水面垃圾检测算法进行水面垃圾检测;若未检测到目标或检测到的目标置信度低于设定的阈值,则执行第一步,若检测到目标且置信度高于设定的阈值,则执行第三步,若检测到多个置信度高于设定阈值的目标,则
选择置信度最高的目标,再执行第三步;
11.第三步:中央处理模块根据无人艇当前位置目标在视频画面中的位置调整云台旋转角和俯仰角,使得目标总是出现在云台相机视野中央;
12.第四步:中央处理模块根据云台相机旋转角和俯仰角驱动无人艇靠近水面垃圾目标,判断目标是否在垃圾回收装置的工作范围内,若是,则由中央处理模块驱动垃圾回收装置进行水面垃圾回收,若否,则执行第二步。
13.优选的,第二步中的基于注意力机制的水面垃圾检测算法包括以下内容:
14.s1:由无人艇在水面作业时,收集云台相机视角的视频,之后将视频中含有垃圾的序列间隔30帧抽取一帧图像,筛选得到图像,对图像数据进行增广,将数据集按照8:1:1随机分为训练集、验证集和测试集;
15.s2:将经过数据增广后的训练集输入基于注意力机制的水面垃圾检测模型进行训练,数据首先通过优化后的swin transformer主干网络提取不同尺度的数据特征图,将数据特征图输入空间金字塔池化网络,特征图经过两次上采样和两次下采样得到对称尺度的特征图,并对得到的对称尺度的特征图进行拼接,输入到预测网络;
16.s3:预测网络对不同尺寸的特征图进行卷积获得深度c=(5+n
cls
)
×
3的不同尺寸的预测特征图,其中3表示每个网格单元三个预测框,5表示每个预测框有(x,y,w,h,confidence)五个基本参数,n
cls
表示模型检测的垃圾类别数量。
17.优选的,s2中的数据增广包括以下内容:对收集到的图像为每一个垃圾目标创建矩形标注框,使垃圾目标刚好被该矩形框包围,并且同时为每一个垃圾目标指定类别,输出原始图像和标注好json文件,对训练集中的每张照片处理,使得训练数据集可以扩充3倍。
18.优选的,照片处理为对照片进行随机裁剪、水平翻转、旋转(
±
10
°
)、颜色变换、亮度变换(0.8~1)、添加高斯噪声以及进行均值偏移操作。
19.(三)有益效果
20.与现有技术相比,本发明提供了一种无人艇垃圾回收方法及系统,具备以下有益效果:
21.1、该基于注意力机制的无人艇垃圾回收方法及系统,相比于人力手工打捞速度快,工作效率高,需要的人力物力更少。
22.2、该基于注意力机制的无人艇垃圾回收方法及系统,针对水面的水波纹、倒影和反光做了数据处理,且对于小目标检测精度差的问题,对于目标检测算法融合了注意力机制,使得整个模型精度更高,且识别效率高。
23.3、该基于注意力机制的无人艇垃圾回收方法及系统,fpn层自顶向下与骨干网络特征图融合,传达强语义特征,pan则自底向上传达强定位特征,二者结合从不同的主干层对不同的检测层进行特征聚合,使得特征在小目标语义下更加明显。
附图说明
24.图1为本发明无人艇垃圾回收方法及系统的结构示意图;
25.图2为本发明无人艇垃圾回收方法及系统的流程示意图;
26.图3为本发明基于注意力机制的水面垃圾检测算法框架示意图;
27.图4为本发明基于注意力机制的水面垃圾检测算法流程示意图;
28.图5为本发明patch partion算法框架示意图;
29.图6为本发明swin transformer block算法结构示意图;
30.图7为本发明w-msa算法结构示意图;
31.图8为本发明sw-msa算法结构示意图;
32.图9为本发明cbs算法流程示意图;
33.图10为本发明空间金字塔池化结构流程示意图;
34.图11为csp算法流程图。
具体实施方式
35.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
36.请参阅图1,一种基于注意力机制的无人艇垃圾回收系统,包括:电源、中央处理模块、通信模块、gps模块、运动控制模块、垃圾回收装置以及云台相机,中央处理模块与通信模块、gps模块、运动控制模块、云台相机连接。
37.中央处理模块接收云台相机视频信息进行目标检测推理、驱动云台改变云台俯仰角和旋转角、驱动运动控制模块对无人艇进行控制、驱动垃圾回收装置、接收通信模块信息进行手动控制。
38.参阅图2-图11,一种无人艇垃圾回收方法,包括以下步骤:
39.第一步:无人艇在水面上巡航作业,云台相机监视水面,并将实时视频信息传输到中央处理模块。
40.第二步:在中央处理模块使用基于注意力机制的水面垃圾检测算法进行水面垃圾检测。若未检测到目标或检测到的目标置信度低于设定的阈值,则执行第一步,若检测到目标且置信度高于设定的阈值,则执行第三步,若检测到多个置信度高于设定阈值的目标,则选择置信度最高的目标,再执行第三步。
41.第三步:中央处理模块根据无人艇当前目标在视频画面中的位置调整云台旋转角和俯仰角,使得目标总是出现在云台相机视野中央。
42.第四步:中央处理模块根据云台相机旋转角和俯仰角驱动无人艇靠近水面垃圾目标;判断目标是否在垃圾回收装置的工作范围内,若是,则由中央处理模块驱动垃圾回收装置进行水面垃圾回收,若否,则执行第二步。
43.基于注意力机制的水面垃圾检测算法,如图3所示,包括以下步骤:
44.s1:由无人艇在水面作业时,收集云台相机视角的视频,之后将视频中含有垃圾的序列间隔30帧抽取一帧图像,最后经过人工筛选得到2000张图像。使用labelme软件对收集到的图像为每一个垃圾目标创建矩形标注框,使垃圾目标刚好被该矩形框包围,并且同时为每一个垃圾目标指定类别。最终labelme输出原始图像和标注好json文件。由于水面上的水波纹、倒影和反光等干扰因素会严重影响垃圾目标的检测精度,因此对训练集中的每张照片进行随机裁剪、水平翻转、旋转(
±
10
°
)、颜色变换、亮度变换(0.8~1)、色度变换、添加高斯噪声以及进行均值偏移操作,使得训练数据集可以扩充3倍,让模型学习到更多特征,
增强了检测模型的鲁棒性。最后将数据集按照8:1:1随机分为训练集、验证集和测试集。
45.s2:将经过数据增广后的训练集输入基于注意力机制的水面垃圾检测模型进行训练。数据首先通过优化后的swin transformer主干网络提取不同尺度的数据特征图。然后,将数据特征图输入空间金字塔池化网络(spatial pyramid pooling,spp)。特征图经过空间金字塔池化结构后,可以避免对图像区域剪裁、缩放操作导致的图像失真问题。随后,特征图经过两次上采样和两次下采样得到对称尺度的特征图,并对得到的对称尺度的特征图进行拼接,输入到预测网络。
46.s3:预测网络对不同尺寸的特征图进行卷积获得深度c=(5+n
cls
)
×
3的不同尺寸的预测特征图,其中3表示每个网格单元三个预测框,5表示每个预测框有(x,y,w,h,confidence)五个基本参数,n
cls
表示模型检测的垃圾类别数量。
47.基于注意力机制的水面垃圾检测模型,如图4所示,包含以下结构:
48.假设输入图像的尺寸为(h,w,3),图像进入分块网络(patch partition)划分为块,获得的特征尺寸为随后,特征图经过三个不同stage的swin transformer注意力模块骨干网络对特征图进行编码,获得不同维度的特征图(feature
stage1
,feature
stage2
,feature
stage3
),每经过一次注意力模块,特征图尺寸减半,通道增加一倍,对应尺寸分别为
49.进行特征聚合的颈部网络采用的是特征金字塔(feature pyramid networks,fpn)与路径聚合(path aggregation network,pan)相结合的方式,fpn层自顶向下与骨干网络特征图融合,传达强语义特征,pan则自底向上传达强定位特征,二者结合从不同的主干层对不同的检测层进行特征聚合,颈部网络主要由空间金字塔池化结构(spp)、融合层(concat)、上采样层(upsample)、改进卷积块层(cbs)以及csp(cross stage partial)层构成。
50.最后,聚合后的特征分别进入预测层,经过一次卷积后,维度分别为其中c=(5+n
cls
)
×
3,h、w分别为图像的高度和宽度,不同维度的特征图用于检测小、中、大目标,每个网格包含3个预测框,每个预测框含有目标的置信度和预测框位置信息,再通过非极大值抑制nms(none-maximum suppression)对重复冗余的预测框进行剔除,保留置信度最高的预测框信息,从而完成目标检测过程。其中,网络的loss函数采用giou_loss。整个框体损失函数loss的计算公式如下:
51.loss=λ1l
cls
+λ2l
conf
+λ3l
ciou
52.其中l
cls
,l
conf
,l
ciou
分别为分类损失、置信度损失、定位损失,λ1,λ2,λ3为平衡系数。
[0053][0054]cij
=sigmoid(c
ij
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0055]
其中,o
ij
∈{0,1}表示真实类别值,当预测目标边界框i中存在第j类目标时,取值
为1,反之为0;c
ij
表示预测目标框i中存在第j类目标的值;c
ij
表示预测值c
ij
通过sigmoid函数得到的预测置信度;n
pos
表示正样本个数。
[0056][0057]ci
=sigmoid(ci)
[0058]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0059]
其中,oi∈{0,1}表示真实置信度值,当样本i属于正样本时,值为1,反之为0;ci表示置信度值,为模型预测样本i为正样本的概率;n表示正负样本的总个数。
[0060]
l
ciou
=1-ciou
[0061][0062][0063][0064]
其中iou为预测框和真实框的交并比,ρ2(b,b
gt
)表示预测框中心点b和真实框中心点b
gt
的欧式距离,c为预测框和真实框的最小外接矩形对角线的长度,w
gt
,h
gt
分别为真实框的宽、高,w,h分别为预测框的宽、高。
[0065]
分块网络(patch partition)就是将原图划分为4
×4×
3的小块,原图尺寸为h
×w×
3,宽高方向分别可以划分出块。
[0066]
不同stage的swin transformer注意力模块,包含以下结构:
[0067]
线性嵌合(linear embedding)模块、块合并模块(patch merging)以及swin transformer block。线性嵌合(linear embedding)模块由卷积层构成,将分块网络的输出提取成指定通道数的特征图,方便后续swin transformer block处理。分块网络(patch partition)如图5所示,将输入数据按每patch_size个像素分割成个小块,之后将每个块中的相同位置像素重新拼接在一起得到新的特征图,接着将这个新的特征图按深度方向进行拼接,最后分别通过一个归一化layer norm层和全连接层进行特征提取。在图例中,patch_size被设置为4。swin transformer block则如图6所示,包含层归一化(layer norm,ln)层、窗口多头自注意力(windows multi-head self attention,w-msa)层、移位窗口多头自注意力(shift windows multi-head self attention,sw-msa)层、多层感知机(multi-layer perceptron,mlp)层以及残差结构。具体过程可以表示为:
[0068][0069]
[0070][0071][0072]
其中x
l
和分别表示第l个块中mlp和两种自注意力的输出结果。
[0073]
w-msa和sw-msa模块,如图7、图8所示:
[0074]
在w-msa中,对分块后的特征图进行多头自注意力提取,之后再融合分块的特征图,得到与输入维度相同特征图。因为在w-msa中,对特征图分块之后,每块特征图之间没有信息传递,因此在w-msa之后,会对特征图再次进行sw-msa的特征提取。在sw-msa中,将特征图分别往循环左移和循环上移个网格单元,再对移动后的特征图分块,之后将分块后的特征图掩膜下的多头自注意力提取,最终将循环移动的特征图还原回移动前的特征图。当固定每个局部窗口中所包含块的数量时,w-msa通过在不重叠的局部窗口计算多头自注意力可以将计算复杂度从块数量的二次方降低为线性复杂度。本发明中默认设置为4。同时sw-msa在保持非重叠窗口的有效计算的同时引入跨窗口连接,与前一层的窗口进行桥接,可以显著增强特征建模能力。这种策略具有较低的实际延迟,并且可以逐层聚合相邻窗口的特征表示,能够感知全局信息,为跟踪任务提供了更加鲁棒的特征表示。
[0075]
多头自注意力提取的计算过程如下:
[0076][0077]
其中,q,k,v是特征图经过全连接层处理后得到的由向量组成的二维矩阵,q与k
t
转置的点积得到的相关性矩阵记录了所有向量之间的相关性,而q与k来自同一个矩阵的变换,因此,相关性矩阵描述的是输入向量之间的相关性。为了避免造成梯度消失,使用一个系数等效缩放相关性矩阵。经过激活的相关性矩阵与点乘得到全局自注意力图。多头自注意力是transformer的全局感受野和特征长距离依赖的主要来源。
[0078]
改进卷积块层(cbs),如图9所示,包含二维卷积、批正则化和silu激活函数,其中silu激活函数的表达式为
[0079]
silu=x
×
sigmoid(x)。
[0080]
空间金字塔池化结构,如图10所示,包含以下步骤:
[0081]
特征图首先经过改进卷积块层进一步提取特征,然后通过不同尺度的maxpool层,并将得到的结果拼接起来,最后再进行一次改进卷积块处理。
[0082]
空间csp(cross stage partial)层,如图11所示,包含以下结构:
[0083]
特征图经过两次cbs处理之后,进行一次二维卷积调整维度,然后与原数据进行残差连接,之后再经过bn、silu和cbs处理。
[0084]
基于注意力机制的水面垃圾检测模型(下称ours)与传统的faster rcnn、yolo v3和yolo v5对比如下表所示:
[0085]
算法faster rcnnyolo v3yolo v5oursmap(iou=0.5:0.95)0.3790.3130.3310.375
map(iou=0.5)0.7940.7660.7650.790fps(img/s)30.865.155.150.3
[0086]
上述所有模型训练轮数都设置为300轮,使用相同的优化器,从实验结果分析,在不显著降低目标识别效率的前提下,基于注意力机制的水面垃圾检测模型达到了与二阶段算法接近的识别精度。本发明采用改造后的注意力机制目标检测算法的模型架构,利用自注意力机制的特点,提高了一阶段目标检测算法的识别准确率。
[0087]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.一种基于注意力机制的无人艇垃圾回收系统,其特征在于,包括电源、中央处理模块、通信模块、gps模块、运动控制模块、垃圾回收装置以及云台相机,中央处理模块与通信模块、gps模块、运动控制模块以及云台相机连接,垃圾回收装置设置在垃圾收集艇上,电源分别与中央处理模块、通信模块、gps模块、运动控制模块、垃圾回收装置以及云台相机连接。2.一种无人艇垃圾回收方法,其特征在于,包括以下步骤:第一步:无人艇在水面上巡航作业,云台相机监视水面,并将实时视频信息传输到中央处理模块;第二步:在中央处理模块使用基于注意力机制的水面垃圾检测算法进行水面垃圾检测;若未检测到目标或检测到的目标置信度低于设定的阈值,则执行第一步,若检测到目标且置信度高于设定的阈值,则执行第三步,若检测到多个置信度高于设定阈值的目标,则选择置信度最高的目标,再执行第三步;第三步:中央处理模块根据无人艇当前目标在视频画面中的位置调整云台旋转角和俯仰角,使得目标总是出现在云台相机视野中央;第四步:中央处理模块根据云台相机旋转角和俯仰角驱动无人艇靠近水面垃圾目标,判断目标是否在垃圾回收装置的工作范围内,若是,则由中央处理模块驱动垃圾回收装置进行水面垃圾回收,若否,则执行第二步。3.根据权利要求2所述的一种无人艇垃圾回收方法,其特征在于:第二步中的基于注意力机制的水面垃圾检测算法包括以下内容:s1:由无人艇在水面作业时,收集云台相机视角的视频,之后将视频中含有垃圾的序列间隔30帧抽取一帧图像,筛选得到图像,对图像数据进行增广,将数据集按照8:1:1随机分为训练集、验证集和测试集;s2:将经过数据增广后的训练集输入基于注意力机制的水面垃圾检测模型进行训练,数据首先通过优化后的swin transformer主干网络提取不同尺度的数据特征图,将数据特征图输入空间金字塔池化网络,特征图经过两次上采样和两次下采样得到对称尺度的特征图,并对得到的对称尺度的特征图进行拼接,输入到预测网络;s3:预测网络对不同尺寸的特征图进行卷积获得深度c=(5+n
cls
)
×
3的不同尺寸的预测特征图,其中3表示每个网格单元三个预测框,5表示每个预测框有(x,y,w,h,confidence)五个基本参数,n
cls
表示模型检测的垃圾类别数量。4.根据权利要求3所述的一种无人艇垃圾回收方法,其特征在于:s2中的数据增广包括以下内容:对收集到的图像为每一个垃圾目标创建矩形标注框,使垃圾目标被该矩形框包围,并且同时为每一个垃圾目标指定类别,输出原始图像和标注好json文件,对训练集中的每张照片处理,使得训练数据集可以扩充3倍。5.根据权利要求4所述的一种无人艇垃圾回收方法,其特征在于:照片处理为对照片进行随机裁剪、水平翻转、旋转、颜色变换、亮度变换、添加高斯噪声以及进行均值偏移操作。

技术总结
本发明涉及垃圾回收技术领域,且公开了一种基于注意力机制的无人艇垃圾回收系统,包括电源、中央处理模块、通信模块、GPS模块、运动控制模块、垃圾回收装置以及云台相机,中央处理模块与通信模块、GPS模块、运动控制模块以及云台相机连接,该基于注意力机制的无人艇垃圾回收方法及系统,FPN层自顶向下与骨干网络特征图融合,传达强语义特征,PAN则自底向上传达强定位特征,二者结合从不同的主干层对不同的检测层进行特征聚合,使得特征在小目标语义下更加明显。加明显。加明显。


技术研发人员:萧子敬 廖俊森 鲁仁全 徐雍 彭慧 刘畅 饶红霞
受保护的技术使用者:广东工业大学
技术研发日:2022.09.07
技术公布日:2023/6/26
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐