一种涉及多模态未知类识别的开放场景目标检测方法

未命名 10-17 阅读:176 评论:0


1.本发明属于图像数据识别技术领域,具体涉及一种涉及多模态未知类识别的开放场景目标检测方法。


背景技术:

2.随着深度学习方法的不断发展,加快了目标检测研究的进度,目标检测的任务是识别和定位图像中的目标,传统目标检测方法都是针对在一个封闭的集合下工作,也就是在训练阶段的所有类是已知的,所以它们只能检测已知类别,如果集合是在开放场景时,出现了两个比较有挑战的问题:1)测试过程中图像含未知类别,这些未知类需要检测为未知类,2)当给予未知类相应的标签时,模型需要增量学习新类,把这个问题定义为开放场景目标检测。
3.开放场景目标检测方法不仅需要识别已知类别,而且需要将所有未知实例识别为未知,然后,人类注释者可以为感兴趣的类添加标签,模型在下一个任务中增量学习这些类;然而,除了识别未知类外,还需要确定多个未知实例是否属于同一个实例,这在实际应用中存在巨大价值。例如,在机器人和自动驾驶汽车的实际应用中需要探索未知环境,并针对不同的未知类别采取不同的策略,这就需要检测算法定位和识别不同的未知实例并分配到不同的未知类别中。目前开放场景目标检测方法在实现过程中,虽然识别出了未知类别,且归为一类,但是未知类别是多种多样的,实际上并不是同一个类别,这会导致产生副作用(towards open world object detection,k j joseph,submitted on 3 mar 2021 (v1), last revised 9 may 2021 (this version, v2))。


技术实现要素:

4.本发明旨在解决上述问题,即不仅需要在开放场景下检测未知类别,当未知类别标签可用时能够逐渐学习新的未知类别,而且可以对未知类别进行分类,优化未知类别的检测,实现了开放场景下对未知类别的检测,减少了人工标注的成本,提高了开放世界下目标检测精度。
5.本发明的目的至少通过如下技术方案之一实现。
6.一种涉及多模态未知类识别的开放场景目标检测方法,包括以下步骤:s1、在训练阶段,利用faster r-cnn作为基准网络训练模型,使用已知类图像作为训练集训练faster r-cnn模型,得到开放场景未知识别的目标检测模型uc-osod;s2、利用rpn(region proposal network)产生背景框,将分值排前列的背景框标注为潜在未知类别;s3、利用对比聚类的方法分离已知类别和未知类别;s4、在推理阶段,利用基于多模态的clip模型,优化开放场景未知识别的目标检测模型uc-osod,识别未知类别并进行分类;
s5、根据提供的未知类标签,利用增量学习方法学习新类,进而循环实现开放场景未知类识别。
7.进一步地,步骤s1中,使用faster r-cnn两阶段目标检测算法作为基准网络训练模型,训练集使用的是pascal voc 2007和ms-coco标准数据集;其中,faster r-cnn全称faster region-based convolutional neural network,是一种两阶段目标检测算法。
8.进一步地,步骤s2中,采用faster r-cnn目标检测算法中的候选框提取网络rpn产生前景框和背景框,其中背景框实际上是未标注的候选区域,因此这些背景框中分值较高的很可能是潜在的未知类别对象;从候选框提取网络rpn产生的背景框中,按分值进行排序,取前个背景框标注为潜在未知类别;其中,rpn的全称是"region proposal network",是faster r-cnn中的一个模块,用于生成目标检测中的候选区域。
9.进一步地,步骤s3中,在潜在空间中,通过对比聚类的方法,使得同一类的实例将被迫保持在附近,不同类的实例将被推的很远,实现潜在空间中的已知类别和未知类别的分离;具体对第i个类别的潜在空间特征,统计设定时间段内迭代样本的特征均值,作为聚类中心,并约束期望第i个类别的样本特征都靠近第i个类别的聚类中心,其余类别的样本特征远离第i个类别的聚类中心;每个类别的聚类中心在训练过程中不断更新,得到分离的已知和未知类别对象。
10.进一步地,对于任意第i个类别,有一个原型向量;为已知类对象在检测器中间层生成的特征向量;
11.如果第i个类别为已知类别,则损失是从图像中提取的特征向量与第i个类别的原型向量之间的距离;此距离使用距离度量函数测量;
12.如果第i个类别不是已知类别,则损失是0,边距值,与和之间的距离之差三者之间的最大值;将对比损失函数定义如下:
[0013][0014]
其中,表示已知类别,已知类别数为,是任意距离度量函数,定义了相似和不相似项之间的距离,表示已知类别的损失总和,表示已知类对象的特征向量和第i个类别的原型向量的损失,表示已知类对象的特征向量和第i个类别的原型向量之间的距离;利用对比聚类的方法分离已知类别和未知类别中使用对比损失函数最小化将确保在潜在空间中实现已知和未知类的分离。
[0015]
进一步地,步骤s4中,利用基于多模态的clip模型,优化开放场景未知识别的目标
检测模型uc-osod,识别未知类别并进行分类,clip是一种由openai开发的新型视觉语言预训练模型,其全称为contrastive language-image pre-training;它是一种多模态的预训练模型,能够同时处理文本和图像输入,并且能够理解两者之间的语义联系。
[0016]
进一步地,步骤s4中,将对比聚类得到的未知类别的候选框,输入到clip模型的图像编码器中,得到未知类别的向量表示;构造一个对象类别标签数据集,将对象类标签,通过提示模板的方式组合成多个句子,输入到clip模型的文本编码器中得到文本特征向量,将文本特征向量和未知类别的向量表示映射到同一个多模态特征空间,计算文本特征向量和未知类别的向量表示的余弦相似度,相似度最高的即为未知类别的标签,得到未知类别的分类结果。
[0017]
进一步地,步骤s5中,根据提供的未知类标签,输入新的未知类别标签,重新训练得到基于开放场景未知类识别的目标检测模型uc-osod,进而循环实现开放场景未知类识别;所述重新训练得到基于开放场景未知类识别的目标检测模型uc-osod,利用基于样本回放的增量学习方法学习新类,即存储一部分具有代表性的旧数据,并在每个增量步骤之后对基于开放场景未知类识别的目标检测模型uc-osod进行微调;将基于开放场景未知类识别的目标检测模型uc-osod除了输出层外其他层参数冻结,只对最后输出层的参数进行调整。
[0018]
进一步地,基于样本回放的增量学习是一种机器学习方法,主要用于处理在线学习中新数据的加入,它的基本思想是使用历史数据来训练模型,然后将新数据与历史数据一起使用以更新模型。这种方法的主要优点是它可以避免重新训练整个模型,因此可以大大提高训练效率,一种常见的策略是随机选择一部分历史数据来与新数据一起使用,这种方法可以防止模型对某些历史数据过于依赖,从而提高模型的泛化能力,具体包括以下步骤:s5.1、初始化模型:在增量学习开始之前,需要先初始化uc-osod模型,并将其用于训练一部分数据;s5.2、训练模型:使用一部分新的数据进行uc-osod模型的训练;s5.3、样本回放:将之前训练过的数据集中的设定比例的样本存储在一个缓冲区中,称为回放缓冲区,随后从回放缓冲区中随机抽取设定比例的的样本,将这些样本与当前训练数据一起用于uc-osod模型的训练;s5.4、模型更新:将使用回放缓冲区中的样本进行训练后的uc-osod模型与步骤s5.2中训练的uc-osod模型进行合并,得到新的uc-osod模型;s5.5、测试模型:使用测试数据集对步骤s5.3中合并得到的uc-osod模型进行评估;s5.6、如果还有新的数据需要进行训练,返回步骤s5.2,否则,结束增量学习。
[0019]
进一步地,所述进行微调是在接收到未知类别的标签时,为了避免模型重新训练,使用一部分代表性的历史数据和新数据训练模型;在模型微调中,只对最后输出层的参数进行调整的方法通常称为“头部微调”(head fine-tuning)或“全局微调”;这种方法的主要思想是,利用预训练模型在大规模数据上学习到的通用特征,只对uc-osod模型的最后几层进行微调,从而使得uc-osod模型在新的任务上能够更好地适
应,具体实现的流程如下:a1、加载预训练uc-osod模型:使用已经在大规模数据上预训练好的uc-osod模型作为初始模型;a2、冻结模型参数:对于不需要微调的层,将它们的参数冻结,使得它们在训练过程中不会发生变化;a3、替换输出层:将uc-osod模型的最后一层输出层替换为新的适应任务的输出层,该输出层包含新任务所需的类别数;a4、只训练新的输出层:只对新的输出层进行训练,使得uc-osod模型能够更好地适应新的任务;a5、解冻参数:如果需要微调其他层的参数,则解冻这些层的参数,让它们能够在微调中发生变化;a6、微调模型:对整个uc-osod模型进行微调,直到uc-osod模型在新的任务上收敛。
[0020]
相比于现有技术,本发明的优点在于:目前开放场景目标检测方法在实现过程中,虽然识别出了未知类别,但是归为统一的未知类,但是未知类别是多种多样的,实际上并不是同一个类别,这会导致产生副作用,且对未知类的分类存在巨大商业价值,例如,在机器人和自动驾驶汽车的实际应用中需要探索未知环境,并针对不同的未知类别采取不同的策略;本发明通过对未知类别的细分,提高了开放场景目标检测的精度。
附图说明
[0021]
图1为本发明实施例中一种涉及多模态未知类识别的开放场景目标检测方法的流程图;图2为本发明实施例中prn标注未知类示意图;图3为本发明实施例中对比聚类示意图;图4为本发明实施例中clip未知类识别示意图;图5为本发明实施例中的效果图。
具体实施方式
[0022]
为使本发明地目的、技术方案和优点更加清楚明白,下面结合附图并举实施例,对本发明地具体实施进行详细说明,显然,所描述的实施例是本发明一部分实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得地所有其他实施例,都属于本发明保护的范围。
[0023]
实施例:一种涉及多模态未知类识别的开放场景目标检测方法,如图1所示,包括以下步骤:s1、在训练阶段,利用faster r-cnn作为基准网络训练模型,使用已知类图像作为训练集训练faster r-cnn模型,得到开放场景未知识别的目标检测模型uc-osod;使用faster r-cnn两阶段目标检测算法作为基准网络训练模型,训练集使用的是
pascal voc 2007和ms-coco标准数据集;其中,faster r-cnn全称faster region-based convolutional neural network,是一种两阶段目标检测算法。
[0024]
在模型的训练阶段,设置目标检测的置信度score为0.35,非极大值抑制nms设置为0.35。
[0025]
s2、 利用rpn产生背景框,将分值排前列的背景框标注为潜在未知类别;如图2所示,采用faster r-cnn目标检测算法中的候选框提取网络rpn产生前景框和背景框,其中背景框实际上是未标注的候选区域,因此这些背景框中分值较高的很可能是潜在的未知类别对象;从候选框提取网络rpn产生的背景框中,按分值进行排序,取前个背景框标注为潜在未知类别;其中,rpn的全称是"region proposal network",是faster r-cnn中的一个模块,用于生成目标检测中的候选区域。k的取值根据背景显示的置信度score来确定,在本发明中设置score的值大于0.5的k个背景作为未知类别显示,从而得到已知和未知类别。其中,rpn的全称是"region proposal network",是faster r-cnn中的一个模块,用于生成目标检测中的候选区域。
[0026]
s3、利用对比聚类的方式分离已知和未知类别;如图3所示,在潜在空间中,通过对比聚类的方法,使得同一类的实例将被迫保持在附近,不同类的实例将被推的很远,实现潜在空间中的已知类别和未知类别的分离;具体对第i个类别的潜在空间特征,统计设定时间段内迭代样本的特征均值,作为聚类中心,并约束期望第i个类别的样本特征都靠近第i个类别的聚类中心,其余类别的样本特征远离第i个类别的聚类中心;每个类别的聚类中心在训练过程中不断更新,得到分离的已知和未知类别对象。
[0027]
对于任意第i个类别,有一个原型向量;为已知类对象在检测器中间层生成的特征向量;
[0028]
如果第i个类别为已知类别,则损失是从图像中提取的特征向量与第i个类别的原型向量之间的距离;此距离使用距离度量函数测量;
[0029]
如果第i个类别不是已知类别,则损失是0,边距值,与和之间的距离之差三者之间的最大值;将对比损失函数定义如下:
[0030][0031]
其中,表示已知类别,已知类别数为,是任意距离度量函数,定义了相似和不相似项之间的距离,在上下文中,边距值即相似和不相似项之间的距离的数值是通过对相关实验进行比较和评估而得出的,具体来说,相似和不相似项之间的距离可以通过以下方法获得:实验评估:通过设计和执行一系列实验,比较不同边距值下的性能指标或结果。可以尝试不同的边距值,并记录每个值下的实验结果,然后根据性能或结果选择最
佳的边距值,表示已知类别的损失总和,表示已知类对象的特征向量和第i个类别的原型向量的损失,表示已知类对象的特征向量和第i个类别的原型向量之间的距离;使对比损失函数最小化将确保在潜在空间中实现已知和未知类的分离。
[0032]
s4、在推理阶段,利用基于多模态的clip模型,优化开放场景未知识别的目标检测模型uc-osod,识别未知类别并进行分类;如图4所示,clip是一种由openai开发的新型视觉语言预训练模型,其全称为contrastive language-image pre-training;它是一种多模态的预训练模型,能够同时处理文本和图像输入,并且能够理解两者之间的语义联系。
[0033]
将对比聚类得到的未知类别的候选框,输入到clip模型的图像编码器中,得到未知类别的向量表示;构造一个对象类别标签数据集,把imagenet数据集1000个类别名称构成对象类别标签数据集,通过提示模板的方式组合成多个句子,输入到clip模型的文本编码器中得到文本特征向量,将文本特征向量和未知类别的向量表示映射到同一个多模态特征空间,计算文本特征向量和未知类别的向量表示的余弦相似度,相似度最高的即为未知类别的标签,得到未知类别的分类结果。
[0034]
s5、根据提供的未知类标签,输入新的未知类别标签,重新训练得到基于开放场景未知类识别的目标检测模型uc-osod,进而循环实现开放场景未知类识别,在一个实施例中,得到的效果图如图5中得a图和b图所示。
[0035]
重新训练得到基于开放场景未知类识别的目标检测模型uc-osod时,利用基于样本回放的增量学习方法学习新类,即存储一部分具有代表性的旧数据,并在每个增量步骤之后对基于开放世界未知类识别的目标检测模型uc-osod进行微调,将基于开放世界未知类识别的目标检测模型uc-osod除了输出层外其他层参数冻结,只对最后输出层的参数进行调整。
[0036]
基于样本回放的增量学习是一种机器学习方法,主要用于处理在线学习中新数据的加入,它的基本思想是使用历史数据来训练模型,然后将新数据与历史数据一起使用以更新模型。这种方法的主要优点是它可以避免重新训练整个模型,因此可以大大提高训练效率,一种常见的策略是随机选择一部分历史数据来与新数据一起使用,这种方法可以防止模型对某些历史数据过于依赖,从而提高模型的泛化能力,具体包括以下步骤:s5.1、初始化模型:在增量学习开始之前,需要先初始化一个uc-osod模型,并将其用于训练一部分数据;s5.2、训练模型:使用一部分新的数据进行uc-osod模型的训练;s5.3、样本回放:将之前训练过的数据集中的设定比例的样本存储在一个缓冲区中,称为回放缓冲区,随后从回放缓冲区中随机抽取设定比例的的样本,将这些样本与当前训练数据一起用于uc-osod模型的训练;s5.4、模型更新:将使用回放缓冲区中的样本进行训练后的模型与步骤s5.2中训练的模型进行合并,得到新的uc-osod模型;s5.5、测试模型:使用测试数据集对步骤s5.3中的uc-osod模型进行评估。
[0037]
s5.6、如果还有新的数据需要进行训练,返回步骤s5.2,否则,结束增量学习。
[0038]
所述进行微调是在接收到未知类别的标签时,为了避免模型重新训练,使用一部分代表性的历史数据和新数据训练模型;在模型微调中,只对最后输出层的参数进行调整的方法通常称为“头部微调”(head fine-tuning)或“全局微调”;这种方法的主要思想是,利用预训练模型在大规模数据上学习到的通用特征,只对模型的最后几层进行微调,从而使得模型在新的任务上能够更好地适应,具体实现的流程如下:a1、加载预训练模型:使用已经在大规模数据上预训练好的uc-osod模型作为初始模型;a2、冻结模型参数:对于不需要微调的层,将它们的参数冻结,使得它们在训练过程中不会发生变化;a3、替换输出层:将uc-osod模型的最后一层输出层替换为新的适应任务的输出层,该输出层包含新任务所需的类别数;a4、只训练新的输出层:只对新的输出层进行训练,使得模型能够更好地适应新的任务;a5、解冻参数:如果需要微调其他层的参数,则解冻这些层的参数,让它们能够在微调中发生变化;a6、微调模型:对整个uc-osod模型进行微调,直到模型在新的任务上收敛。
[0039]
在一个实施例中,为了证明本技术所提出的方法的有效性,下面进行验证实验:提出了一项全面的评估标准来探讨uc-osod(涉及多模态未知类识别的开放场景目标检测方法)的性能,包含对未知类别对象的识别,检测已知类别,以及对未知类提供标签时逐渐学习新类别。
[0040]
数据分割:在任务集={,,
······
}上评估uc-osod模型。一个特定任务的所有类将在时间点被引入系统。对于任务,{:《}的为已知的,{:》}将被视为未知。如表1所示,构造了4个任务,每个任务有20个类,任务使用pascal voc和ms-coco数据集。任务由所有voc类和数据组成,其中不包含关于未知类的任何信息,这允许在训练期间在没有任何未知信息的情况下测试模型。其余60个类ms-coco分为三部分,即,,。虽然和中的训练图像没有未知实例的标签,但它们包含未知实例,这可以测试模型在这种情况下的效果,在每个任务(task)中,评估数据由pascal voc测试分割和ms-coco验证分割组成。表1显示了未知类识别的开放世界目标检测评估标准中的任务(task)组成:
[0041]
表1
[0042]
评估指标:由于未知目标很容易与已知目标混淆,因此使用wilderness impact(wi)指标来明确描述这种行为,理想情况下,wi应该更小,因为当未知目标被添加到测试集时,精度不能下降。除了wi之外,还使用绝对开集误差(a-ose)来反映错误分类为已知类的未知目标的数量。wi和a-ose都隐式地度量模型在处理未知目标方面的有效性。
[0043]
表2、表3、表4、表5分别表示任务1、任务2、任务3、任务4在开放世界目标检测上,uc-osod与基线模型faster r-cnn的比较,每个任务训练之后,wi和a-ose表示已知和未知类别的混淆程度。uc-osod模型的wi和a-ose分数明显较低,这是由于对未知目标的显式建模。当在任务2中逐步标记未知类时,发现基线检测器在已知类集合(通过map量化)上的性能从56.16%显著下降到4.011%,其中map衡量了它如何很好地检测已知类,值越大性能越好。uc-osod能够同时实现两个目标:检测已知类和降低未知类的影响。类似的趋势也出现在任务3和任务4类中。
[0044]
表2
[0045]
表3
[0046]
表4
[0047]
表5
[0048]
使用uc-osod模型对未知物体进行清晰建模,使得它在增量目标检测任务中表现良好。uc-osod减少了未知目标被分类为已知目标的混淆,这使得检测器可以增量地学习真实的前景目标。使用ilod(增量目标检测器的缩写)中使用的标准来评估uc-osod,使用pascal voc 2007数据集,把该数据集分成三组:10(已知类)+10(未知类),15(已知类)+5(未知类),19(已知类)+1(未知类)来使检测器进行增量学习。在三种不同的设置下将uc-osod与ilod进行了比较。如下表6所示,uc-ore在所有设置中都表现十分出色。
[0049]
表6
[0050]
需要说明的是,任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露
的精神和范围的前提下,可以在实施的形式上及细节上进行变更和修改。因此,本发明的一些等同修改和变更也应该在本发明的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

技术特征:
1.一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,包括以下步骤:s1、在训练阶段,利用faster r-cnn作为基准网络训练模型,使用已知类图像作为训练集训练faster r-cnn模型,得到开放场景未知识别的目标检测模型uc-osod;s2、利用rpn产生背景框,将分值排前列的背景框标注为潜在未知类别;s3、利用对比聚类的方法分离已知类别和未知类别;s4、在推理阶段,利用基于多模态的clip模型,优化开放场景未知识别的目标检测模型uc-osod,识别未知类别并进行分类;s5、根据提供的未知类标签,利用增量学习方法学习新类,进而循环实现开放场景未知类识别。2.根据权利要求1所述的一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,步骤s1中,使用faster r-cnn两阶段目标检测算法作为基准网络训练模型,训练集使用的是pascal voc 2007和ms-coco标准数据集。3.根据权利要求1所述的一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,步骤s2中,采用faster r-cnn目标检测算法中的候选框提取网络rpn产生前景框和背景框,其中背景框实际上是未标注的候选区域;从候选框提取网络rpn产生的背景框中,按分值进行排序,取前个背景框标注为潜在未知类别;其中,所述rpn是faster r-cnn中的一个模块,用于生成目标检测中的候选区域。4.根据权利要求3所述的一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,步骤s3中,在潜在空间中,通过对比聚类的方法,使得同一类的实例将被迫保持在附近,不同类的实例将被推的很远,实现潜在空间中的已知类别和未知类别的分离;具体对第i个类别的潜在空间特征,统计设定时间段内迭代样本的特征均值,作为聚类中心,并约束期望第i个类别的样本特征都靠近第i个类别的聚类中心,其余类别的样本特征远离第i个类别的聚类中心;每个类别的聚类中心在训练过程中不断更新,得到分离的已知和未知类别对象。5.根据权利要求4所述的一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,对于任意第i个类别,有一个原型向量;为已知类对象在检测器中间层生成的特征向量;如果第i个类别为已知类别,则损失是从图像中提取的特征向量 与第i个类别的原型向量之间的距离;此距离使用距离度量函数测量;如果第i个类别不是已知类别,则损失是0,边距值,与和之间的距离之差三者之间的最大值;将对比损失函数定义如下:
其中,表示已知类别,已知类别数为,是任意距离度量函数,定义了相似和不相似项之间的距离,表示已知类别的损失总和,表示已知类对象的特征向量和第i个类别的原型向量的损失,表示已知类对象的特征向量和第i个类别的原型向量之间的距离;利用对比聚类的方法分离已知类别和未知类别中使用对比损失函数最小化将确保在潜在空间中实现已知和未知类的分离。6.根据权利要求1所述的一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,步骤s4中,利用基于多模态的clip模型,优化开放场景未知识别的目标检测模型uc-osod,识别未知类别并进行分类, clip是一种由openai开发的新型视觉语言预训练模型,其全称为contrastive language-image pre-training;它是一种多模态的预训练模型,能够同时处理文本和图像输入,并且能够理解两者之间的语义联系。7.根据权利要求6所述的一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,步骤s4中,将对比聚类得到的未知类别的候选框,输入到clip模型的图像编码器中,得到未知类别的向量表示;构造一个对象类别标签数据集,将对象类标签,通过提示模板的方式组合成多个句子,输入到clip模型的文本编码器中得到文本特征向量,将文本特征向量和未知类别的向量表示映射到同一个多模态特征空间,计算文本特征向量和未知类别的向量表示的余弦相似度,相似度最高的即为未知类别的标签,得到未知类别的分类结果。8.根据权利要求1所述的一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,步骤s5中,根据提供的未知类标签,输入新的未知类别标签,重新训练得到基于开放场景未知类识别的目标检测模型uc-osod,进而循环实现开放场景未知类识别;所述重新训练得到基于开放场景未知类识别的目标检测模型uc-osod,利用基于样本回放的增量学习方法学习新类,即存储一部分具有代表性的旧数据,并在每个增量步骤之后对基于开放场景未知类识别的目标检测模型uc-osod进行微调;将基于开放场景未知类识别的目标检测模型uc-osod除了输出层外其他层参数冻结,只对最后输出层的参数进行调整。9.根据权利要求8所述的一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,基于样本回放的增量学习是一种机器学习方法,具体包括以下步骤:s5.1、初始化模型:在增量学习开始之前,需要先初始化uc-osod模型,并将其用于训练一部分数据;s5.2、训练模型:使用一部分新的数据进行uc-osod模型的训练;s5.3、样本回放:将之前训练过的数据集中的设定比例的样本存储在一个缓冲区中,称为回放缓冲区,随后从回放缓冲区中随机抽取设定比例的的样本,将这些样本与当前训练数据一起用于uc-osod模型的训练;s5.4、模型更新:将使用回放缓冲区中的样本进行训练后的uc-osod模型与步骤s5.2中训练的uc-osod模型进行合并,得到新的uc-osod模型;s5.5、测试模型:使用测试数据集对步骤s5.3中合并得到的uc-osod模型进行评估;s5.6、如果还有新的数据需要进行训练,返回步骤s5.2,否则,结束增量学习。
10.根据权利要求8所述的一种涉及多模态未知类识别的开放场景目标检测方法,其特征在于,所述进行微调是在接收到未知类别的标签时,为了避免模型重新训练,使用一部分代表性的历史数据和新数据训练模型;利用预训练模型在大规模数据上学习到的通用特征,只对uc-osod模型的最后几层进行微调,从而使得uc-osod模型在新的任务上能够更好地适应,具体实现的流程如下:a1、加载预训练uc-osod模型:使用已经在大规模数据上预训练好的uc-osod模型作为初始模型;a2、冻结模型参数:对于不需要微调的层,将它们的参数冻结,使得它们在训练过程中不会发生变化;a3、替换输出层:将uc-osod模型的最后一层输出层替换为新的适应任务的输出层,该输出层包含新任务所需的类别数;a4、只训练新的输出层:只对新的输出层进行训练,使得uc-osod模型能够更好地适应新的任务;a5、解冻参数:如果需要微调其他层的参数,则解冻这些层的参数,让它们能够在微调中发生变化;a6、微调模型:对整个uc-osod模型进行微调,直到uc-osod模型在新的任务上收敛。

技术总结
本发明公开了一种涉及多模态未知类识别的开放场景目标检测方法。所述方法包括以下步骤:训练得到开放场景未知识别的目标检测模型UC-OSOD;利用RPN产生背景框,将分值排前列的背景框标注为潜在未知类别;利用对比聚类的方法分离已知类别和未知类别;利用基于多模态的CLIP模型,优化开放场景未知识别的目标检测模型UC-OSOD,识别未知类别并进行分类;根据提供的未知类标签,利用增量学习方法学习新类,进而循环实现开放场景未知类识别。本发明实现了开放场景下对未经训练的对象检测,并实现了对未知类别的Zero-Shot预测,减少了人工标注的成本,提高了开放场景下目标检测精度。提高了开放场景下目标检测精度。提高了开放场景下目标检测精度。


技术研发人员:黄阳阳 罗荣华
受保护的技术使用者:华南理工大学
技术研发日:2023.09.01
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐