样本生成的检测分类方法与流程

未命名 08-26 阅读:81 评论:0


1.本发明涉及检测分类方法,尤其是一种增量学习样本生成方法。


背景技术:

2.icarl是最早的基于数据回放的增量学习方法,通过复习一些具有代表性的旧类数据来缓解旧类的灾难遗忘问题。该方法包含三个子模块:1.updaterepresentation: 负责将旧范例数据和新的训练数据合并,然后通过一个分类损失函数和蒸馏损失函数的结合来训练模型。
3.2.reduceexemplarset: 在存储空间一定的前提下,由于新的数据的加入,需要对旧范例数据进行裁减。该模块通过取得每个类的前m个范例来更新旧范例集。
4.3.constructexemplarset: 对于新数据,首先计算当前新类的均值,然后获取离当前均值最近的m个样本(最近邻算法)作为范例构建新范例集。
5.icarl方法按照上述三个子模块的顺序层层递进,在完成第一个子模块updaterepresentation后,通过m=k/t计算的得到每个类需要分配的范例数m,这里的t表示的是当前所有类别数,k表示的是存储大小。上述reduceexemplarset和constructexemplarset模块分别通过旧类的for循环和新类的for循环完成旧范例集的更新和新范例集的构建。
6.现有技术是在新旧数据样本充足的前提下进行的。例如,上述icarl中为每个类分配的m个样本来更新和构建范例集。然而在实际工业质检的场景中,新数据很可能小于m这个值。因为新型的缺陷样本的产生是个漫长的过程,很难在短时间内累积到足够数量的样本。由此,icarl的样本生成方法并不适用于实际工业质检场景。
7.同时,现有技术在挑选范例的样本的时候采用最近邻均值的算法,由于亚型样本分布的不均衡性,会导致常见亚型样本被挑选成为范例,而少见亚型样本则被轻易丢弃,进而对训练数据的质量产生较大影响,降低模型训练准确率。
8.综上,传统的样本生成的检测分类方法在实际应用落地过程中存在,无法实施或实施效果不佳的问题,当增量样本数量稀少时,传统样本生成的检测分类方法会导致模型准确率大幅下降,进而对工业质检的结果造成影响。


技术实现要素:

9.本发明要解决的技术问题是:为了解决传统的样本生成的检测分类方法存在准确率低、实施效果差和质检结果偏差大的问题,提供一种样本生成的检测分类方法。
10.本发明解决其技术问题所采用的技术方案是:一种样本生成的检测分类方法,包括如下步骤:步骤1:获取当前类别待补充样本数量,通过当前训练数据的统计结果字典,得到当前训练数据的每一个类别以及类别对应的样本数量,将提前设定好的阈值减去样本数量得到该类别仍需要补充的样本数量,具体的计算公式如下:
mc=t-ncmc表示c类仍需补充的样本数量,t表示预设的阈值,即单类训练样本数量的上限,通过调节t值可有效控制增量学习训练时间,nc表示增量数据中c类文件夹下含有的样本数量;步骤2:判断已知类和未知类,通过未知增量类别列表判断类别c是已知类还是未知类,当类别c存在于未知增量类别列表中,判定类别c是新增类别,反之判定类别c是已知类别;步骤3:生成未知类样本,在未知增量类别列表中找到类别的索引,将其与已知类别数相加后得到该未知类别的标签,计算阈值与当前未知类增量数据中样本数量的差值,得到未知类待补充的样本数量,计算公式如下:e=t-pce表示未知类待补充的样本数量,t表示预设的阈值,pc表示未知类增量数据中的样本数量;步骤4:生成已知类样本,对于已知类包括如下步骤:步骤41:判断仍需补充的样本数量是否小于等于零,即mc≤0;步骤42:当仍需补充的样本数量小于等于零时,直接合并mc;当仍需补充的样本数量大于零时,从样本库中获取该已知类样本,数量称作oc,将样本库中已知类样本数量和该已知类仍需补充的数量mc比较大小,进而判断已知类样本库样本是否充足,当已知类样本库样本不足时,计算二者差值作为随机采样的次数,计算公式如下:s=m
c-ocs代表该已知类随机采样的次数,mc表示c类仍需补充的样本数量,oc表示该已知类样本库中的样本数,当已知类样本数足够时,通过最近零均值算法及其优化算法提取最具代表性的样本添加到已知类范例集中;步骤5:合并生成训练样本,从步骤1到步骤4获得生成的已知类样本范例集和生成的未知类样本范例集,将未知类范例集合并到已知类样本范例集之后,形成最终的增量学习训练样本。
11.进一步的,所述步骤1在获取当前类别待补充样本数量的同时,通过外部配置文件传入的参数生成当前训练数据文件夹路径。
12.进一步的,所述步骤2中的未知增量类别列表由外部函数统计生成后传递至本方法内。
13.进一步的,所述步骤3采用for循环,通过e次随机算法采样未知类增量数据样本后,将数据与其对应的标签同时添加到未知类范例集。
14.进一步的,所述步骤4采用for循环,通过s次随机算法采样已知类数据样本后,将数据与其对应的标签同时添加到已知类范例集。
15.本发明的有益效果是,本发明的一种样本生成的检测分类方法,用一种智能的样本生成策略实现检测过程经过检测得到:是否有感兴趣物体等信息。
16.为了应对工业质检领域的复杂新数据,解决传统的样本生成的检测分类方法在实际应用落地过程中无法实施或实施效果不佳的问题。
17.通过设置固定的样本阈值,使得增量学习的训练时间能够标准化。
18.通过在判断新样本是已知类还是未知新类,使得该方法能同时适应样本增量,类别增量和混合增量。
19.通过计算阈值与已知类新样本量的差值判断是否应该从样本库中挑选补充样本,解决已知类新样本数量不足的问题。
20.通过计算样本库中已知类样本数量与阈值的差值,选择不同的已知类采样方法,解决了样本库中已知类样本数量不足的问题。
21.通过选择不同的未知类采样方法,解决了新增未知类样本数量不足的问题。
22.本发明解耦样本采样算法,实现了算法的可替换性(例如,可采用最近邻均值算法实现样本挑选),增加了方法的灵活性,降低维护成本。
23.本发明以传统样本生成的检测分类方法为基础,面对复杂的工业质检场景设计出新的样本生成方法,进而确保增量模型训练的速度和准确率达到使用要求。
24.使用本发明后,面对实际工业质检样本库样本数量不足,新增样本数量不足而产生的增量学习样本不均衡问题,可以生成有效的训练数据进而提升增量模型的准确率。
25.综上,本发明具有准确率高、实施效果好和质检结果偏差小的特点。
附图说明
26.下面结合附图和实施例对本发明进一步说明。
27.图1是本发明的流程示意图。
具体实施方式
28.现在结合附图和优选实施例对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
29.如图1所示的一种样本生成的检测分类方法,包括如下步骤:步骤1:获取当前类别待补充样本数量通过当前训练数据的统计结果字典,得到当前训练数据的每一个类别以及类别对应的样本数量,将提前设定好的阈值减去样本数量得到该类别仍需要补充的样本数量,具体的计算公式如下:mc=t-ncmc表示c类仍需补充的样本数量;t表示预设的阈值,即单类训练样本数量的上限,通过调节t值可有效控制增量学习训练时间;nc表示增量数据中c类文件夹下含有的样本数量;同时通过外部配置文件传入的参数生成当前训练数据文件夹路径。
30.步骤2:判断已知类和未知类
通过未知增量类别列表判断类别c是已知类还是未知类,当类别c存在于未知增量类别列表中,判定类别c是新增类别,反之判定类别c是已知类别,未知增量类别列表由外部函数统计生成后传递至本方法内。
31.步骤3:生成未知类样本在未知增量类别列表中找到类别的索引,将其与已知类别数相加后得到该未知类别的标签,计算阈值与当前未知类增量数据中样本数量的差值,得到未知类待补充的样本数量,计算公式如下:e=t-pce表示未知类待补充的样本数量;t表示预设的阈值;pc表示未知类增量数据中的样本数量;由于新增样本数量不足的原因,pc往往小于阈值,此时e大于0,这里采用for循环,通过e次随机算法采样未知类增量数据样本后,将数据与其对应的标签同时添加到未知类范例集;随机算法采样可额外增加数据增强和亚型样本分析功能。
32.步骤4:生成已知类样本对于已知类包括如下步骤:步骤41:判断仍需补充的样本数量是否小于等于零,即mc≤0。
33.步骤42:当仍需补充的样本数量小于等于零时,说明该已知类新增样本数量足够,直接合并mc;当仍需补充的样本数量大于零时,从样本库中获取该已知类样本,数量称作oc,将样本库中已知类样本数量和该已知类仍需补充的数量mc比较大小,进而判断已知类样本库样本是否充足,当已知类样本库样本不足时,计算二者差值作为随机采样的次数,计算公式如下:s=m
c-ocs代表该已知类随机采样的次数;mc表示c类仍需补充的样本数量;oc表示该已知类样本库中的样本数;这里采用for循环,通过s次随机算法采样已知类数据样本后,将数据与其对应的标签同时添加到已知类范例集;随机算法采样可额外增加数据增强和亚型样本分析等功能;当已知类样本数足够时,通过最近零均值算法及其优化算法提取最具代表性的样本添加到已知类范例集中。
34.步骤5:合并生成训练样本从步骤1到步骤4获得生成的已知类样本范例集和生成的未知类样本范例集,将未知类范例集合并到已知类样本范例集之后,形成最终的增量学习训练样本。
35.以上说明书中描述的只是本发明的具体实施方式,各种举例说明不对本发明的实质内容构成限制,所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形,而不背离发明的实质和范围。

技术特征:
1.一种样本生成的检测分类方法,其特征在于:包括如下步骤:步骤1:获取当前类别待补充样本数量,通过当前训练数据的统计结果字典,得到当前训练数据的每一个类别以及类别对应的样本数量,将提前设定好的阈值减去样本数量得到该类别仍需要补充的样本数量,具体的计算公式如下:m
c
=t-n
c
m
c
表示c类仍需补充的样本数量,t表示预设的阈值,即单类训练样本数量的上限,通过调节t值可有效控制增量学习训练时间,n
c
表示增量数据中c类文件夹下含有的样本数量;步骤2:判断已知类和未知类,通过未知增量类别列表判断类别c是已知类还是未知类,当类别c存在于未知增量类别列表中,判定类别c是新增类别,反之判定类别c是已知类别;步骤3:生成未知类样本,在未知增量类别列表中找到类别的索引,将其与已知类别数相加后得到该未知类别的标签,计算阈值与当前未知类增量数据中样本数量的差值,得到未知类待补充的样本数量,计算公式如下:e=t-p
c
e表示未知类待补充的样本数量,t表示预设的阈值,p
c
表示未知类增量数据中的样本数量;步骤4:生成已知类样本,对于已知类包括如下步骤:步骤41:判断仍需补充的样本数量是否小于等于零,即m
c
≤0;步骤42:当仍需补充的样本数量小于等于零时,直接合并m
c
;当仍需补充的样本数量大于零时,从样本库中获取该已知类样本,数量称作o
c
,将样本库中已知类样本数量和该已知类仍需补充的数量m
c
比较大小,进而判断已知类样本库样本是否充足,当已知类样本库样本不足时,计算二者差值作为随机采样的次数,计算公式如下:s=m
c-o
c
s代表该已知类随机采样的次数,m
c
表示c类仍需补充的样本数量,o
c
表示该已知类样本库中的样本数,当已知类样本数足够时,通过最近零均值算法及其优化算法提取最具代表性的样本添加到已知类范例集中;步骤5:合并生成训练样本,从步骤1到步骤4获得生成的已知类样本范例集和生成的未知类样本范例集,将未知类范例集合并到已知类样本范例集之后,形成最终的增量学习训练样本。2.如权利要求1所述的样本生成的检测分类方法,其特征在于:所述步骤1在获取当前类别待补充样本数量的同时,通过外部配置文件传入的参数生成当前训练数据文件夹路径。3.如权利要求1所述的样本生成的检测分类方法,其特征在于:所述步骤2中的未知增量类别列表由外部函数统计生成后传递至本方法内。
4.如权利要求1所述的样本生成的检测分类方法,其特征在于:所述步骤3采用for循环,通过e次随机算法采样未知类增量数据样本后,将数据与其对应的标签同时添加到未知类范例集。5.如权利要求1所述的样本生成的检测分类方法,其特征在于:所述步骤4采用for循环,通过s次随机算法采样已知类数据样本后,将数据与其对应的标签同时添加到已知类范例集。

技术总结
本发明涉及检测分类方法,为了解决传统的样本生成的检测分类方法存在准确率低、实施效果差和质检结果偏差大的问题,提供一种样本生成的检测分类方法,包括如下步骤:步骤1:获取当前类别待补充样本数量;步骤2:判断已知类和未知类;步骤3:生成未知类样本;步骤4:生成已知类样本;步骤5:合并生成训练样本;本发明具有准确率高、实施效果好和质检结果偏差小的特点。点。点。


技术研发人员:都卫东 和江镇 王岩松 陈嘉杰 吴健雄
受保护的技术使用者:征图新视(江苏)科技股份有限公司
技术研发日:2023.07.24
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐