一种基于缺陷信息查询的训练与标注并行协同方法、装置与流程
未命名
10-19
阅读:107
评论:0
1.本发明涉及深度学习技术领域,尤其涉及一种基于缺陷信息查询的训练与标注并行协同方法、装置。
背景技术:
2.在工业界的图像标注领域,虽然有学术界和工业界都在使用的一些大型已标注的图像数据库,但是在很多特殊的业务场景上,从业人员依旧需要想尽办法去获取业务标注数据来构建模型。当前深度学习方法(deep learning,dl)在工业图像检测领域大放光彩,但以数据为驱动的方式,追求大量的专家经验标注,极大限制了业务的开展,因此通过一些机器学习算法来降低对人工标注的依赖是理想的方案,已有主流方向包括了半监督、弱监督、无监督以及主动学习等方向,对缓解dl的数据贪婪都有一定效果。
3.针对实际业务的开发特性,希望能从大量的业务数据中挑选有价值的数据进行标注,又不需要全部标注。大多数的业务数据在实际的获取过程中,并不能如标注数据集一样具备较好的平衡性与多样性,由于生产过程中并不能保证类别的均衡,甚至无法提供足够的检测类样本,将所有数据进行标注并进行建模是费时费力,并且还带来了失衡的数据分布,这对采用深度学习的工业检测方案带来了极大的困难。目前采用有效的al可以实现标注工作效率方面的指数级加速,但由于深度模型与浅层模型之间学习范式的差异导致了传统的al查询策略无法直接应用于dl模型,当前缺乏通用的嵌合方法。
技术实现要素:
4.有鉴于此,本发明的目的在于提出一种基于缺陷信息查询的训练与标注并行协同方法、装置以及设备,旨在解决上述问题。
5.为实现上述目的,本发明提供一种基于缺陷信息查询的训练与标注并行协同方法,所述方法包括:获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集;将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本;将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到k个样本;对所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。
6.优选的,所述通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本,包括:通过批查询模块对所述未标注数据集进行查询批数据分布差异以及批内的信息
量,得到多批次数据样本。
7.优选的,所述检测模型包括骨干网络以及功能网络;所述将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到k个样本,包括:通过所述骨干网络对所述第一批次样本进行样本特征的提取;将所述样本特征以及通过所述功能网络提取的投影特征进行拼接后输入至所述查询网络;将所述查询网络输出的综合不确定性度量分数以及所述检测模型的预测结果进行加权输出,得到所述k个样本。
8.优选的,基于所述训练数据集建立目标域核心集;在所述通过所述骨干网络对所述第一批次样本进行样本特征的提取之后,包括:根据所述目标域核心集对所述样本特征进行计算相似性分数。
9.优选的,所述根据所述目标域核心集对所述样本特征进行计算相似性分数,包括:根据所述目标域核心集的核心集特征与每一所述样本特征进行余弦相似性距离的计算,得到相似性分数。
10.优选的,所述对所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新,包括:判断所述k个样本的度量分数是否达到预设分数阈值,若是则将所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;否则将所述k个样本返回至未标注数据集。
11.优选的,所述查询网络基于cnn网络进行构建;所述查询网络的网络结构包括卷积、csp模块、通道注意力机制以及非对称金字塔非局部块体。
12.为实现上述目的,本发明还提供一种基于缺陷信息查询的训练与标注并行协同装置,所述装置包括:获取单元,用于获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集;初始化单元,用于将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;粗筛单元,用于通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本;细筛单元,用于将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到k个样本;更新单元,用于对所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;迭代单元,用于继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。
13.为了实现上述目的,本发明还提出一种基于缺陷信息查询的训练与标注并行协同设备,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序被所述处理器执行以实现如上述实施例所述的一种基于缺陷信息查询的训练与标注并行协同方
法的步骤。
14.为了实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如上述实施例所述的一种基于缺陷信息查询的训练与标注并行协同方法的步骤。
15.有益效果:以上方案,在深度学习的检测模型的基础上结合主动学习的查询网络进行选择性标注,通过采用粗筛与细筛的混合查询策略,能从业务数据中快速筛选有价值的数据,降低数据标注成本和时间成本,并行训练与标注过程能高效完成深度模型的构建,从而保证深度检测模型达到业务的需求性能。
16.以上方案,通过对样本信息量的度量以选择信息量对当前模型增益最大的样本进行标注并进入新的一轮深度检测模型训练中,能有效降低标注量的同时加速模型对目标域的拟合,排除冗余样本的干扰,维持模型的泛化能力,避免过拟合。
17.以上方案,使用粗筛与精筛的混合查询策略方式是基于密度分布的查询策略与基于不确定性的查询策略,该方式兼顾了样本的差异性度量与不确定性度量,能够提高样本信息的查全率。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1为本发明一实施例提供的一种基于缺陷信息查询的训练与标注并行协同方法的流程示意图。
20.图2为本发明一实施例提供的整体查询策略流程示意图。
21.图3为本发明一实施例提供的整体深度主动学习流程示意图。
22.图4为本发明一实施例提供的混合查询信息分布示意图。
23.图5为本发明一实施例提供的查询网络的结构示意图。
24.图6为本发明一实施例提供的一种基于缺陷信息查询的训练与标注并行协同装置的结构示意图。
25.发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
26.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本
发明保护的范围。
27.以下结合实施例详细阐述本发明的内容。
28.参照图1所示为本发明另一实施例提供的一种基于缺陷信息查询的训练与标注并行协同方法的流程示意图。
29.本实施例中,该方法包括:s11,获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集;s12,将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;s13,通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本;s14,将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到k个样本;s15,对所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;s16,继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。
30.进一步的,在步骤s15所述对所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新,包括:判断所述k个样本的度量分数是否达到预设分数阈值,若是则将所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;否则将所述k个样本返回至未标注数据集。
31.参照图2所示以及图3所示的整体流程示意图。在本实施例中,准备一个包括具有图像缺陷信息的大量的未标注数据池(unlabeled pool)以及少量的已标注数据集(labeled training set)。初始化后由标注数据集得到目标域核心集(target domain core set,tdcs)作为当前参考特征。通过少量的已标注数据集完成预训练模型,从数据池中查询挑选待标注样本,包括粗筛与精筛,首先由批查询模块(batch query module,bqm)对数据池进行划分查询合适的k批数据样本(假设全局有n批次,通过批查询模块对未标记数据池进行查询得到k批次样本,而k《n),查询批数据分布差异以及批内的信息量,在训练过程中模型的两部分,即骨干网络(backbone)与功能网络(functional network)抽取图片数据的特征信息输入到查询网络(query net,qn),输出不确定性分数与检测模型预测进行加权输出,精筛得到k个样本进行专家标注投入训练数据集,在下一次迭代中继续挑选新的批数据一起训练,直至达到目标模型的检测性能或标注成本上限。粗筛与精筛的查询策略步骤分别是基于密度分布的查询策略与基于不确定性的查询策略,两者兼顾了样本的差异性度量与不确定性度量,并行筛选步骤可以快速选择最佳的样本进行专家标注。
32.本实施例的一种可行的策略是在一个批查询中采用粗筛与精筛的混合查询策略,以显式或者隐式的方式同时考虑样本的信息量、多样性或者表示形式,在流程中采用不同的策略配合不同的环节查询。如图4所示,若对数据信息进行分为三类信息,即数据分布特性、数据差异性与数据不确定性,本实施例主要采用基于密度分布与基于不确定性的方法设计流程前后两个重要的模块(即批查询模块与查询网络),从而提高了信息的查全率。
33.基于密度分布的方法主要是指从集合的角度来考察样本的选择,本案核心集的构
建方法正是出于该角度的查询策略,但对于查询的数据点尽可能的覆盖所有点的数据而可能没有考虑样本密度,并且受到数据集的类别分布干扰,导致查询到的数据点过度代表来自流行稀疏区域的样本点,因此批处理查询模块综合考虑两者的影响。
34.另一方面,本案考虑深度模型上的任务不确定性着重来自功能网络,对功能网络的特征面进行随机投影,对冗余的特征信息进行降维度压缩,将更高位的特征信息与核心特征进行拼接预测样本的综合不确定性分数,在查询网络上采用一个极简的cnn网络插件,结构图5所示,即所述查询网络的网络结构包括卷积、csp模块、通道注意力机制以及非对称金字塔非局部块体。对于拼接后的特征会进一步整理抽取特征,同时采用了深度模型中的csp模块、通道注意力机制(channel attention module)以及非对称金字塔非局部块体(asymmetric pyramid non-local block, apnb),该模块参数少,满足查询的性能需求。
35.进一步的,在步骤s12基于已标注数据集对查询网络以及检测模型进行模型初始化的步骤包括:将已标注数据集通过检测模型的backbone建立tdcs(目标域核心集)作为新样本数据的对比特征库,少量已标注数据混合随机数据(随机数据由随机初始化的批查询模块进行选取)进行预训练,经过检测模型的骨干网络过程,抽取backbone的中间层作为样本的语义,依据tdcs选取核心集特征计算每张图片的余弦相似性距离,作为样本的相似性分数(similarity score,ss);将样本对应tdcs的维度特征(tdcs核心集源于骨干网络,带有维度索引,样本查询时抽取对应核心集索引的backbone维度特征)与从功能网络抽取的投影特征(projective feature)进入al(主动学习)的查询网络,初始化时人工不需要干预(即模型初始化时不计算梯度损失),在预训练过程中排除这类随机数据(即对于随机数据得到的相关分数不进行标注与修正,仅通过已标注数据对模型进行初始化,但随机数据会参与这一过程),反馈综合不确定性度量与相似性度量给bqm,对bqm进行更新;将综合不确定性度量分数(comprehensiveuncertainty score,cus)与检测模型预测结果进行加权输出,对qn进行更新,直至对所有初始化样本完成预训练,整体模块完成初始化。
36.进一步的,在步骤s14所述将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到k个样本,包括:s14-1,通过所述骨干网络对所述第一批次样本进行样本特征的提取;进一步根据所述目标域核心集对所述样本特征进行计算相似性分数;其中,所述根据所述目标域核心集对所述样本特征进行计算相似性分数,包括:根据所述目标域核心集的核心集特征与每一所述样本特征进行余弦相似性距离的计算,得到相似性分数。
37.s14-2,将所述样本特征以及通过所述功能网络提取的投影特征进行拼接后输入至所述查询网络;s14-3,将所述查询网络输出的综合不确定性度量分数以及所述检测模型的预测结果进行加权输出,得到所述k个样本。
38.在本实施例中,由批查询模块根据粗筛得到k批次数据样本提交训练请求,通过backbone提取当前批次数据样本的特征与fn提取的投影特征进行拼接后输入至qn,并将该特征与tdcs计算相似性分数至bqm作为粗筛的评估分数之一;通过qn输出cus作为bqm的粗筛评估分数之一,并且cus与检测模型输出的target loss和confidence进行加权输出h
(cus,target loss,confidence),依据输出分数与选取分数阈值进行比较后判断是否挑选样本。进一步的,还通过人工干预进行检查待选样本,对于相似度高、重复出现以及主观判断更有价值的样本进行排除与补充,对qn进行一次更新。选择的样本进行专家标注,并加入训练数据集中进行一次检测模型的更新。继续筛选k批次数据样本中的下一批次样本进行下一次迭代的标注训练过程,直至消耗完标注成本或者达到目标检测性能。通过上述方式可以降低标注成本,采用粗筛与精筛的查询策略能快速从大量的业务数据中选择有效的样本数据完成建模,并且考虑了数据分布的均衡性,在人工标注阶段辅助模型进行训练,将训练阶段与标注阶段并行,充分挖掘数据性能,引导检测模型拟合任务目标域,最大化检测模型的基线检测能力。
39.本实施例中的目标域是指已标注数据集的分布域,通过计算整个目标域的核心集特征,可以用高维的少数特征代表样本的特性,新样本数据与核心集进行距离计算可以得到相似性分数,分数越低则说明与当前目标域的数据集的样本差异性较大,需要补充到目标域中作为新的参考,进而不断扩大目标域的数据差异性或者多样性;而分数越高的则说明与当前目标域的数据集的样本相似度高,避免数据集冗余可以排除。计算目标域核心集的步骤:采用存储库(memory bank)方法,在图像块级别(patch level)上实现,由于抽取中间层的特征图,样本用x表示,记第i个样本,第j层的特征图,特征图上的点用,而本实施例采用方法是感受野更大的图像块,记(h,w)周围的点集为:此处采用局部邻居聚合的方法增加感受野,不直接使用特征图上的点,而使用合成特征点,合成patch特征能增加接受野大小和对小空间偏差的鲁棒性,并且不损失特征图的空间分辨率和有用的特征。其中,h、w是一个patch在特征图上的高、宽坐标,p为图像尺寸(点坐标到边界的尺寸),a,b则是这个patch中包含的所有特征点的坐标,那么围绕这些点计算得到合成特征图上的点为:
ƒ
表示聚集函数,能对特征块进行自适应平均池化感受域上的图像块特征集合表示为:s为步长参数,h
*
与w
*
表示聚集函数平滑后的长、宽。可以理解为所有训练样本上的像素块,计算了以点为中心的领域点集得到特征值,并将所有特征值集合存放,公式上表示为:当前存储集m太大,在使用过程中消耗太大,需要找到代表性的核心集mc代替m,本实施例在此基础上改进,综合考虑引入余弦相似性度量距离,计算m中每一点m到子集mc的距离,并最终求得距离集合m最近的集合m
c*
公式表达为:
公式首先定义该点到集合内所有点的最小余弦距离,然后max是指在m中找到距离mc最大的点,最终得到距离集合m
c*
作为当前已标记数据的核心集,m代表特征集合m中特征点,n代表要求取特征子集mc的特征点。
40.对于计算新进入的样本x
test
,经过backbone得到样本特征m
test
,和上面的过程一样,求集合p(x
test
)到集合m的距离,标记距离的两个点为m
test,*
∈p(x
test
),m
*
∈m,计算过程表示为:表示为:即,s
*
代表初步的异常分数,新进入的样本数据到集合m的距离。
41.最后计算分数,相当于计算了一个softmax函数得到最终异常分数s:本实施例对于邻域的搜索可以采用多种算法进行加速计算,旨在计算相似性分数作为训练数据集的多样性查询依据,但仍需要人为划定分数阈值对满足条件的样本进行选择。
42.参照图6所示为本发明另一实施例提供的一种基于缺陷信息查询的训练与标注并行协同装置的结构示意图。
43.在本实施例中,该装置60包括:获取单元61,用于获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集;初始化单元62,用于将所述已标注数据集作为模型初始化的训练数据集,训练得
到检测模型以及查询网络;粗筛单元63,用于通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本;细筛单元64,用于将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到k个样本;更新单元65,用于对所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;迭代单元66,用于继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。
44.该装置60的各个单元模块可分别执行上述基于缺陷信息查询的训练与标注并行协同方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
45.本发明实施例还提供一种基于缺陷信息查询的训练与标注并行协同设备,该设备包括如上所述的基于缺陷信息查询的训练与标注并行协同装置,其中,基于缺陷信息查询的训练与标注并行协同装置可以采用图6实施例的结构,其对应地,可以执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参见上述实施例中的相关记载,此处不再赘述。
46.该设备包括:手机、数码相机或平板电脑等具有拍照功能的设备,或者具有图像处理功能的设备,或者具有图像显示功能的设备。所述设备可包括存储器、处理器、输入单元、显示单元、电源等部件。
47.其中,存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器和输入单元对存储器的访问。
48.输入单元可用于接收输入的数字或字符或图像信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,本实施例的输入单元除了包括摄像头,还可包括触敏表面(例如触摸显示屏)以及其他输入设备。
49.显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板,可选的,可以采用lcd(liquid crystal display,液晶显示器)、oled(organiclight-emitting diode,有机发光二极管)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器以确定触摸事件的类型,随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。
50.本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入设
备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现图1所示的基于缺陷信息查询的训练与标注并行协同方法。所述计算机可读存储介质可以是只读存储器,磁盘或光盘等。
51.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
52.并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
53.上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
技术特征:
1.一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,所述方法包括:获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集;将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本;将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到k个样本;对所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。2.根据权利要求1所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,所述通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本,包括:通过批查询模块对所述未标注数据集进行查询批数据分布差异以及批内的信息量,得到多批次数据样本。3.根据权利要求1所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,所述检测模型包括骨干网络以及功能网络;所述将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到k个样本,包括:通过所述骨干网络对所述第一批次样本进行样本特征的提取;将所述样本特征以及通过所述功能网络提取的投影特征进行拼接后输入至所述查询网络;将所述查询网络输出的综合不确定性度量分数以及所述检测模型的预测结果进行加权输出,得到所述k个样本。4.根据权利要求3所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,基于所述训练数据集建立目标域核心集;在所述通过所述骨干网络对所述第一批次样本进行样本特征的提取之后,包括:根据所述目标域核心集对所述样本特征进行计算相似性分数。5.根据权利要求4所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,所述根据所述目标域核心集对所述样本特征进行计算相似性分数,包括:根据所述目标域核心集的核心集特征与每一所述样本特征进行余弦相似性距离的计算,得到相似性分数。6.根据权利要求1所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征在于,所述对所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新,包括:判断所述k个样本的度量分数是否达到预设分数阈值,若是则将所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;否则将所述k个样本返回至未标注数据集。7.根据权利要求1所述的一种基于缺陷信息查询的训练与标注并行协同方法,其特征
在于,所述查询网络基于cnn网络进行构建;所述查询网络的网络结构包括卷积、csp模块、通道注意力机制以及非对称金字塔非局部块体。8.一种基于缺陷信息查询的训练与标注并行协同装置,其特征在于,所述装置包括:获取单元,用于获取具有图像缺陷信息的少量的已标注数据集以及大量的未标注数据集;初始化单元,用于将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;粗筛单元,用于通过批查询模块对所述未标注数据集进行样本粗筛,得到多批次数据样本;细筛单元,用于将所述多批次数据样本中的第一批次样本输入所述检测模型进行特征信息的提取后输入至所述查询网络进行样本细筛,得到k个样本;更新单元,用于对所述k个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;迭代单元,用于继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。9.一种基于缺陷信息查询的训练与标注并行协同设备,其特征在于,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序被所述处理器执行以实现如权利要求1至7任意一项所述的一种基于缺陷信息查询的训练与标注并行协同方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至7任意一项所述的一种基于缺陷信息查询的训练与标注并行协同方法的步骤。
技术总结
本发明公开了一种训练与标注的并行协同方法、装置及设备,其包括:获取少量的已标注数据集以及大量的未标注数据集;将所述已标注数据集作为模型初始化的训练数据集,训练得到检测模型以及查询网络;通过批查询模块对未标注数据集进行样本粗筛,得到多批次数据样本;将多批次数据样本中的第一批次样本输入检测模型进行特征信息的提取后输入至查询网络进行样本细筛,得到K个样本;对所述K个样本进行标注后输入所述训练数据集中进行所述检测模型的更新;继续筛选所述多批次数据样本中的第二批次样本进行下一次迭代,直至达到所述检测模型的检测性能或标注成本上限。实现快速筛选有价值的数据,并且能高效完成模型的构建并达到业务的需求性能。业务的需求性能。业务的需求性能。
技术研发人员:陈宇 叶德俊
受保护的技术使用者:厦门微图软件科技有限公司
技术研发日:2023.05.23
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:保护测量回路误差评估方法与流程 下一篇:一种高光谱图像的异常目标检测方法和装置
