模型生成方法、图像处理方法、装置以及电子设备与流程

未命名 09-17 阅读:120 评论:0


1.本技术涉及计算机技术领域,更具体地,涉及一种模型生成方法、图像处理方法、装置以及电子设备。


背景技术:

2.随着图像处理的不断发展,抠图(image matting)技术开始被广泛应用。在相关方式中,可以通过matting数据集对待训练抠图模型进行训练,得到抠图模型,以通过抠图模型对图像进行抠图处理。但在相关方式中,抠图模型的抠图灵活性还有待提高。


技术实现要素:

3.鉴于上述问题,本技术提出了一种模型生成方法、图像处理方法、装置以及电子设备,以实现改善上述问题。
4.第一方面,本技术提供了一种模型生成方法,所述方法包括:基于第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,所述第一训练数据集包括多张主体图像,以及所述多张主体图像各自的第一标注信息;基于第二训练数据集和第二损失函数对待训练分类模型进行训练,得到目标分类模型,其中,所述第二训练数据集包括与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息,所述待训练分类模型包括分类网络和所述低分辨率抠图模型的编码网络;基于所述第一训练数据集和第三损失函数对待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述待训练分类抠图模型包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。
5.第二方面,本技术提供了一种图像处理方法,所述方法包括:获取待抠图图像;将所述待抠图图像输入目标分类抠图模型中,得到所述待抠图图像的抠图结果,所述目标分类抠图模型为基于上述方法得到。
6.第三方面,本技术提供了一种模型生成装置,所述装置包括:模型生成单元,用于基于第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,所述第一训练数据集包括多张主体图像,以及所述多张主体图像各自的第一标注信息;基于第二训练数据集和第二损失函数对待训练分类模型进行训练,得到目标分类模型,其中,所述第二训练数据集包括与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息,所述待训练分类模型包括分类网络和所述低分辨率抠图模型的编码网络;基于所述第一训练数据集和第三损失函数对待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述待训练分类抠图模型包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。
7.第四方面,本技术提供了一种图像处理装置,所述装置包括:待抠图图像获取单元,用于获取待抠图图像;抠图结果获取单元,用于将所述待抠图图像输入目标分类抠图模型中,得到所述待抠图图像的抠图结果,所述目标分类抠图模型为基于上述方法得到。
8.第五方面,本技术提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
9.第六方面,本技术提供的一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
10.本技术提供的一种模型生成方法、图像处理方法、装置、电子设备以及存储介质,在基于包括多张主体图像,以及所述多张主体图像各自的第一标注信息第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型后,基于与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息的第二训练数据集和第二损失函数对包括分类网络和所述低分辨率抠图模型的编码网络的待训练分类模型进行训练,得到目标分类模型,基于所述第一训练数据集和第三损失函数对包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块的待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。通过上述方式使得,可以先通过训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,再通过训练数据集和第二损失函数对包含有低分辨率抠图模型的编码网络的待训练分类模型进行训练,得到目标分类模型,然后通过训练数据集和第三损失函数对包含有低分辨率抠图模型的编码网络、解码网络以及目标分类模型的分类网络的待训练分类抠图模型进行训练,得到目标分类抠图模型,从而使得目标分类抠图模型可以针对不同类型的图像,输出不同分辨率的输出结果,进而提高了目标分类抠图模型的抠图灵活性,以便目标分类抠图模型的输出结果可以满足不同场景、任务下的分辨率需求。
附图说明
11.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附获得其他的附图。
12.图1示出了本技术实施例提出的一种模型生成方法的流程图;
13.图2示出了本技术提出的一种待训练抠图模型的示意图;
14.图3示出了本技术提出的一种待训练分类模型的示意图;
15.图4示出了本技术图1中s130的一种实施例方式的流程图;
16.图5示出了本技术提出的一种待训练分类抠图模型的示意图;
17.图6示出了本技术实施例提出的一种图像处理方法的流程图;
18.图7示出了本技术实施例提出的一种模型生成装置的结构框图;
19.图8示出了本技术实施例提出的一种图像处理装置的结构框图;
20.图9示出了本技术提出的一种电子设备的结构框图;
21.图10是本技术实施例的用于保存或者携带实现根据本技术实施例的模型生成方法、图像处理方法的程序代码的存储单元。
具体实施方式
22.下面将结合本技术实施例中的附,对本技术实施例中的技术方案进行清楚、完整地描述。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
23.随着人工智能技术的不断发展,抠图开始成为是计算机视觉领域的一项重要任务。抠图技术可以用于将待处理图像切分成前景和背景两部分,并把前景部分的内容提取出来,其中,前景部分的内容可以被称为主体,也就是需要获取的内容,并且不同的抠图任务对应的主体也可以存在不同。例如,在一张待处理图像中可以包含人、动物、树木等,当抠图任务为人像抠图时,主体可以为人;当抠图任务为动物抠图时,主体可以为动物。
24.但是,发明人在对相关研究中发现,相关方式的抠图灵活性还有待提高。
25.因此,发明人提出了本技术中的一种模型生成方法、图像处理方法、装置以及电子设备,在基于包括多张主体图像,以及所述多张主体图像各自的第一标注信息第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型后,基于与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息的第二训练数据集和第二损失函数对包括分类网络和所述低分辨率抠图模型的编码网络的待训练分类模型进行训练,得到目标分类模型,基于所述第一训练数据集和第三损失函数对包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块的待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。通过上述方式使得,可以先通过训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,再通过训练数据集和第二损失函数对包含有低分辨率抠图模型的编码网络的待训练分类模型进行训练,得到目标分类模型,然后通过训练数据集和第三损失函数对包含有低分辨率抠图模型的编码网络、解码网络以及目标分类模型的分类网络的待训练分类抠图模型进行训练,得到目标分类抠图模型,从而使得目标分类抠图模型可以针对不同类型的图像,输出不同分辨率的输出结果,进而提高了目标分类抠图模型的抠图灵活性,以便目标分类抠图模型的输出结果可以满足不同场景、任务下的分辨率需求。
26.下面将结合附来对本技术中的实施例进行说明。
27.请参阅图1,本技术实施例提供的一种模型生成方法,所述方法包括:
28.s110:基于第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,所述第一训练数据集包括多张主体图像,以及所述多张主体图像各自的第一标注信息。
29.其中,主体图像可以指包含有主体的图像。第一标注信息可以包括多张真值掩膜图像,真值掩膜图像可以为灰度图像,灰度图像可以指像素值范围为0~255的图像,使得灰度图像可以表示对应主体图像中主体的每个像素点的像素值大小,以及区分对应主体图像中的主体和背景。
30.在本技术实施例中,待训练抠图模型可以为用于抠图的深度学习模型,待训练抠图模型可以包含编码网络和解码网络,编码网络中可以包含多个编码器(encoder),解码网络中可以包含多个解码器(decoder)。例如,待训练抠图模型可以为u2net模型等。
31.作为一种方式,如图2所示,可以对多张真值掩模图像进行降分辨率处理,得到多张低分辨率真值掩模图像;将多张主体图像输入待训练抠图模型,得到与多张主体图像一一对应的多张第一预测掩膜图像;基于多张低分辨率真值掩模图像、多张第一预测掩膜图像和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,其中,第一损失函数可以用于缩小多张低分辨率真值掩膜图像与多张第一预测掩膜图像每个像素之间的像素值差异。
32.其中,第一损失函数可以为回归损失函数,如l1loss,第一损失函数的计算公式可以为:
33.l1=1/n∑|x
i-yi|
34.其中,n可以表示主体图像的数量,xi可以表示第一预测掩膜图像,yi可以表示低分辨率真值掩膜图像。
35.可选的,由于将主体图像输入待训练抠图模型后,得到低分辨率真值掩模图像的分辨率会小于真值掩膜图像,因此,为了便于损失函数的计算,可以通过下采样的方式(例如,采用opencv中的cv2.pyrdown()等)对多张真值掩模图像进行降分辨率处理,得到多张低分辨率真值掩模图像,从而使低分辨率真值掩模图像的分辨率可以与第一预测掩膜图像的分辨率相同。
36.可选的,可以基于从网络中下载开源的抠图数据集和/或根据任务需求构建的抠图数据集得到第一训练数据集。示例性的,第一训练数据集可以有50万左右张主体图像,其中,主体图像可以来自开源的抠图数据集,也可以来自根据任务需求构建的抠图数据集。
37.s120:基于第二训练数据集和第二损失函数对待训练分类模型进行训练,得到目标分类模型,其中,所述第二训练数据集包括与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息,所述待训练分类模型包括分类网络和所述低分辨率抠图模型的编码网络。
38.其中,第二标注信息可以包括多张主体图像各自对应的真实类别标签,例如,人、动物、植物等。
39.作为一种方式,如图3所示,可以将多张主体图像输入低分辨率抠图模型的编码网络,得到与多张主体图像一一对应的多张特征图;将多张特征图输入分类网络,得到多张主体图像各自对应的预测信息;基于多张主体图像各自对应的真实类别标签、多张主体图像各自对应的预测信息、第二损失函数对分类网络进行训练,得到目标分类模型,第二损失函数可以用于缩小多张主体图像各自对应的真实类别标签与多张主体图像各自对应的预测信息之间的差异。
40.其中,分类网络可以包括至少一个卷积层和至少一个全连接层。例如,分类网络可以包括5个尺寸为3*3的卷积层和一个全连接(fully connected ayer,fc)层。
41.其中,预测信息可以包括预测概率数组和预测类别标签,每张主体图像的预测概率数组中可以包含该主体图像被预测为对应类别的概率值。
42.可选的,将多张特征图输入分类网络,得到多张主体图像各自对应的预测概率数
组,每张主体图像的预测概率数组中可以包含该主体图像被预测为对应类别的概率值,将概率值最大的类别作为该主体图像的预测类别。
43.示例性的,每张主体图像的真实类别标签可以0或1,其中,1可以表示类别为人,0可以表示类别为非人,主体图像的预测概率数组可以为[0.85,0.15],则可以表示该主体图像被预测为人的概率值为0.85,被预测为非人的概率值为0.15,进一步地,可以表示该主体图像的预测类别标签可以为1。
[0044]
其中,第二损失函数可以为分类损失函数,如,交叉熵损失函数(cross entropy loss),当多张主体图像的真实类别标签总共为两类时,第二损失函数的计算公式可以为:
[0045][0046]
其中,n可以表示主体图像的数量,yi可以表示第i张主体图像的真实类别标签,pi可以表示预测为真实类别标签的概率。
[0047]
当多张主体图像的真实类别标签至少有三类时,每张主体图像的真实类别标签可以为独热(one-hot)编码,例如,每张主体图像的真实类别可以为人或猫或狗,当主体图像的真实类别标签为[0 0 1]时,可以表示该主体图像的真实类别为狗。此时,第二损失函数的计算公式可以为:
[0048][0049]
其中,n可以表示主体图像的数量,k可以表示主体图像的真实类别标签的总数,y
i,j
可以表示第i张主体图像在标签j下的编码值,p
i,j
可以表示第i张主体图像的预测类别标签为j的概率。
[0050]
需要说明的是,在对待训练分类模型进行训练的过程中,编码网络的网络参数(如权重等)不会发生改变,仅对分类网络进行参数更新。也就是说,在对待训练分类模型进行训练时,需要将编码网络进行冻结,仅训练分类网络。
[0051]
在本技术实施例中,通过冻结编码网络,仅训练分类网络的方式,可以使目标分类模型中的编码网络仍然可以保留低分辨率抠图模型时期的对主体图像进行特征提取的能力,同时使分类网络具备准确预测主体图像类别的能力。
[0052]
s130:基于所述第一训练数据集和第三损失函数对待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述待训练分类抠图模型包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。
[0053]
其中,待训练分类抠图模型还可以包括上采样网络,上采样网络可以为用于提高图像分辨率的网络。在本技术实施例中,上采样网络可以有多种实施方式。
[0054]
作为一种方式,上采样网络可以是pixelshuffle(sub-pixel convolutional neural network,像素重组)网络。pixelshuffle可以将一个低分辨率像素划分为r
×
r份,默认是由特征图对应像素位置的r2个特征像素组成一个低分辨率像素,在组成的过程中可
以通过不断优化每组组合的权重来达到最好的上采样效果。pixelshuffle网络可以先对尺寸为h
×w×
c]的低分辨率图像(input)进行多个卷积操作,得到尺寸为h
×w×
(c
×
r2)的特征图,r可以指设置的期望上采样倍数;然后对特征图做shuffle变换获得一张尺寸为h
×
(w
×
r)
×
(c
×
r)的超分辨率图像(output)。
[0055]
作为另一种方式,上采样网络可以包括至少一个反卷积(转置卷积)层
[0056]
作为再一种方式,上采样网络可以包括至少一个反池化层(unpooling)。
[0057]
作为一种方式,如图4所示,基于所述第一训练数据集和第三损失函数对待训练分类抠图模型进行训练,得到目标分类抠图模型,包括:
[0058]
s131:将所述多张主体图像输入所述编码网络,得到与所述多张主体图像一一对应的多张特征图。
[0059]
作为一种方式,可以将多张主体图像分别输入编码网络,得到与多张主体图像一一对应的多张特征图。
[0060]
需要说明的是,在对待训练分类抠图模型进行训练的过程中,编码网络的网络参数(如权重等)不会发生改变。也就是说,在对待训练分类抠图模型进行训练时,需要将编码网络进行冻结。
[0061]
在本技术实施例中,通过冻结编码网络,仅训练分类网络的方式,可以使目标分类模型中的编码网络仍然可以保留低分辨率抠图模型时期的对主体图像进行特征提取的能力,同时使分类网络具备准确预测主体图像类别的能力。
[0062]
s132:将所述多张特征图输入所述分类网络,得到多张主体图像各自对应的预测类别。
[0063]
作为一种方式,如图5所示,可以将多张特征图输入分类网络,得到多张主体图像各自对应的预测概率数组,每张主体图像的预测概率数组中可以包含该主体图像被预测为对应类别的概率值,将概率值最大的类别作为该主体图像的预测类别。
[0064]
需要说明的是,在对待训练分类抠图模型进行训练的过程中,分类网络的网络参数(如权重等)不会发生改变。也就是说,在对待训练分类抠图模型进行训练时,需要将分类网络进行冻结。
[0065]
s133:将所述多张特征图输入所述解码网络,得到与所述多张主体图像一一对应的多张第二预测掩膜图像。
[0066]
作为一种方式,可以将多张特征图输入解码网络,得到与多张主体图像一一对应的多张第二预测掩膜图像。
[0067]
需要说明的是,在对待训练分类抠图模型进行训练的过程中,解码网络的网络参数(如权重等)不会发生改变。也就是说,在对待训练分类抠图模型进行训练时,需要将解码网络进行冻结。
[0068]
再者,需要说明的是,步骤s132与步骤s133之前没有明确的前后顺序,二者可以同时执行,也可以不同时执行。
[0069]
s134:将所述多张主体图像各自对应的预测类别和所述多张第二预测掩膜图像输入所述判断模块,得到目标主体图像,所述目标主体图像为对应的预测类别被所述判断模块确定为属于目标类别的主体图像。
[0070]
其中,目标类别可以指对应的第二预测掩膜图像需要进行提高分辨率处理的类
别,示例性的,可以将目标类别设置为人。提高目标类别的第二预测掩膜图像的分辨率,可以提高目标类别的主体图像的抠图效果,例如,在主体边缘部分的会更加清晰,扣出更多的细节。
[0071]
判断模块可以通过条件语句实现,当主体图像的预测类别为目标类别时,可以确定该主体图像为目标主体图像,并将该主体图像输入上采样网络;当主体图像的预测类别不为目标类别时,可以确定该主体图像不为目标主体图像,并将该主体图像直接进行输出。
[0072]
作为一种方式,可以将多张主体图像各自对应的预测类别和多张第二预测掩膜图像输入判断模块,将预测类别与目标类别相同的主体图像作为目标主体图像。
[0073]
示例性的,目标类别可以为人,主体图像的预测类别可以为人,则该主体图像为目标主体图像。
[0074]
在本技术实施例中,目标类别可以包括多个目标子类别,上采样网络可以包括多个上采样子网络,每个上采样子网络可以用于输出对应目标子类别的输出结果,每个目标子类别的输出结果的分辨率不同。
[0075]
作为一种方式,可以将多张主体图像各自对应的预测类别和多张第二预测掩膜图像输入判断模块,得到目标主体图像,目标主体图像可以为对应的预测类别被判断模块确定为属于多个目标子类别中的任一一个目标子类别的主体图像。
[0076]
s135:将所述目标主体图像对应的第二预测掩膜图像输入上采样网络,得到第三预测掩膜图像,所述第三预测掩膜图像的分辨率高于所述第二预测掩膜图像。
[0077]
作为一种方式,当目标主体图像的预测类别相同时,也就是目标类别仅包括一个类别时,可以将目标主体图像对应的第二预测掩膜图像输入上采样网络,得到第三预测掩膜图像。
[0078]
作为一种方式,当目标主体图像的预测类别不同时,也就是目标类别包括多个类别时,可以将目标主体图像对应的第二预测掩膜图像输入对应的上采样子网络,得到第三预测掩膜图像。
[0079]
示例性的,多个目标子类别可以包括人、动物,人对应的上采样子网络可以将输入图像的分辨率变为原来的4倍,动物对应的上采样子网络可以将输入图像的分辨率变为原来的2倍,从而使得预测类别为人的目标主体图像的第三预测掩膜图像是对应的第二预测掩膜图像的分辨率的4倍,预测类别为动物的目标主体图像的第三预测掩膜图像是对应的第二预测掩膜图像的分辨率的2倍。
[0080]
作为一种方式,当主体图像不为目标图像时,可以直接将第二预测掩膜图像作为第三掩膜图像。
[0081]
s136:基于所述第三预测掩膜图像、与所述第三预测掩膜图像对应的真值掩膜图像和所述第三损失函数对所述上采样网络进行训练,得到所述目标分类抠图模型,其中,所述第三损失函数用于缩小所述第三预测掩膜图像与对应的真值掩膜图像中每个像素之间的像素值差异。
[0082]
作为一种方式,可以先获取目标掩膜图像,目标掩膜图像可以为基于第三预测掩膜图像对应的真值掩膜图像得到的与第三预测掩膜图像分辨率相同的图像;基于第三预测掩膜图像、目标掩膜图像和第三损失函数对上采样网络进行训练,得到目标分类抠图模型。
[0083]
其中,第三损失函数可以为回归损失函数,如mse(mean square error,)loss,第
一损失函数的计算公式可以为:
[0084]
k3=1/n∑(x
i-yi)2[0085]
其中,n可以表示目标主体图像的数量,xi可以表示第三预测掩膜图像,yi可以表示目标掩膜图像。
[0086]
可选的,可以将第三预测掩膜图像对应的真值掩膜图像进行降分辨率或者提高分辨率处理,得到目标掩膜图像。
[0087]
在本技术实施例中,通过冻结编码网络、解码网络、分类网络,仅训练上采样网络的方式,可以使目标分类抠图模型中的编码网络仍然可以保留低分辨率抠图模型时期的对主体图像进行特征提取的能力;使解码网络仍然可以保留低分辨率抠图模型时期的对主体图像进行特征提取的能力;使分类网络同时使分类网络仍然可以保留目标分类模型时期的对主体图像进行分类的能力,同时,使上采样网络具备提高目标类别的第三预测掩膜图像的分辨率的能力。
[0088]
并且,通过设置上采样网络,可以使不同类别的主体图像得到不同分辨率的第三预测掩膜图像,从而可以满足不同场景、不同任务下的抠图需求。
[0089]
本实施例提供的一种模型生成方法,在基于包括多张主体图像,以及所述多张主体图像各自的第一标注信息第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型后,基于与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息的第二训练数据集和第二损失函数对包括分类网络和所述低分辨率抠图模型的编码网络的待训练分类模型进行训练,得到目标分类模型,基于所述第一训练数据集和第三损失函数对包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块的待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。通过上述方式使得,可以先通过训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,再通过训练数据集和第二损失函数对包含有低分辨率抠图模型的编码网络的待训练分类模型进行训练,得到目标分类模型,然后通过训练数据集和第三损失函数对包含有低分辨率抠图模型的编码网络、解码网络以及目标分类模型的分类网络的待训练分类抠图模型进行训练,得到目标分类抠图模型,从而使得目标分类抠图模型可以针对不同类型的图像,输出不同分辨率的输出结果,进而提高了目标分类抠图模型的抠图灵活性,以便目标分类抠图模型的输出结果可以满足不同场景、任务下的分辨率需求。
[0090]
请参阅图6,本技术实施例提供的一种图像处理方法,所述方法包括:
[0091]
s210:获取待抠图图像。
[0092]
作为一种方式,可以通过图像采集设备(如相机、摄像头、手机等)获取待抠图图像。
[0093]
s220:将所述待抠图图像输入目标分类抠图模型中,得到所述待抠图图像的抠图结果,所述目标分类抠图模型为基于权利要求1-6任一所述方法得到。
[0094]
作为一种方式,可以将待抠图图像输入目标分类抠图模型中,得到待抠图图像的掩膜图像;基于所述待抠图图像和所述掩膜图像,得到所述抠图结果。
[0095]
其中,目标分类抠图模型可以包括编码网络、解码网络、分类网络、判断模块和上
采样网络。
[0096]
可选的,可以将多张主体图像输入编码网络,得到与多张主体图像一一对应的多张特征图;将多张特征图输入分类网络,得到多张主体图像各自对应的预测类别;将多张特征图输入解码网络,得到与多张主体图像一一对应的多张参考预测掩膜图像;将多张主体图像各自对应的预测信息和多张参考预测掩膜图像输入判断模块,若基于判断模块确定预测类别为目标类别,可以将参考预测掩膜图像输入上采样网络,得到掩膜图像;若基于判断模块确定预测类别不为目标类别,可以将参考预测掩膜图像作为掩膜图像。
[0097]
可选的,可以将掩膜图像和待抠图图像中相同位置的像素值相乘,得到抠图结果。示例性的,抠图结果可以如图3所示。
[0098]
本实施例提供的一种图像处理方法,通过上述方式使得,可以将待抠图图像输入基于包含判断模块和上采样网络的目标抠图模型,从而可以针对不同类型的待抠图图像,输出不同分辨率的输出结果,提高了目标分类抠图模型的抠图灵活性,以便目标分类抠图模型的输出结果可以满足不同场景、任务下的分辨率需求。
[0099]
请参阅图7,本技术提供的一种模型生成装置600,所述装置600包括:
[0100]
模型生成单元610,用于基于第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,所述第一训练数据集包括多张主体图像,以及所述多张主体图像各自的第一标注信息;基于第二训练数据集和第二损失函数对待训练分类模型进行训练,得到目标分类模型,其中,所述第二训练数据集包括与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息,所述待训练分类模型包括分类网络和所述低分辨率抠图模型的编码网络;基于所述第一训练数据集和第三损失函数对待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述待训练分类抠图模型包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。
[0101]
作为一种方式,所述第一标注信息包括多张真值掩膜图像,模型生成单元610具体用于对所述多张真值掩模图像进行降分辨率处理,得到多张低分辨率真值掩模图像;将所述多张主体图像输入所述待训练抠图模型,得到与所述多张主体图像一一对应的多张第一预测掩膜图像;基于所述多张低分辨率真值掩模图像、所述多张第一预测掩膜图像和所述第一损失函数对所述待训练抠图模型进行训练,得到所述低分辨率抠图模型,其中,所述第一损失函数用于缩小所述多张低分辨率真值掩膜图像与所述多张第一预测掩膜图像每个像素之间的像素值差异。
[0102]
作为一种方式,所述第二标注信息包括所述多张主体图像各自对应的真实类别标签,模型生成单元610具体用于将所述多张主体图像输入所述编码网络,得到与所述多张主体图像一一对应的多张特征图;将所述多张特征图输入所述分类网络,得到多张主体图像各自对应的预测信息;基于所述多张主体图像各自对应的真实类别标签、所述多张主体图像各自对应的预测信息、所述第二损失函数对所述分类网络进行训练,得到所述目标分类模型,所述第二损失函数用于缩小所述多张主体图像各自对应的真实类别标签与所述多张主体图像各自对应的预测信息之间的差异。
[0103]
作为一种方式,所述待训练分类抠图模型还包括上采样网络,所述第一标注信息
包括多张真值掩膜图像,模型生成单元610具体用于将所述多张主体图像输入所述编码网络,得到与所述多张主体图像一一对应的多张特征图;将所述多张特征图输入所述分类网络,得到多张主体图像各自对应的预测类别;将所述多张特征图输入所述解码网络,得到与所述多张主体图像一一对应的多张第二预测掩膜图像;将所述多张主体图像各自对应的预测类别和所述多张第二预测掩膜图像输入所述判断模块,得到目标主体图像,所述目标主体图像为对应的预测类别被所述判断模块确定为属于目标类别的主体图像;将所述目标主体图像对应的第二预测掩膜图像输入上采样网络,得到第三预测掩膜图像,所述第三预测掩膜图像的分辨率高于所述第二预测掩膜图像;基于所述第三预测掩膜图像、与所述第三预测掩膜图像对应的真值掩膜图像和所述第三损失函数对所述上采样网络进行训练,得到所述目标分类抠图模型,其中,所述第三损失函数用于缩小所述第三预测掩膜图像与对应的真值掩膜图像中每个像素之间的像素值差异。
[0104]
可选的,所述目标类别包括多个目标子类别,所述上采样网络包括多个上采样子网络,每个所述上采样子网络用于输出对应目标子类别的输出结果,每个所述目标子类别的输出结果的分辨率不同,模型生成单元610具体用于将所述多张主体图像各自对应的预测类别和所述多张第二预测掩膜图像输入所述判断模块,得到目标主体图像,所述目标主体图像为对应的预测类别被所述判断模块确定为属于所述多个目标子类别中的任一一个目标子类别的主体图像;将所述目标主体图像对应的第二预测掩膜图像输入对应的上采样子网络,得到所述第三预测掩膜图像。
[0105]
可选的,模型生成单元610具体用于获取目标掩膜图像,所述目标掩膜图像为基于所述第三预测掩膜图像对应的真值掩膜图像得到的与所述第三预测掩膜图像分辨率相同的图像;基于所述第三预测掩膜图像、所述目标掩膜图像和所述第三损失函数对所述上采样网络进行训练,得到所述目标分类抠图模型。
[0106]
请参阅图8,本技术提供的一种图像处理装置800,所述装置800包括:
[0107]
待抠图图像获取单元810,用于获取待抠图图像。
[0108]
抠图结果获取单元820,用于将所述待抠图图像输入目标分类抠图模型中,得到所述待抠图图像的抠图结果,所述目标分类抠图模型为基于权利要求1-6任一所述方法得到。
[0109]
作为一种方式,抠图结果获取单元820具体用于将所述待抠图图像输入所述目标分类抠图模型中,得到所述待抠图图像的掩膜图像;基于所述待抠图图像和所述掩膜图像,得到所述抠图结果。
[0110]
可选的,所述目标分类抠图模型包括编码网络、解码网络、分类网络、判断模块和上采样网络,抠图结果获取单元820具体用于将所述多张主体图像输入所述编码网络,得到与所述多张主体图像一一对应的多张特征图;将所述多张特征图输入所述分类网络,得到多张主体图像各自对应的预测类别;将所述多张特征图输入所述解码网络,得到与所述多张主体图像一一对应的多张参考预测掩膜图像;将所述多张主体图像各自对应的预测类别和所述多张参考预测掩膜图像输入所述判断模块,若基于所述判断模块确定所述预测类别为目标类别,将所述参考预测掩膜图像输入所述上采样网络,得到所述掩膜图像;若基于所述判断模块确定所述预测类别不为所述目标类别,将所述参考预测掩膜图像作为所述掩膜图像。
[0111]
下面将结合图9对本技术提供的一种电子设备进行说明。
[0112]
请参阅图9,基于上述的模型生成方法、图像处理方法、装置,本技术实施例还提供的另一种可以执行前述模型生成方法、图像处理方法的电子设备100。电子设备100包括相互耦合的一个或多个(中仅示出一个)处理器102、存储器104。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
[0113]
其中,处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器102可集成中央处理器(central processing unit,cpu)、像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。
[0114]
存储器104可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
[0115]
请参考图10,其示出了本技术实施例提供的一种计算机可读存储介质的结构框。该计算机可读存储介质1000中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
[0116]
计算机可读存储介质1000可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质1000包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1000具有执行上述方法中的任何方法步骤的程序代码1010的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1010可以例如以适当形式进行压缩。
[0117]
综上所述,本技术提供的一种模型生成方法、图像处理方法、装置以及电子设备,在基于包括多张主体图像,以及所述多张主体图像各自的第一标注信息第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型后,基于与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息的第二训练数据集和第二损失函数对包括分类网络和所述低分辨率抠图模型的编码网络的待训练分类模型进行训练,得到目标分类模型,基于所述第一训练数据集和第三损失函数对包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块的待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。通过上述方式使得,可以先通过训练数据集和第一损失函数对待训练抠图模型进
行训练,得到低分辨率抠图模型,再通过训练数据集和第二损失函数对包含有低分辨率抠图模型的编码网络的待训练分类模型进行训练,得到目标分类模型,然后通过训练数据集和第三损失函数对包含有低分辨率抠图模型的编码网络、解码网络以及目标分类模型的分类网络的待训练分类抠图模型进行训练,得到目标分类抠图模型,从而使得目标分类抠图模型可以针对不同类型的图像,输出不同分辨率的输出结果,进而提高了目标分类抠图模型的抠图灵活性,以便目标分类抠图模型的输出结果可以满足不同场景、任务下的分辨率需求。
[0118]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征:
1.一种模型生成方法,其特征在于,所述方法包括:基于第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,所述第一训练数据集包括多张主体图像,以及所述多张主体图像各自的第一标注信息;基于第二训练数据集和第二损失函数对待训练分类模型进行训练,得到目标分类模型,其中,所述第二训练数据集包括与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息,所述待训练分类模型包括分类网络和所述低分辨率抠图模型的编码网络;基于所述第一训练数据集和第三损失函数对待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述待训练分类抠图模型包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。2.根据权利要求1所述的方法,其特征在于,所述第一标注信息包括多张真值掩膜图像,所述基于第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,包括:对所述多张真值掩模图像进行降分辨率处理,得到多张低分辨率真值掩模图像;将所述多张主体图像输入所述待训练抠图模型,得到与所述多张主体图像一一对应的多张第一预测掩膜图像;基于所述多张低分辨率真值掩模图像、所述多张第一预测掩膜图像和所述第一损失函数对所述待训练抠图模型进行训练,得到所述低分辨率抠图模型,其中,所述第一损失函数用于缩小所述多张低分辨率真值掩膜图像与所述多张第一预测掩膜图像每个像素之间的像素值差异。3.根据权利要求1所述的方法,其特征在于,所述第二标注信息包括所述多张主体图像各自对应的真实类别标签,所述基于第二训练数据集和第二损失函数对待训练分类模型进行训练,得到目标分类模型,包括:将所述多张主体图像输入所述编码网络,得到与所述多张主体图像一一对应的多张特征图;将所述多张特征图输入所述分类网络,得到多张主体图像各自对应的预测信息;基于所述多张主体图像各自对应的真实类别标签、所述多张主体图像各自对应的预测信息、所述第二损失函数对所述分类网络进行训练,得到所述目标分类模型,所述第二损失函数用于缩小所述多张主体图像各自对应的真实类别标签与所述多张主体图像各自对应的预测信息之间的差异。4.根据权利要求1所述的方法,其特征在于,所述待训练分类抠图模型还包括上采样网络,所述第一标注信息包括多张真值掩膜图像,所述基于所述第一训练数据集和第三损失函数对待训练分类抠图模型进行训练,得到目标分类抠图模型,包括:将所述多张主体图像输入所述编码网络,得到与所述多张主体图像一一对应的多张特征图;将所述多张特征图输入所述分类网络,得到多张主体图像各自对应的预测类别;
将所述多张特征图输入所述解码网络,得到与所述多张主体图像一一对应的多张第二预测掩膜图像;将所述多张主体图像各自对应的预测类别和所述多张第二预测掩膜图像输入所述判断模块,得到目标主体图像,所述目标主体图像为对应的预测类别被所述判断模块确定为属于目标类别的主体图像;将所述目标主体图像对应的第二预测掩膜图像输入上采样网络,得到第三预测掩膜图像,所述第三预测掩膜图像的分辨率高于所述第二预测掩膜图像;基于所述第三预测掩膜图像、与所述第三预测掩膜图像对应的真值掩膜图像和所述第三损失函数对所述上采样网络进行训练,得到所述目标分类抠图模型,其中,所述第三损失函数用于缩小所述第三预测掩膜图像与对应的真值掩膜图像中每个像素之间的像素值差异。5.根据权利要求4所述的方法,其特征在于,所述目标类别包括多个目标子类别,所述上采样网络包括多个上采样子网络,每个所述上采样子网络用于输出对应目标子类别的输出结果,每个所述目标子类别的输出结果的分辨率不同,所述将所述多张主体图像各自对应的预测类别和所述多张第二预测掩膜图像输入所述判断模块,得到目标主体图像,包括:将所述多张主体图像各自对应的预测类别和所述多张第二预测掩膜图像输入所述判断模块,得到目标主体图像,所述目标主体图像为对应的预测类别被所述判断模块确定为属于所述多个目标子类别中的任一一个目标子类别的主体图像;所述将所述目标主体图像对应的第二预测掩膜图像输入上采样网络,得到第三预测掩膜图像,包括:将所述目标主体图像对应的第二预测掩膜图像输入对应的上采样子网络,得到所述第三预测掩膜图像。6.根据权利要求5所述的方法,其特征在于,所述基于所述第三预测掩膜图像、与所述第三预测掩膜图像对应的真值掩膜图像和所述第三损失函数对所述上采样网络进行训练,得到所述目标分类抠图模型,包括:获取目标掩膜图像,所述目标掩膜图像为基于所述第三预测掩膜图像对应的真值掩膜图像得到的与所述第三预测掩膜图像分辨率相同的图像;基于所述第三预测掩膜图像、所述目标掩膜图像和所述第三损失函数对所述上采样网络进行训练,得到所述目标分类抠图模型。7.一种图像处理方法方法,其特征在于,所述方法包括:获取待抠图图像;将所述待抠图图像输入目标分类抠图模型中,得到所述待抠图图像的抠图结果,所述目标分类抠图模型为基于权利要求1-6任一所述方法得到。8.根据权利要求7所述的方法,其特征在于,所述将所述待抠图图像输入目标分类抠图模型中,得到所述待抠图图像的抠图结果,包括:将所述待抠图图像输入所述目标分类抠图模型中,得到所述待抠图图像的掩膜图像;基于所述待抠图图像和所述掩膜图像,得到所述抠图结果。9.根据权利要求8所述的方法,其特征在于,所述目标分类抠图模型包括编码网络、解码网络、分类网络、判断模块和上采样网络,所述将所述待抠图图像输入所述目标分类抠图
模型中,得到所述待抠图图像的输出结果,包括:将所述多张主体图像输入所述编码网络,得到与所述多张主体图像一一对应的多张特征图;将所述多张特征图输入所述分类网络,得到多张主体图像各自对应的预测类别;将所述多张特征图输入所述解码网络,得到与所述多张主体图像一一对应的多张参考预测掩膜图像;将所述多张主体图像各自对应的预测类别和所述多张参考预测掩膜图像输入所述判断模块,若基于所述判断模块确定所述预测类别为目标类别,将所述参考预测掩膜图像输入所述上采样网络,得到所述掩膜图像;若基于所述判断模块确定所述预测类别不为所述目标类别,将所述参考预测掩膜图像作为所述掩膜图像。10.一种模型生成装置,其特征在于,所述装置包括:模型生成单元,用于基于第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型,所述第一训练数据集包括多张主体图像,以及所述多张主体图像各自的第一标注信息;基于第二训练数据集和第二损失函数对待训练分类模型进行训练,得到目标分类模型,其中,所述第二训练数据集包括与所述第一训练数据集相同的多张主体图像,以及所述多张主体图像各自的第二标注信息,所述待训练分类模型包括分类网络和所述低分辨率抠图模型的编码网络;基于所述第一训练数据集和第三损失函数对待训练分类抠图模型进行训练,得到目标分类抠图模型,其中,所述待训练分类抠图模型包括所述编码网络、所述低分辨率抠图模型的解码网络、所述分类网络和判断模块,所述判断模块用于基于所述分类网络的分类结果确定所述目标分类抠图模型的输出结果,不同分类结果对应的输出结果的分辨率存在不同。11.一种图像处理装置,其特征在于,所述装置包括:待抠图图像获取单元,用于获取待抠图图像;抠图结果获取单元,用于将所述待抠图图像输入目标分类抠图模型中,得到所述待抠图图像的抠图结果,所述目标分类抠图模型为基于权利要求1-6任一所述方法得到。12.一种电子设备,其特征在于,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-9任一所述的方法。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行权利要求1-9任一所述的方法。

技术总结
本申请实施例公开了一种模型生成方法、图像处理方法、装置以及电子设备。该方法包括:基于第一训练数据集和第一损失函数对待训练抠图模型进行训练,得到低分辨率抠图模型;基于第二训练数据集和第二损失函数对待训练分类模型进行训练,得到目标分类模型;基于所述第一训练数据集和第三损失函数对待训练分类抠图模型进行训练,得到目标分类抠图模型。通过上述方式使得,可以通过多阶段训练得到目标分类抠图模型,从而使得目标分类抠图模型可以针对不同类型的图像,输出不同分辨率的输出结果,进而提高了目标分类抠图模型的抠图灵活性,以便目标分类抠图模型的输出结果可以满足不同场景、任务下的分辨率需求。任务下的分辨率需求。任务下的分辨率需求。


技术研发人员:王凡祎 张严浩 刘鹏
受保护的技术使用者:北京欧珀通信有限公司
技术研发日:2023.05.16
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐