抠图模型的训练方法、抠图方法、装置、设备及存储介质与流程

未命名 07-22 阅读:130 评论:0


1.本技术涉及图像处理技术领域,特别是涉及一种抠图模型的训练方法、抠图方法、装置、设备及存储介质。


背景技术:

2.图像分割是计算机视觉研究中的一个经典难题,已经成为图像理解领域关注的一个热点,图像分割是图像分析的第一步,是计算机视觉的基础,是图像理解的重要组成部分,同时也是图像处理中最困难的问题之一。所谓图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同。简单的说就是在一副图像中,把目标从背景中分离出来,俗称抠图。
3.主体抠图算法是一种基于显著性抠图技术,从输入图像中分割出主体目标的算法。然而,主体抠图小模型受限于自身的参数量,往往难以达到大模型的语义表征和信息提取能力,且无法兼顾泛化能力。


技术实现要素:

4.本技术第一方面提供了一种抠图模型的训练方法,包括:获取带标签的第一样本图像和无标签的第二样本图像,第一样本图像和第二样本图像均包括目标对象,标签为第一样本图像的抠图结果;基于第一样本图像和第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型。
5.本技术第二方面提供了一种抠图模型的训练装置,包括:获取模块,用于获取带标签的第一样本图像和无标签的第二样本图像,第一样本图像和第二样本图像均包括目标对象,标签为第一样本图像的抠图结果;训练模块,用于基于第一样本图像和第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型。
6.本技术第三方面提供了一种抠图方法,包括:获取待处理图像,待处理图像中包含目标对象;利用前述抠图模型的训练方法训练得到的抠图模型对待处理图像进行处理,得到抠图图像。
7.本技术第四方面提供了一种电子设备,一种抠图装置,包括:获取模块,用于获取待处理图像,待处理图像中包含目标对象;抠图模块,用于利用如前述的抠图模型的训练方法训练得到的抠图模型对待处理图像进行处理,得到抠图图像。
8.本技术第五方面提供了一种电子设备,该电子设备包括相互耦接的存储器和处理器,存储器用于存储程序数据,处理器用于执行程序数据以实现前述的方法。
9.本技术第六方面提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序数据,程序数据在被处理器执行时,用以实现前述的方法。
10.本技术的有益效果是:区别于现有技术的情况,本技术通过获取带标签的第一样本图像和无标签的第二样本图像,第一样本图像和第二样本图像均包括目标对象,标签为
第一样本图像的抠图结果;基于第一样本图像和第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型,不仅能够提升抠图小模型的语义表征和信息提取能力,还可以提升泛化能力。
附图说明
11.为了更清楚地说明本技术中的技术方案,下面将对实施例描述中所需要的附图作简单的介绍,显而易见地,下面描述的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
12.图1是本技术抠图模型的训练方法一实施例的流程示意图;
13.图2是图1中步骤s12另一实施方式的流程示意图;
14.图3是图2中步骤s122另一实施方式的流程示意图;
15.图4是本技术抠图模型的训练方法的一实施例的另一流程示意图;
16.图5是本技术抠图方法一实施例的流程示意图;
17.图6是本技术抠图模型的训练装置一实施例的结构示意框图;
18.图7是本技术抠图装置一实施例的结构示意框图;
19.图8是本技术电子设备一实施例的结构示意框图;
20.图9是本技术计算机可读存储介质一实施例的结构示意框图。
具体实施方式
21.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
22.本技术中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
23.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.请参阅图1,图1是本技术抠图模型的训练方法一实施例的流程示意图。其中,本实施例的执行主体为电子设备,具体可以为具有计算能力的电子设备,例如计算机、手机、服务器等。
25.该方法可以包括以下步骤:
26.步骤s11:获取带标签的第一样本图像和无标签的第二样本图像,第一样本图像和
第二样本图像均包括目标对象,标签为第一样本图像的抠图结果。
27.目标对象可以包括但不限于:人像(包含人的任一部位)、动物(如猫、狗等宠物)、静物(如杯子、板凳等非生物)、植物(如花、草、树木)等。抠图的目的是将图像中的目标对象和背景分割开来,将目标对象单独提取出来。
28.在本实施例中,样本图像包括两部分,一部分是带标签的第一样本图像,另一部分是无标签的第二样本图像。
29.在一些实施方式中,样本图像可以通过人工采集得到,具体可以基于图像采集装置进行采集,例如通过相机对目标对象进行拍摄得到。在另一些实施方式中,样本图像可以通过爬虫工具从网上获得或者从公共样本数据库中获得。可以理解的,上述实施方式之间可以进行结合,即样本图像中部分图像人工采集得到,部分图像通过爬虫工具从网上获得或者从公共样本数据库中获得。其中,第一样本图像的标签可以是由人工标注或机器标注的,此处不做限定。
30.步骤s12:基于第一样本图像和第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型。
31.具体地,在基于多教师模型的知识蒸馏方式对学生模型进行训练时,是基于第一样本图像;在基于半监督学习的方式对学生模型进行训练是基于第一样本图像和第二样本图像。可以理解的,多教师模型的知识蒸馏和半监督学习联合对学生模型进行训练的具体实施方式有多种,本实施例并不对具体的联合方式进行限定。
32.一般地,教师模型为大模型,学生模型为小模型。教师模型和学生模型均为深度学习模型。大模型的架构与小模型相比,具有更加复杂和庞大的网络结构、更多的参数和更深的层数,能够处理和学习更加复杂和高级的模式和规律。而小模型往往受限于自身的参数量,相比于大模型,在语义表征和信息提取方面能力较低。
33.在本实施例中,学生模型可以是对教师模型进行裁剪得到,例如,删减网络结构和参数等。
34.其中,多教师模型的知识蒸馏的训练方式是基于多个教师模型实现的,多个教师模型蒸馏到单个学生模型可以传递更多种知识。本实施例中,多个教师模型擅长抠图的维度不同,即对于不同维度的图像,抠图效果不同。在一些实施方式中,图像的维度可以根据目标对象的类型确定。例如,教师模型a擅长人像的抠图,教师模型b擅长动物的抠图等。由此,对于一张图像每个教师模型的输出结果可能不同,而通过多教师模型的知识蒸馏的训练方式学生模型可以学习不同维度下抠图效果最好的教师模型的知识,从而提升学生模型在不同维度下的语义表征和信息提取能力,使得学生模型在图像的不同维度下能够取得最优的抠图结果。
35.其中,半监督学习的方式即利用带标签的样本数据和无标签的样本数据对模型进行训练。半监督学习算法可以包括但不限于:self-training(自训练算法)、graph-based semi-supervised learning(基于图的半监督算法)、semi-supervised supported vector machine(半监督支持向量机,s3vm)。
36.在本实施例中,半监督学习即利用第一样本图像和无标签的第二样本图像对学生模型进行训练,具体训练方法此处不做限定,通过半监督训练可以提升学生模型的泛化能力。
37.上述方案,通过获取带标签的第一样本图像和无标签的第二样本图像,第一样本图像和第二样本图像均包括目标对象,标签为第一样本图像的抠图结果;基于第一样本图像和第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型,不仅能够提升抠图小模型的语义表征和信息提取能力,还可以提升泛化能力。
38.请参阅图2至图4,图2是图1中步骤s12另一实施方式的流程示意图,图3是图2中步骤s122另一实施方式的流程示意图,图4是本技术抠图模型的训练方法的一实施例的另一流程示意图。
39.在上述实施例的基础上,本实施方式中,步骤s12可以包括子步骤s121~s127:
40.步骤s121:利用至少两个预先训练好的教师模型分别对同一张第一样本图像进行处理,得到至少两个第一抠图结果,其中,不同教师模型是基于不同维度的样本图像进行训练得到。
41.可选地,第四样本图像的维度包括人像维度、动物维度、静物维度和通用维度中的至少一种。此外,第四样本图像的维度还可以包括植物维度等,具体可以根据实际需要进行选择,此处不做限定。其中,通用维度即表示维度不限,可以包含任意维度,如人像维度、动物维度、静物维度中的一种或多种。
42.在一些实施方式中,至少两个教师模型采用如下方法训练得到:利用带标签的第三样本图像对一个基础模型进行预训练,得到预训练模型;分别利用不同维度的第四样本图像对预训练模型进行训练,得到预先训练好的至少两个教师模型。其中,基础模型是一个大模型。
43.其中,基础模型是神经网络模型,包括但不限于:u2net、unet、vggnet、fcn(fully convolutional network)等。
44.在一些实施方式中,基础模型可以为u2net模型,u2net是基于unet提出的一种新的网络结构,采用两层嵌套的u形结构,具有更好的图像分隔效果且实时性较高。
45.可以理解的,本技术中用于第一样本图像、第二样本图像、第三样本图像和第四样本图像中的任意两个或多个之间可以相同,也可以不同。例如,用于对基础模型进行预训练的第三样本图像,也可以用作对预训练模型进行训练的第四样本图像。
46.可以理解的,在一些实施方式中,实际模型的训练是基于多张样本图像进行训练,例如,多张第一样本图像、多张第二样本图像等。
47.在一些具体实施方式中,至少两个教师模型可以包括人像教师模型、动物教师模型、静物教师模型和通用教师模型。具体地,可以在得到预训练模型后,再利用人像维度的第四样本图像对预训练模型进行训练,得到人像教师模型,利用动物维度的第四样本图像对预训练模型进行训练,得到动物教师模型,利用静物维度的第四样本图像对预训练模型进行训练,得到静物教师模型,以及利用通用维度的第四样本图像对预训练模型进行训练,得到通用教师模型,由此可以得到人像、动物、静物表现更好的三个大模型,以及在其余维度上可能表现更好的通用大模型。其中,利用通用维度的第四样本图像对预训练模型进行训练具体可以是利用人像维度、动物维度、静物维度等多种维度的第四样本图像对预训练模型进行训练。
48.在一些实施方式中,具体可以分别将每一张第一样本图像输入人像教师模型、动
物教师模型、静物教师模型和通用教师模型,然后输出四个第一抠图结果。
49.步骤s122:基于至少两个第一抠图结果,从至少两个教师模型中确定出最优教师模型。
50.从至少两个第一抠图结果中确定出抠图效果最佳的第一抠图结果,然后将得到该第一抠图结果的教师模型作为最优教师模型。
51.在一些实施方式中,步骤s122可以包括子步骤s1221~s1222:
52.步骤s1221:针对每个教师模型,基于第一抠图结果和标签计算的评价指标。
53.在一些实施方式中,抠图效果可以通过主体抠图的客观指标进行反映出来。评价指标可以为主体抠图的客观指标。主体抠图的客观指标是用来评价抠图算法的性能和效果的一些量化的标准。不同的指标可能侧重于不同的方面,例如前景和背景的分割精度、边缘的平滑度、细节的保留程度等。主体抠图的客观指标可以包括但不限于:sad(sum of absolute difference,绝对误差和)、mad(mean absolute difference,平均绝对差值)、mse(mean squared error,均方误差)、gradient error(梯度误差)、connectivity error(连通性误差)等。这些指标都是越小越好,表示抠图结果越接近真实情况。
54.其中,sad是计算预测的alpha值和真实的alpha值之间的绝对差值之和。mad是计算预测的alpha值和真实的alpha值之间的绝对差值之均值。mse是计算预测的alpha值和真实的alpha值之间的平方差值之均值。gradient error是计算预测的alpha值和真实的alpha值之间的归一化梯度之间的平方差值之和。connectivity error是计算预测的alpha值和真实的alpha值之间在最大连通域内的连通度之间的差异之和。上述评价指标的具体计算公式不再赘述。
55.第一抠图结果即predicted matte(预设的抠图),标签即groundtruth matte(真实的抠图)。
56.预设的alpha值是第一抠图结果中一像素点的透明度,真实的alpha值是标签中一像素点的透明度。第一抠图结果和标签均为灰度图。
57.alpha值是指图像的透明度,通常表示为一个取值在0到1之间的浮点数。当alpha值为1时,图像完全不透明,即看不到任何背景色;当alpha值为0时,图像完全透明,即完全显示背景色而看不到前景图像。
58.步骤s1222:基于每个教师模型对应的评价指标确定最优教师模型。
59.在一些实施方式中,可以将同一种评价指标中的最小数值对应的教师模型确定为最优教师模型。例如,将每个教师模型对应的sad中最小数值对应的教师模型确定为最优教师模型。其中,数值越小表示该教师模型的抠图效果越好。
60.步骤s123:利用一个训练好的预设模型对第二样本图像进行处理,得到第二抠图结果。
61.其中,第二样本图像无标签,通过训练好的预设模型对第二样本图像进行处理,可以得到模型预测的第二抠图结果,由此可以将第二抠图结果作为第二样本图像的伪标签,用于对学生模型进行半监督训练。
62.可选地,预设模型为神经网络模型,具体模型结构、参数等可以根据实际情况进行选择。在一些实施方式中,预设模型为利用通用维度的第四样本图像集训练得到的通用教师模型。对于无标签的第二样本图像,涉及的维度丰富多样,所以利用通用教师模型对第二
样本图像进行处理,可以使得第二抠图结果的抠图效果较好,从而提升伪标签的准确性,进而利用伪标签对学生模型进行约束,能够提升学生模型的抠图能力。
63.步骤s124:利用学生模型对第一样本图像进行处理,得到第三抠图结果,以及利用学生模型对第二样本图像进行处理,得到第四抠图结果。
64.步骤s125:基于最优教师模型的第一抠图结果和第三抠图结果计算第一损失值,以及基于第三抠图结果和第一样本图像的标签计算第二损失值。
65.具体地,针对带标签的第一样本图像,基于最优教师模型的第一抠图结果第三抠图结果计算第一损失值(loss1),以及基于第三抠图结果和第一样本图像的标签计算第二损失值(loss2)。
66.步骤s126:基于第二抠图结果和第四抠图结果计算第三损失值。
67.具体地,针对无标签的第二样本图像,基于第二抠图结果(伪标签)和第四抠图结果计算的第三损失值(loss2)。这里,半监督学习为同时使用带标签的第一样本图像和预设模型生成的第二抠图结果(即伪标签)对学生模型进行训练。
68.步骤s127:基于第一损失值、第二损失值、第三损失值对学生模型的参数进行调整。
69.具体地,可以基于第一损失值、第二损失值、第三损失值计算得到总损失值,然后基于总损失值对学生模型的参数进行调整。在一些实施方式中,对学生模型的参数进行调整直至总损失值小于预设损失阈值或者训练次数达到预设次数阈值,则停止对学生模型的训练。可选地,预设损失阈值和预设次数阈值可以根据实际情况进行选取,此处不做限定。
70.在一些实施方式中,可以总损失值可以为第一损失值、第二损失值和第三损失值之和。在其他实施方式中,也可以为第一损失值、第二损失值和第三损失值分别分配权重值,总损失值也可以为第一损失值、第二损失值和第三损失值的加权和。
71.在一些实施方式中,总损失值还可以基于原生损失值、第一损失值、第二损失值、第三损失值计算得到总损失值。具体可以计算原生损失值、第一损失值、第二损失值和第三损失值之和,得到总损失值。原生损失值为学生模型原生的损失函数计算得到的损失值。
72.在一些实施方式中,基于第一样本图像和第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型之前,还包括:基于第一样本图像和第二样本图像,利用半监督学习的方式对学生模型进行第一训练,然后基于第一样本图像,利用多教师模型的知识蒸馏的方式,对学生模型进行第二训练。即是,可以先半监督优化预设模型和学生模型,以提升预设模型和学生模型泛化性,然后再固定预设模型的参数,知识蒸馏学生模型,此时学生模型可能会丢失一些泛化性,最后再同时联合半监督和多教师模型的知识蒸馏,把泛化性和抠图能力同时提升上来。
73.在一些实施方式中,当利用半监督学习的方式对学生模型进行第一训练时,学生模型的损失函数可以为学生模型的原生损失函数+半监督损失函数。当利用多教师模型的知识蒸馏的方式,对学生模型进行第二训练,学生模型的损失函数可以为学生模型的原生损失函数+知识蒸馏损失函数(即kd损失函数)。当半监督学习和知识蒸馏联合时,学生模型的损失函数可以为学生模型的原生损失函数+半监督损失函数+知识蒸馏损失函数。可选地,原生损失函数、半监督损失函数、知识蒸馏损失函数的具体类型可以根据实际情况进行选择,此处不做限定。
74.上述方案,不同维度的教师模型对于不同类别的输入图像的表现能力各有长短,采用最优教师模型的第一抠图结果作为学生模型的约束,能够起到取长补短的作用。不同输入图像可以使用不同的大模型来对小模型进行知识蒸馏,这种多教师模型的蒸馏方式能进一步提升小模型的抠图能力。
75.其中,本技术旨在利用多个做过类别针对性优化的大模型根据评价指标打分来优化小模型,具体使用的知识蒸馏方法此处不做限定。另外,具体使用的半监督学习方法也不做限定。通过本技术提供的训练方法,能够赋能主体抠图端侧小模型更强的语义表征和提取能力,提升小模型在开放世界的泛化能力。
76.请参阅图5,图5是本技术抠图方法一实施例的流程示意图。其中,本实施例的执行主体为电子设备,具体可以为具有计算能力的电子设备,例如计算机、手机、服务器等。
77.步骤s21:获取待处理图像,待处理图像中包含目标对象。
78.目标对象可以包括但不限于:人像(包含人的任一部位)、动物(如猫、狗等宠物)、静物(如杯子、板凳等非生物)、植物(如花、草、树木)等。待处理图像可以是单独拍摄的图像,也可以是视频帧中的图像等,此处不做限定。
79.步骤s22:利用本技术上述任一实施例中的抠图模型的训练方法训练得到的抠图模型对待处理图像进行处理,得到抠图图像。
80.利用上述任一实施例中抠图模型的训练方法训练得到的抠图模型能够兼顾泛化能力和抠图能力,故利用该抠图模型对待处理图像进行处理,能够得到抠图效果更好的抠图图像。
81.请参阅图6,图6是本技术抠图模型的训练装置一实施例的结构示意框图。
82.抠图模型的训练装置100包括获取模块110和训练模块120。其中,获取模块110用于获取带标签的第一样本图像和无标签的第二样本图像,第一样本图像和第二样本图像均包括目标对象,标签为第一样本图像的抠图结果;训练模块120用于基于第一样本图像和第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型。
83.在一些实施方式中,训练模块120具体用于利用至少两个预先训练好的教师模型分别对同一张第一样本图像进行处理,得到至少两个第一抠图结果,其中,不同教师模型是基于不同维度的样本图像进行训练得到;基于至少两个第一抠图结果,从至少两个教师模型中确定出最优教师模型;利用一个训练好的预设模型对第二样本图像进行处理,得到第二抠图结果;利用学生模型对第一样本图像进行处理,得到第三抠图结果,以及利用学生模型对第二样本图像进行处理,得到第四抠图结果;基于最优教师模型的第一抠图结果和第三抠图结果计算第一损失值,以及基于第三抠图结果和第一样本图像的标签计算的第二损失值;基于第二抠图结果和第四抠图结果计算第三损失值;基于第一损失值、第二损失值、第三损失值对学生模型的参数进行调整。
84.在一些实施方式中,训练模块120具体用于针对每个教师模型,基于第一抠图结果和标签计算的评价指标;基于每个教师模型对应的评价指标确定最优教师模型。
85.在一些实施方式中,两个教师模型采用如下方法训练得到:利用带标签的第三样本图像对一个基础模型进行预训练,得到预训练模型;分别利用不同维度的第四样本图像对预训练模型进行训练,得到预先训练好的至少两个教师模型。
86.在一些实施方式中,第四样本图像的维度包括人像维度、动物维度、静物维度和通用维度中的至少一种,和/或,预设模型为利用通用维度的第四样本图像集训练得到的通用教师模型。
87.在一些实施方式中,训练模块120还用于在基于第一样本图像和第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型之前,基于第一样本图像和第二样本图像,利用半监督学习的方式对学生模型进行第一训练;基于第一样本图像,利用多教师模型的知识蒸馏的方式,对学生模型进行第二训练。
88.关于上述各个模块执行步骤的说明请参见前述方式实施例,此处不再赘述。
89.请参阅图7,图7是本技术抠图装置一实施例的结构示意框图。
90.抠图装置200包括获取模块210和抠图模块220。获取模块210用于获取待处理图像,待处理图像中包含目标对象;抠图模块220用于利用本技术上述任一实施例中的抠图模型的训练方法训练得到的抠图模型对待处理图像进行处理,得到抠图图像。
91.关于上述各个模块执行步骤的说明请参见前述方式实施例,此处不再赘述。
92.请参阅图8,图8是本技术电子设备一实施例的结构示意框图。
93.电子设备300包括相互耦接的存储器310和处理器320,存储器310用于存储程序数据,处理器320用于执行程序数据以实现上述任一方法实施例中的步骤。
94.电子设备300可以包括但不限于:个人电脑(例如,台式机、笔记本电脑、平板电脑、掌上电脑等)、手机、服务器、可穿戴设备,以及增强现实(augmented reality,ar)、虚拟现实(virtual reality,vr)设备、电视机等,在此不做限定。
95.具体而言,处理器320用于控制其自身以及存储器310以实现上述任一方法实施例中的步骤。处理器320还可以称为中央处理单元(central processing unit,cpu)。处理器320可能是一种集成电路芯片,具有信号的处理能力。处理器320还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器320可以由多个集成电路芯片共同实现。
96.请参阅图9,图9是本技术计算机可读存储介质一实施例的结构示意框图。
97.计算机可读存储介质400存储有程序数据410,程序数据410被处理器执行时,用以实现上述任一方法实施例中的步骤。
98.计算机可读存储介质400可以为u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等可以存储计算机程序的介质,也可以为存储有该计算机程序的服务器,该服务器可将存储的计算机程序发送给其他设备运行,或者也可以自运行该存储的计算机程序。
99.以上,本技术中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本技术中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
100.在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
101.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
102.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
103.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
104.以上所述仅为本技术的实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。

技术特征:
1.一种抠图模型的训练方法,其特征在于,包括:获取带标签的第一样本图像和无标签的第二样本图像,所述第一样本图像和所述第二样本图像均包括目标对象,所述标签为所述第一样本图像的抠图结果;基于所述第一样本图像和所述第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型。2.根据权利要求1中所述的方法,其特征在于,所述基于所述第一样本图像和所述第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型,包括:利用至少两个预先训练好的所述教师模型分别对同一张所述第一样本图像进行处理,得到至少两个第一抠图结果,其中,不同所述教师模型是基于不同维度的样本图像进行训练得到;基于至少两个所述第一抠图结果,从至少两个所述教师模型中确定出最优教师模型;利用一个训练好的预设模型对所述第二样本图像进行处理,得到第二抠图结果;利用所述学生模型对所述第一样本图像进行处理,得到第三抠图结果,以及利用所述学生模型对所述第二样本图像进行处理,得到第四抠图结果;基于所述最优教师模型的第一抠图结果和第三抠图结果计算第一损失值,以及基于所述第三抠图结果和所述第一样本图像的标签计算的第二损失值;基于所述第二抠图结果和所述第四抠图结果计算第三损失值;基于所述第一损失值、所述第二损失值、所述第三损失值对所述学生模型的参数进行调整。3.根据权利要求2中所述的方法,其特征在于,所述基于至少两个所述第一抠图结果,从至少两个所述教师模型中确定出最优教师模型,包括:针对每个所述教师模型,基于所述第一抠图结果和所述标签计算的评价指标;基于每个所述教师模型对应的评价指标确定最优教师模型。4.根据权利要求2中所述的方法,其特征在于,至少两个所述教师模型采用如下方法训练得到:利用带标签的第三样本图像对一个基础模型进行预训练,得到预训练模型;分别利用不同维度的第四样本图像对所述预训练模型进行训练,得到预先训练好的至少两个所述教师模型。5.根据权利要求4中所述的方法,其特征在于,所述第四样本图像的维度包括人像维度、动物维度、静物维度和通用维度中的至少一种,和/或,所述预设模型为利用通用维度的第四样本图像集训练得到的通用教师模型。6.根据权利要求1中所述的方法,其特征在于,所述基于所述第一样本图像和所述第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型之前,还包括:基于所述第一样本图像和所述第二样本图像,利用半监督学习的方式对所述学生模型进行第一训练;基于所述第一样本图像,利用多教师模型的知识蒸馏的方式,对所述学生模型进行第
二训练。7.一种抠图模型的训练装置,其特征在于,包括:获取模块,用于获取带标签的第一样本图像和无标签的第二样本图像,所述第一样本图像和所述第二样本图像均包括目标对象,所述标签为所述第一样本图像的抠图结果;训练模块,用于基于所述第一样本图像和所述第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型。8.一种抠图方法,其特征在于,包括:获取待处理图像,所述待处理图像中包含目标对象;利用如权利要求1-6中任一项所述抠图模型的训练方法训练得到的抠图模型对所述待处理图像进行处理,得到抠图图像。9.一种抠图装置,其特征在于,包括:获取模块,用于获取待处理图像,所述待处理图像中包含目标对象;抠图模块,用于利用如权利要求1-6中任一项所述抠图模型的训练方法训练得到的抠图模型对所述待处理图像进行处理,得到抠图图像。10.一种电子设备,其特征在于,所述电子设备包括相互耦接的存储器和处理器,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1-6和8中任一项所述的方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序数据,所述程序数据在被处理器执行时,用以实现如权利要求1-6和8任一项所述的方法。

技术总结
本申请公开了一种抠图模型的训练方法、抠图方法、装置、设备及存储介质,其中,该方法包括:获取带标签的第一样本图像和无标签的第二样本图像,第一样本图像和第二样本图像均包括目标对象,标签为第一样本图像的抠图结果;基于第一样本图像和第二样本图像,以联合多教师模型的知识蒸馏和半监督学习的方式对学生模型进行训练,得到抠图模型。通过上述方式,本申请能够同时提升抠图小模型的语义表征和信息提取能力、泛化能力。泛化能力。泛化能力。


技术研发人员:王凡祎 张严浩
受保护的技术使用者:上海瑾盛通信科技有限公司
技术研发日:2023.04.10
技术公布日:2023/7/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐