图像获取模型训练及图像获取方法、装置与流程
未命名
07-23
阅读:191
评论:0
1.本发明涉及图像处理技术领域,尤其涉及一种图像获取模型训练及图像获取方法、装置。
背景技术:
2.随着移动互联网与智能终端技术的迅速发展,设有摄像装置的电子设备越来越多地进入人们的生活。用户可利用这些电子设备获取大量的图像数据。由于图像数据可能存在不清晰的情况,所以,就需要电子设备对这些不清晰的图像数据进行处理,以得到图像质量较佳的目标图像。
3.现有的图像获取方法往往利用掩码自动编码器(masked auto encoder,mae)模型或局部掩码重建(local masked reconstruction,lomar)模型对获取的图像进行处理。前者在图像处理的过程中会产生高昂的计算成本和较大的时间复杂度(time complexity),就导致获取的目标图像不够准确;后者在局部窗口内执行单一的掩码处理,使整个图像处理过程较为简单,也会导致获取的目标图像不够准确。
4.综上所述,现有的图像获取方法都具有一定的局限性,导致电子设备利用现有模型获取的目标图像不够准确,即该目标图像的图像质量不佳。
技术实现要素:
5.本发明提供一种图像获取模型训练及图像获取方法、装置,通过图像获取模型训练方法训练的图像获取模型可有效获取准确性较高的目标图像,该目标图像的图像质量较佳。
6.本发明提供一种图像获取模型训练方法,包括:
7.获取多个图像样本;
8.将该多个图像样本输入至原始图像获取模型中,通过该原始图像获取模型对该图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对该多个第一图像进行掩码处理,得到该各图像样本对应的第二图像,任意两个第一图像不重叠;再对该第二图像进行随机采样,得到该各图像样本对应的至少一个第三图像,并按照第二掩码率对该至少一个第三图像进行掩码,以通过该原始图像获取模型输出该各图像样本对应的目标图像样本;其中,该第三图像的尺寸大于该第一图像的尺寸;
9.根据该多个图像样本和该各图像样本对应的目标图像样本,更新该原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。
10.根据本发明提供的一种图像获取模型训练方法,该按照第二掩码率对该至少一个第三图像进行掩码,以通过该原始图像获取模型输出该各图像样本对应的目标图像样本,包括:按照第二掩码率对该至少一个第三图像进行掩码,得到该第三图像对应的第四图像;对该第四图像进行编码处理和解码处理,得到该各图像样本对应的目标图像样本。
11.根据本发明提供的一种图像获取模型训练方法,该通过该原始图像获取模型对该
图像样本遍历划窗,得到各图像样本对应的多个第一图像,包括:通过该原始图像获取模型,获取该图像样本的尺寸;在该图像样本的尺寸与预设尺寸阈值不匹配的情况下,调整该图像样本的尺寸,得到调整后的图像样本;在该调整后的图像样本的尺寸与该预设尺寸阈值匹配的情况下,对该调整后的图像样本遍历划窗,得到该各图像样本对应的多个第一图像。
12.根据本发明提供的一种图像获取模型训练方法,该对该第四图像进行编码处理和解码处理,得到该各图像样本对应的目标图像样本,包括:利用该原始图像获取模型中的编码器对该第四图像进行编码处理,得到该第四图像对应的隐式特征;利用该原始图像获取模型中的解码器对该隐式特征进行解码处理,得到该各图像样本对应的目标图像样本。
13.根据本发明提供的一种图像获取模型训练方法,该根据该多个图像样本和该各图像样本对应的目标图像样本,更新该原始图像获取模型对应的模型参数,以得到训练好的图像获取模型,包括:对该图像样本中的像素值进行归一化处理,得到归一化图像;确定该各图像样本对应的目标图像样本中的像素值与该归一化图像中的像素值之间的均方误差;根据该均方误差,更新该原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。
14.本发明提供一种图像获取方法,包括:
15.获取待处理图像;
16.将该待处理图像输入至图像获取模型中,得到该图像获取模型输出的目标图像,该图像获取模型通过如上述任一项所述的图像获取模型训练方法训练得出。
17.本发明还提供一种图像获取模型训练装置,包括:
18.获取模块,用于获取多个图像样本;
19.处理模块,用于将该多个图像样本输入至原始图像获取模型中,通过该原始图像获取模型对该图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对该多个第一图像进行掩码处理,得到该各图像样本对应的第二图像,任意两个第一图像不重叠;再对该第二图像进行随机采样,得到该各图像样本对应的至少一个第三图像,并按照第二掩码率对该至少一个第三图像进行掩码,以通过该原始图像获取模型输出该各图像样本对应的目标图像样本;其中,该第三图像的尺寸大于该第一图像的尺寸;根据该多个图像样本和该各图像样本对应的目标图像样本,更新该原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。
20.本发明还提供一种图像获取装置,包括:
21.获取模块,用于获取待处理图像;
22.处理模块,用于将该待处理图像输入至图像获取模型中,得到该图像获取模型输出的目标图像,该图像获取模型通过如上述任一项所述的图像获取模型训练方法训练得出。
23.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像获取模型训练方法或如上述所述图像获取方法。
24.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像获取模型训练方法或如上述所述图像
获取方法。
25.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像获取模型训练方法或如上述所述图像获取方法。
26.本发明提供的图像获取模型训练及图像获取方法、装置,图像获取模型训练方法通过获取多个图像样本;将所述多个图像样本输入至原始图像获取模型中,通过所述原始图像获取模型对所述图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对所述多个第一图像进行掩码处理,得到所述各图像样本对应的第二图像,任意两个第一图像不重叠;再对所述第二图像进行随机采样,得到所述各图像样本对应的至少一个第三图像,并按照第二掩码率对所述至少一个第三图像进行掩码,以通过所述原始图像获取模型输出所述各图像样本对应的目标图像样本;其中,所述第三图像的尺寸大于所述第一图像的尺寸;根据所述多个图像样本和所述各图像样本对应的目标图像样本,更新所述原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。通过该方法可对获取的多个图像样本进行两次局部掩码处理,以得到较为准确的图像细节,进而使得最终训练得到的图像获取模型可有效获取准确性较高的目标图像,该目标图像的图像质量较佳。
附图说明
27.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1是本发明提供的图像获取模型训练方法的流程示意图;
29.图2是本发明提供的图像获取模型训练方法的场景示意图;
30.图3是本发明提供的图像获取方法的流程示意图;
31.图4a是本发明提供的图像获取模型在imagenet1k数据集上预训练阶段的学习率变化曲线;
32.图4b是本发明提供的图像获取模型在imagenet1k数据集上预训练阶段的损失变化曲线;
33.图4c是本发明提供的图像获取模型在imagenet1k数据集上微调fine tune阶段中,测试数据集上的损失变化曲线;
34.图4d是本发明提供的图像获取模型在imagenet1k数据集上微调fine tune阶段中,测试数据集上精度排名为第一的变化曲线;
35.图4e是本发明提供的图像获取模型在imagenet1k数据集上微调fine tune阶段中,测试数据集上精度排名为第五的变化曲线;
36.图5是本发明提供的图像获取模型训练装置的结构示意图;
37.图6是本发明提供的图像获取装置的结构示意图;
38.图7是本发明提供的电子设备的结构示意图。
具体实施方式
39.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.需要说明的是,本发明实施例涉及的执行主体可以是图像获取模型训练装置,也可以是电子设备,可选的,该电子设备可以包括:计算机、移动终端及可穿戴设备等。
41.下面以电子设备为例对本发明实施例进行进一步地说明。
42.如图1所示,是本发明提供的图像获取模型训练方法的流程示意图,可以包括:
43.101、获取多个图像样本。
44.其中,图像样本指的是电子设备在训练原始图像获取模型时所需的图像数据。
45.可选的,电子设备获取多个图像样本,可以包括:电子设备从预设图像数据集中,获取多个图像样本。
46.可选的,预设图像数据集可以为图像网络(imagenet1k,in1k)数据集,其中,1k表示该图像网络数据集中的图像有1000多种类别。
47.102、将多个图像样本输入至原始图像获取模型中,通过原始图像获取模型对图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对多个第一图像进行掩码处理,得到各图像样本对应的第二图像;再对第二图像进行随机采样,得到各图像样本对应的至少一个第三图像,并按照第二掩码率对至少一个第三图像进行掩码,以通过原始图像获取模型输出各图像样本对应的目标图像样本。
48.其中,任意两个第一图像不重叠,第三图像的尺寸大于第一图像的尺寸。
49.其中,原始图像获取模型可称为预训练(pertrain)模型。
50.可选的,第一图像可称为局部感受野,该第一图像对应的第一预设尺寸为m*m,m≥2,m为整数,m的单位为补丁块(patch),即第一图像对应m*m个patches。
51.其中,图像的尺寸大小与局部感受野之间可用公式n
×ws
≤h表示。ws表示图像的尺寸大小;rf≤ws≤(h/patch_size)h表示经过padding后的输入图像大小,rf表示第一次掩码操作的局部感受野大小;n表示二次掩码取样的窗口数量。
52.可选的,第一预设尺寸可以是模型预先设置的,也可以是用户自定义的,此处不作具体限定。
53.其中,第二图像的数量与图像样本的数量相同,且该第二图像的尺寸与该图像样本的尺寸相同。
54.可选的,第三图像对应的第二预设尺寸为n*n,n>m,n为整数,即第二预设尺寸大于上述第一预设尺寸。
55.示例性的,第二预设尺寸为5*5、7*7、9*9、11*11及14*14等中的其中一项。
56.可选的,在第三图像的数量为多个的情况下,这多个第三图像中的任意两个第三图像可以是重叠的,也可以是不重叠的,此处不作具体限定。
57.其中,步骤102中,掩码处理指的是电子设备将图像样本的像素值置为0,需丢弃该部分的图像信息。
58.需要说明的是,电子设备按照第一掩码率对多个第一图像进行掩码处理可理解为
该电子设备对多个第一图像进行首次局部掩码,该首次局部掩码处理的作用为在局部感受野中保留图像细节提示。
59.电子设备按照第二掩码率对至少一个第三图像进行掩码可理解为该电子设备对至少一个第三图像进行二次局部掩码,该二次局部掩码处理会使得每个第三图像对应patch的数量随机和位置随机,进而兼顾了多感受野的语义特征,增加了像素恢复的难度,且有助于原始图像获取模型在预训练阶段中可学习到更鲁棒的特征表示。
60.可选的,第一掩码率与第二掩码率可以是相同的,也可以是不同的,该第一掩码率与该第二掩码率可以是模型预先设置的,也可以是用户自定义的,此处不作具体限定。
61.在预训练阶段中,电子设备可先获取多个图像样本;然后,该电子设备将这多个图像样本输入至原始图像获取模型中,通过该原始图像获取模型对该图像样本进行无重叠划分,得到各图像样本对应的多个第一图像,这样一来,该各图像样本对应的多个第一图像中的任意两个第一图像都是不重叠的。
62.其中,图像样本的尺寸=第一图像的数量*第一预设尺寸,也就是说,电子设备得到的多个第一图像可构成一张完整的图像样本。
63.示例性的,电子设备在获取图像样本之后,可先确定该图像样本对应的尺寸为8*8;然后,该电子设备对该图像样本进行无重叠划分,得到16个第一预设尺寸为2*2的第一图像。
64.接着,电子设备再按照该原始图像获取模型中的第一掩码率,对这多个第一图像逐一进行掩码处理,即有多少个第一图像就会进行多少次掩码处理操作,这样可得到该图像样本对应的第二图像。
65.示例性的,假设第一掩码率为25%,电子设备已获取16个2*2的第一图像a,即每个第一图像对应4个patches。该电子设备基于原始图像获取模型中的第一掩码率,对第一图像a1进行掩码处理,即在第一图像a1对应的4个patches中随机选择一个patch进行掩码,得到掩码图像b1;然后,该电子设备基于该原始图像获取模型,按照该第一掩码率,对第一图像a2进行掩码处理,得到掩码图像b2,以此类推,直到获取第一图像a
16
对应的掩码图像b
16
;接着,该电子设备根据掩码图像b1、掩码图像b2,
…
,掩码图像b
16
,确定图像样本对应的第二图像。
66.其中,该图像样本中第一图像a1的位置与该第二图像中掩码图像b1的位置是对应的,
…
,该图像样本中第一图像a
16
的位置与该第二图像中掩码图像b
16
的位置是对应的,也就是说,掩码图像b1、掩码图像b2,
…
,掩码图像b
16
可构成一张完整的第二图像。
67.然后,电子设备再对该第二图像进行随机采样,得到至少一个第三图像;如果该第三图像的数量为一个,那么,该电子设备可按照第二掩码率,直接对该第三图像进行掩码处理,以得到各图像样本对应的目标图像样本;如果该第三图像的数量为多个,那么,该电子设备可按照该第二掩码率,对这多个第三图像逐一进行掩码处理,即有多少个第三图像就会进行多少次掩码处理操作,进而得到各图像样本对应的目标图像样本。
68.示例性的,假设第二掩码率为60%,电子设备已获取3个5*5的第三图像c1,即每个第三图像对应25个patches。该电子设备基于原始图像获取模型中的第二掩码率,对第三图像c1进行掩码处理,即在第三图像c1对应的25个patches中随机选择15个patches进行掩码,得到第四图像d1;然后,该电子设备基于该原始图像获取模型,按照该第二掩码率,对第三
图像c2及第三图像c3进行掩码处理,分别得到第四图像d2及第四图像d3,进而得到各图像样本对应的目标图像样本。
69.其中,第四图像d1、第四图像d2及第四图像d3中的任意两个第四图像可以是重叠的,也可以是不重叠的,此处不作具体限定。
70.可选的,电子设备对第二图像进行随机采样,得到至少一个第三图像,可以包括:电子设备利用第二预设尺寸的滑动窗口,在第二图像中进行随机采样,得到至少一个第三图像。
71.其中,滑动窗口的作用为限定第三图像对应的尺寸。
72.电子设备在获取第二图像之后,可先获取第二预设尺寸的滑动窗口;然后,该电子设备利用该滑动窗口,在第二图像中进行随机采样,得到至少一个第三图像。
73.在一些实施例中,电子设备通过原始图像获取模型对图像样本遍历划窗,得到各图像样本对应的多个第一图像,可以包括:电子设备通过原始图像获取模型,获取图像样本的尺寸;该电子设备在图像样本的尺寸与预设尺寸阈值不匹配的情况下,调整图像样本的尺寸,得到调整后的图像样本;该电子设备在调整后的图像样本的尺寸与预设尺寸阈值匹配的情况下,对调整后的图像样本遍历划窗,得到各图像样本对应的多个第一图像。
74.可选的,预设尺寸阈值可以是模型预先设置的,也可以是用户自定义的,此处不作具体限定。
75.电子设备在获取图像样本之后,可先确定该图像样本对应的尺寸;然后,该电子设备将该图像样本对应的尺寸与预设尺寸阈值进行比较:如果该图像样本对应的尺寸与该预设尺寸阈值匹配,那么,可直接对该图像样本遍历划窗,得到多个第一图像;如果该图像样本对应的尺寸与该预设尺寸阈值不匹配,那么,该电子设备就需要对该图像样本对应的尺寸进行调整,直到调整后的图像样本的尺寸该预设尺寸阈值匹配,此时,可对该调整后的图像样本遍历划窗,得到各图像样本对应的多个第一图像。
76.示例性的,假设预设尺寸阈值为8*8。电子设备确定图像样本对应的尺寸为8*7,且与该预设尺寸阈值8*8不匹配,此时,该电子设备对该图像样本的尺寸进行调整,得到调整后的图像样本;然后,该电子设备在调整后的图像样本的尺寸为8*8与预设尺寸阈值8*8匹配的情况下,对该调整后的图像样本遍历划窗,得到各图像样本对应的多个第一图像。
77.可选的,在图像样本对应的尺寸与预设尺寸阈值不匹配的情况下,说明patch划分和图像之间不能整除,即h和w不能被patch_size整除划分,此时,可对图像样本进行自适应padding向上取整操作,可选上下左右填充或者下右填充,填充的数值为0。
78.在一些实施例中,电子设备按照第二掩码率对至少一个第三图像进行掩码,以通过原始图像获取模型输出各图像样本对应的目标图像样本,可以包括:电子设备按照第二掩码率对至少一个第三图像进行掩码,得到第三图像对应的第四图像;该电子设备对第四图像进行编码处理和解码处理,得到各图像样本对应的目标图像样本。
79.其中,编码处理也可称为压缩处理,指的是图像内容用神经网络的方法得到编码特征。
80.解码处理也可称为解压缩处理,指的是用预设神经网络的方法把编码特征还原成该变编码特征所代表的图像内容。
81.电子设备在获取至少一个第三图像之后,可先按照第二掩码率对该至少一个第三
图像进行掩码,得到第三图像对应的第四图像,即该第四图像的数量也为至少一个;然后,该电子设备再将该至少一个第四图像输入至原始图像获取模型中;如果该第四图像的数量为一个,那么,该电子设备可利用该原始图像获取模型,对该第四图像进行编码处理和解码处理,得到目标图像样本;如果该第四图像的数量为多个,那么,该电子设备可利用该原始图像获取模型,对这多个第四图像逐一进行编码处理和解码处理,即有多少个第四图像就会进行多少次编码处理操作和解码处理操作,进而得到各图像样本对应的目标图像样本。
82.在一些实施例中,电子设备对第四图像进行编码处理和解码处理,得到各图像样本对应的目标图像样本,可以包括:电子设备利用原始图像获取模型中的编码器对第四图像进行编码处理,得到第四图像对应的隐式特征;该电子设备利用原始图像获取模型中的解码器对隐式特征进行解码处理,得到各图像样本对应的目标图像样本。
83.其中,隐式特征指的是第四图像对应的语义向量,该语义向量表示该第二图像对应的特征维度。
84.可选的,编码器可以是具有视觉转换器(vision transformer,vit)的编码器;解码器可以是具有多层感知器(multi-layer perceptron,mlp)的解码器。
85.电子设备在获取第四图像之后,可对该第四图像对应的所有patches按照光栅顺序(raster order)进行排列,得到patch序列,其中,所有patches包括该第四图像中已进行二次局部掩码处理后的patches及未进行二次局部掩码处理后的patches;然后,该电子设备将该patch序列输入至原始图像获取模型中的编码器中,得到该编码器输出的该第四图像对应的语义向量;接着,该电子设备将该语义向量输入至该原始图像获取模型中的解码器中,得到该解码器输出的解码特征,该电子设备再根据该解码特征,确定各图像样本对应的目标图像样本。
86.可选的,光栅顺序(raster order)可以是模型预先设置好的,也可以是用户自定义的,此处不作具体限定。
87.103、根据多个图像样本和各图像样本对应的目标图像样本,更新原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。
88.电子设备在获取各图像样本对应的目标图像样本之后,由于该目标图像样本的尺寸与图像样本的尺寸不同,该电子设备无法直接根据该目标图像样本及该图像样本对原始图像获取模型对应的模型参数进行更新,所以,该电子设备先根据该目标图像样本的位置,还原至第二图像的对应位置,得到还原图像,也就是说,该还原图像可以包括首次掩码处理后的图像及二次掩码处理后的图像,该还原图像的尺寸与该图像样本的尺寸相同;然后,该电子设备再根据该还原图像及该图像样本,对原始图像获取模型对应的模型参数进行迭代更新,以得到训练好的图像获取模型,该训练好的图像获取模型具有较佳的图像获取准确度。
89.在一些实施例中,电子设备根据多个图像样本和各图像样本对应的目标图像样本,更新原始图像获取模型对应的模型参数,以得到训练好的图像获取模型,可以包括:电子设备对图像样本中的像素值进行归一化处理,得到归一化图像;该电子设备确定各图像样本对应的目标图像样本中的像素值与归一化图像中的像素值之间的均方误差;该电子设备根据均方误差,更新原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。
90.其中,归一化处理指的是电子设备将图像中各个像素点对应的像素值划至预设区
间内,可选的,该预设区间可以是模型预先设置的,也可以是用户自定义的,此处不作具体限定。
91.电子设备可先对图像样本中的像素值进行归一化处理,得到归一化图像,并将目标图像样本还原至第二图像的对应位置,得到还原图像,该归一化图像的尺寸与该还原图像的尺寸是相同的;然后,该电子设备确定该还原图像中的像素值与该归一化图像中的像素值之间的均方误差,即确定各个位置对应像素值之间的均方误差,该均方误差可作为原始图像获取模型的损失函数;接着,该电子设备根据该均方误差,对该原始图像获取模型对应的模型参数进行迭代更新,以得到训练好的图像获取模型。
92.综上所述,示例性的,如图2所示,是本发明提供的图像获取模型训练方法的场景示意图,可以包括:电子设备通过原始图像获取模型,对获取的1个8*8的图像样本遍历划窗,得到16个2*2的第一图像;然后,该电子设备按照第一掩码率25%,对各第一图像进行首次掩码处理,得到该图像样本对应的8*8的第二图像,并对该第二图像进行随机采样,得到1个5*5的第三图像;接着,该电子设备按照第二掩码率60%,对该第三图像进行二次掩码处理,得到1个5*5的第四图像;之后,该电子设备对该第四图像中的所有patches按照raster order进行排列,得到patch序列;接着,该电子设备将该patch序列输入至原始图像获取模型中的编码器中,得到该编码器输出的该第四图像对应的隐式特征,并将该隐式特征输入至该原始图像获取模型中的解码器中,得到该解码器输出的解码特征;然后,该电子设备再根据该解码特征,确定该图像样本对应的目标图像样本;最后,该电子设备再根据该目标图像样本及该图像样本,更新该原始图像获取模型对应的模型参数,得到训练好的图像获取模型。
93.在本发明实施例中,获取多个图像样本;将所述多个图像样本输入至原始图像获取模型中,通过所述原始图像获取模型对所述图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对所述多个第一图像进行掩码处理,得到所述各图像样本对应的第二图像;再对所述第二图像进行随机采样,得到所述各图像样本对应的至少一个第三图像,并按照第二掩码率对所述至少一个第三图像进行掩码,以通过所述原始图像获取模型输出所述各图像样本对应的目标图像样本;根据所述多个图像样本和所述各图像样本对应的目标图像样本,更新所述原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。通过该方法可对获取的多个图像样本进行两次局部掩码处理,以得到较为准确的图像细节,再经过编码处理和掩码处理,可较好地还原图像,进而使得最终训练得到的图像获取模型可有效获取准确性较高的目标图像,该目标图像的图像质量较佳。
94.需要说明的是,本发明实施例涉及的执行主体可以是图像获取模型训练装置,也可以是电子设备。
95.下面以电子设备为例对本发明实施例进行进一步地说明。
96.如图3所示,是本发明提供的图像获取方法的流程示意图,可以包括:
97.301、获取待处理图像。
98.可选的,待处理图像中可包括生物(例如:猫、狗、树等)和/或非生物(例如:石头、高楼等)等。
99.可选的,电子设备获取待处理图像,可以包括:电子设备可利用摄像装置获取待处理图像。
100.302、将待处理图像输入至图像获取模型中,得到图像获取模型输出的目标图像。
101.其中,图像获取模型为如图1所示的图像获取模型训练方法训练得到的。
102.电子设备在获取待处理图像之后,可直接将该待处理图像输入至训练好的图像获取模型中,得到该训练好的图像获取模型输出的目标图像,该目标图像的图像质量优于该待处理图像的图像质量。
103.可选的,在步骤302之后,该方法还可以包括:电子设备对目标图像进行微调(fine tune)处理,得到分类结果。
104.其中,微调fine tune处理可对应微调fine tune模型,该微调fine tune模型为上述pretrain模型的编码器部分+线性分类层部分。
105.其中,微调finetune模型结构可以包括pretrained模型的编码器和逻辑层等。该编码器一般与pretrained模型对应的编码器相同,逻辑层一般可以包括mlp或单层linear等。
106.在finetune阶段,可将pretrained模型的部分权重(编码器)作为finetune模型的初始训练权重进行训练。
107.可选的,电子设备在imagenet1k数据集上进行模型预训练后,可在该imagenet1k数据集上进行微调fine tune处理做目标分类任务。在整个微调fine tune过程中,电子设备可将该imagenet1k数据集中图像的所有patches都提供给微调fine tune模型,并将这些图像经过归一化的特征均值作为分类前的最终表示。
108.如表1所示,是本发明提供的不同的图像获取模型在imagenet1k数据集上的分类结果。其中,不同的图像获取模型可以包括:未预训练的原始图像获取模型(no pretraining)、经过预训练的图像获取模型(ours)、mae模型(mae b/16)及lomar模型(lomar)。
109.表1:
[0110][0111]
从表1可以看出,本发明实施例涉及的图像获取模型对应的分类结果更高。此外,相比于mae模型,降低了时间复杂度,且平衡了重建效率和准确性;相比于lomar模型,兼顾了多感受野的语义特征,虽然增加了像素恢复的难度,但却有效促进了表示学习。
[0112]
示例性的,如图4a所示,是本发明提供的图像获取模型在imagenet1k数据集上预训练阶段的学习率变化曲线。
[0113]
其中,学习率可用learning rate表示。
[0114]
如图4b所示,是本发明提供的图像获取模型在imagenet1k数据集上预训练阶段的损失变化曲线。
[0115]
如图4c所示,是本发明提供的图像获取模型在imagenet1k数据集上微调fine tune阶段中,测试数据集上的损失变化曲线。
[0116]
如图4d所示,是本发明提供的图像获取模型在imagenet1k数据集上微调fine tune阶段中,测试数据集上精度排名为第一的变化曲线。
[0117]
其中,精度排名为第一可用top-1accuracy表示。
[0118]
如图4e所示,是本发明提供的图像获取模型在imagenet1k数据集上微调fine tune阶段中,测试数据集上精度排名为第五的变化曲线。
[0119]
其中,精度排名为第五可用top-5accuracy表示。
[0120]
从图4a到图4e可以看出,本发明实施例涉及的图像获取模型训练方法在预训练迭代次数(epoch)=390时,仍具备继续学习的能力。此外,在预训练迭代次数适当增加的情况下,微调fine tune阶段也会获得更好的分类性能。
[0121]
在本发明实施例中,获取待处理图像;将待处理图像输入至图像获取模型中,得到图像获取模型输出的目标图像。通过该方法可将获取的待处理图像输入至训练好的图像获取模型中,以使该训练好的图像获取模型能够准确确定目标图像,提高该目标图像的准确性,即该目标图像的图像质量较佳。
[0122]
下面对本发明提供的图像获取模型训练装置进行描述,下文描述的图像获取模型训练装置与上文描述的图像获取模型训练方法可相互对应参照。
[0123]
如图5所示,是本发明提供的图像获取模型训练装置的结构示意图,可以包括:
[0124]
获取模块501,用于获取多个图像样本;
[0125]
处理模块502,用于将该多个图像样本输入至原始图像获取模型中,通过该原始图像获取模型对该图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对该多个第一图像进行掩码处理,得到该各图像样本对应的第二图像,任意两个第一图像不重叠;再对该第二图像进行随机采样,得到该各图像样本对应的至少一个第三图像,并按照第二掩码率对该至少一个第三图像进行掩码,以通过该原始图像获取模型输出该各图像样本对应的目标图像样本;其中,该第三图像的尺寸大于该第一图像的尺寸;根据该多个图像样本和该各图像样本对应的目标图像样本,更新该原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。
[0126]
可选的,处理模块502,具体用于按照第二掩码率对该至少一个第三图像进行掩码,得到该第三图像对应的第四图像;对该第四图像进行编码处理和解码处理,得到该各图像样本对应的目标图像样本。
[0127]
可选的,获取模块501,具体用于通过该原始图像获取模型,获取该图像样本的尺寸;
[0128]
处理模块502,具体用于在该图像样本的尺寸与预设尺寸阈值不匹配的情况下,调整该图像样本的尺寸,得到调整后的图像样本;在该调整后的图像样本的尺寸与该预设尺
寸阈值匹配的情况下,对该调整后的图像样本遍历划窗,得到该各图像样本对应的多个第一图像。
[0129]
可选的,处理模块502,具体用于利用该原始图像获取模型中的编码器对该第四图像进行编码处理,得到该第四图像对应的隐式特征;利用该原始图像获取模型中的解码器对该隐式特征进行解码处理,得到该各图像样本对应的目标图像样本。
[0130]
可选的,处理模块502,具体用于对该图像样本中的像素值进行归一化处理,得到归一化图像;确定该各图像样本对应的目标图像样本中的像素值与该归一化图像中的像素值之间的均方误差;根据该均方误差,更新该原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。
[0131]
下面对本发明提供的图像获取装置进行描述,下文描述的图像获取装置与上文描述的图像获取方法可相互对应参照。
[0132]
如图6所示,是本发明提供的图像获取装置的结构示意图,可以包括:
[0133]
获取模块601,用于获取待处理图像;
[0134]
处理模块602,用于将该待处理图像输入至图像获取模型中,得到该图像获取模型输出的目标图像,该图像获取模型为如图1所示的图像获取模型训练方法训练得到的。
[0135]
如图7所示,是本发明提供的电子设备的结构示意图,该电子设备可以包括:处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行图像获取模型训练方法,该方法包括:获取多个图像样本;将该多个图像样本输入至原始图像获取模型中,通过该原始图像获取模型对该图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对该多个第一图像进行掩码处理,得到该各图像样本对应的第二图像,任意两个第一图像不重叠;再对该第二图像进行随机采样,得到该各图像样本对应的至少一个第三图像,并按照第二掩码率对该至少一个第三图像进行掩码,以通过该原始图像获取模型输出该各图像样本对应的目标图像样本;其中,该第三图像的尺寸大于该第一图像的尺寸;根据该多个图像样本和该各图像样本对应的目标图像样本,更新该原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。或,以执行图像获取方法,该方法包括:获取待处理图像;将该待处理图像输入至图像获取模型中,得到该图像获取模型输出的目标图像,该图像获取模型通过如上所述的图像获取模型训练方法训练得出。
[0136]
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0137]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行
时,计算机能够执行上述各方法所提供的图像获取模型训练方法,该方法包括:获取多个图像样本;将该多个图像样本输入至原始图像获取模型中,通过该原始图像获取模型对该图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对该多个第一图像进行掩码处理,得到该各图像样本对应的第二图像,任意两个第一图像不重叠;再对该第二图像进行随机采样,得到该各图像样本对应的至少一个第三图像,并按照第二掩码率对该至少一个第三图像进行掩码,以通过该原始图像获取模型输出该各图像样本对应的目标图像样本;其中,该第三图像的尺寸大于该第一图像的尺寸;根据该多个图像样本和该各图像样本对应的目标图像样本,更新该原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。或,以执行图像获取方法,该方法包括:获取待处理图像;将该待处理图像输入至图像获取模型中,得到该图像获取模型输出的目标图像,该图像获取模型通过如上所述的图像获取模型训练方法训练得出。
[0138]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的图像获取模型训练方法,该方法包括:获取多个图像样本;将该多个图像样本输入至原始图像获取模型中,通过该原始图像获取模型对该图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对该多个第一图像进行掩码处理,得到该各图像样本对应的第二图像,任意两个第一图像不重叠;再对该第二图像进行随机采样,得到该各图像样本对应的至少一个第三图像,并按照第二掩码率对该至少一个第三图像进行掩码,以通过该原始图像获取模型输出该各图像样本对应的目标图像样本;其中,该第三图像的尺寸大于该第一图像的尺寸;根据该多个图像样本和该各图像样本对应的目标图像样本,更新该原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。或,以执行图像获取方法,该方法包括:获取待处理图像;将该待处理图像输入至图像获取模型中,得到该图像获取模型输出的目标图像,该图像获取模型通过如上所述的图像获取模型训练方法训练得出。
[0139]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0140]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0141]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种图像获取模型训练方法,其特征在于,包括:获取多个图像样本;将所述多个图像样本输入至原始图像获取模型中,通过所述原始图像获取模型对所述图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对所述多个第一图像进行掩码处理,得到所述各图像样本对应的第二图像,任意两个第一图像不重叠;再对所述第二图像进行随机采样,得到所述各图像样本对应的至少一个第三图像,并按照第二掩码率对所述至少一个第三图像进行掩码,以通过所述原始图像获取模型输出所述各图像样本对应的目标图像样本;其中,所述第三图像的尺寸大于所述第一图像的尺寸;根据所述多个图像样本和所述各图像样本对应的目标图像样本,更新所述原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。2.根据权利要求1所述的方法,其特征在于,所述按照第二掩码率对所述至少一个第三图像进行掩码,以通过所述原始图像获取模型输出所述各图像样本对应的目标图像样本,包括:按照第二掩码率对所述至少一个第三图像进行掩码,得到所述第三图像对应的第四图像;对所述第四图像进行编码处理和解码处理,得到所述各图像样本对应的目标图像样本。3.根据权利要求1所述的方法,其特征在于,所述通过所述原始图像获取模型对所述图像样本遍历划窗,得到各图像样本对应的多个第一图像,包括:通过所述原始图像获取模型,获取所述图像样本的尺寸;在所述图像样本的尺寸与预设尺寸阈值不匹配的情况下,调整所述图像样本的尺寸,得到调整后的图像样本;在所述调整后的图像样本的尺寸与所述预设尺寸阈值匹配的情况下,对所述调整后的图像样本遍历划窗,得到所述各图像样本对应的多个第一图像。4.根据权利要求2所述的方法,其特征在于,所述对所述第四图像进行编码处理和解码处理,得到所述各图像样本对应的目标图像样本,包括:利用所述原始图像获取模型中的编码器对所述第四图像进行编码处理,得到所述第四图像对应的隐式特征;利用所述原始图像获取模型中的解码器对所述隐式特征进行解码处理,得到所述各图像样本对应的目标图像样本。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述多个图像样本和所述各图像样本对应的目标图像样本,更新所述原始图像获取模型对应的模型参数,以得到训练好的图像获取模型,包括:对所述图像样本中的像素值进行归一化处理,得到归一化图像;确定所述各图像样本对应的目标图像样本中的像素值与所述归一化图像中的像素值之间的均方误差;根据所述均方误差,更新所述原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。6.一种图像获取方法,其特征在于,包括:
获取待处理图像;将所述待处理图像输入至图像获取模型中,得到所述图像获取模型输出的目标图像,所述图像获取模型通过如权利要求1-5中任一项所述的图像获取模型训练方法训练得出。7.一种图像获取模型训练装置,其特征在于,包括:获取模块,用于获取多个图像样本;处理模块,用于将所述多个图像样本输入至原始图像获取模型中,通过所述原始图像获取模型对所述图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对所述多个第一图像进行掩码处理,得到所述各图像样本对应的第二图像,任意两个第一图像不重叠;再对所述第二图像进行随机采样,得到所述各图像样本对应的至少一个第三图像,并按照第二掩码率对所述至少一个第三图像进行掩码,以通过所述原始图像获取模型输出所述各图像样本对应的目标图像样本;其中,所述第三图像的尺寸大于所述第一图像的尺寸;根据所述多个图像样本和所述各图像样本对应的目标图像样本,更新所述原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。8.一种图像获取装置,其特征在于,包括:获取模块,用于获取待处理图像;处理模块,用于将所述待处理图像输入至图像获取模型中,得到所述图像获取模型输出的目标图像,所述图像获取模型通过如权利要求1-5中任一项所述的图像获取模型训练方法训练得出。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述图像获取模型训练方法或,实现如权利要求6所述的图像获取方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述图像获取模型训练方法或,实现如权利要求6所述的图像获取方法。
技术总结
本发明提供一种图像获取模型训练及图像获取方法、装置,图像获取模型训练方法包括:获取多个图像样本;将多个图像样本输入至原始图像获取模型中,通过原始图像获取模型对图像样本遍历划窗,得到各图像样本对应的多个第一图像,并按照第一掩码率对多个第一图像进行掩码处理,得到各图像样本对应的第二图像;再对第二图像进行随机采样,得到各图像样本对应的至少一个第三图像,并按照第二掩码率对至少一个第三图像进行掩码,以输出各图像样本对应的目标图像样本;根据多个图像样本和各图像样本对应的目标图像样本,更新原始图像获取模型对应的模型参数,以得到训练好的图像获取模型。通过该方法训练的图像获取模型可有效获取准确性较高的目标图像。性较高的目标图像。性较高的目标图像。
技术研发人员:请求不公布姓名
受保护的技术使用者:上海壁仞智能科技有限公司
技术研发日:2023.03.08
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
