图像分割方法、训练图像分割模型的方法及装置与流程
未命名
07-20
阅读:117
评论:0
1.本技术涉及图像处理和人工智能技术领域,特别是涉及一种图像分割方法、训练图像分割模型的方法及装置。
背景技术:
2.图像分割就是把图像分割成若干特定的、具有独特性质的区域并确定感兴趣的目标区域的技术和过程,是图像识别和计算机视觉至关重要的预处理。图像分割在医学领域、自动驾驶领域和卫星成像领域等方面有很多应用。
3.对于诸如遥感图像等包含多种目标、场景复杂、尺寸变化多的图像而言,获取大量的掩码标签是十分困难的。基于小样本学习得到的图像分割模型往往对这类图像的分割准确性较差,因此如何提高图像分割的准确性成为亟待解决的问题。
技术实现要素:
4.有鉴于此,本技术提供了一种图像分割方法、训练图像分割模型的方法及装置,以便于提高小样本场景下图像分割的准确性。
5.本技术提供了如下方案:
6.第一方面,提供了一种图像分割方法,所述方法包括:
7.获取待分割图像作为查询图像,以及获取所述查询图像的支持图像以及查询图像对应的目标描述文本,其中所述支持图像与所述查询图像均包含所述目标描述文本所指示的目标;
8.利用所述目标描述文本针对所述查询图像和所述支持图像分别生成第一伪掩码,所述第一伪掩码为相应图像中目标区域被掩码后得到的;
9.对所述查询图像和所述支持图像分别进行编码处理,得到所述查询图像的第一特征表示和所述支持图像的第一特征表示;
10.利用所述查询图像的第一伪掩码和所述支持图像的第一伪掩码,对所述查询图像的第一特征表示和所述支持图像的第一特征表示进行相关性匹配;
11.利用所述相关性匹配的结果进行解码处理,得到对所述查询图像的分割结果,所述分割结果包括目标区域的位置信息。
12.根据本技术实施例中一可实现的方式,所述生成第一伪掩码包括:将所述查询图像和所述支持图像分别作为待掩码图像执行以下步骤:
13.将所述目标描述文本和待掩码图像输入掩码生成器,得到所述待掩码图像的第二伪掩码;
14.获取所述待掩码图像的第一特征表示;
15.利用所述第二伪掩码和所述待掩码图像的第一特征表示,获取所述待掩码图像的第一目标原型表示和第一背景原型表示;
16.利用所述待掩码图像的第一特征表示分别与所述第一目标原型表示、第一背景原
型表示之间的相似度,得到所述待掩码图像的第一伪掩码。
17.根据本技术实施例中一可实现的方式,利用所述第二伪掩码和所述待掩码图像的第一特征表示,获取所述待掩码图像的第一目标原型表示包括:
18.利用所述查询图像的第二伪掩码和第一特征表示,得到所述查询图像的第二目标原型表示;以及利用所述支持图像的第二伪掩码和第一特征表示,得到所述支持图像的第二目标原型表示;
19.将所述查询图像的第二目标原型表示和所述支持图像的第二目标原型表示进行加权处理,将加权处理后得到的表示作为所述待掩码图像的第一目标原型表示。
20.根据本技术实施例中一可实现的方式,利用所述第二伪掩码和所述待掩码图像的第一特征表示,获取所述待掩码图像的第一背景原型表示包括:
21.利用所述待掩码图像的第一特征表示和第二伪掩码,得到所述待掩码图像的背景特征表示;
22.利用第一映射值与所述待掩码图像的背景特征表示,得到所述待掩码图像的第一背景原型表示,其中所述第一映射值是利用所述待掩码图像的背景特征表示和第一特征表示进行映射后得到的。
23.根据本技术实施例中一可实现的方式,利用所述查询图像的第一伪掩码和所述支持图像的第一伪掩码,对所述查询图像的第一特征表示和所述支持图像的第一特征表示进行相关性匹配包括:
24.利用所述查询图像的第一伪掩码对所述查询图像的第一特征表示进行增强处理,以及利用所述支持图像的第一伪掩码对所述支持图像的第一特征表示进行增强处理;
25.利用增强后的所述查询图像的第一特征表示和增强后的所述支持图像的第一特征表示进行相关性匹配。
26.根据本技术实施例中一可实现的方式,所述利用增强后的所述查询图像的第一特征表示和增强后的所述支持图像的第一特征表示进行相关性匹配包括:
27.利用增强后的所述查询图像的第一特征表示和增强后的所述支持图像的第一特征表示进行交叉注意力处理;
28.利用所述交叉注意力处理的结果和所述支持图像的第一特征表示,得到所述支持图像的第三目标原型表示;
29.将所述支持图像的第三原型表示与增强后的所述查询图像的第一特征表示进行相关性匹配,和/或,将所述支持图像的第三原型表示与所述查询图像的第一特征表示进行相关性匹配。
30.根据本技术实施例中一可实现的方式,所述方法还包括:利用所述支持图像的第一伪掩码以及所述支持图像的第一特征表示,得到所述支持图像的n个第四目标原型表示,所述n为正整数;利用所述支持图像的n个第四目标原型表示和所述支持图像的第一特征表示的相关性,确定所述支持图像的目标关联表示;
31.利用所述相关性匹配的结果进行解码处理包括:利用所述相关性匹配的结果以及所述支持图像的目标关联表示进行解码处理。
32.根据本技术实施例中一可实现的方式,利用所述支持图像的第一伪掩码以及所述支持图像的第一特征表示,得到所述支持图像的n个第四目标原型表示包括:
33.利用所述支持图像的第一伪掩码,从所述支持图像的目标区域中确定n个种子点;
34.利用所述n个种子点和所述支持图像的第一特征表示,对所述支持图像中图块在第一特征表示中对应的向量进行聚类,得到所述支持图像的n个第四目标原型表示。
35.根据本技术实施例中一可实现的方式,利用所述支持图像的第一伪掩码,从所述支持图像的目标区域中确定n个种子点包括:
36.利用所述支持图像的第一伪掩码所示出的目标区域中确定n个初始种子点;
37.分别针对各初始种子点执行:将与初始种子点预设距离范围内的图块分别与第五目标原型表示进行相似度计算,选择对应相似度满足预设相似度要求的图块作为确定出的种子点;
38.其中所述第五目标原型表示为所述查询图像的第五目标原型表示或所述支持图像的第五目标原型表示,所述查询图像的第五目标原型表示是利用所述查询图像的第一伪掩码与所述查询图像的第一特征表示得到的,所述支持图像的第五目标原型表示是利用所述支持图像的第一伪掩码与所述支持图像的第一特征表示得到的。
39.根据本技术实施例中一可实现的方式,利用所述支持图像的n个第四目标原型表示和所述支持图像的第一特征表示的相关性,确定所述支持图像的目标关联表示包括:
40.分别针对所述支持图像中的各图块,确定图块在所述第一特征表示中对应的向量与所述支持图像的n个第四目标原型表示的相似度均值;
41.利用所示支持图像中各图块对应的相似度均值得到所述支持图像的目标关联表示。
42.第二方面,提供了一种图像分割方法,所述方法包括:
43.获取待分割的遥感图像作为查询图像,以及获取所述查询图像的支持图像以及查询图像对应的地物描述文本,其中所述支持图像为与所述查询图像包含所述地物描述文本所指示地物的遥感图像;
44.利用所述地物描述文本针对所述查询图像和所述支持图像分别生成第一伪掩码,所述第一伪掩码为相应图像中的地物区域被掩码后得到的;
45.对所述查询图像和所述支持图像分别进行编码处理,得到所述查询图像的第一特征表示和所述支持图像的第一特征表示;
46.利用所述查询图像的第一伪掩码和所述支持图像的第一伪掩码,对所述查询图像的第一特征表示和所述支持图像的第一特征表示进行相关性匹配;
47.利用所述相关性匹配的结果进行解码处理,得到对所述查询图像的分割结果,所述分割结果包括地物区域的位置信息。
48.第三方面,提供了一种训练图像分割模型的方法,所述方法包括:
49.获取包括多个训练样本的训练数据,所述训练样本包括:查询图像样本、所述查询图像样本的支持图像样本、查询图像样本对应的目标描述文本以及对所述查询图像样本中的目标区域标注的掩码标签,其中所述查询图像样本与所述支持图像样本均包含所述目标描述文本所指示的目标;
50.利用所述训练数据训练图像分割模型,所述图像分割模型利用所述目标描述文本针对所述查询图像样本和所述支持图像样本分别生成第一伪掩码,所述第一伪掩码为相应图像样本中的目标区域被掩码后得到的;对所述查询图像样本和所述支持图像样本分别进
行编码处理,得到所述查询图像样本的第一特征表示和所述支持图像样本的第一特征表示;利用所述查询图像样本的第一伪掩码和所述支持图像样本的第一伪掩码,对所述查询图像样本的第一特征表示和所述支持图像样本的第一特征表示进行相关性匹配;利用所述相关性匹配的结果进行解码处理,得到对所述查询图像样本的分割结果,所述分割结果包括目标区域的位置信息;
51.所述训练的目标包括最小化所述图像分割模型得到的对所述查询图像样本的分割结果与对应掩码标签之间的差异。
52.根据本技术实施例中一可实现的方式,所述生成第一伪掩码包括:将所述查询图像样本和所述支持图像样本分别作为待掩码图像执行以下步骤:
53.将所述目标描述文本和待掩码图像输入掩码生成器,得到所述待掩码图像的第二伪掩码;
54.获取所述待掩码图像的第一特征表示;
55.利用所述第二伪掩码和所述待掩码图像的第一特征表示,获取所述待掩码图像的第一目标原型表示和第一背景原型表示;
56.利用所述待掩码图像的第一特征表示分别与所述第一目标原型表示、第一背景原型表示之间的相似度,得到所述待掩码图像的第一伪掩码。
57.根据本技术实施例中一可实现的方式,利用所述查询图像样本的第一伪掩码和所述支持图像样本的第一伪掩码,对所述查询图像样本的第一特征表示和所述支持图像样本的第一特征表示进行相关性匹配包括:
58.利用所述查询图像样本的第一伪掩码对所述查询图像样本的第一特征表示进行增强处理,以及利用所述支持图像样本的第一伪掩码对所述支持图像样本的第一特征表示进行增强处理;
59.利用增强后的所述查询图像样本的第一特征表示和增强后的所述支持图像样本的第一特征表示进行相关性匹配。
60.根据本技术实施例中一可实现的方式,所述利用增强后的所述查询图像样本的第一特征表示和增强后的所述支持图像样本的第一特征表示进行相关性匹配包括:
61.利用增强后的所述查询图像样本的第一特征表示和增强后的所述支持图像样本的第一特征表示进行交叉注意力处理;
62.利用所述交叉注意力处理的结果和所述支持图像样本的第一特征表示,得到所述支持图像样本的第三目标原型表示;
63.将所述支持图像样本的第三目标原型表示与增强后的所述查询图像样本的第一特征表示进行相关性匹配,和/或,将所述支持图像样本的第三目标原型表示与所述查询图像样本的第一特征表示进行相关性匹配。
64.根据本技术实施例中一可实现的方式,所述方法还包括:利用所述支持图像样本的第一伪掩码以及所述支持图像样本的第一特征表示,得到所述支持图像样本的n个第四目标原型表示,所述n为正整数;利用所述支持图像样本的n个第四目标原型表示和所述支持图像样本的第一特征表示的相关性,确定所述支持图像样本的目标关联表示;
65.利用所述相关性匹配的结果进行解码处理包括:利用所述相关性匹配的结果以及所述支持图像样本的目标关联表示进行解码处理。
66.第四方面,提供了一种图像分割装置,所述装置包括:
67.输入单元,被配置为获取待分割图像作为查询图像,以及获取所述查询图像的支持图像以及查询图像对应的目标描述文本,其中所述支持图像与所述查询图像均包含所述目标描述文本所指示的目标;
68.伪掩码生成单元,被配置为利用所述目标描述文本针对所述查询图像和所述支持图像分别生成第一伪掩码,所述第一伪掩码为相应图像中目标区域被掩码后得到的;
69.编码单元,被配置为对所述查询图像和所述支持图像分别进行编码处理,得到所述查询图像的第一特征表示和所述支持图像的第一特征表示;
70.相关性匹配单元,被配置为利用所述查询图像的第一伪掩码和所述支持图像的第一伪掩码,对所述查询图像的第一特征表示和所述支持图像的第一特征表示进行相关性匹配;
71.解码单元,被配置为利用所述相关性匹配的结果进行解码处理,得到对所述查询图像的分割结果,所述分割结果包括目标区域的位置信息。
72.第五方面,提供了一种训练图像分割模型的装置,所述装置包括:
73.样本获取单元,被配置为获取包括多个训练样本的训练数据,所述训练样本包括:查询图像样本、所述查询图像样本的支持图像样本、查询图像样本对应的目标描述文本以及对所述查询图像样本中的目标区域标注的掩码标签,其中所述查询图像样本与所述支持图像样本均包含所述目标描述文本所指示的目标;
74.模型训练单元,被配置为利用所述训练数据训练图像分割模型,所述图像分割模型利用所述目标描述文本针对所述查询图像样本和所述支持图像样本分别生成第一伪掩码,所述第一伪掩码为相应图像样本中的目标区域被掩码后得到的;对所述查询图像样本和所述支持图像样本分别进行编码处理,得到所述查询图像样本的第一特征表示和所述支持图像样本的第一特征表示;利用所述查询图像样本的第一伪掩码和所述支持图像样本的第一伪掩码,对所述查询图像样本的第一特征表示和所述支持图像样本的第一特征表示进行相关性匹配;利用所述相关性匹配的结果进行解码处理,得到对所述查询图像样本的分割结果,所述分割结果包括目标区域的位置信息;所述训练的目标包括最小化所述图像分割模型得到的对所述查询图像样本的分割结果与对应掩码标签之间的差异。
75.根据第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面至第三方面中任一项所述的方法的步骤。
76.根据第七方面,提供了一种电子设备,包括:
77.一个或多个处理器;以及
78.与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面至第三方面中任一项所述的方法的步骤。
79.根据本技术提供的具体实施例,本技术公开了以下技术效果:
80.1)本技术在第一伪掩码的基础上,以第一伪掩码为指导对查询图像的第一特征表示和支持图像的第一特征表示进行相关性匹配,并在相关性匹配结果的基础上预测分割结果。这种方式能够在小样本场景下,仅需要目标描述文本作为引导,在粗糙的第一伪掩码的基础上实现更准确的图像分割。
81.2)本技术在利用掩码生成器进行第二伪掩码的生成后,更进一步利用第二伪掩码和图像的第一特征表示确定图像的第一目标原型表示和第一背景原型表示,并利用图像的第一特征表示分别与第一目标原型表示、第一背景原型表示之间的相似度,重新生成更加准确的第一伪掩码。也就是说,提供了一种伪掩码的修正方法,改进掩码生成器生成的粗糙的第二伪掩码。
82.3)本技术利用查询图像和支持图像的第一伪掩码分别对查询图像和支持图像的第一特征表示进行目标区域的增强处理后,利用增强后的查询图像和支持图像的第一特征表示进行相关性匹配,从而查询图像和支持图像中目标区域的特征相关度,以进一步提高图像分割的准确性。
83.4)本技术在相关性匹配的过程中,利用增强后的查询图像和支持图像的第一特征表示进行交叉注意力处理,基于交叉注意力处理的结果得到支持图像的第三目标原型表示,从而在相关性匹配过程中融入了空间信息,获得了更细粒度的相关性信息,以进一步提高图像分割的准确性。
84.5)本技术可以针对支持图像提取多个局部的第四目标原型表示,从而获得更细致的目标关联表示,以进一步提高图像分割的准确性。
85.6)本技术在从支持图像中提取多个局部的第四目标原型表示时,通过将初始种子点附近图块与查询图像或支持图像的第五原型表示进行相似度,选择相似度满足预设相似度要求的图块作为种子点,该种子点选取机制,能够降低因第一伪标签的不准确对于种子点选取的误导,提高种子点选取的准确性,进而提高第四目标原型表示的准确性,并最终提高图像分割的准确性。
86.当然,实施本技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
87.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
88.图1为是本技术实施例所适用的系统架构图;
89.图2为本技术实施例提供的图像分割方法的流程图;
90.图3为本技术实施例提供的一种图像分割模型的示意性结构图;
91.图4为本技术实施例提供的另一种图像分割模型的示意性结构图;
92.图5为本技术实施例提供的训练图像分割模型的方法流程图;
93.图6为本技术实施例提供的图像分割装置的示意性框图;
94.图7为本技术实施例提供的训练图像分割模型的装置结构图;
95.图8为本技术实施例提供的电子设备的示意性框图。
具体实施方式
96.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于
本技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本技术保护的范围。
97.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
98.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
99.取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
100.目前已经有一些方法能够在目标描述文本的指导下,通过掩码生成器针对待分割图像进行图像分割。其中掩码生成器能够获取目标描述文本的特征表示和待分割图像的特征表示,然后利用目标描述文本的特征表示和待分割图像的特征表示共同预测对待分割图像的分割结果,即待分割图像中的目标区域的位置信息。但这种方式得到的分割结果准确度较差。
101.有鉴于此,本技术提供了一种全新的思路,在粗略分割的基础上进一步利用待分割图像与支持图像之间特征表示的相关性匹配结果,预测待分割图像的分割结果。为了方便对本技术整体方案的理解,首先对本技术所适用的系统架构进行简单描述。图1示出了可以应用本技术实施例的示例性系统架构,如图1中所示,该系统架构包括模型训练装置和图像分割装置。
102.其中,模型训练装置用以在离线阶段进行模型训练。即在获取训练数据后,可以采用本技术实施例提供的方法进行模型训练,得到图像分割模型。
103.图像分割装置用以在线上利用已经训练得到的图像分割模型,对待分割图像进行图像分割处理,得到图像分割结果。
104.模型训练装置和图像分割装置可以分别设置为独立的服务器,也可以设置于同一个服务器或服务器群组,还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(vps,virtual private server)服务中存在的管理难度大,服务扩展性弱的缺陷。模型训练装置和图像分割装置还可以设置于具有较强计算能力的计算机终端。
105.需要说明的是,上述图像分割装置除了在线上进行图像分割之外,也可以采用离线的方式进行图像分割,例如针对批量的待分割图像分别进行图像分割。
106.应该理解,图1中的模型训练装置、图像分割装置和图像分割模型的数目仅仅是示意性的。根据实现需要,可以具有任意数目的模型训练装置、图像分割装置和图像分割模型。
107.需要说明的是,本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制,仅仅用以在名称上加以区分。例如“第一特征表示”和“第二特征表示”用以在名称上区分两个特征表示。再例如“第一伪掩码”和“第二伪掩码”用以在名称上区分两个
伪掩码。“第一目标原型表示”、“第二目标原型表示”、“第三目标原型表示”、“第四目标原型表示”等用以在名称上区分各目标原型表示。等等。
108.图2为本技术实施例提供的图像分割方法的流程图,该方法可以由图1所示系统中的图像分割装置利用图像分割模型执行。如图2中所示,该方法可以包括以下步骤:
109.步骤202:获取待分割图像作为查询图像,以及获取查询图像的支持图像以及查询图像对应的目标描述文本,其中支持图像与查询图像均包含目标描述文本所指示的目标。
110.步骤204:利用目标描述文本针对查询图像和支持图像分别生成第一伪掩码,第一伪掩码为相应图像中目标区域被掩码后得到的。
111.步骤206:对查询图像和支持图像分别进行编码处理,得到查询图像的第一特征表示和所述支持图像的第一特征表示。
112.步骤208:利用查询图像的第一伪掩码和支持图像的第一伪掩码,对查询图像的第一特征表示和支持图像的第一特征表示进行相关性匹配。
113.步骤210:利用相关性匹配的结果进行解码处理,得到对查询图像的分割结果,分割结果包括目标区域的位置信息。
114.由上述流程可以看出,本技术能够在粗糙的第一伪掩码的基础上,以第一伪掩码为指导对查询图像的第一特征表示和支持图像的第一特征表示进行相关性匹配,并在相关性匹配结果的基础上预测得到更加准确的分割结果。
115.下面对上述各步骤进行详细描述。首先结合实施例对上述步骤202即“获取待分割图像作为查询图像,以及获取查询图像的支持图像以及查询图像对应的目标描述文本”进行详细描述。
116.在本技术中涉及的待分割图像在不同的应用领域中通常包含不同的目标。例如在卫星成像领域,待分割图像通常为遥感图像,图像分割的目的是为了确定图像中包含的地物区域的位置。再例如,在人脸识别领域,待分割图像通常为包含人脸的图像,图像分割的目的是确定出图像包含的人脸区域的位置。再例如,在医学领域,图像通常为医学影像,图像分割的目的是为了确定图像中包含的器官区域的位置或者病灶区域的位置。等等。
117.在本技术实施例中利用了文本的提示对查询图像的图像分割作为引导,这里提示的文本称为目标描述文本。该目标描述文本是对待分割图像中的目标进行描述的文本,图像分割的目的是要分割得到待分割图像中目标描述文本所指示的目标的区域。举个例子,对于一个包含马的待分割图像,为了从该待分割图像中分割出马的区域,则可以采用诸如“这是一匹马”、“马的图片”等等目标描述文本来作为提示。
118.本技术实施例中采用的图像分割方法是一种类似于元学习的方式,可以将待分割图像作为查询图像,将与查询图像包含相同目标的图像作为支持图像。例如查询图像中包含马,那么支持图像中也包含马。针对查询图像获取的支持图像可以是一个,也可以是多个。
119.下面结合实施例对上述步骤204即“利用目标描述文本针对查询图像和支持图像分别生成第一伪掩码”进行详细描述。
120.本流程中实施的各步骤可以利用图像分割模型实现。为了更直观地理解,图像分割模型的结构可以参见图3。
121.首先以查询图像为例,如图3中所示,本步骤中,可以利用现有技术中的掩码生成
器,例如clip或maskclip,对查询图像进行初步的图像分割。即将目标描述文本和查询图像输入掩码生成器,得到查询图像的初始分割结果,利用初始分割结果进行掩码处理。
122.其中clip是一种视觉语言预训练模型,由一个图像编码器和一个文本编码器组成,分别用以提取查询图像和目标描述文本的特征向量,然后综合查询图像和目标描述文本的特征向量对查询图像中的各图块进行分类,以预测得到各图块是否属于目标区域,从而得到初始的分割结果。maskclip是clip的一种改进,对clip中图像编码器的全局注意力池层进行了改进,删除了查询和键嵌入层,将值嵌入层和最后一个线性层重新组合成两个各自的1
×
1卷积层。鉴于clip和maskclip均为已有的模型,在此不做详述。
123.作为其中一种可实现的方式,可以直接利用初始分割结果进行掩码处理,得到上述的第一伪掩码。但由于掩码生成器的图像分割结果是比较粗糙的,因此作为本技术实施例提供的一种更优选的方式,即可以利用初始分割结果进行掩码处理得到第二伪掩码,在该第二伪掩码的基础上进一步进行修正,得到查询图像的第一伪掩码,表示为mq。
124.上述修正的过程可以包括以下步骤s1~s3:
125.步骤s11:获取查询图像的第一特征表示。
126.其中,查询图像的第一特征表示可以由编码模块得到,也可以由其他具有特征提取功能的网络得到,查询图像的第一特征表示用fq表示。
127.步骤s12:利用查询图像的第二伪掩码和待掩码图像的第一特征表示,获取查询图像的第一目标原型表示和第一背景原型表示。
128.原型(protype)是在原型网络提出时涉及的一个概念,指的是将每个类别采用一个向量进行代表,那么原型表示就是一个类别的向量表示。通常采用的方式为将一个类别的对象进行聚类后,取聚类质心(即聚类中心)的向量表示作为该类别对应原型的向量表示。
129.在本技术实施例中,目标原型表示和背景原型表示分别是目标区域的图块对应的原型表示以及背景区域的图块对应的原型表示。
130.作为其中一种可实现的方式,上述步骤s2在利用查询图像的第二伪掩码和查询图像的第一特征表示,获取查询图像的第一目标原型表示和第一背景原型表示时,可以利用第二伪掩码和查询图像的第一特征表示,确定属于目标区域的各图块的特征向量,利用这些图块的特征向量进行聚合,得到聚类质心的特征向量得到第一目标原型表示。可以利用第二伪掩码和查询图像的第一特征表示,确定不属于目标区域的各图块的特征向量,利用这些图块的特征向量进行聚合,得到聚类质心的特征向量作为第一背景原型表示。
131.然而,上述方式确定得到的查询图像的第一目标原型表示和第一背景原型表示并不准确,为了提高准确性,本技术提供了一种更优选的实施方式。在确定查询图像的第一目标原型表示时,可以首先利用查询图像的第二伪掩码和第一特征表示,得到查询图像的第二目标原型表示;以及利用所述支持图像的第二伪掩码和第一特征表示,得到支持图像的第二目标原型表示;将所述查询图像的第二目标原型表示和所述支持图像的第二目标表示进行加权处理,将加权处理后得到的表示作为查询图像的第一目标原型表示。
132.例如,上述查询图像的第二目标表示可以采用如下公式确定:
[0133][0134]
其中,(x,y)表征查询图像中一个图块的位置,w和h表示查询图像的宽和高。f
x,y
表示查询图像中该图块在第一特征表示中对应的特征向量,m
x,y
表示查询图像中该图块在第第二伪掩码中对应的值。
[0135]
利用同样的方式,可以得到支持图像的第二目标表示由于理论上查询图像和支持图像的目标表示应该具有很高的相似性,因此可以利用公式(2)得到查询图像的第一目标原型表示
[0136][0137]
其中,α为预设的平衡因子即加权系数。该也可以作为支持图像的第一目标原型表示。
[0138]
由于查询图像和支持图像的背景是差异很大的,因此查询图像的第一背景原型表示是独立确定的。可以利用查询图像的第一特征表示和第二伪掩码,得到查询图像的背景特征表示fb;利用第一映射值与查询图像的背景特征表示,得到查询图像的第一背景原型表示,其中第一映射值是利用查询图像的背景特征表示和第一特征表示进行映射后得到的。
[0139]
查询图像的第一背景原型表示可以采用如下公式(3):
[0140][0141]
其中,fb=fq⊙
(1-mq)(4)
[0142]fq
为查询图像的第一特征表示,mq为查询图像的第二伪掩码。
[0143]
步骤s13:利用查询图像的第一特征表示分别与第一目标原型表示、第一背景原型表示之间的相似度,得到查询图像的第一伪掩码。
[0144]
本步骤中,可以首先计算查询图像中各图块在第一特征表示中对应特征向量与第一目标原型表示之间的相似度,查询图像中各图块在第一特征表示中对应特征向量与第一背景原型表示之间的相似度,据此重新划分目标区域和非目标区域,从而得到第一伪掩码。相似度的计算方式可以采用诸余弦相似度等。
[0145]
例如,如果查询图像中某图块在第一特征表示中对应特征向量与查询图像的第一背景原型表示之间的相似度大于与第一目标原型表示之间的相似度,则认为该图块属于非目标区域。反之,认为该图块属于目标区域。
[0146]
从上述伪掩码的修正过程可以看出,在利用掩码生成器产生的粗糙的第二伪掩码的基础上,能够利用查询图像的第一特征表示分别与第一目标原型表示、第二背景原型表示之间的相似度,重新对查询图像的目标区域进行划分,消除第二伪掩码中明显的错误,进而得到更准确的第一伪掩码。
[0147]
关于支持图像的第一伪掩码的产生方式与支持图像类似,在此不做赘述。
[0148]
本技术实施例中涉及的伪掩码均为对相应图像中目标区域的图块进行掩码后得到的,例如对目标区域的图块标记为1,非目标区域即背景区域的图块标记为0。
[0149]
下面结合实施例对上述步骤206即“对查询图像和支持图像分别进行编码处理,得到查询图像的第一特征表示和所述支持图像的第一特征表示”进行详细描述。
[0150]
如图3中所示,本步骤中可以通过采用编码单元对查询图像和支持图像进行编码。其中编码单元可以采用诸如vit(vision transformer,视觉转换器)等图像编码器。对查询图像和支持图像可以采用一个编码单元,也可以采用两个编码单元,但两个编码单元的参数共享。
[0151]
其中图像编码器在对图像(即查询图像或支持图像)进行编码时,进行基于token(元素)的embedding(嵌入)处理,得到各token的嵌入表示,然后对各token的嵌入表示进行编码处理,得到图像的第一特征表示。
[0152]
图像的各token可以包括起始符或图块。上述基于token的embedding处理至少包括:图像embedding和位置embedding。图像embedding,即将各token进行图向量编码,得到图向量表示。位置embedding,即将各token在图像序列中的位置进行编码,得到位置的表示。
[0153]
下面结合实施例对上述步骤208即“利用查询图像的第一伪掩码和支持图像的第一伪掩码,对查询图像的第一特征表示和支持图像的第一特征表示进行相关性匹配”进行详细描述。
[0154]
本步骤可以由图3所示模型结构中的相关性匹配单元执行。由于查询图像和支持图像都包含有目标描述文本所指示的目标,但背景通常差异较大,因此理论上来讲查询图像和支持图像在目标区域上的特征相关性较大,背景区域的特征相关性较小。基于此可以有效地预测出查询图像中的目标区域。
[0155]
作为其中一种可实现的方式,可以首先利用查询图像的第一伪掩码对查询图像的第一特征表示进行增强处理,以及利用支持图像的第一伪掩码对所述支持图像的第一特征表示进行增强处理;然后利用增强后的查询图像的第一特征表示和增强后的支持图像的第一特征表示进行相关性匹配。
[0156]
更具体地,然后利用增强后的查询图像的第一特征表示和增强后的支持图像的第一特征表示进行相关性匹配可以具体包括以下步骤s21~s23:
[0157]
步骤s21:利用增强后的所述查询图像的第一特征表示和增强后的所述支持图像的第一特征表示进行交叉注意力处理。
[0158]
本步骤是为了确定支持图像中各图块的特征向量对查询图像中各图块的特征向量的影响程度即交互关系。可以采用如下公式得到一个注意力图a:
[0159][0160]
其中,是利用查询图像的第一伪掩码对查询图像的第一特征表示进行增强的处理,是利用支持图像的第一伪掩码对支持图像的第一特征表示进行增强的处理。sofmax()是一种映射处理函数。上标t为矩阵的转置处理。
[0161]
注意力图是一个与查询图像的大小相同的矩阵,每个值对应查询图像中一个图块,表示支持图像中相同位置的图块对该图块的影响程度。
[0162]
步骤s22:利用交叉注意力处理的结果和支持图像的第一特征表示,得到支持图像
的第三目标原型表示。
[0163]
在本技术实施例中,可以将支持图像的第一特征表示和注意力图a的乘积来突出目标区域,并通过聚类图标区域图块提取一个更集中的目标原型表示,即第三目标原型表示pa,例如可以采用如下公式:
[0164][0165]
其中,a
x,y
为图块(x,y)在注意力图中对应的值,f
sx,y
为图块(x,y)在支持图像的第一特征表示中对应的向量,为图块(x,y)在支持图像的第一伪掩码中对应的值。
[0166]
步骤s23:将支持图像的第三目标原型表示与增强后的查询图像的第一特征表示进行相关性匹配,和/或,将支持图像的第三目标原型表示与查询图像的第一特征表示进行相关性匹配。
[0167]
例如将支持图像的第三原型表示与增强后的查询图像的第一特征表示进行相关性匹配,得到第一相关图m
rcm
,可以采用如下公式确定:
[0168][0169]
第二相关图m
fcm
可以采用如下公式确定:
[0170][0171]
下面结合实施例对上述步骤210即“利用相关性匹配的结果进行解码处理,得到对查询图像的分割结果,分割结果包括目标区域的位置信息”。
[0172]
本步骤中,可以将相关性匹配的结果输入图3中所示的解码单元,由解码单元对相关性匹配的结果进行解码处理,预测查询图像中各图块是否属于目标区域。
[0173]
上述相关性匹配的结果可以是第一相关图m
rcm
,也可以是第二相关图m
fcm
,还可以是第一相关图m
rcm
和第二相关图m
fcm
。若是第一相关图m
rcm
和第二相关图m
fcm
,可以将第一相关图m
rcm
和第二相关图m
fcm
进行拼接后,将得到的拼接矩阵提供给解码单元。
[0174]
解码单元可以采用分类网络,将相关性匹配的结果映射到具体的分类结果上。本技术实施例的分类主要包括目标区域和非目标区域(即背景区域),即预测查询图像中各图块是否属于目标区域,依据属于目标区域的图块的位置信息得到分割结果。例如,若目标为马,则从分割结果中可以获得查询图像中马对应的区域。
[0175]
在上述图2所示流程以及图3所示模型架构的基础上,还可以进一步包括:利用支持图像的第一伪掩码以及支持图像的第一特征表示,得到支持图像的n个第四目标原型表示,n为正整数;利用支持图像n个第四目标原型表示和支持图像的第一特征表示的相关性,确定支持图像的目标关联表示。此时对应的模型架构可以如图4中所示,该进一步执行的处理可以由原型监督单元执行。
[0176]
原型监督单元主要是通过确定支持图像的目标原型表示,并计算其与支持图像的第一特征表示的相关性,来突出支持图像的第一特征表示与目标的关联映射。若上述n的取值为1,则采用的是一种较粗粒度的目标关联方式。若n取值越大,则粒度越小,但对计算性
能的影响会随之增大。因此可以根据经验或实验状况来取值,例如n取5。
[0177]
其中,利用支持图像的第一伪掩码以及支持图像的第一特征表示,得到支持图像的n个第四目标原型表示的过程可以包括以下步骤s31~步骤s32:
[0178]
步骤s31:利用支持图像的第一伪掩码,从支持图像的目标区域中确定n个种子点。
[0179]
本步骤中,可以直接依据支持图像的第一伪掩码所指示的目标区域,从目标区域中随机选择n个种子点。但由于第一伪掩码是一种比较粗糙的掩码结果,有可能选择出的n个种子点实际上位于背景区域。因此,本技术实施例提供了一种更优选的方式:
[0180]
首先利用支持图像的第一伪掩码所示出的目标区域中确定n个初始种子点。初始种子点可以从第一伪掩码所示出的目标区域中随机选择,也可以尽可能选择远离掩码边界和其他种子点的地方。也就是说,尽可能保证种子点之间远离,且种子点远离掩码边界(即目标区域与背景区域的边界)。
[0181]
然后可以进一步对初始种子点的位置进行纠正,确定最终的种子点。即分别针对各初始种子点执行:将与初始种子点预设距离范围内的图块分别与第五目标原型表示进行相似度计算,选择对应相似度满足预设相似度要求的图块作为确定出的种子点。
[0182]
例如,可以在初始种子点周围n*n的网格进行采样,n为预设的正整数。分别将采样的点与支持图像的第五目标原型进行如下相似度计算,得到相似度s
i,j
:
[0183][0184]
其中g
i,j
为采样点(i,j)在支持图像的第一特征表示中对应的特征向量,第五目标原型表示pf可以是查询图像的第五目标原型表示,也可以是支持图像的第五目标原型表示。
[0185]
其中,查询图像的第五目标原型表示是利用查询图像的第一伪掩码与查询图像的第一特征表示得到的。支持图像的第五目标原型表示是利用支持图像的第一伪掩码与支持图像的第一特征表示得到的。可以采用诸如公式(1)所示方式确定。
[0186]
步骤s32:利用n个种子点和支持图像的第一特征表示,对支持图像中图块在第一特征表示中对应的向量进行聚类,得到支持图像的n个第四目标原型表示。
[0187]
确定出n个种子点后,利用n个种子点对支持图像中的各图块在第一特征表示中对应的向量进行聚类,实际上就是聚类得到n个类簇,每个类簇实际上均是目标子区域,可以利用每个类簇质心的特征向量,得到支持图像的n个第四目标原型表示。
[0188]
确定出第四目标原型表示后,在利用支持图像的n个第四目标原型表示和支持图像的第一特征表示的相关性,确定所述支持图像的目标关联表示时,可以分别针对支持图像中的各图块,确定图块在第一特征表示中对应的向量与支持图像的n个第四目标原型表示的相似度均值;利用所示支持图像中各图块对应的相似度均值得到支持图像的目标关联表示。例如,可以采用如下公式确定目标关联表示p:
[0189][0190]
其中,为支持图像的第k个第四目标原型表示。
[0191]
继续参见图4,确定出支持图像的目标关联表示p后,将支持图像的目标关联表示p
输入解码单元。解码单元将支持图像的目标关联表示p、第一相关图m
rcm
和第二相关图m
fcm
进行拼接后,将得到的拼接矩阵进行解码处理,得到对查询图像的分割结果。
[0192]
若采用多个支持图像,则可以这对各支持图像分别得到p、m
rcm
和m
fcm
,对所有p、m
rcm
和m
fcm
进行拼接后解码,或者分别对各支持图像对应p、m
rcm
和m
fcm
进行求平均,得到平均处理后的p、m
rcm
和m
fcm
,然后进行拼接后解码。
[0193]
图5为本技术实施例提供的训练图像分割模型的方法流程图,该方法可以由图1所示系统中的模型训练装置执行。如图5中所示,该方法可以包括以下步骤:
[0194]
步骤502:获取包括多个训练样本的训练数据,训练样本包括:查询图像样本、查询图像样本的支持图像样本、查询图像样本对应的目标描述文本以及对查询图像样本中的目标区域标注的掩码标签,其中查询图像样本与支持图像样本均包含目标描述文本所指示的目标。
[0195]
在本技术实施例中可以获取少量包含相同目标的图像,针对这些图像提供目标描述文本,并对这些图像中的目标区域标注掩码标签。标注的掩码标签可以认为是准确的标签,是图像分割模型学习的目标,可以采用人工的方式进行标注。
[0196]
步骤504:利用训练数据训练图像分割模型,图像分割模型利用目标描述文本针对查询图像样本和支持图像样本分别生成第一伪掩码,第一伪掩码为相应图像样本中的目标区域被掩码后得到的;对查询图像样本和支持图像样本分别进行编码处理,得到查询图像样本的第一特征表示和支持图像样本的第一特征表示;利用查询图像样本的第一伪掩码和支持图像样本的第一伪掩码,对查询图像样本的第一特征表示和支持图像样本的第一特征表示进行相关性匹配;利用相关性匹配的结果进行解码处理,得到对查询图像样本的分割结果,分割结果包括目标区域的位置信息;训练的目标包括最小化图像分割模型得到的对查询图像样本的分割结果与对应掩码标签之间的差异。
[0197]
图像分割模型的结构可以采用图3中所示的结构。由伪掩码生成单元针对查询图像样本和支持图像样本分别生成第一伪掩码。
[0198]
具体地,伪掩码生成单元可以将查询图像和支持图像分别作为待掩码图像执行:将目标描述文本和待掩码图像输入掩码生成器,得到待掩码图像的第二伪掩码;获取待掩码图像的第一特征表示;利用第二伪掩码和待掩码图像的第一特征表示,获取待掩码图像的第一目标原型表示和第一背景原型表示;利用待掩码图像的第一特征表示分别与第一目标原型表示、第一背景原型表示之间的相似度,得到待掩码图像的第一伪掩码。
[0199]
由编码单元对查询图像样本和支持图像样本分别进行编码处理,得到查询图像样本的第一特征表示和支持图像样本的第一特征表示。
[0200]
由相关性匹配单元利用查询图像样本的第一伪掩码和支持图像样本的第一伪掩码,对查询图像样本的第一特征表示和支持图像样本的第一特征表示进行相关性匹配。
[0201]
作为其中一种可实现的方式,相关性匹配单元可以利用查询图像的第一伪掩码对查询图像的第一特征表示进行增强处理,以及利用支持图像的第一伪掩码对支持图像的第一特征表示进行增强处理;利用增强后的查询图像的第一特征表示和增强后的支持图像的第一特征表示进行相关性匹配。
[0202]
其中,相关性匹配单元可以利用增强后的查询图像的第一特征表示和增强后的支持图像的第一特征表示进行交叉注意力处理;利用交叉注意力处理的结果和支持图像的第
一特征表示,得到支持图像的第三目标原型表示;将支持图像的第三目标原型表示与增强后的查询图像的第一特征表示进行相关性匹配,和/或,将支持图像的第三目标原型表示与查询图像的第一特征表示进行相关性匹配。
[0203]
由解码单元利用相关性匹配的结果进行解码处理,得到对查询图像样本的分割结果,分割结果包括目标区域的位置信息。
[0204]
更进一步地,如图4中所示,原型监督单元可以利用支持图像的第一伪掩码以及支持图像的第一特征表示,得到支持图像的n个第四目标原型表示,n为正整数;利用支持图像的n个第四目标原型表示和支持图像的第一特征表示的相关性,确定支持图像的目标关联表示。
[0205]
相应地,解码单元可以利用相关性匹配的结果以及支持图像的目标关联表示进行解码处理。
[0206]
作为其中一种可实现的方式,原型监督单元可以利用支持图像的第一伪掩码,从支持图像的目标区域中确定n个种子点;利用n个种子点和支持图像的第一特征表示,对支持图像中图块在第一特征表示中对应的向量进行聚类,得到支持图像的n个第四目标原型表示。
[0207]
作为其中过一种可实现的方式,原型监督单元可以分别针对支持图像中的各图块,确定图块在第一特征表示中对应的向量与支持图像的n个第四目标原型表示的相似度均值;利用所示支持图像中各图块对应的相似度均值得到支持图像的目标关联表示。
[0208]
关于图像分割模型的具体结构和原理可以参见图像分割方法实施例中的相关记载,在此不做赘述。
[0209]
针对图像分割模型的训练目标可以包括最小化图像分割模型得到的对查询图像样本的分割结果与对应掩码标签之间的差异。可以针对该训练目标预先设计损失函数,在每一轮迭代中利用损失函数的取值,采用诸如梯度下降等方式更新模型参数,直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值,迭代次数达到预设的次数阈值等。
[0210]
另外,在模型训练时,可以从包含相同目标的图像中选择一个图像作为查询图像,并选择支持图像。利用图像分割模型预测该查询图像的分割结果,然后再将该查询图像作为支持图像,将支持图像作为查询图像,针对新的查询图像预测该查询图像的分割结果。然后综合两个分割结果与两个图像分别被标注的掩码标签之间的差异,例如将利用两个图像的分割结果和对应掩码标签之间差异得到的两个损失函数进行加权求和,得到总损失函数,再利用总损失函数的取值反向更新模型参数。
[0211]
本技术提供的上述方法可以应用于多种应用场景,在此以卫星成像领域的遥感图像分割为例进行简单描述。对于遥感图像而言,具有尺寸变化多、目标复杂、且标注困难等特点,通过本技术实施例提供的方式可以在小样本基础上,实现对遥感图像的准确分割。
[0212]
具体地,可以采用图3所示图像分割模型。首先获取待分割的遥感图像作为查询图像,以及获取查询图像的支持图像以及查询图像对应的地物描述文本,其中支持图像为与所述查询图像包含地物描述文本所指示地物的遥感图像。
[0213]
遥感图像往往是通过卫星、航天器等方式对地面进行拍摄得到的,对遥感图像的分割需求往往是对特定类型的地物进行分割。所述地物可以包括道路、建筑物、植被、水体
等等。例如对遥感图像中的道路进行分割,则可以针对遥感图像设置诸如“这是道路图片”、“图片中包含道路”等地物描述文本。
[0214]
然后利用地物描述文本针对查询图像和支持图像分别生成第一伪掩码,第一伪掩码为相应图像中的地物区域被掩码后得到的。
[0215]
再对查询图像和支持图像分别进行编码处理,得到查询图像的第一特征表示和所述支持图像的第一特征表示。
[0216]
接着利用查询图像的第一伪掩码和所述支持图像的第一伪掩码,对查询图像的第一特征表示和支持图像的第一特征表示进行相关性匹配。
[0217]
最后利用相关性匹配的结果进行解码处理,得到对查询图像的分割结果,分割结果包括地物区域的位置信息,例如道路区域的位置信息即哪些图块属于道路区域。
[0218]
或者,也可以采用图4所示图像分割模型,利用支持图像的第一伪掩码以及支持图像的第一特征表示,得到支持图像的n个第四目标原型表示,n为正整数;利用支持图像的n个第四目标原型表示和支持图像的第一特征表示的相关性,确定支持图像的目标关联表示。解码单元将支持图像的目标关联表示和上述的相关性匹配结果进行拼接后,对拼接得到的拼接矩阵进行解码处理,得到查询图像的分割结果。
[0219]
具体细节参见之前方法实施例中的相关记载,在此不做赘述。
[0220]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0221]
图6为本技术实施例提供的图像分割装置的示意性框图,如图6中所示,该装置可以包括:输入单元601、伪掩码生成单元602、编码单元603、相关性匹配单元604和解码单元605,还可以进一步包括原型监督单元606。其中各组成单元的主要功能如下:
[0222]
输入单元601,被配置为获取待分割图像作为查询图像,以及获取查询图像的支持图像以及查询图像对应的目标描述文本,其中支持图像与查询图像均包含目标描述文本所指示的目标。
[0223]
伪掩码生成单元602,被配置为利用目标描述文本针对查询图像和支持图像分别生成第一伪掩码,第一伪掩码为相应图像中目标区域被掩码后得到的。
[0224]
编码单元603,被配置为对查询图像和支持图像分别进行编码处理,得到查询图像的第一特征表示和支持图像的第一特征表示。
[0225]
相关性匹配单元604,被配置为利用查询图像的第一伪掩码和支持图像的第一伪掩码,对查询图像的第一特征表示和支持图像的第一特征表示进行相关性匹配。
[0226]
解码单元605,被配置为利用相关性匹配的结果进行解码处理,得到对查询图像的分割结果,分割结果包括目标区域的位置信息。
[0227]
作为其中一种可实现的方式,伪掩码生成单元602可以具体被配置为将查询图像和支持图像分别作为待掩码图像执行以下处理:
[0228]
将目标描述文本和待掩码图像输入掩码生成器,得到待掩码图像的第二伪掩码;获取待掩码图像的第一特征表示;利用第二伪掩码和待掩码图像的第一特征表示,获取待
掩码图像的第一目标原型表示和第一背景原型表示;利用待掩码图像的第一特征表示分别与第一目标原型表示、第一背景原型表示之间的相似度,得到待掩码图像的第一伪掩码。
[0229]
作为其中一种可实现的方式,伪掩码生成单元602可以具体被配置为:利用查询图像的第二伪掩码和第一特征表示,得到查询图像的第二目标原型表示;以及利用支持图像的第二伪掩码和第一特征表示,得到支持图像的第二目标原型表示;将查询图像的第二目标原型表示和支持图像的第二目标原型表示进行加权处理,将加权处理后得到的表示作为待掩码图像的第一目标原型表示。
[0230]
作为另一种可实现的方式,伪掩码生成单元602可以具体被配置为:利用待掩码图像的第一特征表示和第二伪掩码,得到待掩码图像的背景特征表示;利用第一映射值与待掩码图像的背景特征表示,得到待掩码图像的第一背景原型表示,其中第一映射值是利用待掩码图像的背景特征表示和第一特征表示进行映射后得到的。
[0231]
作为其中一种可实现的方式,相关性匹配单元604可以具体被配置为:利用查询图像的第一伪掩码对查询图像的第一特征表示进行增强处理,以及利用支持图像的第一伪掩码对支持图像的第一特征表示进行增强处理;利用增强后的查询图像的第一特征表示和增强后的支持图像的第一特征表示进行相关性匹配。
[0232]
其中,相关性匹配单元604可以利用增强后的查询图像的第一特征表示和增强后的支持图像的第一特征表示进行交叉注意力处理;利用交叉注意力处理的结果和支持图像的第一特征表示,得到支持图像的第三目标原型表示;将支持图像的第三原型表示与增强后的查询图像的第一特征表示进行相关性匹配,和/或,将支持图像的第三原型表示与查询图像的第一特征表示进行相关性匹配。
[0233]
更进一步地,原型监督单元606可以利用支持图像的第一伪掩码以及支持图像的第一特征表示,得到支持图像的n个第四目标原型表示,n为正整数;利用支持图像的n个第四目标原型表示和支持图像的第一特征表示的相关性,确定支持图像的目标关联表示。
[0234]
相应地,解码单元605可以利用相关性匹配的结果以及支持图像的目标关联表示进行解码处理。
[0235]
作为其中一种可实现的方式,原型监督单元606可以具体被配置为:利用支持图像的第一伪掩码,从支持图像的目标区域中确定n个种子点;利用n个种子点和支持图像的第一特征表示,对支持图像中图块在第一特征表示中对应的向量进行聚类,得到支持图像的n个第四目标原型表示。
[0236]
更进一步地,原型监督单元606在利用支持图像的第一伪掩码,从支持图像的目标区域中确定n个种子点时,可以利用支持图像的第一伪掩码所示出的目标区域中确定n个初始种子点;分别针对各初始种子点执行:将与初始种子点预设距离范围内的图块分别与第五目标原型表示进行相似度计算,选择对应相似度满足预设相似度要求的图块作为确定出的种子点;其中第五目标原型表示为查询图像的第五目标原型表示或支持图像的第五目标原型表示,查询图像的第五目标原型表示是利用查询图像的第一伪掩码与查询图像的第一特征表示得到的,支持图像的第五目标原型表示是利用支持图像的第一伪掩码与支持图像的第一特征表示得到的。
[0237]
图7为本技术实施例提供的训练图像分割模型的装置结构图,该装置对应于图1所示系统中的模型训练装置。如图7中所示,该装置可以包括:样本获取单元701和模型训练单
元702。其中各组成单元的主要功能如下:
[0238]
样本获取单元701,被配置为获取包括多个训练样本的训练数据,训练样本包括:查询图像样本、查询图像样本的支持图像样本、查询图像样本对应的目标描述文本以及对查询图像样本中的目标区域标注的掩码标签,其中查询图像样本与支持图像样本均包含目标描述文本所指示的目标。
[0239]
模型训练单元702,被配置为利用训练数据训练图像分割模型,图像分割模型利用目标描述文本针对查询图像样本和支持图像样本分别生成第一伪掩码,第一伪掩码为相应图像样本中的目标区域被掩码后得到的;对查询图像样本和支持图像样本分别进行编码处理,得到查询图像样本的第一特征表示和支持图像样本的第一特征表示;利用查询图像样本的第一伪掩码和支持图像样本的第一伪掩码,对查询图像样本的第一特征表示和支持图像样本的第一特征表示进行相关性匹配;利用相关性匹配的结果进行解码处理,得到对查询图像样本的分割结果,分割结果包括目标区域的位置信息;训练的目标包括最小化图像分割模型得到的对查询图像样本的分割结果与对应掩码标签之间的差异。
[0240]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0241]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0242]
另外,本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
[0243]
以及一种电子设备,包括:
[0244]
一个或多个处理器;以及
[0245]
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
[0246]
本技术还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
[0247]
其中,图8示例性的展示出了电子设备的架构,具体可以包括处理器810,视频显示适配器811,磁盘驱动器812,输入/输出接口813,网络接口814,以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820之间可以通过通信总线830进行通信连接。
[0248]
其中,处理器810可以采用通用的cpu、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术所提供的技术方案。
[0249]
存储器820可以采用rom(read only memory,只读存储器)、ram(randomaccess memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821,用于控制电子设备800的低级别操作的基本输入输出系统(bios)822。另外,还可以存储网页浏览器823,数据存储管理系统824,以及图像分割装置/模型训练装置825等等。上述图像分割装置/模型训练装置825就可以是本技术实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本技术所提供的技术方案时,相关的程序代码保存在存储器820中,并由处理器810来调用执行。
[0250]
输入/输出接口813用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0251]
网络接口814用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0252]
总线830包括一通路,在设备的各个组件(例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,与存储器820)之间传输信息。
[0253]
需要说明的是,尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814,存储器820,总线830等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本技术方案所必需的组件,而不必包含图中所示的全部组件。
[0254]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来,该计算机程序产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0255]
以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种图像分割方法,其特征在于,所述方法包括:获取待分割图像作为查询图像,以及获取所述查询图像的支持图像以及查询图像对应的目标描述文本,其中所述支持图像与所述查询图像均包含所述目标描述文本所指示的目标;利用所述目标描述文本针对所述查询图像和所述支持图像分别生成第一伪掩码,所述第一伪掩码为相应图像中目标区域被掩码后得到的;对所述查询图像和所述支持图像分别进行编码处理,得到所述查询图像的第一特征表示和所述支持图像的第一特征表示;利用所述查询图像的第一伪掩码和所述支持图像的第一伪掩码,对所述查询图像的第一特征表示和所述支持图像的第一特征表示进行相关性匹配;利用所述相关性匹配的结果进行解码处理,得到对所述查询图像的分割结果,所述分割结果包括目标区域的位置信息。2.根据权利要求1所述的方法,其特征在于,所述生成第一伪掩码包括:将所述查询图像和所述支持图像分别作为待掩码图像执行以下步骤:将所述目标描述文本和待掩码图像输入掩码生成器,得到所述待掩码图像的第二伪掩码;获取所述待掩码图像的第一特征表示;利用所述第二伪掩码和所述待掩码图像的第一特征表示,获取所述待掩码图像的第一目标原型表示和第一背景原型表示;利用所述待掩码图像的第一特征表示分别与所述第一目标原型表示、第一背景原型表示之间的相似度,得到所述待掩码图像的第一伪掩码。3.根据权利要求2所述的方法,其特征在于,利用所述第二伪掩码和所述待掩码图像的第一特征表示,获取所述待掩码图像的第一目标原型表示包括:利用所述查询图像的第二伪掩码和第一特征表示,得到所述查询图像的第二目标原型表示;以及利用所述支持图像的第二伪掩码和第一特征表示,得到所述支持图像的第二目标原型表示;将所述查询图像的第二目标原型表示和所述支持图像的第二目标原型表示进行加权处理,将加权处理后得到的表示作为所述待掩码图像的第一目标原型表示;利用所述第二伪掩码和所述待掩码图像的第一特征表示,获取所述待掩码图像的第一背景原型表示包括:利用所述待掩码图像的第一特征表示和第二伪掩码,得到所述待掩码图像的背景特征表示;利用第一映射值与所述待掩码图像的背景特征表示,得到所述待掩码图像的第一背景原型表示,其中所述第一映射值是利用所述待掩码图像的背景特征表示和第一特征表示进行映射后得到的。4.根据权利要求1所述的方法,其特征在于,利用所述查询图像的第一伪掩码和所述支持图像的第一伪掩码,对所述查询图像的第一特征表示和所述支持图像的第一特征表示进行相关性匹配包括:利用所述查询图像的第一伪掩码对所述查询图像的第一特征表示进行增强处理,以及利用所述支持图像的第一伪掩码对所述支持图像的第一特征表示进行增强处理;利用增强后的所述查询图像的第一特征表示和增强后的所述支持图像的第一特征表
示进行相关性匹配。5.根据权利要求4所述的方法,其特征在于,所述利用增强后的所述查询图像的第一特征表示和增强后的所述支持图像的第一特征表示进行相关性匹配包括:利用增强后的所述查询图像的第一特征表示和增强后的所述支持图像的第一特征表示进行交叉注意力处理;利用所述交叉注意力处理的结果和所述支持图像的第一特征表示,得到所述支持图像的第三目标原型表示;将所述支持图像的第三原型表示与增强后的所述查询图像的第一特征表示进行相关性匹配,和/或,将所述支持图像的第三原型表示与所述查询图像的第一特征表示进行相关性匹配。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用所述支持图像的第一伪掩码以及所述支持图像的第一特征表示,得到所述支持图像的n个第四目标原型表示,所述n为正整数;利用所述支持图像的n个第四目标原型表示和所述支持图像的第一特征表示的相关性,确定所述支持图像的目标关联表示;利用所述相关性匹配的结果进行解码处理包括:利用所述相关性匹配的结果以及所述支持图像的目标关联表示进行解码处理。7.根据权利要求6所述的方法,其特征在于,利用所述支持图像的第一伪掩码以及所述支持图像的第一特征表示,得到所述支持图像的n个第四目标原型表示包括:利用所述支持图像的第一伪掩码,从所述支持图像的目标区域中确定n个种子点;利用所述n个种子点和所述支持图像的第一特征表示,对所述支持图像中图块在第一特征表示中对应的向量进行聚类,得到所述支持图像的n个第四目标原型表示。8.根据权利要求6所述的方法,其特征在于,利用所述支持图像的n个第四目标原型表示和所述支持图像的第一特征表示的相关性,确定所述支持图像的目标关联表示包括:分别针对所述支持图像中的各图块,确定图块在所述第一特征表示中对应的向量与所述支持图像的n个第四目标原型表示的相似度均值;利用所示支持图像中各图块对应的相似度均值得到所述支持图像的目标关联表示。9.一种图像分割方法,其特征在于,所述方法包括:获取待分割的遥感图像作为查询图像,以及获取所述查询图像的支持图像以及查询图像对应的地物描述文本,其中所述支持图像为与所述查询图像包含所述地物描述文本所指示地物的遥感图像;利用所述地物描述文本针对所述查询图像和所述支持图像分别生成第一伪掩码,所述第一伪掩码为相应图像中的地物区域被掩码后得到的;对所述查询图像和所述支持图像分别进行编码处理,得到所述查询图像的第一特征表示和所述支持图像的第一特征表示;利用所述查询图像的第一伪掩码和所述支持图像的第一伪掩码,对所述查询图像的第一特征表示和所述支持图像的第一特征表示进行相关性匹配;利用所述相关性匹配的结果进行解码处理,得到对所述查询图像的分割结果,所述分割结果包括地物区域的位置信息。10.一种训练图像分割模型的方法,其特征在于,所述方法包括:
获取包括多个训练样本的训练数据,所述训练样本包括:查询图像样本、所述查询图像样本的支持图像样本、查询图像样本对应的目标描述文本以及对所述查询图像样本中的目标区域标注的掩码标签,其中所述查询图像样本与所述支持图像样本均包含所述目标描述文本所指示的目标;利用所述训练数据训练图像分割模型,所述图像分割模型利用所述目标描述文本针对所述查询图像样本和所述支持图像样本分别生成第一伪掩码,所述第一伪掩码为相应图像样本中的目标区域被掩码后得到的;对所述查询图像样本和所述支持图像样本分别进行编码处理,得到所述查询图像样本的第一特征表示和所述支持图像样本的第一特征表示;利用所述查询图像样本的第一伪掩码和所述支持图像样本的第一伪掩码,对所述查询图像样本的第一特征表示和所述支持图像样本的第一特征表示进行相关性匹配;利用所述相关性匹配的结果进行解码处理,得到对所述查询图像样本的分割结果,所述分割结果包括目标区域的位置信息;所述训练的目标包括最小化所述图像分割模型得到的对所述查询图像样本的分割结果与对应掩码标签之间的差异。11.一种图像分割装置,其特征在于,所述装置包括:输入单元,被配置为获取待分割图像作为查询图像,以及获取所述查询图像的支持图像以及查询图像对应的目标描述文本,其中所述支持图像与所述查询图像均包含所述目标描述文本所指示的目标;伪掩码生成单元,被配置为利用所述目标描述文本针对所述查询图像和所述支持图像分别生成第一伪掩码,所述第一伪掩码为相应图像中目标区域被掩码后得到的;编码单元,被配置为对所述查询图像和所述支持图像分别进行编码处理,得到所述查询图像的第一特征表示和所述支持图像的第一特征表示;相关性匹配单元,被配置为利用所述查询图像的第一伪掩码和所述支持图像的第一伪掩码,对所述查询图像的第一特征表示和所述支持图像的第一特征表示进行相关性匹配;解码单元,被配置为利用所述相关性匹配的结果进行解码处理,得到对所述查询图像的分割结果,所述分割结果包括目标区域的位置信息。12.一种训练图像分割模型的装置,其特征在于,所述装置包括:样本获取单元,被配置为获取包括多个训练样本的训练数据,所述训练样本包括:查询图像样本、所述查询图像样本的支持图像样本、查询图像样本对应的目标描述文本以及对所述查询图像样本中的目标区域标注的掩码标签,其中所述查询图像样本与所述支持图像样本均包含所述目标描述文本所指示的目标;模型训练单元,被配置为利用所述训练数据训练图像分割模型,所述图像分割模型利用所述目标描述文本针对所述查询图像样本和所述支持图像样本分别生成第一伪掩码,所述第一伪掩码为相应图像样本中的目标区域被掩码后得到的;对所述查询图像样本和所述支持图像样本分别进行编码处理,得到所述查询图像样本的第一特征表示和所述支持图像样本的第一特征表示;利用所述查询图像样本的第一伪掩码和所述支持图像样本的第一伪掩码,对所述查询图像样本的第一特征表示和所述支持图像样本的第一特征表示进行相关性匹配;利用所述相关性匹配的结果进行解码处理,得到对所述查询图像样本的分割结果,所述分割结果包括目标区域的位置信息;所述训练的目标包括最小化所述图像分割模型得
到的对所述查询图像样本的分割结果与对应掩码标签之间的差异。13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。14.一种电子设备,其特征在于,包括:一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至10中任一项所述的方法的步骤。
技术总结
本申请实施例公开了一种图像分割方法、训练图像分割模型的方法及装置。主要技术方案包括:获取待分割图像作为查询图像,以及获取查询图像的支持图像以及查询图像对应的目标描述文本;利用目标描述文本针对查询图像和支持图像分别生成第一伪掩码;对查询图像和支持图像分别进行编码处理,得到查询图像的第一特征表示和支持图像的第一特征表示;利用查询图像的第一伪掩码和支持图像的第一伪掩码,对查询图像的第一特征表示和支持图像的第一特征表示进行相关性匹配;利用相关性匹配的结果进行解码处理,得到对查询图像的分割结果,分割结果包括目标区域的位置信息。本申请能够提高小样本场景下图像分割的准确性。样本场景下图像分割的准确性。样本场景下图像分割的准确性。
技术研发人员:王晶 刘宇昂 周强 王志斌
受保护的技术使用者:阿里巴巴达摩院(杭州)科技有限公司
技术研发日:2023.03.09
技术公布日:2023/7/18
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
