基于最优传输的边界校正方法及其系统、介质及设备

未命名 07-23 阅读:102 评论:0


1.本技术涉及计算机视觉领域,特别是涉及一种通过提高语义边界预测准确性来提高语义分割性能的方法及其系统。


背景技术:

2.当前,语义边界区域分割准确度不高,并且准确的边界分割是提高小物体分割性能的一种重要方法,因此目前语义分割研究关注提高语义边界的准确性,来提高语义分割的性能。目前常用的做法是引入边界分支,并通过二元交叉熵(binary crossentropy,bce)损失对预测边界进行监督:
3.现有方案一:gated-scnn
4.如图1所示,gated-scnn提出了一个双流网络如图1所示,上面分支用以提取语义特征,下面分支用以提取边界特征,在推理过程中将语义特征和边界特征融合用以语义分割预测,并使用真实的语义边界对预测的边界通过二元交叉熵损失进行监督:
5.现有方案二:decouplesegnets
6.如图2所示,decouplesegnets提出将网络提取到的图像特征分解为物体内部特征和物体边界特征分别进行监督,然后在将特征合并用以最后的语义分割。同样的,该方法也使用二元交叉熵对预测的语义边界进行监督:
7.上述方法都是使用二元交叉熵损失对预测的语义边界进行监督,损失定义如下:
[0008][0009]
该损失是将边界预测的问题看做逐像素分类的问题,通过计算预测边界分类错误的像素来对边界分割的结果进行评价,但该损失没有考虑到预测边界和真实边界的空间距离,监督不够精准,给出一个示例来阐述上述问题,如图3所示:
[0010]
其中bpred1,bpred2代表两个预测边界的结果,bgt代表真实的语义边界,从空间位置上看,预测的结果bpred1是优于bpred2,因为bpred1距离真实的语义边界bgt更近,但对于二元交叉熵损失来说,bpred1和bpred2在局部的区域边界全部预测错误,因此其难以区分两次边界预测结果的优劣,这说明使用二元交叉熵损失来监督边界预测的结果是不够准确和全面的。
[0011]
因此,亟需提出一种新型基于最优传输的边界校正的方法,可以解决目前现有技术中存在的针对边界的二元交叉熵损失函数没有考虑到预测边界和真实边界的距离,对边界监督不够精准,导致边界分割准确度不高,影响语义分割性能的缺陷。


技术实现要素:

[0012]
为了解决上述现有技术的缺陷,本技术实施例提供了一种基于最优传输的边界校正方法,以解决使用二元交叉熵损失对语义边界监督不准确的问题,提出了一种基于最优传输的边界校正方法。
[0013]
第一方面,本技术实施例提供了一种基于最优传输的边界校正方法,该方法包括:
[0014]
通用语义分割步骤:基于通用语义分割网络进行特征提取、特征增强及逐像素的分类操作,输出语义分割监督的损失值;
[0015]
边界预测步骤:在通用语义分割网络后引入一边界分支,基于边界分支计算预测边界的初始位置,并通过语义边界损失进行监督;
[0016]
边界校正步骤:将边界分支的每个像素预测结果进行归一化,通过最优传输计算语义边界定位损失,通过不断训练进行语义边界损失的校正,达到边界区域分割的最优准确度。
[0017]
优选的,本发明具体实施例中,上述通用语义分割步骤进一步包括:基于语义分割监督的损失函数l
ce
对预测语义的结果l
pred
及真实的语义结果l
gt
,进行语义分割监督,输出语义分割监督的损失值。
[0018]
优选的,本发明具体实施例中,上述边界预测步骤包括:在所述通用语义分割网络后通过一个边界预测分支进行边界预测,由卷积层和sigmoid激活层组成,预测结果通过二元交叉熵损失进行监督。
[0019]
优选的,本发明具体实施例中,上述边界校正步骤包括:
[0020]
预测边界的结果计算步骤:计算b
pred
(i,j)的归一化结果其中,b
pred
(i,j)为预测边界的结果;
[0021]
边界区域的目标分布计算步骤:计算b
target
(i,j)的归一化结果其中,b
target
(i,j)为目标边界的结果;
[0022]
传输代价计算步骤:计算源分布上每个位置像素ps到目标分布p
t
每个位置像素的欧氏距离作为传输的代价,c
st
=(p
s-p
t
)2,完成传输代价矩阵的构建;
[0023]
边界监督步骤:计算边界最优传输问题的目标值其中,π为最优传输方案,c为传输代价矩阵,u为最优传输方案的集合,代表从源分布到目标分布的传输矩阵集合;
[0024]
边界最优传输的约束条件为:其中,ns代表离散的源分布存在情况,n
t
代表离散的目标分布存在情况;
[0025]
最小传输代价对预测的边界进行了监督,定义lopt为语义边界校正损失函数:
[0026]
其中,bpred为预测边界的结果,bgt代表真实的语义边界,α和β代表目标分布和源分布的转移概率矩阵。
[0027]
优选的,本发明具体实施例中,上述边界校正步骤还包括:
[0028]
网络损失函数为:
[0029][0030]
其中,l
ce
是用以语义分割监督的损失函数,l
opt
是语义边界校正损失函数,l
bce
是二元交叉熵损失,代表语义边界定位损失函数,y
pred
为语义分割预测结果,y
gt
为真实语义分割结果,λ1及λ2为权重参数。
[0031]
优选的,本发明具体实施例中,上述边界监督步骤还包括:
[0032]
边界最优传输问题的目标为:
[0033]
其中,α代表目标分布的转移概率矩阵,β代表源分布的转移概率矩阵,rn代表转移矩阵。
[0034]
优选的,本发明具体实施例中,上述边界分支包括:卷积层、正则化层及激活层堆叠而成,所述激活层的激活函数为sigmoid,将所述边界分支每个像素预测的结果归一化到(0,1)范围,每个所述像素的值代表其属于边界的概率。
[0035]
第二方面,本技术实施例提供了一种基于最优传输的边界校正系统,采用如上所述基于最优传输的边界校正方法,所述系统包括:
[0036]
通用语义分割模块:基于通用语义分割网络进行特征提取、特征增强及逐像素的分类操作,输出语义分割监督的损失值;
[0037]
边界预测模块:在通用语义分割网络后引入一边界分支,基于边界分支计算预测边界的初始位置,并通过语义边界损失进行监督;
[0038]
边界校正模块:将边界分支的每个像素预测结果进行归一化,通过最优传输计算语义边界定位损失,通过不断训练进行语义边界损失的校正,达到边界区域分割的最优准确度。
[0039]
第三方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的基于最优传输的边界校正方法的步骤。
[0040]
第四方面,本技术实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的基于最优传输的边界校正方法的步骤。
[0041]
相比于相关现有技术,具有以下突出的有益效果:
[0042]
1、本发明将语义边界预测建模为最优传输问题,计算预测边界到真实边界的最小传输代价对语义边界进行更准确的监督,提高了边界区域分割的准确性,进而提高了语义分割的性能;
[0043]
2、本发明提出了一种基于最优传输边界校正的语义分割方法,该方法只是在训练阶段通过最优传输为语义边界提供额外监督,在推理阶段可以将边界分支去除,从而不增加推理阶段的计算量和参数量。
附图说明
[0044]
此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本申
请的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0045]
图1为现有技术gated-scnn方法示意图;
[0046]
图2为现有技术decouplesegnets方法示意图;
[0047]
图3为现有技术监督精度示意图;
[0048]
图4为本发明基于最优传输的边界校正方法示意图;
[0049]
图5为本发明具体实施例边界校正网络示意图;
[0050]
图6为本发明具体实施例分割结果示意图;
[0051]
图7为本发明基于最优传输的边界校正系统示意图;
[0052]
图8为本发明计算机硬件示意图。
[0053]
以上图中:
[0054]
10通用语义分割模块20边界预测模块
[0055]
30边界校正模块。
具体实施方式
[0056]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0057]
显而易见地,下面描述中的附图仅仅是本技术的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本技术应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
[0058]
本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。
[0059]
在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本技术所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0060]
除非另作定义,本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指两个
或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0061]
本发明旨在在进行提高语义分割准确性研究时,发现现有技术中针对边界的二元交叉熵损失函数没有考虑到预测边界和真实边界的距离,对边界监督不够精准,导致边界分割准确度不高,影响语义分割的性能;发明人为了解决该缺陷,将边界预测建模为最优传输问题,通过计算预测边界到真实边界的最小传输代价来对边界预测的结果进行监督,有效地提高边界分割的准确性。
[0062]
本发明将语义边界预测建模为最优传输问题,计算预测边界到真实边界的最小传输代价对语义边界进行更准确的监督,提高了边界区域分割的准确性,进而提高了语义分割的性能;
[0063]
本发明提出了一种基于最优传输边界校正的语义分割方法,该方法只是在训练阶段通过最优传输为语义边界提供额外监督,在推理阶段可以将边界分支去除,从而不增加推理阶段的计算量和参数量。
[0064]
如图4所示,本技术实施例提供了一种基于最优传输的边界校正方法,该方法包括:
[0065]
通用语义分割步骤s10:基于通用语义分割网络进行特征提取、特征增强及逐像素的分类操作,输出语义分割监督的损失值;
[0066]
边界预测步骤s20:在通用语义分割网络后引入一边界分支,基于边界分支计算预测边界的初始位置,并通过语义边界损失进行监督;
[0067]
边界校正步骤s30:将边界分支的每个像素预测结果进行归一化,通过最优传输计算语义边界定位损失,通过不断训练进行语义边界损失的校正,达到边界区域分割的最优准确度。
[0068]
本发明具体实施例中,上述通用语义分割步骤s10进一步包括:基于语义分割监督的损失函数l
ce
对预测语义的结果l
pred
及真实的语义结果l
gt
,进行语义分割监督,输出语义分割监督的损失值。
[0069]
优选的,本发明具体实施例中,上述边界预测步骤s20包括:在所述通用语义分割网络后通过一个边界预测分支进行边界预测,由卷积层和sigmoid激活层组成,预测结果通过二元交叉熵损失进行监督。
[0070]
优选的,本发明具体实施例中,上述边界校正步骤s30包括:
[0071]
预测边界的结果计算步骤:计算b
pred
(i,j)的归一化结果其中,b
pred
(i,j)为预测边界的结果;
[0072]
边界区域的目标分布计算步骤:计算b
target
(i,j)的归一化结果其中,b
target
(i,j)为目标边界的结果;
[0073]
传输代价计算步骤:计算源分布上每个位置像素ps到目标分布p
t
每个位置像素的
欧氏距离作为传输的代价,c
st
=(p
s-p
t
)2,完成传输代价矩阵的构建;
[0074]
边界监督步骤:计算边界最优传输问题的目标值其中,π为最优传输方案,c为传输代价矩阵,u为最优传输方案的集合,代表从源分布到目标分布的传输矩阵集合。
[0075]
边界最优传输的约束条件为:其中,ns代表离散的源分布存在情况,n
t
代表离散的目标分布存在情况;
[0076]
最小传输代价对预测的边界进行了监督,定义lopt为语义边界校正损失函数:
[0077]
其中,bpred为预测边界的结果,bgt代表真实的语义边界,α和β代表目标分布和源分布的转移概率矩阵。
[0078]
优选的,本发明具体实施例中,上述边界校正步骤s30还包括:
[0079]
网络损失函数为:
[0080][0081]
其中,l
ce
是用以语义分割监督的损失函数,l
opt
是语义边界校正损失函数,l
bce
是二元交叉熵损失,代表语义边界定位损失函数,y
pred
为语义分割预测结果,y
gt
为真实语义分割结果,λ1及λ2为权重参数。
[0082]
优选的,本发明具体实施例中,上述边界监督步骤还包括:
[0083]
边界最优传输问题的目标为:
[0084]
其中,α代表目标分布的转移概率矩阵,β代表源分布的转移概率矩阵,rn代表转移矩阵。
[0085]
优选的,本发明具体实施例中,上述边界分支包括:卷积层、正则化层及激活层堆叠而成,所述激活层的激活函数为sigmoid,将所述边界分支每个像素预测的结果归一化到(0,1)范围,每个所述像素的值代表其属于边界的概率。
[0086]
以下结合附图,对本发明具体实施例进行详细说明:
[0087]
1、网络结构
[0088]
如图5所示,该发明提出的基于最优传输的边界校正网络整体结构如下图所示,包括通用的语义分割模块和边界分支。通用的语义分割网络一般包括骨干网络用以特征提取,上下文模块用以特征增强和由若干层卷积构成的分类器用以逐像素的分类。
[0089]
为了预测语义边界并进行监督,该发明在骨干网络后面额外引入了一个边界分支用以边界预测,该分支是由卷积层,正则化(batchnorm)层,激活层堆叠而成。最后一层激活函数为sigmoid,将边界分支每个像素预测的结果归一化到(0,1)范围,每个像素的值代表其属于边界的概率。从整体网络结构可以看出,本发明提出的边界校正网络是一个通用的
即插即用的模块,适合于各种主流的语义分割网络结构。由于本发明没有显式地把边界分支提取到的特征融合到语义分支中,那么在网络的推理阶段可以将边界分支去掉,因此该分支不增加推理阶段的计算复杂度。
[0090]
2、边界最优问题建模
[0091]
1)边界最优传输问题的目标为:
[0092][0093]
其中π代表的最优传输方案,c代表传输代价矩阵,π代表的是传输方案。该问题的对偶问题为:
[0094][0095]
2)将预测边界和真实边界建模为源分布和目标分布:首先对于预测边界的结果,本发明直接将其归一化:
[0096][0097]
由于原始的分割数据集只包括语义分割的标签,为了构建目标分布需要从中先提取出语义边界的标签。因此对于数据集中的每一类,本发明首先计算其他类到该类像素的最小距离,距离小于2个像素的为语义边界,进一步将其归一化得到边界区域的目标分布:
[0098][0099]
3)为了反映预测边界和真实边界的空间距离,本发明首先计算源分布上每个位置像素ps到目标分布pt每个位置像素的欧氏距离作为传输的代价,即cst=(ps-pt)2,通过这样的方式完成代价矩阵的构建,那么最优传输求解后的最小代价反映了从预测边界到真实边界的空间距离,基于此为预测的边界提供额外的监督。
[0100][0101]
4)边界最优传输的约束条件为:
[0102][0103]
第一约束条件:源分布转移概率矩阵之和为源分布概率值;
[0104]
第二约束条件:目标分布转移概率矩阵之和为目标分布概率值;
[0105]
第三约束条件:任意源分布到目标分布转移概率不小于0。
[0106]
5)边界最优传输问题求解:从上面建模可以知道,边界最优传输显然是一个线性规划问题,而线性规划问题的求解复杂度往往比较高。本发明引入熵正则化的约束,并使用sinkhorn-knopp算法对上述问题进行迭代求解。并基于最小传输代价对预测的边界进行了监督,定义如下:
[0107][0108]
总的来说,上述网络损失函数为,
[0109][0110]
其中,lce是用以语义分割监督的损失函数,lbce和lopt是用以边界预测的损失函数,lbce是语义边界定位损失,lopt是语义边界校正损失。λ1及λ2权重参数,本发明具体实施例中设置λ1及λ2分别为15,0.1,但本发明并不限于此,λ1及λ2还可以设置其他数值范围。
[0111][0112][0113]
其中,wh代表特征尺寸,k代表语义类别个数,σ代表sigmoid函数,真实语义类别,p
ik
预测的语义分割概率,b
gti
真实语义边界,b
predi
预测的语义边界。
[0114]
本发明在不增加推理阶段计算量和参数量的情况下,提高了边界区域分割的准确性,进而提高了语义分割的性能:
[0115]
1.本发明有效提高了语义分割的准确度;
[0116]
本发明首先在camvid数据集上进行了消融实验,从中可以看出,引入bce监督将分割准确度miou从70.64%提高到了71.49%,进一步引入最优传输损失将分割准确度提高到了72.37%,这说明该发明有效地提高了语义分割的准确度。另外该发明没有将边界特征和语义特征融合,因此不增加推理阶段的复杂度。
[0117][0118]
2.本发明有效提高了语义边界分割的准确度;
[0119]
本发明计算了不同阈值下在边界f-boundary的准确度,实验结果证明该发明有效地提高了边界区域分割的准确性。
[0120][0121]
3.本发明有效的提高了定性的分割结果;
[0122]
如图6所示,从左到右依次是原图、基线方法、本发明、真实标签,从中可以看出本发明形成了更准确的语义边界,进而提高了语义分割的准确性。
[0123]
第二方面,本技术实施例提供了一种基于最优传输的边界校正系统,采用如上所述基于最优传输的边界校正方法,如图7所示,所述系统包括:
[0124]
通用语义分割模块10:基于通用语义分割网络进行特征提取、特征增强及逐像素的分类操作,输出语义分割监督的损失值;
[0125]
边界预测模块20:在通用语义分割网络后引入一边界分支,基于边界分支计算预测边界的初始位置,并通过语义边界损失进行监督;
[0126]
边界校正模块30:将边界分支的每个像素预测结果进行归一化,通过最优传输计算语义边界定位损失,通过不断训练进行语义边界损失的校正,达到边界区域分割的最优准确度。
[0127]
第三方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于最优传输的边界校正方法的步骤。
[0128]
第四方面,本技术实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的基于最优传输的边界校正方法的步骤。
[0129]
另外,结合图1描述的本技术实施例的基于最优传输的边界校正方法可以由计算机设备来实现。图8为根据本技术实施例的计算机设备的硬件结构示意图。
[0130]
计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
[0131]
具体地,上述处理器81可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,简称为asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0132]
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(hard disk drive,简称为hdd)、软盘驱动器、固态驱动器(solidstate drive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(non-volatile)存储器。在特定实施例中,存储器82包括只读存储器(read-only memory,简称为rom)和随机存取存储器(random access memory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmable read-only memory,简称为prom)、可擦除prom(erasable programmable read-only memory,简称为eprom)、电可擦除prom(electrically erasable programmable read-only memory,简称为eeprom)、电可改写rom(electrically alterable read-only memory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(static random-access memory,简称为sram)或动态随机存取存储器(dynamic random access memory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器(fast page mode dynamic random access memory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extended date out dynamic random access memory,简称为edodram)、同步动态随机存取内存
(synchronous dynamic random-access memory,简称sdram)等。
[0133]
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
[0134]
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种基于最优传输的边界校正方法。
[0135]
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图8所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
[0136]
通信接口83用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
[0137]
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(data bus)、地址总线(address bus)、控制总线(control bus)、扩展总线(expansion bus)、局部总线(local bus)。举例来说而非限制,总线80可包括图形加速接口(accelerated graphics port,简称为agp)或其他图形总线、增强工业标准架构(extended industry standard architecture,简称为eisa)总线、前端总线(front side bus,简称为fsb)、超传输(hyper transport,简称为ht)互连、工业标准架构(industry standard architecture,简称为isa)总线、无线带宽(infiniband)互连、低引脚数(low pin count,简称为lpc)总线、存储器总线、微信道架构(micro channel architecture,简称为mca)总线、外围组件互连(peripheral component interconnect,简称为pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advanced technology attachment,简称为sata)总线、视频电子标准协会局部(video electronics standards association local bus,简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
[0138]
本发明方法相比于现有技术,本发明本发明将语义边界预测建模为最优传输问题,计算预测边界到真实边界的最小传输代价对语义边界进行更准确的监督,提高了边界区域分割的准确性,进而提高了语义分割的性能;本发明提出了一种基于最优传输边界校正的语义分割方法,该方法只是在训练阶段通过最优传输为语义边界提供额外监督,在推理阶段可以将边界分支去除,从而不增加推理阶段的计算量和参数量。
[0139]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0140]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:
1.一种基于最优传输的边界校正方法,其特征在于,所述方法包括:通用语义分割步骤:基于通用语义分割网络进行特征提取、特征增强及逐像素的分类操作,输出语义分割监督的损失值;边界预测步骤:在通用语义分割网络后引入一边界分支,基于边界分支计算预测边界的初始位置,并通过语义边界损失进行监督;边界校正步骤:将边界分支的每个像素预测结果进行归一化,通过最优传输计算语义边界定位损失,通过不断训练进行语义边界损失的校正,达到边界区域分割的最优准确度。2.根据权要求1所述基于最优传输的边界校正方法,其特征在于,所述通用语义分割步骤进一步包括:基于语义分割监督的损失函数l
ce
对预测语义的结果l
pred
及真实的语义结果l
gt
,进行语义分割监督,输出语义分割监督的损失值。3.根据权要求1所述基于最优传输的边界校正方法,其特征在于,所述边界预测步骤包括:在所述通用语义分割网络后通过一个边界预测分支进行边界预测,由卷积层和sigmoid激活层组成,预测结果通过二元交叉熵损失进行监督。4.根据权要求1所述基于最优传输的边界校正方法,其特征在于,所述边界校正步骤包括:预测边界的结果计算步骤:计算b
pred
(i,j)的归一化结果其中,b
pred
(i,j)为预测边界的结果;边界区域的目标分布计算步骤:计算b
target
(i,j)的归一化结果其中,b
target
(i,j)为目标边界的结果;传输代价计算步骤:计算源分布上每个位置像素p
s
到目标分布p
t
每个位置像素的欧氏距离作为传输的代价,c
st
=(p
s-p
t
)2,完成传输代价矩阵的构建;边界监督步骤:计算边界最优传输问题的目标值其中,π为最优传输方案,c为传输代价矩阵,u为最优传输方案的集合,代表从源分布到目标分布的传输矩阵集合;分布的传输矩阵集合;边界最优传输的约束条件为:π
ij
≥0,其中,n
s
代表离散的源分布存在情况,n
t
代表离散的目标分布存在情况;最小传输代价对预测的边界进行了监督,定义lopt为语义边界校正损失函数:其中,b
pred
为预测边界的结果,b
gt
代表真实的语义边界,α和β代表目标分布和源分布的转移概率矩阵。5.根据权要求4所述基于最优传输的边界校正方法,其特征在于,所述边界校正步骤还包括:
网络损失函数为:其中,l
ce
是用以语义分割监督的损失函数,l
opt
是语义边界校正损失函数,l
bce
是二元交叉熵损失,代表语义边界定位损失函数,y
pred
为语义分割预测结果,y
gt
为真实语义分割结果,λ1及λ2为权重参数。6.根据权要求3所述基于最优传输的边界校正方法,其特征在于,所述边界监督步骤还包括:边界最优传输问题的目标为:其中,α代表目标分布的转移概率矩阵,β代表源分布的转移概率矩阵,r
n
代表转移矩阵。7.根据权要求1所述基于最优传输的边界校正方法,其特征在于,所述边界分支包括:卷积层、正则化层及激活层堆叠而成,所述激活层的激活函数为sigmoid,将所述边界分支每个像素预测的结果归一化到(0,1)范围,每个所述像素的值代表其属于边界的概率。8.一种基于最优传输的边界校正系统,采用如权利要求1-7中任意一项所述基于最优传输的边界校正方法,其特征在于,所述系统包括:通用语义分割模块:基于通用语义分割网络进行特征提取、特征增强及逐像素的分类操作,输出语义分割监督的损失值;边界预测模块:在通用语义分割网络后引入一边界分支,基于边界分支计算预测边界的初始位置,并通过语义边界损失进行监督;边界校正模块:将边界分支的每个像素预测结果进行归一化,通过最优传输计算语义边界定位损失,通过不断训练进行语义边界损失的校正,达到边界区域分割的最优准确度。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述的基于最优传输的边界校正方法的步骤。10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的基于最优传输的边界校正方法的步骤。

技术总结
本申请公开了一种基于最优传输的边界校正方法,该方法包括:通用语义分割步骤:基于通用语义分割网络进行特征提取、特征增强及逐像素的分类操作,输出语义分割监督的损失值;边界预测步骤:在通用语义分割网络后引入一边界分支,基于边界分支计算预测边界的初始位置,并通过语义边界损失进行监督;边界校正步骤:将边界分支的每个像素预测结果进行归一化,通过最优传输计算语义边界定位损失,通过不断训练进行语义边界损失的校正,达到边界区域分割的最优准确度。本发明方法将边界预测建模为最优传输问题,通过计算预测边界到真实边界的最小传输代价以对边界预测的结果进行监督,有效地提高边界分割的准确性。地提高边界分割的准确性。地提高边界分割的准确性。


技术研发人员:代锋 马宜科 刘子辰 张玉成 张帅宾
受保护的技术使用者:中国科学院计算技术研究所
技术研发日:2023.03.14
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐