一种基于语义约束的Transformer多模态影像分割方法

未命名 07-20 阅读：143 评论：0

一种基于语义约束的transformer多模态影像分割方法
技术领域
1.本发明属于计算机视觉影像领域，涉及一种基于语义约束的transformer多模态图像分割方法。

背景技术：

2.多模态图像分割在图像分割起着至关重要的作用。补充信息能够以更高的准确性进行分割。磁性共振成像是定量评估的常用成像技术实践中，多种成像模式，即t1加权(t1)、t2加权(t2)、对比增强t1加权(t1c)，和流体衰减反演恢复(flair)图像。假如每种成像模式都提供独特的对比，多模态磁共振成像通过为分析提供丰富的补充信息。假如每种成像模式都提供独特的对比度和结构。用于分割的多模态图像的关联学习。此外，在实践中，通常使用增强图像观察。造影剂通过时产生明显的对比在正常组织与异常之间的关系。三种形态的对比增强成像方案包括静脉和动脉阶段以及静脉内造影延迟。三相图像有助于更好地分割图像，因为它们可以彼此之间良好互补信息。
3.多模态影像分割数据有着重要的研究意义和价值。但同时现有分割算法表现较差，未充分利用多模态信息，有待改进。由于强大的特征表示能力。卷积神经网络(cnn)已广泛用于图像分割任务，并取得了提升的性能。最近，视觉transformer(vit)将自然语言处理中最强大的技术带到了计算机视觉成像领域。得益于自我关注机制，transformer可以捕获长距离特征，这完美地符合3d体积数据。因此，它已迅速适应3d mri序列中的分割。基于这两种流行的技术，已经为图像分割提出了许多杰出的方法，以应对以下挑战，包括位置和形态学不确定性、低对比度和注释偏差。然而，现有的工作忽略了一个重要的问题，即如何以合理的方式融合多模态图像。其中大多数融合了输入级或特征级的模态。然而，现有的研究很少考虑如何以合理的方式融合多模态图像。
4.准确的多模态图像分割通常需要从多模态数据中有效地学习互补信息并去除冗余信息。研发高效的多序列分割算法，可以提升分割能力。因此面向多序列分割的算法具有着重要的研究意义和广泛的应用价值。

技术实现要素：

5.本发明针对现有多序列影像分割方法的不足加以改进，提出一种多层次融合的区域transformer多模态影像分割方法，该方法先通过单模态层次编码器编码单模态特征。并采用门控机制多模态特征进行模态间交互，根据对应的重要性对当前序列进行不同程度的特征增强，门控模块加强了有益于多序列图像的表达。而后通过transformer自注意力机制融合不同模态间的非局部信息以进一步增强多序列的特征表达，其中区域融合模块与真值计算真值区域概率图重点关注区域，抑制非重点区域特征。最后通过k-meanstransformer解码器加快网络收敛。整体网络使得多序列的特征表达得到了增强，实验结果表明，利用增强后的多序列进行分割，网络准确率得到了有效提高，证明了本方法具有良好的性能。
6.为实现这个目标，本发明的技术方案是：步骤1，通过主干编码器对m个模态进行特
征提取，得到对应模态的特征图；步骤2，通过跨模态交互模块产生的模态权重矩阵判断m个模态各自对当前模态分割的重要程度产生模态权重矩阵g,它可以被分成m个单独的{g1，...,gm，...,gm}映射，每个映射一个模式。接下来，将内容代码重新加权为fm＝zm·gm
通过元素乘法，每个模态的初始特征图与其门控矩阵相乘，对当前模态特征进行不同程度的加强，获得模态增强特征图fm；步骤3，将模态增强特征图拼接特征fr输入到transformer进行模态间特征融合，得到最终编码特征f
global
；步骤4，最后将编码特征输入到kmeans-transformer解码器，实现多序列影像分割。本发明提供了一种多层次融合的区域transformer多模态影像分割方法。
7.有益效果
8.1)通过多尺度编码器：卷积token层次化融合的交错稀疏transformer编码器的性能优于串联叠加的方式。2)跨模态交互模块cif以及多模态交互模块mff：剔除多模态内在的信息冗余,同时考虑多模态内在的互补增强关系，使多模态特征融合更充分性。3)k-meanstransformer解码器：像素特征和簇中心之间的亲和对数直接对应于分割掩码的softmax对数，加快收敛速度。
附图说明
9.图1为本发明方法的网络框架示意图；
10.图2为本发明实例中的跨模态交互示意图；
11.图3为本发明提出的多模态区域融合transfomer；
具体实施方式
12.本发明基于深度学习的开源工具pytorch实现，使用gpu处理器nvidia gtx3090训练网络模型。
13.下面结合附图和具体实施方式对本发明方法中各个模块构成做进一步说明，应理解文中的具体实例说明仅用于说明本发明，而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本技术所附权利要求所限定的范围。
14.本发明的网络框架组成和流程如图1所示，具体包括如下步骤：
15.其中，步骤1包括：将多序列f＝{f1,...,fm,...,fm}图片经过主干编码器模型。卷积编码器产生的每个模态内具有局部上下文的特征图，每个块包含级联的组归一化、relu和内核大小为3的卷积层，而第一阶段的第一卷积块仅包含卷积层。输入token通过将输入体积分为块和线性嵌入补丁，一级一级地逐渐向下采样。多层感知器(mlp)块是用于在前两个阶段对局部特征进行编码。mlp区域的第一阶段为一个，第二阶段为两个，每个mlp由一个层规范化和两个全连接的层之间的gelu函数激活。在在第三和第四阶段，分别采用三个和四个transformer块，以通过多头自我关注(msa)捕获长依赖性。fm表示第m个模态特征提取出m个序列各自的初始模态特征图其中为该图像的第m个模态图，其中r代表特征，m代表多序列的数量，c代表每个序列特征图的通道数，h代表每个序列特征图的高度，w代表每个序列特征图的宽度。
16.其中，步骤2包括：将n个模态的初始模态特征图输入到多模态交互模块(cif)，cif模块将对多序列进行模态信息筛选，将每个模态特征连接起来，然后输入到具有m输出信道的卷积层激活，该卷积核的大小为3
×
3，步长为1，边界填充为0，获得模态权重矩阵g，它可以被分成m个单独的{g1，...,gm，...,gm}映射，每个映射一个模式。接下来，将内容代码重新加权为fm＝zm·gm
通过元素乘法，每个模态的初始特征图与其门控矩阵相乘，得到图像m个模态增强特征图f＝{f1,...,fm,...,fm}，fm∈rc×h×w。一共进行四个阶段的交互操作，将这些输出级联得到特征并转发到1
×
1卷积，然后输入到激活函数leakyrelu，由此可以将包含序列特征信息丰富的特征进行突出。随机设置一些模态权重在训练过程中设置为0，以提高模型对缺失数据的鲁棒性。
17.其中，步骤3包括以下子步骤：将模态增强特征图f＝{f1,...,fm,...,fm}分别输入到多模态交互模块(mff)。其中mff先对每个模态做卷积，该卷积核的大小为3
×
3，步长为1，边界填充为0，输入通道为1，输出通道为3，计算前景概率图并用真值做监督，概率图计算公式如图所示，其中，φ()是具有参数集θ的前景/背景分类器。conv()是一个3
×
3卷积运算。fg和bg分别表示前景和背景。随后用模态前景概率图与模态原特征做点乘计算，突出判别力区域并抑制冗余信息。随后将重表达后的各模态特征concat在一起得到特征fr，提取多模态特征后，将它们融合在多模态特征融合模块。可以多自由度根据模态间和模态内上下文结合不同模式的相关和互补功能。首先，转换多模态特征转换为token，然后使用token应用到transformer里，增强融合特征的辨别能力。并且对前景进行估计，即基于每个模态的概率图形式的roi并将概率图嵌入到token中。这个基于特征的前景概率图预测送入visiontransformer模块生成新的特征f
global
。msa()和ffn()表示层的操作分别是标准化、多头自我关注和前馈多层感知器。通过嵌入前景线索，跨模态融合是在感知前景的情况下进行的。transformer多头自注意力机制(msa)打破了特征的局部性，实现了跨模态的非局部特征增强，使任一模态的任一空间上的特征表示更加丰富，有效增强了模态特征的表达。
18.步骤4包括：将跨模态特征图f’＝{f
’1,...,f’m
,...,f'm}拼接得到fr并通过降维后的特征拼接f
global
输入到k-means解码器进行分割。为了增强融合特征的辨别能力，引入了k-meanstransformer作为的解码器。k-means transformer对特征施加类别内一致性有助于增强他们的表达能力。目标是通过使用语义中心对解码特征进行正则化来增强解码特征的语义。k-means解码器包含像素解码器和kmax解码器层。像素解码器由变压器编码器和上采样层组成。这个kmax解码器更新目标类的集群中心通过获取一组群集中心和相应的层并输出更新的聚类中心。第一个kmax解码器的簇中心随机初始化。其他的是输出他们以前的kmax解码器。kmax的输入解码器首先由k均值交叉注意力处理模块，k-means交叉注意将交叉注意力重新表述如下：其中表示具有n个分段类(roi加上背景)和d个通道的输入聚类中心。c
′
表示更新的中心。使用上标j和c表示从像素特征和类查询投影的特征。qc∈rn×d，kj∈r
hw
×d，vj∈r
hw
×d表示查询、键和值的
线性投影特征。k-means交叉注意将普通交叉注意机制中的空间方向softmax函数操作替换为argmax函数。通过这种方式，相似的像素特征被聚集到同一个集群中。最后一个kmax解码器输出的聚类中心用于正则化像素特征，以增强同一类别内像素的表示一致性。特别地，将来自像素解码器的特征表示为f
de
，f
de
∈r
hw
×d。簇正则化的像素特征表示为f
de
′
，中下标n表示应用softmax的轴实现多模态影像分割。
19.本实施例中，还对本发明的一种模态重要性网络与自注意力机制相结合的三维物体识别方法进行对比实验来评估分类识别效果。选取了brats2020数据集进行实验与评估，brats数据集包含了369例数据，其中有315个被划为训练集，37个被划为测试集，17被划为验证集。遵从了其他工作中报告的dice和hd95两个指标。
20.表1不同多序列分割方法的dice和hd95对比结果
[0021][0022]
如表1所示，本发明在四个模态下，et、tc、wt的dice值分别为0.821、0.867、0.923，分割准确率领先于其他多模态分割方法，因此，实验表明本发明在多模态影像分割上具有先进性能，能够更好的实现多模态影像分割。
[0023]
总结，从定量和定性结果来看，本发明的方法比以往的方法更好。从计算成本来看，的方法以较少的计算成本获得更高地评价指标，所以的网络是高效的。
[0024]
实验的作用与效果
[0025]
根据本实验例所涉及的一种k-meanstransformer与门控机制相结合的多模态影像分割方法，因为通过门控机制对多个模态进行多模态特征交互，对相应模态的表达进行重加权，突出有利于多模态分割的模态，同时抑制了对多序列分割帮助不大的冗余模态的信息，区域融合模块能够令具有判别力的信息更加突出。通过transformer多头自注意力机制对各模态特征concat拼接实现跨模态的非局部特征增强，能够有效的融合局部信息和非局部信息来增强每一模态的特征表达。最后通过k-max解码器实现多序列影像的分割。综上，本实施例能够应用于多序列影像分割。
[0026]
上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

技术特征：
1.一种基于语义约束的transformer多模态影像分割方法，其特征在于：步骤1，通过主干编码器对m个模态进行特征提取，得到对应模态的特征图；步骤2，通过跨模态交互模块产生的模态权重矩阵判断m个模态各自对当前模态分割的重要程度产生模态权重矩阵g，它可以被分成m个单独的{g1，...，g
m
，...，g
m
}映射，每个映射一个模式；接下来，将内容代码重新加权为f
m
＝z
m
·
g
m
通过元素乘法，每个模态的初始特征图与其门控矩阵相乘，对当前模态特征进行不同程度的加强，获得模态增强特征图f
m
；步骤3，将模态增强特征图拼接特征f
r
输入到transformer进行模态间特征融合，得到最终编码特征f
global
；步骤4，最后将编码特征输入到kmeans-transformer解码器，实现多序列影像分割。2.根据权利要求1所述的方法，其特征在于：其中，步骤1包括：将多序列f＝{f1，...，f
m
，...，f
m
}图片经过主干编码器模型；卷积编码器产生的每个模态内具有局部上下文的特征图，每个块包含级联的组归一化、relu和内核大小为3的卷积层，而第一阶段的第一卷积块仅包含卷积层；输入token通过将输入体积分为块和线性嵌入补丁，一级一级地逐渐向下采样；多层感知器mlp块是用于在前两个阶段对局部特征进行编码；mlp区域的第一阶段为一个，第二阶段为两个，每个mlp由一个层规范化和两个全连接的层之间的gelu函数激活；在在第三和第四阶段，分别采用三个和四个transformer块，以通过多头自我关注(msa)捕获长依赖性；f
m
表示第m个模态特征提取出m个序列各自的初始模态特征图其中z
m
为该图像的第m个模态图，其中r代表特征，m代表多序列的数量，c代表每个序列特征图的通道数，h代表每个序列特征图的高度，w代表每个序列特征图的宽度。3.根据权利要求1所述的方法，其特征在于，步骤2包括：将n个模态的初始模态特征图输入到多模态交互模块(cif)，cif模块将对多序列进行模态信息筛选，将每个模态特征连接起来，然后输入到具有m输出信道的卷积层激活，该卷积核的大小为3
×
3，步长为1，边界填充为0，获得模态权重矩阵g，它可以被分成m个单独的{g1，...，gm，...，g
m
}映射，每个映射一个模式；接下来，将内容代码重新加权为f
m
＝z
m
·
g
m
通过元素乘法，每个模态的初始特征图与其门控矩阵相乘，得到图像m个模态增强特征图f＝{f1，...，f
m
，...，f
m
}，f
m
∈r
c
×
h
×
w
；一共进行四个阶段的交互操作，将这些输出级联得到特征并转发到1
×
1卷积，然后输入到激活函数leaky relu。4.根据权利要求1所述的方法，其特征在于，步骤3包括以下子步骤：将模态增强特征图f＝{f1，...，f
m
，...，f
m
}分别输入到多模态交互模块(mff)；其中mff先对每个模态做卷积，该卷积核的大小为3
×
3，步长为1，边界填充为0，输入通道为1，输出通道为3，计算前景概率图并用真值做监督，其中，φ()是具有参数集θ的前景/背景分类器；conv()是一个3
×
3卷积运算；f g和bg分别表示前景和背景；随后用模态前景概率图与模态原特征做点乘计算，突出判别力区域并抑制冗余信息；随后将重表达后的各模态特征concat在一起得到特征f
r
，提取多模态特征后，将它们融合在多模态特征融合模块；
首先，转换多模态特征转换为token，然后使用token应用到transformer里；并且对前景进行估计，即基于每个模态的概率图形式的roi并将概率图嵌入到token中；这个基于特征的前景概率图预测送入visiontransformer模块生成新的特征f
global
；msa()和ff n()表示层的操作分别是标准化、多头自我关注和前馈多层感知器。5.根据权利要求1所述的方法，其特征在于：步骤4包括：将跨模态特征图f’＝{f
’1，...，f’m
，...，f
′
m
}拼接得到fr并通过降维后的特征拼接f
global
输入到k-means解码器进行分割；引入，k-meanstransformer作为的解码器；k-means解码器包含像素解码器和kmax解码器层；像素解码器由变压器编码器和上采样层组成；这个kmax解码器更新目标类的集群中心通过获取一组群集中心和相应的层并输出更新的聚类中心；第一个kmax解码器的簇中心随机初始化；其他的是输出以前的kmax解码器；kmax的输入解码器首先由k均值交叉注意力处理模块，k-means交叉注意将交叉注意力重新表述如下：其中表示具有n个分段类(roi加上背景)和d个通道的输入聚类中心；c
′
表示更新的中心；使用上标j和c表示从像素特征和类查询投影的特征；q
c
∈r
n
×
d
，k
j
∈r
hw
×
d
，v
j
∈r
hw
×
d
表示查询、键和值的线性投影特征；k-means交叉注意将普通交叉注意机制中的空间方向softmax函数操作替换为argmax函数；通过这种方式，相似的像素特征被聚集到同一个集群中；最后一个kmax解码器输出的聚类中心用于正则化像素特征，以增强同一类别内像素的表示一致性；将来自像素解码器的特征表示为f
de
，f
de
∈r
hw
×
d
；簇正则化的像素特征表示为f
de
′
，下标n表示应用softmax的轴实现多模态影像分割。

技术总结
本发明公开了一种基于语义约束的Transformer多模态影像分割方法，包括：将待分割影像从m个模态通过主干编码器行特征提取获得n个不同的模态特征得到对应模态的特征图；通过多模态特征交互模块去除冗余特征，并根据跨模态交互模块(CFI)产生的门控矩阵G对当前模态特征进行不同程度的加强；随后将特定模态增强特征图拼接输入到Transformer进行模态间特征融合，得到最终编码特征；最后将特征输入到Kmeans-Transformer解码器。由于模态融合网络对多模态特征进行融合并赋予不同模态相应的权重，所以本公开实施例能够有效将有利于多序列影像分割的重要模态进行突出，同时抑制非重要模态对多模态分割的干扰，能够有效提高多模态影像分割精准度。模态影像分割精准度。模态影像分割精准度。

技术研发人员：马伟陈颖
受保护的技术使用者：北京工业大学
技术研发日：2023.02.22
技术公布日：2023/7/19

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：数字人表情包生成方法、装置及存储介质与流程 下一篇：基于冗余资源实时重构的飞行器控制系统及其工作方法

一种基于语义约束的Transformer多模态影像分割方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于语义约束的Transformer多模态影像分割方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表