用于胸部X光片中的半监督骨折检测的具有自适应非对称标记锐化的知识蒸馏的制作方法

未命名 09-18 阅读:153 评论:0

用于胸部x光片中的半监督骨折检测的具有自适应非对称标记锐化的知识蒸馏
技术领域
1.本技术要求2020年12月27日提交的美国临时专利申请no.63/130,838的优先权。本技术还要求2021年3月26日提交的美国专利申请no.17/214,400的优先权。其全部内容通过引用并入本文。
2.本技术涉及医学图像的知识蒸馏领域,更具体地,涉及用于胸部x光片中骨折检测的知识蒸馏方法的方法、电子设备和计算机程序产品。


背景技术:

3.在过去的十年中,医学图像的计算机辅助诊断(cad)得到了广泛的研究。近年来,在开发基于深度学习的cad系统以诊断各种病理方面取得了实质性进展。最先进的cad解决方案通常是基于大规模专家标记开发的。然而,由于需要医学专业知识,因此在医学领域进行大规模标记的人工成本高得令人望而却步,这阻碍了针对尚不具备此类大规模标记的应用开发基于深度学习的cad解决方案。


技术实现要素:

4.本公开的一方面提供了一种用于骨折检测的知识蒸馏方法。知识蒸馏方法包括:获取胸部x光片中的医学图像,该医学图像包括区域级标记图像、图像级诊断正片和图像级诊断负片;对区域级标记图像和图像级诊断负片执行有监督的预训练过程以训练神经网络生成预训练权重;以及使用预训练权重对图像级诊断正片执行半监督训练过程。采用教师模型在图像级诊断正片上生成伪地面实况(gt)以监督学生模型的训练,伪gt由自适应非对称标记锐化(aals)算子处理以生成锐化的伪gt以在图像级诊断正片上提供正检测响应。
5.本公开的另一方面提供了一种电子设备。该电子设备包括存储器,其上存储有计算机程序;处理器,与存储器耦合,当计算机程序被执行时,其配置为获取胸部x光片中的医学图像,包括区域级标记图像、图像级诊断正片和图像级诊断负片;对区域级标记图像和图像级诊断负片执行有监督的预训练过程以训练神经网络生成预训练权重;以及使用预训练权重对图像级诊断正片执行半监督训练过程。采用教师模型在图像级诊断正片上生成伪地面实况(gt)以监督学生模型的训练,伪gt由自适应非对称标记锐化(aals)算子处理以生成锐化的伪gt以在图像级诊断正片上提供正检测响应。
6.本公开的另一方面提供了一种计算机程序产品。该计算机程序产品包括非暂时性计算机可读存储介质和存储在其中的程序指令。程序指令被配置为可由计算机执行以使得计算机执行包括以下操作的操作:获取胸部x光片中的医学图像,包括区域级标记图像、图像级诊断正片和图像级诊断负片;对区域级标记图像和图像级诊断负片执行有监督的预训练过程以训练神经网络生成预训练权重;以及使用预训练权重对图像级诊断正片执行半监督训练过程。采用教师模型在图像级诊断正片上生成伪地面实况(gt)以监督学生模型的训练,伪gt由自适应非对称标记锐化(aals)算子处理以生成锐化的伪gt以在图像级诊断正片
上提供正检测响应。
7.本领域的技术人员根据本公开的说明书、权利要求和附图能够理解本公开的其他方面。
附图说明
8.图1示出根据本公开的各种实施例的用于骨折检测的示例知识蒸馏方法。
9.图2示出根据本公开的各种实施例的用于骨折检测的另一个示例知识蒸馏方法。
10.图3示出根据本公开的各种实施例的用于骨折检测的知识蒸馏的示例电子设备。
11.图4示出根据本公开的各种实施例的非对称标记锐化函数。
12.图5示出根据本公开的各种实施例的使用图像级诊断正片的子集的模型性能。
13.图6示出根据本公开的各种实施例的骨折检测结果的示例。
14.图7示出根据本公开的各种实施例的使用不同方法的肋骨骨折(左)和锁骨骨折(右)检测结果的froc(自由响应接受者操作特性)曲线。
具体实施方式
15.下面结合附图对本发明实施例的技术方案进行说明。在可能的情况下,贯穿附图将使用相同的附图标记来指代相同或相似的部分。显然,所描述的实施例只是本发明的一部分实施例,并不代表本发明的全部实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面首先解释本公开中使用的某些术语。
16.各种实施例提供了用于骨折检测的知识蒸馏方法的方法、电子设备和计算机程序产品。例如,可以使用自适应非对称标记锐化(aals)执行知识蒸馏方法,以在胸部x光片(cxr)中进行半监督骨折检测。因此,可以使用有限的专家标记和丰富的临床诊断记录为cxr提供可靠、稳健和准确的骨折检测模型。
17.在一个实施例中,图像级cxr(例如,标记/未标记)和区域级标记cxr可用于开发骨折检测模型,以基于cxr识别骨折(包括例如肋骨和锁骨骨折和脊柱骨折)的分类和定位。
18.如本文所用,术语“胸部x光片”或cxr可指与胸部相关的x射线成像结果和/或x射线检查,包括肋骨、锁骨和/或脊柱骨等。
19.可以大规模有效地获得图像级标记,例如,通过挖掘医院的图像档案和临床记录。在一个示例中,可以通过在临床记录中找到匹配的诊断代码和/或关键词来获得图像级标记。图像级标记可以包括阳性标记(例如,用于阳性诊断)和阴性标记(例如,用于阴性诊断)。
20.区域级标记可以由专家手动标记且获得成本更高。例如,图像级诊断正片cxr可以由专家标记以提供区域级标记,例如,以边界框的形式。
21.图1示出根据本公开的各种实施例的用于骨折检测的示例知识蒸馏方法。图2示出根据本公开的各种实施例的用于骨折检测的知识蒸馏方法的另一示例。
22.在图1的110处,获得了cxr的医学图像,包括区域级标记图像(r)、图像级诊断正片(p)和图像级诊断负片(n)。
23.在示例性实施方式中,可以基于医疗中心的外伤登记获得大量cxr(例如,大约65,
845个cxr)。通过匹配临床记录中的诊断代码和关键字,可以识别具有图像级阳性诊断标记和图像级阴性诊断标记的cxr(例如,包括6,792个阳性cxr和59,051个阴性cxr)。在具有图像级阳性诊断标记的cxr中,许多cxr可能由专家标记以提供边界框形式的区域级标记。
24.本公开的方法、设备和/或产品可以在极度不平衡的正负比下有效地利用具有区域级标记和图像级标记的cxr。
25.在一些实施例中,可以训练神经网络以产生指示检测到的骨折位置的概率图。由于裂缝的形状和尺度可能会有很大差异,因此可以采用具有resnet-50主干的特征金字塔网络(fpn)通过融合多尺度特征来应对尺度变化的挑战。在一些实施例中,所述训练至少包括:有监督的预训练过程和半监督的训练过程。在预训练过程中,使用区域级标记图像(r)和图像级诊断负片(n)通过监督学习训练骨折检测模型。在半监督训练过程中,进一步利用图像级诊断正片(p)来促进本公开训练。
26.在图1的120处,对区域级标记图像(r)和图像级诊断负片(n)执行有监督的预训练过程以训练神经网络(例如,使用学生模型)以生成预训练权重.
27.可以仅使用区域级标记图像和图像级诊断负片来训练神经网络,其中可以生成像素级监督信号(或像素级监督)。在一个实施例中,像素级监督信号可以从医生标记的边界框转换而来,例如,通过在别处将边界框内的像素分配为“一”和“零”。例如,对于cxr中的区域级标记图像(r),通过将“一”(“1”)分配给边界框内的像素(例如,作为区域级标记)并在别处分配“零”(“0”)。对于cxr中的图像级诊断负片(n),生成全为“零”的gt掩码。
28.在训练期间,可以使用针对区域级标记图像(r)和图像级诊断负片(n)的有监督的预训练过程的相同监督损失。例如,预测概率图和生成的gt掩码之间的像素级二元交叉熵(bce)损失可用于区域级标记图像(r)和图像级诊断负片(n)上的训练。
29.bce损失(l
sup
)如下所示:其中x表示胸部x光片中区域级标记图像(r)或图像级诊断负片(n),y表示x对应的像素级监督掩码,f
θ
(x)表示由θ参数化的神经网络的概率图输出。
30.在如图2所示的另一个示例中,可以对包括区域级标记图像(r)和图像级诊断负片(n)的“专家标记集”执行有监督的预训练过程,以使用基于预测概率图和基于专家标记生成的gt掩码之间的bce损失(l
sup
)的学生模型来训练神经网络。
31.在区域级标记图像(r)和图像级诊断负片(n)之间存在极度不平衡的情况下(例如,在一个示例中,r的808对照n的59,861),预训练模型可能倾向于具有低检测灵敏度,例如,在骨折部位产生低概率。然后可以执行半监督训练过程。
32.在图1的130处,对图像级诊断正片(p)执行半监督训练过程。例如,可以采用包括学生模型和教师模型的师生范式。图2还包括根据本公开的各种实施例的师生范例的示例。
33.如图2所示,教师模型用于在图像级诊断正片(p)上生成伪地面实况(gt),以监督学生模型的训练。学生模型从教师模型在图像级诊断正片(p)上生成的伪gt中学习。教师和学生模型共享相同的网络架构(包括例如具有特征金字塔网络(fpn)的resnet-50),并且都使用从图1的120处的示例性监督学习步骤获得的预训练权重进行初始化。
34.在一个实施例中,学生模型经由反向传播被训练并且也如图2中所示,在训练期间
使用学生模型权重的指数移动平均数(ema)迭代地更新教师模型。
35.教师模型的权重更新如下:θ

t
=αθ

t-1
+(1-α)θ
t
ꢀꢀ
(2)其中θ

t
和θ
t
分别表示训练步骤t中教师和学生模型的权重,α是控制知识更新速度的平滑系数。例如,α可以根据需要设置为0.999。
36.在各种实施例中,区域级标记集(r)、图像级标记正集(p)和图像级标记负集(n)的cxr都可以用于训练师生模型。
37.返回图1的130,在半监督训练过程中,通过在图像级诊断正片(p)上使用教师模型产生的伪地面实况(gt)或伪gt图可以在自适应非对称标记锐化(aals)算子中进一步执行自适应非对称标记锐化(aals)过程。因此可以生成锐化/增强的伪gt。
38.图像(x)的锐化伪gt(y

)表示为:其中表示第t步的教师模型,θ’t
表示训练步骤t的教师模型的权重,s(
·
)表示自适应非对称标记锐化(aals)。锐化的伪gt(y

)和学生模型的预测之间的kl散度计算为附加损失l
semi
(或kld损失):
39.因此,用于训练学生网络的总损失包括:
40.在其他知识蒸馏模型中,在未标记数据上生成伪gt以监督学生模型。由于没有给出未标记数据的知识,伪gt要么直接使用,要么在其他基线模型中进行对称软化或锐化处理。相反,本公开的知识蒸馏方法可以在以下情况下实施:1)cxr的图像级诊断正片包含可见的骨折部位,以及2)由于正负比不平衡,伪gt往往具有低灵敏度(即,骨折部位的概率低)。
41.因此,伪gt图的最大值可能较低。为了增强学生模型在骨折部位的激活,采用了aals:y

=s(y)=expit(a
·
logit(y)+(1-a)
·
logit(t))
ꢀꢀꢀꢀ
(6)其中expit(
·
)和logit(
·
)表示sigmoid函数及其反函数,a和t分别控制锐化算子的强度和中心。
42.在一个实施例中,用于控制强度和中心的锐化的a和t的效果在图2中示出。如图所示,经过“锐化”后,“增强版伪gt”相比“伪掩码”的强度和中心都得到了增强。
43.本公开的非对称锐化(例如,aals)用于增强伪gt中的低概率,其中t<0.5因此可用于aals过程。在一个示例中,可以选择使用t=0.4。
44.在某些情况下,由于训练数据的不平衡以及由于在伪gt(y)中仍然可能遗漏一些骨折部位(例如,具有低概率值),max(s(y),y)被用作标记-锐化函数,以避免在伪gt(y)中对具有低概率值的骨折部位的学生模型激活进行过度惩罚。
45.根据伪gt图中的最大概率动态选择锐化强度a,写为:a=a
0-(a
0-1)y
max
ꢀꢀ
(7)其中y
max
是伪gt图中的最大概率,a0是控制允许的最大锐化强度的超参数。锐化强度a与最大概率y
max
负相关。当y
max
趋近于1时,a趋近于其最小值1,使s(
·
)成为恒等映射。当y
max
减小时,a向a0增加,导致伪gt的锐化更强。需要动态的a,因为锐化算子是非对称的。如果使用常数a>1,则锐化操作总是会扩大伪gt图中的激活区域,这会导致模型生成激活区域过大的概率图。使用自适应锐化强度,当在cxr中可靠地检测到骨折部位时(即y
max
接近1),锐化操作退化为恒等映射以避免持续扩大激活区域。
46.因此,本公开提供了有效的有监督的学习解决方案,例如,包括监督预训练过程和半监督训练过程,以充分利用具有不平衡数据分布的临床诊断来有效地训练骨折检测模型(例如,cad模型)。本公开的cxr骨折检测方法更好地解决了不平衡的数据分布,并利用了未标记数据的图像级标记。
47.此外,本文还公开了一种教师-学生机制,其中教师模型被用于在图像级诊断正片上产生伪地面实况(gt)以监督学生模型的训练。与直接使用伪gt或通过对称锐化/软化处理的其他知识蒸馏方法不同,本公开的自适应非对称标记锐化(aals)用于解决由不平衡数据分布引起的教师模型的低灵敏度,并提供对图像级诊断正片cxr图像的正检测响应。
48.在各种实施例中,本公开的用于骨折检测的知识蒸馏方法可以应用于一个或多个电子设备。
49.在各种实施例中,电子设备能够根据预先配置或存储的指令自动进行数值计算和/或信息处理,电子设备的硬件可以包括但不限于微处理器、专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)和嵌入式设备等。电子设备可以是任何可以与用户交互的电子产品,例如个人电脑、平板电脑、智能手机、台式电脑、笔记本电脑、掌上电脑、个人数字助理(pda)、游戏机、交互式网络电视(iptv)、智能穿戴设备等。电子设备可以通过键盘、鼠标、遥控器、触摸屏或语音控制设备与用户进行人机交互。电子设备还可以包括网络设备和/或用户设备。网络设备可以包括但不限于云服务器、单个网络服务器、由多个网络服务器组成的服务器组、或者由多个主机或网络服务器组成的云计算系统。电子设备可以在网络中。网络可以包括但不限于因特网、广域网、城域网、局域网、虚拟专用网(vpn)等。
50.图3示出根据本公开的各个实施例的用于执行本公开的用于骨折检测的知识蒸馏方法的示例性电子设备的结构图。
51.参照图3,示例性电子设备包括存储计算机程序的存储器310,以及耦合到存储器310并被配置为在执行计算机程序时执行本公开的用于骨折检测的知识蒸馏方法的处理器320。
52.存储器310可以包括诸如随机存取存储器(ram)的易失性存储器和诸如闪存、硬盘驱动器(hdd)或固态驱动器(ssd)的非易失性存储器。存储器310还可以包括各种上述存储器的组合。处理器320可以包括中央处理单元(cpu)、嵌入式处理器、微控制器和诸如专用集成电路(asic)、现场可编程门阵列(fpga)和可编程逻辑阵列(pld)等的可编程设备。
53.本公开还提供了一种存储计算机程序的计算机可读存储介质。计算机程序可以加载到计算机或可编程数据处理设备的处理器中,使得计算机程序由计算机或可编程数据处
理设备的处理器执行以实现本公开的方法。
54.各种实施例还提供计算机程序产品。该计算机程序产品包括非暂时性计算机可读存储介质和存储在其中的程序指令。程序指令可以被配置为可由计算机执行以使计算机实现包括本公开的用于骨折检测的知识蒸馏方法的操作。
55.示例一
56.本公开的用于骨折检测的知识蒸馏方法由包括工作站的电子设备执行。例如,骨折检测模型是在具有单个intelxeone5-2650v4cpu@2.2ghz、128gbram、4nvidiaquadrortx8000gpu的工作站上执行的。所有示例方法均在python3.6和pytorchv1.6中实现。imagenet预训练权重用于初始化学生模型的主干网络。所有示例方法都采用了adam优化器。使用4e-5的学习率、0.0001的权重衰减和48的批量大小来训练本公开的模型25个时期。所有图像都被填充为正方形并调整为1024x1024以进行网络训练和推理。随机执行旋转、水平翻转、强度和对比度抖动以增加训练数据。在每个训练时期后,在验证集上对训练模型进行评估,并选择接受者操作特征曲线下面积(auroc)验证最高的模型作为最佳推理模型。
57.示例二
58.本公开的方法、电子设备和计算机程序产品在2008年至2016年在长庚纪念医院外伤中心拍摄的所有(n=65,843)cxr图像的真实场景数据集上进行了评估。
59.基于临床诊断记录,为cxr分配肋骨和锁骨骨折的图像级标记。在总共65,843张cxr图像中,6,792张cxr具有诊断阳性标记,至少标记了一种骨折类型,而59,051张cxr具有两种骨折类型(包括肋骨和锁骨骨折)的诊断阴性标记。在6,792张图像级诊断正片cxr图像中,由两名经验丰富的创伤外科医生随机选择808张cxr进行专家标记。标记由最佳可用信息确认,包括原始cxr图像、放射科医师报告、临床诊断、高级成像模式发现等。所有实验均使用70%/10%/20%的五折交叉验证进行,分别用于训练、验证和测试拆分。
60.示例三
61.使用公开的分数检测模型评估骨折分类和定位性能。广泛使用的分类指标auroc(接受者操作特征曲线下的面积)用于评估分类性能。对于目标检测,将所有预测边界框的最大分类分数作为分类分数。为了生成概率图,将概率图的最大值作为分类分数。
62.还评估了不同方法的骨折定位性能,包括本公开的示例方法和其他基线方法。如公开的,由于只能生成概率图,因此使用基于边界框预测的标准froc(自由响应接受者操作特性)指标。如本文所用,修改后的froc指标用于评估所有比较方法的定位性能,包括本公开的示例方法和其他基线方法。
63.如果骨折部位的边界框的中心被激活,则认为骨折部位被召回。边界框外的激活像素被视为误报。因此,修改后的froc测量了骨折召回率和每张图像的误报像素的平均比率。为了计算用于物体检测方法的修改后的froc,使用不同的阈值将预测的边界框转换为二进制掩码,预测框内的像素为正,框外的像素为负。为了量化定位性能,froc分数被计算为在1%到10%的十个误报率下的召回平均值。
64.本公开的示例方法与以下三类中的其他基线方法进行了比较,包括:1)弱监督方法:chexnet,一种纯粹使用图像级标记训练的具有代表性的最先进的x射线cad方法;2)物体检测方法:包括基于锚点的检测器retinanet和无锚点检测器fcos;3)半监督方法:包括
ii-model、temporal ensemble和mean teacher,以及最先进的医学图像ssl方法。对于所有评估的方法,resnet-50被用作骨干网络。retinanet和fcos两种检测方法都采用了fpn。表1表1
65.表1总结了所有比较方法与本公开的示例方法的定量结果。报告froc分数用于定位性能。在更具挑战性的肋骨骨折检测任务中,mean teacher是最具竞争力的基线方法,测量的auroc为0.9155,froc得分为0.8540。本公开的方法测得的auroc为0.9318,froc得分为0.8914,这明显优于mean teacher,auroc差距为1.63%,froc得分差距为3.74%。
66.基于本公开方法的实验表明,在肋骨/锁骨骨折检测中,接受者操作特征曲线下的面积(auroc)为0.9318/0.9646,自由响应接受者操作特征(froc)得分为0.8914/0.9265。与其他最先进的基线方法相比,本公开的方法在肋骨/锁骨骨折检测方面分别显着提高了auroc1.63%/0.86%和froc3.74%/3.81%。
67.图7示出使用包括本公开的示例方法的不同方法的肋骨骨折(左)和锁骨骨折(右)检测结果的froc曲线。在更简单的锁骨骨折检测任务中,chexnet和li-method报告了基线方法中最高的auroc(即高于0.95)。mean teacher在基线方法中提供了最强的froc得分0.8884。本公开的方法在锁骨骨折检测任务上也优于所有基线方法,报告的auroc为0.9646,froc为0.9265。值得注意的是,ii-model、temporal ensemble和mean teacher这三种知识蒸馏方法的性能优于有监督的检测方法。在更容易的锁骨骨折检测任务上优势更为显着。这主要是因为锁骨骨折具有更简单的几何特性和相似的视觉模式,知识蒸馏方法可以有效地从未标记数据的伪gt中学习。然而,在更复杂的肋骨骨折检测上,知识蒸馏方法的优势就不那么显着了。由于肋骨骨折的复杂视觉模式和有限的区域标记正数据,伪gt图的灵敏度较低(即,有监督的预训练模型报告的froc得分较低,为0.7267),这限制了转移到蒸馏模型的知识。使用aals,本公开的方法有效地将更多知识转移到学生模型,因此与其他知识蒸馏方法相比实现了显着改进的性能。
68.观察到chexnet和li-method在锁骨骨折auroc指标上显着优于其他基线知识蒸馏
方法,但在肋骨骨折auroc上没有观察到性能优势。这是因为chexnet和li-method专门使用正片级标记,而基线知识蒸馏方法则没有。特别是,chexnet是通过纯粹使用图像级标记的弱监督学习进行训练的,而li-method以多实例学习方式利用图像级正标记。
69.与公开的方法相比,基线知识蒸馏方法将图像级正片视为未标记数据。虽然弱监督学习和多实例学习对学习更简单的锁骨骨折有效,但它们对更复杂的肋骨骨折的效果较差。此外,chexnet和li-method的定位性能也很差。chexnet通过类激活图(cam)提供定位可视化。由于cam值无法跨图像进行比较,因此无法计算chexnet结果的froc。由于li-method始终产生过大的激活区域,因此li-method不会报告有意义的froc得分。对于chexnet和li-method,定性地验证了它们的定位性能比其他方法差,如图6中所示的骨折检测结果示例所示,其中说明了gt和fcos检测到的断裂边界框。
70.示例四
71.本公开的aals通过分别用不同的锐化强度a0和中心t进行实验来验证。首先,为了分析标记锐化中心t的影响,用t=0.2;0.3;0.4和0.5评估aals;并将结果总结在表2中。使用t=0.4获得最佳检测性能,在肋骨/锁骨骨折检测中测量最高/第二高的auroc得分为0.9318/0.9646,最高froc得分为0.8914/0.9265。
72.请注意,对于锁骨骨折分类,在t=0.2时获得的最佳auroc得分0.9661,仅略好于t=0.4时的分数。锐化中心表现为灵敏度和特异性之间的权衡。值得注意的是,本公开的方法始终优于使用所有四个t值的其他基线方法。其次,如图4所示,通过固定中心t=0.4并评估a0=1;4;8;16来研究锐化强度的影响。如表3所总结,强度a0=4的标记锐化产生最佳检测性能。对于a0=1,没有应用标记锐化,这导致性能下降。对于a0=8;16,标记锐化变得过于激进(如图4所示),这也会导致锐化伪gt中的误报,从而导致轻微的性能下降。
73.进一步研究了图像级正集p的参与。图5显示了使用不同比例(0%、20%、60%、100%)的p的子集对肋骨和锁骨的分类和检测性能,其中0%和100%分别对应于有监督的预训练学生模型和公开的方法。据观察,较大的p提高了分类auroc和检测froc得分。这证实
了cad模型训练可以受益于利用来自临床诊断的图像级标记。
74.尽管在说明书中采用示例性实施例描述了本公开的原理和实现方式,但是上述实施例的描述仅仅用于帮助理解本公开的方法及其核心思想。同时,本领域的普通技术人员可以根据本公开的思想对具体实现方式和应用范围进行修改。综上所述,说明书的内容不应理解为对本发明的限制。

技术特征:
1.一种用于骨折检测的知识蒸馏方法,包括:获取胸部x光片中的医学图像,包括区域级标记图像、图像级诊断正片和图像级诊断负片;对所述区域级标记图像和所述图像级诊断负片执行有监督的预训练过程以训练神经网络生成预训练权重;以及使用所述预训练权重对所述图像级诊断正片执行半监督训练过程,其中,使用教师模型在所述图像级诊断正片上产生伪地面实况(gt)以监督训练学生模型,所述伪gt由自适应非对称标记锐化(aals)算子处理以产生锐化的伪gt以在所述图像级诊断正片上提供正检测响应。2.根据权利要求1所述的方法,其中,进行有监督的预训练过程包括:对所述区域级标记图像,通过将“一”分配给标记边界框内的像素并在其他地方分配“零”来生成gt掩码;对所述图像级诊断负片,生成全为“零”的gt掩模;以及对所述区域级标记图像和所述图像级诊断负片的所述有监督的预训练过程使用相同的监督损失。3.根据权利要求2所述的方法,其中:所述相同的监督损失包括像素级二元交叉熵(bce)损失(l
sup
),其中:x表示所述区域级标记图像或所述图像级诊断负片,y表示对应于x的像素级监督掩码,并且f
θ
(x)表示由θ参数化的所述神经网络的概率图输出。4.根据权利要求1所述的方法,还包括:使用从有监督的预训练过程中生成的预训练权重初始化每个所述教师和所述学生模型。5.根据权利要求1所述的方法,还包括:在半监督训练过程中,通过反向传播训练所述学生模型,并在训练过程中使用所述学生模型权重的指数移动平均数(ema)迭代更新所述教师模型,其中:教师模型的权重通过以下方式更新:θ

t
=αθ

t-1
+(1-α)θ
t
其中θ’t
和θ
t
分别表示所述教师模型和所述学生模型在训练步骤t的所述权重,α是控制知识更新速度的平滑系数。6.根据权利要求5所述的方法,还包括:处理通过在aals算子中的所述图像级诊断正片上使用教师模型生成的所述伪gt,以生成锐化的伪gt,其中,图像x的所述锐化的伪gt包括:其中y'表示锐化的伪gt,表示步骤t的所述教师模型,s(
·
)表示自适应非对称标记
锐化(aals)。7.根据权利要求6所述的方法,其中:所述锐化的伪gt和学生模型的预测之间的kl散度计算为附加损失(l
semi
):并且用于训练所述学生网络的总损失(l)包括:8.根据权利要求6所述的方法,其中:所述图像级诊断正片包含可见骨折部位;并且所述图像级诊断正片上的所述aals包括:y

=s(y)=expit(a
·
logit(y)+(1-a)
·
logit(t)),其中,expit(
·
)和logit(
·
)分别表示sigmoid函数和所述sigmoid函数的反函数,a和t分别控制所述aals算子的锐化强度和锐化中心,其中:a=a
0-(a
0-1)y
max
,y
max
是所述伪gt中的最大概率,a0是控制允许的最大锐化强度的超参数。9.根据权利要求8所述的方法,还包括:为非对称锐化选择动态锐化强度a,选择小于0.5的所述锐化中心。10.一种电子设备,包括:存储器,所述存储器包含存储在其上的计算机程序;以及处理器,所述处理器与所述存储器耦合,并且当所述计算机程序被执行时,所述处理器被配置为:获取胸部x光中的医学图像,包括区域级标记图像、图像级诊断正片和图像级诊断负片;对所述区域级标记图像和所述图像级诊断负片进行有监督的预训练过程以训练神经网络以生成预训练权重;以及使用所述预训练权重对所述图像级诊断正片执行半监督训练过程,其中,使用教师模型在所述图像级诊断正片上生成伪地面实况(gt)以监督学生模型的训练,所述伪gt由自适应非对称标记锐化(aals)算子处理以产生锐化的伪gt,从而对所述图像级诊断正片提供正检测响应。11.根据权利要求10所述的设备,其中,在所述有监督的预训练过程中,所述处理器还用于:对所述区域级标记图像和所述图像级诊断负片的所述有监督的预训练过程使用相同的监督损失,其中:所述相同的监督损失包括像素级二元交叉熵(bce)损失(l
sup
),其中:
x表示所述区域级标记图像或所述图像级诊断负片,y表示对应于x的像素级监督掩码,并且f
θ
(x)表示由θ参数化的所述神经网络的概率图输出。12.根据权利要求10所述的设备,其中,所述处理器还被配置为:使用从所述有监督的预训练过程中生成的所述预训练权重来初始化每个所述教师和学生模型。13.根据权利要求10所述的设备,其中,所述处理器还被配置为:在所述半监督训练过程中,通过反向传播训练所述学生模型,并在训练过程中使用所述学生模型权重的指数移动平均数(ema)迭代更新所述教师模型,其中:教师模型的权重通过以下方式更新:θ

t
=αθ

t-1
+(1-α)θ
t
其中θ

t
和θ
t
分别表示所述教师模型和所述学生模型在训练步骤t的所述权重,α是控制知识更新速度的平滑系数。14.根据权利要求13所述的设备,其中,所述处理器还被配置为:在所述aals算子中通过对所述图像级诊断正片采用所述教师模型产生的伪gt进行处理,生成锐化伪gt,其中,图像x的所述锐化伪gt包括:其中,y'表示所述锐化的伪gt,表示步骤t的所述教师模型,s(
·
)表示自适应非对称标记锐化(aals)。15.根据权利要求14所述的设备,其中:所述锐化的伪gt和学生模型的预测之间的kl散度计算为附加损失(l
semi
):并且用于训练所述学生网络的总损失(l)包括:16.根据权利要求14所述的设备,其中:所述图像级诊断正片包含可见骨折部位;并且所述图像级诊断正片上的所述aals包括:y

=s(y)=expit(a
·
logit(y)+(1-a)
·
logit(t)),其中,expit(
·
)和logit(
·
)分别表示sigmoid函数和所述sigmoid函数的反函数,a和t分别控制所述aals算子的锐化强度和锐化中心,其中:a=a
0-(a
0-1)y
max
,y
max
是所述伪gt中的最大概率,a0是控制允许的最大锐化强度的超参数。17.一种计算机程序产品,包括非暂时性计算机可读存储介质和存储在其中的程序指令,所述程序指令被配置为可由计算机执行以使所述计算机执行包括以下操作的操作:
获取胸部x光片中的医学图像,包括区域级标记图像、图像级诊断正片和图像级诊断负片;对所述区域级标记图像和所述图像级诊断负片进行有监督的预训练过程以训练神经网络以生成预训练权重;以及使用所述预训练权重对所述图像级诊断正片执行半监督训练过程,其中,使用教师模型在所述图像级诊断正片上产生伪地面实况(gt)以监督学生模型的训练,且所述伪gt由自适应非对称标记锐化(aals)算子处理以产生锐化的伪gt以在所述图像级诊断正片上提供正检测响应。18.根据权利要求17所述的产品,其中,执行所述有监督的预训练过程包括:对所述区域级标记图像和所述图像级诊断负片的所述有监督的预训练过程使用相同的监督损失,其中:所述相同的监督损失包括像素级二元交叉熵(bce)损失(l
sup
),其中:x表示所述区域级标记图像或所述图像级诊断负片,y表示对应于x的像素级监督掩码,并且f
θ
(x)表示由θ参数化的所述神经网络的概率图输出。19.根据权利要求17所述的产品,其中:所述锐化的伪gt和学生模型的预测之间的kl散度计算为附加损失(l
semi
):并且用于所述训练学生网络的总损失(l)包括:其中,表示第t步的所述教师模型,s(
·
)表示自适应非对称标记锐化(aals)。20.根据权利要求17所述的产品,其中:所述图像级诊断正片包含可见骨折部位;并且所述图像级诊断正片上的所述aals包括:y

=s(y)=expit(a
·
logit(y)+(1-a)
·
logit(t)),其中,expit(
·
)和logit(
·
)分别表示sigmoid函数和所述sigmoid函数的反函数,a和t分别控制所述aals算子的锐化强度和锐化中心,其中:a=a
0-(a
0-1)y
max
,y
max
是所述伪gt中的最大概率,a0是控制允许的最大锐化强度的超参数。

技术总结
用于骨折检测的知识蒸馏方法包括获取胸部X光片中的医学图像,包括区域级标记图像、图像级诊断正片和图像级诊断负片;对区域级标记图像和图像级诊断负片执行有监督的预训练过程以训练神经网络以生成预训练权重;以及使用预训练权重对图像级诊断正片执行半监督训练过程。采用教师模型在图像级诊断正片上生成伪地面实况(GT)以监督学生模型的训练,伪GT由自适应非对称标记锐化(AALS)算子处理以生成锐化的伪GT以在图像级诊断正片上提供正检测响应。应。


技术研发人员:王一睿 郑康 周晓云 吕乐 苗舜
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.11.26
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐