基于影像组学和深度学习的肺腺癌亚型识别方法和装置
未命名
07-23
阅读:197
评论:0
1.本发明涉及一种基于影像组学和深度学习的肺腺癌亚型识别方法,同时也涉及相应的肺腺癌亚型识别装置,属于医疗保健信息学领域。
背景技术:
2.肺腺癌(lung adenocarcinoma,简写为luad)是一种主要起源于肺部外围区域的肺癌,其发病率在全球范围内不断增加,现已成为最常见的肺癌类型之一。根据病理特征的不同,肺腺癌可以分为两类:浸润前肺腺癌(pre-invasive luad,简写为pre-ia)和浸润性肺腺癌(invasive luad,简写为ia)。其中,浸润前肺腺癌包括如图1所示的非典型性腺瘤样增生、原位腺癌和微小浸润性腺癌,而浸润性肺腺癌可根据癌细胞形态分为图2所示的三个亚型:高分化腺癌(hda)、中分化腺癌(mda)和低分化腺癌(pda)。临床上,浸润前肺腺癌只需要定期随访,而浸润性肺腺癌应立即接受适当的肺癌切除手术进行治疗(如mda或pda需行肺叶切除,hda需行亚肺叶切除)。因此,利用ct图像对浸润性肺腺癌和浸润前肺腺癌进行区分,并进一步预测浸润性肺腺癌亚型,可以有助于在手术前制定更合理的治疗计划。
3.在申请号为201910275152.5的中国专利申请中,公开了一种识别肺腺癌浸润分型的方法。它采用以下影像学特征参数汇总分析:混合密度磨玻璃结节实性区域ct值,混合密度磨玻璃结节磨玻璃影区域ct值,结节长径,实性长径,结节类型,边缘类型,实性占比类型,结节形状,支气管充气征,胸膜凹陷征,空泡征,血管集束征,结节与肺界面清晰类型,胸膜侵犯等。加上年龄,共计15个参数的多项式组合,构成“预测因子”,“预测因子”到达阈值与否,评估肺腺癌浸润或侵袭属性,尤其预测是否为浸润性分型。
4.另外,在申请号为202010148260.9的中国专利申请中,也公开了一种肺腺癌亚型的辅助鉴别系统及方法,包括:采集模块,获取数字病理图像并标注得到标注图像;包括病变区及真实病理图像特征;处理模块,将标注图像进行处理获得处理图像,存入数据库;分类模块,将处理图像分为训练集、验证集和测试集;训练模块,将训练集进行训练获得肺腺癌亚型的辅助鉴别模型;验证模块,将验证集输入到辅助鉴别模型中进行优化获得优化模型;测试模块,将测试集输入到优化模型获得结果,并得到测试准确率;比较模块,将测试准确率与测试阈值进行比较,在小于测试阈值时重新训练;不小于时保存辅助鉴别优化模型。
技术实现要素:
5.本发明所要解决的首要技术问题在于提供一种基于影像组学和深度学习的肺腺癌亚型识别方法。
6.本发明所要解决的另一技术问题在于提供一种基于影像组学和深度学习的肺腺癌亚型识别装置。
7.为了实现上述目的,本发明采用以下的技术方案:
8.根据本发明实施例的第一方面,提供一种基于影像组学和深度学习的肺腺癌亚型识别方法,包括如下步骤:
9.获得事先标注结节中心的ct图像;
10.针对所述ct图像,分别进行影像组学特征提取和深度特征提取,获得影像组学特征和深度特征;
11.所述影像组学特征和所述深度特征在多头注意力特征融合步骤中进行融合,再通过平均池化和激活函数得到各肺腺癌亚型的概率预测结果。
12.其中较优地,在进行影像组学特征提取之前,定位肺部掩膜和结节掩膜作为两个感兴趣区域。
13.其中较优地,对于所述结节掩膜采取多尺度结节掩膜策略,以捕捉不同尺度上的结节特征。
14.其中较优地,采取确定独立筛选方法进行特征选择;对每个特征类别,只选择对最终分类起关键作用的前k个特征,其中k为正整数。
15.其中较优地,首先对ct图像进行插值和归一化预处理操作;接着,选取结节中心的n张切片,并将每张切片裁剪成以结节为中心的二维感兴趣区域图像,然后将二维感兴趣区域图像输入基于2d cnn的特征提取器中,最终得到所述深度特征;其中,n为正整数。
16.其中较优地,在多头注意力特征融合步骤中,为每类特征添加了一个投影层,将所述影像组学特征和所述深度特征转换为相同的维度。
17.其中较优地,将转换后的影像组学特征和深度特征连接并输入到多头注意力机制中,得到相应的注意力权重;根据各自的注意力权重,计算影像组学特征和深度特征的加权和,得到融合特征。
18.其中较优地,通过全连接层将所述融合特征转换为各类别的决策评分;在使用多头注意力模块的情况下,得到多个聚合特征;其中,每个聚合特征通过一个单独的全连接层,获得相应的决策评分。
19.其中较优地,采用平均池化策略对各所述决策评分进行聚合,得到各肺腺癌亚型的概率预测结果。
20.根据本发明实施例的第二方面,提供一种基于影像组学和深度学习的肺腺癌亚型识别装置,包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行上述的肺腺癌亚型识别方法。
21.与现有技术相比较,本发明针对肺腺癌的亚型识别创新地提出了一种有效整合影像组学特征和深度特征的识别方法,并在真实数据集上进行了大量实验探究其合理性。实验结果表明,本发明提供的肺腺癌亚型识别方法在所有性能指标方面均为最优,证明了其在肺腺癌亚型分类任务中的有效性。
附图说明
22.图1为浸润前肺腺癌的示例图,包括非典型性腺瘤样增生、原位腺癌和微小浸润性腺癌;
23.图2为浸润性肺腺癌的不同亚型示意图,包括高分化腺癌(hda)、中分化腺癌(mda)和低分化腺癌(pda);
24.图3为本发明实施例提供的基于影像组学和深度学习的肺腺癌亚型识别方法的流程图;
25.图4为本发明实施例提供的mha-ff
×
4模型中,各头的影像组学特征的平均注意力权重分布图;
26.图5为高分化腺癌(hda)、中分化腺癌(mda)和低分化腺癌(pda)结节的grad-cam特征图;
27.图6为本发明实施例提供的基于影像组学和深度学习的肺腺癌亚型识别装置的示意图。
具体实施方式
28.下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。
29.前已述及,根据ct图像准确区分浸润性肺腺癌亚型具有较强的实际意义。为此,如图3所示,本发明实施例首先提供一种基于影像组学和深度学习的肺腺癌亚型识别方法,至少包括影像组学特征提取、深度特征提取和多头注意力特征融合三个主要步骤。其中,经过事先手动标注结节中心的一组患者的ct图像分别经过影像组学特征提取、深度学习特征提取两个步骤的并行处理,得到影像组学特征和深度特征后,在后续的多头注意力特征融合步骤中进行融合,再通过平均池化和softmax激活函数得到各亚型(即高分化腺癌(hda)、中分化腺癌(mda)和低分化腺癌(pda))的最终概率预测结果。
30.下面,对此展开详细具体的说明:
31.在本发明的一个实施例中,我们收集了来自三家国内三甲医院的563名患者的781个肺结节,所有亚型标签都经过病理学确认,并且该研究通过了伦理委员会的认可。
32.临床上,外科医生首先需要评估患者进行常规观察还是需要立即接受手术干预。因此,本发明实施例提供的肺腺癌亚型识别方法包括两个独立的分类任务。具体而言,任务1为区分浸润前肺腺癌/浸润性肺腺癌,实验数据为完整数据集。任务2为区分浸润性肺腺癌的各亚型。该任务对应的实验数据仅包括被标记为高分化腺癌(hda)、中分化腺癌(mda)和低分化腺癌(pda)的结节,为任务1数据集的一个子集。对于每个任务,我们将患者随机分成三个子集:训练集、验证集和测试集。训练集:验证集:测试集患者比例约为6:2:2。
33.在此基础上,假设是任意患者的ct图像,其中所有结节n1,
……
,nk均由经验丰富的放射科医师标注。为节省标注成本,仅标注结节的中心坐标。假设有m个不同的肺腺癌亚型,我们的目标是构建一个深度神经网络g,给定来预测:
34.(1)
35.其中,是给定患者的结节nk的整个ct图像,∈{1,
……
,m}表示结节的相应亚型。g表示用于实现本发明实施例提供的肺腺癌亚型识别方法的深度神经网络,其输入为患者的ct图像和对应的结节中心。
36.在本发明的一个实施例中,利用影像组学方法进行特征提取。具体地说,影像组学特征由手工提取,能够揭示经验丰富的专业人士肉眼无法看到的癌症模式,如尺寸和形状的衍生特征、纹理和图像强度直方图。在提取影像组学特征之前,我们首先需要定位两个感兴趣区域,即肺部掩膜和结节掩膜。对于肺部掩膜。我们采用data science bowl 2017(详见如下链接:www.kaggle.com/code/arnavkj95/candidate-generation-and-luna16-preprocessing)中提供的肺部分割算法进行提取。对于结节掩膜,我们以结节为中心裁剪
固定大小的立方体。为了捕捉不同尺度上的结节特征,我们采取了多尺度结节掩膜策略,即将立方体大小分别设置为16
×
16
×
16、32
×
32
×
32、48
×
48
×
48。其中,每个结节掩膜都可以提取分属于七个类别的总共1106个影像组学特征。需要说明的是,并非所有影像组学特性对分类都有帮助,因此我们采取了确定独立筛选(sure independence screening,简写为sis)方法进行特征选择。对每个特征类别,我们选择了对最终分类起关键作用的前k个特征,由此构建了一个低维的影像组学特征向量,其中k为正整数。
37.在本发明的一个实施例中,利用深度学习法提取深度特征。具体地说,我们首先对ct图像进行了常规的插值和归一化预处理操作。例如,将体素间距统一调整为0.625
×
0.625
×
0.625毫米,每个扫描的ct值归一化到[0,1]范围内。接着,我们选取了结节中心的n(n为正整数)张切片,包括结节中心切片及其周围的若干张切片,并将每张切片裁剪成以结节为中心大小为32
×
32的二维感兴趣区域图像,然后将二维感兴趣区域图像输入基于2d cnn的特征提取器中,最终得到深度特征向量。
[0038]
在提取得到影像组学特征和深度特征之后,我们利用后续的多头注意力特征融合步骤对影像组学特征和深度特征进行融合,从而得到结节级别的特征,具体说明如下:
[0039]
由于影像组学特征和深度特征由不同的方式提取得来,定义上是不可比的。为了使其具有可加性,我们为每类特征添加了一个投影层,将两种特征转换为相同的维度(即128维)。以影像组学特征转换为为例,计算公式为:
[0040]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0041]
类似地,通过投影得到转换后的深度特征。
[0042]
下面,我们将转换后的特征和连接并输入到多头注意力机制中,得到注意力权重。为了简洁,此处仅列举的一个具体计算公式:
[0043]
ꢀꢀꢀꢀ
(3)
[0044]
需要注意的是,此处我们有,分别表示影像组学特征和深度特征的相对重要性。计算得和后,即可根据和的加权和得到融合特征:
[0045]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0046]
最终,我们以一个全连接层将转换为各类别的决策评分。当使用多头(假设为头)版本的注意力模块(简称为多头注意力模块)的情况下,可以得到多个聚合特征,表示为{}。其中,每个通过一个单独的全连接层,获得相应的决策评分。
[0047]
最后,我们采用平均池化策略对各个决策评分进行聚合,得到肺腺癌亚型的概
率预测结果。由于结节亚型识别包括多分类的情况(即浸润性肺腺癌的各个亚型)。在本发明的一个实施例中,使用softmax函数给出概率对进行预测:
[0048]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0049]
上述多头注意力特征融合步骤不仅能够区分浸润性肺腺癌和浸润前肺腺癌,还可以对浸润性肺腺癌的不同亚型进行识别。需要说明的是,当识别预测任务变为区分浸润性肺腺癌与浸润前肺腺癌时,输出为二分类概率预测结果。
[0050]
前已述及,本发明实施例提供的肺腺癌亚型识别方法包括两个独立的分类任务。具体而言,任务1为区分浸润前肺腺癌/浸润性肺腺癌,实验数据为完整数据集。任务2为区分浸润性肺腺癌的各亚型。在本发明的一个实施例中,以常用二分类任务评价指标来评估任务1,包括准确率(acc)、roc曲线下的面积(auc)、敏感性(sen)、特异性(spe)以及基于sen和spe的f1分数。我们使用0.5阈值将预测概率转换为二分类标签。考虑到任务2的多分类特质,其评价指标与任务1略有不同。这里我们保留了准确率(acc),并引入最常用的多分类指标cohen's kappa值作为补充。
[0051]
另一方面,我们使用resnet-50作为主干网络,采用权重衰减为1e-5的adam优化器。对任务1,初始学习率设置为0.001;对于任务2,初始学习率设置为0.0005。在训练过程中,我们采用余弦退火策略调整学习率,对训练集迭代50次。同时,我们对每个训练样本应用了旋转、翻转、随机平移和放大等操作作为数据增强手段。为了进行模型比较,我们在训练过程中选择在验证集上准确率(acc)最高的模型。实验中,超参数k和h分别经验性地设置为10和7。
[0052]
在测试集上,我们将本发明实施例提供的模型(简写为mha-ff模型)与先前研究中广泛探讨过的基线模型进行比较:1)仅采用影像组学特征作为输入的常用机器学习模型(即,svm);2)仅采用ct图像作为输入的深度卷积神经网络模型(即,resnet50);3)简单特征融合模型,同时考虑影像组学特征与深度特征,将本发明实施例提供的模型中的多头注意力模块替换为直接拼接模块(即,simpleff)。此外,我们还评估了vit作为深度特征提取器以及本发明实施例提供的模型中,超参数h的影响。具体比较结果请参见表1。
[0053]
表1:肺结节分类任务中,本发明与基线模型的性能对比
[0054][0055]
在这两个任务上,本发明实施例提供的模型在所有性能指标方面均为最优,这证
明了该肺腺癌亚型识别方法在肺结节分类任务中的有效性。在任务1中,最佳模型(mha-ff
×
4)取得了90.56%的auc(95%ci:[0.8536,0.9507]),在任务2中,准确率达到了73.97%,kappa值为0.6023。相比于缺少特征融合或仅采用简单拼接融合方法的基线模型,mha-ff模型的优越性主要来自对影像组学特征和深度特征的有效整合。
[0056]
参见表2所示,针对任务1,我们采用mha-ff
×
4模型来评估两个主要技术特征对整体性能的影响:1)sis特征选择策略;2)mha-ff模型中的注意力权重。结果显示,sis特征选择策略使acc和auc分别提高了4.79%和2.45%,这可以归因为该特征选择策略能够有效地捕捉重要特征。同时,引入注意力权重也对整体性能产生了显著影响,使得acc提高了5.39%,auc提高了1.22%。这表明自适应的学习权重能够充分考虑到结节中每个特征的重要性差异,进而提升分类效果。
[0057]
表2消融研究
[0058][0059]
为了进一步阐释mha-ff
×
4模型的行为机制,我们以图4展示模型细节。以任务2为例,图4绘制了多头注意力机制中,影像组学特征在各头的平均注意力权重(表示为mha-ff#k,k为注意力权重)。如图4所示,影像组学特征对不同头的贡献存在差异,尤其在高分化腺癌(hda)和中分化腺癌(mda)亚型中权重差别较大,这也显示了mha-ff模型中多头设计的合理性。另外,影像组学特征的贡献随着结节分化程度降低也相应减小。
[0060]
此外,为了展示对分类具有显著贡献的图像区域,我们使用梯度加权类激活映射的方法(简写为grad-cam)对深度特征进行了可视化。如图5所示,各切片捕捉了来自不同区域的特征:结节的形态及其周围结构。
[0061]
在上述基于影像组学和深度学习的肺腺癌亚型识别方法的基础上,本发明还提供一种基于影像组学和深度学习的肺腺癌亚型识别装置。如图6所示,该肺腺癌亚型识别装置包括一个或多个处理器11和存储器12。其中,存储器12与处理器11耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器11执行,使得所述一个或多个处理器11实现如上述实施例中基于影像组学和深度学习的肺腺癌亚型识别方法。
[0062]
其中,处理器11用于控制该肺腺癌亚型识别装置的整体操作,以完成上述肺腺癌亚型识别方法的全部或部分步骤。该处理器11可以是中央处理器(cpu)、图形处理器(gpu)、现场可编程逻辑门阵列(fpga)、专用集成电路(asic)、数字信号处理(dsp)芯片等。存储器12用于存储各种类型的数据以支持在该肺腺癌亚型识别装置的操作,这些数据例如可以包括用于在该肺腺癌亚型识别装置上操作的任何应用程序或方法的指令,以及应用程序相关的数据。
[0063]
该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器等。
[0064]
在一个示例性实施例中,基于影像组学和深度学习的肺腺癌亚型识别装置具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现,用于执行上述基于影像
组学和深度学习的肺腺癌亚型识别方法,并达到如上述方法一致的技术效果。一种典型的实施例为计算机。具体地说,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0065]
在另一个示例性实施例中,本发明还提供一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的基于影像组学和深度学习的肺腺癌亚型识别方法的步骤。例如,该计算机可读存储介质可以为包括程序指令的存储器,上述程序指令可以由基于影像组学和深度学习的肺腺癌亚型识别装置的处理器执行,以完成上述基于影像组学和深度学习的肺腺癌亚型识别方法,并达到如上述方法一致的技术效果。
[0066]
与现有技术相比较,本发明针对肺腺癌的亚型识别创新地提出了一种有效整合影像组学特征和深度特征的识别方法,并在真实数据集上进行了大量实验探究其合理性。实验结果表明,本发明提供的肺腺癌亚型识别方法在所有性能指标方面均为最优,证明了其在肺结节分类任务中的有效性。
[0067]
上面对本发明所提供的基于影像组学和深度学习的肺腺癌亚型识别方法和装置进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质内容的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
技术特征:
1.一种基于影像组学和深度学习的肺腺癌亚型识别方法,其特征在于包括如下步骤:获得事先标注结节中心的ct图像;针对所述ct图像,分别进行影像组学特征提取和深度特征提取,获得影像组学特征和深度特征;所述影像组学特征和所述深度特征在多头注意力特征融合步骤中进行融合,再通过平均池化和激活函数得到各肺腺癌亚型的概率预测结果。2.如权利要求1所述的肺腺癌亚型识别方法,其特征在于:在进行影像组学特征提取之前,定位肺部掩膜和结节掩膜作为两个感兴趣区域。3.如权利要求2所述的肺腺癌亚型识别方法,其特征在于:对于所述结节掩膜采取多尺度结节掩膜策略,以捕捉不同尺度上的结节特征。4.如权利要求3所述的肺腺癌亚型识别方法,其特征在于:采取确定独立筛选方法进行特征选择;对每个特征类别,只选择对最终分类起关键作用的前k个特征,其中k为正整数。5.如权利要求1所述的肺腺癌亚型识别方法,其特征在于:首先对ct图像进行插值和归一化预处理操作;接着,选取结节中心的n张切片,并将每张切片裁剪成以结节为中心的二维感兴趣区域图像,然后将二维感兴趣区域图像输入基于2d cnn的特征提取器中,最终得到所述深度特征;其中,n为正整数。6.如权利要求1所述的肺腺癌亚型识别方法,其特征在于:在多头注意力特征融合步骤中,为每类特征添加了一个投影层,将所述影像组学特征和所述深度特征转换为相同的维度。7.如权利要求6所述的肺腺癌亚型识别方法,其特征在于:将转换后的影像组学特征和深度特征连接并输入到多头注意力机制中,得到相应的注意力权重;根据各自的注意力权重,计算影像组学特征和深度特征的加权和,得到融合特征。8.如权利要求7所述的肺腺癌亚型识别方法,其特征在于:通过全连接层将所述融合特征转换为各类别的决策评分;在使用多头注意力模块的情况下,得到多个聚合特征;其中,每个聚合特征通过一个单独的全连接层,获得相应的决策评分。9.如权利要求8所述的肺腺癌亚型识别方法,其特征在于:采用平均池化策略对各所述决策评分进行聚合,得到各肺腺癌亚型的概率预测结果。10.一种基于影像组学和深度学习的肺腺癌亚型识别装置,其特征在于包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行权利要求1~9中任意一项所述的肺腺癌亚型识别方法。
技术总结
本发明公开了一种基于影像组学和深度学习的肺腺癌亚型识别方法和装置。该方法包括如下步骤:获得事先标注结节中心的CT图像;针对CT图像,分别进行影像组学特征提取和深度特征提取,获得影像组学特征和深度特征;影像组学特征和深度特征在多头注意力特征融合步骤中进行融合,再通过平均池化和激活函数得到各肺腺癌亚型的概率预测结果。本发明能够有效整合影像组学特征和深度特征,实验结果证明了其在肺结节分类任务中的有效性。肺结节分类任务中的有效性。肺结节分类任务中的有效性。
技术研发人员:周静 冀瑛 付小桐
受保护的技术使用者:首都医科大学附属北京朝阳医院
技术研发日:2023.06.16
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
