一种小细胞肺癌的预测系统

未命名 07-13 阅读:98 评论:0


1.本发明涉及生物信息学和生物医学,具体涉及一种预测系统的制备。


背景技术:

2.癌症作为异质性疾病具有不同的分子特征、临床行为、形态外观和对治疗的不同反应。其中,扩散性癌症的复杂性及其显著变化的临床结果使得预测和治疗变得极其困难。因此,针对癌症的预后情况进行更准确的预测,不仅可以帮助癌症患者了解他们的预期寿命,保证癌症患者的心理健康,而且也可以帮助临床医生制定更适当的治疗方案,以便得到更好的治疗效果。同时,预后在所有临床医师的临床工作中起着重要作用,特别是那些与短生存期患者一起工作的临床医师。当能够合理准确地估计预后时,临床医师通常利用预后预测知识来协助临床决策,确定患者接受治疗方案,设计和分析临床试验的资格。此外,当患者被预测为短生存期患者时,临床医生可以为患者提供机会,考虑他们是否希望得到照顾,并让他们有时间采取实际措施,为自己的死亡做好准备。
3.小细胞肺癌(sclc small cell lung cancer)是一种未分化、恶性程度高、病因复杂的肿瘤,占原发性肺癌的20%-25%。其发病年龄较轻,多见于男性。小细胞肺癌生物学行为恶劣,病情快,易产生远处转移,生存率极低,胸片检查难以识别等原因,发现时患者多属中晚期且患者往往早期出现淋巴道转移和侵入血管经血道广泛转移到身体远处器官组织,因此在各类肺癌中,小细胞癌的预后最差。尤其,大多数患者在最初诊断时发生远处转移,这使患者的中位生存期不到1年。如果不进行治疗,中位生存期只有3-4个月。因此,早期有效地发现小细胞肺癌,及时给予治疗,对预后有重要的积极影响。如果以同样播散范围比较,小细胞肺癌较其他类型肺癌诊断前的症状期短,确诊后的生存期亦短。因此,迫切需要一种简单可靠、准确性高的肿瘤患者生存期的预测系统。


技术实现要素:

4.虽然,近年来肺癌的治疗方面已取得了长足的进步,但从总体上来说,肺癌的预后情况仍旧很不理想,小细胞肺癌的5年生存率仅为4%。因此,小细胞肺癌的预后情况观察对于提高小细胞肺癌患者了解预期寿命是至关重要的。
5.本技术旨在引入深度学习算法,拟合真实世界中临床资料与预后的关系,以预测肺小细胞癌患者的生存时间,为小细胞肺癌患者提供早期治疗的策略提供参考依据。
6.第一方面,本发明提供一种基于神经网络算法的小细胞肺癌患者的生存期的预测方法,所述方法包括如下步骤:
7.s1数据获取:获取肺小细胞癌患者的临床资料,以年龄、性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤t分期、肿瘤n分期、肿瘤m分期、肿瘤stage、肿瘤直径、手术与否、放疗与否、化疗与否被用来作为预测指标的原始数据;
8.s2数据预处理:将连续性资料进行标准化得到标准化数据,将分类资料为哑变量;
9.s3构建模型:将上述标准化数据和哑变量的数据、通过输入层输入神经网络模型,
通过神经网络模型中的隐藏层进行数据拟合;通过输出层输出一组0到1之间的数值;经过训练优化后形成小细胞肺癌患者的生存期的预测模型;
10.s4评估模型性能:以受试者工作特征曲线下面积(area under the receiver operating curve,auc)来评估模型性能;auc大于0.5时,模型具有预测价值,越接近于1,预测效能越强。
11.进一步的,所述连续性资料包括年龄、肿瘤直径。
12.进一步的,所述哑变量包括性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤t分期、肿瘤n分期、肿瘤m分期、肿瘤stage、手术与否、放疗与否、化疗与否。
13.进一步的,所述标准化是指将连续性资料的数值减去均值并除以标准差,即得到标准化数据。
14.进一步的,所述数据拟合是采用批训练和批标准化数据进行拟合。
15.更进一步的,所述批训练每次优选2000-2500个数据参与训练。
16.进一步的,所述数据拟合优选early stopping function函数进行验证,即每80-150轮进行一次检查,并在模型性能提升不明显时自动结束训练。
17.进一步的,所述神经网络共计10层,初始输入为12
×
16节点的线性层,随后经过数据拟合,dropout层随机沉默30%神经元,并传递给下一个16
×
8节点的线性层,再次数据拟合和dropout层沉默30%神经元,最后经过一个8
×
1节点的线性层,经过数据拟合后,输出一组0到1之间的数值。
18.更进一步的,输出的一组0到1之间的数值为小细胞癌患者的生存状态预测值。
19.更进一步的,所述生存状态预测值为小细胞癌患者在具体月份的生存概率。
20.进一步的,所述数据拟合包括激活、归一化、加权、转换、优化。
21.进一步的,所述数据激活优选relu函数和/或sigmoid函数。
22.进一步的,所述数据归一化是指将连续性资料的数值减去资料的均值并除以标准差。
23.进一步的,所述数据转换优选sigmoid函数,把输出的数字转为0到1之间的数值。
24.进一步的,所述12
×
16节点的线性层加权可选自如下:
25.表1 12
×
16节点的线性层加权值
[0026][0027]
进一步的,所述16
×
8节点的线性层加权可选自如下:
[0028]
表2 16
×
8节点的线性层加权值
[0029][0030]
进一步的,所述8
×
1节点的线性层加权可选自如下:
[0031]
表3 8
×
1节点的线性层加权值
[0032]
[0033][0034]
进一步的,所述数据优化优选adam函数作为优化器,学习率设定为0.05。
[0035]
第二方面,本发明提供一种小细胞肺癌患者的生存期的预测系统,所述系统数据输入模块、数据分析处理模块和生存概率预测模块;所述预测系统是由如下方法获得:
[0036]
s01数据获取:获取肺小细胞癌患者的临床资料,以年龄、性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤t分期、肿瘤n分期、肿瘤m分期、肿瘤stage、肿瘤直径、手术与否、放疗与否、化疗与否被用来作为预测指标的原始数据;
[0037]
s02数据预处理:将连续性资料进行标准化得到标准化数据,将分类资料为哑变量;
[0038]
s03构建模型:将上述标准化数据和哑变量的数据、通过输入层输入神经网络模型,通过神经网络模型中的隐藏层进行数据拟合;通过输出层输出一组0到1之间的数值;经过训练优化后形成小细胞肺癌患者的生存期的预测模型;
[0039]
s04评估模型性能:以受试者工作特征曲线下面积(area under the receiver operating curve,auc)来评估模型性能;auc大于0.5时,模型具有预测价值,越接近于1,预测效能越强。
[0040]
进一步的,所述连续性资料包括年龄、肿瘤直径。
[0041]
进一步的,所述哑变量包括性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤t分期、肿瘤n分期、肿瘤m分期、肿瘤stage、手术与否、放疗与否、化疗与否。
[0042]
进一步的,所述标准化是指将连续性资料的数值减去均值并除以标准差,即得到标准化数据。
[0043]
进一步的,所述数据拟合是采用批训练和批标准化数据进行拟合。
[0044]
更进一步的,所述批训练每次优选2000-2500个数据参与训练。
[0045]
进一步的,所述数据拟合优选early stopping function函数进行验证,即每80-150轮进行一次检查,并在模型性能提升不明显时自动结束训练。
[0046]
进一步的,所述神经网络共计10层,初始输入为12
×
16节点的线性层,随后经过数据拟合,dropout层随机沉默30%神经元,并传递给下一个16
×
8节点的线性层,再次数据拟合和dropout层沉默30%神经元,最后经过一个8
×
1节点的线性层,经过数据拟合后,输出一组0到1之间的数值。
[0047]
更进一步的,输出的一组0到1之间的数值为小细胞癌患者的生存状态预测值。
[0048]
更进一步的,所述生存状态预测值为小细胞癌患者在具体月份的生存概率。
[0049]
进一步的,所述数据拟合包括激活、归一化、加权、转换、优化。
[0050]
进一步的,所述数据激活优选relu函数和/或sigmoid函数。
[0051]
进一步的,所述数据归一化是指将连续性资料的数值减去资料的均值并除以标准差。
[0052]
进一步的,所述数据转换优选sigmoid函数,把输出的数字转为0到1之间的数值。
[0053]
进一步的,所述12
×
16节点的线性层加权可选自表1数据。
[0054]
进一步的,所述16
×
8节点的线性层加权可选自表2数据。
[0055]
进一步的,所述8
×
1节点的线性层加权可选自表3数据。
[0056]
进一步的,所述数据优化优选adam函数作为优化器,学习率设定为0.05。
[0057]
第三方面,本发明提供一种小细胞肺癌患者的生存期系统在制备小细胞肺癌患者生存期预测设备中的应用。
[0058]
进一步的,所述应用是预测小细胞肺癌患者在具体月份的生存概率。
附图说明
[0059]
图1.小细胞肺癌神经网络示意图
[0060]
图2.小细胞肺癌early stopping function函数自动监测训练过程曲线
[0061]
图3.小细胞肺癌患者的生存期的返回预测结果示意图
具体实施方式
[0062]
本文所用术语“神经网络bp((back propagation))”是一种按误差反向传播(简称误差反传)训练的多层前馈网络,其算法称为bp算法,它的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。
[0063]
所述术语“神经网络模型”是基于神经网络算法的模型,该模型包括输入层、隐藏层、输出层。本预测系统共两个隐藏层,分别为16、8个节点,此外还有批标准化和30%比例的dropout,以帮助提高模型性能;输出层只有一层,无偏执项,输出值为一时间节点(以月为单位)及概率值,指患者在特定月份的生存概率(见图1)。
[0064]
根据最新版的中华医学会肺癌临床诊疗指南,》45岁的人群应常规进行肺癌筛查(患癌高危人群),女性肺癌发生率显著高于欧美且和病理亚型相关,肿瘤部位影响手术方式决定,tnm分期(t/n/m/stage)及肿瘤直径影响治疗方案选择及预后,个人肿瘤史与基因突变有关可增加肺癌患病率,而手术、放疗、化疗仍是现在最常用的治疗方案。因此,在本发明中,选择以年龄、性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤t分期、肿瘤n分期、肿瘤m分期、肿瘤stage、肿瘤直径、手术与否、放疗与否、化疗与否作为此模型的预测变量。
[0065]
预测变量处理:连续性变量例如年龄,肿瘤直径等,以年龄,肿瘤直径等数值减去均值并除以标准差,分类资料如性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤t分期、肿瘤n分期、肿瘤m分期、肿瘤stage、手术与否、放疗与否、化疗与否转为哑变量。
[0066]
表4连续性资料标准化
[0067][0068]
表5分类资料的哑变量转换
[0069]
[0070][0071]
本发明中,整理了21093名诊断为小细胞肺癌患者的临床资料,并根据其诊断时间,分为训练集(17296名在2015年前确诊的患者)和测试集(3797在2015年确诊的患者)。依据小细胞肺癌患者的临床诊断数据,将年龄、性别、tnm分期信息(t/n/m/stage)、肿瘤直径、个人史、手术、放疗、化疗与否等临床信息作为预测指标。训练前,连续性资料进行了标准化(减去均值除以标准差),分类资料转为了哑变量,即数字代替文字,如用1代替“女性”;这些数据作为输入层输入本发明的中的神经网络模型。
[0072]
实施例1神经网络算法的肺小细胞癌患者的生存期的预测模型建立及评估
[0073]
整理了21093名诊断为肺小细胞癌患者的临床资料,并根据其诊断时间,分为训练集(17296名在2015年前确诊的患者)和测试集(3797在2015年确诊的患者)。
[0074]
将年龄、性别、tnm分期信息(t/n/m/stage)、肿瘤直径、个人史、手术、放疗、化疗与否等临床信息作为预测指标。训练前,连续性资料进行了标准化(减去均值除以标准差),分类资料转为了哑变量。测试集参考训练集进行调整。
[0075]
训练方法:初始输入的12个临床特征作为输入层的节点,共计12个(tnm分期包括,t分期、n分期、m分期及stage)。启用批标准化(自动将数据归一化处理,即减去均值除以标准差),dropout层(随机沉默部分神经元,此处设定为沉默30%),批训练(即每次仅选择一部分而非所有数据全部训练,此次设定为每次选择2048个数据),选择relu函数作为激活函数(转为线性层为非线性层)并选择adam函数作为优化器(学习率设定为0.05),开启early stopping function(该函数自动监视训练过程,数轮训练之后效果提升仍不显著则自动停止训练,此处设定为100轮,或称100epochs),输出项为单一项无偏执项(最后只返回一个数字而非一个公式),输出项最后经过sigmoid函数转换(把输出的数字转为0到1之间的概率值)。
[0076]
算法是基于神经网络算法生存理论搭建,上述数据作为输入层输入此方案中的神经网络模型。模型包括输入层、隐藏层、输出层。上述数据作为输入层输入此预测系统。隐藏层又分两层,第一层16个节点,第二层8个节点,此外还有批标准化和30%比例的dropout,以帮助提高模型性能。输出层只有一层,无偏执项,输出值为一时间节点(以月为单位)及概率值,指患者在特定月份的生存概率。
[0077]
神经网络形状(见图1):本次神经网络共计10层,初始输入为12x 16节点的线性层,随后经过relu函数进行激活并经过标准化层归一化(减去资料的均值并除以标准差),随后dropout层随机沉默30%神经元,并传递给下一个16x 8节点的线性层,再次relu函数激活,并再次经标准化层归一化和dropout层沉默30%神经元,最后经过一个8x 1节点的线性层,经过sigmoid函数激活和转换后,输出一组0到1之间的数值。本次训练过程记录在训练曲线中(见图2),曲线横坐标为一个训练轮次(称为“epoch”),纵坐标为预测值和真实值之间的差距,称之为“损失”。随着训练的逐步深入,损失理论上会逐步减少。由于我们启用了自动监测并终止训练的early stopping function,该函数会持续关注训练过程,当模型性能持续100epochs,效果提升仍不明显时,自动结束训练,以防止过拟合。模型最终输出结果每一行为指定月份,每一列为一个病人,单元格值为该患者特定月份仍生存的概率值。选择生存曲线(kaplan meier curve,参考:https://towardsdatascience.com/kaplan-meier-curves-c5768e349479)将表格进行可视化,转换为生存曲线后(见图3)更方便医师和患者查看,曲线横坐标为特定月份,纵坐标为生存概率,曲线上的点为该月份患者仍然存活的概率。
[0078]
使用批训练(每次取2048个数据参与训练)和批标准化(自动计算该批次的均值和标准差,并减去均值后除以标准差)避免过拟合,使用了early stopping function,该函数会约每30轮进行一次检查,并在模型性能提升不明显时自动结束训练。dropout也是用来避免过拟合的,它会在训练时随机沉默一部分神经,以避免部分神经占有过高的预测权重。
[0079]
其模型构建流程如下:
[0080]
1.用户输入选择或输入肺小细胞癌患者的年龄、性别、tnm分期信息(t/n/m/stage)、肿瘤直径、个人史、手术、放疗、化疗与否等临床信息。
[0081]
2.2.上述数据作为输入层输入此预测系统。本预测系统共两个隐藏层,分别为16、8个节点,此外还有批标准化和30%比例的dropout,以帮助提高模型性能。
[0082]
3.返回预测结果:分析完成后,本系统会自动调用默认浏览器打开网页,可视化的展示出该患者的生存曲线。横坐标为月份,纵坐标为该患者在某月份生存的概率。结果是可
交互的,鼠标放在线上某个位置时,会浮现具体文字信息,图形也可被拖动、框选、放大或缩小。
[0083]
(见图3)。
[0084]
使用受试者工作特征曲线下面积(area under the receiver operating curve,auc)来评估模型性能。auc大于0.5时,模型才具有预测价值,且越接近于1,预测效能越强。我们使用了1000次重抽样的办法来获取auc的可信区间。
[0085]
在294轮训练后,early stopping function自动结束了训练,训练曲线保存在supplement figure 1。模型在训练集上具有0.7181的auc(95%可信区间,0.7174-0.7187),测试集上具有0.7208的auc(95%可信区间,0.7202-0.7215)。
[0086]
经截断测试发现,模型小细胞肺癌患者的5年生存率预测,训练集上准确度约93.5%,测试集为99.8%。

技术特征:
1.一种基于神经网络算法的小细胞肺癌患者的生存期的预测方法,所述方法包括如下步骤:s1数据获取:获取小细胞肺癌患者的临床资料,以以年龄、性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤t分期、肿瘤n分期、肿瘤m分期、肿瘤stage、肿瘤直径、手术与否、放疗与否、化疗与否被用来作为预测指标的原始数据;s2数据预处理:将连续性资料进行标准化得到标准化数据,将分类资料为哑变量;s3构建模型:将上述标准化数据和哑变量的数据、通过输入层输入神经网络模型,通过神经网络模型中的隐藏层进行数据拟合;通过输出层输出一组0到1之间的数值;经过训练优化后形成小细胞肺癌患者的生存期的预测模型;s4评估模型性能:受试者工作特征曲线下面积(areaunderthereceiver operatingcurve,auc)来评估模型性能;auc大于0.5时,模型才具有预测价值,且越接近于1,预测效能越强。2.如权利要求1所述一种基于神经网络算法的小细胞肺癌患者的生存期的预测方法,其特征在于,所述连续性资料包括年龄、肿瘤直径,所述哑变量包括性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤t分期、肿瘤n分期、肿瘤m分期、肿瘤stage、手术与否、放疗与否、化疗与否。3.如权利要求1所述一种基于神经网络算法的小细胞肺癌患者的生存期的预测方法,其特征在于,所述标准化是指将连续性资料的数值减去均值并除以标准差,即得到标准化数据。4.如权利要求1所述一种基于神经网络算法的小细胞肺癌患者的生存期的预测方法,其特征在于,输出的一组0到1之间的数值为小细胞肺癌患者的生存状态预测值。5.如权利要求1所述一种基于神经网络算法的小细胞肺癌患者的生存期的预测方法,其特征在于,所述生存状态预测值为小细胞肺癌患者在具体月份的生存概率。6.一种小细胞肺癌患者的生存期的预测系统,所述系统数据输入模块、数据分析处理模块和生存概率预测模块;所述预测系统是由如下方法获得:s01数据获取:获取肺小细胞癌患者的临床资料,以年龄、性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤t分期、肿瘤n分期、肿瘤m分期、肿瘤stage、肿瘤直径、手术与否、放疗与否、化疗与否被用来作为预测指标的原始数据;s02数据预处理:将连续性资料进行标准化得到标准化数据,将分类资料为哑变量;s03构建模型:将上述标准化数据和哑变量的数据、通过输入层输入神经网络模型,通过神经网络模型中的隐藏层进行数据拟合;通过输出层输出一组0到1之间的数值;经过训练优化后形成小细胞肺癌患者的生存期的预测模型;s04评估模型性能:以受试者工作特征曲线下面积(areaunderthereceiver operatingcurve,auc)来评估模型性能;auc大于0.5时,模型具有预测价值,越接近于1,预测效能越强。7.如权利要求6所述一种小细胞肺癌患者的生存期的预测系统,其特征在于,所述数据拟合是采用批训练和批标准化数据进行拟合,所述批训练选择2000-2500个数据参与训练。8.如权利要求6所述一种小细胞肺癌患者的生存期的预测系统,其特征在于,所述数据拟合优选earlystoppingfunction函数进行验证,即每80-150轮进行一次检查,并在模型性
能提升不明显时自动结束训练。9.如权利要求6所述一种小细胞肺癌患者的生存期的预测系统,其特征在于,所述神经网络共计10层,初始输入为12
×
16节点的线性层,随后经过激活并经过标准化层归一化,dropout层随机沉默30%神经元,并传递给下一个16
×
8节点的线性层,再次激活,并再次经标准化层归一化和dropout层沉默30%神经元,最后经过一个8
×
1节点的线性层,经过函数激活和转换后,输出一组0到1之间的数值。10.一种小细胞肺癌患者的生存期系统在制备小细胞肺癌患者生存期预测设备中的应用,所述应用是预测小细胞肺癌患者在具体月份的生存概率。

技术总结
本发明涉及生物信息学和生物医学。具体提供一种基于神经网络算法的小细胞肺癌患者的生存期的预测方法,所述方法包括如下步骤:S01数据获取:获取肺小细胞癌患者的临床资料,以年龄、性别、恶性肿瘤病史、肿瘤在肺的具体部位、肿瘤T分期、肿瘤N分期、肿瘤M分期、肿瘤stage、肿瘤直径、手术与否、放疗与否、化疗与否被用来作为预测指标的原始数据;S02数据预处理:将连续性资料进行标准化得到标准化数据,将分类资料为哑变量;S03构建模型:将上述标准化数据和哑变量的数据、通过输入层输入神经网络模型,通过神经网络模型中的隐藏层进行数据拟合;通过输出层输出一组0到1之间的数值;经过训练优化后形成小细胞肺癌患者的生存期的预测模型;S04评估模型性能:以受试者工作特征曲线下面积(areaunderthereceiveroperatingcurve,AUC)来评估模型性能;AUC大于0.5时,模型具有预测价值,越接近于1,预测效能越强。在此模型中,小细胞肺癌患者的5年生存率预测,训练集上准确度约93.5%,测试集为99.8%。测试集为99.8%。


技术研发人员:李威 潘元明 王敬慧
受保护的技术使用者:首都医科大学附属北京胸科医院
技术研发日:2023.03.24
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐