基于相关性分析的结直肠癌预后风险模型构建方法及系统
未命名
08-14
阅读:240
评论:0
1.本发明涉及数据处理技术领域,具体涉及基于相关性分析的结直肠癌预后风险模型构建方法及系统。
背景技术:
2.结直肠癌疾病负担重且均呈现增长趋势,传统统计学对因素间复杂关系的发掘与呈现能力有限,难以处理大量复杂的临床数据。
3.现有技术中,申请号为202310088636.5的中国专利,公开了结直肠癌术后lars预测模型的构建方法及预测系统,包括:获取第一样本对;生成第二样本对;训练生成预测模型;选出测试集对预测模型测试;在聚类空间内标定预测模型;进行半监督聚类分析生成聚类结果;将患者变量作为结直肠癌术后lars预测模型的输入数据,将对应的最优的预测模型的输出数据作为结直肠癌术后lars预测模型的输出数据。但是在实践中发明人发现,结直肠癌预后相关模型建立的困难主要集中在样本采集,即使拥有含量最大的结直肠癌数据队列,其可用于模型训练的样本依然捉襟见肘。
技术实现要素:
4.为了至少克服现有技术中的上述不足,本技术的目的在于提供基于相关性分析的结直肠癌预后风险模型构建方法及系统。
5.第一方面,本技术实施例提供了基于相关性分析的结直肠癌预后风险模型构建方法,包括:获取多组结直肠癌患者病例,并提取病例中的多个特征形成初始特征;对所有所述初始特征分别进行通过单因素比例风险回归模型进行筛选,并将筛选出的特征作为参考特征;根据所述参考特征和对应多组结直肠癌患者病例构建第一样本库;通过lasso回归算法对所述第一样本库进行特征压缩,将特征压缩后保留的样本库作为压缩样本库,并将被压缩后遗弃的样本库作为遗弃样本库;通过所述压缩样本库构建第一cox模型,并根据所述遗弃样本库构建第二cox模型;生成所述第一cox模型的诺模图作为第一诺模图,并生成所述第二cox模型的诺模图作为第二诺模图;根据所述第一诺模图和所述第二诺模图建立所述压缩样本库和所述遗弃样本库之间的对应关系,并根据所述对应关系将所述遗弃样本库转换为对应所述压缩样本库的转换样本库;将所述转换样本库和所述压缩样本库合并形成修正样本库,并根据所述修正样本库构建rsf模型作为预后风险模型。
6.本技术实施例实施时,基于四川大学华西医院胃肠外科拥有的国内目前含量最大
的结直肠癌数据队列(dacca),初步建立结直肠癌新辅助治疗患者预后风险预测模型,并对模型进行优化和验证,用以指导以远期生存结果为导向的临床决策,进一步推动精准化疾病诊疗的实现。
7.在本技术实施例中,需要先进行病例中初始特征的提取,示例的,可以提取出的特征包括性别、年龄、身高、体重、bmi、影像变化、肿瘤性质、神经、pn、trg等信息;通过单因素cox模型处理可以筛选出p小于预设值的特征作为参考特征用于模型训练,这些参考特征和相应病例可以构成第一样本库。在进行模型训练前,为了减少特征维度以提高模型训练的收敛速度并减少过拟合现象,还需要对第一样本库进行压缩处理。在本技术实施例可以通过lasso回归算法对第一样本库进行特征压缩,其可以采用不同的lambda进行特征系数计算,并观察模型的拟合情况,将拟合情况最好的特征和系数作为压缩样本库。
8.本技术实施例中,进行特征压缩后的特征维度会减少很多,但是由于结直肠癌病例的稀缺性,本技术实施例依然将这些被遗弃的数据进行处理后用于建模使用,压缩后所遗弃的特征依然具有风险评估的实际意义,只是和压缩样本库中对应的特征进行拟合时效果不能达成预期。所以在本技术实施例中将这些内容也都利用起来,并折算为压缩样本库的特征,这样可以在不增加样本特征维度的情况下,提高样本数量,将被遗弃的样本也都利用起来。
9.本技术实施例中,对遗弃样本库的利用主要是通过构建第一cox模型和第二cox模型进行实现,其中诺模图是用于进行风险估计的一种方案。从第一诺模图和第二诺模图中可以看出不同特征对于风险的贡献程度,基于此原理,本技术实施例将第二诺模图中对应的特征转换折算为第一诺模图中对应的特征,从而形成新的转换样本库,实现遗弃样本的再利用。通过将转换样本库和压缩样本库合并后可以进行预后风险模型的构建,在本技术实施例中,采用rsf模型进行预后风险模型构建,相比于lasso-cox模型来说,其具有更好的预测能力。本技术实施例通过上述技术方案,实现了被遗弃样本的二次利用,在不增加样本特征维度的情况下,提高了样本数量,有效的提高了后续训练出模型的预测效能。
10.在一种可能的实现方式中,根据所述第一诺模图和所述第二诺模图建立所述压缩样本库和所述遗弃样本库之间的对应关系包括:根据所述第一诺模图计算压缩特征对风险的贡献程度作为第一风险贡献值,并根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值;所述压缩特征为压缩样本库中的特征;所述遗弃特征为遗弃样本库中的特征;从所述压缩特征中选出第一风险贡献值与遗弃特征的第二风险贡献值差异小于预设值的特征作为对应该遗弃特征的压缩特征;根据所述遗弃特征和所述压缩特征的对应关系计算每个遗弃特征的调整比例;所述调整比例为将所述遗弃特征调整至对应的压缩特征时的比例;将所述遗弃特征和所述压缩特征的对应关系,以及所述调整比例作为所述压缩样本库和所述遗弃样本库之间的对应关系。
11.在一种可能的实现方式中,根据所述对应关系将所述遗弃样本库转换为对应所述压缩样本库的转换样本库包括:根据所述调整比例将所述遗弃样本库中的所述遗弃特征调整至对应的压缩特征形成转换特征;
根据所有所述转换特征形成所述转换样本库。
12.在一种可能的实现方式中,根据所述第一诺模图计算压缩特征对风险的贡献程度作为第一风险贡献值包括:在所述第一诺模图中,计算每个压缩特征的值的积分之和作为第一风险值;将每个压缩特征的值的积分在所述第一风险值中所占的比例作为所述第一风险贡献值;根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值包括:在所述第二诺模图中,计算每个遗弃特征的值的积分之和作为第二风险值;将每个遗弃特征的值的积分在所述第二风险值中所占的比例作为所述第二风险贡献值。
13.在一种可能的实现方式中,根据所述修正样本库构建rsf模型作为预后风险模型包括:对rsf模型的ntree参数进行调优,并对所述修正样本库中的特征按照最优参数模型中的重要性进行排序;根据排序结果对所述修正样本库进行rsf模型构建,形成所述预后风险模型。
14.第二方面,本技术实施例功提供了基于相关性分析的结直肠癌预后风险模型构建系统,包括:特征单元,被配置为获取多组结直肠癌患者病例,并提取病例中的多个特征形成初始特征;筛选单元,被配置为对所有所述初始特征分别进行通过单因素比例风险回归模型进行筛选,并将筛选出的特征作为参考特征;构建单元,被配置为根据所述参考特征和对应多组结直肠癌患者病例构建第一样本库;压缩单元,被配置为通过lasso回归算法对所述第一样本库进行特征压缩,将特征压缩后保留的样本库作为压缩样本库,并将被压缩后遗弃的样本库作为遗弃样本库;第一建模单元,被配置为通过所述压缩样本库构建第一cox模型,并根据所述遗弃样本库构建第二cox模型;生成单元,被配置为生成所述第一cox模型的诺模图作为第一诺模图,并生成所述第二cox模型的诺模图作为第二诺模图;转换单元,被配置为根据所述第一诺模图和所述第二诺模图建立所述压缩样本库和所述遗弃样本库之间的对应关系,并根据所述对应关系将所述遗弃样本库转换为对应所述压缩样本库的转换样本库;第二建模单元,被配置为将所述转换样本库和所述压缩样本库合并形成修正样本库,并根据所述修正样本库构建rsf模型作为预后风险模型。
15.在一种可能的实现方式中,所述转换单元还被配置为:根据所述第一诺模图计算压缩特征对风险的贡献程度作为第一风险贡献值,并根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值;所述压缩特征为压缩样本库中的特征;所述遗弃特征为遗弃样本库中的特征;从所述压缩特征中选出第一风险贡献值与遗弃特征的第二风险贡献值差异小于
预设值的特征作为对应该遗弃特征的压缩特征;根据所述遗弃特征和所述压缩特征的对应关系计算每个遗弃特征的调整比例;所述调整比例为将所述遗弃特征调整至对应的压缩特征时的比例;将所述遗弃特征和所述压缩特征的对应关系,以及所述调整比例作为所述压缩样本库和所述遗弃样本库之间的对应关系。
16.在一种可能的实现方式中,所述转换单元还被配置为:根据所述调整比例将所述遗弃样本库中的所述遗弃特征调整至对应的压缩特征形成转换特征;根据所有所述转换特征形成所述转换样本库。
17.在一种可能的实现方式中,所述转换单元还被配置为:在所述第一诺模图中,计算每个压缩特征的值的积分之和作为第一风险值;将每个压缩特征的值的积分在所述第一风险值中所占的比例作为所述第一风险贡献值;根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值包括:在所述第二诺模图中,计算每个遗弃特征的值的积分之和作为第二风险值;将每个遗弃特征的值的积分在所述第二风险值中所占的比例作为所述第二风险贡献值。
18.在一种可能的实现方式中,所述第二建模单元还被配置为:对rsf模型的ntree参数进行调优,并对所述修正样本库中的特征按照最优参数模型中的重要性进行排序;根据排序结果对所述修正样本库进行rsf模型构建,形成所述预后风险模型。
19.本发明与现有技术相比,具有如下的优点和有益效果:本发明基于相关性分析的结直肠癌预后风险模型构建方法及系统,通过上述技术方案,实现了被遗弃样本的二次利用,在不增加样本特征维度的情况下,提高了样本数量,有效的提高了后续训练出模型的预测效能。
附图说明
20.此处所说明的附图用来提供对本发明实施例的进一步理解,构成本技术的一部分,并不构成对本发明实施例的限定。在附图中:图1为本技术实施例方法流程示意图;图2为本技术实施例诺模图示意图。
具体实施方式
21.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,应当理解,本技术中附图 仅起到说明和描述的目的,并不用于限定本技术的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本技术中使用的流程图示出了根据本技术实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本技术内容的指引下,可以向流程图添加
一个或多个其它操作,也可以从流程图中移除一个或多个操作。
22.另外,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本技术保护的范围。
23.请结合参阅图1,为本发明实施例所提供的基于相关性分析的结直肠癌预后风险模型构建方法的流程示意图,进一步地,所述基于相关性分析的结直肠癌预后风险模型构建方法具体可以包括以下步骤s1-步骤s8所描述的内容。
24.s1:获取多组结直肠癌患者病例,并提取病例中的多个特征形成初始特征;s2:对所有所述初始特征分别进行通过单因素比例风险回归模型进行筛选,并将筛选出的特征作为参考特征;s3:根据所述参考特征和对应多组结直肠癌患者病例构建第一样本库;s4:通过lasso回归算法对所述第一样本库进行特征压缩,将特征压缩后保留的样本库作为压缩样本库,并将被压缩后遗弃的样本库作为遗弃样本库;s5:通过所述压缩样本库构建第一cox模型,并根据所述遗弃样本库构建第二cox模型;s6:生成所述第一cox模型的诺模图作为第一诺模图,并生成所述第二cox模型的诺模图作为第二诺模图;s7:根据所述第一诺模图和所述第二诺模图建立所述压缩样本库和所述遗弃样本库之间的对应关系,并根据所述对应关系将所述遗弃样本库转换为对应所述压缩样本库的转换样本库;s8:将所述转换样本库和所述压缩样本库合并形成修正样本库,并根据所述修正样本库构建rsf模型作为预后风险模型。
25.本技术实施例实施时,基于四川大学华西医院胃肠外科拥有的国内目前含量最大的结直肠癌数据队列(dacca),初步建立结直肠癌新辅助治疗患者预后风险预测模型,并对模型进行优化和验证,用以指导以远期生存结果为导向的临床决策,进一步推动精准化疾病诊疗的实现。
26.在本技术实施例中,需要先进行病例中初始特征的提取,示例的,可以提取出的特征包括性别、年龄、身高、体重、bmi、影像变化、肿瘤性质、神经、pn、trg等信息;通过单因素cox模型处理可以筛选出p小于预设值的特征作为参考特征用于模型训练,这些参考特征和相应病例可以构成第一样本库。在进行模型训练前,为了减少特征维度以提高模型训练的收敛速度并减少过拟合现象,还需要对第一样本库进行压缩处理。在本技术实施例可以通过lasso回归算法对第一样本库进行特征压缩,其可以采用不同的lambda进行特征系数计算,并观察模型的拟合情况,将拟合情况最好的特征和系数作为压缩样本库。
27.本技术实施例中,进行特征压缩后的特征维度会减少很多,但是由于结直肠癌病例的稀缺性,本技术实施例依然将这些被遗弃的数据进行处理后用于建模使用,压缩后所遗弃的特征依然具有风险评估的实际意义,只是和压缩样本库中对应的特征进行拟合时效果不能达成预期。所以在本技术实施例中将这些内容也都利用起来,并折算为压缩样本库
的特征,这样可以在不增加样本特征维度的情况下,提高样本数量,将被遗弃的样本也都利用起来。
28.本技术实施例中,对遗弃样本库的利用主要是通过构建第一cox模型和第二cox模型进行实现,其中诺模图是用于进行风险估计的一种方案。从第一诺模图和第二诺模图中可以看出不同特征对于风险的贡献程度,基于此原理,本技术实施例将第二诺模图中对应的特征转换折算为第一诺模图中对应的特征,从而形成新的转换样本库,实现遗弃样本的再利用。通过将转换样本库和压缩样本库合并后可以进行预后风险模型的构建,在本技术实施例中,采用rsf模型进行预后风险模型构建,相比于lasso-cox模型来说,其具有更好的预测能力。本技术实施例通过上述技术方案,实现了被遗弃样本的二次利用,在不增加样本特征维度的情况下,提高了样本数量,有效的提高了后续训练出模型的预测效能。
29.在一种可能的实现方式中,根据所述第一诺模图和所述第二诺模图建立所述压缩样本库和所述遗弃样本库之间的对应关系包括:根据所述第一诺模图计算压缩特征对风险的贡献程度作为第一风险贡献值,并根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值;所述压缩特征为压缩样本库中的特征;所述遗弃特征为遗弃样本库中的特征;从所述压缩特征中选出第一风险贡献值与遗弃特征的第二风险贡献值差异小于预设值的特征作为对应该遗弃特征的压缩特征;根据所述遗弃特征和所述压缩特征的对应关系计算每个遗弃特征的调整比例;所述调整比例为将所述遗弃特征调整至对应的压缩特征时的比例;将所述遗弃特征和所述压缩特征的对应关系,以及所述调整比例作为所述压缩样本库和所述遗弃样本库之间的对应关系。
30.本技术实施例实施时,可以根据第一诺模图计算压缩特征对风险的贡献程度,具体的可以采用每个压缩特征在第一诺模图中积分占全部第一诺模图特征积分和的比例;同样的,可以计算出第二风险贡献值。在本技术实施例中,将第一风险贡献值与第二风险贡献值进行比较,可以筛选出贡献值比例最为接近的压缩特征和遗弃特征作为对应关系,然后进行数值折算,折算通过调整比例实现;应当理解的是,对于每个遗弃特征都需要对应一个压缩特征,其折算比例也应当是固定的。
31.在一种可能的实现方式中,根据所述对应关系将所述遗弃样本库转换为对应所述压缩样本库的转换样本库包括:根据所述调整比例将所述遗弃样本库中的所述遗弃特征调整至对应的压缩特征形成转换特征;根据所有所述转换特征形成所述转换样本库。
32.在一种可能的实现方式中,根据所述第一诺模图计算压缩特征对风险的贡献程度作为第一风险贡献值包括:在所述第一诺模图中,计算每个压缩特征的值的积分之和作为第一风险值;将每个压缩特征的值的积分在所述第一风险值中所占的比例作为所述第一风险贡献值;根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值包括:在所述第二诺模图中,计算每个遗弃特征的值的积分之和作为第二风险值;
将每个遗弃特征的值的积分在所述第二风险值中所占的比例作为所述第二风险贡献值。
33.本技术实施例实施时,提供了一种第一风险贡献值和第二风险贡献值计算的方案,其采用对应特征的值的积分在总的风险值中的比例作为第一风险贡献值或第二风险贡献值。
34.在一种可能的实现方式中,根据所述修正样本库构建rsf模型作为预后风险模型包括:对rsf模型的ntree参数进行调优,并对所述修正样本库中的特征按照最优参数模型中的重要性进行排序;根据排序结果对所述修正样本库进行rsf模型构建,形成所述预后风险模型。
35.本技术实施例实施时,可以通过修正样本库进行rsf模型的构建。应当理解的是,在该预后风险模型使用时,也需要将对应的遗弃特征折算为转换特征进行数据输入。其中rsf模型为随机生存森林模型,其效果优于lasso-cox模型。
36.示例的,本技术提供了一个更具体的技术方案,首先纳入453例患者91个项目的结构化全生命周期数据,接着特征工程先筛选出变量取值单一化的19个特征进行剔除,并获取72个特征。这72个特征即为初始特征。针对72个特征进行单因素cox模型,保留p《0.1的27个特征进行后续分析,即27个参考特征。基于27个参考特征可以构建第一样本库。
37.通过lasso分析27个参考特征,得到不同lambda时候的特征系数,发现压缩到17个特征时候,模型拟合最好,选择此时的特征及其系数构建第一cox模型。同时将被遗弃的10个特征形成遗弃样本库,并构建第二cox模型。
38.请参阅图2,示出了第一cox模型的诺模图,其中,从上到下的参考特征为肿瘤性质、神经、pn、trg、evmi壁外血管受累、肝结节、pre t、造口、高风险因素、pre n、pt、手术史、辅助治疗、艾坦周期数、血栓、分化、癌家族。可以根据该诺模图进行每个压缩特征的第一风险贡献值计算,同理可以计算出每个遗弃特征的第二风险贡献值。
39.从图2中,可以看到每个压缩特征的积分值都是有所差异的,此时,根据第二风险贡献值和第一风险贡献值计算调整比例。例如,当crm环周切缘的第二风险贡献值和evmi壁外血管受累的第一风险贡献值接近时,认为evmi壁外血管受累和crm环周切缘对风险的贡献相近,此时计算evmi壁外血管受累和crm环周切缘的值的比例,将crm环周切缘转换为evmi壁外血管受累1,此时在修正样本库中会同时存在样本evmi壁外血管受累1和evmi壁外血管受累。
40.基于相同的发明构思,本技术实施例功提供了基于相关性分析的结直肠癌预后风险模型构建系统,包括:特征单元,被配置为获取多组结直肠癌患者病例,并提取病例中的多个特征形成初始特征;筛选单元,被配置为对所有所述初始特征分别进行通过单因素比例风险回归模型进行筛选,并将筛选出的特征作为参考特征;构建单元,被配置为根据所述参考特征和对应多组结直肠癌患者病例构建第一样本库;压缩单元,被配置为通过lasso回归算法对所述第一样本库进行特征压缩,将特征
压缩后保留的样本库作为压缩样本库,并将被压缩后遗弃的样本库作为遗弃样本库;第一建模单元,被配置为通过所述压缩样本库构建第一cox模型,并根据所述遗弃样本库构建第二cox模型;生成单元,被配置为生成所述第一cox模型的诺模图作为第一诺模图,并生成所述第二cox模型的诺模图作为第二诺模图;转换单元,被配置为根据所述第一诺模图和所述第二诺模图建立所述压缩样本库和所述遗弃样本库之间的对应关系,并根据所述对应关系将所述遗弃样本库转换为对应所述压缩样本库的转换样本库;第二建模单元,被配置为将所述转换样本库和所述压缩样本库合并形成修正样本库,并根据所述修正样本库构建rsf模型作为预后风险模型。
41.在一种可能的实现方式中,所述转换单元还被配置为:根据所述第一诺模图计算压缩特征对风险的贡献程度作为第一风险贡献值,并根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值;所述压缩特征为压缩样本库中的特征;所述遗弃特征为遗弃样本库中的特征;从所述压缩特征中选出第一风险贡献值与遗弃特征的第二风险贡献值差异小于预设值的特征作为对应该遗弃特征的压缩特征;根据所述遗弃特征和所述压缩特征的对应关系计算每个遗弃特征的调整比例;所述调整比例为将所述遗弃特征调整至对应的压缩特征时的比例;将所述遗弃特征和所述压缩特征的对应关系,以及所述调整比例作为所述压缩样本库和所述遗弃样本库之间的对应关系。
42.在一种可能的实现方式中,所述转换单元还被配置为:根据所述调整比例将所述遗弃样本库中的所述遗弃特征调整至对应的压缩特征形成转换特征;根据所有所述转换特征形成所述转换样本库。
43.在一种可能的实现方式中,所述转换单元还被配置为:在所述第一诺模图中,计算每个压缩特征的值的积分之和作为第一风险值;将每个压缩特征的值的积分在所述第一风险值中所占的比例作为所述第一风险贡献值;根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值包括:在所述第二诺模图中,计算每个遗弃特征的值的积分之和作为第二风险值;将每个遗弃特征的值的积分在所述第二风险值中所占的比例作为所述第二风险贡献值。
44.在一种可能的实现方式中,所述第二建模单元还被配置为:对rsf模型的ntree参数进行调优,并对所述修正样本库中的特征按照最优参数模型中的重要性进行排序;根据排序结果对所述修正样本库进行rsf模型构建,形成所述预后风险模型。
45.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这
些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
46.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
47.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显然本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
48.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
49.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,randomaccess memory)、磁碟或者光盘等各种可以存储程序代码的介质。
50.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.基于相关性分析的结直肠癌预后风险模型构建方法,其特征在于,包括:获取多组结直肠癌患者病例,并提取病例中的多个特征形成初始特征;对所有所述初始特征分别进行通过单因素比例风险回归模型进行筛选,并将筛选出的特征作为参考特征;根据所述参考特征和对应多组结直肠癌患者病例构建第一样本库;通过lasso回归算法对所述第一样本库进行特征压缩,将特征压缩后保留的样本库作为压缩样本库,并将被压缩后遗弃的样本库作为遗弃样本库;通过所述压缩样本库构建第一cox模型,并根据所述遗弃样本库构建第二cox模型;生成所述第一cox模型的诺模图作为第一诺模图,并生成所述第二cox模型的诺模图作为第二诺模图;根据所述第一诺模图和所述第二诺模图建立所述压缩样本库和所述遗弃样本库之间的对应关系,并根据所述对应关系将所述遗弃样本库转换为对应所述压缩样本库的转换样本库;将所述转换样本库和所述压缩样本库合并形成修正样本库,并根据所述修正样本库构建rsf模型作为预后风险模型。2.根据权利要求1所述的基于相关性分析的结直肠癌预后风险模型构建方法,其特征在于,根据所述第一诺模图和所述第二诺模图建立所述压缩样本库和所述遗弃样本库之间的对应关系包括:根据所述第一诺模图计算压缩特征对风险的贡献程度作为第一风险贡献值,并根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值;所述压缩特征为压缩样本库中的特征;所述遗弃特征为遗弃样本库中的特征;从所述压缩特征中选出第一风险贡献值与遗弃特征的第二风险贡献值差异小于预设值的特征作为对应该遗弃特征的压缩特征;根据所述遗弃特征和所述压缩特征的对应关系计算每个遗弃特征的调整比例;所述调整比例为将所述遗弃特征调整至对应的压缩特征时的比例;将所述遗弃特征和所述压缩特征的对应关系,以及所述调整比例作为所述压缩样本库和所述遗弃样本库之间的对应关系。3.根据权利要求2所述的基于相关性分析的结直肠癌预后风险模型构建方法,其特征在于,根据所述对应关系将所述遗弃样本库转换为对应所述压缩样本库的转换样本库包括:根据所述调整比例将所述遗弃样本库中的所述遗弃特征调整至对应的压缩特征形成转换特征;根据所有所述转换特征形成所述转换样本库。4.根据权利要求2所述的基于相关性分析的结直肠癌预后风险模型构建方法,其特征在于,根据所述第一诺模图计算压缩特征对风险的贡献程度作为第一风险贡献值包括:在所述第一诺模图中,计算每个压缩特征的值的积分之和作为第一风险值;将每个压缩特征的值的积分在所述第一风险值中所占的比例作为所述第一风险贡献值;根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值包括:
在所述第二诺模图中,计算每个遗弃特征的值的积分之和作为第二风险值;将每个遗弃特征的值的积分在所述第二风险值中所占的比例作为所述第二风险贡献值。5.根据权利要求1所述的基于相关性分析的结直肠癌预后风险模型构建方法,其特征在于,根据所述修正样本库构建rsf模型作为预后风险模型包括:对rsf模型的ntree参数进行调优,并对所述修正样本库中的特征按照最优参数模型中的重要性进行排序;根据排序结果对所述修正样本库进行rsf模型构建,形成所述预后风险模型。6.使用权利要求1~5任意一项所述方法的基于相关性分析的结直肠癌预后风险模型构建系统,其特征在于,包括:特征单元,被配置为获取多组结直肠癌患者病例,并提取病例中的多个特征形成初始特征;筛选单元,被配置为对所有所述初始特征分别进行通过单因素比例风险回归模型进行筛选,并将筛选出的特征作为参考特征;构建单元,被配置为根据所述参考特征和对应多组结直肠癌患者病例构建第一样本库;压缩单元,被配置为通过lasso回归算法对所述第一样本库进行特征压缩,将特征压缩后保留的样本库作为压缩样本库,并将被压缩后遗弃的样本库作为遗弃样本库;第一建模单元,被配置为通过所述压缩样本库构建第一cox模型,并根据所述遗弃样本库构建第二cox模型;生成单元,被配置为生成所述第一cox模型的诺模图作为第一诺模图,并生成所述第二cox模型的诺模图作为第二诺模图;转换单元,被配置为根据所述第一诺模图和所述第二诺模图建立所述压缩样本库和所述遗弃样本库之间的对应关系,并根据所述对应关系将所述遗弃样本库转换为对应所述压缩样本库的转换样本库;第二建模单元,被配置为将所述转换样本库和所述压缩样本库合并形成修正样本库,并根据所述修正样本库构建rsf模型作为预后风险模型。7.根据权利要求6所述的基于相关性分析的结直肠癌预后风险模型构建系统,其特征在于,所述转换单元还被配置为:根据所述第一诺模图计算压缩特征对风险的贡献程度作为第一风险贡献值,并根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值;所述压缩特征为压缩样本库中的特征;所述遗弃特征为遗弃样本库中的特征;从所述压缩特征中选出第一风险贡献值与遗弃特征的第二风险贡献值差异小于预设值的特征作为对应该遗弃特征的压缩特征;根据所述遗弃特征和所述压缩特征的对应关系计算每个遗弃特征的调整比例;所述调整比例为将所述遗弃特征调整至对应的压缩特征时的比例;将所述遗弃特征和所述压缩特征的对应关系,以及所述调整比例作为所述压缩样本库和所述遗弃样本库之间的对应关系。8.根据权利要求7所述的基于相关性分析的结直肠癌预后风险模型构建系统,其特征
在于,所述转换单元还被配置为:根据所述调整比例将所述遗弃样本库中的所述遗弃特征调整至对应的压缩特征形成转换特征;根据所有所述转换特征形成所述转换样本库。9.根据权利要求7所述的基于相关性分析的结直肠癌预后风险模型构建系统,其特征在于,所述转换单元还被配置为:在所述第一诺模图中,计算每个压缩特征的值的积分之和作为第一风险值;将每个压缩特征的值的积分在所述第一风险值中所占的比例作为所述第一风险贡献值;根据所述第二诺模图计算遗弃特征对风险的贡献程度作为第二风险贡献值包括:在所述第二诺模图中,计算每个遗弃特征的值的积分之和作为第二风险值;将每个遗弃特征的值的积分在所述第二风险值中所占的比例作为所述第二风险贡献值。10.根据权利要求6所述的基于相关性分析的结直肠癌预后风险模型构建系统,其特征在于,所述第二建模单元还被配置为:对rsf模型的ntree参数进行调优,并对所述修正样本库中的特征按照最优参数模型中的重要性进行排序;根据排序结果对所述修正样本库进行rsf模型构建,形成所述预后风险模型。
技术总结
本发明公开了基于相关性分析的结直肠癌预后风险模型构建方法及系统,应用于数据处理技术领域,方法包括:提取初始特征;筛选出参考特征;构建第一样本库;进行特征压缩,形成压缩样本库和遗弃样本库;构建第一COX模型和第二COX模型;生成第一诺模图和第二诺模图;将遗弃样本库转换为转换样本库;构建RSF模型作为预后风险模型。本发明基于相关性分析的结直肠癌预后风险模型构建方法及系统,通过上述技术方案,实现了被遗弃样本的二次利用,在不增加样本特征维度的情况下,提高了样本数量,有效的提高了后续训练出模型的预测效能。提高了后续训练出模型的预测效能。提高了后续训练出模型的预测效能。
技术研发人员:汪晓东 李立 赵天浪 詹雯意
受保护的技术使用者:四川大学华西医院
技术研发日:2023.07.05
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种无卤复合阻燃剂及其制备方法、应用与流程 下一篇:一种存储设备及其控制方法与流程
