一种使用DBA-LSTM预测EC患者保育治疗结果的方法
未命名
10-18
阅读:120
评论:0
一种使用dba-lstm预测ec患者保育治疗结果的方法
技术领域
1.本发明属于疾病风险预测领域,涉及一种使用dba-lstm预测ec患者保育治疗结果的方法,具体用于预测子宫内膜癌保育患者经保育治疗三个月后各项指标,评估保育患者经保育治疗后疾病是否得到缓解。
背景技术:
2.人工智能的应用主要分为两大类。第一类包括机器学习技术,分析结构化数据,对患者特征进行聚类,从而预测疾病结局的概率。第二类包括从非结构化数据(如临床笔记和患者病历)中提取信息的自然语言处理方法,以补充和丰富结构化医疗数据。自然语言处理将文本转换为机器可读的结构化数据,然后机器学习技术可以对这些数据进行分析。深度学习中lstm代表长短期记忆(long short-term memory),它是一种循环神经网络(rnn)的变体。lstm网络被设计用于解决传统rnn中的梯度消失和梯度爆炸问题,以便更好地处理长期依赖关系。lstm在处理序列数据时能够更好地捕捉和记忆长期的依赖关系。它通过使用一组称为“门”的结构来实现这一点,这些门可以选择性地控制信息的流动。通过这些门的组合,lstm可以选择性地从输入中选择和忽略信息,记忆和遗忘以前的状态,并输出相关的结果。这使得lstm网络能够更好地处理长序列数据,并在自然语言处理、语音识别、机器翻译等领域取得了很好的表现。因此选取lstm算法来构建平行预测模型来提高时间序列数据的预测准确率。
3.动态时间规整(dynamic time warping,dtw)由itakura提出,是一种衡量两个长度不同的时间序列的相似度的方法,这里的相似性即时间序列间的距离。对于时间序列间距离的计算,比较传统的方法是计算欧几里得距离,但当时间序列比较复杂时,如不同的语音时间序列存在时间长度不同的现象,利用欧几里得距离计算所得的间距不够准确,相比于这种方法,dtw算法能够在复杂的时间序列中更准确地求得两个时间序列之间的距离。这是由于dtw算法能够对时间序列在时间轴上进行扭曲,使得两个时间序列达到更好的对齐,从而更准确地得到两个时间序列的距离。dba算法是在dtw算法基础上进行的,是一种全局平均算法,通过多次迭代,不断跟新平均时间序列,最终使得平均时间序列与时间序列集中的其他序列的平方距离(dtw)之和最小。由dba算法的原理可知,该算法可以用于计算一个时间序列数据集的平均时间序列,即可以将一个原始的时间序列集合进行平均从而得到一个合成的新的时间序列。实际上,目前已有研究将dba算法应用于时间序列数据增强,如fawaz等采用dba算法对时间序列样本进行增强,从而获得了更多新的时间序列样本。基于这个思想,利用dba算法来合成小样本数据,解决原始子宫内膜癌保育患者数据过少的问题。
4.mice通过一系列迭代的预测模型来“填充”(插补)数据集中的缺失数据。在每次迭代中,将使用数据集中的其他变量来估算数据集中的每个指定的变量,这些迭代持续运行,直到满足收敛为止。使用mice对数据进行缺失值处理,保证数据的完整性。
5.构建的dba-lstm模型在技术实现时,分为模型训练阶段和模型应用阶段。模型训
练阶段是指lstm算法对训练数据进行学习以训练模型的阶段;模型应用阶段是指利用训练好的模型对新数据进行预测。
技术实现要素:
6.本发明预测子宫内膜癌保育患者经保育治疗三个月后各项指标来评估保育患者经保育治疗后疾病是否得到缓解,提出了一种使用dba-lstm预测ec患者保育治疗结果的方法。
7.本发明是通过以下技术方案实现的:1)对子宫内膜癌保育患者的基本情况、高危因素、医院实验室检查及辅助检查数据和诊断结果等数据进行处理;2)对数据进行缺失值处理以及对数据进行数据增强;3)使用lstm构建模型;4)利用数据对模型进行训练,得到最优超参数;5)通过测试数据检验模型的有效性和准确性。
附图说明
8.图1是基于dba算法的数据合成流程图;图2是lstm记忆单元基本结构图;图3是基于dba-lstm的预测ec患者保育治疗结果模型图;图4是基于dba-lstm的ec保育患者三个月后患者数据真值与预测值对比图;图5是四种预测模型结果对比图;
具体实施方式
9.下面结合具体实施方式对本发明对本发明做进一步的详细说明:1.数据处理:得到的原始数据包括子宫内膜癌及子宫内膜非典型增生患者的基本情况、高危因素、医院实验室及辅助检查数据和诊断结果,利用机器学习对时间序列的患者数据中的文本病历进行结构化处理,将其中的非结构化数据处理为模型可以识别的结构化数据,以及其他数字信息进行数据提取,并将得到的不同数据进行整合后生成数据收集表。使用pandas对数据进行清洗、准备和数据规整,通过matplotlib构建折线图对患者数据进行探索性分析,可以清楚地展示变量随时间的变化趋势;2.缺失值处理:通过mice对数据进行缺失值处理,通过一系列迭代的预测模型来“填充”(插补)数据集中的缺失数据。3.数据增强:通过dba对数据集进行数据增强,利用dba算法来合成小样本数据,解决原始子宫内膜癌保育患者数据过少的问题,从而提高模型预测精度。4.模型构建和参数选取:利用lstm构成平行预测模型,通过lstm预测已经进行保育治疗的患者下个阶段(三个月后)的各项指标,画出患者开始保育治疗的走势图。长短时记忆(lstm)是一种特殊的循环神经网络,可以学习长时依赖。主要特点是通过将门控函数集成到其状态动态中来解决长序列训练过程中梯度消失和梯度爆炸的问题。与rnn相比,lstm的重复模块具有不同的结构。有四层而不是单层,以一种非常特殊的方式进行交互。利用数据对模型进行训练,利用传统手工搜索方式,通过训练算法手动检查随机超参数集,并选择符合目标的最佳参数。5.模型测试:通过测试数据检验模型有效性和准确性,采取k折交叉验证将数据分
为大小相同的k个分区来评估模型性能,k值的取值一般在[2,10]之间,根据数据集大小合理选取k值。
[0010]
附图详细说明:图1为dba算法的数据合成流程图,s={s1,s2,...,sm}表示原始训练集中的患者样本时间序列集合,其中m表示样本数量,si表示一个样本时间序列集,其中包含特征时间序列如ca125、ca199、cea等。每次从时间序列集合s中无放回的依次选取k个不同的时间序列集si构成一个时间序列子集,因此,一共可以构造m/k个时间序列子集,接着利用dba算法分别对每个时间序列子集做重心平均,值得注意的是这里的重心平均是针对特征时间序列,以{s1,s2,...,sk}这个时间序列子集为例,{s
11
,s
21
,...,s
k1
}构成了第一个特征所对应的时间序列集,{s
12
,s
22
,...,s
k2
}构成了第二个特征所对应的时间序列集,利用dba算法分别对这两个时间序列集进行重心平均,从而分别得到了它们的平均时间序列c
11
和c
12
,其他特征序列的平均亦如此。最终对于{s1,s2,...,sk}这个时间序列子集,经过dba重心平均后可以得到r个平均时间序列,用c1={c
11
,c
12
,...,c
1r
}来表示,这样就得到了第一条新的合成样本。对于整个数据集s,可以得到m/k条新的合成样本,用c={c1,c2,...,c
m/k
}表示。为了尽可能获得更多的合成样本,将以上流程循环n次,因此可以获得n
·
m/k个合成样本,在每次循环前,需要将原始训练集时间序列集合s中的样本随机排序,这样才能保证每次循环中所构造的m/k个时间序列集不同。
[0011]
图2是lstm记忆单元基本结构图,lstm是一种特殊的rnn优化模型,是一种将以往学习的结果应用到当前学习的模型,将rnn中的一个神经元替换为一个记忆单元(memoryblock)这是一个比rnn神经元更复杂的结构。lstm包含一种特殊的门结构,可以根据当前输入和隐状态信息来控制对历史信息的遗忘量,以及对当前输入信息的接纳量,从而实现对历史和当前信息的有效利用,很好的解决了rnn梯度消失的问题。这种特殊的门结构中包括遗忘门、输入门、输出门。整体上除了代表了短期记忆状态h,还增加了代表着长期记忆的细胞状态c,两者同时随时间流动。由于细胞状态c的存在,使得lstm网络相比rnn网络更适用于处理长时间序列。
[0012]
图3是基于dba-lstm的预测ec患者保育治疗结果模型图,利用lstm构建了平行预测模型,并将未经过数据合成的原始数据和经过数据合成的数据导入模型中进行训练和测试,得到数据增强前后模型的不同评估参数。
[0013]
图4是基于dba-lstm的ec保育患者三个月后患者数据真值与预测值对比图,根据dba对数据进行增强,利用lstm模型对ec保育患者三个月后保育治疗结果进行预测。
[0014]
图5是四种预测模型结果对比图,构建的模型与一些基础模型rnn、cnn及gru预测模型的评估效果进行对比,计算了构建模型和对比模型在相同测试集中mape,得到结果对比图。
技术特征:
1.一种使用dba-lstm预测ec患者保育治疗结果的方法,其特征在于:将参与保育治疗的患者四个阶段的基本情况、高危因素和医院实验室检查及辅助检查数据以及诊断结果等时间序列数据进行处理,得到患者数据后搭建模型,训练模型,最后评估模型效能,包括以下步骤:步骤1:根据研究内容,对时间序列数据进行预处理;步骤2:对数据的缺失值进行插值处理以及对数据集进行数据增强处理;步骤3:根据递归神经网络的研究成果,搭建网络模型;步骤4:通过数据训练优化模型参数,并通过测试数据检验模型有效性和准确性。2.根据权利要求1所述的一种使用dba-lstm预测ec患者保育治疗结果的方法,其特征在于:步骤1对时间序列的患者数据中的文本病历进行结构化处理,以及其他数字信息进行数据提取,并使用pandas对数据进行清洗、准备和数据规整,通过matplotlib构建折线图对患者数据进行探索性分析,可以清楚地展示变量随时间的变化趋势。3.根据权利要求1所述的一种使用dba-lstm预测ec患者保育治疗结果的方法,其特征在于:步骤2利用链式方程多重插补法对缺失值进行插值处理,利用dba算法对表格数据进行数据增强。4.根据权利要求1所述的一种使用dba-lstm预测ec患者保育治疗结果的方法,其特征在于:步骤3根据深度学习中的lstm算法,搭建lstm平行预测模型。5.根据权利要求1所述的一种使用dba-lstm预测ec患者保育治疗结果的方法,其特征在于:步骤4通过数据训练优化模型,得到模型最优参数,利用k折交叉验证法检验模型的有效性和准确性。
技术总结
本发明公开了一种使用DBA-LSTM预测EC患者保育治疗结果的方法,开发机器学习模型来预测EC保育患者经保育治疗三个月后各项指标,得到患者保育治疗走势图,直观观察患者各项指标,协助医生治疗,分析收集的临床数据集。采用DBA算法解决原始数据过少的问题,使用LSTM算法建立时间序列平行预测模型。结果表明,该方法优于其他传统的时间序列预测模型,提供了一个现实的策略对保育患者进行监测与预警。提出的模型为医生提供了一个平台,更客观、更科学地评估和预测EC保留生育功能患者在不同治疗阶段的指征、治疗方案、疗效监测及风险预警,协助临床医生并指导EC患者做出获益风险比最大的决策。的决策。
技术研发人员:孙悦 李智 杨帆 李欣阳 朱玉龙
受保护的技术使用者:四川大学
技术研发日:2023.07.14
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
