一种糖尿病足数据模型的建立方法及系统与流程
未命名
08-26
阅读:186
评论:0
1.本发明涉及糖尿病足领域,特别涉及一种糖尿病足数据模型的建立方法及系统。
背景技术:
2.2型糖尿病是由于机体出现胰岛素抵抗和高胰岛素血症,导致以血糖水平升高为特征的代谢紊乱慢性疾病。随着经济的快速发展和社会城市化,加上久坐不动的生活方式和不健康的饮食模式,在过去几十年中,糖尿病的患病率急剧增加,其中主要是2型糖尿病(t2dm)发病率持续上升。
3.糖尿病可以对身体多器官和多系统造成严重的损害,包括肾脏、血管、神经、心脏和眼睛,进而发展成各种并发症,尤其是足部问题,会导致糖尿病患者的死亡率显著升高。糖尿病足是糖尿病所致的下肢远端神经病变和/或不同程度的血管病变导致的足部溃疡和/或深层组织破坏,伴或不伴感染。dm患者的足部截肢通常是进行性的,而且往往是复发性,据国际糖尿病联盟估计,每年有910万-2610万糖尿病患者会发生糖尿病足溃疡(dfus)。流行病学资料显示,约20%的患者在诊断后1年出现未愈合的糖尿病足病变,1年复发率约为40%,且糖尿病患者每年发生足部溃疡的风险为2.5%。糖尿病足会导致2型糖尿病患者死亡率增高,一项基于人群的队列研究显示,糖尿病足溃疡在最初12个月内的死亡率为5%,在首次发生后5年的死亡率为42%。此外,患有糖尿病足溃疡的个体具有更低的生活质量。
4.近几年,我国糖尿病足患病率明显上升,是糖尿病患者截肢和住院的主要原因,糖尿病足溃疡患者年死亡率高达11%,给我国社会公共卫生问题造成沉重负担。而目前国内外关于糖尿病足风险预测模型报道较少,这些研究大部分只关注了单项指标的影响,很少考虑到不同指标之间的相互关联,以及其联合作用是否对并发症存在影响等,且使用的建模方法多为logistic回归和cox比例等传统统计学方法,目前国内还没有利用机器学习算法构建糖尿病足预测模型的报道,我国糖尿病足发病风险预测模型研究尚处在起步阶段。因此,对糖尿病的早期检测可以帮助高危人群采取预防措施,抑制疾病的进展并提高患者的生活质量。若是能基于机器学习技术联合检验大数据,来构建出2型糖尿患者糖尿病足风险预测模型,能有效为2型糖尿病患者糖尿病足的早期诊断和预防提供依据。
技术实现要素:
5.本发明的目的是提供一种糖尿病足数据模型的建立方法及系统,以解决背景技术中所提出的问题。
6.本发明的上述技术目的是通过以下技术方案得以实现的:
7.为了达到上述目的,本发明提供了一种糖尿病足数据模型的建立方法,包括有以下步骤:
8.步骤s1、数据预处理,将患者的特征数据集成合并到一个2型糖尿病患者的临床资料数据库中,患者的特征数据包括但不仅限于一般信息、检查结果、诊断结果和生存转归;
接着对临床资料数据库中存在明显错误的特征数据或不满足条件的特征数据进行删除,去除异常、重复和错误的特征数据来进行规范化;
9.步骤s2、对规范化后的临床资料数据库内的患者的特征数据进行标准化处理,接着对标准化处理后的特征数据进行归一化和降维,来实现数据分布的可视化;
10.步骤s3、通过多种不同的机器学习算法来分别对经降维来实现数据分布可视化的特征数据进行模型构建,接着通过k折交叉验证对构建的多个模型进行效能评价,最终筛选出效能较其它算法明显更优的机器学习算法;
11.步骤s4、将筛选出的机器学习算法作为常态算法,并将该机器学习算法所计算的结果与各患者的特征数据进行对应编号后,保存到待查找数据库中;当录入新的患者的特征数据后,会与临床资料数据库中的特征数据进行一一匹配,当录入新的患者的特征数据均处于临床资料数据库中的对应特征数据的预设区间内时,能快速提取出待查找数据库中所对应编号的结果;否则,重新执行机器学习来获取结果,编号后保存到待查找数据库中。
12.进一步设置是:在步骤s2中对标准化处理后的特征数据进行归一化和降维,来实现数据分布的可视化中,具有包括有以下步骤:
13.步骤s21、利用coxbox变换对标准化处理后的特征数据进行分布变换;
14.步骤s22、利用t-sne对分布变换后的特征数据进行降维分析,将高维特征数据降维至二维,实现数据分布的可视化。
15.进一步设置是:在步骤s2中对标准化处理后的特征数据进行降维,来实现数据分布的可视化后,需进行特征数据的审核,对缺失率>30%的特征数据使用均值进行填充。
16.进一步设置是:在步骤s3中通过多种不同的机器学习算法来分别对经降维来实现数据分布可视化的特征数据进行模型构建中,机器学习算法包括有k邻近算法、自适应增强算法、线性判别式分析算法和决策树算法。
17.进一步设置是:在步骤s3中对构建的多个模型的效能评价包括有auc值、准确率、精确率、召回率和f1得分。
18.进一步设置是:在步骤s4中当录入新的患者的特征数据后,会与临床资料数据库中的特征数据进行一一匹配,当录入新的患者的特征数据均处于临床资料数据库中的对应特征数据的预设区间内时,能快速提取出待查找数据库中所对应编号的结果,具体为:
19.将特征数据的值置于纵向的直线坐标上,接着根据该特征数据的误差正负范围最大值来获得特征数据的正向阈值和负向阈值,并标记在直线坐标上,同时在两个所标记的点上分别延伸出横向的第一标记虚线;再接着根据该特征数据的误差正负范围最小值来获得特征数据的正向阈值和负向阈值,并标记在直线坐标上,同时在两个所标记的点上分别延伸出横向的第二标记虚线;
20.当录入新的患者的特征数据均处于对应两条第二标记虚线之间时,则快速提取出待查找数据库中所对应编号的结果;当录入新的患者的特征数据中有一项特征数据a处于对应两条第一标记虚线之间但处于对应两条第二标记虚线之间,余下特征数据集合d均处于对应两条第二标记虚线之间,则重新执行机器学习来获取结果,当该结果值与所有特征数据均处于对应两条第二标记虚线之间时所查找获得的结果一致时,将该患者的所有特征数据保存在第一备用资料库中,并指向待查找数据库的所对应的编号;同时,将该特征数据集合d下的特征数据a的第二标记虚线位置外扩至对应的直线坐标处;当录入新的患者的特
征数据中有一项特征数据b处于对应两条第一标记虚线外,则重新执行机器学习来获取结果,编号后保存到待查找数据库中。
21.为了达到上述目的,本发明还提供了一种糖尿病足数据模型的建立系统,包括有:
22.临床资料数据库,用于存储患者的特征数据;
23.待查找数据库,用于保存经机器学习算法所计算的与患者的特征数据进行对应编号后的结果;
24.以及第一备用资料库,用于存储与临床资料数据库内特征数据相近似的新的特征数据。
25.本发明具有以下有益效果:
26.通过一次筛选来选择出合适的机器学习算法,本实施例选择了k邻近算法、自适应增强算法、线性判别式分析算法和决策树算法,并进行模型构建,接着通过k折交叉验证对构建的多个模型进行效能评价,评估其在临床的应用价值,最终筛选出效能较其它算法明显更优的机器学习算法;自适应增强是构建糖尿病足预测模型效果最好的机器学习算法,可以为2型糖尿患者糖尿病足风险预测模型的构建提供参考,为2型糖尿病患者糖尿病足的早期诊断和预防提供依据。
附图说明
27.图1为实施例的流程示意图;
28.图2为实施例中用tsne对糖尿病病足数据进行降维处理,比较病足患者和非病足患者数据分布的差异的示意图;
29.图3为实施例中筛选用于建立糖尿病病足预测模型的特征数据,并比较病足患者和非病足患者在这些特征上的差异的示意图;
30.图4为实施例中四种机器学习算法的roc曲线图;
31.图5为实施例中四种机器学习算法的性能评价示意图
具体实施方式
32.以下结合附图对本发明作进一步详细说明。
33.如附图1至5所示;
34.本实施例公开了一种糖尿病足数据模型的建立方法,包括有以下步骤:
35.步骤s1、数据预处理,将患者的特征数据集成合并到一个2型糖尿病患者的临床资料数据库中,患者的特征数据包括但不仅限于一般信息、检查结果、诊断结果和生存转归;接着对临床资料数据库中存在明显错误的特征数据或不满足条件的特征数据进行删除,去除异常、重复和错误的特征数据来进行规范化;
36.步骤s2、对规范化后的临床资料数据库内的患者的特征数据进行标准化处理,接着对标准化处理后的特征数据进行归一化和降维,来实现数据分布的可视化;
37.步骤s3、通过多种不同的机器学习算法来分别对经降维来实现数据分布可视化的特征数据进行模型构建,接着通过k折交叉验证对构建的多个模型进行效能评价,最终筛选出效能较其它算法明显更优的机器学习算法;
38.步骤s4、将筛选出的机器学习算法作为常态算法,并将该机器学习算法所计算的
结果与各患者的特征数据进行对应编号后,保存到待查找数据库中;当录入新的患者的特征数据后,会与临床资料数据库中的特征数据进行一一匹配,当录入新的患者的特征数据均处于临床资料数据库中的对应特征数据的预设区间内时,能快速提取出待查找数据库中所对应编号的结果;否则,重新执行机器学习来获取结果,编号后保存到待查找数据库中。
39.其中,在步骤s2中对标准化处理后的特征数据进行归一化和降维,来实现数据分布的可视化中,具有包括有以下步骤:
40.步骤s21、利用coxbox变换对标准化处理后的特征数据进行分布变换;
41.步骤s22、利用t-sne对分布变换后的特征数据进行降维分析,将高维特征数据降维至二维,实现数据分布的可视化。
42.其中,在步骤s2中对标准化处理后的特征数据进行降维,来实现数据分布的可视化后,需进行特征数据的审核,对缺失率>30%的特征数据使用均值进行填充。
43.其中,在步骤s3中通过多种不同的机器学习算法来分别对经降维来实现数据分布可视化的特征数据进行模型构建中,机器学习算法包括有k邻近算法、自适应增强算法、线性判别式分析算法和决策树算法。
44.其中,在步骤s3中对构建的多个模型的效能评价包括有auc值、准确率、精确率、召回率和f1得分。
45.其中,在步骤s4中当录入新的患者的特征数据后,会与临床资料数据库中的特征数据进行一一匹配,当录入新的患者的特征数据均处于临床资料数据库中的对应特征数据的预设区间内时,能快速提取出待查找数据库中所对应编号的结果,具体为:
46.将特征数据的值置于纵向的直线坐标上,接着根据该特征数据的误差正负范围最大值来获得特征数据的正向阈值和负向阈值,并标记在直线坐标上,同时在两个所标记的点上分别延伸出横向的第一标记虚线;再接着根据该特征数据的误差正负范围最小值来获得特征数据的正向阈值和负向阈值,并标记在直线坐标上,同时在两个所标记的点上分别延伸出横向的第二标记虚线;
47.当录入新的患者的特征数据均处于对应两条第二标记虚线之间时,则快速提取出待查找数据库中所对应编号的结果;当录入新的患者的特征数据中有一项特征数据a处于对应两条第一标记虚线之间但处于对应两条第二标记虚线之间,余下特征数据集合d均处于对应两条第二标记虚线之间,则重新执行机器学习来获取结果,当该结果值与所有特征数据均处于对应两条第二标记虚线之间时所查找获得的结果一致时,将该患者的所有特征数据保存在第一备用资料库中,并指向待查找数据库的所对应的编号;同时,将该特征数据集合d下的特征数据a的第二标记虚线位置外扩至对应的直线坐标处;当录入新的患者的特征数据中有一项特征数据b处于对应两条第一标记虚线外,则重新执行机器学习来获取结果,编号后保存到待查找数据库中。
48.应用实施例
49.本实施例选择28901例2型糖尿病患者,患者平均年龄为59岁;其中并发糖尿病足患者2144例,占比7.3%,患者平均年龄64岁;非糖尿病足26757例,占比92.6%,患者平均年龄58岁。
50.选择的2型糖尿病患者中,男性15977例,占比55.28%;女性12924例,占比44.72%。2型糖尿病无糖尿病足患者中,男性14806例,女性11951例;并发糖尿病足患者中,
男性1171例,女性973例。
51.①
数据预处理
52.(1)存在异常数据和错误数据。对导出的原始数据整理时发现,有些检验项目的数值存在明显的异常高值或低值,甚至出现负值的情况。
53.(2)项目存在多种名称。因为选择的数据时间跨度长,且医院系统和检验项目经历多次更新,导致同一检验项目在不同时期有不同的名称,参考范围也存在差异。
54.(3)数据包含的字段较多。从医院电子病例系统导出的糖尿病患者数据涉及患者的年龄、性别、血常规、血糖水平、感染指标等多方面的信息,包含的数据维度多,且存在明显的特征多、纬度高等问题。如果直接将原始数据应用到预测模型中,会使模型预测准确度大打折扣,且研究缺失科学性。
55.(4)一个患者的同一检验项目存在多条数据记录。从医院病例系统导出检验数据中,发现患者住院期间,很多指标需要多次复查,所以部分数据是重复的。
56.将连续数值特征的检验项目数据转换成统一格式的数据,去除数据中出现的错误信息、报警信息等干扰因素。
57.②
特征数据的归一化处理和降维;
58.(1)利用coxbox变换对2型糖尿病和糖尿病足患者的特征数据进行分布变换;
59.(2)数据可视化(线性降维方法tsne)
60.利用t-sne对2型糖尿病和糖尿病足患者的特征数据进行特征降维分析,将高维特征数据降维至二维(2d),实现数据分布的可视化,便于理解数据的分布特征、选择有效的预测模型,如附图2所示;
61.③
特征数据的筛选
62.对收集数据进行缺失值统计后,选择缺失值《30的检验项目作为模型特征,最后共选取28901名糖尿病患者(糖尿病足2144例,非糖尿病足26757例)的检验结果,利用txt创建原始数据集,对检验数据进行清洗和统合,对连续变化的数据,用coxbox变换对其进行归一化处理,将其转换为服从(0,1)正态分布的数值,并利用t-sne对数据进行可视化,最后对检验结果进行有效值统计,得到52项检验:尿蛋白定性,红细胞分布宽度-变异系数,血清载脂蛋白a1,密度脂蛋白胆固醇,餐后两小时血糖,血清总胆固醇,低密度脂蛋白胆固醇,尿细菌定量,血清超敏c-反应蛋白,血清甘油三酯,血清载脂蛋白b,白细胞计数,糖化血红蛋白,血小板计数,血清葡萄糖,血肌酐,血清c-反应蛋白,游离三碘甲状腺原氨酸,血肌酐预估肾小球滤过率,血清β-羟丁酸,血清一小时葡萄糖,尿微量蛋白,血清半小时葡萄糖,尿微量白蛋白,24小时尿微量白蛋白,血清三小时葡萄糖,血清二小时葡萄糖,血清空腹葡萄糖,24小时尿微量蛋白,红细胞沉降率,尿液肌酐,尿蛋白/肌酐比值,降钙素原,谷氨酸脱羧酶抗体,蛋白酪氨酸磷酸酶抗体,胰岛素自身抗体,胰岛细胞抗体,血清两小时c肽,糖化白蛋白浓度,巨细胞病毒抗体igm,尿白蛋白/肌酐比值,血清三小时c肽,血清半小时c肽,血清一小时c肽,血清空腹c肽,血清两小时胰岛素,血清一小时胰岛素,血清半小时胰岛素,血清空腹胰岛素,血清三小时胰岛素,24小时尿肌酐,巨细胞病毒抗体igg。将性别、年龄和得到的52项糖尿病患者检验数据和整合。
63.如附图3所示;
64.④
模型构建与评价
65.将52个项检验结果和性别、年龄共54项,采用k邻近、自适应增强算法、线性判别式和决策树4种机器学习算法分别进行模型构建。各模型选取80%用作训练集,20%用作测试集,并使用10折交叉验证对模型效能进行评价。4种机器学习算法模型roc曲线结果如图4所示,使用adaboost构建的糖尿病足预测模型性能明显优于其它算法。同时采用auc值、准确率、精确率、召回率和f1得分对模型测试结果进行评估,结果见表1。可以看出,自适应增强构模型其auc值最高,为0.827,其余指标在4种模型种均最高,其效能较其它算法明显更优。如附图4和图5所述;
66.本实施例收集糖尿病足患者的常规检验指标,构建基于不同学习算法的四种预测模型,通过对模型进行性能评价,结果相似自适应增强模型的准确率、精确率、召回率和f1得分均大于75%,auc值达82%,各项评估值均明显优于其它模型,具有明显优势,对糖尿病足具有良好的预测能力。建立并选用合适的预测模型对降低糖尿病足早期预防和诊断意义重大,本实施例可为t2dm并发糖尿病足高危人群的干预和筛选研究提供一定帮助,并为构建t2dm并发糖尿病足的模型预测提供参考依据。本模型利用医院电子病例系统数据获取常见的检验指标,以临床患者数据为基础,将来可以嵌入临床决策支持系统,方便临床医生对糖尿病足进行管理和诊断,同时也为将来糖尿病及其它并发症的预测模型构建提供参考。
67.更进一步的,本实施例对模型进行进一步优化,通过扩大特征数据a的范围,来避免相似数据需重新执行机器学习来获取结果的步骤,有效提高处理速率,达到高性能的目的。
68.本实施例还公开了一种糖尿病足数据模型的建立系统,包括有:
69.临床资料数据库,用于存储患者的特征数据;
70.待查找数据库,用于保存经机器学习算法所计算的与患者的特征数据进行对应编号后的结果;
71.以及第一备用资料库,用于存储与临床资料数据库内特征数据相近似的新的特征数据。
72.本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
技术特征:
1.一种糖尿病足数据模型的建立方法,其特征在于,包括有以下步骤:步骤s1、数据预处理,将患者的特征数据集成合并到一个2型糖尿病患者的临床资料数据库中,患者的特征数据包括但不仅限于一般信息、检查结果、诊断结果和生存转归;接着对临床资料数据库中存在明显错误的特征数据或不满足条件的特征数据进行删除,去除异常、重复和错误的特征数据来进行规范化;步骤s2、对规范化后的临床资料数据库内的患者的特征数据进行标准化处理,接着对标准化处理后的特征数据进行归一化和降维,来实现数据分布的可视化;步骤s3、通过多种不同的机器学习算法来分别对经降维来实现数据分布可视化的特征数据进行模型构建,接着通过k折交叉验证对构建的多个模型进行效能评价,最终筛选出效能较其它算法明显更优的机器学习算法;步骤s4、将筛选出的机器学习算法作为常态算法,并将该机器学习算法所计算的结果与各患者的特征数据进行对应编号后,保存到待查找数据库中;当录入新的患者的特征数据后,会与临床资料数据库中的特征数据进行一一匹配,当录入新的患者的特征数据均处于临床资料数据库中的对应特征数据的预设区间内时,能快速提取出待查找数据库中所对应编号的结果;否则,重新执行机器学习来获取结果,编号后保存到待查找数据库中。2.根据权利要求1所述的一种糖尿病足数据模型的建立方法,其特征在于:在步骤s2中对标准化处理后的特征数据进行归一化和降维,来实现数据分布的可视化中,具有包括有以下步骤:步骤s21、利用coxbox变换对标准化处理后的特征数据进行分布变换;步骤s22、利用t-sne对分布变换后的特征数据进行降维分析,将高维特征数据降维至二维,实现数据分布的可视化。3.根据权利要求1所述的一种糖尿病足数据模型的建立方法,其特征在于:在步骤s2中对标准化处理后的特征数据进行降维,来实现数据分布的可视化后,需进行特征数据的审核,对缺失率>30%的特征数据使用均值进行填充。4.根据权利要求1所述的一种糖尿病足数据模型的建立方法,其特征在于:在步骤s3中通过多种不同的机器学习算法来分别对经降维来实现数据分布可视化的特征数据进行模型构建中,机器学习算法包括有k邻近算法、自适应增强算法、线性判别式分析算法和决策树算法。5.根据权利要求1所述的一种糖尿病足数据模型的建立方法,其特征在于:在步骤s3中对构建的多个模型的效能评价包括有auc值、准确率、精确率、召回率和f1得分。6.根据权利要求1所述的一种糖尿病足数据模型的建立方法,其特征在于:在步骤s4中当录入新的患者的特征数据后,会与临床资料数据库中的特征数据进行一一匹配,当录入新的患者的特征数据均处于临床资料数据库中的对应特征数据的预设区间内时,能快速提取出待查找数据库中所对应编号的结果,具体为:将特征数据的值置于纵向的直线坐标上,接着根据该特征数据的误差正负范围最大值来获得特征数据的正向阈值和负向阈值,并标记在直线坐标上,同时在两个所标记的点上分别延伸出横向的第一标记虚线;再接着根据该特征数据的误差正负范围最小值来获得特征数据的正向阈值和负向阈值,并标记在直线坐标上,同时在两个所标记的点上分别延伸出横向的第二标记虚线;
当录入新的患者的特征数据均处于对应两条第二标记虚线之间时,则快速提取出待查找数据库中所对应编号的结果;当录入新的患者的特征数据中有一项特征数据a处于对应两条第一标记虚线之间但处于对应两条第二标记虚线之间,余下特征数据集合d均处于对应两条第二标记虚线之间,则重新执行机器学习来获取结果,当该结果值与所有特征数据均处于对应两条第二标记虚线之间时所查找获得的结果一致时,将该患者的所有特征数据保存在第一备用资料库中,并指向待查找数据库的所对应的编号;同时,将该特征数据集合d下的特征数据a的第二标记虚线位置外扩至对应的直线坐标处;当录入新的患者的特征数据中有一项特征数据b处于对应两条第一标记虚线外,则重新执行机器学习来获取结果,编号后保存到待查找数据库中。7.一种糖尿病足数据模型的建立系统,应用于权利要求1至6中任一所述的一种糖尿病足数据模型的建立方法,其特征在于,包括有:临床资料数据库,用于存储患者的特征数据;待查找数据库,用于保存经机器学习算法所计算的与患者的特征数据进行对应编号后的结果;以及第一备用资料库,用于存储与临床资料数据库内特征数据相近似的新的特征数据。
技术总结
本发明公开了一种糖尿病足数据模型的建立方法及系统,包括有以下步骤:步骤S1、数据预处理;步骤S2、对特征数据进行归一化处理和降维;步骤S3、通过多种不同的机器学习算法来进行模型构建,最终筛选出效能较其它算法明显更优的机器学习算法;步骤S4、将筛选出的机器学习算法作为常态算法,并将该机器学习算法所计算的结果与各患者的特征数据进行对应编号后,保存到待查找数据库中;并优化处理速度。本发明具有以下优点和效果:能筛选出效能较其它算法明显更优且更适合的机器学习算法,为2型糖尿患者糖尿病足风险预测模型的构建提供参考,为2型糖尿病患者糖尿病足的早期诊断和预防提供依据。供依据。供依据。
技术研发人员:王伟佳 袁勇 曾荣豪 李丽敏
受保护的技术使用者:中山市人民医院
技术研发日:2023.06.01
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:VR佩戴装置的制作方法 下一篇:数据存储方法、装置、存储介质及电子装置与流程
