一种用于医疗特征生成模型的半监督条件迁移学习方法

未命名 08-26 阅读:119 评论:0


1.本发明涉及医疗技术领域,更具体地说,特别涉及一种用于医疗特征生成模型的半监督条件迁移学习方法。


背景技术:

2.2018年,《英国医学杂志》公开版第8卷第1期的文章《仅使用急诊科、普通病房和重症监护室的生命体征数据对败血症预测算法进行多中心验证》提出了一种用于败血症预测的同质转移学习方法。从两个同构数据集提取的特征相同,但它们的数据分布有所不同。这项工作使用从源域学习了六个生命体征特征来预测目标域中的败血症。然而,同构转移学习与大多数(如果不是所有)医疗保健应用程序不兼容,因为它们通常与不同的功能和数据结构相关联。
3.2022年,《ieee/cff计算机视觉和模式识别会议论文集》第4241

4250页的文章《迁移学习的有效条件预训练》提出了从预训练数据集中选择相关子集的有效过滤方法。此外,发现在预训练步骤中降低图像分辨率在成本和性能之间提供了很大的权衡。通过在无监督和有监督的设置下对imagenet进行预训练,并对不同的目标数据集和任务进行微调,来验证技术。提出的方法大大降低了预训练成本,并提供了强大的性能提升。最后,通过调整子集上的可用模型并在从更大规模数据集过滤的数据集上进行预训练,将imagenet预训练的当前标准提高了1-3%。
4.综上所述,现有技术中无法将现有模型迁移至异构数据的场景,而且现有技术由于数据分布不同,导致迁移之后性能会下降。为此,确有必要开发一种用于医疗特征生成模型的半监督条件迁移学习方法。


技术实现要素:

5.本发明的目的在于提供一种用于医疗特征生成模型的半监督条件迁移学习方法,以克服现有技术所存在的缺陷。
6.为了达到上述目的,本发明采用的技术方案如下:
7.一种用于医疗特征生成模型的半监督条件迁移学习方法,包括以下步骤:
8.s1、对输入源域和目标域数据进行特征预处理;
9.s2、按照预设的规则对源域数据进行筛选,得到筛选后的源域数据;
10.s3、将筛选后的源域数据根据特征是否稀有分为预训练的训练集和测试集;
11.s4、构建基于源域数据特点的特征生成模型;
12.s5、按照预设的规则对目标域数据进行筛选,得到筛选后的目标域数据;
13.s6、将筛选后的目标域数据特征输入至基于源域数据特点的特征生成模型,生成目标域数据表征;
14.s7、将步骤s6生成的目标域数据表征作为伪标签与步骤s5筛选的目标域数据相结合,生成与源域数据维度相同的数据集;
15.s8、将步骤s2中筛选的源域数据与步骤s7生成的目标域数集合并,形成混合数据集;
16.s9、基于混合数据集进行重新训练得到带有目标域数据特点的特征生成模型;
17.s10、重复步骤s5-s9,直至带有目标域数据特点的特征生成模型的性能达到预设要求,再将特征生成模型以半监督条件迁移学习的方法迁移到目标域数据集上。
18.进一步地,所述步骤s1具体包括:
19.s10、构建包含所有患者的整个观察期的实际检测情况进行记录;
20.s11、从已知值中推断缺失值;
21.s12、设置滑动窗口,观测数据的近期历史情况;
22.s13、采用了前向填充方法用最新的可用测量值填充纵向数据的缺失值;
23.s14、构建临床评分特征。
24.进一步地,所述步骤s2中按照预设的规则对源域数据进行筛选具体为:去掉缺失值大于80%的数据。
25.进一步地,所述步骤s3具体包括:
26.s30、采用数据统计增强组件过滤筛选后的源域数据,得到多个一维矩阵;
27.s31、将过滤后的源域数据分为预训练的训练集和测试集。
28.进一步地,所述步骤s4中的采用基于树的集成学习算法构建基于源域数据特点的特征生成模型。
29.进一步地,所述步骤s5中按照预设的规则对目标域数据进行筛选具体为:去掉缺失值大于80%的数据。
30.与现有技术相比,本发明的优点在于:本发明结合了半监督迁徙学习和条件迁移学习的特点,改善了数据特点不同导致的医疗模型的通用性和性能降低,本发明采用的机器学习方法,保证了所有参数直观透明,具备可解释性,方便根据实际场景应用进行调整,同时本发明通过多种特征增强方法,强化了原始数据的特点。
附图说明
31.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1是本发明用于医疗特征生成模型的半监督条件迁移学习方法的流程图。
33.图2是本发明中步骤s1-s4的流程图。
具体实施方式
34.下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
35.参阅图1所示,本实施例公开了一种用于医疗特征生成模型的半监督条件迁移学习方法,主要包括两部分:首先对源域数据建模,构建基于源域数据特点的模型,然后将源域构建的模型迁移至目标域的迁移学习方法。在输入源域和目标域(维度不相同,源域特征
数量多于目标域,且源域包含目标域的特征,即目标域的特征源域都有,但是源域的特征目标域不一定有)后,其基本检测部分按照图1所示的基本流程执行。该方法具体包括以下步骤:
36.步骤s1、对输入源域和目标域数据进行特征预处理,数据里包括很多个患者,每个患者有若干个观察点。
37.具体的,伪代码见图2,对输入的原始数据进行预处理(1.添加两个特征missingness features,differential features,用于记录原数据集的特点,2.经验性填补缺失,3.滑动窗口数据增强,4.向前填补5.添加一些常用医学特征)。
38.在这个步骤中,首先构建一个包含所有患者的整个观察期的数据帧。在预处理之前,从缺失和歧视两个角度描述缺失的原始数据。缺失记录原始数据的测量频率和时间间隔。该区分反映了同一特征的当前值和上次观察值之间的差异。添加了2个新特征,根据原始数据的实际检测情况。
39.随后使用一些经验性方法可以从已知值中推断缺失值(例如收缩压(sbp)、舒张压(dbp)和平均动脉压(map),可以使用公式计算map=dbp+1/3(sbp+dbp))。对二维矩阵横向填补:根据当前观测点的一些数据,基于医学常识,对当前观测点的缺失特征进行填补。
40.此外电子病例数据中可能包含不同的元素,包括人口统计、生命体征、实验室和测试结果、。对于所有的生命体征和实验室测试结果,通过六个小时的滑动窗口得出一阶和二阶统计特征,最小值、最大值、平均值、中值、标准差和差异,以更好地反映观察期间的变化。这些统计特征对于指示在时域中具有显著特征的过程至关重要,因此有利于提高模型的性能。即:通过设置滑动窗口,对近期历史记录进行记录,并作为特征加在每个观测点。
41.接着,采用了前向填充方法,用最新的可用测量值填充纵向数据的缺失值。通常,用可用的对应值来填充这些特征,以避免预测中的前瞻性偏差。否则,选择将“nan”保留给完全没有值的其他特征。对二维矩阵纵向填补。
42.最后,构建了八个临床评分特征,以进一步增强模型性能。除了sofa评分(sequential organ failure assessment),还选择了有助于sofa评分的六个组成部分作为临床评分特征。这样做的目的是为了更清楚地了解sofa评分的原因。quick-sofa(qsofa)也被选为八个临床评分特征之一。与sofa相比,qsofa是一种临床可及的快速指标,通常用于诊断并反映患者的感染状况。根据前面的数据,计算每个观测点的一些评分特征,并作为新特征加在每个观测点上。
43.步骤s2、按照预设的规则对源域数据进行筛选(去掉缺失值大于80%的数据),得到筛选后的源域数据。
44.步骤s3、将筛选后的源域数据根据特征是否稀有分为预训练的训练集和测试集,稀有表示在目标域数据中不存在。
45.具体的,步骤:s30、采用数据统计增强组件过滤筛选后的源域数据,得到多个一维矩阵;这里基础特征作为知识源,这是一个多维数据矩阵,而生成特征作为预训练的标签是需要预测的部分。这里由数据统计增强组件过滤的数据的生成特征部分(多维测试数据矩阵)被分解为多个一维矩阵,以允许对具有不同分布和特征的特征进行更有针对性的建模,步骤s31、将过滤后的源域数据根据特征分为预训练的特征集(基础特征)和标签(生成特征),即将预训练集与每个标签子集与特征集相匹配,以形成多个用于机器学习模型训练的
数据集。
46.步骤s4、构建基于源域数据特点的特征生成模型,可以采用基于树的集成学习算法,可以使用其他算法生成预训练模型,但是传统机器学习方法效果不如本方案,而深度神经网络方法缺乏可解释性,并且效果不稳定。hyperopt自动调参方法,对数据使用五折交叉验证,然后取交叉验证结果的平均值,作为最终结果。
47.步骤s5、按照预设的规则对目标域数据进行筛选(去掉缺失值大于80%的数据),得到筛选后的目标域数据。
48.步骤s6、将筛选后的目标域数据特征输入至基于源域数据特点的特征生成模型,生成目标域数据表征。
49.步骤s7、将步骤s6生成的目标域数据表征作为伪标签与步骤s5筛选的目标域数据相结合,生成与源域数据维度相同的数据集。
50.步骤s8、将步骤s2中筛选的源域数据与步骤s7生成的目标域数集合并,形成混合数据集。
51.s9、基于混合数据集进行重新训练得到带有目标域数据特点的特征生成模型。
52.步骤s10、重复步骤s5-s9,直至带有目标域数据特点的特征生成模型的性能达到预设要求(也就是性能不再提升),再将特征生成模型以半监督条件迁移学习的方法迁移到目标域数据集上。
53.本发明结合了半监督迁徙学习和条件迁移学习的特点,改善了数据特点不同导致的医疗模型的通用性和性能降低,本发明采用的机器学习方法,保证了所有参数直观透明,具备可解释性,方便根据实际场景应用进行调整,同时本发明通过多种特征增强方法,强化了原始数据的特点。
54.虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。

技术特征:
1.一种用于医疗特征生成模型的半监督条件迁移学习方法,其特征在于,包括以下步骤:s1、对输入源域和目标域数据进行特征预处理;s2、按照预设的规则对源域数据进行筛选,得到筛选后的源域数据;s3、将筛选后的源域数据根据特征是否稀有分为预训练的训练集和测试集;s4、构建基于源域数据特点的特征生成模型;s5、按照预设的规则对目标域数据进行筛选,得到筛选后的目标域数据;s6、将筛选后的目标域数据特征输入至基于源域数据特点的特征生成模型,生成目标域数据表征;s7、将步骤s6生成的目标域数据表征作为伪标签与步骤s5筛选的目标域数据相结合,生成与源域数据维度相同的数据集;s8、将步骤s2中筛选的源域数据与步骤s7生成的目标域数集合并,形成混合数据集;s9、基于混合数据集进行重新训练得到带有目标域数据特点的特征生成模型;s10、重复步骤s5-s9,直至带有目标域数据特点的特征生成模型的性能达到预设要求,再将特征生成模型以半监督条件迁移学习的方法迁移到目标域数据集上。2.根据权利要求1所述的用于医疗特征生成模型的半监督条件迁移学习方法,其特征在于,所述步骤s1具体包括:s10、构建包含所有患者的整个观察期的实际检测情况进行记录;s11、从已知值中推断缺失值;s12、设置滑动窗口,观测数据的近期历史情况;s13、采用了前向填充方法用最新的可用测量值填充纵向数据的缺失值;s14、构建临床评分特征。3.根据权利要求1所述的用于医疗特征生成模型的半监督条件迁移学习方法,其特征在于,所述步骤s2中按照预设的规则对源域数据进行筛选具体为:去掉缺失值大于80%的数据。4.根据权利要求1所述的用于医疗特征生成模型的半监督条件迁移学习方法,其特征在于,所述步骤s3具体包括:s30、采用数据统计增强组件过滤筛选后的源域数据,得到多个一维矩阵;s31、将过滤后的源域数据根据特征分为预训练的特征集和标签。5.根据权利要求1所述的用于医疗特征生成模型的半监督条件迁移学习方法,其特征在于,所述步骤s4中的采用基于树的集成学习算法构建基于源域数据特点的特征生成模型。6.根据权利要求1所述的用于医疗特征生成模型的半监督条件迁移学习方法,其特征在于,所述步骤s5中按照预设的规则对目标域数据进行筛选具体为:去掉缺失值大于80%的数据。

技术总结
本发明公开了一种用于医疗特征生成模型的半监督条件迁移学习方法,包括S1、对输入源域和目标域数据进行特征预处理;S2、按照预设的规则对源域数据进行筛选,得到筛选后的源域数据;S3、将筛选后的源域数据根据特征是否稀有分为预训练的训练集和测试集;S4、构建基于源域数据特点的特征生成模型;S5、按照预设的规则对目标域数据进行筛选,得到筛选后的目标域数据;S6、生成目标域数据表征;S7、生成与源域数据维度相同的数据集;S8、将筛选的源域数据与目标域数集合并,形成混合数据集;S9、基于混合数据集进行重新训练得到带有目标域数据特点的特征生成模型;S10、重复步骤S5-S9。本发明通过多种特征增强方法,强化了原始数据的特点。点。点。


技术研发人员:彭绍亮 窦钰涛 夏飞 刘达政 潘良睿
受保护的技术使用者:湖南大学
技术研发日:2023.04.04
技术公布日:2023/8/23
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐