数据处理方法、装置、存储介质及计算机设备与流程
未命名
07-26
阅读:247
评论:0
1.本发明涉及信息技术及数字医疗技术领域,尤其是涉及一种数据处理方法、装置、存储介质及计算机设备。
背景技术:
2.传统的医疗监护方法很难规律地采集患者的数据,比如住院病人的生命体征数据每三到四小时监测一次,而icu病人每小时监测一次,生理生化指标的测量频率也不一致,由于操作的复杂性及频繁检测的必要性的考虑,生化指标的测量次数往往少于生理指标。这导致我们采集到的数据存在稀疏性及采样不规律的问题。而在模型训练的过程中,需要大量的完整数据进行训练,而目前的原始数据都是不完整,即有缺失值的数据,因此如何准确、快速地对数据进行缺失值处理是亟待解决的技术问题。
3.目前,通常采用人工填充的方式完成数据缺失值的处理。然而,这种方式需要操作人员人工检查数据中缺失的内容,数据处理的效率较低,与此同时,如果数据中缺失值较多,很可能由于操作人员的疏忽出现遗漏处理或者填充错误的情况,从而导致对数据处理的准确度不高。
技术实现要素:
4.本发明提供了一种数据处理方法、装置、存储介质及计算机设备,主要在于能够提高数据的处理效率和处理准确度。
5.根据本发明的第一个方面,提供一种数据处理方法,包括:
6.获取待填充的原始医疗数据;
7.对所述原始医疗数据进行分类,确定所述原始医疗数据所属的目标聚类类别;
8.确定所述原始医疗数据对应的第一特征向量;
9.将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据。
10.可选地,所述对所述原始医疗数据进行分类,确定所述原始医疗数据所属的目标聚类类别,包括:
11.获取不同聚类类别下的历史医疗数据;
12.分别计算所述原始医疗数据与所述不同聚类类别下的历史医疗数据之间的距离;
13.基于所述不同聚类类别下历史医疗数据对应的距离,确定所述原始医疗数据所属的目标聚类类别。
14.可选地,所述确定所述原始医疗数据对应的第一特征向量,包括:
15.确定所述原始医疗数据中包含的各个字符;
16.确定所述各个字符对应的嵌入向量,并将所述嵌入向量确定为所述原始医疗数据对应的第一特征向量。
17.可选地,所述预设缺失值填充模型包括编码器和解码器,所述编码器包括注意力
层和前馈神经网络层,所述将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据,包括:
18.将所述第一特征向量输入至所述注意力层中的不同注意力子空间进行特征提取,得到所述原始医疗数据在所述不同注意力子空间下的第二特征向量;
19.将所述原始医疗数据在所述不同注意力子空间下的第二特征向量与所述不同注意力子空间对应的权重相乘并求和,得到所述原始医疗数据对应的注意力层输出向量;
20.将所述注意力层输出向量和所述第一特征向量相加,得到所述原始医疗数据对应的第三特征向量;
21.将所述第三特征向量输入至所述前馈神经网络层中进行特征提取,得到所述原始医疗数据对应的第四特征向量;
22.将所述第四特征向量输入至所述解码器进行解码处理,得到所述原始医疗数据对应的填充后的医疗数据。
23.可选地,在所述将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据之前,所述方法还包括:
24.基于预设模型配置表,确定与所述目标聚类类别相对应的预设缺失值填充模型,其中,所述预设模型配置表记录着各个聚类类别对应的预设缺失值填充模型。
25.可选地,在所述将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据之前,所述方法还包括:
26.获取原始样本医疗数据及其对应的实际填充后的样本医疗数据;
27.将所述原始样本医疗数据输入至预设初始缺失值填充模型中进行缺失值填充,得到所述原始样本医疗数据对应的预测填充后的样本医疗数据;
28.基于所述实际填充后的样本医疗数据和所述预测填充后的样本医疗数据,确定所述预设初始缺失值填充模型对应的损失函数;
29.基于所述损失函数,构建所述预设缺失值填充模型。
30.可选地,所述基于所述实际填充后的样本医疗数据和所述预测填充后的样本医疗数据,确定所述预设初始缺失值填充模型对应的损失函数,包括:
31.确定所述实际填充后的样本医疗数据对应的第一样本特征向量,以及确定所述预测填充后的样本医疗数据对应的第二样本特征向量;
32.计算所述第一样本特征向量和所述第二样本特征向量中相同位置处的各个向量差;
33.通过计算所述各个向量差的平方和,构建所述预设初始缺失值填充模型对应的损失函数。
34.根据本发明的第二个方面,提供一种数据处理装置,包括:
35.获取单元,用于获取待填充的原始医疗数据;
36.分类单元,用于对所述原始医疗数据进行分类,确定所述原始医疗数据所属的目标聚类类别;
37.确定单元,用于确定所述原始医疗数据对应的第一特征向量;
38.缺失值填充单元,用于将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据。
39.根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上数据处理方法。
40.根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上数据处理法方法。
41.根据本发明提供的一种数据处理方法、装置、存储介质及计算机设备,与目前采用人工填充的方式完成数据缺失值的处理的方式相比,本发明通过获取待填充的原始医疗数据;并对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别;之后确定原始医疗数据对应的第一特征向量;最终将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据,由此通过确定原始医疗数据所属的目标聚类类别,并利用与目标聚类类别相对应的预设缺失值填充模型来对原始医疗数据的缺失值进行填充,能够提高数据缺失值的处理效率,同时,能够避免由于操作人员的疏忽出现遗漏处理或者填充错误的情况,从而提高了缺失值填充的准确度,与此同时,由于不同数据类型对应的不同的插值参数,通过利用与原始医疗数据所属的目标聚类类别相对应的预设缺失值填充模型来对数据的缺失值进行填充,能够进一步提高缺失值填充的精度。
附图说明
42.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
43.图1示出了本发明实施例提供的一种数据处理方法流程图;
44.图2示出了本发明实施例提供的另一种数据处理方法流程图;
45.图3示出了本发明实施例提供的一种数据处理装置的结构示意图;
46.图4示出了本发明实施例提供的另一种数据处理装置的结构示意图;
47.图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
48.下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
49.目前,采用人工填充的方式完成数据缺失值的处理的方式,导致缺失值填充的效率较低,与此同时,由于由于操作人员的疏忽出现遗漏处理或者填充错误的情况,从而导致对数据处理的准确度不高。
50.为了解决上述问题,本发明实施例提供了一种数据处理方法,如图1所示,所述方法包括:
51.101、获取待填充的原始医疗数据。
52.其中,原始医疗数据包括含有缺失值的患者的基本信息数据(如年龄、性别、疾病史、职业等数据)、患者的诊断信息数据(如检测报告数据和医生开具的诊断书中的数据)、患者的生理信号监测数据(如心电数据和血压数据)、临床干预信息数据(如患者的用药数据和手术数据等)等。
53.具体地,医院的数据库中存储着各个患者对应的原始医疗数据,通过患者的授权可以登录所述数据库获取所述患者的原始医疗数据,并对所述原始医疗数据中的缺失值进行填充,得到完整的医疗数据,以便利用所述完整的医疗数据进行模型训练,进而提高模型的训练精度。
54.102、对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别。
55.其中,目标聚类类别为原始医疗数据所属的数据类型,如血压数据、心电数据数据、用药数据等。
56.对于本发明实施例,因为不同类型的医疗数据对应的插值参数不同,为了提高缺失值填充的准确度,需要预先构建不同聚类类别分别对应的预设缺失值填充模型,在获取待填充的原始医疗数据后,确定原始医疗数据所属的数据类型,或者确定原始医疗数据所属的目标聚类类别,并在预设模型配置表中确定该目标聚类类别对应的预设缺失值填充模型,并利用该预设缺失值填充模型对原始医疗数据中的缺失值进行填充,得到填充后的医疗数据,由此通过构建不同聚类类别分别对应的预设缺失值填充模型,并利用原始医疗数据所属的目标聚类类别对应的预设缺失值填充模型来进行缺失值填充,能够提高缺失值的填充精度。
57.103、确定原始医疗数据对应的第一特征向量。
58.对于本发明实施例,为了减少预设缺失值填充模型的计算复杂度,保证预设缺失值填充模型的轻量计算,需要确定原始医疗数据对应的第一特征向量,该第一特征向量可以为通过词嵌入发获取的原始医疗数据对应的嵌入向量,之后将该第一特征向量输入至预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据,通过利用预设缺失值填充模型来对原始医疗数据中的缺失值进行填充,能够提高缺失值的填充效率。
59.104、将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据。
60.其中,不同聚类类别对应不同的预设缺失值填充模型,如血压类别对应含有血压数据插值参数的预设缺失值填充模型,心电数据类别对应含有心电数据插值参数的预设缺失值填充模型。
61.对于本发明实施例,在确定原始医疗数据所属的目标聚类类别后,还需要确定与该目标聚类类别相对应的预设缺失值填充模型,之后将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据,例如,若原始医疗数据为患者一周内的血压数据为:第一天:收缩压140mmhg,舒张压90mmhg,第二天:收缩压130mmhg,舒张压80mmhg,第三天:收缩压160mmhg,舒张压100mmhg,第六天:收缩压180mmhg,舒张压120mmhg,由此可知,该患者缺少第四天、第五天和第七天的血压数据,若要利用患者血压数据训练某一模型,则为了提高模型的训练精度,需要获取该患者一周内完整的血压数据,因此需要对患者一周内的血压数据进行缺失值填
充,首先,确定血压数据所属于的目标聚类类别为血压数据聚类类别,之后确定血压数据聚类类别对应的预设缺失值填充模型,并利用该预设缺失值填充模型对血压数据中的缺失值进行填充,得到完整的血压数据,由此通过利用预设缺失值填充模型来对原始医疗数据的缺失值进行填充,能够避免由于操作人员的疏忽导致缺失值填充错误或者未发现缺失值的情况,从而提高了数据缺失值的填充准确度。
62.根据本发明提供的一种数据处理方法,与目前采用人工填充的方式完成数据缺失值的处理的方式相比,本发明通过获取待填充的原始医疗数据;并对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别;之后确定原始医疗数据对应的第一特征向量;最终将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据,由此通过确定原始医疗数据所属的目标聚类类别,并利用与目标聚类类别相对应的预设缺失值填充模型来对原始医疗数据的缺失值进行填充,能够提高数据缺失值的处理效率,同时,能够避免由于操作人员的疏忽出现遗漏处理或者填充错误的情况,从而提高了缺失值填充的准确度,与此同时,由于不同数据类型对应的不同的插值参数,通过利用与原始医疗数据所属的目标聚类类别相对应的预设缺失值填充模型来对数据的缺失值进行填充,能够进一步提高缺失值填充的精度。
63.进一步的,为了更好的说明上述对数据进行处理的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种数据处理方法,如图2所示,所述方法包括:
64.201、获取待填充的原始医疗数据。
65.具体地,若要对某个模型进行训练时,首先需要在医院的数据库中获取患者的原始医疗数据,并对原始医疗数据进行缺失值填充,得到完整的医疗数据,之后利用完整的医疗数据对模型进行训练,以便构建预测精度较高的模型。
66.202、对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别。
67.对于本发明实施例,在获取待填充的原始医疗数据后,为了确定原始医疗数据对应的预设缺失值填充模型,首先需要对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别,基于此,所述方法包括:获取不同聚类类别下的历史医疗数据;分别计算原始医疗数据与不同聚类类别下的历史医疗数据之间的距离;基于不同聚类类别下历史医疗数据对应的距离,确定原始医疗数据所属的目标聚类类别。
68.其中,历史医疗数据可以为填充后的医疗数据,也可以为填充前的医疗数据,不同聚类类别中包含不同类型的历史医疗数据,如第一聚类类别中包含历史血压数据,第二聚类类别中包含历史心电数据,第三聚类类别中包含历史用药数据,同时,不同聚类类别对应不同的预设缺失值填充模型。
69.具体地,首先对多组历史医疗数据进行聚类,得到不同聚类类别下的历史医疗数据,其中,具体聚类方法为:确定多组历史医疗数据分别对应的历史数据特征向量;初始化不同团簇对应的质心向量;计算不同历史数据特征向量与不同团簇对应的质心向量之间的距离,并基于不同团簇对应的距离,将多组历史医疗数据划分到不同团簇中;基于不同团簇中历史医疗数据对应的历史数据特征向量,得到不同团簇对应的更新后的质心向量;基于更新后的质心向量,重新将多组历史医疗数据划分到不同团簇中,直至更新后的质心向量不发生变化,将最终划分到不同团簇中的历史医疗数据,确定为不同聚类类别下的历史医疗数据。之后为不同聚类类别构建其对应的预设缺失值填充模型,具体构建预设缺失值填
充模型的方法为:获取原始样本医疗数据及其对应的实际填充后的样本医疗数据;将原始样本医疗数据输入至预设初始缺失值填充模型中进行缺失值填充,得到原始样本医疗数据对应的预测填充后的样本医疗数据;基于实际填充后的样本医疗数据和预测填充后的样本医疗数据,确定预设初始缺失值填充模型对应的损失函数;基于损失函数,构建所述预设缺失值填充模型。
70.其中,实际填充后的样本医疗数据为原始样本医疗数据对应的正确的完整医疗数据,预测填充后的样本医疗数据为模型预测出的原始样本医疗数据对应的填充后的医疗数据。
71.具体地,本发明实施例以构建任意一个聚类类别下的预设缺失值填充模型为例,首先确定该任意一个聚类类别中的原始样本医疗数据对应的特征向量,并将该特征向量输入至预设初始缺失值填充模型中进行缺失值填充,得到预测填充后的样本医疗数据,之后基于实际填充后的样本医疗数据和预测填充后的样本医疗数据,确定预设初始缺失值填充模型对应的损失函数,具体确定预设初始缺失值填充模型对应的损失函数的方法为:确定实际填充后的样本医疗数据对应的第一样本特征向量,以及确定预测填充后的样本医疗数据对应的第二样本特征向量;计算第一样本特征向量和第二样本特征向量中相同位置处的各个向量差;通过计算各个向量差的平方和,构建预设初始缺失值填充模型对应的损失函数。
72.具体地,在确定样本医疗数据对应的实际填充后的样本医疗数据和预测填充后的样本医疗数据后,将实际填充后的样本医疗数据和预测填充后的样本医疗数据分别输入至预设特征提取模型中进行特征提取,得到实际填充后的样本医疗数据对应的第一样本特征向量,以及预测填充后的样本医疗数据对应的第二样本特征向量,之后计算第一样本特征向量和第二样本特征向量中相同位置处的各个向量差,之后将各个向量差进行平方并求和,即计算预设初始缺失值填充模型对应的均方根误差,通过计算均方根误差,构建预设初始缺失值填充模型对应的损失函数,具体计算均方根误差的公式如下:
[0073][0074]
其中,z表示均方根误差,u1、u2....ur表示第二样本特征向量中的各个向量,v1、v2....vr表示第一样本特征向量中的各个向量,r表示第二样本特征向量中包含的向量数量,按照上述公式构建预设初始缺失值填充模型对应的损失函数后,基于该损失函数对预设初始缺失值填充模型进行训练,直至训练到出现最小损失函数值为止,并基于最小损失函数值对应的模型参数,构建预设缺失值填充模型,由此按照上述方法能够构建不同聚类类别对应的预设缺失值填充模型,并将不同聚类类别与其对应的预设缺失值填充模型对应记载在预设模型配置表中。
[0075]
进一步地,在确定不同聚类类别下的历史医疗数据以及构建完不同聚类类别对应的预设缺失值填充模型后,还需要利用预设特征提取模型,如预设bert模型,确定待填充的原始医疗数据对应的原始数据特征向量,之后分别计算待填充的原始医疗数据对应的原始数据特征向量和不同聚类类别下的历史医疗数据对应的历史数据特征向量之间的距离,最终在各个距离中筛选最小距离,并确定最小距离对应的历史医疗数据,从而确定该历史医疗数据所属的类别,最终将该类别确定为原始医疗数据所属的目标聚类类别。
[0076]
进一步地,在确定原始医疗数据所属的目标聚类类别后,需要利用预设模型配置表确定该目标聚类类别对应的预设缺失值填充模型,居于此,所述方法包括:基于预设模型配置表,确定与目标聚类类别相对应的预设缺失值填充模型,其中,预设模型配置表记录着各个聚类类别对应的预设缺失值填充模型。
[0077]
具体地,将原始医疗数据所属的目标聚类类别与预设模型配置表中记录的各个聚类类别进行相似度匹配,在预设模型配置表中确定与目标聚类类别相匹配的类别,并确定该类别对应的目标预设缺失值填充模型,最终将该目标预设缺失值填充模型确定为与目标聚类类别对应的预设缺失值填充模型,并利用该预设缺失值填充模型对原始医疗数据中的缺失值进行填充,得到完整的医疗数据。
[0078]
203、确定原始医疗数据中包含的各个字符。
[0079]
具体地,若原始医疗数据为:“性别男,年龄58”,则其包含的各个字符为:“性/别/男/,/年/龄/58/”。
[0080]
204、确定各个字符对应的嵌入向量,并将嵌入向量确定为原始医疗数据对应的第一特征向量。
[0081]
具体地,为了确定原始医疗数据对应的第一特征向量,首先需要确定原始医疗数据中包含的各个字符,之后利word2vec等词嵌入方法将原始医疗数据中的各个字符转化为嵌入向量,即第一特征向量,并将第一特征向量输入至预设缺失值填充模型中,得到填充后的医疗数据。
[0082]
205、将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据。
[0083]
其中,预设缺失值填充模型包括编码器和解码器,编码器包括注意力层和前馈神经网络层,为了提高预设缺失值填充模型的填充精度,预设缺失值填充模型可以包括多个编码器,如5个编码器。
[0084]
对于本发明实施例,在确定原始医疗数据对应的第一特征向量后,需要将该第一特征向量输入至预设缺失值填充模型中进行缺失值填充,基于此,步骤205具体包括:将第一特征向量输入至注意力层中的不同注意力子空间进行特征提取,得到原始医疗数据在不同注意力子空间下的第二特征向量;将原始医疗数据在不同注意力子空间下的第二特征向量与不同注意力子空间对应的权重相乘并求和,得到原始医疗数据对应的注意力层输出向量;将注意力层输出向量和第一特征向量相加,得到原始医疗数据对应的第三特征向量;将第三特征向量输入至前馈神经网络层中进行特征提取,得到原始医疗数据对应的第四特征向量;将第四特征向量输入至解码器进行解码处理,得到原始医疗数据对应的填充后的医疗数据。
[0085]
具体地,在确定原始医疗数据对应的第一特征向量,即各个字符对应的嵌入向量后,将该第一特征向量输入至预设缺失值填充模型中第一个编码器的注意力层进行特征提取,得到该注意力层的输出向量,即原始医疗数据对应的第二特征向量,其中,在注意力层进行特征提取的具体过程为:根据各个字符对应的嵌入向量,确定各个字符对应的查询向量、键向量和值向量;将各个字符中的目标字符对应的查询向量与各个字符对应的键向量相乘,得到各个字符针对目标字符的注意力分值;将各个字符对应的注意力分值和值向量相乘并求和,得到目标字符对应的第二特征向量。
[0086]
对于本发明实施例,在获取各个字符对应的第二特征向量的过程中,可以将各个字符对应的嵌入向量与注意力层对应的权重矩阵相乘,得到各个字符对应的查询向量、键向量和值向量,进一地,需要计算各个字符对应的注意力分值,在计算各个字符中任意一个字符(目标字符)对应的注意力分值时,需要利用原始医疗数据中各个字符对目标字符进行打分,具体地,将目标字符对应的查询向量与各个字符对应的键向量相乘,得到各个字符对目标字符的打分值,即注意力分值,之后将各个字符对应的注意力分值和值向量相乘求和,最终得到目标字符对应的注意力层输出向量,即目标字符对应的第二特征向量,由此按照上述方式能够确定各个字符对应的第二特征向量,由此能够得到原始医疗数据对应的第二特征向量。
[0087]
进一步地,为了对原始医疗数据进行缺失值填充,在将原始医疗数据中各个字符对应的嵌入向量输入至第一个编码器的注意力层,提取到原始医疗数据对应的第二特征向量之后,需要将第二特征向量与第一特征向量相加,得到原始医疗数据对应的第三特征向量,并将第三特征向量输入至第一个编码器的前馈神经网络层中进行特征提取,得到第一个编码器的输出向量,因为本发明实施例中的预设缺失值填充模型包含多个编码器,且多个编码器之间采用首尾串联的方式,因此将第一个编码器的输出向量输入至第二个编码器中进行特征提取,得到第二个编码器的输出向量,以此将前一个编码器的输出向量作为下一个编码器的输入向量,最终将最后一个编码器的输出向量确定为原始医疗数据对应的第四特征向量。之后将第四特征向量输入至解码器中进行解码处理,得到原始医疗数据对应的填充后的医疗数据。例如,若原始医疗数据中仅包含四天的心电数据,而此时需要患者7天的心电数据进行模型训练,则确定现有的四天的心电数据对应的第一特征向量,并将该第一特征向量输入至预设缺失值填充模型中进行缺失值填充,得到患者对应的完整的7天的心电数据。
[0088]
根据本发明提供的另一种数据处理方法,与目前采用人工填充的方式完成数据缺失值的处理的方式相比,本发明通过获取待填充的原始医疗数据;并对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别;之后确定原始医疗数据对应的第一特征向量;最终将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据,由此通过确定原始医疗数据所属的目标聚类类别,并利用与目标聚类类别相对应的预设缺失值填充模型来对原始医疗数据的缺失值进行填充,能够提高数据缺失值的处理效率,同时,能够避免由于操作人员的疏忽出现遗漏处理或者填充错误的情况,从而提高了缺失值填充的准确度,与此同时,由于不同数据类型对应的不同的插值参数,通过利用与原始医疗数据所属的目标聚类类别相对应的预设缺失值填充模型来对数据的缺失值进行填充,能够进一步提高缺失值填充的精度。
[0089]
进一步地,作为图1的具体实现,本发明实施例提供了一种数据处理装置,如图3所示,所述装置包括:获取单元31、分类单元32、确定单元33和缺失值填充单元34。
[0090]
获取单元31,可以用于获取待填充的原始医疗数据。
[0091]
分类单元32,可以用于对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别。
[0092]
确定单元33,可以用于确定原始医疗数据对应的第一特征向量。
[0093]
缺失值填充单元34,可以用于将第一特征向量输入至与目标聚类类别相对应的预
设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据。
[0094]
在具体应用场景中,为了确定原始医疗数据所属的目标聚类类别,如图4所示,分类单元32,包括获取模块321、第一计算模块322和第一确定模块323。
[0095]
获取模块321,可以用于获取不同聚类类别下的历史医疗数据。
[0096]
第一计算模块322,可以用于分别计算原始医疗数据与不同聚类类别下的历史医疗数据之间的距离。
[0097]
第一确定模块323,可以用于基于不同聚类类别下历史医疗数据对应的距离,确定原始医疗数据所属的目标聚类类别。
[0098]
在具体应用场景中,为了确定原始医疗数据对应的第一特征向量,确定单元33,具体可以用于确定原始医疗数据中包含的各个字符;确定各个字符对应的嵌入向量,并将嵌入向量确定为原始医疗数据对应的第一特征向量。
[0099]
在具体应用场景中,为了得到原始医疗数据对应的填充后的医疗数据,缺失值填充单元34,包括特征提取模块341、相乘模块342、相加模块343、解码处理模块344。
[0100]
特征提取模块341,可以用于将所述第一特征向量输入至注意力层中的不同注意力子空间进行特征提取,得到原始医疗数据在所述不同注意力子空间下的第二特征向量。
[0101]
相乘模块342,可以用于将原始医疗数据在所述不同注意力子空间下的第二特征向量与不同注意力子空间对应的权重相乘并求和,得到原始医疗数据对应的注意力层输出向量。
[0102]
相加模块343,可以用于将注意力层输出向量和第一特征向量相加,得到原始医疗数据对应的第三特征向量。
[0103]
特征提取模块341,可以用于将第三特征向量输入至前馈神经网络层中进行特征提取,得到原始医疗数据对应的第四特征向量。
[0104]
解码处理模块344,可以用于将第四特征向量输入至解码器进行解码处理,得到原始医疗数据对应的填充后的医疗数据。
[0105]
在具体应用场景中,为了确定目标聚类类别下的预设缺失值填充模型,确定单元33,还可以用于基于预设模型配置表,确定与所述目标聚类类别相对应的预设缺失值填充模型,其中,所述预设模型配置表记录着各个聚类类别对应的预设缺失值填充模型。
[0106]
在具体应用场景中,为了构建预设缺失值填充模型,该装置还包括:构建单元35。
[0107]
获取单元31,还可以用于获取原始样本医疗数据及其对应的实际填充后的样本医疗数据。
[0108]
缺失值填充单元34,还可以用于将原始样本医疗数据输入至预设初始缺失值填充模型中进行缺失值填充,得到原始样本医疗数据对应的预测填充后的样本医疗数据。
[0109]
确定单元33,还可以用于基于实际填充后的样本医疗数据和预测填充后的样本医疗数据,确定预设初始缺失值填充模型对应的损失函数。
[0110]
构建单元35,可以用于基于损失函数,构建预设缺失值填充模型。
[0111]
需要说明的是,本发明实施例提供的一种数据处理装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
[0112]
在具体应用场景中,为了预设初始缺失值填充模型对应的损失函数,确定单元33,包括:第二确定模块331、第二计算模块332和构建模块333。
[0113]
第二确定模块331,可以用于确定实际填充后的样本医疗数据对应的第一样本特征向量,以及确定预测填充后的样本医疗数据对应的第二样本特征向量。
[0114]
第二计算模块332,可以用于计算第一样本特征向量和第二样本特征向量中相同位置处的各个向量差。
[0115]
构建模块333,可以用于通过计算各个向量差的平方和,构建预设初始缺失值填充模型对应的损失函数。
[0116]
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待填充的原始医疗数据;对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别;确定原始医疗数据对应的第一特征向量;将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据。
[0117]
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待填充的原始医疗数据;对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别;确定原始医疗数据对应的第一特征向量;将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据。
[0118]
通过本发明的技术方案,本发明通过获取待填充的原始医疗数据;并对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别;之后确定原始医疗数据对应的第一特征向量;最终将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据,由此通过确定原始医疗数据所属的目标聚类类别,并利用与目标聚类类别相对应的预设缺失值填充模型来对原始医疗数据的缺失值进行填充,能够提高数据缺失值的处理效率,同时,能够避免由于操作人员的疏忽出现遗漏处理或者填充错误的情况,从而提高了缺失值填充的准确度,与此同时,由于不同数据类型对应的不同的插值参数,通过利用与原始医疗数据所属的目标聚类类别相对应的预设缺失值填充模型来对数据的缺失值进行填充,能够进一步提高缺失值填充的精度。
[0119]
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0120]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
技术特征:
1.一种数据处理方法,其特征在于,包括:获取待填充的原始医疗数据;对所述原始医疗数据进行分类,确定所述原始医疗数据所属的目标聚类类别;确定所述原始医疗数据对应的第一特征向量;将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据。2.根据权利要求1所述的方法,其特征在于,所述对所述原始医疗数据进行分类,确定所述原始医疗数据所属的目标聚类类别,包括:获取不同聚类类别下的历史医疗数据;分别计算所述原始医疗数据与所述不同聚类类别下的历史医疗数据之间的距离;基于所述不同聚类类别下历史医疗数据对应的距离,确定所述原始医疗数据所属的目标聚类类别。3.根据权利要求1所述的方法,其特征在于,所述确定所述原始医疗数据对应的第一特征向量,包括:确定所述原始医疗数据中包含的各个字符;确定所述各个字符对应的嵌入向量,并将所述嵌入向量确定为所述原始医疗数据对应的第一特征向量。4.根据权利要求1所述的方法,其特征在于,所述预设缺失值填充模型包括编码器和解码器,所述编码器包括注意力层和前馈神经网络层,所述将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据,包括:将所述第一特征向量输入至所述注意力层中的不同注意力子空间进行特征提取,得到所述原始医疗数据在所述不同注意力子空间下的第二特征向量;将所述原始医疗数据在所述不同注意力子空间下的第二特征向量与所述不同注意力子空间对应的权重相乘并求和,得到所述原始医疗数据对应的注意力层输出向量;将所述注意力层输出向量和所述第一特征向量相加,得到所述原始医疗数据对应的第三特征向量;将所述第三特征向量输入至所述前馈神经网络层中进行特征提取,得到所述原始医疗数据对应的第四特征向量;将所述第四特征向量输入至所述解码器进行解码处理,得到所述原始医疗数据对应的填充后的医疗数据。5.根据权利要去1所述的方法,其特征在于,在所述将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据之前,所述方法还包括:基于预设模型配置表,确定与所述目标聚类类别相对应的预设缺失值填充模型,其中,所述预设模型配置表记录着各个聚类类别对应的预设缺失值填充模型。6.根据权利要求1所述的方法,其特征在于,在所述将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据之前,所述方法还包括:
获取原始样本医疗数据及其对应的实际填充后的样本医疗数据;将所述原始样本医疗数据输入至预设初始缺失值填充模型中进行缺失值填充,得到所述原始样本医疗数据对应的预测填充后的样本医疗数据;基于所述实际填充后的样本医疗数据和所述预测填充后的样本医疗数据,确定所述预设初始缺失值填充模型对应的损失函数;基于所述损失函数,构建所述预设缺失值填充模型。7.根据权利要求6所述的方法,其特征在于,所述基于所述实际填充后的样本医疗数据和所述预测填充后的样本医疗数据,确定所述预设初始缺失值填充模型对应的损失函数,包括:确定所述实际填充后的样本医疗数据对应的第一样本特征向量,以及确定所述预测填充后的样本医疗数据对应的第二样本特征向量;计算所述第一样本特征向量和所述第二样本特征向量中相同位置处的各个向量差;通过计算所述各个向量差的平方和,构建所述预设初始缺失值填充模型对应的损失函数。8.一种数据处理装置,其特征在于,包括:获取单元,用于获取待填充的原始医疗数据;分类单元,用于对所述原始医疗数据进行分类,确定所述原始医疗数据所属的目标聚类类别;确定单元,用于确定所述原始医疗数据对应的第一特征向量;缺失值填充单元,用于将所述第一特征向量输入至与所述目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到所述原始医疗数据对应的填充后的医疗数据。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本发明公开了一种数据处理方法、装置、存储介质及计算机设备,涉及信息技术及数字医疗技术领域,主要在于能够提高数据的处理效率和处理准确度。其中方法包括:获取待填充的原始医疗数据;对原始医疗数据进行分类,确定原始医疗数据所属的目标聚类类别;确定原始医疗数据对应的第一特征向量;将第一特征向量输入至与目标聚类类别相对应的预设缺失值填充模型中进行缺失值填充,得到原始医疗数据对应的填充后的医疗数据。本发明适用于对数据的缺失值进行填充。进行填充。进行填充。
技术研发人员:张渊
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.04.17
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:机器人智能钻孔方法、终端及板材生产线与流程 下一篇:散热器主片的制作方法
