一种输入数据的处理方法和装置与流程
未命名
10-19
阅读:112
评论:0
1.本技术涉及数据处理技术领域,更具体的说,是涉及一种输入数据的处理方法和装置。
背景技术:
2.大模型(foundation model,又称基石模型)通常需要使用大量的训练数据,攻击者可以通过隐私泄露的方式获取这些数据,从而获得模型中隐含的敏感信息。
3.现阶段主要大模型数据隐私保护方案中,通过向原始数据添加一定量的噪声,使得输出的模型结果无法识别具体个体数据,从而保护隐私,但是会降低模型精度。
技术实现要素:
4.有鉴于此,本技术提供了一种输入数据的处理方法和装置,如下:
5.一种输入数据的处理方法,包括:
6.获得原始输入数据集合,所述原始输入数据集合中包括至少一个原始输入数据;
7.基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;
8.基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合,所述目标数据集合中包括至少一个目标数据,所述目标数据与所述原始输入数据对应。
9.可选的,上述的处理方法,所述基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围,包括:
10.依次选择原始输入数据集合中的一原始输入数据作为第一原始输入数据;
11.依次依据预设的上限倍数、下限倍数以及所述第一原始输入数据,得到第一原始输入数据的数据分布范围,所述上限倍数是小于1的正数,所述下限倍数是不小于2的正数。
12.可选的,上述的处理方法,所述基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合,包括:
13.将所述原始输入数据集合映射到映射空间;
14.依次在每个所述原始输入数据的数据分布范围内选择预设个数的随机数;
15.基于所述映射空间中的预设数据阈值以及预设个数的随机数,得到每个所述原始输入数据对应的预设个数的选择范围;
16.在所述映射空间中所述预设个数的选择范围内,选择一个随机数确定所述原始输入数据对应的目标数据,所述随机数与所述原始输入数据满足所述映射空间中的预设距离条件。
17.可选的,上述的处理方法,基于所述映射空间中的预设数据阈值以及预设个数的随机数,得到所述原始输入数据对应的预设个数的选择范围,包括:
18.依次将所述预设个数的随机数中的任意一个作为第一随机数;
19.基于所述第一随机数和所述预设数据阈值,得到第一选择范围,所述第一选择范围的上限是所述第一随机数与所述预设数据阈值之和,所述第一选择范围的下限是所述第一随机数与所述预设数据阈值之差,所述第一选择范围的个数与所述随机数的个数相同。
20.可选的,上述的处理方法,所述在所述映射空间中所述预设个数的选择范围内,选择一个随机数确定所述原始输入数据对应的目标数据,包括:
21.在所述映射空间中与所述原始输入数据对应的预设个数的选择范围中,确定至少一个第二选择范围,所述第二选择范围是包含所述原始输入数据的范围;
22.基于所述至少一个第二选择范围,确定目标选择范围;
23.基于在所述目标选择范围中选择一个随机数确定所述原始输入数据对应的目标数据。
24.可选的,上述的处理方法,所述基于在所述目标选择范围中选择一个随机数确定所述原始输入数据对应的目标数据,包括:
25.在所述目标选择范围中选择一个随机数,基于所述随机数与所述原始输入数据,确定目标数据;或者
26.在所述目标选择范围中选择一个随机数,将所述随机数作为目标数据。
27.可选的,上述的处理方法,基于所述至少一个第二选择范围,确定目标选择范围,包括:
28.基于所述第二选择范围的个数是一个,确定所述第二选择范围是目标选择范围;
29.基于所述第二选择范围的个数是至少两个,在至少两个第二选择范围的上限中确定满足上限条件的第一上限,在至少两个第二选择范围的下限中确定满足下限条件的第一下限;基于所述第一上限和第一下限确定目标选择范围。
30.可选的,上述的处理方法,所述原始输入数据是原始训练数据,还包括:
31.将所述目标数据作为训练数据训练原始模型,得到目标模型。
32.可选的,上述的处理方法,所述原始输入数据是原始模型参数,还包括:
33.基于所述目标数据集合中目标数据更新原始模型的参数,得到目标模型。
34.一种输入数据的处理装置,包括:
35.存储器,存储有处理程序;
36.处理器,用于加载并执行所述存储器存储的所述处理程序,以实现如上述任一项所述的输入数据的处理方法的各步骤。
附图说明
37.为了更清楚地说明本技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
38.图1是本技术提供的一种输入数据的处理方法实施例1的流程图;
39.图2是本技术提供的一种输入数据的处理方法实施例2的流程图;
40.图3是本技术提供的一种输入数据的处理方法实施例3的流程图;
41.图4是本技术提供的一种输入数据的处理方法实施例4的流程图;
42.图5是本技术提供的一种输入数据的处理方法实施例5的流程图;
43.图6是本技术提供的一种输入数据的处理方法实施例6的流程图;
44.图7是本技术提供的一种输入数据的处理方法实施例7的流程图;
45.图8是本技术提供的一种输入数据的处理装置实施例的结构示意图。
具体实施方式
46.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
47.如图1所示的,为本技术提供的一种输入数据的处理方法实施例1的流程图,该方法应用于一电子设备,该方法包括以下步骤:
48.步骤s101:获得原始输入数据集合;
49.其中,所述原始输入数据集合中包括至少一个原始输入数据。
50.其中,该原始输入数据是待输入大模型中的数据。
51.其中,该原始输入数据可以包括用于训练大模型的训练数据,或者是该大模型的模型参数。
52.其中,从存储原始输入数据的存储结构中,获得原始输入数据组成的原始输入数据集合。
53.具体实施中,该原始输入数据集合中的原始输入数据个数可以根据实际情况设置,本技术中不对于该个数取值做限制。
54.步骤s102:基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;
55.其中,预设由分布范围选择规则,基于该规则能够对于任意一个原始输入数据进行确定数据分布范围。
56.其中,该数据分布范围具体是包含该原始输入数据的一个数据范围。
57.具体的,针对各个原始输入数据分别确定一对应的数据分布范围。
58.例如,该原始输入数据集合中包括三个原始输入数据abc,针对原始输入数据a确定其对应的数据分布范围1,针对原始输入数据b确定其对应的数据分布范围2,针对原始输入数据c确定其对应的数据分布范围3。
59.具体的,该分布范围选择规则是与该原始输入数据的取值相关的,具体是基于设置的倍数以及该原始输入数据确定的。
60.后续实施例中会针对确定原始输入数据的数据分布范围的确定过程进行详细说明,本实施例中不做详述。
61.步骤s103:基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合。
62.其中,所述目标数据集合中包括至少一个目标数据,所述目标数据与所述原始输入数据对应。
63.其中,针对一原始输入数据,在其对应的数据分布范围内选择一个随机数,基于该
随机数确定目标数据,该目标数据与原始输入数据对应。
64.同理,对于该原始输入数据集合中的各个原始输入数据进行选择随机数,以及确定目标数据的过程,最终,将得到的各个目标数据集合,得到目标数据集合。
65.其中,该目标数据集合中目标数据的个数与原始输入数据集合中原始输入数据的个数相同,且目标数据与原始输入数据一一对应。
66.其中,在得到目标数据集合后,该目标数据集合代替该原始输入数据集合输入大模型中。
67.其中,该原始输入数据对应的数据分布范围内选择的随机数,与该原始输入数据相似,相应的,后续在将该目标数据输入大模型时,该输入大模型的数据是目标数据而非原始输入数据,保证了原始输入数据的安全,而且,由于该目标数据与原始输入数据相似,又能够保证大模型的准确度。
68.综上,本实施例提供的一种输入数据的处理方法,包括:获得原始输入数据集合,所述原始输入数据集合中包括至少一个原始输入数据;基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合,所述目标数据集合中包括至少一个目标数据,所述目标数据与所述原始输入数据对应。本实施例中,先确定原始输入数据的数据分布范围,再在该数据分布范围中选择一个随机数,并基于该随机数确定一与该原始输入数据对应的目标数据,该目标数据替换原始输入数据输入大模型中,由于输入大模型的数据是与原始输入数据不同的目标数据,保护了原始输入数据的安全,而该目标数据与原始输入数据相似,又能够保证该大模型的准确度。
69.如图2所示的,为本技术提供的一种输入数据的处理方法实施例2的流程图,该方法应用于一电子设备,该方法包括以下步骤:
70.步骤s201:获得原始输入数据集合;
71.其中,步骤s201与实施例1中的相应步骤一致,本实施例中不做赘述。
72.步骤s202:依次选择原始输入数据集合中的一原始输入数据作为第一原始输入数据;
73.其中,本实施例中是以原始输入数据集合中的一个原始输入数据为例进行说明,该原始输入数据集合中的各个原始输入数据均采用该过程确定数据分布范围。
74.其中,在原始输入数据集合中依次选择一个原始输入数据作为第一原始输入数据。
75.具体的,按照原始输入数据集合种原始输入数据的排序,从前到后依次选择一个作为第一原始输入数据。
76.当然,本技术中不对于在原始输入数据集合中选择原始输入数据的方式进行限制,只需要保证该原始输入数据集合中的各个原始输入数据均被选择到即可。
77.步骤s203:依次依据预设的上限倍数、下限倍数以及所述第一原始输入数据,得到第一原始输入数据的数据分布范围;
78.其中,所述上限倍数是小于1的正数,所述下限倍数是不小于2的正数。
79.其中,该下限倍数的取值可以是整数,也可以是小数,本技术中不做限制。
80.其中,为该第一原始输入数据确定一数据分布范围,具体是基于预设的上下限条件确定。
81.其中,上限条件是上限倍数,该上限倍数与该第一原始输入数据相乘,得到的数值作为该数据分布范围的上限值;下限条件是下限倍数,该下限倍数与该第一原始输入数据相乘,得到的数值作为该数据分布范围的下限值。
82.其中,该上限倍数和下限倍数的取值是预先约定的。
83.其中,针对同一原始输入数据集合中的各个原始输入数据,采用的上限倍数和下限倍数相同。
84.例如,该原始输入数据是15,上限倍数是0.4,下限倍数是3,确定相应的数据分布范围是[6,45]。
[0085]
步骤s204:基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合。
[0086]
其中,步骤s204与实施例1中的相应步骤一致,本实施例中不做赘述。
[0087]
综上,本实施例提供的一种输入数据的处理方法,包括:依次选择原始输入数据集合中的一原始输入数据作为第一原始输入数据;依次依据预设的上限倍数、下限倍数以及所述第一原始输入数据,得到第一原始输入数据的数据分布范围,所述上限倍数是小于1的正数,所述下限倍数是不小于2的正数。本实施例中,依次对于原始输入集合中的每个原始输入数据确定对应的数据分布范围,具体是根据预设的上限倍数、下限倍数和原始输入数据计算得到该原始输入数据的上限和下限,得到该原始输入数据的数据分布范围,为后续确定目标数据提供基础。
[0088]
如图3所示的,为本技术提供的一种输入数据的处理方法实施例3的流程图,该方法包括以下步骤:
[0089]
步骤s301:获得原始输入数据集合;
[0090]
步骤s302:基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;
[0091]
其中,步骤s301-302与实施例1中的相应步骤一致,本实施例中不做赘述。
[0092]
步骤s303:将所述原始输入数据集合映射到映射空间;
[0093]
其中,本实施例中确定目标数据的过程,是基于映射空间进行的。
[0094]
具体的,先将该原始输入数据集合中的各个原始输入数据映射到映射空间中。
[0095]
步骤s304:依次在每个所述原始输入数据的数据分布范围内选择预设个数的随机数;
[0096]
其中,在每个原始输入数据的数据分布范围内,选择若干随机数。
[0097]
例如,有10个原始输入数据,确定对应的10个数据分布范围,随机数的设置个数是5个,依次在每个数据分布范围选择5个随机数,得到10个数据分布范围分布对应的10组随机数,每组5个随机数。
[0098]
其中,该随机数的个数选择,可以根据实际情况进行设置,本技术中不对于该随机数的个数取值做限制。
[0099]
其中,针对同一原始输入数据集合中的各个原始输入数据,选择随机数的个数相同。
[0100]
例如,该原始输入数据是15,相应的数据分布范围是[6,45],随机数个数是6个,在该数据分布范围选择的随机数是7.1、9.5、14.6、33.5、13.2和40.1。
[0101]
步骤s305:基于所述映射空间中的预设数据阈值以及预设个数的随机数,得到每个所述原始输入数据对应的预设个数的选择范围;
[0102]
其中,该映射空间的预设数据阈值是该映射空间中的汉明距离阈值,基于汉明距离阈值,确定的目标数据与原始输入数据在汉明距离阈值范围内,保证了该原始输入数据与该目标数据在映射空间的映射值相同,该汉明距离可控能够保证大模型数据的精度。
[0103]
具体实施中,该预设数据阈值的取值较小,以保证汉明距离较小,其取值可以是2、3等较小数值,其取值可以采用整数,也可以采用小数,本技术中不对于该预设数据阈值的取值做限制。
[0104]
其中,针对每个原始输入数据均进行如上的确定预设个数的选择范围的过程。
[0105]
其中,针对同一原始输入数据集合中的各个原始输入数据,采用的预设数据阈值相同。
[0106]
步骤s306:在所述映射空间中所述预设个数的选择范围内,选择一个随机数确定所述原始输入数据对应的目标数据。
[0107]
其中,所述随机数与所述原始输入数据满足所述映射空间中的预设距离条件。
[0108]
其中,在映射空间的多个选择范围内,选择一个随机数,根据该随机数确定与该原始输入数据对应的目标数据。
[0109]
其中,本实施例中,是在映射空间中选择一随机数,基于该随机数确定的目标数据是该原始输入数据的随机相似性数据
[0110]
其中,该目标数据与原始输入数据在映射空间中的映射值相同,但是原始值不同,在保护了原始输入数据的安全的前提下,也保证大模型的准确度。
[0111]
综上,本实施例提供的一种输入数据的处理方法,包括:将所述原始输入数据集合映射到映射空间;依次在每个所述原始输入数据的数据分布范围内选择预设个数的随机数;基于所述映射空间中的预设数据阈值以及预设个数的随机数,得到每个所述原始输入数据对应的预设个数的选择范围;在所述映射空间中所述预设个数的选择范围内,选择一个随机数确定所述原始输入数据对应的目标数据,所述随机数与所述原始输入数据满足所述映射空间中的预设距离条件。本实施例中,基于在每个输入数据的数据分布范围内选择的随机数,在映射空间中针对每个输入数据的随机数以及预设数据阈值得到该原始输入数据对应的预设个数的选择范围,以在该选择范围内选择一个随机数确定该原始输入数据的目标数据,该目标数据与原始输入数据在映射空间中的映射值相同,但是原始值不同,在保护了原始输入数据的安全的前提下,也保证大模型的准确度。
[0112]
如图4所示的,为本技术提供的一种输入数据的处理方法实施例4的流程图,该方法包括以下步骤:
[0113]
步骤s401:获得原始输入数据集合;
[0114]
步骤s402:基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;
[0115]
步骤s403:将所述原始输入数据集合映射到映射空间;
[0116]
步骤s404:依次在每个所述原始输入数据的数据分布范围内选择预设个数的随机
数;
[0117]
其中,步骤s401-404与实施例3中的相应步骤一致,本实施例中不做赘述。
[0118]
步骤s405:依次将所述预设个数的随机数中的任意一个作为第一随机数;其中,本实施例中是以一个原始输入数据对应的预设个数随机数中的一个为例进行说明,该原始输入数据对应的各个随机数均采用该过程确定对应的每个随机数的选择范围,而且该原始输入数据集合中的各个原始输入数据也均采用该过程确定对应的每个随机数的选择范围。
[0119]
其中,在一个原始输入数据对应的预设个数随机中选择一个随机数作为第一随机数。
[0120]
具体的,该预设个数随机数的排序,从前到后依次选择一个作为第一随机数。
[0121]
当然,本技术中不对于在预设个数随机数中选择第一随机数的方式进行限制,只需要保证该预设个数随机数中的各个随机数均被选择到即可。
[0122]
步骤s406:基于所述第一随机数和所述预设数据阈值,得到第一选择范围;
[0123]
其中,所述第一选择范围的上限是所述第一随机数与所述预设数据阈值之和,所述第一选择范围的下限是所述第一随机数与所述预设数据阈值之差,所述第一选择范围的个数与所述随机数的个数相同。
[0124]
其中,根据该预设数据阈值以及前述步骤中确定的预设个数随机数,确定预设个数的选择范围,该随机数与预设数据阈值的和为相应选择范围的上限值,该随机数与预设数据阈值的差为相应选择范围的下限值。
[0125]
其中,该原始输入数据是x,在分布范围内选择的随机数是r
i’,i表示随机数的排序,预设数据阈值为t,得到的该随机数r
i’对应的第一选择范围是[ri’‑
t,r
i’+t]。
[0126]
例如,原始输入数据是15,选择的随机数是7.1、9.5、14.6、33.5、13.2和40.1,映射空间的预设数据阈值是2,得到的选择范围是[5.1,9.1]、[7.5,11.5]、[12.6,16.6]、[31.5,35.5]、[11.2,15.2]、[38.1,42.1]。
[0127]
步骤s407:在所述映射空间中所述预设个数的选择范围内,选择一个随机数确定所述原始输入数据对应的目标数据。
[0128]
其中,步骤s407与实施例3中的相应步骤一致,本实施例中不做赘述。
[0129]
综上,本实施例提供的一种输入数据的处理方法,包括:依次将所述预设个数的随机数中的任意一个作为第一随机数;基于所述第一随机数和所述预设数据阈值,得到第一选择范围,所述第一选择范围的上限是所述第一随机数与所述预设数据阈值之和,所述第一选择范围的下限是所述第一随机数与所述预设数据阈值之差,所述第一选择范围的个数与所述随机数的个数相同。本实施例中,依次对于原始输入集合中的每个原始输入数据对应的预设个数随机数结合预设数据阈值,得到每个原始输入数据的预设个数的选择范围,为后续确定目标数据提供基础。
[0130]
如图5所示的,为本技术提供的一种输入数据的处理方法实施例5的流程图,该方法包括以下步骤:
[0131]
步骤s501:获得原始输入数据集合;
[0132]
步骤s502:基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;
[0133]
步骤s503:将所述原始输入数据集合映射到映射空间;
[0134]
步骤s504:依次在每个所述原始输入数据的数据分布范围内选择预设个数的随机数;
[0135]
步骤s505:基于所述映射空间中的预设数据阈值以及预设个数的随机数,得到每个所述原始输入数据对应的预设个数的选择范围;
[0136]
其中,步骤s501-505与实施例3中的相应步骤一致,本实施例中不做赘述。
[0137]
步骤s506:在所述映射空间中与所述原始输入数据对应的预设个数的选择范围中,确定至少一个第二选择范围;
[0138]
其中,所述第二选择范围是包含所述原始输入数据的范围。
[0139]
其中,确定映射空间中确定第二选择范围,该第二选择范围是包含原始输入数据的选择范围。
[0140]
其中,在步骤s505中得到的预设个数的选择范围中,有包含该原始输入数据的范围,有不包含该原始输入数据的范围。
[0141]
具体的,设定包含该原始输入数据的范围映射空间取值为1,不包含的取值为0。
[0142]
例如,该原始输入数据是x,在分布范围内选择的随机数是r
i’,i表示随机数的排序,预设数据阈值为t,得到的该随机数r
i’对应的选择范围是[ri’‑
t,r
i’+t]。其中,若x属于[r1’‑
t,r1’
+t],取该[r1’‑
t,r1’
+t]的映射空间的值为1,表示该选择范围属于第二选择范围;若x不属于[r3’‑
t,r3’
+t],取该[r3’‑
t,r3’
+t]的映射空间的值为0,表示该选择范围不属于第二选择范围。
[0143]
作为一个示例,原始输入数据是15,选择范围是[5.1,9.1]、[7.5,11.5]、[12.6,16.6]、[31.5,35.5]、[11.2,15.2]、[38.1,42.1],该15属于范围[12.6,16.6]和[11.2,15.2],相应的,上述的选择范围的映射空间值分布为0、0、1、0、1、0,其中,映射空间值为1的选择范围属于第二选择范围。
[0144]
步骤s507:基于所述至少一个第二选择范围,确定目标选择范围;
[0145]
其中,该目标选择范围是用于选择随机数的范围,在该目标选择范围中选择的随机数确定的目标数据,是与原始输入数据的映射值相同,但是原始值不同的数据,是该原始输入数据的随机相似性数据。
[0146]
其中,该第二选择范围可以是一个,也可以是多个,本实施例中,针对不同情况进行说明。
[0147]
其中,若所述第二选择范围的个数是一个,确定所述第二选择范围是目标选择范围。
[0148]
其中,若所述第二选择范围的个数是至少两个,在至少两个第二选择范围的上限中确定满足上限条件的第一上限,在至少两个第二选择范围的下限中确定满足下限条件的第一下限;基于所述第一上限和第一下限确定目标选择范围。
[0149]
其中,满足上限条件是该多个第二选择范围中最大的上限,满足下限条件是该多个第二选择范围中最小的下限。
[0150]
其中,若该第二选择范围是多个,则在该多个第二选择范围中确定上限值最大的一个作为目标选择范围的上限,在该多个第二选择范围中确定下限值最小的一个作为目标选择范围的下限,
[0151]
作为一个示例,原始输入数据是15,对应的第二选择范围[12.6,16.6]和[11.2,
15.2],则确定目标选择范围是[11.2,16.6]。
[0152]
步骤s508:基于在所述目标选择范围中选择一个随机数确定所述原始输入数据对应的目标数据。
[0153]
其中,在该目标选择范围中,选择一个随机数,在映射空间中该随机数与该原始输入数据属于同一个选择范围,二者的汉明距离小于预设数据阈值,二者在映射空间中相近。
[0154]
具体的,基于目标选择范围中选择的随机数确定目标数据的方式有两种:
[0155]
方式一、在所述目标选择范围中选择一个随机数,基于所述随机数与所述原始输入数据,确定目标数据;
[0156]
其中,在该目标选择范围中选择一个随机数,将该随机数与原始输入数据相加得到一数据,该数据映射回原始数据空间得到目标数据。
[0157]
其中,由于该目标选择范围中的随机数是在映射空间中与原始输入数据相近的数据,该随机数与原始输入数据相加得到的数据,映射回原始数据空间得到的目标数据,该目标数据是在映射空间中与原始数据数据的映射值相同,而二者在原始数据空间中是不同的。
[0158]
方式二、在所述目标选择范围中选择一个随机数,将所述随机数作为目标数据。
[0159]
其中,在映射空间中的该目标选择范围中选择一个随机数,将该随机数映射回原始数据空间得到目标数据。
[0160]
其中,由于该随机数在映射空间中是与原始输入数据属于同一目标选择范围,二者的汉明距离小于预设数据阈值,二者在映射空间中相近,将该随机数映射回原始数据空间得到的目标数据是与该原始输入数据完全不同的数据。
[0161]
需要说明的是,通过上述的两种方式确定的目标数据,在映射空间中是与原始输入数据相近或者映射值相同,但是原始值不同的数据,保护了原始输入数据的安全,又能够保证该大模型的准确度。
[0162]
综上,本实施例提供的一种输入数据的处理方法,包括:在所述映射空间中与所述原始输入数据对应的预设个数的选择范围中,确定至少一个第二选择范围,所述第二选择范围是包含所述原始输入数据的范围;基于所述至少一个第二选择范围,确定目标选择范围;基于在所述目标选择范围中选择一个随机数确定所述原始输入数据对应的目标数据。本实施例中,在映射空间中依次确定与原始输入数据对应的预设个数的选择范围,从中确定包含原始输入数据的第二选择范围,基于该第二选择范围确定目标选择范围,并从该目标选择范围中选择一个随机数确定该原始输入数据对应的目标数据,该确定的目标数据,在映射空间中是与原始输入数据相近或者映射值相同,但是原始值不同的数据,保护了原始输入数据的安全,又能够保证该大模型的准确度。
[0163]
如图6所示的,为本技术提供的一种输入数据的处理方法实施例6的流程图,该方法包括以下步骤:
[0164]
步骤s601:获得原始输入数据集合;
[0165]
步骤s602:基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;
[0166]
步骤s603:基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合;
[0167]
其中,步骤s601-603与实施例1中的相应步骤一致,本实施例中不做赘述。
[0168]
步骤s604:将所述目标数据作为训练数据训练原始模型,得到目标模型。
[0169]
其中,所述原始输入数据是原始训练数据,该原始训练数据是用于训练大模型的训练数据。
[0170]
其中,在确定了目标数据集合后,将该目标数据集合中的目标数据替换该原始训练数据,作为训练数据训练原始模型,得到目标模型。
[0171]
其中,由于该目标数据与原始输入数据是随机相似性数据,二者的映射值相同,但是原始值不同,将该目标数据输入大模型中进行训练,既能够保证原始输入数据的安全,也不会影响大模型的数据精度,能够得到较优的模型结果。
[0172]
综上,本实施例提供的一种输入数据的处理方法,还包括:将所述目标数据作为训练数据训练原始模型,得到目标模型。本实施例中,原始输入数据是原始训练数据,将得到的目标数据作为训练数据替换原始输入数据,输入到原始模型中,实现对于大模型的训练,既能够保证原始输入数据的安全,也不会影响大模型的数据精度。
[0173]
如图7所示的,为本技术提供的一种输入数据的处理方法实施例7的流程图,该方法包括以下步骤:
[0174]
步骤s701:获得原始输入数据集合;
[0175]
步骤s702:基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;
[0176]
步骤s703:基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合;
[0177]
其中,步骤s701-703与实施例1中的相应步骤一致,本实施例中不做赘述。
[0178]
步骤s704:基于所述目标数据集合中目标数据更新原始模型的参数,得到目标模型。
[0179]
所述原始输入数据是原始模型参数,该原始参数数据是用于更新原始大模型的参数,得到能够实现目标功能的大模型。
[0180]
其中,在确定了目标数据集合后,将该目标数据集合中的目标数据替换该原始模型参数,作为模型参数更新原始模型的参数,得到目标模型。
[0181]
其中,由于该目标数据与原始输入数据是随机相似性数据,二者的映射值相同,但是原始值不同,基于该目标数据更新大模型的参数,既能够保证原始输入数据的安全,也不会影响大模型的数据精度,能够得到较优的模型结果。
[0182]
综上,本实施例提供的一种输入数据的处理方法,还包括:基于所述目标数据集合中目标数据更新原始模型的参数,得到目标模型。本实施例中,原始输入数据是原始模型参数,将得到的目标数据作为模型参数替换原始输入数据以更新原始模型的参数,既能够保证原始输入数据的安全,也不会影响大模型的数据精度。
[0183]
与上述本技术提供的一种输入数据的处理方法实施例相对应的,本技术还提供了应用该输入数据的处理方法的装置实施例。
[0184]
如图8所示的为本技术提供的一种输入数据的处理装置实施例的结构示意图,该装置包括以下结构:存储器801和处理器802;
[0185]
其中,该存储器801,存储有处理程序;
[0186]
其中,该处理器802,用于加载并执行所述存储器存储的所述处理程序,以实现输入数据的处理方法的各步骤。
[0187]
具体的,该装置中处理器的实现输入数据的处理方法,参考前述输入数据的处理方法实施例即可。
[0188]
可选的,该处理器包括:
[0189]
获得模块,用于获得原始输入数据集合,所述原始输入数据集合中包括至少一个原始输入数据;
[0190]
数据分布范围确定模块,用于基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;
[0191]
选择模块,用于基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合,所述目标数据集合中包括至少一个目标数据,所述目标数据与所述原始输入数据对应。
[0192]
可选的,数据分布范围确定模块,包括:
[0193]
第一选择单元,用于依次选择原始输入数据集合中的一原始输入数据作为第一原始输入数据;
[0194]
分布范围确定单元,用于依次依据预设的上限倍数、下限倍数以及所述第一原始输入数据,得到第一原始输入数据的数据分布范围,所述上限倍数是小于1的正数,所述下限倍数是不小于2的正数。
[0195]
可选的,选择模块,包括:
[0196]
映射单元,用于将所述原始输入数据集合映射到映射空间;
[0197]
第二选择单元,用于依次在每个所述原始输入数据的数据分布范围内选择预设个数的随机数;
[0198]
选择范围确定单元,用于基于所述映射空间中的预设数据阈值以及预设个数的随机数,得到每个所述原始输入数据对应的预设个数的选择范围;
[0199]
第三选择单元,用于在所述映射空间中所述预设个数的选择范围内,选择一个随机数确定所述原始输入数据对应的目标数据,所述随机数与所述原始输入数据满足所述映射空间中的预设距离条件。
[0200]
可选的,选择范围确定单元,具体用于:
[0201]
依次将所述预设个数的随机数中的任意一个作为第一随机数;
[0202]
基于所述第一随机数和所述预设数据阈值,得到第一选择范围,所述第一选择范围的上限是所述第一随机数与所述预设数据阈值之和,所述第一选择范围的下限是所述第一随机数与所述预设数据阈值之差,所述第一选择范围的个数与所述随机数的个数相同。
[0203]
可选的,第三选择单元,具体用于:
[0204]
在所述映射空间中与所述原始输入数据对应的预设个数的选择范围中,确定至少一个第二选择范围,所述第二选择范围是包含所述原始输入数据的范围;
[0205]
基于所述至少一个第二选择范围,确定目标选择范围;
[0206]
基于在所述目标选择范围中选择一个随机数确定所述原始输入数据对应的目标数据。
[0207]
可选的,第三选择单元,具体用于:
[0208]
在所述目标选择范围中选择一个随机数,基于所述随机数与所述原始输入数据,确定目标数据;或者
[0209]
在所述目标选择范围中选择一个随机数,将所述随机数作为目标数据。
[0210]
可选的,第三选择单元,具体用于:
[0211]
基于所述第二选择范围的个数是一个,确定所述第二选择范围是目标选择范围;
[0212]
基于所述第二选择范围的个数是至少两个,在至少两个第二选择范围的上限中确定满足上限条件的第一上限,在至少两个第二选择范围的下限中确定满足下限条件的第一下限;基于所述第一上限和第一下限确定目标选择范围。
[0213]
可选的,所述原始输入数据是原始训练数据,所述装置还包括:
[0214]
训练模块,用于将所述目标数据作为训练数据训练原始模型,得到目标模型。
[0215]
可选的,所述原始输入数据是原始模型参数,所述装置还包括:
[0216]
更新模块,用于基于所述目标数据集合中目标数据更新原始模型的参数,得到目标模型。
[0217]
需要说明的是,该存储器可以是具有程序存储能力的任意形式的存储结构,本技术中不对于存储器的具体实现形式做限制。
[0218]
需要说明的是,该处理器中各个模块的功能解释,请参考前述方法实施例中的解释,本实施例中不做赘述。
[0219]
综上,本实施例提供的一种输入数据的处理装置,包括:存储器,存储有处理程序;处理器,用于加载并执行所述存储器存储的所述处理程序,以实现如上述任一实施例所述的输入数据的处理方法的各步骤。本实施例中,先确定原始输入数据的数据分布范围,再在该数据分布范围中选择一个随机数,并基于该随机数确定一与该原始输入数据对应的目标数据,该目标数据替换原始输入数据输入大模型中,由于输入大模型的数据是与原始输入数据不同的目标数据,保护了原始输入数据的安全,而该目标数据与原始输入数据相似,又能够保证该大模型的准确度。
[0220]
与上述本技术提供的一种输入数据的处理方法实施例相对应的,本技术还提供了与该输入数据的处理方法相应的可读存储介质。
[0221]
其中,该可读存储介质,其上存储有计算机程序,所述计算机程序被处理器调用并执行,实现如上述任一项所述的输入数据的处理方法的各步骤。
[0222]
具体该可读存储介质存储的计算机程序执行实现输入数据的处理方法,参考前述输入数据的处理方法实施例即可。
[0223]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0224]
对所提供的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所提供的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种输入数据的处理方法,包括:获得原始输入数据集合,所述原始输入数据集合中包括至少一个原始输入数据;基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合,所述目标数据集合中包括至少一个目标数据,所述目标数据与所述原始输入数据对应。2.根据权利要求1所述的处理方法,所述基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围,包括:依次选择原始输入数据集合中的一原始输入数据作为第一原始输入数据;依次依据预设的上限倍数、下限倍数以及所述第一原始输入数据,得到第一原始输入数据的数据分布范围,所述上限倍数是小于1的正数,所述下限倍数是不小于2的正数。3.根据权利要求1所述的处理方法,所述基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合,包括:将所述原始输入数据集合映射到映射空间;依次在每个所述原始输入数据的数据分布范围内选择预设个数的随机数;基于所述映射空间中的预设数据阈值以及预设个数的随机数,得到每个所述原始输入数据对应的预设个数的选择范围;在所述映射空间中所述预设个数的选择范围内,选择一个随机数确定所述原始输入数据对应的目标数据,所述随机数与所述原始输入数据满足所述映射空间中的预设距离条件。4.根据权利要求3所述的处理方法,基于所述映射空间中的预设数据阈值以及预设个数的随机数,得到所述原始输入数据对应的预设个数的选择范围,包括:依次将所述预设个数的随机数中的任意一个作为第一随机数;基于所述第一随机数和所述预设数据阈值,得到第一选择范围,所述第一选择范围的上限是所述第一随机数与所述预设数据阈值之和,所述第一选择范围的下限是所述第一随机数与所述预设数据阈值之差,所述第一选择范围的个数与所述随机数的个数相同。5.根据权利要求3所述的处理方法,所述在所述映射空间中所述预设个数的选择范围内,选择一个随机数确定所述原始输入数据对应的目标数据,包括:在所述映射空间中与所述原始输入数据对应的预设个数的选择范围中,确定至少一个第二选择范围,所述第二选择范围是包含所述原始输入数据的范围;基于所述至少一个第二选择范围,确定目标选择范围;基于在所述目标选择范围中选择一个随机数确定所述原始输入数据对应的目标数据。6.根据权利要求5所述的处理方法,所述基于在所述目标选择范围中选择一个随机数确定所述原始输入数据对应的目标数据,包括:在所述目标选择范围中选择一个随机数,基于所述随机数与所述原始输入数据,确定目标数据;或者在所述目标选择范围中选择一个随机数,将所述随机数作为目标数据。7.根据权利要求5所述的处理方法,基于所述至少一个第二选择范围,确定目标选择范
围,包括:基于所述第二选择范围的个数是一个,确定所述第二选择范围是目标选择范围;基于所述第二选择范围的个数是至少两个,在至少两个第二选择范围的上限中确定满足上限条件的第一上限,在至少两个第二选择范围的下限中确定满足下限条件的第一下限;基于所述第一上限和第一下限确定目标选择范围。8.根据权利要求1所述的处理方法,所述原始输入数据是原始训练数据,还包括:将所述目标数据作为训练数据训练原始模型,得到目标模型。9.根据权利要求1所述的处理方法,所述原始输入数据是原始模型参数,还包括:基于所述目标数据集合中目标数据更新原始模型的参数,得到目标模型。10.一种输入数据的处理装置,包括:存储器,存储有处理程序;处理器,用于加载并执行所述存储器存储的所述处理程序,以实现如权利要求1-9任一项所述的输入数据的处理方法的各步骤。
技术总结
本申请公开了一种输入数据的处理方法和装置,包括:获得原始输入数据集合,所述原始输入数据集合中包括至少一个原始输入数据;基于预设的分布范围选择规则,确定所述原始输入数据集合中各个原始输入数据的数据分布范围;基于在每个原始输入数据的数据分布范围内选择的一个随机数确定与所述原始输入数据对应的目标数据,得到目标数据集合,所述目标数据集合中包括至少一个目标数据,所述目标数据与所述原始输入数据对应。述原始输入数据对应。述原始输入数据对应。
技术研发人员:金辉 王云浩
受保护的技术使用者:北京联想软件有限公司
技术研发日:2023.07.25
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
