一种隐私保护的联邦学习方法、装置、电子设备及介质与流程
未命名
07-18
阅读:122
评论:0
1.本技术涉及机器学习技术领域,尤其涉及一种隐私保护的联邦学习方法、装置、电子设备及计算机可读存储介质。
背景技术:
2.随着机器学习技术的快速发展,机器学习的应用逐渐渗透于各个领域。联邦学习(federated learning)是一种分布式机器学习技术,允许多个参与方在保护数据隐私的前提下协同对模型进行训练。
3.相关技术中,进行联邦学习时需要先对所有参与方持有的样本数据做隐私集合求交,将交集样本标识发送给每个参与方,各个参与方依据交集样本标识对自身持有的样本数据进行处理,生成对齐的样本数据集,所有参与方根据对齐的样本数据集进行联邦学习。
4.但是,由于所有参与方都知晓交集样本标识,也就知道了自身与其他参与方所持有的样本之间的相似度,从而容易引起信息泄露,降低各参与方在联邦学习过程中的数据安全性。
技术实现要素:
5.本技术实施例提供一种隐私保护的联邦学习方法、装置、电子设备及计算机可读存储介质,以解决相关技术中联邦学习过程中的各参与方的数据安全性降低的问题。
6.第一方面,本技术实施例提供了一种隐私保护的联邦学习方法,应用于第一参与方,所述方法包括:
7.获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及所述交集样本标识对应的第二样本在所述第二样本序列中的位置信息;
8.按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列;
9.在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;
10.基于所述扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从所述第二参与方获取的,由所述第二样本序列中所述目标位置处的第二样本产生的第二模型输出结果,对所述第一参与方的第一模型进行训练,得到第一目标模型。
11.可选地,所述在所述交集样本序列中添加空样本,得到扩充样本序列,包括:
12.确定所述交集样本标识在所述第二样本序列中的补集样本标识集合;
13.生成所述补集样本标识集合中各个补集样本标识对应的空样本;
14.按照所述补集样本标识在所述第二样本序列中的次序,将所述补集样本标识对应的空样本插入所述交集样本序列,得到所述扩充样本序列。
15.可选地,所述方法还包括:
16.从所述扩充样本序列中目标位置处的样本中获取第一样本参数;
17.基于所述第一样本参数和所述第一模型的第一模型参数,确定所述第一模型输出结果。
18.可选地,所述方法还包括:
19.向所述第二参与方同步所述目标位置,以使得所述第二参与方从所述第二样本序列位于所述目标位置处的第二样本中,获取第二样本参数,基于所述第二样本参数和所述第二模型的第二模型参数,确定所述第二模型输出结果,将所述第二模型输出结果发送至所述第一参与方。
20.可选地,所述基于所述扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从所述第二参与方获取的,由所述第二样本序列中所述目标位置处的第二样本产生的第二模型输出结果,对所述第一参与方的第一模型进行训练,得到第一目标模型,包括:
21.基于所述第一模型输出结果和所述第二模型输出结果确定预测值;
22.从所述扩充样本序列中目标位置处的样本中获取样本标签;
23.基于所述预测值和所述样本标签确定模型损失值;
24.基于所述模型损失值对所述第一模型进行训练,得到第一目标模型。
25.可选地,所述方法包括:
26.在所述扩充样本序列中目标位置处的样本为空样本的情况下,将所述模型损失值调整为预设值。
27.可选地,所述方法还包括:
28.从中间方获取目标公钥;
29.基于所述目标公钥对所述模型损失值进行同态加密,得到密文损失值;
30.将所述密文损失值发送至所述第二参与方,以使得所述第二参与方根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度,将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度,基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型;其中,所述密文随机矩阵由所述第二参与方通过所述目标公钥对原始随机矩阵加密得到。
31.第二方面,本技术实施例提供了一种隐私保护的联邦学习方法,
32.应用于第二参与方,所述方法包括:
33.向第一参与方发送所述第二参与方的第二样本序列中各个第二样本的第二样本标识,与位置次序之间的对应关系,以使得所述第一参与方根据所述对应关系确定交集样本标识对应的第二样本在所述第二样本序列中的位置信息,按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列,在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;
34.基于位于所述第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及所述第一参与方根据扩充样本序列中位于所述目标位置处的样本产生的第一模型输
出结果,对所述第二参与方的第二模型进行训练,得到第二目标模型。
35.可选地,所述基于位于所述第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及所述第一参与方根据扩充样本序列中位于所述目标位置处的样本产生的第一模型输出结果,对所述第二参与方的第二模型进行训练,得到第二目标模型,包括:
36.从中间方获取目标公钥;
37.从所述第一参与方获取基于所述目标公钥对模型损失值进行同态加密得到的密文损失值;其中,所述模型损失值基于由所述第一参与方根据所述第一模型输出结果和所述第二模型输出结果确定的预测值、从所述扩充样本序列中目标位置处的样本中获取的样本标签确定;
38.根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度;其中,所述密文随机矩阵由所述第二参与方通过所述目标公钥对原始随机矩阵加密得到;
39.将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度;
40.基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型。
41.第三方面,本技术实施例提供了一种隐私保护的联邦学习装置,应用于第一参与方,所述装置包括:
42.获取模块,用于获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及所述交集样本标识对应的第二样本在所述第二样本序列中的位置信息;
43.交集样本序列模块,用于按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列;
44.扩充样本序列模块,用于在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;
45.模型训练模块,用于基于所述扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从所述第二参与方获取的,由所述第二样本序列中所述目标位置处的第二样本产生的第二模型输出结果,对所述第一参与方的第一模型进行训练,得到第一目标模型。
46.可选地,所述扩充样本序列模块,包括:
47.补集样本标识集合子模块,用于确定所述交集样本标识在所述第二样本序列中的补集样本标识集合;
48.空样本子模块,用于生成所述补集样本标识集合中各个补集样本标识对应的空样本;
49.扩充样本序列子模块,用于按照所述补集样本标识在所述第二样本序列中的次序,将所述补集样本标识对应的空样本插入所述交集样本序列,得到所述扩充样本序列。
50.可选地,所述装置还包括:
51.第一样本参数模块,用于从所述扩充样本序列中目标位置处的样本中获取第一样
本参数;
52.第一模型输出结果模块,用于基于所述第一样本参数和所述第一模型的第一模型参数,确定所述第一模型输出结果。
53.可选地,所述装置还包括:
54.目标位置同步模块,用于向所述第二参与方同步所述目标位置,以使得所述第二参与方从所述第二样本序列位于所述目标位置处的第二样本中,获取第二样本参数,基于所述第二样本参数和所述第二模型的第二模型参数,确定所述第二模型输出结果,将所述第二模型输出结果发送至所述第一参与方。
55.可选地,所述模型训练模块,包括:
56.预测值子模块,用于基于所述第一模型输出结果和所述第二模型输出结果确定预测值;
57.样本标签子模块,用于从所述扩充样本序列中目标位置处的样本中获取样本标签;
58.模型损失值子模块,用于基于所述预测值和所述样本标签确定模型损失值;
59.模型训练子模块,用于基于所述模型损失值对所述第一模型进行训练,得到第一目标模型。
60.可选地,所述装置还包括:
61.损失值调整模块,用于在所述扩充样本序列中目标位置处的样本为空样本的情况下,将所述模型损失值调整为预设值。
62.可选地,所述装置还包括:
63.公钥获取模块,用于从中间方获取目标公钥;
64.加密模块,用于基于所述目标公钥对所述模型损失值进行同态加密,得到密文损失值;
65.密文损失值发送模块,用于将所述密文损失值发送至所述第二参与方,以使得所述第二参与方根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度,将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度,基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型;其中,所述密文随机矩阵由所述第二参与方通过所述目标公钥对原始随机矩阵加密得到。
66.第四方面,本技术实施例提供了一种隐私保护的联邦学习装置,应用与第二参与方,所述装置包括:
67.标识发送模块,用于向第一参与方发送所述第二参与方的第二样本序列中各个第二样本的第二样本标识,与位置次序之间的对应关系,以使得所述第一参与方根据所述对应关系确定交集样本标识对应的第二样本在所述第二样本序列中的位置信息,按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列,在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;
68.训练模块,用于基于位于所述第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及所述第一参与方根据扩充样本序列中位于所述目标位置处的样本产生的第一模型输出结果,对所述第二参与方的第二模型进行训练,得到第二目标模型。
69.可选地,所述训练模块,包括:
70.公钥子模块,用于从中间方获取目标公钥;
71.加密子模块,用于从所述第一参与方获取基于所述目标公钥对模型损失值进行同态加密得到的密文损失值;其中,所述模型损失值基于由所述第一参与方根据所述第一模型输出结果和所述第二模型输出结果确定的预测值、从所述扩充样本序列中目标位置处的样本中获取的样本标签确定;
72.密文盲化梯度生成子模块,用于根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度;
73.密文盲化梯度解密子模块,用于将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度;
74.训练子模块,用于基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型。
75.第五方面,本技术实施例还提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现所述的隐私保护的联邦学习方法。
76.第六方面,本技术实施例还提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行所述的隐私保护的联邦学习方法。
77.在本技术实施例中,包括:获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及交集样本标识对应的第二样本在第二样本序列中的位置信息;按照位置信息排列交集样本标识对应的第一样本,得到交集样本序列;在交集样本序列中添加空样本,得到扩充样本序列;其中,扩充样本序列中的样本与第二样本序列中的第二样本具有一一对应关系,扩充样本序列中的第一样本在扩充样本序列中所处的位置,与第一样本具有相同样本标识的第二样本在第二样本序列中所处的位置相同;基于扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从第二参与方获取的,由第二样本序列中目标位置处的第二样本产生的第二模型输出结果,对第一参与方的第一模型进行训练,得到第一目标模型。本技术的联邦学习过程中,可以在隐匿交集样本标识的情况下使各个参与方之间的样本数据完成对齐,从而可以在不告知第二参与方交集样本标识的情况下完成联邦学习,避免了第一参与方的信息泄露,提高了联邦学习过程中的数据安全性。
78.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
79.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通
技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
80.图1是本技术实施例提供的一种隐私保护的联邦学习方法的步骤流程图;
81.图2是本技术实施例提供的另一种隐私保护的联邦学习方法的步骤流程图;
82.图3是本技术实施例提供的再一种隐私保护的联邦学习方法的步骤流程图;
83.图4是本技术实施例提供的还一种隐私保护的联邦学习方法的步骤流程图;
84.图5是本技术实施例提供的一种隐私保护的联邦学习装置结构图;
85.图6是本技术实施例提供的另一种隐私保护的联邦学习装置结构图;
86.图7是本技术实施例提供的一种联邦学习系统结构图;
87.图8是本技术一个实施例的电子设备的逻辑框图;
88.图9是本技术另一个实施例的电子设备的逻辑框图。
具体实施方式
89.下面将参照附图更详细地描述本技术的示例性实施例。虽然附图中显示了本技术的示例性实施例,然而应当理解,可以以各种形式实现本技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本技术,并且能够将本技术的范围完整的传达给本领域的技术人员。
90.图1是本技术实施例提供的一种隐私保护的联邦学习方法的步骤流程图,如图1所示,该方法包括:
91.步骤101、获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及所述交集样本标识对应的第二样本在所述第二样本序列中的位置信息。
92.在本技术实施例中,第一参与方为发起方(guset),第二参与方为数据提供方(host)。第一参与方持有第一样本序列,第二参与方持有第二样本序列。
93.在本技术实施例中,第一参与方可以通过隐私集合求交(private set intersection,psi),获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识。其中,隐私集合求交(private set intersection,psi)是一种在保护隐私的情况下计算两个集合的交集的方法,可采用的隐私集合求交方法可以包括但不限于哈希法、加密协议法(如oblivious transfer)等,本技术实施例不做具体限定。
94.举例来说,第一参与方持有的第一样本序列如下表1所示:
95.[0096][0097]
表1
[0098]
第二参与方持有的第二样本序列如下表2所示:
[0099]
样本标识样本参数(薪资)样本参数(绩效)1600030002700020001180003000460004000129000200065000200013600040001070003000
[0100]
表2
[0101]
对上述第一样本序列和第二样本序列进行隐私集合求交后,可以确定出交集样本标识包括1、2、4、6、10。
[0102]
在本技术实施例中,还可以确定交集样本标识对应的第二样本在第二样本序列中的位置信息。具体地,第一参与方可以从第二参与方的第二样本序列中确定各个第二样本的第二样本标识,与位置次序之间的对应关系,再根据该对应关系确定各个交集样本标识在第二样本序列中对应的位置信息。其中,位置信息用于表示交集样本标识对应的第二样本在第二样本序列中次序。
[0103]
举例来说,上述示例中的交集样本标识在第二样本序列中对应的位置信息可以如下表3所示:
[0104]
交集样本标识位置信息11224466108
[0105]
表3
[0106]
步骤102,按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列。
[0107]
在本技术实施例中,在获得交集样本标识后,可以从第一样本序列中获取各个交集样本标识对应的第一样本,并采用这些第一样本生成交集样本序列,完成对第一样本序列和第二样本序列的对齐操作。
[0108]
举例来说,基于上述表3中所示的交集样本标识,从表1所示的第一样本序列中提取对应的第一样本,可以得到如下表4所示的交集样本序列。
[0109]
交集样本标识标签样本参数(年龄)样本参数(性别)10320202914145161450101261
[0110]
表4
[0111]
步骤103,在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同。
[0112]
在本技术实施例中,还可以通过在交集样本序列中添加空样本的方式,将交集样本序列补全至与第二样本序列具有相同数量的样本,得到扩充样本序列,使得扩充样本序列中的样本与第二样本序列中的第二样本具有一一对应关系。在增加空样本的过程中,需要保持扩充样本序列中的第一样本在扩充样本序列中所处的位置,与第一样本具有相同样本标识的第二样本在第二样本序列中所处的位置相同。上述空样本中的各项数据内容可以为空(null),也可以置0,本技术实施例不做具体限定。
[0113]
举例来说,对上述表4示出的交集样本序列补充空样本后,可以得到如下表5所示的扩充样本序列:
[0114]
样本标识标签样本参数(年龄)样本参数(性别)10320202910000414510000614500000101261
[0115]
表5
[0116]
如上述表5所示,样本标识为0的样本为空样本,扩充样本序列中包含的样本数量与上述表2所示的第二样本序列中包含的样本数量相同,均为8个,且扩充样本序列中每个
第一样本(样本标识非0的样本)在扩充样本序列中所处的位置,与第一样本具有相同样本标识的第二样本在第二样本序列中所处的位置相同(例如样本标识为6的第一样本在扩充样本序列中所处的位置为6,样本标识为6的第二样本在第二样本序列中所处的位置同样为6)。
[0117]
在本技术实施例中,为了提高联邦学习过程的数据安全性,不会将交集样本标识告知第二参与方,只有第一参与方知晓交集样本标识,这种情况下,为了进行后续的联邦学习过程,可以通过在交集样本序列中增加空样本的方式对交集样本序列进行扩充,得到扩充样本序列,使扩充样本序列中的第一样本在扩充样本序列中所处的位置,与第一样本具有相同样本标识的第二样本在第二样本序列中所处的位置相同,在各自序列中的顺位保持一致,从而在后续联邦学习过程中,即使在不告知第二参与方交集样本标识的情况下,依然可以通过采用固定的样本训练顺序,使第一参与方和第二参与方可以采用相互之间的交集样本对模型进行训练。并且,由于第一参与方扩充的样本为空样本,且这些空样本在序列中非对齐的位置中,在后续训练过程中,这部分的数据不会对模型损失值产生贡献,所以联邦学习的过程依旧是在对齐后的样本上进行,可以保证结果的正确性。
[0118]
步骤104,基于所述扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从所述第二参与方获取的,由所述第二样本序列中所述目标位置处的第二样本产生的第二模型输出结果,对所述第一参与方的第一模型进行训练,得到第一目标模型。
[0119]
得到扩充样本序列后,第一参与方和第二参与方可以开始训练各自的模型。第一参与方可以基于扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从第二参与方获取的,由第二样本序列中目标位置处的第二样本产生的第二模型输出结果,对第一参与方的第一模型进行训练,得到第一目标模型。
[0120]
具体地,第一参与方可以通过其拥有的第一模型获取扩充样本序列中每个样本对应的第一模型输出结果,并从第二参与方获取第二样本序列中每个样本对应的第二模型输出结果(第二模型输出结果由第二参与方通过其拥有的第二模型和第二样本序列中的第二样本确定)。需要说明的是,第一参与方可以按照某个顺序确定扩充样本序列中每个样本对应的第一模型输出结果,第二参与方可以按照相同的顺序向第一参与方发送第二样本序列中每个样本对应的第二模型输出结果。这样,第一参与方便可以确定序列中同一个目标位置对应的第一模型输出结果和第二模型输出结果,进而采用同一个目标位置对应的第一模型输出结果和第二模型输出结果作为一次训练所需的数据,对第一模型进行训练。
[0121]
举例来说,若第一参与方按照扩充样本序列各个样本的排列顺序确定其对应的第一模型输出结果,第二参与方同样按照第二样本序列中各个样本的排列顺序向第一参与方发送其对应的第二模型输出结果。则在目标位置为2(序列中2个样本)的情况下,则将第一参与方生成的第2个第一模型输出结果与第一参与方接收到的第2个第二模型输出结果对第一模型进行一次训练。这样,在目标位置遍历序列中所有位置后,即可完成对第一模型的训练,得到第一目标模型。
[0122]
综上,为本技术实施例提供的一种隐私保护的联邦学习方法,在本技术实施例中,包括:获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及交集样本标识对应的第二样本在第二样本序列中的位置信息;按照位置信息排列交集样本标识对应的第一样本,得到交集样本序列;在交集样本序列中添加空样本,得到扩
充样本序列;其中,扩充样本序列中的样本与第二样本序列中的第二样本具有一一对应关系,扩充样本序列中的第一样本在扩充样本序列中所处的位置,与第一样本具有相同样本标识的第二样本在第二样本序列中所处的位置相同;基于扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从第二参与方获取的,由第二样本序列中目标位置处的第二样本产生的第二模型输出结果,对第一参与方的第一模型进行训练,得到第一目标模型。本技术的联邦学习过程中,可以在隐匿交集样本标识的情况下使各个参与方之间的样本数据完成对齐,从而可以在不告知第二参与方交集样本标识的情况下完成联邦学习,避免了第一参与方的信息泄露,提高了联邦学习过程中的数据安全性。
[0123]
图2是本技术实施例提供的另一种隐私保护的联邦学习方法的步骤流程图,如图2所示,该方法包括:
[0124]
步骤201,获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及所述交集样本标识对应的第二样本在所述第二样本序列中的位置信息。
[0125]
此步骤可参见步骤101,本技术实施例不再赘述。
[0126]
步骤202,按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列。
[0127]
此步骤可参见步骤101,本技术实施例不再赘述。
[0128]
步骤203,在所述交集样本序列中添加空样本,得到扩充样本序列。
[0129]
可选地,在本技术实施例中,可以通过如下子步骤2031至子步骤2033对交集样本序列进行扩充,得到扩充样本序列。
[0130]
子步骤2031,确定所述交集样本标识在所述第二样本序列中的补集样本标识集合。
[0131]
交集是两个或多个集合的公共部分。交集样本标识是指在第一样本序列和第二样本序列中都出现的样本的标识。例如,假设有两个样本序列a和b。第一样本序列a中有样本标识1和样本标识2,第二样本序列b中有样本标识1、样本标识2和样本标识3。那么交集样本标识包括样本标识1和样本标识2。补集是一个集合中未包含在另一个集合中的所有元素的集合,因此,补集样本标识集合是指第二个样本序列中未包含在交集样本标识中的所有样本的标识的集合。延续之前的例子,如果交集样本标识包括样本标识1和样本标识2,那么交集样本标识在第二样本序列b中的补集样本标识集合包含样本标识3。
[0132]
举例来说,若交集样本标识为上述表3中的所有样本标识,第二样本序列为上述表2所示的序列,那么交集样本标识在第二样本序列中的补集样本标识集合中包含样本标识11、12和13。
[0133]
子步骤2032,生成所述补集样本标识集合中各个补集样本标识对应的空样本。
[0134]
为了使空样本不对后续的实际训练过程产生影响,在本技术实施例中,可以至少将空样本中的样本参数设置为空(null)或0值。
[0135]
例如,采用上述表1所示的样本格式,一种空样本可以如下表6所示:
[0136]
样本标识标签样本参数(年龄)样本参数(性别)11000
[0137]
表6
[0138]
子步骤2033,按照所述补集样本标识在所述第二样本序列中的次序,将所述补集样本标识对应的空样本插入所述交集样本序列,得到所述扩充样本序列。
[0139]
在本技术实施例中,第一参与方可以从第二参与方获取补集样本标识在第二样本序列中的次序信息,并根据该次序信息将补集样本标识对应的空样本插入交集样本序列,得到扩充样本序列,使得各个补集样本标识对应的空样本在扩充样本序列中的次序,与该补集样本标识在第二样本序列中的次序相同。
[0140]
步骤204,从所述扩充样本序列中目标位置处的样本中获取第一样本参数;基于所述第一样本参数和所述第一模型的第一模型参数,确定所述第一模型输出结果。
[0141]
在本技术实施例中,第一模型输出结果可以基于第一模型的第一模型参数,与扩充样本序列中样本的第一样本参数确定。
[0142]
具体地,可以从扩充样本序列中目标位置处的样本中获取第一样本参数,举例来说,在表5所示的扩充样本序列中,可以从第2位置处的样本中获取第一样本参数:年龄参数32和性别参数0。在本技术实施例中,可以通过第一样本参数与第一模型参数相乘的方式计算第一模型输出结果,也可以通过其他方式确定第一模型输出结果,本技术实施例不做具体限定。
[0143]
需要说明的是,目标位置可以按照顺序选取,也可以随机从序列中选取,直到遍历序列中的所有位置。
[0144]
步骤205,向所述第二参与方同步所述目标位置。
[0145]
在本技术实施例中,第一参与方还可以通过向第二参与方发送目标位置的方式,从第二参与方获取第二样本序列中目标位置处的第二样本对应的第二模型输出结果。具体地,可以向第二参与方同步目标位置,以使得第二参与方从第二样本序列中位于目标位置处的第二样本中获取第二样本参数,并基于第二样本参数和第二参与方的第二模型的第二模型参数,确定第二模型输出结果,将第二模型输出结果发送至第一参与方。
[0146]
步骤206,基于所述第一模型输出结果和所述第二模型输出结果确定预测值。
[0147]
得到一个目标位置对应的一组第一模型输出结果和第二模型输出结果之后,可以计算对应的预测值,其中,预测值可以通过公式1计算得到:
[0148]
h=sigmoid(u+v)公式1
[0149]
其中,h表示预测值,sigmoid是一种激活函数,u表示第一模型输出结果,v表示第二模型输出结果。需要说明的是,技术人员还可以根据实际需要选取其他激活函数,例如线性激活函数(rectified linear unit,relu)、双曲正切函数(hyperbolic tangent,tanh)等等,本技术实施例不做具体限定。
[0150]
步骤207,从所述扩充样本序列中目标位置处的样本中获取样本标签;基于所述预测值和所述样本标签确定模型损失值。
[0151]
还可以从扩充样本序列中的目标位置处的样本中获取样本标签,并基于该样本标签与该目标位置对应的预测值确定模型损失值。举例来说,在如上述表5所示的扩充样本序列中,第4位置对应的样本标签为1。
[0152]
具体地,可以采用公式2计算模型损失值:
[0153]
δy=label-h公式2
[0154]
其中,δy表示模型损失值,label表示目标位置对应的样本标签的标签值,h表示
目标位置对应的预测值。需要说明的是,上述公式2表示模型损失值可以基于样本标签和预测值之间的差异确定,该差异可通过多种损失函数计算得到,例如平方误差(mean squared error,mse)、交叉熵(cross entropy,ce)、平均绝对误差(mean absolute error,mae)、二次损失(hinge loss,,hl)等等,本技术不做具体限定。
[0155]
可选地,在所述扩充样本序列中目标位置处的样本为空样本的情况下,将所述模型损失值调整为预设值。
[0156]
在某些情况下,即使目标位置处的样本为空样本,依然有可能计算出对应的模型损失值,有可能对模型训练效果产生影响,因此,在本技术实施例中,还可以在扩充样本序列中目标位置处的样本为空样本的情况下,将模型损失值调整为预设值,从而进一步降低扩充样本序列中的空样本对模型训练精度的影响,提升模型训练效果。
[0157]
具体地,预设值可以包括不影响后续模型训练过程的任何值,例如0值、空值等等,本技术实施例不做具体限定。
[0158]
步骤208,基于所述模型损失值对所述第一模型进行训练,得到第一目标模型。
[0159]
通过一个模型损失值可以对第一模型进行一次迭代,通过计算各个目标位置对应的模型损失值对第一模型进行多次迭代,直至遍历扩充样本序列中的所有位置,即可完成对第一模型的训练,得到第一目标模型。
[0160]
步骤209,从中间方获取目标公钥;基于所述目标公钥对所述模型损失值进行同态加密,得到密文损失值。
[0161]
为了使第二参与方能够同样基于上述模型损失值对自身的第二模型进行训练,并且不向第二模型暴露真实的模型损失值,可以首先通过目标公钥对模型损失值进行加密,得到密文损失值。第一参与方可以从中间方获取目标公钥,中间方可以生成目标公钥和目标私钥对,并将目标公钥发送给第一参与方和第二参与方,自己保留私钥。
[0162]
具体地,第一参与方可以通过目标公钥对模型损失值进行同态加密,得到密文损失值。其中,同态加密(homomorphic encryption)是一种加密方法,它允许对加密数据执行特定的计算,而无需解密数据,对加密数据进行运算操作后得到的仍是加密数据。
[0163]
步骤210,将所述密文损失值发送至所述第二参与方。
[0164]
在本技术实施例中,第一参与方可以将密文损失值发送至第二参与方,以使得第二参与方根据密文损失值、第二模型的第二模型参数和密文随机矩阵生成密文盲化梯度,将密文盲化梯度发送至中间方进行解密处理,得到盲化梯度,基于密文随机矩阵对应的原始随机矩阵与盲化梯度,生成明文梯度,基于明文梯度对第二模型进行训练,得到第二目标模型。
[0165]
第一参与方可以将密文损失值发送给第二参与方,保证损失值在传输过程中的安全性,第二参与方接收到密文损失值后,可以根据密文损失值计算密文盲化梯度,具体地,可以采用公式3计算密文盲化梯度:
[0166]
[grad_b+r]=[δy]*x_b+[r]公式3
[0167]
其中,[grad_b+r]表示密文盲化梯度,[δy]表示密文损失值,x_b表示第二样本序列中位于密文损失值[δy]对应的目标位置处的第二样本的样本参数值,[r]表示通过目标公钥对一个随机矩阵进行同态加密后得到的密文随机矩阵。
[0168]
可以由第二参与方将密文盲化梯度发送至中间方,由中间方采用目标公钥对应的
私钥对密文盲化梯度进行解密,得到盲化梯度,再由中间方将盲化梯度发送至第二参与方。由于密文盲化梯度不仅经过了目标公钥的加密,还经过了随机矩阵的盲化,相当于进行了双重加密,这样,在中间方对密文盲化梯度解密后,得到的盲化梯度依然处于盲化状态,确保了传输盲化梯度的过程中,真实梯度的安全性。
[0169]
第二参与方,接收到盲化梯度后,将盲化梯度与上述随机矩阵做差,即可得到明文梯度,再通过明文梯度对第二模型进行训练,得到第二目标模型。
[0170]
综上,为本技术实施例提供的另一种隐私保护的联邦学习方法,在本技术实施例中,包括:获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及交集样本标识对应的第二样本在第二样本序列中的位置信息;按照位置信息排列交集样本标识对应的第一样本,得到交集样本序列;在交集样本序列中添加空样本,得到扩充样本序列;其中,扩充样本序列中的样本与第二样本序列中的第二样本具有一一对应关系,扩充样本序列中的第一样本在扩充样本序列中所处的位置,与第一样本具有相同样本标识的第二样本在第二样本序列中所处的位置相同;基于扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从第二参与方获取的,由第二样本序列中目标位置处的第二样本产生的第二模型输出结果,对第一参与方的第一模型进行训练,得到第一目标模型。本技术的联邦学习过程中,可以在隐匿交集样本标识的情况下使各个参与方之间的样本数据完成对齐,从而可以在不告知第二参与方交集样本标识的情况下完成联邦学习,避免了第一参与方的信息泄露,提高了联邦学习过程中的信息安全性。
[0171]
图3是本技术实施例提供的再一种隐私保护的联邦学习方法的步骤流程图,应用于第二参与方,如图3所示,该方法包括:
[0172]
步骤301,向第一参与方发送所述第二参与方的第二样本序列中各个第二样本的第二样本标识,与位置次序之间的对应关系。
[0173]
以使得所述第一参与方根据所述对应关系确定交集样本标识对应的第二样本在所述第二样本序列中的位置信息,按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列,在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同。
[0174]
步骤302,基于位于所述第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及所述第一参与方根据扩充样本序列中位于所述目标位置处的样本产生的第一模型输出结果,对所述第二参与方的第二模型进行训练,得到第二目标模型。
[0175]
可选地,步骤302可以包括:
[0176]
子步骤3021,从中间方获取目标公钥。
[0177]
子步骤3022,从所述第一参与方获取基于所述目标公钥对模型损失值进行同态加密得到的密文损失值;其中,所述模型损失值基于由所述第一参与方根据所述第一模型输出结果和所述第二模型输出结果确定的预测值、从所述扩充样本序列中目标位置处的样本中获取的样本标签确定。
[0178]
子步骤3023,根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度;其中,所述密文随机矩阵由所述第二参与方通过所述目标公钥对原
始随机矩阵加密得到。
[0179]
子步骤3024,将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度。
[0180]
子步骤3025,基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型。
[0181]
综上,为本技术实施例提供的另一种隐私保护的联邦学习方法,包括:向第一参与方发送第二参与方的第二样本序列中各个第二样本的第二样本标识,与位置次序之间的对应关系,以使得第一参与方根据对应关系确定交集样本标识对应的第二样本在第二样本序列中的位置信息,按照位置信息排列交集样本标识对应的第一样本,得到交集样本序列,在交集样本序列中添加空样本,得到扩充样本序列;其中,扩充样本序列中的样本与第二样本序列中的第二样本具有一一对应关系,扩充样本序列中的第一样本在扩充样本序列中所处的位置,与第一样本具有相同样本标识的第二样本在第二样本序列中所处的位置相同;基于位于第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及第一参与方根据扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,对第二参与方的第二模型进行训练,得到第二目标模型。本技术的联邦学习过程中,可以在隐匿交集样本标识的情况下使各个参与方之间的样本数据完成对齐,从而可以在不告知第二参与方交集样本标识的情况下完成联邦学习,避免了第一参与方的信息泄露,提高了联邦学习过程中的数据安全性。
[0182]
图4是本技术实施例提供的还一种隐私保护的联邦学习方法的步骤流程图,应用于第二参与方,应用于联邦学习系统,该系统包括第一参与方、第二参与方和中间方,如图4所示,该方法包括:
[0183]
步骤401,第一参与方获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识。
[0184]
步骤402,第二参与方向第一参与方发送所述第二参与方的第二样本序列中各个第二样本的第二样本标识,与位置次序之间的对应关系。
[0185]
步骤403,第一参与方按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列。
[0186]
步骤404,第一参与方在所述交集样本序列中添加空样本,得到扩充样本序列。
[0187]
步骤405,第一参与方基于所述扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从所述第二参与方获取的,由所述第二样本序列中所述目标位置处的第二样本产生的第二模型输出结果,对所述第一参与方的第一模型进行训练,得到第一目标模型。
[0188]
步骤406,中间方生成所述目标公钥,以及所述目标公钥对应的目标私钥,并将所述目标公钥发送至所述第一参与方和所述第二参与方。
[0189]
步骤407,第一参与方基于所述目标公钥对所述模型损失值进行同态加密,得到密文损失值。
[0190]
步骤408,第一参与方将所述密文损失值发送至所述第二参与方。
[0191]
步骤409,第二参与方根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度;其中,所述密文随机矩阵由所述第二参与方通过所述目标公
钥对原始随机矩阵加密得到。
[0192]
步骤410,第二参与方将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度。
[0193]
步骤411,中间方接收所述第二参与方发送的密文盲化梯度,并采用所述目标私钥对所述密文盲化梯度进行解密,将解密得到的盲化梯度发送至所述第二参与方。
[0194]
步骤412,第二参与方基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型。
[0195]
综上,为本技术实施例提供的再一种隐私保护的联邦学习方法,本技术的联邦学习过程中,可以在隐匿交集样本标识的情况下使各个参与方之间的样本数据完成对齐,从而可以在不告知第二参与方交集样本标识的情况下完成联邦学习,避免了第一参与方的信息泄露,提高了联邦学习过程中的信息安全性。
[0196]
与上述本技术的隐私保护的联邦学习方法实施例所提供的方法相对应,参见图5,本技术还提供了一种隐私保护的联邦学习装置结构图,应用于第一参与方,该装置包括:
[0197]
获取模块501,用于获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及所述交集样本标识对应的第二样本在所述第二样本序列中的位置信息;
[0198]
交集样本序列模块502,用于按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列;
[0199]
扩充样本序列模块503,用于在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;
[0200]
模型训练模块504,用于基于所述扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从所述第二参与方获取的,由所述第二样本序列中所述目标位置处的第二样本产生的第二模型输出结果,对所述第一参与方的第一模型进行训练,得到第一目标模型。
[0201]
可选地,所述扩充样本序列模块,包括:
[0202]
补集样本标识集合子模块,用于确定所述交集样本标识在所述第二样本序列中的补集样本标识集合;
[0203]
空样本子模块,用于生成所述补集样本标识集合中各个补集样本标识对应的空样本;
[0204]
扩充样本序列子模块,用于按照所述补集样本标识在所述第二样本序列中的次序,将所述补集样本标识对应的空样本插入所述交集样本序列,得到所述扩充样本序列。
[0205]
可选地,所述装置还包括:
[0206]
第一样本参数模块,用于从所述扩充样本序列中目标位置处的样本中获取第一样本参数;
[0207]
第一模型输出结果模块,用于基于所述第一样本参数和所述第一模型的第一模型参数,确定所述第一模型输出结果。
[0208]
可选地,所述装置还包括:
[0209]
目标位置同步模块,用于向所述第二参与方同步所述目标位置,以使得所述第二参与方从所述第二样本序列位于所述目标位置处的第二样本中,获取第二样本参数,基于所述第二样本参数和所述第二模型的第二模型参数,确定所述第二模型输出结果,将所述第二模型输出结果发送至所述第一参与方。
[0210][0211]
可选地,所述模型训练模块,包括:
[0212]
预测值子模块,用于基于所述第一模型输出结果和所述第二模型输出结果确定预测值;
[0213]
样本标签子模块,用于从所述扩充样本序列中目标位置处的样本中获取样本标签;
[0214]
模型损失值子模块,用于基于所述预测值和所述样本标签确定模型损失值;
[0215]
模型训练子模块,用于基于所述模型损失值对所述第一模型进行训练,得到第一目标模型。
[0216]
可选地,所述装置还包括:
[0217]
损失值调整模块,用于在所述扩充样本序列中目标位置处的样本为空样本的情况下,将所述模型损失值调整为预设值。
[0218]
可选地,所述装置还包括:
[0219]
公钥获取模块,用于从中间方获取目标公钥;
[0220]
加密模块,用于基于所述目标公钥对所述模型损失值进行同态加密,得到密文损失值;
[0221]
密文损失值发送模块,用于将所述密文损失值发送至所述第二参与方,以使得所述第二参与方根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度,将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度,基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型。
[0222]
综上,本技术实施例提供的一种隐私保护的联邦学习装置,包括:获取模块,用于获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及交集样本标识对应的第二样本在第二样本序列中的位置信息;交集样本序列模块,用于按照位置信息排列交集样本标识对应的第一样本,得到交集样本序列;扩充样本序列模块,用于在交集样本序列中添加空样本,得到扩充样本序列;其中,扩充样本序列中的样本与第二样本序列中的第二样本具有一一对应关系,扩充样本序列中的第一样本在扩充样本序列中所处的位置,与第一样本具有相同样本标识的第二样本在第二样本序列中所处的位置相同;模型训练模块,用于基于扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从第二参与方获取的,由第二样本序列中目标位置处的第二样本产生的第二模型输出结果,对第一参与方的第一模型进行训练,得到第一目标模型。本技术的联邦学习过程中,可以在隐匿交集样本标识的情况下使各个参与方之间的样本数据完成对齐,从而可以在不告知第二参与方交集样本标识的情况下完成联邦学习,避免了第一参与方的信息泄露,提高了联邦学习过程中的数据安全性。
[0223]
与上述本技术的另一种隐私保护的联邦学习方法实施例所提供的方法相对应,参
见图6,本技术还提供了另一种隐私保护的联邦学习装置结构图,应用于第二参与方,该装置包括:
[0224]
标识发送模块61,用于向第一参与方发送所述第二参与方的第二样本序列中各个第二样本的第二样本标识,与位置次序之间的对应关系,以使得所述第一参与方根据所述对应关系确定交集样本标识对应的第二样本在所述第二样本序列中的位置信息,按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列,在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;
[0225]
训练模块62,用于基于位于所述第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及所述第一参与方根据扩充样本序列中位于所述目标位置处的样本产生的第一模型输出结果,对所述第二参与方的第二模型进行训练,得到第二目标模型。
[0226]
可选地,所述训练模块,包括:
[0227]
公钥子模块,用于从中间方获取目标公钥;
[0228]
加密子模块,用于从所述第一参与方获取基于所述目标公钥对模型损失值进行同态加密得到的密文损失值;其中,所述模型损失值基于由所述第一参与方根据所述第一模型输出结果和所述第二模型输出结果确定的预测值、从所述扩充样本序列中目标位置处的样本中获取的样本标签确定;
[0229]
密文盲化梯度生成子模块,用于根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度;
[0230]
密文盲化梯度解密子模块,用于将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度;
[0231]
训练子模块,用于基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型。
[0232]
综上,本技术实施例提供的另一种隐私保护的联邦学习装置,包括:标识发送模块61,用于向第一参与方发送第二参与方的第二样本序列中各个第二样本的第二样本标识,与位置次序之间的对应关系,以使得第一参与方根据对应关系确定交集样本标识对应的第二样本在第二样本序列中的位置信息,按照位置信息排列交集样本标识对应的第一样本,得到交集样本序列,在交集样本序列中添加空样本,得到扩充样本序列;其中,扩充样本序列中的样本与第二样本序列中的第二样本具有一一对应关系,扩充样本序列中的第一样本在扩充样本序列中所处的位置,与第一样本具有相同样本标识的第二样本在第二样本序列中所处的位置相同;训练模块,用于基于位于第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及第一参与方根据扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,对第二参与方的第二模型进行训练,得到第二目标模型。本技术的联邦学习过程中,可以在隐匿交集样本标识的情况下使各个参与方之间的样本数据完成对齐,从而可以在不告知第二参与方交集样本标识的情况下完成联邦学习,避免了第一参与方的信息泄露,提高了联邦学习过程中的信息安全性。
[0233]
与上述本技术的再一种隐私保护的联邦学习方法实施例所提供的方法相对应,参
见图7,本技术还提供了一种联邦学习系统结构图,如图7所示,该系统包括:
[0234]
上述实施例中的第一参与方701、第二参与方702和中间方703。
[0235]
综上,本技术实施例提供的联邦学习系统,可以在隐匿交集样本标识的情况下使各个参与方之间的样本数据完成对齐,从而可以在不告知第二参与方交集样本标识的情况下完成联邦学习,避免了第一参与方的信息泄露,提高了联邦学习过程中的信息安全性。
[0236]
图8是本技术一个实施例的电子设备600的逻辑框图。例如,电子设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0237]
参照图8,电子设备600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(i/o)的接口612,传感器组件614,以及通信组件616。
[0238]
处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
[0239]
存储器604用于存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0240]
电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理和分配电力相关联的组件。
[0241]
多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。若屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的分界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0242]
音频组件610用于输出和/或输入音频信号。例如,音频组件610包括一个麦克风(mic),当电子设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
[0243]
i/o接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0244]
传感器组件614包括一个或多个传感器,用于为电子设备600提供各个方面的状态评估。例如,传感器组件614可以检测到电子设备600的打开/关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0245]
通信组件616用于便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络,如wifi,运营商网络(如2g、3g、4g或5g),或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0246]
在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于实现本技术实施例提供的一种隐私保护的联邦学习方法。
[0247]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620执行以完成上述方法。例如,所述非临时性存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0248]
图9是本技术一个实施例的电子设备700的逻辑框图。例如,电子设备700可以被提供为一服务器。参照图9,电子设备700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行本技术实施例提供的一种隐私保护的联邦学习方法。
[0249]
电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理,一个有线或无线网络接口750被配置为将电子设备700连接到网络,和一个输入输出(i/o)接口758。电子设备700可以操作基于存储在存储器732的操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm或类似。
[0250]
本技术实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现所述的隐私保护的联邦学习方法。
[0251]
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
[0252]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
技术特征:
1.一种隐私保护的联邦学习方法,其特征在于,应用于第一参与方,所述方法包括:获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及所述交集样本标识对应的第二样本在所述第二样本序列中的位置信息;按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列;在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;基于所述扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从所述第二参与方获取的,由所述第二样本序列中所述目标位置处的第二样本产生的第二模型输出结果,对所述第一参与方的第一模型进行训练,得到第一目标模型。2.根据权利要求1所述的方法,其特征在于,所述在所述交集样本序列中添加空样本,得到扩充样本序列,包括:确定所述交集样本标识在所述第二样本序列中的补集样本标识集合;生成所述补集样本标识集合中各个补集样本标识对应的空样本;按照所述补集样本标识在所述第二样本序列中的次序,将所述补集样本标识对应的空样本插入所述交集样本序列,得到所述扩充样本序列。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述扩充样本序列中目标位置处的样本中获取第一样本参数;基于所述第一样本参数和所述第一模型的第一模型参数,确定所述第一模型输出结果。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:向所述第二参与方同步所述目标位置,以使得所述第二参与方从所述第二样本序列位于所述目标位置处的第二样本中,获取第二样本参数,基于所述第二样本参数和所述第二模型的第二模型参数,确定所述第二模型输出结果,将所述第二模型输出结果发送至所述第一参与方。5.根据权利要求1所述的方法,其特征在于,所述基于所述扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从所述第二参与方获取的,由所述第二样本序列中所述目标位置处的第二样本产生的第二模型输出结果,对所述第一参与方的第一模型进行训练,得到第一目标模型,包括:基于所述第一模型输出结果和所述第二模型输出结果确定预测值;从所述扩充样本序列中目标位置处的样本中获取样本标签;基于所述预测值和所述样本标签确定模型损失值;基于所述模型损失值对所述第一模型进行训练,得到第一目标模型。6.根据权利要求5所述的方法,其特征在于,所述方法包括:在所述扩充样本序列中目标位置处的样本为空样本的情况下,将所述模型损失值调整为预设值。7.根据权利要求5所述的方法,其特征在于,所述方法还包括:从中间方获取目标公钥;
基于所述目标公钥对所述模型损失值进行同态加密,得到密文损失值;将所述密文损失值发送至所述第二参与方,以使得所述第二参与方根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度,将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度,基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型;其中,所述密文随机矩阵由所述第二参与方通过所述目标公钥对原始随机矩阵加密得到。8.一种隐私保护的联邦学习方法,其特征在于,应用于第二参与方,所述方法包括:向第一参与方发送所述第二参与方的第二样本序列中各个第二样本的第二样本标识,与位置次序之间的对应关系,以使得所述第一参与方根据所述对应关系确定交集样本标识对应的第二样本在所述第二样本序列中的位置信息,按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列,在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;基于位于所述第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及所述第一参与方根据扩充样本序列中位于所述目标位置处的样本产生的第一模型输出结果,对所述第二参与方的第二模型进行训练,得到第二目标模型。9.根据权利要求8所述的方法,其特征在于,所述基于位于所述第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及所述第一参与方根据扩充样本序列中位于所述目标位置处的样本产生的第一模型输出结果,对所述第二参与方的第二模型进行训练,得到第二目标模型,包括:从中间方获取目标公钥;从所述第一参与方获取基于所述目标公钥对模型损失值进行同态加密得到的密文损失值;其中,所述模型损失值基于由所述第一参与方根据所述第一模型输出结果和所述第二模型输出结果确定的预测值、从所述扩充样本序列中目标位置处的样本中获取的样本标签确定;根据所述密文损失值、密文随机矩阵和所述第二模型的第二模型参数生成密文盲化梯度;其中,所述密文随机矩阵由所述第二参与方通过所述目标公钥对原始随机矩阵加密得到;将所述密文盲化梯度发送至所述中间方进行解密处理,得到盲化梯度;基于所述密文随机矩阵对应的原始随机矩阵与所述盲化梯度,生成明文梯度,基于所述明文梯度对所述第二模型进行训练,得到第二目标模型。10.一种隐私保护的联邦学习装置,其特征在于,应用于第一参与方,所述装置包括:获取模块,用于获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及所述交集样本标识对应的第二样本在所述第二样本序列中的位置信息;交集样本序列模块,用于按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列;
扩充样本序列模块,用于在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;模型训练模块,用于基于所述扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,以及从所述第二参与方获取的,由所述第二样本序列中所述目标位置处的第二样本产生的第二模型输出结果,对所述第一参与方的第一模型进行训练,得到第一目标模型。11.一种隐私保护的联邦学习装置,其特征在于,应用于第二参与方,所述装置包括:标识发送模块,用于向第一参与方发送所述第二参与方的第二样本序列中各个第二样本的第二样本标识,与位置次序之间的对应关系,以使得所述第一参与方根据所述对应关系确定交集样本标识对应的第二样本在所述第二样本序列中的位置信息,按照所述位置信息排列所述交集样本标识对应的第一样本,得到交集样本序列,在所述交集样本序列中添加空样本,得到扩充样本序列;其中,所述扩充样本序列中的样本与所述第二样本序列中的第二样本具有一一对应关系,所述扩充样本序列中的第一样本在所述扩充样本序列中所处的位置,与所述第一样本具有相同样本标识的第二样本在所述第二样本序列中所处的位置相同;模型训练模块,用于基于位于所述第二样本序列中目标位置处的第二样本产生的第二模型输出结果,以及所述第一参与方根据扩充样本序列中位于所述目标位置处的样本产生的第一模型输出结果,对所述第二参与方的第二模型进行训练,得到第二目标模型。12.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的方法。13.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至9中任一项所述的方法。
技术总结
本申请提供了一种隐私保护的联邦学习方法、装置、电子设备及计算机可读存储介质,获取第一参与方的第一样本序列与第二参与方的第二样本序列之间的交集样本标识,以及交集样本标识对应的第二样本在第二样本序列中的位置信息;按照位置信息排列交集样本标识对应的第一样本,得到交集样本序列;在交集样本序列中添加空样本,得到扩充样本序列;基于扩充样本序列中位于目标位置处的样本产生的第一模型输出结果,对第一参与方的第一模型进行训练。可以在隐匿交集样本标识的情况下使各个参与方之间的样本数据完成对齐,从而可以在不告知第二参与方交集样本标识的情况下完成联邦学习,提高了联邦学习过程中的信息安全性。提高了联邦学习过程中的信息安全性。提高了联邦学习过程中的信息安全性。
技术研发人员:周一竞 黄翠婷
受保护的技术使用者:杭州博盾习言科技有限公司
技术研发日:2023.03.27
技术公布日:2023/7/17
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:钢材加工用抛丸机的制作方法 下一篇:文丘里软化水硬度检测报警装置的制作方法
