一种通信高效的隐私保护个性化联邦学习方法
未命名
10-18
阅读:103
评论:0
1.本发明属于隐私保护以及联邦学习领域,具体涉及一种通信高效的隐私保护个性化联邦学习方法。
背景技术:
2.如今,随着设备计算能力的提升,许多优秀的模型被开发出来,以提取日常生成的大量数据中的潜在模式,这推动了深度学习(deep learning,dl)的快速发展。然而,传统的集中式深度学习会因为海量数据传输而导致通信拥塞,无法有效保证服务质量。而且,数据收集过程中的隐私泄漏是其面临的主要威胁。联邦学习(federated learning,fl)作为分布式深度学习中的一种具有前景的范式,在隐私保护和通信开销方面都取得了长足的进步。
3.尽管fl比集中式dl产生更多优势,但模型更新过程仍然会带来巨大的通信开销,尤其是当客户端具有大规模模型时。同时许多具有隐私保护的通信高效fl方案使用了多余的加密算法,这将导致产生更多的计算成本。针对上述问题,目前的研究方向主要有以下三种方案。
4.第一类方案通过减少通信轮数、选择部分参与客户端或最小化通信时间来提高通信效率。该方案虽然有助于提高通信效率,但并没有从根本上降低模型参数的数据规模,即单轮通信中仍然存在海量参数,尤其是在客户端模型规模较大的情况下。
5.第二类方案通过各种压缩方法减少上传或下载参数的数据量。该方案确实通过减少通信比特而节省了通信成本。但是,当数据是non-iid时,它们无法实现高效的训练性能。同时,假设所有的客户端模型都是同质的,这限制了客户端的个性化。
6.而为了克服数据集和模型的异构性带来的困难,提出了通信高效的第三类,可以提高异构数据集和模型下的模型性能。该个性化方案能够很好地适应non-iid数据分布和模型异构的情况,对kd的巧妙利用带来了很多启发。然而,它们并没有对本地知识和全局知识进行合理的整合,对于拥有non-iid数据集的客户来说,很难实现稳定的模型训练。
7.从上述三种方案,特别是第三类中最具代表性和最先进的研究中可以发现kd不仅有利于降低通信成本,而且使fl具有良好的异构性容错能力。然而,模型小并不意味着参数少。有些方案只传输最后一层的logit输出,以进一步减少通信流量,但这会诱发知识转移的不足。同时,如何让客户端更好地从全局知识中吸收知识,并且不与本地知识发生冲突也是非常重要的。此外,虽然在前两类中开发了具有隐私保护方法的通信高效fl,但它们通常会引入额外的加密技术,这会带来更多的计算成本,对硬件提出更高的要求。因此,有必要设计一种具有隐私保护的更高效、更个性化的fl。
技术实现要素:
8.发明目的:针对现有技术存在的上述缺陷,本发明的目的是设计一种通信高效的隐私保护个性化联邦学习方法,能够使客户端以低通信成本完成个性化学习克服模型异构
和数据异构带来的性能损失难题,实现隐私保护和轻量化压缩,并且提高重构的灵活性。
9.技术方案:为了达成上述目的,本发明提出一种通信高效的隐私保护个性化联邦学习方法,该方法包括如下步骤:
10.(1)基于不同客户端对隐私保护需求的不同,设计具有隐私保护的个性化联邦学习网络模型,该模型由隐私客户端、公共客户端和中央服务器组成;
11.(2)所有客户端通过各自的神经网络学习知识,并结合本地数据集学习到的知识与全局知识实现个性化学习,其中,客户端利用本地数据集对本地神经网络完成训练之后,隐私客户端通过将其神经网络梯度与公共客户端的神经网络梯度分组聚合后再进行梯度压缩,以此降低通信开销并保护梯度信息,隐私客户端将压缩后的梯度上传到中央服务器进行全局聚合;
12.(3)中央服务器对收到客户端上传的压缩梯度进行解压重构,对重构的梯度再进行全局聚合,并更新全局神经网络,最后将全局神经网络的模型参数分发给每个客户端。
13.进一步的,步骤(1)包括如下内容:设置中央服务器的范围内有n个隐私客户端和m个公共客户端,隐私客户端i∈{1,2,
…
n}从公共组{1,2,
…
m}中随机选取ki个公共客户端组成一个新的组,所有客户端被分成n个组,隐私客户端和公共客户端利用自己的本地数据集训练其神经网络,并在中央服务器的协助下通过共享神经网络梯度进行联邦学习,实现客户端之间的协作。
14.进一步的,步骤(2)包括如下内容:
15.步骤2.1),客户端i利用其本地数据集di对其神经网络进行训练,该神经网络由三个子模型组成,分别是私有模型、共享模型和融合模型,私有模型从本地数据集中提取到特征共享模型提取到特征将经过桥接层与进行拼接之后输入融合模型完成特征融合得到融合特征三个子模型基于知识蒸馏进行相互学习完成本地训练,其中,每个子模型的损失由两部分组成,一个是预测的硬目标和ground-truth之间的交叉熵损失另一个是子模型之间软目标的kullback-leibler(kl)散度设计一个与时间无关的平衡权重α对进行缩放,该权重随着高斯过程从0慢慢上升到1,即:
[0016][0017]
其中,t和t
stop
分别是α的当前迭代和停止rum-up迭代次数,当整个训练过程达到预设的稳定时,α的值固定为1,私有模型、共享模型和融合模型的训练损失分别定义如下:
[0018][0019][0020][0021]
其中,和分别表示私有模型、共享模型和融合模型的硬目标,对应的是它们的软目标,其中,t为控制软
度的蒸馏温度,当t=1时,soft()为softmax函数;
[0022]
公式中的是私有模型和共享模型的加权集合软目标,将其定义为:
[0023][0024]
其中,β∈[0.5,1]是集合权衡因子,采用rum-up方法来随时间动态将(1-β)从0.5调整至1,其为和的加权集成特征;
[0025]
根据上述分析,将本地客户端i的总损失模型定义为:
[0026][0027]
将共享模型的梯度上传到中央服务器进行全局聚合,共享模型的梯度gi为:
[0028][0029]
其中,表示客户端i中共享模型关于本地数据集中样本b的模型参数,ni是di的样本数量,表示客户端i中共享模型关于本地数据集中样本b的训练损失;
[0030]
私有模型和融合模型仅在本地更新,具体过程如下:
[0031][0032][0033]
其中,ε是私有模型和融合模型的学习率,分别为客户端i中私有模型和融合模型的参数,分别为客户端i中私有模型和融合模型关于本地数据集中样本b的模型参数;
[0034]
步骤2.2),当所有客户端完成本地训练时,隐私客户端将执行梯度的组聚合,则隐私客户端i的梯度gi更新为:
[0035][0036]
其中,表示与隐私客户端i同组的公共客户端k的梯度;
[0037]
步骤2.3),将对上述聚合后的梯度gi进行压缩。
[0038]
进一步的,本地数据集采用mnist或cifar10的分类数据集。
[0039]
进一步的,步骤2.3)的具体方法如下:
[0040]
在隐私客户端i中,假设第j层梯度g
i,j
的维度为d
i,j
×
1,利用测量矩阵对梯度gi进行压缩,测量矩阵φi的生成方法如下;
[0041]
1)基于chebyshev映射生成长度为d
i,j
×
d的混沌序列该混沌序列第n+1个元素z
n+1
生成的表达式为:
[0042]zn+1
=cos(q
·
arccoszn)
[0043]
其中,q为chebyshev阶,zn为混沌序列第n个元素,q∈[3,5],初值z0∈[0,1],选择采样间隔d,并对上述混沌序列进行间隔采样,该序列设为第j层测量矩阵的第一行,的标准差为σ
i,j
;
[0044]
2)对步骤1)中生成的执行c
i,j-1次向左循环移位,以生成维度为c
i,j
的φ
i,j
,即:
[0045][0046]
其中,c
i,j
为常数且满足c
i,j
<<d
i,j
,对φ
i,j
进行归一化,即:
[0047][0048]
当a∈(0,1)为常数时,σ
i,j
×ci,j
为归一化系数,则,||φ
i,j
||2<1;
[0049]
3)重复上述两个步骤生成梯度gi每一层的测量矩阵φ
i,j
,最终组成测量矩阵φi,其中,φi满足受限等距性质;
[0050]
隐私客户端i基于φi执行梯度压缩,压缩后的梯度表示为:
[0051][0052]
其中,ai=φidcti为感知矩阵,dcti表示经过离散余弦变换(discrete cosine transform,dct)的稀疏基矩阵,g
′i为稀疏系数向量。
[0053]
进一步的,步骤(3)具体方法如下:
[0054]
中央服务器在接收到所有压缩后的梯度后进行重构,对重构梯度进行全局聚合并更新全局神经网络;
[0055]
重构目标是根据给定的压缩梯度和感知矩阵ai求解稀疏系数向量g
′i,重构是通过优化如下基于l2范数的最小化问题来实现的:
[0056][0057]
s.t.‖g
′i‖0≤si[0058]
其中,约束条件表示重构梯度中非零值的数量不超过稀疏度si,si的具体估计方法,定义为:
[0059][0060]
其中,bi表示gi中的元素个数,整个求解过程的迭代次数与稀疏度密切相关,即迭代次数为符号表示向下取整;
[0061]
在优化过程中,g
′i更新为:
[0062]
[0063]
其中,l表示第l次迭代l≤si,是一个非线性算子函数,它将中除了绝对值最大的个元素之外的元素都设置为零,定义为:
[0064][0065]
其中,λ表示为对中元素的绝对值进行排序后第个最大值;
[0066]
经过次迭代后得到最优稀疏系数向量则重构梯度为
[0067]
进行梯度的全局聚合并更新全局神经网络,全局神经网络的更新过程如下:
[0068][0069]
其中,ω
t
是全局神经网络的参数,η表示全局模型的学习率,总样本量为ni是di的样本数量。
[0070]
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
[0071]
1、本发明设计了一种基于特征融合互学习的个性化联邦学习方法,能够在non-iid数据集和异构模型下为客户端提供通信高效的服务,客户端可以在不同的训练阶段自适应地整合本地知识和全局知识,并巧妙地学习全局模型的特征提取和分类能力。同时,每个客户端提炼出一个小规模的共享模型参与聚合,这将有效缓解通信压力;
[0072]
2、本发明提出了一种更易于硬件实现的梯度压缩隐私保护方法。同时,结合混沌映射和循环矩阵的思想,设计了一种新颖的测量矩阵。更重要的是,可以通过以很少的代价频繁更改密钥来提高保护强度,可以防止密钥被攻击者破译。特别地,cs作为一种压缩技术,可以充分减少客户端与中央服务器之间的通信流量,且误差较小;
[0073]
3、本发明提出了一种基于稀疏性的自适应迭代硬阈值(sparsity-based adaptive iterative hard thresholding,saiht)算法,尽可能地减少梯度压缩产生的误差,它可以根据梯度的稀疏性自适应调整迭代次数,从而提高了重构性能。
附图说明
[0074]
图1是本发明设计的具有隐私保护的个性化联邦学习网络模型示意图;
[0075]
图2是本发明设计的通信高效的隐私保护个性化联邦学习框架示意图;
[0076]
图3是本发明的方法与其它方法在不同压缩比下的精度的比较图;
[0077]
图4是本发明saiht算法与其它重构算法的性能比较图;
[0078]
图5是本发明的方法与其它方法在不同攻击下标签重构精度的比较图;
[0079]
图6是本发明的方法与其它方法下诚实但好奇的中央服务器的推理效果比较图。
具体实施方式
[0080]
以下便结合实例及附图,对本发明的技术方案作进一步的详述,以使本发明技术
方案更易于理解、掌握。
[0081]
本发明公开了一种通信高效的隐私保护个性化联邦学习方法,包括如下步骤:
[0082]
(1)基于不同客户端对隐私保护需求的不同,设计具有隐私保护的个性化fl网络模型,其中包括隐私客户端、公共客户端和中央服务器;
[0083]
如图1所示,在一个中央服务器的范围内有10个客户端,其中n=5个隐私客户端和m=5个公共客户端。此外,隐私客户端i∈{1,2,
…
n}会从公共组{1,2,
…
m}中随机选取公共客户端组成一个新的组,因此所有客户端被分成5个组。每个客户端利用自己的本地数据集训练其神经网络,并在中央服务器的协助下通过共享神经网络梯度进行联邦学习,实现客户端之间的协作。
[0084]
(2)所有客户端通过各自的神经网络学习知识,并结合本地数据集学习到的知识与全局知识实现个性化学习。其中,客户端利用本地数据集对本地神经网络完成训练之后,隐私客户端通过将其神经网络梯度与公共客户端的神经网络梯度分组聚合后再进行梯度压缩,以此来降低通信开销并保护梯度信息,最后隐私客户端将压缩后的梯度上传到中央服务器进行全局聚合。
[0085]
具体步骤如下:
[0086]
步骤2.1)客户端i利用其本地数据集(例如,mnist和cifar10等分类数据集)di对其神经网络进行训练,该神经网络由三个子模型组成,分别是私有模型、共享模型和融合模型,首先,私有模型从本地数据集中提取到特征共享模型提取到特征接着,将经过桥接层与进行拼接之后输入融合模型完成特征融合得到融合特征最后,三个子模型基于知识蒸馏(knowledge distillation,kd)进行相互学习完成本地训练。其中,每个子模型的损失由两部分组成,一个是预测的硬目标和ground-truth之间的交叉熵损失另一个是子模型之间软目标的kullback-leibler(kl)散度为了平衡这两部分对训练的影响,设计了一个与时间无关的平衡权重α来对进行缩放,该权重随着高斯过程从0慢慢上升到1,即:
[0087][0088]
其中,t和t
stop
分别是α的当前迭代和停止rum-up迭代,当整个训练过程相对稳定时,α的值固定为1,私有模型、共享模型和融合模型的训练损失分别定义如下:
[0089][0090][0091][0092]
其中,和分别表示私有模型、共享模型和融合模型的硬目标,对应的是它们的软目标,其中t为控制软度的蒸馏温度,当t=1时,soft()为softmax函数;
[0093]
公式中的是私有模型和共享模型的加权集合软目标,将其定义为:
[0094][0095]
其中,β∈[0.5,1]是集合权衡因子,此处也采用rum-up方法来随时间动态将(1-β)从0.5调整至1,为和的加权集成特征。
[0096]
当α和β都固定时,即α=1,β=0.5时,私有模型和共享模型对融合模型具有相同的引导能力,但共享模型在初始阶段的性能较差,这可能会削弱融合模型的学习效果。同时,前期较大的kl值,会使融合模型偏离正确的学习方向。因此,α=1,β=0.5的学习结果是最差的。当α或β的值随着训练时间动态调整时,知识可以在模型之间合理迁移,模型的性能可以得到不同程度的提升。而且,从嵌入图中可以看出,该方法在训练过程中是最稳定的。当t=1时,soft()为softmax函数。温度在一定范围内升高会软化标签,以获得更多的暗知识,并扩大训练过程中的探索范围,因此t=3的准确率高于t=1。但是当温度过高时,会出现过度软化,使得模型无法清晰识别正确的知识,扰乱学习方向。因此,在后续的实验中,将t设为3。
[0097]
根据上述分析,将本地客户端i的总损失模型定义为:
[0098][0099]
将共享模型的梯度上传到中央服务器进行全局聚合,共享模型的梯度gi为:
[0100][0101]
其中,表示客户端i中共享模型关于本地数据集中样本b的模型参数,ni是di的样本数量,表示客户端i中共享模型关于本地数据集中样本b的训练损失;
[0102]
私有模型和融合模型仅在本地更新,具体过程如下:
[0103][0104][0105]
其中,ε是私有模型和融合模型的学习率,分别为客户端i中私有模型和融合模型的参数,分别为客户端i中私有模型和融合模型关于本地数据集中样本b的模型参数。
[0106]
步骤2.2)当所有客户端完成本地训练时,隐私客户端将执行梯度的组聚合,则隐私客户端i的梯度gi更新为:
[0107][0108]
其中,表示与隐私客户端i同组的公共客户端k的梯度;
[0109]
步骤2.3)为进一步降低通信开销并抵抗推理攻击,将对上述聚合后的梯度gi进行
压缩。
[0110]
首先,需要对gi进行稀疏化,如下所示:
[0111]gi
←
dct
ig′i,
[0112]
其中,dcti表示经过dct的稀疏基矩阵。
[0113]
接着,采用逐层cs来降低压缩和重构的计算难度。在隐私客户端i中,假设第j层梯度g
i,j
的维度为d
i,j
×
1,利用测量矩阵对梯度gi进行压缩,测量矩阵φi的生成方法如下:
[0114]
1)基于chebyshev映射生成长度为d
i,j
×
d的混沌序列[z0,zd,
…
,z
(di,j-1)
×d],该混沌序列第n+1个元素z
n+1
生成的表达式为:
[0115]zn+1
=cos(q
·
arccoszn)
[0116]
其中,q为chebyshev阶,zn为混沌序列第n个元素,q∈[3,5],初值z0∈[0,1],选择合适的采样间隔d,并对上述混沌序列进行间隔采样,该序列设为第j层测量矩阵的第一行,的标准差为σ
i,j
。
[0117]
2)对步骤1)中生成的执行c
i,j-1次向左循环移位,以生成维度为c
i,j
的φ
i,j
,即:
[0118][0119]
其中c
i,j
为常数且满足c
i,j
<<d
i,j
,为了便于重构,对φ
i,j
进行归一化,即:
[0120][0121]
当a∈(0,1)为常数时,σ
i,j
×ci,j
为归一化系数,则,||φ
i,j
||2<1。
[0122]
3)重复上述两个步骤,得到梯度gi的测量矩阵φi,其中φi满足受限等距性质。
[0123]
最后,隐私客户端i基于φi执行梯度压缩,压缩后的梯度表示为
[0124][0125]
其中,ai=φidcti为感知矩阵,g
′i为稀疏系数向量。
[0126]
从上述混沌序列生成表达式可以看出,zn的取值范围是[-1,1],这可能会改变梯度的正负,即可以迷惑发起推理攻击的攻击者。因此,测量矩阵φi可以作为密钥对梯度起到加密的效果。
[0127]
在训练过程中,假设总迭代次数i=500,蒸馏温度t=3,停止的rum-up迭代次数t
stop
=200。在模型中选择优化器sgd,本地和全局的学习率都被设置为ε=η=0.001。基于经验,设置chebyshev阶数q=3.99,采样间隔d=5,这将实现良好的混沌状态。此外,计算所有客户端融合模型的平均精度,作为方案中最终模型精度的评估对象。
[0128]
(3)中央服务器,在收到客户端发来的压缩梯度后,进行解压。接下来,它将对重构的梯度进行全局聚合并更新全局神经网络,最后将全局神经网络的参数分发给每个客户端。
[0129]
重构目标是根据给定的压缩梯度和感知矩阵ai求解稀疏系数向量g
′i,重构是通过优化如下基于l2范数的最小化问题来实现的:
[0130][0131]
s.t.‖g
′i‖0≤si[0132]
其中,约束条件表示重构梯度中非零值的数量不超过稀疏度si,si的具体估计方法,定义为
[0133][0134]
其中,bi表示gi中的元素个数。特别地,整个求解过程的迭代次数与稀疏度密切相关,即迭代次数为符号表示向下取整。
[0135]
在优化过程中,g
′i更新为:
[0136][0137]
其中,l表示第l次迭代l≤si,是一个非线性算子函数,它将中除了绝对值最大的个元素之外的元素都设置为零,定义为:
[0138][0139]
其中,λ表示为对中元素的绝对值进行排序后第个最大值;
[0140]
经过次迭代后得到最优稀疏系数向量则重构梯度为
[0141]
最后,进行梯度的全局聚合并更新全局神经网络,全局神经网络的更新过程如下:
[0142][0143]
其中,ω
t
是全局神经网络的参数,η表示全局模型的学习率,总样本量为
[0144]
最后,本发明方法的具体实施验证了本发明在通信成本和隐私保护方面的优势,即能更好的满足客户端参与联邦学习的性能和隐私保护需求。在图3中描述了不同压缩比下不同方案的精度。随着压缩比从0增加到0.8,三种方案的模型精度都有所降低,但即使压缩比为0.8,精度最多也只降低了3.76%。这是因为模型中的大部分梯度都接近于零,尤其是在训练的稳定阶段。“sparsification”方案对梯度进行粗粒度的稀疏化处理而不进行重构,会忽略部分重要的梯度,因此精度最低。值得注意的是,即使压缩比高达0.8,本发明方案在准确率上也只牺牲了2.57%。因此,本发明方案以高模型精度实现了通信流量的大幅降低。
[0145]
此外,在图4中,比较了saiht算法与传统iht算法在使用高斯测量矩阵和混沌测量矩阵时的性能。从图中的4条曲线可以看出,当测量矩阵相同时,saiht算法取得了比iht更好的梯度重构效果,获得了更好的模型精度。同时,基于归一化的测量矩阵的两种重构算法(即“saitht-c”和“iht-c”)都优于基于高斯测量矩阵的算法(即“saiht-g”和“iht-g”)。此外,与随机的高斯测量矩阵不同,saiht算法中混沌技术和循环矩阵的结合只能通过改变初始值和混沌参数来实现密钥的频繁替换。因此,它具有高效的隐私保护与轻量级通信。
[0146]
为了验证“ppgc”的隐私保护性能,在图5-6中展示了攻击者对标签和训练图像的推理结果。本发明模拟了两种威胁模型梯度的代表性攻击,即梯度反转(gradient inversion,gi)和梯度深度泄漏(deep leakage from gradients,dlg),并分别对mnsit和cifar 10进行了gi和dlg攻击。因此图5中的结果是模拟100次后的平均值,它显示了不同攻击下标签的重构精度。本发明将攻击者分为外部攻击者和诚实但好奇中央服务器,并假设提前知道数据集的图像类别,但不清楚特定客户端的详细数据。比较攻击者在三种方法中成功推断图像标签的概率,其中“ga”和“ga w/o”的区别在于是否进行了分组聚合。因为外部攻击者和“sparsification”的诚实但好奇的中央服务器得到的信息相同,所以推断标签的概率是相等的。从图5中可以明显看出,“sparsification”的防御能力远低于的防御方法,其对标签的重构精度大约是本发明方案的2.5倍。而且,从“ga”和“ga w/o”的对比中,可以发现,“ga”的重构精度低于“ga w/o”。因此,梯度的分组聚合可以保护隐私客户端的梯度,这在图5的第二幅图中得到了有力证实。
[0147]
事实上,最坏的情况下,攻击者很难事先知道数据集的图像类别。为了更直观地展示本发明方案对客户端训练数据的保护效果,在图6中展示了最可能对客户端数据进行推断的诚实但好奇的中央服务器在不同防御方法下的可视化推理效果。图6(a)中的原始图像是一辆卡车(标记为9),通过dlg的迭代推理,中央服务器可以轻松地逐渐推断出原始图像,但在“稀疏化”和“ppgc”的防御下,卡车图像无法用肉眼识别。类似地,图6(b)展示了中央服务器使用gi对三张mnist图像(数字6、7、4)的推理效果,提出的“ppgc”在视觉上也取得了更好的保护效果,但在“sparsification”的防御下,可以大致恢复真实标签。
[0148]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明。
技术特征:
1.一种通信高效的隐私保护个性化联邦学习方法,其特征在于,该方法包括如下步骤:(1)基于不同客户端对隐私保护需求的不同,设计具有隐私保护的个性化联邦学习网络模型,该模型由隐私客户端、公共客户端和中央服务器组成;(2)所有客户端通过各自的神经网络学习知识,并结合本地数据集学习到的知识与全局知识实现个性化学习,其中,客户端利用本地数据集对本地神经网络完成训练之后,隐私客户端通过将其神经网络梯度与公共客户端的神经网络梯度分组聚合后再进行梯度压缩,以此降低通信开销并保护梯度信息,隐私客户端将压缩后的梯度上传到中央服务器进行全局聚合;(3)中央服务器对收到客户端上传的压缩梯度进行解压重构,对重构的梯度再进行全局聚合,并更新全局神经网络,最后将全局神经网络的模型参数分发给每个客户端。2.根据权利要求1所述的一种通信高效的隐私保护个性化联邦学习方法,其特征在于,步骤(1)包括如下内容:设置中央服务器的范围内有n个隐私客户端和m个公共客户端,隐私客户端i∈{1,2,
…
n}从公共组{1,2,
…
m}中随机选取k
i
个公共客户端组成一个新的组,所有客户端被分成n个组,隐私客户端和公共客户端利用自己的本地数据集训练其神经网络,并在中央服务器的协助下通过共享神经网络梯度进行联邦学习,实现客户端之间的协作。3.根据权利要求2所述的一种通信高效的隐私保护个性化联邦学习方法,其特征在于,步骤(2)包括如下内容:步骤2.1),客户端i利用其本地数据集d
i
对其神经网络进行训练,该神经网络由三个子模型组成,分别是私有模型、共享模型和融合模型,私有模型从本地数据集中提取到特征共享模型提取到特征将经过桥接层与进行拼接之后输入融合模型完成特征融合得到融合特征三个子模型基于知识蒸馏进行相互学习完成本地训练,其中,每个子模型的损失由两部分组成,一个是预测的硬目标和ground-truth之间的交叉熵损失另一个是子模型之间软目标的kullback-leibler(kl)散度设计一个与时间无关的平衡权重α对进行缩放,该权重随着高斯过程从0慢慢上升到1,即:其中,t和t
stop
分别是α的当前迭代和停止rum-up迭代次数,当整个训练过程达到预设的稳定时,α的值固定为1,私有模型、共享模型和融合模型的训练损失分别定义如下:下:下:其中,和分别表示私有模型、共享模型和融合模型的硬目标,对应的是它们的软目标,其中,t为控制软
度的蒸馏温度,当t=1时,soft()为softmax函数;公式中的是私有模型和共享模型的加权集合软目标,将其定义为:其中,β∈[0.5,1]是集合权衡因子,采用rum-up方法来随时间动态将(1-β)从0.5调整至1,其为和的加权集成特征;根据上述分析,将本地客户端i的总损失模型定义为:将共享模型的梯度上传到中央服务器进行全局聚合,共享模型的梯度g
i
为:其中,表示客户端i中共享模型关于本地数据集中样本b的模型参数,n
i
是d
i
的样本数量,表示客户端i中共享模型关于本地数据集中样本b的训练损失;私有模型和融合模型仅在本地更新,具体过程如下:私有模型和融合模型仅在本地更新,具体过程如下:其中,ε是私有模型和融合模型的学习率,分别为客户端i中私有模型和融合模型的参数,分别为客户端i中私有模型和融合模型关于本地数据集中样本b的模型参数;步骤2.2),当所有客户端完成本地训练时,隐私客户端将执行梯度的组聚合,则隐私客户端i的梯度g
i
更新为:其中,表示与隐私客户端i同组的公共客户端k的梯度;步骤2.3),将对上述聚合后的梯度g
i
进行压缩。4.根据权利要求3所述的一种通信高效的隐私保护个性化联邦学习方法,其特征在于,本地数据集采用mnist或cifar10的分类数据集。5.根据权利要求3或4所述的一种通信高效的隐私保护个性化联邦学习方法,其特征在于,步骤2.3)的具体方法如下:在隐私客户端i中,假设第j层梯度g
i,j
的维度为d
i,j
×
1,利用测量矩阵对梯度g
i
进行压缩,测量矩阵φ
i
的生成方法如下;1)基于chebyshev映射生成长度为d
i,j
×
d的混沌序列该混沌序列
第n+1个元素z
n+1
生成的表达式为:z
n+1
=cos(q
·
arccos z
n
)其中,q为chebyshev阶,z
n
为混沌序列第n个元素,q∈[3,5],初值z0∈[0,1],选择采样间隔d,并对上述混沌序列进行间隔采样,该序列设为第j层测量矩阵的第一行,的标准差为σ
i,j
;2)对步骤1)中生成的执行c
i,j-1次向左循环移位,以生成维度为c
i,j
的φ
i,j
,即:其中,c
i,j
为常数且满足c
i,j
<<d
i,j
,对φ
i,j
进行归一化,即:当a∈(0,1)为常数时,σ
i,j
×
c
i,j
为归一化系数,则,||φ
i,j
||2<1;3)重复上述两个步骤生成梯度g
i
每一层的测量矩阵φ
i,j
,最终组成测量矩阵φ
i
,其中,φ
i
满足受限等距性质;隐私客户端i基于φ
i
执行梯度压缩,压缩后的梯度表示为:其中,a
i
=φ
i
dct
i
为感知矩阵,dct
i
表示经过离散余弦变换(discrete cosine transform,dct)的稀疏基矩阵,g
′
i
为稀疏系数向量。6.根据权利要求1所述的一种通信高效的隐私保护个性化联邦学习方法,其特征在于,步骤(3)具体方法如下:中央服务器在接收到所有压缩后的梯度后进行重构,对重构梯度进行全局聚合并更新全局神经网络;重构目标是根据给定的压缩梯度和感知矩阵a
i
求解稀疏系数向量g
′
i
,重构是通过优化如下基于l2范数的最小化问题来实现的:s.t.||g
′
i
||0≤s
i
其中,约束条件表示重构梯度中非零值的数量不超过稀疏度s
i
,s
i
的具体估计方法,定义为:其中,b
i
表示g
i
中的元素个数,整个求解过程的迭代次数与稀疏度密切相关,即迭代次数为符号表示向下取整;在优化过程中,g
′
i
更新为:
其中,l表示第1次迭代l≤s
i
,是一个非线性算子函数,它将中除了绝对值最大的个元素之外的元素都设置为零,定义为:其中,λ表示为对中元素的绝对值进行排序后第个最大值;经过次迭代后得到最优稀疏系数向量则重构梯度为进行梯度的全局聚合并更新全局神经网络,全局神经网络的更新过程如下:其中,ω
t
是全局神经网络的参数,η表示全局模型的学习率,总样本量为n
i
是d
i
的样本数量。
技术总结
本发明公开了一种通信高效的隐私保护个性化联邦学习方法。本发明研究了一种基于特征融合相互学习的个性化联邦学习,可以通过在客户端对其共享模型、私有模型和融合模型进行交互训练来实现通信高效的个性化学习。具体地,只有共享模型与全局模型共享以减少通信成本,而私有模型可进行个性化设计,融合模型可以在不同阶段自适应地融合本地知识和全局知识。其次,为了进一步降低通信成本并增强梯度的隐私性,本发明设计了一种基于梯度压缩的隐私保护方法。该方法通过构建一种混沌加密循环测量矩阵,可以很好地实现隐私保护和轻量级压缩。此外,本发明还提出了一种基于稀疏性的自适应迭代硬阈值算法,以提高灵活性和重构性能。以提高灵活性和重构性能。以提高灵活性和重构性能。
技术研发人员:陈思光 王倩 曾文骏 吴蒙
受保护的技术使用者:南京邮电大学
技术研发日:2023.06.28
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
