一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质

未命名 10-09 阅读：137 评论：0

1.本发明涉及移动边缘计算、强化学习和联邦学习技术领域，具体是一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质。

背景技术：

2.近年来，随着计算机视觉、自然语言处理、推荐系统等众多新技术的不断涌现，人工智能进入了蓬勃发展的时期。然而，由于数据孤岛和绿色通信等方面的问题，传统上以集中所有数据在一台设备上单独训练人工智能模型的方式，很难处理训练分布在各个移动设备上的数据。
3.移动边缘计算是一种具有潜力的新兴技术，它可以在本地处理数据，然后将计算任务卸载到网络边缘，通过在移动边缘计算网络中部署联邦学习框架，可以高效地以去中心化的方式训练分布在各个设备中的数据得到融合模型。
4.联邦学习被提出来构建基于多方数据的分布式机器学习模型。通常，联邦学习系统包含至少一个参数服务器和许多工作设备。每个工作设备和参数服务器分别负责在本地更新模型和聚合模型。具体来说，每个工作设备在本地训练模型，然后将模型上传到参数服务器，参数服务器将接收到的模型根据某种策略加权进行聚合，然后将聚合后的模型发送给每个工作设备。每个工作设备和参数服务器之间传输的内容只包含模型参数，没有具体的数据，这样可以以去中心化的方式训练模型，这大大提高了训练效率并保护了所有设备的隐私。
5.然而，移动边缘计算网络中具有许多不同计算资源的设备，并且这些设备通常具有很大的不确定性，例如离线、断电、网络阻塞等情况，不同设备中的数据量分布是不均的，并且会随时间变化，不同设备的计算能力和续航时间也是不同的，这些都会导致模型收敛速度慢，训练能量消耗大。

技术实现要素：

6.本发明的目的是提供一种移动边缘计算网络下基于强化学习的联邦学习方法，包括以下步骤：
7.1)确定当前加入联邦学习的用户设备；
8.所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；
9.2)每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数wi(k)，并通过基站上传到边缘服务器中；
10.3)所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断，若存在不满足收敛条件的机器学习模型参数，则进入步骤4)，若所有机器学习模型参数均满足收敛条件，则机器学习模型训练完成；
11.4)所述边缘服务器选出n
t
个用户设备作为待聚合设备；
12.根据待聚合设备的本地数据量，所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备；
13.5)所述加入联邦学习的用户设备将机器学习模型参数聚合值作为新的机器学习模型参数，更新机器学习模型，令迭代次数k＝k+1，并返回步骤2)，直至获得训练完成的机器学习模型。
14.进一步，所述机器学习模型参数wi(k)如下所示：
[0015][0016]
式中，wi(k-1)为第k-1次迭代更新的机器学习模型参数；为第k-1次迭代更新的机器学习模型参数的一阶梯度；α为学习率。
[0017]
进一步，机器学习模型参数聚合值如下所示：
[0018][0019]
式中，|di|为第i个用户设备的本地数据量；wi(k
t,i
)为第i个用户设备的机器学习模型参数；x
t,i
∈{0,1}表示设备i是否参与第t轮聚合。n为用户设备数量。
[0020]
进一步，基于动态异步联邦聚合算法，所述边缘服务器按照接收到机器学习模型参数的时间顺序，选出n
t
个用户设备作为待聚合设备。
[0021]
进一步，待聚合设备数量n
t
通过动态异步联邦聚合算法确定。
[0022]
进一步，确定待聚合设备数量n
t
的步骤包括：
[0023]
s1)将边缘服务器作为智能体，所述智能体获取来自用户设备的反馈信息，从而建立感知状态t为聚合轮数；δf
t
为相邻两次聚合的全局损失函数差值；
[0024]
其中，完成机器学习模型参数聚合所需的时间e
t
、完成机器学习模型参数聚合所需的能量h
t
、全局损失函数值f
t
如下所示：
[0025][0026][0027][0028]
式中，为第i个用户设备对应的损失函数值；
[0029]
第i个用户设备更新学习模型参数wi(k)所需要的时间消耗的能量如下所示：
[0030]
[0031][0032]
式中，κ、c、fi分别为设备芯片架构的有效开关电容、单条数据训练所需要的cpu轮数、第i个用户设备上每批次数据量和设备cup频率。
[0033]
第i个用户设备将机器学习模型参数wi(k)上传至边缘服务器所需要的时间消耗的能量如下所示：
[0034][0035][0036]
式中，s、bi、pi、gi、n0分别为模型尺寸、第i个用户设备占用的带宽、第i个用户设备的平均传输功率、第i个用户设备与边缘服务器的信道增益、高斯噪声的功率谱密度。
[0037]
s2)边缘服务器将感知状态s
t
作为输入数据输入至预存储的深度神经网络中，得到具有最大奖励值r
t
的动作a
t
，将动作a
t
作为待聚合设备数量。
[0038]
进一步，所述深度神经网络的损失函数loss(θ)如下所示：
[0039][0040]
式中，为执行动作a的价值；为期望；
[0041]
目标价值yj如下所示：
[0042][0043]
式中，rj为执行动作aj的奖励；s
j+1
为感知状态；γ为衰减因子；θ为深度神经网络参数；a
′
为s
j+1
的动作空间；
[0044]
进一步，所述深度神经网络的损失函数梯度如下所示：
[0045][0046]
式中，为奖励梯度。
[0047]
应用权利要求1-8任一项所述移动边缘计算网络下基于强化学习的联邦学习方法的系统，所述系统用于完成机器学习模型的训练，得到满足预设要求的机器学习模型；
[0048]
所述系统包括边缘服务器和若干用户设备；
[0049]
工作时，所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；
[0050]
每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数wi(k)，并通过基站上传到边缘服务器中；
[0051]
所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断，若所有机器学习模型参数均满足收敛条件，则机器学习模型训练完成；
[0052]
若存在不满足收敛条件的机器学习模型参数，则选出n
t
个用户设备作为待聚合设备，并对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值
并通过基站下载至加入联邦学习的用户设备；
[0053]
所述用户设备将机器学习模型参数聚合值作为新的机器学习模型参数，更新机器学习模型，继续利用本地数据对机器学习模型进行训练。
[0054]
一种计算机可读存储介质，其上存储有计算机程序；
[0055]
所述计算机程序被调用时，执行上述方法的步骤。
[0056]
本发明的技术效果是毋庸置疑的，本发明内容是提供一种移动边缘计算网络下基于强化学习的联邦学习方法，具有以下有益效果：
[0057]
在优化联邦聚合策略时考虑了网络的动态性和不确定性，使得系统能够在多数网络环境中正常稳定运行。
[0058]
进一步的，本发明综合考虑联邦学习过程中的能量消耗和任务模型的损失函数值来优化联邦聚合策略，在保证任务模型精度的同时减少能量的消耗。
[0059]
更进一步的，本发明所使用的联邦聚合策略基于强化学习算法，可以满足不同网络和用户的需求，并在使用中可以同时对算法网络优化，使系统取得更好的效果。
附图说明
[0060]
图1为系统模型图；
[0061]
图2为强化学习的结构图；
[0062]
图3为基于强化学习的联邦学习流程图；
[0063]
图4为强化学习算法流程图。
具体实施方式
[0064]
下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。
[0065]
实施例1：
[0066]
参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，包括以下步骤：
[0067]
1)确定当前加入联邦学习的用户设备；
[0068]
所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；
[0069]
2)每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数wi(k)，并通过基站上传到边缘服务器中；
[0070]
3)所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断，若存在不满足收敛条件的机器学习模型参数，则进入步骤4)，若所有机器学习模型参数均满足收敛条件，则机器学习模型训练完成；
[0071]
4)所述边缘服务器选出n
t
个用户设备作为待聚合设备；
[0072]
根据待聚合设备的本地数据量，所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备；
[0073]
5)所述加入联邦学习的用户设备将机器学习模型参数聚合值作为新的机器学习模型参数，更新机器学习模型，令迭代次数k＝k+1，并返回步骤2)，直至获得训练完成的机器学习模型。
[0074]
实施例2：
[0075]
参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1，进一步的，所述机器学习模型参数wi(k)如下所示：
[0076][0077]
式中，wi(k-1)为第k-1次迭代更新的机器学习模型参数；为第k-1次迭代更新的机器学习模型参数的一阶梯度；α为学习率。
[0078]
实施例3：
[0079]
参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-2任一项，进一步的，机器学习模型参数聚合值如下所示：
[0080][0081]
式中，|di|为第i个用户设备的本地数据量；wi(k
t,i
)为第i个用户设备的机器学习模型参数；x
t,i
∈{0,1}表示设备i是否参与第t轮聚合。n为用户设备数量。
[0082]
实施例4：
[0083]
参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-3任一项，进一步的，基于动态异步联邦聚合算法，所述边缘服务器按照接收到机器学习模型参数的时间顺序，选出n
t
个用户设备作为待聚合设备。
[0084]
实施例5：
[0085]
参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-4任一项，进一步的，待聚合设备数量n
t
通过动态异步联邦聚合算法确定。
[0086]
实施例6：
[0087]
参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-5任一项，进一步的，确定待聚合设备数量n
t
的步骤包括：
[0088]
s1)将边缘服务器作为智能体，所述智能体获取来自用户设备的反馈信息，从而建立感知状态t为聚合轮数；δf
t
为相邻两次聚合的全局损失函数差值；
[0089]
其中，完成机器学习模型参数聚合所需的时间e
t
、完成机器学习模型参数聚合所需的能量h
t
、全局损失函数值f
t
如下所示：
[0090][0091][0092]
[0093]
式中，为第i个用户设备对应的损失函数值；
[0094]
第i个用户设备更新学习模型参数wi(k)所需要的时间消耗的能量如下所示：
[0095][0096][0097]
式中，κ、c、fi分别为设备芯片架构的有效开关电容、单条数据训练所需要的cpu轮数、第i个用户设备上每批次数据量和设备cup频率。
[0098]
第i个用户设备将机器学习模型参数wi(k)上传至边缘服务器所需要的时间消耗的能量如下所示：
[0099][0100][0101]
式中，s、bi、pi、gi、n0分别为模型尺寸、第i个用户设备占用的带宽、第i个用户设备的平均传输功率、第i个用户设备与边缘服务器的信道增益、高斯噪声的功率谱密度。
[0102]
s2)边缘服务器将感知状态s
t
作为输入数据输入至预存储的深度神经网络中，得到具有最大奖励值r
t
的动作a
t
，将动作a
t
作为待聚合设备数量。
[0103]
实施例7：
[0104]
参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-6任一项，进一步的，所述深度神经网络的损失函数loss(θ)如下所示：
[0105][0106]
式中，为执行动作a的价值；为期望；
[0107]
目标价值yj如下所示：
[0108][0109]
式中，rj为执行动作aj的奖励；s
j+1
为感知状态；γ为衰减因子；θ为深度神经网络参数；a
′
为s
j+1
的动作空间；
[0110]
实施例8：
[0111]
参见图1至图4，一种移动边缘计算网络下基于强化学习的联邦学习方法，技术内容同实施例1-7任一项，进一步的，所述深度神经网络的损失函数梯度如下所示：
[0112]
[0113]
式中，为奖励梯度。
[0114]
实施例9：
[0115]
应用实施例1-8任一项所述移动边缘计算网络下基于强化学习的联邦学习方法的系统，所述系统用于完成机器学习模型的训练，得到满足预设要求的机器学习模型；
[0116]
所述系统包括边缘服务器和若干用户设备；
[0117]
工作时，所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；
[0118]
每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数wi(k)，并通过基站上传到边缘服务器中；
[0119]
所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断，若所有机器学习模型参数均满足收敛条件，则机器学习模型训练完成；
[0120]
若存在不满足收敛条件的机器学习模型参数，则选出n
t
个用户设备作为待聚合设备，并对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备；
[0121]
所述用户设备将机器学习模型参数聚合值作为新的机器学习模型参数，更新机器学习模型，继续利用本地数据对机器学习模型进行训练。
[0122]
实施例10：
[0123]
一种计算机可读存储介质，其上存储有计算机程序；
[0124]
所述计算机程序被调用时，执行实施例1-8任一项所述方法的步骤。
[0125]
实施例11：
[0126]
一种移动边缘计算网络下基于强化学习的联邦学习方法，主要包括以下步骤：
[0127]
1)当前时刻t,开始进行联邦学习，从网络中读取边缘基站信号范围内n个要进行联邦学习的设备。
[0128]
2)加入联邦学习的每个设备在本地训练更新模型参数wi(k)，具体的更新规则如下：
[0129][0130]
更新学习模型参数wi(k)所需要的时间可以通过cpu的周期来计算：
[0131][0132]
同样计算出每个设备消耗的能量：
[0133][0134]
随后将更新好的参数通过基站上传到边缘服务器中，根据信息传输模型计算出上传消耗的时间和能量：
[0135]
[0136][0137]
3)根据动态异步联邦聚合算法，按收到各个设备上传模型参数的顺序，选择n
t
个设备上传的参数在边缘服务器中对这些模型参数根据对应设备的数据量|di|进行加权聚和:
[0138][0139]
然后边缘服务器将更新后的模型参数发送给每个加入联邦学习的设备。同时得到全局损失函数值：
[0140][0141]
同时根据每轮参与聚合的具体设备可以计算出每一轮联邦聚合所需要的时间和能量：
[0142][0143][0144]
4)在进行模型聚合时，基于强化学习算法dqn训练得到确定n
t
的策略，确定n
t
具体的值。
[0145]
4.1)将边缘服务器作为一个智能体，设备所处的移动边缘计算网络作为环境。智能体从来自设备反馈的消息中感知状态其中包括聚合次数，能量和时间的消耗以及模型的损失函数值，然后输出相应状态下每个动作的值，即本轮参与联邦聚合的设备数量，选择一个最大价值的动作a
t
来执行并获得奖励r
t
。在状态s
t
下执行a
t
后的实际价值为
[0146]
4.2)使用一个深度神经网络来制定一个策略π，当输入当前状态时，输出具有最大价值的动作。当选择执行这个动作后，智能体会获得奖励：
[0147][0148]
通过最大化奖励来减小联邦学习的能量消耗。
[0149]
4.3)智能体通过策略π随机在对应状态下选择动作，返回奖励。完成本轮聚合后，进入下一轮聚合，重复该步骤。
[0150]
4.4)智能体收集到一定经验后，对智能体的策略网络进行训练：
[0151][0152]
其中目标价值是通过价值函数进行更新得来的：
[0153][0154]
智能体按照随街梯度下降算法来更新网络的参数：
[0155][0156]
5)根据上述强化学习的算法，动态更新联邦聚合策略，并采用该策略进行联邦聚合。
[0157]
5.1)在边缘服务器中，当设备上传聚合的请求时，智能体通过上述训练更新的网络，通过预测价值函数来选择参与聚合的设备数量执行联邦聚合。
[0158]
5.2)在执行动作后，更新当前联邦学习环境。
[0159]
5.3)将边缘服务器将聚合后的参数广播给每个参与联邦学习的设备。

技术特征：
1.一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，包括以下步骤：1)确定当前加入联邦学习的所述用户设备。所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；2)每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数w
i
(k)，并通过基站上传到边缘服务器中；3)所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断，若存在不满足收敛条件的机器学习模型参数，则进入步骤4)，若所有机器学习模型参数均满足收敛条件，则机器学习模型训练完成；4)所述边缘服务器选出n
t
个用户设备作为待聚合设备；根据待聚合设备的本地数据量，所述边缘服务器对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备；5)所述加入联邦学习的用户设备将机器学习模型参数聚合值作为新的机器学习模型参数，更新机器学习模型，令迭代次数k＝k+1，并返回步骤2)，直至获得训练完成的机器学习模型。2.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，所述机器学习模型参数w
i
(k)如下所示：式中，w
i
(k-1)为第k-1次迭代更新的机器学习模型参数；为第k-1次迭代更新的机器学习模型参数的一阶梯度；α为学习率。3.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，机器学习模型参数聚合值如下所示：式中，|d
i
|为第i个用户设备的本地数据量；w
i
(k
t,i
)为第i个用户设备的机器学习模型参数；x
t,i
∈{0,1}表示设备i是否参与第t轮聚合。n为用户设备数量。4.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，基于动态异步联邦聚合算法，所述边缘服务器按照接收到机器学习模型参数的时间顺序，选出n
t
个用户设备作为待聚合设备。5.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，待聚合设备数量n
t
通过动态异步联邦聚合算法确定。6.根据权利要求1所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，确定待聚合设备数量n
t
的步骤包括：s1)将边缘服务器作为智能体，所述智能体获取来自用户设备的反馈信息，从而建立感知状态t为聚合轮数；δf
t
为相邻两次聚合的全局损失函数差
值；为能量聚合值；其中，完成机器学习模型参数聚合所需的时间e
t
、完成机器学习模型参数聚合所需的能量h
t
、全局损失函数值f
t
如下所示：如下所示：如下所示：式中，为第i个用户设备对应的损失函数值；第i个用户设备更新学习模型参数w
i
(k)所需要的时间消耗的能量如下所示：示：式中，κ、c、f
i
分别为设备芯片架构的有效开关电容、单条数据训练所需要的cpu轮数、第i个用户设备上每批次数据量和设备cup频率。第i个用户设备将机器学习模型参数w
i
(k)上传至边缘服务器所需要的时间消耗的能量如下所示：如下所示：式中，s、b
i
、p
i
、g
i
、n0分别为模型尺寸、第i个用户设备占用的带宽、第i个用户设备的平均传输功率、第i个用户设备与边缘服务器的信道增益、高斯噪声的功率谱密度。s2)边缘服务器将感知状态s
t
作为输入数据输入至预存储的深度神经网络中，得到具有最大奖励值r
t
的动作a
t
，将动作a
t
作为待聚合设备数量。7.根据权利要求6所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，所述深度神经网络的损失函数loss(θ)如下所示：式中，q(s
j
,a；θ)为执行动作a的价值；为期望；目标价值y
j
如下所示：式中，r
j
为执行动作aj的奖励；s
j+1
为感知状态；γ为衰减因子；θ为深度神经网络参数；
a
′
为s
j+1
的动作空间。8.根据权利要求6所述的一种移动边缘计算网络下基于强化学习的联邦学习方法，其特征在于，所述深度神经网络的损失函数梯度如下所示：式中，为奖励梯度。为执行动作a的价值。9.应用权利要求1-8任一项所述移动边缘计算网络下基于强化学习的联邦学习方法的系统，其特征在于，所述系统用于完成机器学习模型的训练，得到满足预设要求的机器学习模型；所述系统包括边缘服务器和若干用户设备；工作时，所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数w
i
(k)，并通过基站上传到边缘服务器中；所述边缘服务器对接收到机器学习模型参数和本地预设收敛条件进行判断，若所有机器学习模型参数均满足收敛条件，则机器学习模型训练完成；若存在不满足收敛条件的机器学习模型参数，则选出n
t
个用户设备作为待聚合设备，并对所有待聚合设备的机器学习模型参数进行聚合，得到机器学习模型参数聚合值并通过基站下载至加入联邦学习的用户设备；所述用户设备将机器学习模型参数聚合值作为新的机器学习模型参数，更新机器学习模型，继续利用本地数据对机器学习模型进行训练。10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；所述计算机程序被调用时，执行权利要求1-8任一项所述方法的步骤。

技术总结
本发明公开一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质，方法步骤为：所述边缘服务器通过基站将待训练的机器学习模型下载至用户设备；每个用户设备利用本地数据对机器学习模型进行训练，获得机器学习模型参数w

技术研发人员：李秀华徐国增李辉郝金隆程路熙蔡春茂范琪琳杨正益
受保护的技术使用者：重庆大学
技术研发日：2023.05.22
技术公布日：2023/10/8

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：基于国产处理器的四路服务器主板和服务器的制作方法 下一篇：一种高附着力聚天门冬氨酸酯树脂及其制备方法和应用与流程

一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表