基于深度强化学习的多任务联邦边缘学习激励方法及系统
未命名
07-23
阅读:106
评论:0
1.本发明属于无线协作通信技术领域,涉及一种多任务联邦边缘学习激励方法、系统及电子设备,具体涉及一种基于多智能体深度强化学习的多任务联邦边缘学习的斯塔克尔伯格博弈激励方法、系统及电子设备。
背景技术:
2.随着物联网的繁荣,网络边缘的数据数量呈指数级增长,这使得广泛的基于学习的智能应用成为可能。由于长距离传输和隐私泄露,将边缘设备的海量数据聚合到中央服务器进行模型训练具有挑战性。
3.联邦边缘学习是一种新兴的分布式学习范式,它可以让多个设备贡献各自的本地训练模型,然后在中央服务器上联合聚合一个全局模型。无需设备传输的私人培训数据,在保证边缘设备数据私密性的同时,缓解了网络通信压力。
4.要从网络边缘的联邦学习中获益,仍然需要面对几个关键的挑战。一方面,上述联邦边缘学习在很大程度上依赖于边缘设备的参与,而边缘设备通常具有有限的能量、通信和计算资源,边缘设备可能不愿意贡献自己的参与。另一方面,由于所有设备都独立地决定了自己在联邦学习中的参与,因此很难评估参与者对训练模型的准确性的贡献。因此,一个有效的机制应该同时考虑经济激励和参与贡献。最近,一些经济学策略被用于设计激励机制,如斯塔克尔伯格博弈,拍卖,契约理论。以往的研究大多集中在参与贡献上,没有考虑边缘设备的异质性。物联网设备配备了不同类型的传感器,因此经常同时参与多个任务。虽然有部分研究集中在多任务联邦边缘学习激励机制上,但几乎所有的研究都是在充分了解联邦边缘学习网络的情况下研究集中决策策略。深度强化学习作为一种流行的学习技术,可以在不完全信息下获得复杂动态问题的最优解。虽然一些开创性的深度强化学习工作在解决联邦学习激励博弈方面表现出了突出的能力,但目前还缺乏基于学习的多任务联邦边缘学习机制来设计联合经济激励和参与贡献策略。
技术实现要素:
5.为了应对多任务联邦边缘学习中的联合经济激励和参与贡献策略问题,本发明的目的在于提出一种斯塔克尔伯格博弈引导的多智能体深度强化学习方案以激励边缘设备参与多任务联邦边缘学习并求解两阶段斯塔克尔伯格博弈的均衡解。
6.本发明的方法所采用的技术方案是:一种基于深度强化学习的多任务联邦边缘学习激励方法,包括以下步骤:
7.步骤1:通过将联邦边缘学习网络映射成劳动力市场,建立联邦边缘学习框架,构建边缘服务器与边缘设备的交互过程;
8.步骤2:建立边缘设备与边缘服务器的斯塔克尔伯格博弈模型以最大化边缘设备与边缘服务器的收益;
9.步骤3:分析纳什均衡的存在,并在此基础上以多智能体深度强化学习方式求解该
斯塔克尔伯格博弈模型的最大化问题,以获得最优的边缘设备任务最优训练比和边缘服务器定价策略。
10.本发明的系统所采用的技术方案是:一种基于深度强化学习的多任务联邦边缘学习激励系统,包括以下模块:
11.模块1,用于通过将联邦边缘学习网络映射成劳动力市场,建立联邦边缘学习框架,构建边缘服务器与边缘设备的交互过程;
12.模块2,用于建立边缘设备与边缘服务器的斯塔克尔伯格博弈模型以最大化边缘设备与边缘服务器的收益;
13.模块3,用于分析纳什均衡的存在,并在此基础上以多智能体深度强化学习方式求解该斯塔克尔伯格博弈模型的最大化问题,以获得最优的边缘设备任务最优训练比和边缘服务器定价策略。
14.相比现有技术,本发明可以在多任务且信息不完全的联邦边缘学习场景(场景创新)下建立斯塔克尔伯格博弈模型以激励边缘设备参与联邦边缘学习,并以ma-ddpg深度强化学习算法求解出最优的边缘设备任务最优训练比和边缘服务器定价策略,从而使收益最大化。
附图说明
15.图1为本发明实施例的方法流程图。
具体实施方式
16.为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
17.请见图1,本发明提供的一种基于深度强化学习的多任务联邦边缘学习激励方法,包括以下步骤:
18.步骤1:通过将联邦边缘学习网络映射成劳动力市场,建立联邦边缘学习框架,构建边缘服务器与边缘设备的交互过程;
19.假设联邦边缘学习框架中有i个边缘设备和j个边缘服务器;在开始联邦学习流程之前,边缘服务器会发布一个总支付为qj》0的训练任务;边缘设备通过改变本地训练数据与本地数据总大小的比值β
ij
去调整训练数据集的数量来处理来自边缘服务器j的任务;当比值β
ij
=0时,代表边缘服务器j的任务不被边缘设备i处理;
20.边缘服务器j的目标是选取合适的支付qj以达到尽可能高的训练精度,其效用函数为:
21.uj(qj,βj)=f(βj)-f(qj);
22.其中f(βj)为与所有边缘设备训练比值有关的精度收益函数,f(qj)为与总支付qj有关的支付函数。
23.为有效地激励边缘设备参与本地训练,总报酬qj按数据集量的比例分配给参与训
练的边缘设备,边缘设备i的效用定义为其分配的报酬与完成联邦学习任务的总成本之差,其公式为:
[0024][0025]
其中其中是边缘服务器j分配给边缘设备i的支付,c
ij
是边缘设备i参加边缘服务器j本地训练的各类成本总和。
[0026]
步骤2:考虑到边缘服务器期望获得达到较高的训练精度,边缘设备期望获得计算报酬,而他们的效用相互关联相互制约,需要建立边缘设备与边缘服务器的斯塔克尔伯格博弈模型以最大化边缘设备与边缘服务器的收益;
[0027]
考虑到边缘设备与边缘服务器都期望获得最大效用,建立边缘设备与边缘服务器的斯塔克尔伯格博弈模型这个问题可以被表述为:在第一阶段博弈中,边缘服务器是获得最优总支付qj以最大化其效用的领导者,其公式化为:
[0028][0029][0030]
其中,表示边缘服务器j的最大支付;
[0031]
在第二阶段博弈中,给定支付qj下,边缘设备作为追随者选择最优训练比β
ij
以实现最大效用,其公式化为:
[0032][0033]
s.t.βi∈[0,1]
[0034]
4.根据权利要求3所述的多任务联邦边缘学习激励方法,其特征在于:步骤3中,通过对边缘设备i的效用υi(βi,q)进行求导,得到二阶导数小于0,得出有一个唯一的最优训练比策略来达到效用的最大值,进而求出最优训练比策略β
ij*
;将β
ij*
代入边缘服务器j的效用uj(qj,βj)并求二阶导数,得到二阶导数小于0,这表明存在唯一的最优支付β
ij*
使边缘服务器效用最大化;由于边缘设备与边缘服务器都可以确定其最优策略以实现最大效用,因此两阶段斯塔克尔伯格博弈可以实现斯塔克尔伯格均衡。
[0035]
在充分了解联邦边缘学习网络的基础上,利用上述斯塔克尔伯格博弈可以实现多任务联邦边缘学习激励机制。然而,出于隐私考虑,要求所有的边缘服务器和边缘设备共享他们的私人信息是不现实的。所以在本文中,激励问题被表述为用多智能体深度强化学习方法求解的马尔可夫决策过程。在每个训练步骤t中,所有边缘服务器和边缘设备都被认为是一个代理,以分布式的方式进行顺序决策,以最大化其效用。多智能体马尔可夫决策过程的状态、行动和奖励表述如下:
[0036]
状态空间:在每个训练步骤t中,边缘服务器j首先根据所有边缘服务器的前n步的历史支付策略设置支付策略边缘服务器j状态空间定义为在第二阶段博弈中,边缘设备i根据其他边缘设备前n步的历史训练比例策略确定其训练比例策略边缘设备i的状态空间表示为
[0037]
动作空间:在训练步骤t中,每个边缘服务器和每个边缘设备分别根据自己的状态决定支付策略和训练比率策略,边缘服务器j和边缘设备i的作用定义为和
[0038]
奖励函数:在所有智能体采取行动后,每个智能体获得其他智能体的策略,并计算其效用最大化的即时奖励;边缘服务器j和边缘设备i的即时奖励分别表示为和则社会福利定义为所有行动者的即时报酬的总和,即
[0039]
采用ma-ddpg算法实现所制定博弈的纳什均衡;在边缘服务器j中,一个有参数φ
1j
的行动者网络将输入状态映射到动作一个有参数θj评价网络估计动作值;对于边缘设备i,行动者网络的参数定义为评价网络的设计参数为θi;
[0040]
在每个训练步骤t中,边缘服务器j是基于状态确定支付策略的领导者,它与边缘设备的历史训练比率策略和边缘服务器的历史支付策略有关;同时,每个边缘设备i根据对环境状态的观察充当跟随者,取决于边缘服务器的历史支付策略和其他边缘设备的历史训练比率策略;采取行动后,所有边缘服务器和边缘设备分别获得奖励和所有的经验元组和分别存储在重放缓冲区中;通过从重放缓冲区中采样小批量训练数据,边缘服务器和边缘设备评价网络通过最小化损失函数进行迭代,由于每个智能体都以获得最大的期望累积奖励为目标,行动者网络通过策略梯度进行更新,最终可以得到最优解。
[0041]
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
技术特征:
1.一种基于深度强化学习的多任务联邦边缘学习激励方法,其特征在于,包括以下步骤:步骤1:通过将联邦边缘学习网络映射成劳动力市场,建立联邦边缘学习框架,构建边缘服务器与边缘设备的交互过程;步骤2:建立边缘设备与边缘服务器的斯塔克尔伯格博弈模型以最大化边缘设备与边缘服务器的收益;步骤3:分析纳什均衡的存在,并在此基础上以多智能体深度强化学习方式求解该斯塔克尔伯格博弈模型的最大化问题,以获得最优的边缘设备任务最优训练比和边缘服务器定价策略。2.根据权利要求1所述的基于深度强化学习的多任务联邦边缘学习激励方法,其特征在于:步骤1中,所述联邦边缘学习框架中有i个边缘设备和j个边缘服务器;在开始联邦学习流程之前,边缘服务器会发布一个总支付为q
j
>0的训练任务;边缘设备通过改变本地训练数据与本地数据总大小的比值去调整训练数据集的数量来处理来自边缘服务器j的任务;当比值时,代表边缘服务器j的任务不被边缘设备i处理;边缘服务器j的目标是选取合适的支付q
j
以达到尽可能高的训练精度,其效用函数为:u
j
(q
j
,β
j
)=f(β
j
)-g(q
j
);其中f(β
j
)为与所有边缘设备训练比值有关的精度收益函数,g(q
j
)为与总支付q
j
有关的支付函数。为有效地激励边缘设备参与本地训练,总报酬q
j
按数据集量的比例分配给参与训练的边缘设备,边缘设备i的效用定义为其分配的报酬与完成联邦学习任务的总成本之差,其公式为:其中是边缘服务器j分配给边缘设备i的支付,c
ij
是边缘设备i参加边缘服务器j本地训练的各类成本总和。3.根据权利要求2所述的基于深度强化学习的多任务联邦边缘学习激励方法,其特征在于:步骤2中,边缘设备与边缘服务器的斯塔克尔伯格博弈模型,在第一阶段博弈中,边缘服务器是获得最优总支付q
j
以最大化其效用的领导者,其公式化为:以最大化其效用的领导者,其公式化为:其中,表示边缘服务器j的最大支付;在第二阶段博弈中,给定支付q
j
下,边缘设备作为追随者选择最优训练比以实现最大效用,其公式化为:
s.t.β
i
∈[0,1]。4.根据权利要求3所述的基于深度强化学习的多任务联邦边缘学习激励方法,其特征在于:步骤3中,通过对边缘设备i的效用υ
i
(β
i
,q)进行求导,得到二阶导数小于0,得出有一个唯一的最优训练比策略来达到效用的最大值,进而求出最优训练比策略将代入边缘服务器j的效用u
j
(q
j
,β
j
)并求二阶导数,得到二阶导数小于0,这表明存在唯一的最优支付使边缘服务器效用最大化;将激励问题视为用多智能体深度强化学习方法求解的马尔可夫决策过程;在每个训练步骤t中,所有边缘服务器和边缘设备都被认为是一个代理,以分布式的方式进行顺序决策,以最大化其效用;则多智能体马尔可夫决策过程的状态、行动和奖励表述如下:状态空间:在每个训练步骤t中,边缘服务器j首先根据所有边缘服务器的前n步的历史支付策略设置支付策略边缘服务器j状态空间定义为在第二阶段博弈中,边缘设备i根据其他边缘设备前n步的历史训练比例策略确定其训练比例策略边缘设备i的状态空间表示为动作空间:在训练步骤t中,每个边缘服务器和每个边缘设备分别根据自己的状态决定支付策略和训练比率策略,边缘服务器j和边缘设备i的作用定义为和奖励函数:在所有智能体采取行动后,每个智能体获得其他智能体的策略,并计算其效用最大化的即时奖励;边缘服务器j和边缘设备i的即时奖励分别表示为和则社会福利定义为所有行动者的即时报酬的总和,即采用ma-ddpg算法实现所制定博弈的纳什均衡;在边缘服务器j中,一个有参数φ
1j
的行动者网络将输入状态映射到动作一个有参数θ
j
评价网络估计动作值;对于边缘设备i,行动者网络的参数定义为评价网络的设计参数为θ
i
;在每个训练步骤t中,边缘服务器j是基于状态确定支付策略的领导者,它与边缘设备的历史训练比率策略和边缘服务器的历史支付策略有关;同时,每个边缘设备i根据对环境状态的观察充当跟随者,取决于边缘服务器的历史支付策略和其他边缘设备的历史训练比率策略;采取行动后,所有边缘服务器和边缘设备分别获得奖励和所有的经验元组和分别存储在重放缓冲区中;通过从重放缓冲区中采样小批量训练数据,边缘服务器和边缘设备评价网络通过最小化损失函数进行迭代,由于每个智能体都以获得最大的期望累积奖励为目标,行动者网络通过策略梯度进行更新,最终可以得到最优解。5.一种基于深度强化学习的多任务联邦边缘学习激励系统,其特征在于,包括以下模块:模块1,用于通过将联邦边缘学习网络映射成劳动力市场,建立联邦边缘学习框架,构建边缘服务器与边缘设备的交互过程;
模块2,用于建立边缘设备与边缘服务器的斯塔克尔伯格博弈模型以最大化边缘设备与边缘服务器的收益;模块3,用于分析纳什均衡的存在,并在此基础上以多智能体深度强化学习方式求解该斯塔克尔伯格博弈模型的最大化问题,以获得最优的边缘设备任务最优训练比和边缘服务器定价策略。6.根据权利要求5所述的基于深度强化学习的多任务联邦边缘学习激励系统,其特征在于:模块1中,所述联邦边缘学习框架中有i个边缘设备和j个边缘服务器;在开始联邦学习流程之前,边缘服务器会发布一个总支付为q
j
>0的训练任务;边缘设备通过改变本地训练数据与本地数据总大小的比值去调整训练数据集的数量来处理来自边缘服务器j的任务;当比值时,代表边缘服务器j的任务不被边缘设备i处理;边缘服务器j的目标是选取合适的支付q
j
以达到尽可能高的训练精度,其效用函数为:u
j
(q
j
,β
j
)=f(β
j
)-f(q
j
);其中f(β
j
)为与所有边缘设备训练比值有关的精度收益函数,f(q
j
)为与总支付q
j
有关的支付函数。为有效地激励边缘设备参与本地训练,总报酬q
j
按数据集量的比例分配给参与训练的边缘设备,边缘设备i的效用定义为其分配的报酬与完成联邦学习任务的总成本之差,其公式为:其中是边缘服务器j分配给边缘设备i的支付,c
ij
是边缘设备i参加边缘服务器j本地训练的各类成本总和。7.根据权利要求6所述的基于深度强化学习的多任务联邦边缘学习激励系统,其特征在于:模块2中,边缘设备与边缘服务器的斯塔克尔伯格博弈模型,在第一阶段博弈中,边缘服务器是获得最优总支付q
j
以最大化其效用的领导者,其公式化为:以最大化其效用的领导者,其公式化为:其中,表示边缘服务器j的最大支付;在第二阶段博弈中,给定支付q
j
下,边缘设备作为追随者选择最优训练比以实现最大效用,其公式化为:s.t.β
i
∈[0,1]。8.根据权利要求7所述的基于深度强化学习的多任务联邦边缘学习激励系统,其特征在于:模块3中,通过对边缘设备i的效用υ
i
(β
i
,q)进行求导,得到二阶导数小于0,得出有一个唯一的最优训练比策略来达到效用的最大值,进而求出最优训练比策略将代入边
缘服务器j的效用u
j
(q
j
,β
j
)并求二阶导数,得到二阶导数小于0,这表明存在唯一的最优支付使边缘服务器效用最大化;将激励问题视为用多智能体深度强化学习方法求解的马尔可夫决策过程;在每个训练步骤t中,所有边缘服务器和边缘设备都被认为是一个代理,以分布式的方式进行顺序决策,以最大化其效用;则多智能体马尔可夫决策过程的状态、行动和奖励表述如下:在每个训练步骤t中,边缘服务器j首先根据所有边缘服务器的前n步的历史支付策略设置支付策略边缘服务器j状态空间定义为在第二阶段博弈中,边缘设备i根据其他边缘设备前n步的历史训练比例策略确定其训练比例策略边缘设备i的状态空间表示为动作空间:在训练步骤t中,每个边缘服务器和每个边缘设备分别根据自己的状态决定支付策略和训练比率策略,边缘服务器j和边缘设备i的作用定义为和奖励函数:在所有智能体采取行动后,每个智能体获得其他智能体的策略,并计算其效用最大化的即时奖励;边缘服务器j和边缘设备i的即时奖励分别表示为和则社会福利定义为所有行动者的即时报酬的总和,即采用ma-ddpg算法实现所制定博弈的纳什均衡;在边缘服务器j中,一个有参数的行动者网络将输入状态映射到动作一个有参数θ
j
评价网络估计动作值;对于边缘设备i,行动者网络的参数定义为评价网络的设计参数为θ
i
;在每个训练步骤t中,边缘服务器j是基于状态确定支付策略的领导者,它与边缘设备的历史训练比率策略和边缘服务器的历史支付策略有关;同时,每个边缘设备i根据对环境状态的观察充当跟随者,取决于边缘服务器的历史支付策略和其他边缘设备的历史训练比率策略;采取行动后,所有边缘服务器和边缘设备分别获得奖励和所有的经验元组和分别存储在重放缓冲区中;通过从重放缓冲区中采样小批量训练数据,边缘服务器和边缘设备评价网络通过最小化损失函数进行迭代,由于每个智能体都以获得最大的期望累积奖励为目标,行动者网络通过策略梯度进行更新,最终可以得到最优解。
技术总结
本发明公开了一种基于深度强化学习的多任务联邦边缘学习激励方法及系统,首先通过将联邦边缘学习网络映射成劳动力市场,建立联邦边缘学习框架,构建边缘服务器与边缘设备的交互过程;然后建立边缘设备与边缘服务器的斯塔克尔伯格博弈模型以最大化边缘设备与边缘服务器的收益;最后分析纳什均衡的存在,并在此基础上以多智能体深度强化学习方式求解该斯塔克尔伯格博弈模型的最大化问题,以获得最优的边缘设备任务最优训练比和边缘服务器定价策略。本发明可以在多任务且信息不完全的联邦边缘学习场景下建立斯塔克尔伯格博弈模型以激励边缘设备参与联邦边缘学习,并以MA-DDPG求解出最优的边缘设备任务最优训练比和边缘服务器定价策略,从而使收益最大化。从而使收益最大化。从而使收益最大化。
技术研发人员:赵楠 朱华霖 孙奕灵 宋海娜 余长亮
受保护的技术使用者:湖北工业大学
技术研发日:2023.02.28
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种光致发光高透过光伏涂层光学性能预测与评价方法 下一篇:一种配电盒结构的制作方法
