基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法

未命名 07-13 阅读:171 评论:0


1.本发明属于物理层安全领域,具体涉及在考虑物理层安全的无线传输中存在的三方网络设备之间对抗与结盟的智能决策,尤其涉及一种基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法。


背景技术:

2.近年来,物理层安全(physicallayersecurity,pls)作为一种很有前途的无线安全技术,在5g及下一代的通信领域得到了迅速的发展。pls被广泛认为是在自动驾驶、远程手术、智能交通等具有高安全性要求的物联网应用中保护安全传输的有效方法。与传统的基于密码学的方法不同,pls具有更低的计算复杂度、资源消耗和传输延迟,更适合于时延敏感和功率受限的应用场合。
3.虽然pls在不同方面得到了广泛的关注,但大多数现有的发明研究都没有充分探讨pls中三方的自私性,即合法用户、窃听设备和干扰机。具体来说,在实践中,合法用户、窃听设备和干扰机可能会出于自身利益最大化的考虑而表现出自私性,但它们的策略并不总是相互冲突,有时反而是互惠互利的。一方面,合法用户和干扰机可能结成联盟来对抗窃听设备,合法用户可以向干扰机提供奖励(例如金钱奖励),以换取后者帮助增加对窃听设备的干扰能力,从而保护在开放无线环境中传输的机密消息。另一方面,窃听设备和干扰机可能形成对抗合法用户的联盟,在这种联盟中,窃听设备也可以激励干扰机干扰合法用户,迫使它们增加数据传输功率,从而使合法用户容易被窃听。显然,这种复杂的关系(即联盟形成)可能不是预先定义的,因此对pls的影响需要仔细的建模和分析,这是非常重要的,但由于以下原因非常具有挑战性:
4.a.从pls中三方设备各自利益出发,除了可能形成的联盟外,合法用户可以自行决策其上行传输的目标基站并分配数据传输功率来提高传输速率,同时不同地理位置的窃听设备在不同时间可以选择激活或休眠来减少能耗。此外,干扰机可以根据在不同的链路上更好地分配干扰功率以获得来自合法用户或窃听设备的更高的回报。这需要一个具有多维策略的多阶段序贯博弈,其中包含了动态联盟博弈作为子博弈来建模三方设备进行联盟选择的决策。
5.b.由于无线系统的不确定性,如时变的信道条件,上述pls中三方的策略可能会动态变化,长期的性能优化需要研究动态博弈。特别是,潜在的联盟博弈也变得动态,这意味着三方设备中的任何两方都可能暂时形成联盟并动态调整,即随着时间的推移合并或分裂。然而,据公开资料所知,这一关键问题尚未在以往的发明中得到解决。


技术实现要素:

6.发明目的:针对上述现有无线传输环境下物理层安全技术存在的未充分考虑三方设备自私性和动态结盟的问题,本发明提供一种基于动态联盟博弈的物理层安全无线传输
中三方设备智能决策方法。
7.技术方案:一种基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,该方法面向开放无线通信环境下存在的合法用户、窃听设备和干扰机三方之间可能产生的动态对抗与结盟行为,采用物理层安全要求的保密传输速率、窃听速率以及各设备能耗等物理量分别构造三方设备的效用函数,运用多阶段序贯博弈和动态联盟博弈分别建模三方设备的策略性交互和动态结盟行为,以开放无线通信环境下三方网络设备各自长期平均效用最大化为目标,分别设计基于联盟切换准则的联盟形成算法和基于深度强化学习的智能决策算法来实现三方设备的结盟选择和智能决策;
8.进一步的,所述方法包括建立开放无线通信环境中考虑物理层安全场景的网络模型,其中的网络设备包括合法用户、窃听设备、干扰机和基站,合法用户向基站上行传输秘密数据,同时受窃听设备窃听,干扰机选择合法用户或窃听设备的一方结盟,即干扰窃听设备来帮助合法用户提高保密传输速率或干扰基站来提高窃听设备的拦截速率,同时合法用户或窃听设备会给予干扰机回报(即激励量)来吸引干扰机与之结盟。在这个考虑物理层安全的无线传输环境中,每个合法用户占用一个频率带宽为w的正交信道用于上行传输,其功率分配采用l级离散分配,表示为同时干扰机也采用l级离散分配,表示为为了刻画时变不确定性,系统整体的运行时间被划分为r个时间片。
9.进一步的,所述方法针对开放无线通信环境中考虑物理层安全场景的网络模型的建立,包括如下计算处理过程:
10.(1)在每个时间片中,计算三方设备的相关物理量,包括合法用户的上传速率和保密传输速率窃听设备的窃听速率上传速率的计算方法为:
[0011][0012][0013]
其中,表示基站m处的加性高斯白噪声(additive gaussian white noise,awgn),g
nm
(t)和g
jm
(t)表示分别表示合法用户n和干扰机j到基站m的链路的瞬时信道增益;窃听速率的计算方法为:
[0014][0015][0016]
其中,表示窃听设备k处的awgn,g
nk
(t)和g
ik
(t)分别表示合法用户n和干扰机j到窃听设备k的链路的瞬时信道增益;保密传输速率的计算方法为:
[0017]
[0018]
其中,[x]
+
=max(x,0)。
[0019]
(2)基于各方设备各自的物理量分别构造三方设备在各个时间片的效用函数和包含系统运行过程中各方的收益和损耗;
[0020]
窃听设备在时间片t中的效用函数表示为:
[0021][0022]
其中,x
{ej}
(t)=1或0表示窃听设备和干扰机结盟与否,ck表示单个窃听设备在一个时间片内的激活成本,为窃听设备的性能增益,表示为:
[0023][0024]
为没有干扰机帮助下窃听设备的性能增益,表示为:
[0025][0026]
合法用户在时间片t中的效用函数表示为:
[0027][0028]
其中,x
{lj}
(t)=1或0表示窃听设备和干扰机结盟与否,ξn表示合法用户的单位功耗成本,为合法用户的性能增益,表示为:
[0029][0030]
为没有干扰机帮助下合法用户的性能增益,表示为:
[0031][0032]
干扰机在时间片t中的效用函数表示为:
[0033][0034]
其中,ηj表示合法用户的单位功耗成本,c
conf
表示如果干扰机选择在两个连续的时间片内更换盟友,则干扰机为通知联盟变更而建立的额外连接所引起的潜在配置成本,为时间片t中合法用户或窃听设备支付给干扰机的激励量,表示为:
[0035]
[0036]
(3)分别建立三方设备的策略集,生成三方设备各自的长期平均效用最大化优化问题,对于窃听设备,其策略集表示为其优化问题表示为:
[0037][0038]
式中,表示窃听设备在各时间片的激活选择,μe(t)表示窃听设备在各时间片的单位激励量,表示单位激励量上限。
[0039]
对于合法用户其策略集表示为:其优化问题表示为:
[0040][0041][0042]
式中,表示最小传输速率,表示合法用户在各时间片的目标基站选择,μ
l
(t)表示合法用户在各时间片的单位激励量。对于干扰机,其策略集表示为(t)表示合法用户在各时间片的单位激励量。对于干扰机,其策略集表示为其优化问题表示为:
[0043][0044]
(4)构建多阶段序贯博弈来建模三方设备的策略性交互,多阶段序贯博弈表达式如下:
[0045][0046]
其中,分别表示参与博弈的窃听设备、合法用户和干扰机,表示三方的策略,表示三方的效用函数。在每个时间片包含三个阶段,首先是窃听设备按照优化目标决策和μe(t),其次是合法用户按照优化目标决策和μ
l
(t),最后是干扰机按照优化目标决策决策的三个阶段在每个时间片都会重复,在每个时间段的开始,窃听设备和合法用户可以观察到干扰机在前一个时间片的决策,得以实现长期的策略性交互。而在对于三方设备在各个时间片的动态结盟,则采用动态联盟博弈来建模,其表达式如下:
[0047][0048]
其中表示参与博弈的窃听设备、合法用户和干扰机,表示参与博弈的窃听设备、合法用户和干扰机,
表示三方设备在动态联盟博弈中所有可能产生的联盟。是的子博弈,用来将求解三方的最优结盟选择x
{ej}
(t)和x
{lj}
(t)的问题转化为对求解均衡解;
[0049]
(5)设计基于联盟切换准则的联盟形成算法求解各个时间片中动态联盟博弈的均衡解来实现三方设备在各个时间片的最优结盟选择(即x
{ej}
(t)和x
{lj}
(t)),同时生成稳定的联盟划分该联盟形成算法是分布式运行,即同一时间片内各方独立地计算自己的结盟选择。本质上是求解各个时间片内的均衡,即稳定联盟划分该算法基于如下联盟切换准则来实现:
[0050]
准则1:当且仅当且
[0051][0052]
准则2:当且仅当
[0053]
其中ca和cb表示两个联盟,二元关系符表示某方i在时间片t的联盟偏好,二元关系符表示在时间片t中,某方i的联盟转移,即从符号左联盟转移到符号右联盟;
[0054]
(6)设计基于深度强化学习的智能决策算法来求解多阶段序贯博弈在整个系统运行时间0≤t≤t中的全局均衡解,实现三方设备除了结盟选择以外的决策变量(即和μ
l
(t))的最优决策。用于训练代理三方设备决策的智能体的算法是基于近端策略优化算法(proximal policy optimization,ppo)和演员-评论家框架(actor-critic,ac)。强化学习过程的状态空间综合考虑了网络拓扑、瞬时信道增益(包括g
nm
(t),g
nk
(t),g
jm
(t)和g
jk
(t)、信号发射功率(包括和)和联盟状态(用x
{ej}
(t)和x
{lj}
(t)表示),并通过邻接矩阵nt(t)将环境状态值规范化。此外,该基于深度强化学习的智能决策算法集分布式训练和集中式训练为一体,对于三方设备的不同决策,采用不同的智能体来训练处最佳策略。
[0055]
有益效果:本发明与现有技术相比,其显著特点和实质性进步包括如下三点:
[0056]
第一、本发明建立了一种融合动态三边联盟形成博弈的分层博弈模型,用来解决系统不确定性下pls中合法用户、窃听设备和干扰机之间的战略交互建模问题。并且在三方设备的效用建模中充分考虑了三方设备在资源管理和联盟选择方面所有可能的决策、收益和成本;
[0057]
第二、本发明在考虑pls中三方自私性的情况下,提出了一种基于联盟切换准则的分布式联盟选择和联盟形成方法,以获得各方设备的最优联盟选择。该方法采用三方设备分布式运行,具有较高运算效率;
[0058]
第三、本发明以最大化给定博弈的长期效用为目标,提出了一种基于深度强化学习的三方设备智能决策方法,该方法可以在动态演化的多个时间片中产生pls中各方的最优战略决策(即均衡),可以运用于信道状态动态变化的动态无线网络系统中,且通过强化学习得到的智能体在决策的过程中具有高鲁棒性。
附图说明
[0059]
图1是本发明所述方法的系统结构与设备交互示意图;
[0060]
图2是本发明中多阶段序贯博弈流程图;
[0061]
图3是本发明中基于强化学习的智能决策方法的框架示意图;
[0062]
图4是基于强化学习的智能决策方法训与现有方法在三方设备累计效用上的对比图。
具体实施方式
[0063]
为了详细的说明本发明所公开的技术方案,下面结合附图和具体实施方式对本发明做进一步地阐述。
[0064]
首先,本发明所述方法重点解决的问题是如何以考虑物理层安全的无线通信网络中具有动态对抗与联盟关系的合法用户、窃听设备和干扰机三方设备各自的长期平均效用最大化为目标,充分考虑三方设备的自私性和信道状态的不确定性,形成三方设备在动态的结盟选择和资源管理决策的最优策略。
[0065]
本发明的主要思想是首先提出了一种包含动态三边联盟的多阶段序贯博弈框架来刻画pls中所有参与方(合法用户、窃听设备和干扰机)之间的策略性交互。在系统不确定的情况下(即信道增益时变),建立一个长期优化问题来分别最大化每个参与方的效用。接着构建多阶段序贯博弈模型,对这些三方设备的决策顺序和相关性进行建模,其中每一方都作为博弈的参与人,以最大化其预期收益,同时最小化其预期成本。为了分析三方设备间的动态联盟关系,本发明采用动态联盟博弈建模各个时间片内三方设备的结盟,并给出了不同时隙下联盟动态变化需要满足的稳定性条件。然后提出了一种三方设备在每个时间片形成稳定联盟划分的分布式联盟选择和联盟形成方法。最后,考虑到三方设备策略演化的动态性(特别是动态联盟形成),本发明所述的方法中涉及一种基于深度强化学习的方法求解多阶段序贯博弈的均衡解,即生成三方设备的最优策略。
[0066]
具体来说,一种基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法可以按照以下步骤实施:
[0067]
step1:构建考虑物理层安全的无线传输网络系统模型。
[0068]
首先构建系统模型,如图1所示,本发明考虑一个无线上行通信系统,它由一组合法用户组成,表示为旨在向一组基站传输秘密数据,记为每个合法用户为其上行传输占用一个正交信道,上行信道的集合亦表示为存在一组窃听设备,记为在不同的位置可能是活跃的,也可能是休眠的,以及多个干扰机,记为它会干扰系统中的所有链路。
[0069]
为了刻画时变不确定性,系统整体运行时间被划分为t个时间片,各时间片t∈{0,1,

,t-1}。由于干扰机的存在,从中的任意合法用户n到任意基站m的上行传输链路在时间片t中的信干噪比(signal to noise ratio,sinr)为:
[0070][0071]
其中,表示基站m处的加性高斯白噪声(additive gaussian white noise,
awgn),g
nm
(t)和g
jm
(t)表示分别表示时间片t中合法用户n和干扰机j到基站m的链路的瞬时信道增益,和分别为合法用户n和干扰机j采用的l级离散功率分配,表示为类似地,在时间片t中合法用户n到窃听设备k的sinr为:
[0072][0073]
其中,表示窃听设备k处的awgn,g
nk
(t)和g
jk
(t)分别表示合法用户n和干扰机j在时间片t中到窃听设备k的链路的瞬时信道增益。
[0074]
时间片t中合法用户n到基站m的上行传输速率可以表示为:
[0075][0076]
相应地,在在时间片t中,窃听设备k在信道上的窃听速率可以表示为:
[0077][0078]
根据pls中保密传输速率的定义,保密传输速率是指合法用户能够安全传输到其目标基站的数据传输速率,该速率是合法用户的传输速率与其上行信道上被窃听的最高窃听速率之差。因此,在时间片t中,合法用户的保密传输速率为:
[0079][0080]
其中,[x]
+
=max(x,0)。
[0081]
step2:构建三方设备长期平均效用优化问题。
[0082]
考虑到性能增益(例如,保密传输速率和窃听速率)和潜在成本(例如,功耗和报酬支付)在三方的效用中都起着重要的作用,因此对于三方设备的效用函数的构造综合考虑了这些因素。对于窃听设备而言,为了提高其成功窃听速率(即窃听速率与合法用户上行传输速率之差)并降低自身窃听成本,在每个时间片t中,需要确定:
[0083]
(1)每个窃听设备在不同位置的激活情况,记为或0,分别表示窃听设备k是激活状态还是休眠状态;
[0084]
(2)吸引干扰机合作的单位激励量,记为其中为窃听设备最大单位激励量。
[0085]
在时间片t中,干扰机从窃听设备处获得的实际奖励是μe(t)和在干扰机帮助下窃听设备性能增益的乘积。这种性能增益可以表示为窃听设备在干扰机帮助下的成功拦截率,即:
[0086][0087]
与干扰机不帮助下的成功拦截率,即:
[0088][0089]
之间的差值。因此,窃听设备在时间片t中的效用函数表示为:
[0090][0091]
其中,x
{ej}
(t)=1或0表示窃听设备和干扰机结盟与否,ck表示单个窃听设备在一个时间片内的激活成本。将窃听设备策略集表示为则其优化问题为:
[0092][0093]
对于合法用户而言,为了提高其长期保密传输性能,在每个在时间片t中,他们需要确定:
[0094]
(1)上行传输功率分配
[0095]
(2)目标基站选择其中或0表示合法用户n是否选择基站m作为目标接收基站;
[0096]
(3)单位激励用来吸引干扰机的帮助,其中为合法用户的最大单位激励。
[0097]
与窃听设备类似,干扰机在时间片t中从合法用户获得的实际收益是μ
l
(t)与得到干扰机帮助时合法用户的性能收益的乘积,该收益为合法用户在干扰机帮助下的保密传输速率,即,
[0098][0099]
与干扰机不帮助下的保密传输速率,即,
[0100][0101]
之差。因此,合法用户在时间片t中的效用函数表示为:
[0102][0103]
其中,x
{lj}
(t)=1或0表示窃听设备和干扰机结盟与否,ξn表示合法用户单位传输功率功耗成本。将合法用户策略集表示为则其优化问题为:
[0104][0105]
式中,表示单个合法用户的最小传输速率。
[0106]
对于干扰机而言,给定μe(t)和μ
l
(t),在每个时间片t中决定(1)干扰功率分配(2)联盟选择x
{ej}
(t)和x
{lj}
(t)。干扰机的奖励来源于每个时间片内从窃听设备或合法用户获得的激励。干扰机在时间片t中的效用函数为:
[0107][0108]
其中,ηj表示干扰机的单位功耗成本,c
conf
表示干扰机更换盟友产生的配置成本。将干扰机的策略集表示为其优化问题表示为
[0109][0110]
step3:构建多阶段序贯博弈来建模三方设备三方设备的策略性交互,以及动态联盟博弈来将求解三方设备的联盟选择问题转化为求解稳定联盟划分。
[0111]
用来建模三方设备的策略性交互的多阶段序贯博弈表达式如下:
[0112][0113]
其中,分别表示参与博弈的窃听设备、合法用户和干扰机,表示三方的策略,表示三方的效用函数。如图2所示,在每个时间片包含三个阶段,首先是窃听设备按照优化目标决策和μe(t),其次是合法用户按照优化目标决策和μ
l
(t),最后是干扰机按照优化目标策策的三个阶段在每个时间片都会重复,在每个时间段的开始,窃听设备和合法用户可以观察到干扰机在前一个时间片的决策,得以实现长期的策略性交互。而在对于三方设备在各个时间片的动态结盟,则采用动态联盟博弈来建模,其表达式如下:
[0114][0115]
其中表示参与博弈的窃听设备、合法用户和干扰机,表示参与博弈的窃听设备、合法用户和干扰机,表示三方设备在动态联盟博弈中所有可能产生的联盟。是的子博弈,用来将求解三方的最优结盟选择x
{ej}
(t)和x
{lj}
(t)的问题转化为对求解均衡解。
[0116]
step4:定义各方设备联盟偏好和联盟切换准则,使用分布式联盟选择与联盟形成方法得到各个时间片内三方设备的稳定联盟划分和最优联盟选择。
[0117]
首先定义动态联盟博弈在每个时间片的均衡解,即稳定联盟划分:
[0118]
在每个时间片t中,如果没有博弈方可以通过单方面切换联盟(即离开原来的联盟而加入其他联盟)来提高效用,则联盟划分是稳定的,即满足条件
[0119][0120]
每方设备对于加入不同的联盟有着不同的偏好,具体来说,在时间片t中,博弈方i∈g更愿意加入一个可能的联盟而不是另一个联盟而不是另一个联盟的条件可以表示为:
[0121]
当且仅当其中,符号表示博弈方i在时间片t中对联盟的偏好顺序,和分别表示博弈方i加入联盟ca和cb后的效用。基于联盟偏好定义联盟切换准则如下:
[0122]
准则1:当且仅当且
[0123][0124]
准则2:当且仅当
[0125]
其中二元关系符表示在时间片t中,某博弈方i的联盟转移,即从符号左联盟转移到符号右联盟。
[0126]
基于联盟偏好和联盟切换准则,本发明中采用了一个分布式联盟选择与联盟形成(distributed coalition selection and coalition formation,dcscf)方法,用于在每个时隙得到稳定的联盟划分,同时为三方做出最优的联盟选择。具体地,给定前一个时隙的联盟划分,即在中的每个联盟中的每个联盟中,每个博弈方i首先计算自己的效用,然后根据联盟切换准则决定是否离开当前联盟,加入另一个存在于中的联盟,或者留在当前联盟ca中。该过程重复进行,直到联盟划分不变,迭代后得到最终的联盟划分根据得到最终的联盟选择x
{lj}
(t)和x
{ej}
(t)。该方法以分布式方式为每个博弈方进行联盟选择,即每个博弈方根据自己的偏好顺序和联盟切换规则动态且独立地选择其最优联盟加入。
[0127]
step5:采用基于深度强化学习的智能决策算法来求解多阶段序贯博弈在整个系统运行时间中的全局均衡解,形成三方设备各自的最优策略。
[0128]
首先定义多阶段序贯博弈在整体系统运行周期内的均衡解:
[0129]
用表示多阶段序贯博弈中各方的策略,即
[0130][0131]
并用表示在中三方设备的结盟选择策略。则策略被称为的均衡解当且仅当对于任意博弈方i∈g,满足不等式
[0132][0133]
其中,和表示除了博弈方i外,其他博弈方的最佳策略。显然,当达到这样的均衡时,每一方的长期效用都可以最大化,没有一方会单方面偏离这个均衡。
[0134]
由于pls中各方设备决策的观察量,即合法用户、窃听设备和干扰机在每个时间片中的决策仅依赖于前一个时间片的决策和因此产生的系统状态,(例如前一个时隙中的联盟状态和信道状态),这意味着状态转移满足马尔可夫性质,我们可以用三个分别的马尔可夫决策过程(markov decision processes,mdp)来描述合法用户、窃听设备和干扰机的策略生成问题。对于各方设备,其对应的mdp表示为详细解释如下:
[0135]
(1)状态空间对于在时间片t中的各方设备i∈g,其环境状态为对于在时间片t中的各方设备i∈g,其环境状态为其中是当前联盟划分,表示所有可能链路的信道增益,表示其他方设备的动作。用表示博弈方i的状态空间。本发明采用邻接矩阵nt(t)来规范化状态空间,使得邻接矩阵nt(t)定义为:
[0136][0137]
(2)动作空间对于在时间片t中的各方设备i∈g,其动作为它本身的策略性决策,即
[0138]
(3)条件转移概率ξi:博弈方i从状态做出动作转移到状态s'∈的概率表示为
[0139]
(4)奖励集对于在时间片t中的三方设备和他们实时的奖励值分别表示为:
[0140][0141]
其中ψ是违背最小上行速率的单位速率惩罚量。表示i∈g的奖励集。
[0142]
如图3所示,本发明采用基于基于近端策略优化(proximal policy optimization,ppo)和演员-评论家框架(actor-critic,ac)的深度强化学习算法来求解这三个mdp,即求解博弈的均衡解,过程如下:
[0143]
1)对于各方设备i∈g,其ac框架包括一个网络参数为φ的评论家网络,用于估计i的状态价值其中真正的状态价值其中真正的状态价值γ
t
为折扣系数,以及一个网络参数为θ的演员网络来近似i的最佳策略同时,存在一个经验回放池用于存储训练过程中的状态、动作和奖励;
sfriendly算法作为基准进行了对比实验。从图4(a)中可以看出,所提出的方法在窃听设备累积效用方面优于lu’sfriendly算法。在图4(b)中,所提出的方法在合法用户累积效用方面优于ev’sfriendly算法。在图4(c)中,所提方法在干扰机效用方面优于lu’sfriendly算法和ev’sfriendly算法。这是因为提出的方法允许干扰机与合法用户或窃听设备随着时间的推移动态地形成联盟,以获得更多的报酬,这使得合法用户或窃听设备也能换取在保密传输或窃听方面来自干扰机的更多的帮助,而不是在lu’sfriendly算法和ev’sfriendly算法中干扰机与合法用户或窃听设备仅仅维持固定的关系。

技术特征:
1.一种基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,其特征在于:所述方法基于动态联盟博弈,面向开放无线通信环境下存在的合法用户、窃听设备和干扰机三方之间可能产生的动态对抗与结盟行为,采用物理层安全要求的保密传输速率、窃听速率以及各设备能耗在内的物理量分别构造三方设备的效用函数,运用多阶段序贯博弈和动态联盟博弈分别建模三方设备的策略性交互和动态结盟行为,以开放无线通信环境下三方网络设备各自长期平均效用最大化为目标,分别设计基于联盟切换准则的联盟形成算法和基于深度强化学习的智能决策算法来实现三方设备的结盟选择和智能决策。2.根据权利要求1所述的基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,其特征在于:所述方法对于建立开放无线通信环境中考虑物理层安全场景的网络模型包括如下计算处理过程:(1)在每个时间片中,计算三方设备的相关物理量,包括合法用户的上传速率和保密传输速率窃听设备的窃听速率(2)基于各方设备各自的物理量分别构造三方设备在各个时间片的效用函数和包含系统运行过程中各方的收益和损耗;(3)分别建立三方设备的策略集,生成三方设备各自的长期平均效用最大化优化问题,对于窃听设备,其策略集表示为其优化问题表示为:其优化问题表示为:其优化问题表示为:式中,表示窃听设备在各时间片的激活选择,μ
e
(t)表示窃听设备在各时间片的单位激励量,表示单位激励量上限,对于合法用户其策略集表示为其优化问题表示为其优化问题表示为其优化问题表示为其优化问题表示为式中,表示最小传输速率,表示合法用户在各时间片的目标基站选择,μ
l
(t)表示合法用户在各时间片的单位激励量,表示合法用户在各时间片的的功率分配,对于干扰机,其策略集表示为其优化问题表示为:s.t.,x
{ej}
(t)∈{0,1},
x
{lj}
(t)∈{0,1},x
{ej}
(t)+x
{lj}
(t)=1,式中,x
{ej}
(t)表示窃听设备是否和干扰机结盟,x
{lj}
(t)表示合法用户是否和干扰机结盟,表示干扰机的功率分配;(4)构建多阶段序贯博弈来建模三方设备的策略性交互,多阶段序贯博弈表达式如下:其中,分别表示参与博弈的窃听设备、合法用户和干扰机,表示三方的策略,表示三方的效用函数;在对于三方设备在各个时间片的动态结盟,采用动态联盟博弈来建模,其表达式如下:其中表示参与博弈的窃听设备、合法用户和干扰机,表示参与博弈的窃听设备、合法用户和干扰机,表示三方设备在动态联盟博弈中所有可能产生的联盟;(5)设计基于联盟切换准则的联盟形成算法求解各个时间片中动态联盟博弈的均衡解来实现三方设备在各个时间片的最优结盟选择(即x
{ej}
(t)和x
{lj}
(t)),同时生成稳定的联盟划分(6)设计基于深度强化学习的智能决策算法来求解多阶段序贯博弈在整个系统运行时间0≤t≤t中的全局均衡解,实现三方设备除了结盟选择以外的决策变量的最优决策,该决策变量包括μ
e
(t),和μ
l
(t))。3.根据权利要求1所述的基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,其特征在于:所述网络模型中,每个合法用户占用一个正交信道用于上行传输,其功率分配采用l级离散分配,表示为功率分配采用l级离散分配,表示为同时干扰机也采用l级离散分配,表示为用l级离散分配,表示为为了刻画时变不确定性,系统整体的运行时间被划分为t个时间片,每个正交上行信道的频率带宽为w。4.根据权利要求1所述的基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,其特征在于:步骤(1)中对于上传速率的计算方法为:的计算方法为:其中,表示基站m处的加性高斯白噪声(additive gaussian white noise,awgn),g
nm
(t)和g
jm
(t)表示分别表示合法用户n和干扰机j到基站m的链路的瞬时信道增益;对于窃听速率的计算方法为:
其中,表示窃听设备k处的awgn,g
nk
(t)和g
jk
(t)分别表示合法用户n和干扰机j到窃听设备k的链路的瞬时信道增益;对于保密传输速率的计算方法为:其中,[x]
+
=max(x,0)。5.根据权利要求1所述的基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,其特征在于:步骤(2)中窃听设备在时间片t中的效用函数表示为:其中,c
k
表示单个窃听设备在一个时间片内的激活成本,为窃听设备的性能增益,表示为:表示为:为没有干扰机帮助下窃听设备的性能增益,表示为:合法用户在时间片t中的效用函数表示为:其中,ξ
n
表示合法用户的单位功耗成本,为合法用户的性能增益,表示为:为合法用户的性能增益,表示为:为没有干扰机帮助下合法用户的性能增益,表示为:干扰机在时间片t中的效用函数表示为:其中,η
j
表示合法用户的单位功耗成本,c
conf
表示如果干扰机选择在两个连续的时间片
内更换盟友,则干扰机为通知联盟变更而建立的额外连接所引起的潜在配置成本,为时间片t中合法用户或窃听设备支付给干扰机的激励量,表示为:6.根据权利要求1所述的基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,其特征在于:步骤(4)中多阶段序贯博弈在每个时间片包含三个阶段,首先是窃听设备按照优化目标决策和μ
e
(t),其次是合法用户按照优化目标决策和μ
l
(t),最后是干扰机按照优化目标决策的三个阶段在每个时间片都会重复,在每个时间段的开始,窃听设备和合法用户可以观察到干扰机在前一个时间片的决策,得以实现长期的策略性交互。动态联盟博弈是多阶段序贯博弈的子博弈,用来将求解三方的最优结盟选择x
{ej}
(t)和x
{lj}
(t)的问题转化为对求解均衡解。7.根据权利要求1所述的基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,其特征在于:步骤(5)中用于求解各时间片中三方最优结盟选择的联盟形成算法是分布式运行,同一时间片内各方独立地计算自己的结盟选择,其本质上是求解各个时间片内的均衡,即稳定联盟划分该算法基于如下联盟切换准则来实现:准则1:当且仅当且且准则2:当且仅当其中c
a
和c
b
表示两个联盟,二元关系符表示某方i在时间片t的联盟偏好,二元关系符表示在时间片t中,某方i的联盟转移,即从符号左联盟转移到符号右联盟。8.根据权利要求1所述的基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,其特征在于:步骤(6)中用于训练代理三方设备决策的智能体的算法是基于近端策略优化算法和演员-评论家框架;强化学习过程的状态空间综合考虑了网络拓扑、瞬时信道增益、信号发射功率和联盟状态,并通过邻接矩阵nt(t)将环境状态值规范化,此外,该基于深度强化学习的智能决策算法集分布式训练和集中式训练为一体,对于三方设备的不同决策,采用不同的智能体来训练处最佳策略;所述的瞬时信道增益包括g
nm
(t),g
nk
(t),g
jm
(t)和g
jk
(t);所述的信号发射功率包括和所述的联盟状态用x
{ej}
(t)和x
{lj}
(t)表示。

技术总结
本发明公开了一种基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,对于考虑物理层安全的无线传输环境中存在的窃听设备、合法用户和干扰机三方之间的动态合作与对抗关系采用多阶段序贯博弈和动态联盟博弈来建模,以为达成三者各自的效用最大为目标,帮助这三方设备进行智能决策。在考虑物理层安全的无线传输系统中,本发明采用基于动态联盟博弈的联盟形成算法来完成三方设备的结盟对象选择,并通过深度强化学习算法训练代表各方设备的智能体来完成三方设备的最佳决策,包括合法用户的基站选择、传输功率分配和单位激励量制定,窃听设备的单设备激活选择和单位激励量制定,以及干扰机的干扰功率分配。以及干扰机的干扰功率分配。以及干扰机的干扰功率分配。


技术研发人员:陈若阳 易畅言 朱琨 陈兵
受保护的技术使用者:南京航空航天大学
技术研发日:2023.03.06
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐