一种基于深度强化学习的异构网络资源能效优化方法

未命名 08-13 阅读：93 评论：0

1.本发明涉及无线通信技术领域，具体但不限于涉及一种基于深度强化学习的异构网络资源能效优化方法。

背景技术：

2.随着5g的正式商用，无线通信的发展也进入了新阶段。根据爱立信的预测，到2022年，物联网设备将达到290亿部，到2024年，移动数据流量将以每年35％的速度增长。随着社会通信需求的增加，对目前的无线网络构成了巨大的压力，同时也对通信技术提出了更高的要求。异构网络的出现，减轻了这方面的压力。异构网络是一种可以扩大网络覆盖面积、提高频谱使用效率和系统容量的网络架构技术。为满足无线通信需求，异构组网技术在传统蜂窝网络覆盖的前提下，通过增加多类型小型基站，对特定区域进行覆盖，实现消除盲区和覆盖热点区域，减少终端设备与基站间距离，使得更多的设备在接入网络时可以获得较好的通信质量。异构网络可以在一个宏基站内部署多个小覆盖的微基站或毫微微基站，以提高频谱利用效率和网络覆盖。具体来说，微基站和毫微微基站可以与宏基站复用并共享同一频谱，提高频谱效率。因此异构网络不仅提高了网络容量，而且满足了未来无线网络中用户日益增长的通信需求，并且降低了部署成本。
3.然而，小基站的密集随机部署会产生严重的干扰和较高能耗问题，为降低网络干扰、保证用户网络服务质量(qos)并提高网络能源效率，需要针对异构网络构建资源分配和能源效率优化的框架。然而，考虑到实际环境情况，用户大多都是以动态的方式存在，而且考虑到无线网络的巨大状态空间，例如位置信息、信道增益、功率等，利用传统的强化学习方法并不适用。传统强化学习中的q-learning方法，由于现实中巨大的状态空间，会导致存储q值的q值表巨大，在查找和存储都需要消耗大量的时间和空间，算法的收敛速度大大降低。
4.有鉴于此，需要提供一种新的方法，以期解决上述至少部分问题。

技术实现要素：

5.针对现有技术中的一个或多个问题，本发明提出了一种基于深度强化学习的异构网络资源能效优化方法，解决了传统算法不能处理状态空间大的问题，解决了actor-critic神经网络每次参数更新前后都存在的相关性，增强了鲁棒性。
6.实现本发明目的的技术解决方案为：
7.一种基于深度强化学习的异构网络资源能效优化方法，包括：
8.s1、建立异构网络模型，初始化通信环境并设定模拟环境区域，包括基站布局、基站数量、用户设备数量和子载波数量，其中，用户设备和基站之间基于最大信号与干扰加噪声比sinr原则进行关联，基站采用正交频分多址将资源分配给相关用户设备；
9.s2、根据用户设备的信噪比、网络的容量及能源效率，确定优化目标；
10.s3、引入马尔科夫模型，确定智能体、状态空间、动作空间和奖励函数；
11.s4、构建改进的深度确定性策略梯度算法ddpg，所述改进ddpg算法采用多策略网络actor和单价值网络critic进行分配传输功率和子载波的训练和输出，其中，actor网络的输入为当前智能体的状态，输出为子载波分配策略和子载波上的发射功率；critic网络的输入为智能体的动作、状态，输出为动作的损失和学习到的权重参数；
12.s5、设置智能体训练回合数、每回合训练步数，每个智能体通过改进ddpg算法与所设定的环境产生不断的交互，优化更新网络的参数，获得最优的资源分配方案。
13.进一步的，本发明的基于深度强化学习的异构网络资源能效优化方法，所述通信环境包括一个宏基站、n个毫微微基站和m个用户设备，子载波数为k，m个用户设备和n个毫微微基站由宏基站覆盖，其中，n个毫微微基站服从泊松分布，m个用户设备均匀随机分布。
14.进一步的，本发明的基于深度强化学习的异构网络资源能效优化方法，s2确定优化目标和约束条件包括：
15.s2-1、确定用户所收到的干扰信号，计算用户设备的信噪比信息；
16.s2-2、使用高斯近似处理干扰噪声，计算网络的容量及能源效率；
17.s2-3、确定优化目标为：用户设备的信噪比大于最小服务质量要求，并最大化能源效率。
18.进一步的，本发明的基于深度强化学习的异构网络资源能效优化方法，s2-1中计算用户的信噪比信息具体包括：
19.s2-1-1、假设每个用户设备在任何时候最多只能选择一个基站，当第i个用户设备选择并连接到第l个基站时，则有：当l＝n时，a
i,l
(t)＝1；当l≠n时，a
i,l
(t)＝0，其中，n＝{1,
…
,n}，a
i,l
(t)表示在t时刻基站l与用户设备i之间的连接关系，i∈m，l∈n，n为毫微微基站数量，m为用户设备数量；
20.s2-1-2、在第k个子载波上，由第l个基站服务的用户设备i的信噪比为：
[0021][0022]
其中，k∈k，k为子载波数，a
i,l
表示基站l与用户设备i之间的连接关系系数，和分别表示第l和l
′
个基站在第k个子载波上和用户之间的信道增益，σ2表示为高斯白噪声，和分别表示第l和l
′
个基站在第k个子载波上的发射功率。
[0023]
进一步的，本发明的基于深度强化学习的异构网络资源能效优化方法，s2-2中计算网络的容量及能源效率具体包括：
[0024]
s2-2-1、在第k个子载波上，宏基站与其关联用户设备实现的容量为：
[0025][0026]
其中，表示宏基站h和用户设备i之间的信道增益，表示宏基站h在第k个子载波上的发射功率，表示毫微微基站n和用户设备i之间的信道增益，表示毫微微基站n在第k个子载波上的发射功率，σ2表示为高斯白噪声，n为毫微微基站数量；
[0027]
s2-2-2、在第k个子载波上，毫微微基站与其关联用户设备实现的容量为：
[0028][0029]
其中，表示毫微微基站n和用户设备i之间的信道增益，表示毫微微基站n在第k个子载波上的发射功率；
[0030]
s2-2-3、宏基站和毫微微基站共存在网络中的容量c
sum
为：
[0031][0032]
其中，n为毫微微基站数量；
[0033]
s2-2-4、网络的能源效率η
ee
为：
[0034][0035][0036]
其中，p
sum
为在网络模型中单位时间内所有基站的功耗，pn为毫微微基站n的发射功率，ph为宏基站的发射功率，pc为宏基站和毫微微基站各电路的功耗。
[0037]
进一步的，本发明的基于深度强化学习的异构网络资源能效优化方法，s2-3中优化目标及约束条件具体包括：
[0038]
优化目标为：argmaxη
ee
[0039]
约束条件包括：
[0040]
(a)
[0041]
(b)
[0042]
(c)
[0043]
(d)a
i,l
(t)∈{0,1}
[0044]
(e)pc＝c
[0045]
其中，η
ee
表示网络的能源效率，表示毫微微基站n在第k个子载波上的发射功率，表示毫微微基站n在第k个子载波上的发射功率，表示在第k个子载波上第l个基站服务的用户设备i的信噪比，γ
min
表示最小服务质量要求，a
i,l
(t)表示在t时刻基站l与用户设备i的连接关系，pc为宏基站和毫微微基站各电路的功耗，c为常数。
[0046]
进一步的，本发明的基于深度强化学习的异构网络资源能效优化方法，s3中确定智能体、状态空间、动作空间和奖励函数具体包括：
[0047]
1)将毫微微基站n作为智能体，每个智能体独立更新策略，每个智能体从自己的区域中收集信息并探索网络环境，每个智能体自行选择子载波和发射功率，1≤n≤n；
[0048]
2)状态空间s
n,k
(t)定义为：s
n,k
(t)＝{mn(t),pn(t),ik(t),g
n,k
(t),a
i,l
(t)}，其中，mn(t)表示t时刻毫微微基站的用户数量；pn(t)表示t时刻毫微微基站的功率；ik(t)∈{0,1}表示t时刻第k个子载波上来自宏基站的干扰等级，假设宏基站根据服务质量性能的最小容
量要求为αh，当时干扰等级ik(t)＝0，当时干扰等级ik(t)＝1；g
n,k
(t)表示t时刻在第k个子载波毫微微基站n和用户们的信道信息；a
i,l
(t)表示在t时刻基站与用户的连接关系；
[0049]
3)动作空间a定义为：a＝{kn,p
n,k
(t)}，其中，kn表示第n个基站的第k个子载波，k∈k；p
n,k
(t)表示t时刻第n个毫微微基站的第k个子载波上的功率值，该值通过算法学习进行自主调整；
[0050]
4)根据优化目标，奖励函数定义为用户的能效，即：
[0051][0052]
其中，β是一个小于0的常数。
[0053]
进一步的，本发明的基于深度强化学习的异构网络资源能效优化方法，所述改进ddpg算法具体包括：
[0054]
采样阶段：
[0055]
智能体与通信环境产生交互，将当前状态s(t)输入到原actor网络μ(.|θ
μ
)，原actor网络μ(.|θ
μ
)根据策略μ选择动作a(t)：a(t)＝μ(s(t)|θ
μ
)+n0，n0为噪声；
[0056]
智能体执行动作a(t)后获得环境奖励r(t)，环境并进入下一状态s(t+1)，得到经验样本{s(t)，a(t)，r(t)，s(t+1)}并存储到经验池d中，直至存储量达到经验池d的阈值；
[0057]
训练阶段：从经验池d中随机采样n个经验样本数据作为原actor网络，原critic网络的一个训练数据记作{s
′
(t)，a
′
(t)，r
′
(t)，s
′
(t+1)}；
[0058]
计算原critic网络的损失函数loss，通过梯度方法最小化损失函数，采用adam优化器反向传播更新critic网络参数θq；其中损失函数loss为：
[0059][0060]
其中，yi＝ri+γq
′
(s
i+1
，μ
′
(s
i+1
|θ
μ
′
)|θq′
)，γ是一个折扣因子；定义智能体目标函数为：j(θi)＝e[q
μ
(s，μ(s))]，最大化目标函数，采用adam优化器更新actor网络参数θ
μ
；
[0061]
将旧的目标网络参数和新的对应网络参数做加权平均，软更新目标actor网络和目标critic网络：
[0062][0063]
其中，τ为折扣因子。
[0064]
本发明采用以上技术方案与现有技术相比，具有以下技术效果：
[0065]
1、本发明的基于深度强化学习的异构网络资源能效优化方法，针对实际环境迅速变化的通信场景，实现了通过与环境交互获得信息，并通过不断的深度强化学习获得长期最大化收益，更具有现实意义。
[0066]
2、本发明的基于深度强化学习的异构网络资源能效优化方法，对传统的深度确定性的策略梯度算法进行了改进，使用多actor网络和单critic网络的架构来分配传输功率和子载波，actor网络在训练阶段需要局部观察，并根据学习到的策略产生动作，critic网
络同时根据全局信息对actor网络的策略进行反馈，当模型训练结束后，每个智能体进行分布式执行以获得自己的动作输出，提高了训练速度与稳定性，提升了系统性能。
[0067]
3、本发明的基于深度强化学习的异构网络资源能效优化方法，在异构无线网络中，能够在确保用户服务质量的同时，利用深度强化学习算法，实现自适应选择子载波和发射功率的方式，提高系统整体的吞吐量，提升能源效率并且降低功耗。
附图说明
[0068]
附图用来提供对本发明的进一步理解，与说明描述一起用于解释本发明的实施例，并不构成对本发明的限制。在附图中：
[0069]
图1示出了异构无线网络的通信系统模型示意图。
[0070]
图2示出了本发明的改进ddpg算法的actor网络和critic网络架构。
[0071]
图3示出了本发明的改进ddpg算法的整体流程图。
[0072]
图4示出了本发明的训练模型完成资源分配方案的流程图。
[0073]
图5示出了本发明的改进ddpg算法实例训练流程图。
具体实施方式
[0074]
为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。
[0075]
该部分的描述只针对典型的实施例，本发明并不仅局限于实施例描述的范围。不同实施例的组合、不同实施例中的一些技术特征进行相互替换，相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。
[0076]
为了利用异构组网技术通过增加多类型小型基站数目，进而缩短终端设备与基站之间的距离，有效提高系统容量，来满足无线通信需求。并且，为了解决干扰，提高能效与资源分配问题，为了能够处理状态空间大，使无线通信更加高效，本发明主要提出了基于深度强化学习的异构网络资源能效优化方法。在蜂窝异构网络的背景下，保证用户服务质量的同时，利用深度强化学习方法，实现自主选择子载波和发射功率的方式，提高系统整体的吞吐量，提升能源效率并且降低功耗。
[0077]
主要考虑的场景为异构无线网络的下行链路。异构无线网络由一个宏基站和多个毫微微基站组成。宏基站位于地理区域的中心，其中包含用户设备和毫微微基站由宏基站覆盖。其中，毫微微基站服从泊松分布，用户均匀随机分布在该区域中，如图1所示。特别的是，每个毫微微基站最多只能连接8个用户，以满足用户的最低通信需求。超过上限的用户将被关联到宏基站。基站采用正交频分多址(ofdma)方案将资源分配给与其相关的用户。假设每个基站都可以使用所有可用资源。每个用户可以配置多个子载波，每个子载波在一个时隙内最多只能为一个用户服务。用户设备在下行链路中的接收信号包括来自基站的干扰以及热噪声。假设信道采用特定的衰落模型，即瑞丽衰落信道。本发明采用深度强化学习的方法实现自主选择子载波和发射功率，在满足用户qos的前提下，最大化系统的能效。
[0078]
本发明所采用的方案如图4所示，包括以下步骤：
[0079]
建立一个网络模型，初始化通信环境，设定基站布局、各基站数量、用户设备数量。
[0080]
根据用户设备的信噪比、网络的容量及能源效率，保证通信服务质量，确定优化目标及约束条件。
[0081]
由于描述该问题的状态空间巨大，使用深度强化学习方法，将优化问题转换为马尔科夫决策过程，确定智能体(agent)、状态空间(state)、动作空间(action)、奖励函数(reward)、目标函数和损失函数，构建改进ddpg算法解决该问题。
[0082]
智能体通过改进ddpg算法与所设定的环境产生不断的交互，进而更新参数达到优化网络的效果，使智能体可以获得最优的策略，达到自主进行最优资源分配目的。
[0083]
实施例1
[0084]
本例中的通信环境主要包含一个宏基站(mbs)位于地理区域的中心，m个用户设备(ue)和n个毫微微基站(fbs)由宏基站覆盖。其中，毫微微基站服从泊松分布，用户均匀随机分布在该区域中。通信系统模型如图1所示。为了使本发明的目的及优点更加清晰，下面将对具体的技术方案做进一步的描述。
[0085]
步骤1：初始化蜂窝用户数量为m，子载波数k，用户在区域内随机移动，移动速度v
tm
和移动角度如果用户离开该区域，用户将从另一端重新出现，系统将以0.1的概率随机分配这些用户，用户和基站之间的关联是基于最大信号与干扰加噪声比(signal to interference plus noise ratio，sinr)原则。
[0086]
步骤2.1：确定用户所收到的干扰信号，计算用户的信噪比信息。
[0087]
该通信环境中由于毫微微基站(fbss)部署在宏基站(mbs)的覆盖范围内，因此存在的干扰来自毫微微基站对用户设备产生的干扰。具体如图1所示。
[0088]
定义二进制变量a
i,l
(t)，i∈m，l∈n，表示在t时刻基站与用户的连接关系。当第i个用户设备选择并连接到第l个基站时，a
i,l
(t)＝1，l＝n且a
i,l
(t)＝0，l≠n，其中n＝{1,
…
,n}。假设每个用户设备在任何时候最多只能选择一个基站。
[0089]
在第k(k∈k)个子载波上由第l个基站服务的用户的信噪比(signal to interference plus noise ratio，sinr)表示为
[0090][0091]
考虑到所有用户设备都希望在满足最小服务质量(qos)要求γ
min
的同时，从其选定的基站获得最大传输容量。因此用户设备的sinr应不小于最小服务质量要求γ
min
。其中a
i,l
表示是基站与用户之间的连接关系系数，和分别表示第l和l
′
个基站在第k个子载波上和用户之间的信道增益，σ2表示为高斯白噪声。和分别表示第l和l
′
个基站在第k个子载波上的发射功率。
[0092]
通过容量和能效公式，可以评估系统的性能，其中可以使用高斯近似来处理干扰。在第k个子载波上，宏基站与其关联用户实现的容量可以表示为：
[0093][0094]
其中，表示宏基站在第k个子载波上和用户之间的信道增益，表示宏基站在第k个子载波上的发射功率，表示毫微微基站在第k个子载波上和用户之间的信道增益，
表示毫微微基站在第k个子载波上的发射功率,σ2表示为高斯白噪声。
[0095]
在第k个子载波上，毫微微基站与其关联用户实现的容量可以表示为：
[0096][0097]
其中，表示毫微微基站在第k个子载波上和用户之间的信道增益，表示毫微微基站在第k个子载波上的发射功率，σ2表示为高斯白噪声。
[0098]
因此，宏基站和毫微微基站共存在网络中的容量可以表示为：
[0099][0100]
能源效率一般可以定义为单位时间内总吞吐量与总功耗的比值。本发明中，能源效率表示为：
[0101][0102]
其中，p
sum
表示为在系统模型中单位时间内所有基站的功耗，可以表示为：
[0103][0104]
其中，pc为宏基站和毫微微基站各电路的功耗。
[0105]
步骤2.2：确定优化目标。
[0106]
本发明的目标是在保证用户的sinr大于γ
min
的同时，最大化能源效率η
ee
。
[0107]
优化目标可描述为：argmaxη
ee
[0108]
限制条件如下：(a)
[0109]
(b)
[0110]
(c)
[0111]
(d)a
i,l
(t)∈{0,1}
[0112]
(e)pc＝c
[0113]
(a)、(b)表示基站确保分配给用户的发射功率满足最小接收功率。(c)表示用户的sinr需求。(d)表示每个用户最多关联一个基站。(e)表示宏基站和毫微微基站各电路的功耗为一个常数。
[0114]
步骤3：构建强化学习模型，引入马尔科夫模型，确定智能体、状态空间、动作空间以及奖励函数。利用深度强化学习算法训练，为每个智能体分配最优的策略。
[0115]
智能体(agent)：将毫微微基站n(1≤n≤n)作为智能体，每个智能体独立地更新它的策略，每个智能体可以从自己的区域中收集信息并且探索网络环境，每个智能体可以自行选择子载波和发射功率。
[0116]
状态空间(state)：定义为s
n，k
(t)＝{mn(t)，pn(t)，ik(t)，g
n,k
(t)，a
i,l
(t)}。
[0117]
其中，mn(t)表示t时刻毫微微基站的用户数量；pn(t)表示t时刻毫微微基站的功率；ik(t)∈{0，1}表示t时刻第k个子载波上来自宏基站的干扰等级，假设宏基站根据服务质量性能的最小容量要求为αh，当时干扰等级ik(t)＝0，当时干扰等级ik(t)＝1；g
n,k
(t)表示t时刻在第k个子载波毫微微基站n和用户们的信道信息，a
i,l
(t)表示在t时刻基站与用户的连接关系。
[0118]
动作空间(action)：智能体有k(k∈k)个子载波可供选择。将动作定义为智能体选择的发射功率和子载波，a＝{kn，p
n,k
(t)}。其中，kn表示第n个基站的第k个子载波；p
n,k
(t)表示t时刻第n个毫微微基站的第k个子载波上的功率值，该值后续将通过算法学习进行自主调整。
[0119]
奖励函数(reward)：当智能体执行动作后，并且限制条件(a)、(b)、(c)时，将得到一个奖励值。奖励函数是根据数据速率和能效目标定义的。根据优化的目标，我们将奖励定义为用户的能效：
[0120][0121]
其中β是一个小于0的常数，随着进一步的训练学习过程，每个智能体都会朝着最大化奖励的方向进行调整。
[0122]
步骤4：采用深度强化学习算法，使智能体进行自主学习。强化学习算法包括基于策略的方法，如：策略梯度算法(policy gradient，pg)和演员-评论家(actor-critic，ac)算法；基于值的方法如：q-learning，dqn：以上的传统算法虽然简单、易实现，但在实际应用中，无法处理状态空间大的问题，使用以上的算法收敛速度大大降低，甚至会遇到训练不稳定的情况。因此，本发明使用改进版的ddpg算法能够解决以上算法的不足，使用卷积神经网络来模拟策略函数和q函数，并用深度学习的方法来训练，将dqn扩展到了连续的动作空间或高维度的离散值，吸纳了dqn中的经验回收方式，为了使学习过程更稳定，改进了dqn中的fixed-target方法，使用软更新(soft target update)，并且加入了随机噪声，与环境进行交互，增加了系统的鲁棒性。此外，本发明对其还进行了改进，使用多actor和单critic架构来分配传输功率和子载波，actor在训练阶段需要局部观察，并根据学习到的策略产生动作，critic同时根据全局信息对actor的策略进行反馈，当模型训练结束后，每个智能体进行分布式执行以获得自己的动作输出，提高了训练速度与稳定性，提升了系统性能。
[0123]
ddpg算法基于actor-critic框架，包括四个网络：原actor网络μ(.|θ
μ
)和原critic网络q(.|θq)，另外每个网络都有其对应的目标网络，目标actor网络μ
′
(.|θ
μ
′
)和目标critic网络q
′
(.|θq′
)。actor部分可以在t时刻观察网络状态s(t)，并采取动作a(t)。然后智能体将转移到下一个新的状态s(t+1)，并在执行动作后获得一个及时奖励r(t)。critic用来评估actor产生动作的质量。本发明采用的改进ddpg算法包括多actor网络和单critic网络结构，如图2所示。智能体的学习大体可分为采样阶段与训练学习阶段。
[0124]
在采样阶段，每个智能体不断地与环境产生交互，将当前状态s(t)输入到原actor网络，根据原actor网络根据策略μ选择动作a(t)，策略μ是一个根据当前原actor策略和随机u0噪声的随机过程，从这个随机过程采样获得动作a(t)的值，执行该动作，返回环境的奖励r(t)，同时环境进入下一状态s(t+1)。critic用来评估动作的质量。ddpg算法采用dqn中经验回收的方式，将与环境交互得到的经验样本transition{s(t),a(t),r(t),s(t+1)}存储到经验池d中，注意：由于actor同环境交互时，产生的经验样本在时间上高度关联，所以不能将这些数据序列直接用于训练，会导致神经网络的过拟合，不易收敛。ddpg算法中的actor将经验样本数据存入经验池，直至存储量超过设置的经验池阈值，经验池d中随机采样n个经验样本数据，这样采样得到的数据可以认为是无关联的，不会产生过拟合的现象。
[0125]
在训练学习阶段，计算原critic网络的梯度，使用均方误差mse，原critic网络的
损失函数loss定义如下：
[0126][0127]
其中，yi可以看作是“标签”：
[0128]
yi＝ri+γq
′
(s
i+1
,μ
′
(s
i+1
|θ
μ
′
)|θq′
)
ꢀꢀ
(公式8)
[0129]
yi的计算使用的是目标策略网络μ
′
和目标q网络q
′
，可以使得q网络参数的学习过程更加稳定，易于收敛。γ是一个折扣因子。通过梯度方法最小化损失函数，反向传播更新critic网络参数θq。
[0130]
为智能体定义目标函数j(θi)＝e[q
μ
(s,μ(s))]
[0131][0132]
actor网络通过最大化累积期望回报来更新θ
μ
。
[0133]
目标网络的更新，采用的是软更新，也可以成为指数平均移动(exponential moving average，ema)，即引入一个学习率τ，将旧的目标网络参数和新的对应网络参数做加权平均，然后赋值给目标网络，主要算法流程如图3所示。
[0134]
具体的改进ddpg算法流程如下表所示。
[0135][0136][0137]
实施例2
[0138]
步骤一：初始化通信环境将通信环境模拟为异构网络架构包括一个宏基站和5个毫微微基站。模拟环境区域是一个600m
×
600m的矩形区域，宏基站位于区域的中心位置，宏基站覆盖半径为300m，毫微微基站覆盖半径为30m。60名用户以36km/h的速度和随机的方向移动，如果用户离开该区域，它将从另一端重新出现，以0.1的概率随机重新分配这些用户。用户和基站之间的关联是基于最大sinr原则。
[0139]
步骤二：设置宏基站最大发射功率为46dbm，毫微微基站最大发射功率为30dbm，最小发射功率为20dbm。子载波数为64，用户最低sinr为-6db，折扣因子τ为0.001，折扣因子γ为0.9，蜂窝用户到宏基站的路径损耗为34+40lg(d[km])，带宽为10mhz，高斯白噪声σ2＝-114dbm，噪声功率密度n0为-174dbm/hz，dropput rate为0.8。
[0140]
步骤三：初始化网络参数，所述改进的ddpg算法的actor网络模型由四层一维卷积
和两层全连接层组成，输入为当前智能体的状态，输出包括子载波分配策略和子载波上的发射功率。critic网络模型由四层二维卷积和两层全连接层组成，输入为智能体的动作、状态，输出为动作的损失和学习到的权重参数。经验池容量设置为5000，用于更新的批次大小设置为32。
[0141]
步骤四：设置智能体训练回合数episode＝10000，每回合设置训练步数step＝100步，每隔50步使用adam优化器进行优化神经网络参数的优化，根据智能体的训练过程记录下所获得的奖励，智能体根据所提算法不断地优化自身的策略，最终得到最优的资源分配方案。最终将训练好的模型应用到实际场景，即用户可自主的选择最优的资源分配方案，提高能效。主要训练流程如图5所示。
[0142]
这里本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。说明书中所涉及的效果或优点等相关描述可因具体条件参数的不确定或其它因素影响而可能在实际实验例中不能体现，效果或优点等相关描述不用于对发明范围进行限制。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

技术特征：
1.一种基于深度强化学习的异构网络资源能效优化方法，其特征在于，包括：s1、建立异构网络模型，初始化通信环境并设定模拟环境区域，包括基站布局、基站数量、用户设备数量和子载波数量，其中，用户设备和基站之间基于最大信号与干扰加噪声比sinr原则进行关联，基站采用正交频分多址将资源分配给相关用户设备；s2、根据用户设备的信噪比网络的容量及能源效率η
ee
，确定优化目标；s3、引入马尔科夫模型，确定智能体、状态空间、动作空间和奖励函数；s4、构建改进的深度确定性策略梯度算法ddpg，所述改进ddpg算法采用多策略网络actor网络和单价值网络critic网络进行分配传输功率和子载波的训练和输出，其中，actor网络的输入为当前智能体的状态，输出为子载波分配策略和子载波上的发射功率；critic网络的输入为智能体的动作、状态，输出为动作的损失和学习到的权重参数；s5、设置智能体训练回合数、每回合训练步数，每个智能体通过改进ddpg算法与所设定的环境产生不断的交互，优化更新网络参数，获得最优的异构网络资源分配方案。2.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，所述通信环境包括一个宏基站、n个毫微微基站和m个用户设备，子载波数为k，m个用户设备和n个毫微微基站由宏基站覆盖，其中，n个毫微微基站服从泊松分布，m个用户设备均匀随机分布。3.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，s2确定优化目标和约束条件包括：s2-1、确定用户设备所收到的干扰信号，计算用户设备的信噪比信息；s2-2、使用高斯近似处理干扰噪声，计算网络的容量及能源效率；s2-3、确定优化目标为：用户设备的信噪比大于最小服务质量要求，并最大化能源效率。4.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，s2-1中计算用户的信噪比信息具体包括：s2-1-1、假设每个用户设备在任何时候最多只能选择一个基站，当第i个用户设备选择并连接到第l个基站时，则有：当l＝n时，a
i,l
(t)＝1；当l≠n时，a
i,l
(t)＝0，其中，n＝{1,
…
,n}，a
i,l
(t)表示在t时刻基站l与用户设备i之间的连接关系，i∈m，l∈n，n为毫微微基站数量，m为用户设备数量；s2-1-2、在第k个子载波上，由第l个基站服务的用户设备i的信噪比为：其中，k∈k，k为子载波数，a
i,l
表示基站l与用户设备i之间的连接关系系数，和分别表示第l和l
′
个基站在第k个子载波上和用户之间的信道增益，σ2表示为高斯白噪声，和分别表示第l和l
′
个基站在第k个子载波上的发射功率。5.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，s2-2中计算网络的容量及能源效率具体包括：
s2-2-1、在第k个子载波上，宏基站与其关联用户设备实现的容量为：其中，表示宏基站h和用户设备i之间的信道增益，表示宏基站h在第k个子载波上的发射功率，表示毫微微基站n和用户设备i之间的信道增益，表示毫微微基站n在第k个子载波上的发射功率，σ2表示为高斯白噪声，n为毫微微基站数量；s2-2-2、在第k个子载波上，毫微微基站与其关联用户设备实现的容量为：其中，表示毫微微基站n和用户设备i之间的信道增益，表示毫微微基站n在第k个子载波上的发射功率；s2-2-3、宏基站和毫微微基站共存在网络中的容量c
sum
为：其中，n为毫微微基站数量；s2-2-4、网络的能源效率η
ee
为：为：其中，p
sum
为在网络模型中单位时间内所有基站的功耗，p
n
为毫微微基站n的发射功率，p
h
为宏基站的发射功率，p
c
为宏基站和毫微微基站各电路的功耗。6.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，s2-3中优化目标及约束条件具体包括：优化目标为：argmaxη
ee
约束条件包括：约束条件包括：约束条件包括：(d)a
i,l
(t)∈{0,1}(e)p
c
＝c其中，η
ee
表示网络的能源效率；表示毫微微基站n在第k个子载波上的发射功率，分别为毫微微基站n在第k个子载波上的最小发射功率和最大发射功率；
表示宏基站h在第k个子载波上的发射功率，分别为宏基站h在第k个子载波上的最小发射功率和最大发射功率；表示在第k个子载波上第l个基站服务的用户设备i的信噪比，γ
min
表示最小服务质量要求；a
i,l
(t)表示在t时刻基站l与用户设备i的连接关系；p
c
为宏基站和毫微微基站各电路的功耗，c为常数。7.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，s3中确定智能体、状态空间、动作空间和奖励函数具体包括：1)将毫微微基站n作为智能体，所述每个智能体独立更新策略，每个智能体从自己的区域中收集信息并探索网络环境，每个智能体自行选择子载波和发射功率，1≤n≤n；2)状态空间s
n,k
(t)定义为：s
n,k
(t)＝{m
n
(t),p
n
(t),i
k
(t),g
n,k
(t),a
i,l
(t)}，其中，m
n
(t)表示t时刻毫微微基站的用户数量；p
n
(t)表示t时刻毫微微基站的功率；i
k
(t)∈{0,1}表示t时刻第k个子载波上来自宏基站的干扰等级，假设宏基站根据服务质量性能的最小容量要求为α
h
，当时干扰等级i
k
(t)＝0，当时干扰等级i
k
(t)＝1；g
n,k
(t)表示t时刻在第k个子载波毫微微基站n和用户们的信道信息；a
i,l
(t)表示在t时刻基站与用户的连接关系；3)动作空间a定义为：a＝{k
n
,p
n,k
(t)}，其中，k
n
表示第n个基站的第k个子载波，k∈k；p
n,k
(t)表示t时刻第n个毫微微基站的第k个子载波上的功率值，该值通过算法学习进行自主调整；4)根据优化目标，奖励函数定义为用户的能效，即：其中，β是一个小于0的常数。8.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，所述改进ddpg算法具体包括：采样阶段：智能体与通信环境产生交互，将当前状态s(t)输入到原actor网络μ(.|θ
μ
)，原actor网络μ(.|θ
μ
)根据策略μ选择动作a(t)：a(t)＝μ(s(t)|θ
μ
)+n0，n0为噪声；智能体执行动作a(t)后获得环境奖励r(t)，并进入下一状态s(t+1)，得到经验样本{s(t),a(t),r(t),s(t+1)}并存储到经验池d中，直至存储量达到经验池d的阈值；训练阶段：从经验池d中随机采样n个经验样本数据作为原actor网络，原critic网络q(.|θ
q
)的一个训练数据记作{s
′
(t),a
′
(t),r
′
(t),s
′
(t+1)}；计算原critic网络q(.|θ
q
)的损失函数loss，通过梯度方法最小化损失函数，采用adam优化器反向传播更新critic网络参数θ
q
；其中损失函数loss为：其中，y
i
＝r
i
+γq
′
(s
i+1
,μ
′
(s
i+1
|θ
μ
′
)|θ
q
′
)，γ是一个折扣因子；定义智能体目标函数为：j(θi)＝e[q
μ
(s,μ(s))]，
最大化目标函数，采用adam优化器更新actor网络参数θ
μ
；将旧的目标网络参数和新的对应网络参数做加权平均，软更新目标actor网络和目标critic网络：其中，τ为折扣因子。

技术总结
本发明提供了一种基于深度强化学习的异构网络资源能效优化方法，针对实际环境迅速变化的通信场景，使用多Actor网络和单Critic网络的架构来分配传输功率和子载波，实现了通过与环境交互获得信息，并通过不断的深度强化学习获得长期最大化收益，解决了Actor-Critic神经网络每次参数更新前后都存在的相关性，增强了鲁棒性。同时，每个智能体进行分布式执行以获得自己的动作输出，提高了训练速度与稳定性，提升了系统性能。提升了系统性能。提升了系统性能。

技术研发人员：徐钰龙
受保护的技术使用者：南京信息工程大学
技术研发日：2023.05.09
技术公布日：2023/8/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种大行程立式全动柱反向自动换刀加工中心加工机构的制作方法 下一篇：一种安装支架及应用其的手机屏蔽器的制作方法

一种基于深度强化学习的异构网络资源能效优化方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度强化学习的异构网络资源能效优化方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表