一种基于深度强化学习算法的D2D用户资源分配方法及存储介质

未命名 07-22 阅读：214 评论：0

一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
技术领域
1.本发明涉及无线通信技术领域，更具体地，涉及一种基于深度强化学习算法的d2d用户资源分配方法及存储介质。

背景技术：

2.在当今这个科技快速发展的时代，无线通信技术已经与人们的日常生活名密不可分。人们对移动通信的需求在飞速增加，要求也变得越来越高，从之前的移动通信设备只需要具备简单的通话功能，到后来的需要进行基本的上网搜索，再到如今的刷视频、听音乐，并且对视频的清晰度、音质的要求也逐步提高。然而在用户数量密集、彼此之间通信干扰大的环境下，频谱资源匮乏的问题尤为突出，因此我们提出了许多方法来解决该问题。
3.设备到设备(d2d)技术就是其中之一，它是指通信网络中近邻设备之间直接交换信息的技术。使用d2d通信技术相比与传统的蜂窝通信，d2d通信无需以基站作为中继，因此它可以在距离基站较远甚至没有基站的地方进行通信，有效的降低了基站的传输压力，还可以利用d2d通信技术共享蜂窝用户的频谱资源，大大提高了频谱利用率，提升了系统的吞吐量，使整个通信系统的性能得到了提升。
4.在d2d通信技术中，对于d2d用户(d2d user equipment，due)进行合理的功率分配以及资源块分配至关重要，due主要复用蜂窝用户(cellular user equipment，cue)占用的频谱资源，因此due、cue和基站(base station，bs)三者之间互相存在干扰。为了有效的避免这些干扰，提升d2d用户的服务质量(quality of service，qos)，许多解决方案都已经被提出。例如利用近些年来十分火热的机器学习技术来处理信道的分配以及功率的控制问题，这些大多都是考虑的一个理想的模型，即所有用户的信息都是确定的。但是考虑到在现实环境中，不管是due还是cue大多都是以动态的方式存在的，例如位置信息、信道增益等，信息量巨大、场景变化迅速导致计算复杂度大，传统的优化方法无法适用。

技术实现要素：

5.本发明为克服上述现有技术所述的无法适应动态环境的缺陷，提供一种基于深度强化学习算法的d2d用户资源分配方法及存储介质。
6.为解决上述技术问题，本发明的技术方案如下：
7.第一方面，一种基于深度强化学习算法的d2d用户资源分配方法，包括：
8.构建无线网络模型，对d2d发射功率进行离散化处理生成k个功率等级；所述无线网络模型中包括宏基站、宏基站网络覆盖范围内的l个蜂窝用户及n对d2d用户对，和m个正交频谱资源块，所述无线网络模型被配置的参数包括用户位置；
9.构建用户信噪比计算模型，用于计算d2d用户和蜂窝用户的信噪比信息，及设置d2d用户对以及蜂窝用户进行通信的qos要求，并以d2d用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化；所述用户信噪比包括d2d用户接收端的信
噪比及蜂窝用户的信噪比；
10.宏基站为每个智能体设置预测策略网络π、预测价值网络q、目标策略网络π
′
和目标价值网络q'；
11.将d2d通信环境建模为马尔可夫决策过程，将d2d发射机视为智能体，循环加载目标策略网络的参数后生成策略与环境进行交互，确定状态空间、动作空间及奖励函数；在满足qos要求的前提下，每个智能体在t时刻选择要采用的通信模式，根据当前观测到的状态执行动作，获得奖励并转换到下一个状态，将经验组上传至经验池用于集中式训练；其中，所述通信模式包括专用模式、复用模式和等待模式，所述状态包括d2d用户和蜂窝用户的位置信息及信噪比信息，所述动作包括选择用于通信的功率值和资源块；
12.采用maac算法对每个d2d用户进行策略优化，从经验池中小批量随机采样进行集中式训练，采用td算法更新预测价值网络，采用梯度下降方法更新预测价值网络的参数，基于智能体执行动作获得的奖励计算累计奖励，根据累计奖励设置策略梯度，基于策略梯度采用梯度上升方法循环更新预测策略网络的参数；其中，所述maac算法的学习目标是为每一个智能体学习一个策略，来获得最大累计收益；
13.基于预测策略网络和预测价值网络的参数，采用软更新方式循环更新目标策略网络和目标价值网络的参数，直至完成学习训练；
14.d2d用户下载完成训练的目标策略网络的参数，进行策略改进，根据观测到的当前环境选择通信模式、资源块和/或通信功率。
15.第二方面，一种计算机存储介质，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行第一方面所述的方法。
16.与现有技术相比，本发明技术方案的有益效果是：
17.(1)针对于用户数量密集，场景迅速变化的通信场景，传统的算法处理起来十分困难，本发明采用的无模型的强化学习算法，可以有效的解决在不确定环境下的决策问题。
18.(2)本发明采用的maac算法框架，对多智能体之间的策略进行协调，有效的克服了多智能体环境的非平稳性，实现了通信系统的最优能效，适合于复杂多变的通信场景。
19.(3)本发明采用了集中式训练、分布式执行的方式，d2d用户将与环境交互的有用信息上传至经验池，以此将复杂的训练过程转移到基站进行，使智能体的训练过程更加高效。
20.(4)本发明中的d2d用户对可工作在两种模式：专用模式和复用模式。d2d用户会优先选择空闲信道进行通信，并且当选择进入复用模式前，会先提前检测d2d用户复用蜂窝用户频谱资源后蜂窝用户以及d2d用户是否还满足qos要求，只有在满足的情况下才可以进行复用，提高了频带利用率的同时，大大降低了蜂窝用户数据传输的失败率，保证了数据传输的可靠性。
21.(5)本发明中的每个d2d用户根据所提算法可以在保证qos质量的前提下自主的选择传输功率，避免了d2d用户为了数据传输而始终工作在最高的发射功率，降低了系统的功耗。
附图说明
22.图1为一种基于深度强化学习算法的d2d用户资源分配方法的流程图；
23.图2为实施例1中无线网络模型的结构示意图；
24.图3为实施例1中智能体与环境交互过程示意图；
25.图4为实施例1中网络更新过程示意图；
26.图5为实施例1中相邻智能体间信息共享示意图；
27.图6为实施例2中训练流程示意图。
具体实施方式
28.附图仅用于示例性说明，不能理解为对本专利的限制；
29.为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；
30.对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。
31.下面结合附图和实施例对本发明的技术方案做进一步的说明。
32.实施例1
33.本实施例提供一种基于深度强化学习算法的d2d用户资源分配方法，参阅图1，包括：
34.构建无线网络模型如图2所示，对d2d发射功率进行离散化处理生成k个功率等级；所述无线网络模型中包括宏基站、宏基站网络覆盖范围内的l个蜂窝用户及n对d2d用户对，和m个正交频谱资源块，所述无线网络模型被配置的参数包括用户位置；
35.构建用户信噪比计算模型，用于计算d2d用户和蜂窝用户的信噪比信息，及设置d2d用户对以及蜂窝用户进行通信的qos要求，并以d2d用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化；所述用户信噪比包括d2d用户接收端的信噪比及蜂窝用户的信噪比；
36.宏基站为每个智能体设置预测策略网络π、预测价值网络q、目标策略网络π
′
和目标价值网络q'；
37.将d2d通信环境建模为马尔可夫决策过程，将d2d发射机视为智能体，循环加载目标策略网络π
′
的参数后生成策略与环境进行交互，确定状态空间、动作空间及奖励函数；参阅图3，在满足qos要求的前提下，每个智能体在t时刻选择要采用的通信模式，根据当前观测到的状态s执行动作a，获得奖励r并转换到下一个状态s’，将经验组(s,,’,r)上传至经验池用于集中式训练；其中，所述通信模式包括专用模式、复用模式和等待模式，所述状态包括d2d用户和蜂窝用户的位置信息及信噪比信息，所述动作包括选择用于通信的功率值和资源块；
38.采用maac算法对每个d2d用户进行策略优化，从经验池中小批量随机采样进行集中式训练，采用td算法更新预测价值网络，采用梯度下降方法更新预测价值网络的参数，基于智能体执行动作获得的奖励计算累计奖励，根据累计奖励设置策略梯度，基于策略梯度采用梯度上升方法循环更新预测策略网络的参数；其中，所述maac算法的学习目标是为每一个智能体学习一个策略，来获得最大累计收益；
39.基于预测策略网络和预测价值网络的参数，采用软更新方式循环更新目标策略网络和目标价值网络的参数，直至完成学习训练；
40.d2d用户下载完成训练的目标策略网络的参数，进行策略改进，根据观测到的当前环境选择通信模式、资源块和/或通信功率。
41.该实施例中，马尔可夫决策过程为无模型的强化学习模型，将每个d2d发射机视为智能体，在未知环境中，智能体(即d2d用户)通过自我决策来提高整个系统的性能，基于多个智能体与环境进行交互不断试错，实现自适应学习，特别适用于解决无线通信领域信道状态信息量巨大、场景变化迅速导致计算复杂度大的问题。
42.同时，本实施例还采用了maac(multi-agent actor-critic)算法，maac算法可分为集中式训练和分布式执行两部分；其中集中式训练是指将复杂的多智能体训练过程转移到基站进行，基站可轻松部署gpu等硬件设备，从而加速计算；分布式执行过程是指将每个d2d发射机视为智能体与环境交互进行采样，降低了基站的信令开销与计算负载。本实施例通过maac算法为每个d2d用户寻找最优策略，从而找到一种策略来最大化整个系统的能效，解决训练学习过程中存在的不稳定性问题。
43.示范性地，所述无线网络模型被配置的参数包括用户位置，还包括但不限于网络覆盖半径范围、基站位置、信道增益和/或资源块数量。
44.示范性地，所述qos要求基于用户最低信噪比设置。
45.可以理解，经验池存储有智能体与环境交互产生的历史经验，将经验池中数据进行小批量随机抽样用于训练，可以降低样本之间的相关性，避免对经验的浪费。
46.示范性地，经验池为大小有限的区域，当经验池存储满后，最旧的经验将被丢弃掉。
47.在一具体实施过程中，经验池大小设置为4026，每次采样批次大小为128。
48.在一优选实施例中，所述用户信噪比计算模型包括第m个d2d用户接收端的sinr和第l个蜂窝用户的sinr；
49.其中，第m个d2d用户接收端的sinr，其表达式为：
[0050][0051]
式中，表示d2d发射机的发射功率；表示d2d发射机和d2d接收机之间的信道增益；表示蜂窝资源共享系数，用于区分d2d通信模式，当第m个d2d用户使用空闲信道进行通信，即未复用蜂窝用户频谱资源块，此时没有蜂窝用户的干扰，则当复用了蜂窝用户的频谱资源块，则表示蜂窝用户的发射功率；表示蜂窝用户到d2d的信道增益；表示d2d资源共享系数，若此时有其他第n个d2d用户与第m个d2d用户复用相同资源块，否则表示其他d2d用户的发射功率；表示其他d2d用到该d2d用户的信道增益；σ2表示高斯白噪声；
[0052]
第l个蜂窝用户的sinr，其表达式为：
[0053][0054]
式中，表示蜂窝用户的发射功率；表示宏基站到蜂窝用户的信道增益；表示资源块复用系数，若表示有d2d用户复用蜂窝用户资源块，否则为表示第n
个d2d的发射功率；表示d2d用户n到蜂窝用户l的信道增益；σ2表示高斯白噪声；
[0055]
所述系统吞吐量tp表达式为：
[0056][0057]
式中，代表蜂窝用户和宏基站之间的带宽，代表d2d发送机与d2d接收机之间的带宽；tpc表示蜂窝用户侧的吞吐量；tpd表示d2d用户侧的吞吐量；
[0058]
所述设置d2d用户对以及蜂窝用户进行通信的qos要求，并以d2d用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化，描述为如下表达式：
[0059]
maxtp(3a)
[0060][0061][0062][0063]
pc＝c
ꢀꢀꢀ
(3e)
[0064]
其中，式(3a)表示系统吞吐量最大的优化目标，式(3b)、(3c)表示d2d接收机和蜂窝用户的sinr要求，式(3d)、(3e)表示对d2d发射机以及蜂窝用户发射功率的限定条件；表示d2d最低信噪比要求；表示表示蜂窝用户最低信噪比要求；表示d2d最低传输功率；表示d2d最高传输功率；表示第n个d2d对的发射功率；pc表示蜂窝用户的发射功率；c为常数，代表环境中的所有蜂窝用户的发射功率为固定值。
[0065]
在一可选实施例中，所述将d2d通信环境建模为马尔可夫决策过程，将d2d发射机视为智能体，循环加载目标策略网络π
′
的参数后生成策略与环境进行交互，确定状态空间、动作空间及奖励函数，在满足qos要求的前提下，每个智能体在t时刻选择要采用的通信模式，根据当前观测到的状态s执行动作a，获得奖励r并转换到下一个状态s’，将经验组(s,a,s’,r)上传至经验池用于集中式训练，具体为：
[0066]
将d2d通信环境建模为马尔可夫决策过程，将d2d发射机视为智能体；
[0067]
智能体循环加载目标策略网络π
′
的参数后生成策略与环境进行交互，在t时刻选择要采用的通信模式，根据t时刻观测到的状态s执行动作a，获得奖励r并转换到下一个状态s’；其中，智能体执行的动作都在qos要求的约束下进行；
[0068]
将第m个d2d用户对t时刻的状态空间定义为其中，表示t时刻d2d用户自身基本信息，包括d2d用户的位置信息以及用户信噪比信息即表示蜂窝用户基本信息，包括蜂窝用户用户的位置信息以及用户信噪比信息即即
[0069]
将第m个d2d用户对t时刻的动作空间定义为其中，表示d2d用户选择第x个资源块，共有m维；表示选择第z个功率等级进行通信，共有k个选择；
[0070]
将第m个用户对t时刻执行动作所获得的奖励定义为：
[0071][0072]
其中，是一个小于0的常数；表示第m个d2d用户t时刻的信噪比，表示d2d用户带宽；
[0073]
将转换前的环境s、执行的动作a、转换后的环境s’和奖励r以经验组(s,a,s’,r)的形式上传至经验池。
[0074]
示范性地，当第m个用户对即智能体获得奖励时，均执行对应经验组的上传操作。
[0075]
示范性地，当第m个用户对即智能体获得非负奖励时，执行对应经验组的上传操作，否则不执行上传操作。
[0076]
在一优选实施例中，所述每个智能体在t时刻选择要采用的通信模式，包括：
[0077]
判断系统中是否有空闲信道：若是，则采用专用模式进行通信；
[0078]
否则，判断复用资源块后是否满足d2d用户及蜂窝用户的qos要求：若是，d2d用户进入专用模式，共享蜂窝用户资源进行通信；否则，进入等待模式，不进行通信，直到系统中有空闲信道后再次发起通信请求。
[0079]
在一优选实施例中，所述累计奖励表达式为：
[0080][0081]
式中，γn代表折扣因子，取值在[0,1]区间内；表示奖励期望；表示即时奖励；n代表对未来若干步奖励的折扣幂次。
[0082]
在一可选实施例中，参阅图4，所述采用maac算法对每个d2d用户进行策略优化，从经验池中小批量随机采样进行集中式训练，采用td算法更新预测价值网络，采用梯度下降方法更新预测价值网络的参数，基于智能体执行动作获得的奖励计算累计奖励，根据累计奖励设置策略梯度，基于策略梯度采用梯度上升方法循环更新预测策略网络的参数，包括：
[0083]
在多智能体环境下，将所有智能体的预测策略网络π＝{π1,π2…
πn}以及预测价值网络q＝{q1,q2…qn
}的参数分别定义为和将所有智能体的目标策略网络π
′
＝(π
′1,π
′2......π
′n)以及目标价值网络q
′
＝(q
′1,q
′2......q
′n)的参数分别定义为和
[0084]
判断经验池中存储的经验组数量是否满足预设阈值：若是，执行集中式训练，否则，不进行操作；
[0085]
其中，所述集中式训练包括：
[0086]
从经验池中小批量随机采样，建立当前轮次训练用数据集；
[0087]
第i个智能体的预测策略网络以状态s
t
为输入，采用ε-greedy策略生成选择动作a
t
的策略a，智能体执行动作a
t
，状态转换到s’并且得到奖励r
t
；其中，ε-greed策略表达式为：
[0088][0089]
式中，a表示智能体的动作策略；ε的值随学习过程不断衰减；
[0090]
利用预测价值网络来近似动作价值函数，采用td算法更新预测价值网络，使用贝尔曼方程学习q函数，即动作价值函数尔曼方程学习q函数，即动作价值函数第i个智能体的预测价值网络以智能体的状态s
t
和动作a
t
为输入，输出动作价值函数目标价值网络以转换后的状态s’和下一刻的动作a’为输入，输出下一刻的动作价值函数
[0091]
根据预测价值网络与目标价值网络的输出，采用函数逼近法，通过最小化损失函数来更新预测价值网络；其中，所述损失函数表达式如下：
[0092][0093]
式中，yi为目标值，由目标价值网络生成，yi＝ri+γqi(s
′
,a'|θq)，γ表示折扣因子，取值在[0,1]区间内，γ越小说明越不在乎未来收益，当γ等于0时表示只考虑即时收益，随着γ越来越趋近于1代表越来越重视未来的收益；为预测值，由预测价值网络输出；
[0094]
定义td-error为采用梯度下降方法更新预测价值网络的参数θq，使得td-error减小，进而减小预测误差；
[0095]
根据第i个智能体的累计奖励，定义策略梯度，其表达式如下：
[0096][0097]
式中，表示预测价值网络中得到的q函数的梯度；表示预测策略网络的确定性策略梯度；d表示经验池；
[0098]
基于策略梯度，采用梯度上升方法更新预测策略网络的参数
[0099]
在该可选实施例中，采用ε-greedy策略生成选择动作a
t
的策略a，即以一个概率ε随机选择动作，以1-ε的概率选择可以使下一时刻动作价值函数值最大的动作，并通过让ε的值随着学习的过程不断衰减，保证了在学习的开始阶段，智能体使用较多探索策略，充分探索整个状态空间，找到所有可能的状态，随着学习的进行，学习的策略越来越成熟，因而使用较多的贪婪策略，选择当下价值最大的行为。
[0100]
示范性地，下一时刻动作a’通过预测策略网络生成。
[0101]
进一步地，所述预测价值网络的输入中引入邻居用户机制，具体为：
[0102]
设置距离约束值zo；
[0103]
将与第i个智能体距离z
i～j
小于约束值zo的第j个智能体置入邻居集合oi＝{d2dj|z
i～j
≤zo,j∈n}中，第i个智能体与第j个智能体互为邻居用户；其中，所述不同智能体间的距离为d2d发射机间的距离，通过欧几里得距离公式计算得到；对于位置为zi＝(xi,yi)的第i个智能体和位置为zj＝(xj,yj)的第j个智能体，其间距离的表达式为：
[0104][0105]
第i个智能体的预测价值网络的输入包括第i个智能体的状态和动作，还包括集合oi中智能体的状态和动作，输出第i个智能体的动作价值函数
[0106]
由于d2d用户对相距较远时，信号大范围衰落，所受干扰主要与附近共享同一频谱的d2d用户有关，即使相距较远的d2d用户共享相同的频谱资源，它们之间的干扰也几乎可以被忽略。通过引入邻居用户机制，基站根据d2d用户对之间的距离信息确定是否需要共享信息，以此避免相距较近的d2d对由于选择了相同频谱而在通信过程中发生冲突，预测价值网络会根据集合oi增加其他附近智能体的状态动作信息，以评估操作的质量。参阅图5，描述了相邻智能体间进行信息共享的过程。相比于基站需获取全局的d2d用户对信息进行协调的方法，这种只选择部分d2d用户对共享信息的方式大大降低了基站的计算开销，提升了系统性能。
[0107]
在一优选实施例中，所述预测策略网络和预测价值网络的参数和θq的更新过程中引入了资格迹机制，具体为：
[0108]
θ
π
←
θ
π
+α
π
δz
π
[0109]
θq←
θq+αqδzq[0110]
其中，δ表示td-error，表示预测价值网路输出的动作价值函数；表示n步时序差分误差的λ回报，其表达式为：
[0111][0112]
式中，t表示最终时刻；λ为衰减率参数，其取值在区间[0,1]内，当＝0时，λ回报为g
t：t+1
，即单步回报，此时λ回报的更新算法就是单步时序差分误差算法，当λ＝1时，λ回报为g
t
，即λ回报的更新算法就是蒙特卡洛算法；
[0113]zπ
表示预测策略网络的资格迹，zq表示预测价值网络的资格迹，其更新方式如下：
[0114][0115][0116]
其中，λ为衰减率参数，λ∈[0,1]；γ为折扣系数；表示预测策略网络的梯度；表示预测价值网络的梯度；资格迹在每一步累加一个梯度值并以γλ衰减，追踪了对最近的状态评估值做出了或正或负贡献的权值向量的分量。
[0117]
资格迹是一个与权值向量同维度的向量，为短期记忆，该优选实施例中用资格迹来辅助学习过程，影响权值向量，而权值向量则决定了估计值，资格迹机制的引入使智能体的训练过程更加高效。此外，相较于传统的仅采用单步时序差分误差的λ回报，本优选实施例采用了n步时序差分误差的λ回报，可以显著提高预测的精准度。
[0118]
在一优选实施例中，所述目标策略网络和目标价值网络的参数软更新过程如下：
[0119][0120]
其中，θ
π
′
表示目标策略网络的参数；τ表示参数更新系数，取值在[0,1]区间内；θ
π
表示预测策略网络的参数；θq′
表示目标价值网络的参数；θq表示目标价值网络的参数。
[0121]
在一具体实施过程中，预设τ＝0.01，这使得目标网络的参数更新是缓慢的，提高了学习的稳定性。
[0122]
实施例2
[0123]
本实施例对实施例1提出的方法进行了仿真实验，考虑单个小区中的蜂窝网络的上行链路，设置仿真环境如下：
[0124]
初始化一通信环境，设置基站覆盖范围半径为500m，基站位于小区的中心位置，基站高度设置为25m，基站覆盖范围内随机分布8个蜂窝用户与16个d2d用户，用户以4-8km/h的速度移动着，设置d2d用户可共享信息的距离约束值zo＝50m，为每个蜂窝用户分配一个资源块，资源块带宽180khz，d2d用户在该区域内通过复用蜂窝用户的资源块进行通信。
[0125]
初始化蜂窝用户的发射功率为46dbm，d2d用户的发射功率设置为[0,30]，蜂窝用户最小信噪比要求1db，高斯白噪声-114dbm，路径损耗为128.1+37.6log(r(km))，带宽4mhz，载波频率2ghz。
[0126]
初始化预测策略网络π、预测价值网络q、目标策略网络π
′
和目标价值网络q'；其中，预测策略网络π和目标策略网络π
′
均是具有两个隐藏层的全连接神经网络，设置隐藏层神经元的数量分别256和128，网络学习率为0.0001；预测价值网络q和目标价值网络q'均是具有三个隐藏层的全连接神经网络，神经元数量分别为256、128和64，网络学习率为0.001。使用adma优化器对上述网络进行优化，设置网络的初始资格迹均为z-1
＝0。
[0127]
设置负奖励值为-1，设置折扣因子γ＝0.95。
[0128]
经验池d大小为4026，每次采样批次大小为128。
[0129]
构建无线网络模型，包括1个基站、8个蜂窝用户与8对d2d用户对。
[0130]
构建用户信噪比计算模型，以d2d用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化。
[0131]
将d2d通信环境建模为马尔可夫决策过程，将d2d发射机视为智能体，循环加载目标策略网络的参数后生成策略与环境进行交互，确定状态空间、动作空间及奖励函数；在满足qos要求的前提下，每个智能体在t时刻选择要采用的通信模式，根据当前观测到的状态s执行动作a，获得奖励r并转换到下一个状态s’，将经验组上传至经验池用于集中式训练。
[0132]
采用maac算法对每个d2d用户进行策略优化，采用td算法更新预测价值网络，采用梯度下降方法更新预测价值网络的参数，基于智能体执行动作获得的奖励计算累计奖励，根据累计奖励设置策略梯度，引入资格迹机制，基于策略梯度采用梯度上升方法循环更新预测策略网络的参数；
[0133]
基于预测策略网络和预测价值网络的参数，采用软更新方式循环更新目标策略网络和目标价值网络的参数。
[0134]
参阅图6，通过对环境中的智能体训练10000个回合，每回合设置100步，每隔50步更新一次网络参数，根据智能体的训练过程记录下奖励情况，智能体不断地优化自身的策略朝着最大化奖励的方向进行，最终得到使能效最大化的资源分配方案。
[0135]
实施例3
[0136]
本实例提供了一种计算机存储介质，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行如实施例1所述的方法。
[0137]
相同或相似的标号对应相同或相似的部件；
[0138]
附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；
[0139]
显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对
本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

技术特征：
1.一种基于深度强化学习算法的d2d用户资源分配方法，其特征在于，包括：构建无线网络模型，对d2d发射功率进行离散化处理生成k个功率等级；所述无线网络模型中包括宏基站、宏基站网络覆盖范围内的l个蜂窝用户及n对d2d用户对，和m个正交频谱资源块，所述无线网络模型被配置的参数包括用户位置；构建用户信噪比计算模型，用于计算d2d用户和蜂窝用户的信噪比信息，及设置d2d用户对以及蜂窝用户进行通信的qos要求，并以d2d用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化；所述用户信噪比包括d2d用户接收端的信噪比及蜂窝用户的信噪比；宏基站为每个智能体设置预测策略网络π、预测价值网络q、目标策略网络π
′
和目标价值网络q'；将d2d通信环境建模为马尔可夫决策过程，将d2d发射机视为智能体，循环加载目标策略网络π
′
的参数后生成策略与环境进行交互，确定状态空间、动作空间及奖励函数；在满足qos要求的前提下，每个智能体在t时刻选择要采用的通信模式，根据当前观测到的状态s执行动作a，获得奖励r并转换到下一个状态s’，将经验组(s,,’,r)上传至经验池用于集中式训练；其中，所述通信模式包括专用模式、复用模式和等待模式，所述状态包括d2d用户和蜂窝用户的位置信息及信噪比信息，所述动作包括选择用于通信的功率值和资源块；采用maac算法对每个d2d用户进行策略优化，从经验池中小批量随机采样进行集中式训练，采用td算法更新预测价值网络，采用梯度下降方法更新预测价值网络的参数，基于智能体执行动作获得的奖励计算累计奖励，根据累计奖励设置策略梯度，基于策略梯度采用梯度上升方法循环更新预测策略网络的参数；其中，所述maac算法的学习目标是为每一个智能体学习一个策略，来获得最大累计收益；基于预测策略网络和预测价值网络的参数，采用软更新方式循环更新目标策略网络和目标价值网络的参数，直至完成学习训练；d2d用户下载完成训练的目标策略网络的参数，进行策略改进，根据观测到的当前环境选择通信模式、资源块和/或通信功率。2.根据权利要求1所述的一种基于深度强化学习算法的d2d用户资源分配方法，其特征在于，所述用户信噪比计算模型包括第m个d2d用户接收端的sinr和第l个蜂窝用户的sinr；其中，第m个d2d用户接收端的sinr，其表达式为：式中，表示d2d发射机的发射功率；表示d2d发射机和d2d接收机之间的信道增益；表示蜂窝资源共享系数，用于区分d2d通信模式，当第m个d2d用户使用空闲信道进行通信，即未复用蜂窝用户频谱资源块，此时没有蜂窝用户的干扰，则当复用了蜂窝用户的频谱资源块，则的频谱资源块，则表示蜂窝用户的发射功率；表示蜂窝用户到d2d的信道增益；表示d2d资源共享系数，若此时有其他第n个d2d用户与第m个d2d用户复用相同资源块，否则否则表示其他d2d用户的发射功率；表示其他d2d用到该d2d用户的信道增益；σ2表示高斯白噪声；
第l个蜂窝用户的sinr，其表达式为：式中，表示蜂窝用户的发射功率；表示宏基站到蜂窝用户的信道增益；表示资源块复用系数，若表示有d2d用户复用蜂窝用户资源块，否则为表示有d2d用户复用蜂窝用户资源块，否则为表示第n个d2d的发射功率；表示d2d用户n到蜂窝用户l的信道增益；σ2表示高斯白噪声；所述系统吞吐量tp表达式为：式中，代表蜂窝用户和宏基站之间的带宽，代表d2d发送机与d2d接收机之间的带宽；tp
c
表示蜂窝用户侧的吞吐量；tp
d
表示d2d用户侧的吞吐量；所述设置d2d用户对以及蜂窝用户进行通信的qos要求，并以d2d用户与蜂窝用户组成的通信系统吞吐量最大为优化目标对无线网络模型进行优化，描述为如下表达式：maxtp(3a)maxtp(3a)maxtp(3a)p
c
＝(3e)其中，式(3a)表示系统吞吐量最大的优化目标，式(3b)、(3c)表示d2d接收机和蜂窝用户的sinr要求，式(3d)、(3e)表示对d2d发射机以及蜂窝用户发射功率的限定条件；γ
d*
表示d2d最低信噪比要求；γ
c*
表示表示蜂窝用户最低信噪比要求；表示d2d最低传输功率；表示d2d最大传输功率；表示第n个d2d对的发射功率；p
c
表示蜂窝用户的发射功率；c为常数，代表环境中的所有蜂窝用户的发射功率为固定值。3.根据权利要求2所述的一种基于深度强化学习算法的d2d用户资源分配方法，其特征在于，将d2d通信环境建模为马尔可夫决策过程，将d2d发射机视为智能体，循环加载目标策略网络π
′
的参数后生成策略与环境进行交互，确定状态空间、动作空间及奖励函数，在满足qos要求的前提下，每个智能体在t时刻选择要采用的通信模式，根据当前观测到的状态s执行动作a，获得奖励r并转换到下一个状态s’，将经验组(,a,s’,r)上传至经验池用于集中式训练，具体为：将d2d通信环境建模为马尔可夫决策过程，将d2d发射机视为智能体；智能体循环加载目标策略网络π
′
的参数后生成策略与环境进行交互，在t时刻选择要采用的通信模式，根据t时刻观测到的状态s执行动作a，获得奖励r并转换到下一个状态s’；其中，智能体执行的动作都在qos要求的约束下进行；将第m个d2d用户对t时刻的状态空间定义为其中，表示t时刻d2d用户自身基本信息，包括d2d用户的位置信息以及用户信噪比信息即
表示蜂窝用户基本信息，包括蜂窝用户用户的位置信息以及用户信噪比信息即即将第m个d2d用户对t时刻的动作空间定义为其中，表示d2d用户选择第x个资源块，共有m维；表示选择第z个功率等级进行通信，共有k个选择；将第m个用户对t时刻执行动作所获得的奖励定义为：其中，是一个小于0的常数；是一个小于0的常数；表示第m个d2d用户t时刻的信噪比，表示d2d用户带宽；将转换前的环境s、执行的动作a、转换后的环境s’和奖励r以经验组(s,a,s’,r)的形式上传至经验池。4.根据权利要求1所述一种基于深度强化学习算法的d2d用户资源分配方法，其特征在于，所述每个智能体在t时刻选择要采用的通信模式，包括：判断系统中是否有空闲信道：若是，则采用专用模式进行通信；否则，判断复用资源块后是否满足d2d用户及蜂窝用户的qos要求：若是，d2d用户进入专用模式，共享蜂窝用户资源进行通信；否则，进入等待模式，不进行通信，直到系统中有空闲信道后再次发起通信请求。5.根据权利要求1所述的一种基于深度强化学习算法的d2d用户资源分配方法，其特征在于，所述累计奖励表达式为：式中，γ
n
代表折扣因子，取值在[0,1]区间内；表示奖励期望；表示即时奖励。6.根据权利要求5所述的一种基于深度强化学习算法的d2d用户资源分配方法，其特征在于，所述采用maac算法对每个d2d用户进行策略优化，从经验池中小批量随机采样进行集中式训练，采用td算法更新预测价值网络，采用梯度下降方法更新预测价值网络的参数，基于智能体执行动作获得的奖励计算累计奖励，根据累计奖励设置策略梯度，基于策略梯度采用梯度上升方法循环更新预测策略网络的参数，包括：在多智能体环境下，将所有智能体的预测策略网络π＝{π1,π2…
π
n
}以及预测价值网络q＝{q1,q2…
q
n
}的参数分别定义为和将所有智能体的目标策略网络π
′
＝(π
′1,π
′2......π
′
n
)以及目标价值网络q
′
＝(q
′1,q
′2......q
′
n
)的参数分别定义为和判断经验池中存储的经验组数量是否满足预设阈值：若是，执行集中式训练，否则，不进行操作；其中，所述集中式训练包括：从经验池中小批量随机采样，建立当前轮次训练用数据集；
第i个智能体的预测策略网络以状态s
t
为输入，采用ε-greedy策略生成选择动作a
t
的策略a，智能体执行动作a
t
，状态转换到s’并且得到奖励r
t
；其中，ε-greed策略表达式为：式中，a表示智能体的动作策略；ε的值随学习过程不断衰减；利用预测价值网络来近似动作价值函数，采用td算法更新预测价值网络，使用贝尔曼方程学习q函数，即动作价值函数方程学习q函数，即动作价值函数第i个智能体的预测价值网络以智能体的状态s
t
和动作a
t
为输入，输出动作价值函数目标价值网络以转换后的状态s’和下一刻的动作a’为输入，输出下一刻的动作价值函数根据预测价值网络与目标价值网络的输出，采用函数逼近法，通过最小化损失函数来更新预测价值网络；其中，所述损失函数表达式如下：式中，y
i
为目标值，由目标价值网络生成，y
i
＝r
i
+γq
i
(s'，a'|θ
q
)，γ表示折扣因子，取值在[0,1]区间内，γ越小说明越不在乎未来收益，当γ等于0时表示只考虑即时收益，随着γ越来越趋近于1代表越来越重视未来的收益；为预测值，由预测价值网络输出；定义td-error为采用梯度下降方法更新预测价值网络的参数θ
q
，使得td-error减小，进而减小预测误差；根据第i个智能体的累计奖励，定义策略梯度，其表达式如下：式中，表示预测价值网络中得到的q函数的梯度；表示预测策略网络的确定性策略梯度；d表示经验池；基于策略梯度，采用梯度上升方法更新预测策略网络的参数7.根据权利要求6所述的一种基于深度强化学习算法的d2d用户资源分配方法，其特征在于，所述预测价值网络的输入中引入邻居用户机制，具体为：设置距离约束值z
o
；将与第i个智能体距离z
i～j
小于约束值z
o
的第j个智能体置入邻居集合o
i
＝{d2d
j
|z
i～j
≤z
o
,j∈n}中，第i个智能体与第j个智能体互为邻居用户；其中，所述不同智能体间的距离为d2d发射机间的距离，通过欧几里得距离公式计算得到；对于位置为z
i
＝(x
i
,y
i
)的第i个智能体和位置为z
j
＝(x
j
,y
j
)的第j个智能体，其间距离的表达式为：第i个智能体的预测价值网络的输入包括第i个智能体的状态和动作，还包括集合o
i
中智能体的状态和动作，输出第i个智能体的动作价值函数8.根据权利要求1所述的一种基于深度强化学习算法的d2d用户资源分配方法，其特征
在于，所述预测策略网络和预测价值网络的参数和θ
q
的更新过程中引入了资格迹机制，具体为：θ
π
←
θ
π
+α
π
δz
π
θ
q
←
θ
q
+α
q
δz
q
其中，δ表示td-error，error，表示预测价值网路输出的动作价值函数；表示n步时序差分误差的λ回报，其表达式为：式中，t表示最终时刻；λ为衰减率参数，其取值在区间[0,1]内，当＝0时，λ回报为g
t：t+1
，即单步回报，此时λ回报的更新算法就是单步时序差分误差算法，当λ＝1时，λ回报为g
t
，即λ回报的更新算法就是蒙特卡洛算法；z
π
表示预测策略网络的资格迹，z
q
表示预测价值网络的资格迹，其更新方式如下：表示预测价值网络的资格迹，其更新方式如下：其中，λ为衰减率参数，λ∈[0,1]；γ为折扣系数；表示预测策略网络的梯度；表示预测价值网络的梯度；资格迹在每一步累加一个梯度值并以γλ衰减，追踪了对最近的状态评估值做出了或正或负贡献的权值向量的分量。9.根据权利要求1所述的一种基于深度强化学习算法的d2d用户资源分配方法，其特征在于，所述目标策略网络和目标价值网络的参数软更新过程如下：其中，θ
π
′
表示目标策略网络的参数；τ表示参数更新系数，取值在[0,1]区间内；θ
π
表示预测策略网络的参数；θ
q
′
表示目标价值网络的参数；θ
q
表示目标价值网络的参数。10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行如权利要求1-9中任一项所述的方法。

技术总结
本发明公开了一种基于深度强化学习算法的D2D用户资源分配方法及存储介质，涉及无线通信技术领域。所述方法包括：构建无线网络模型，对D2D发射功率进行离散化处理；构建用户信噪比计算模型，以通信系统吞吐量最大为优化目标；设置预测策略网络π、预测价值网络Q、目标策略网络π

技术研发人员：李君刘兴鑫刘子怡沈国丽张茜茜李晨
受保护的技术使用者：无锡学院
技术研发日：2023.04.20
技术公布日：2023/7/21

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种冷链物流箱的制作方法 下一篇：一种专切极窄门下方的功能锯的制作方法

一种基于深度强化学习算法的D2D用户资源分配方法及存储介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度强化学习算法的D2D用户资源分配方法及存储介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表