一种基于缓存区预测的中继选择方法
未命名
08-03
阅读:148
评论:0
1.本发明涉及协作通信技术领域,尤其是一种基于缓存区预测的中继选择方法。
背景技术:
2.传统蜂窝网络通过划分小区通信,加之通信过程中会发生大、小衰落,使得在小区边缘的用户的信号较差,而且相邻近的小区之间进行通信会产生干扰,用户的信号恶劣,对于基站来说,能耗也大大增加。对于上述问题,中继技术可以有效缓解,中继技术是指起始节点和目的节点中间设置一个或多个中继节点,这些中继节点可以接收信号并且经过一些处理发送信号,将信号的传输距离缩短,从而有效缓解通信过程的各种衰落问题和路径损耗,保证了通信质量,扩大了信号的通信范围,无线网络的整体性能也得到了改善,网络的吞吐量增加了,降低了系统能量消耗。
3.协作通信提高了无线网络的吞吐量,扩大了信号的可通信范围。然而,在传统协作网络的半双工工作模式下,中继节点无法同时获得最优的接收和发送信道,在此前提下,最终的信号的质量得不到保证。此时,带有缓冲区的中继被提出,可以有效解决上述问题。与传统中继方案相比,带有缓冲区的中继协助通信方案在提高系统吞吐量、降低系统中断概率和信噪比等方面有者显著的表现。
4.移动终端指的是可以在移动中使用的计算机设备,在通信领域,绝大多数情况下指的是智能设备。但是终端作为中继时缓存有限,其用户也会有自身的缓存需求。而现在大多基于缓冲区的协作通信中继选择只考虑到了中继全心全意协作转发,也就是中继所有缓冲区协助通信。并未考虑到中继用户自身缓存需求。中继划分固定缓冲区协助转发,也就意味着中继用户用于自身的缓冲区也是固定的,当中继用户自身需求较大而中继的转发任务较小时,中继用户的需求得不到满足而用于转发的缓冲区存在空闲,中继用户的体验会变得很差,缓冲区的资源也变得浪费,所以考虑如何先满足用户的需求,再使缓冲区的使用效率提高是中继协作通信中需要解决的关键问题。
技术实现要素:
5.为解决中继有限缓存固定划分的缺陷,本发明的目的在于提供一种综合考虑丢包率和终端用户自身对缓冲区需求,在无线网络中可以在满足用户的需求的前提下使缓冲区的使用效率提高的基于缓存区预测的中继选择方法。
6.为实现上述目的,本发明采用了以下技术方案:一种基于缓存区预测的中继选择方法,该方法包括下列顺序的步骤:
7.(1)进行通信环境即缓冲辅助中继转发系统的参数设置:确定中继节点个数、中继节点的位置坐标、源节点的位置坐标、目的节点的位置坐标,总缓冲区的大小、信道系数、发送功率、噪声功率和目标数据速率;
8.(2)构建lstm-dqn网络,确定状态空间、动作空间和奖励函数;
9.(3)智能体根据状态空间中初始状态在动作空间中选择动作,即对通信环境中中
继节点的选择以及该中继节点的接收或者发送进行决策,得到下一个状态,不断重复上述过程,最终得到最大的奖励值,即链路容量最大。
10.所述步骤(1)具体是指:所述缓冲辅助中继转发系统由一个源节点s、一个目的节点d和中继节点rk组成,1≤k≤k,其中k为中继节点的个数,中继节点、源节点和目的节点位于100m
×
100m的区域内,所述中继节点由终端用户构成,假设所有节点各有一根天线,以半双工模式工作,源节点和目的节点之间没有直连链路,需要通过中继转发完成通信;假设时间被划分为等时长的时隙,在每个时隙中,源节点s以固定的功率p发送一个数据包,每个中继节点的缓存大小有限,总缓冲区的大小为l+1,包括中继用户自身的缓存需求和协助转发的缓存大小,l为用作协助转发的缓存区大小,设中继用户自身的缓存需求最少要占用一个数据包的大小,因此在每个时隙中,用作协助转发的缓存区大小最多为l;
11.假设每个用户的缓冲需求为lu,此时用作协助转发的缓存大小即为l+1-lu;用lk表示中继节点rk的缓冲区中存储的数据包数量,0≤lk≤l,在每个时隙中,对于不同的lk值,中继节点rk的可用链路数也不同:
12.(1a)lk=0:没有数据包发送,只有源节点-中继节点链路即s-r链路可用;
13.(1b)0《lk《l+1-lu:源节点-中继节点链路即s-r链路和中继节点-目的节点链路即r-d链路都可使用;
14.(1c)lk=l+1-lu:只有中继节点-目的节点链路即r-d链路可用,没有缓冲区用于存储新的数据包;
15.首先根据以往中继信道状态和终端中继用户历史缓存需求判断,如果该中继的缓冲区可以存储数据包,则选择该中继发送数据包;当第k个中继节点接收到源节点s发送的数据包时,对应缓冲区就被占用一个数据包的大小,当第k个中继节点向目的节点d成功发送数据包时,对应缓存区就减少一个数据包的大小;只有当中继节点在成功接收到数据包之后该中继才能向目的节点d发送数据包;假设源节点s一直有向目的节点d发送数据包的任务,信道系数服从瑞利分布,在一个时隙内信道系数保持不变,在不同时隙内独立变化,假设目的节点d最终接收到的信号受均值为零、方差为δ2的加性高斯白噪声影响;
16.在某个时隙,当选择的是源节点s到中继节点r链路时,从源节点向s相应的中继rk发送单个数据包并存储在缓冲区中,在rk处的接收信号为:
[0017][0018]
其中,xs是来自s的数据信号,是方差为δ2的加性高斯白噪声,p是发送功率,是源节点到中继节点的信道系数,是源节点到中继节点的距离,α是路径损耗指数;如果选择中继到目的链路,则从中继缓冲区中向目的发送一个数据包,并在目的处给出接收到的信号为:
[0019][0020]
其中,是来自rk的数据信号,nd表示目的节点d处方差δ2的加性高斯白噪声,是中继节点到目的节点的信道系数,是中继节点到目的节点的距离;节点m与节
点n之间的链路容量c
m,n
为:
[0021][0022]
式中,h
m,n
为节点m到节点n的信道系数,d
m,n
为节点m到节点n的距离,δ2为加性高斯白噪声功率;
[0023]
当c
m,n
≤η时,对应的链路为中断,其中η为目标数据速率。
[0024]
所述步骤(2)具体是指:在深度强化学习网络dqn中加入lstm网络,构成lstm-dqn网络,将l个连续时间步长的数据输入到lstm网络,该网络由多个lstm单元组成,lstm包含三个门,分别为输入门、遗忘门和输出门;
[0025]
lstm-dqn网络的状态空间、动作空间和奖赏值分别为:
[0026]
状态空间:在时间为t时,观测状态为其中r
t-1
表示时间为t-1时的用户缓冲区使用情况,是源节点到中继节点的信道系数,是中继节点到目的节点的信道系数,状态空间定义为s=[o
t+l-n
,...,o
t
],其中,n表示要捕获的过去观测状态数;
[0027]
动作空间:基于当前有限且变化的缓冲区辅助中继转发系统状态s
t
,需要对中继的选择和该中继的接收或者发送进行决策,环境为缓冲辅助中继选择网络,动作是选择一个链路进行数据传输,相当于确定m
k,j
,j∈{0,1},
[0028]
其中,k代表中继节点的个数,0代表中继接收数据包,1代表中继发送数据包;如果一个中继网络有k个中继节点,则有2k个传输链路,在一个时隙内,选择一条链路进行传输,或不选择任何链路,因此,动作总数为2k+1;
[0029]
奖励函数:奖赏和最优化目标函数相关,将吞吐量作为奖励函数。
[0030]
所述步骤(3)具体包括以下步骤:
[0031]
(3a)在深度强化学习网络dqn中,学习与决策者被称为智能体,与智能体交互的部分则称为环境,假设在时隙t,环境状态为s
t
,根据当前状态,智能体决定下一步行动:即选择哪条链路或者不选择链路进行数据传输,采用ε-greedy策略确定状态s
t
的动作,其中ε∈(0,1)是贪婪系数,n为训练迭代次数,ε最初设置为1以获得良好的探索效果,并随着迭代的次数逐渐减小;
[0032]
(3b)一旦智能体选择了行动a
t
,即选择某个中继节点且确定该中继节点接收还是发送,从而获得奖励值和下一状态,如果a
t
导致s
→
r或r
→
d链路选择,则对应的缓存长度分别增加1或减少1,否则保持缓存长度不变;另一方面,信道状态从一个时隙到另一个时隙独立变化,然后根据新的缓存长度和信道状态将状态转换到s
t+1
;
[0033]
(3c)当前状态、执行的动作、执行动作后获得的奖赏值和下一刻的状态合成一个元组,即为(s
t
,a
t
,r
t
,s
t+1
),存储在经验池里;
[0034]
(3d)回到步骤(3a),用状态s
t+1
重复该过程,并生成另一组元组,直至状态值达到终止状态,所获得的奖励值达到最大值。
[0035]
由上述技术方案可知,本发明的有益效果为:第一,当中继用户自身缓冲区需求较小时,中继能划出更多的缓冲区协助中继转发,可以降低丢包率,当中继用户自身缓冲区需求较大时,中继能划出的协助中继转发缓冲区相当有限,强化学习会综合考虑信道状态和
中继历史缓冲区需求选择适当的链路进行数据包传输;第二,与现有基于固定缓冲区的中继选择方法相比,本发明在深度强化学习网络dqn中加入lstm网络,使得强化学习更加契合终端用户用于协作通信的可用缓冲区大小变化的这个场景,根据历史的用户对缓冲区的需求大小、源节点-中继节点的信道状态和中继节点-目的节点的信道状态作为状态;第三,建立了终端用户自身对缓冲区要求导致用于协作通信的可用缓冲区有限且变化的应用场景,当中继用户自身缓冲区需求较小时,中继能划出更多的缓冲区协助中继转发,并实现中继节点收发数据包的选择,与现有技术相比,用户的平均可用缓冲区提升,丢包率下降,提升系统容量。
附图说明
[0036]
图1为本发明的方法流程图;
[0037]
图2为本发明中缓冲辅助中继转发系统的示意图;
[0038]
图3为lstm网络的示意图;
[0039]
图4为lstm单元的结构示意图;
[0040]
图5为lstm-dqn网络的处理流程图;
[0041]
图6为lstm-dqn网络中主网络和目的网络的结构图。
具体实施方式
[0042]
如图1所示,一种基于缓存区预测的中继选择方法,该方法包括下列顺序的步骤:
[0043]
(1)进行通信环境即缓冲辅助中继转发系统的参数设置:确定中继节点个数、中继节点的位置坐标、源节点的位置坐标、目的节点的位置坐标,总缓冲区的大小、信道系数、发送功率、噪声功率和目标数据速率;
[0044]
(2)构建lstm-dqn网络,确定状态空间、动作空间和奖励函数;
[0045]
(3)智能体根据状态空间中初始状态在动作空间中选择动作,即对通信环境中中继节点的选择以及该中继节点的接收或者发送进行决策,得到下一个状态,不断重复上述过程,最终得到最大的奖励值,即链路容量最大。
[0046]
所述步骤(1)具体是指:所述缓冲辅助中继转发系统由一个源节点s、一个目的节点d和中继节点rk组成,1≤k≤k,其中k为中继节点的个数,中继节点、源节点和目的节点位于100m
×
100m的区域内,所述中继节点由终端用户构成,假设所有节点各有一根天线,以半双工模式工作,源节点和目的节点之间没有直连链路,需要通过中继转发完成通信;假设时间被划分为等时长的时隙,在每个时隙中,源节点s以固定的功率p发送一个数据包,每个中继节点的缓存大小有限,总缓冲区的大小为l+1,包括中继用户自身的缓存需求和协助转发的缓存大小,l为用作协助转发的缓存区大小,设中继用户自身的缓存需求最少要占用一个数据包的大小,因此在每个时隙中,用作协助转发的缓存区大小最多为l;
[0047]
假设每个用户的缓冲需求为lu,此时用作协助转发的缓存大小即为l+1-lu;用lk表示中继节点rk的缓冲区中存储的数据包数量,0≤lk≤l,在每个时隙中,对于不同的lk值,中继节点rk的可用链路数也不同:
[0048]
(1a)lk=0:没有数据包发送,只有源节点-中继节点链路即s-r链路可用;
[0049]
(1b)0《lk《l+1-lu:源节点-中继节点链路即s-r链路和中继节点-目的节点链路即
r-d链路都可使用;
[0050]
(1c)lk=l+1-lu:只有中继节点-目的节点链路即r-d链路可用,没有缓冲区用于存储新的数据包;
[0051]
首先根据以往中继信道状态和终端中继用户历史缓存需求判断,如果该中继的缓冲区可以存储数据包,则选择该中继发送数据包;当第k个中继节点接收到源节点s发送的数据包时,对应缓冲区就被占用一个数据包的大小,当第k个中继节点向目的节点d成功发送数据包时,对应缓存区就减少一个数据包的大小;只有当中继节点在成功接收到数据包之后该中继才能向目的节点d发送数据包;假设源节点s一直有向目的节点d发送数据包的任务,信道系数服从瑞利分布,在一个时隙内信道系数保持不变,在不同时隙内独立变化,假设目的节点d最终接收到的信号受均值为零、方差为δ2的加性高斯白噪声影响;
[0052]
在某个时隙,当选择的是源节点s到中继节点r链路时,从源节点向s相应的中继rk发送单个数据包并存储在缓冲区中,在rk处的接收信号为:
[0053][0054]
其中,xs是来自s的数据信号,是方差为δ2的加性高斯白噪声,p是发送功率,是源节点到中继节点的信道系数,是源节点到中继节点的距离,α是路径损耗指数;如果选择中继到目的链路,则从中继缓冲区中向目的发送一个数据包,并在目的处给出接收到的信号为:
[0055][0056]
其中,是来自rk的数据信号,nd表示目的节点d处方差δ2的加性高斯白噪声,是中继节点到目的节点的信道系数,是中继节点到目的节点的距离;节点m与节点n之间的链路容量c
m,n
为:
[0057][0058]
式中,h
m,n
为节点m到节点n的信道系数,a
m,n
为节点m到节点n的距离,δ2为加性高斯白噪声功率;
[0059]
当c
m,n
≤η时,对应的链路为中断,其中η为目标数据速率。
[0060]
所述步骤(2)具体是指:在深度强化学习网络dqn中加入lstm网络,构成lstm-dqn网络,将l个连续时间步长的数据输入到lstm网络,该网络由多个lstm单元组成,lstm包含三个门,分别为输入门、遗忘门和输出门;
[0061]
lstm-dqn网络的状态空间、动作空间和奖赏值分别为:
[0062]
状态空间:在时间为t时,观测状态为其中r
t-1
表示时间为t-1时的用户缓冲区使用情况,是源节点到中继节点的信道系数,是中继节点到目的节点的信道系数,状态空间定义为s=[o
t+l-n
,...,o
t
],其中,n表示要捕获的过去观测状态数;
[0063]
动作空间:基于当前有限且变化的缓冲区辅助中继转发系统状态s
t
,需要对中继
的选择和该中继的接收或者发送进行决策,环境为缓冲辅助中继选择网络,动作是选择一个链路进行数据传输,相当于确定m
k,j
,j∈{0,1},
[0064]
其中,k代表中继节点的个数,0代表中继接收数据包,1代表中继发送数据包;如果一个中继网络有k个中继节点,则有2k个传输链路,在一个时隙内,选择一条链路进行传输,或不选择任何链路,因此,动作总数为2k+1;
[0065]
奖励函数:奖赏和最优化目标函数相关,将吞吐量作为奖励函数。
[0066]
所述步骤(3)具体包括以下步骤:
[0067]
(3a)在深度强化学习网络dqn中,学习与决策者被称为智能体,与智能体交互的部分则称为环境,假设在时隙t,环境状态为s
t
,根据当前状态,智能体决定下一步行动:即选择哪条链路或者不选择链路进行数据传输,采用ε-greedy策略确定状态s
t
的动作,其中ε∈(0,1)是贪婪系数,n为训练迭代次数,ε最初设置为1以获得良好的探索效果,并随着迭代的次数逐渐减小;
[0068]
(3b)一旦智能体选择了行动a
t
,即选择某个中继节点且确定该中继节点接收还是发送,从而获得奖励值和下一状态,如果a
t
导致s
→
r或r
→
d链路选择,则对应的缓存长度分别增加1或减少1,否则保持缓存长度不变;另一方面,信道状态从一个时隙到另一个时隙独立变化,然后根据新的缓存长度和信道状态将状态转换到s
t+1
;
[0069]
(3c)当前状态、执行的动作、执行动作后获得的奖赏值和下一刻的状态合成一个元组,即为(s
t
,a
t
,r
t
,s
t+1
),存储在经验池里;
[0070]
(3d)回到步骤(3a),用状态s
t+1
重复该过程,并生成另一组元组,直至状态值达到终止状态,所获得的奖励值达到最大值。
[0071]
本发明提出的lstm-dqn框架的关键思想是在保证中继用户在保证自身缓存需求等引起的部分状态观测下进行有效的中继转发。为了实现这一愿景,将lstm网络加入dqn,不仅能够保持内部状态,还能够随着时间的推移聚合状态观测值,这使中继协助通信网络具有通过处理历史来推断将来状态的能力。具体来说,将l个连续时间步长的数据输入到lstm网络,该网络由多个lstm单元组成。一般来说,lstm包含三个门,分别为输入门、遗忘门和输出门。lstm能够从rnn中脱颖而出的关键就在于上图中从单元中贯穿而过的线——神经元的隐藏态(单元状态),可以将神经元的隐藏态简单的理解成递归神经网络对于输入数据的“记忆”,用c
t
表示神经元在t时刻过后的“记忆”,这个向量涵盖了在t+1时刻前神经网络对于所有输入信息的“概括总结”。遗忘门的任务是决定要保留和遗忘一个长期记忆c
t-1
的哪个部分。记忆门的作用是确定什么样的新信息被存放在单元状态。最终,根据单元状态,确定输出值。
[0072]
如图2所示,所提的缓冲辅助中继转发系统由一个源节点s、一个目的节点d和k个中继节点rk组成,1≤k≤k。此处考虑的中继节点由终端用户构成,终端的缓存有限,还会有自身的缓存需求。
[0073]
图3展示了展开的lstm网络,具体来说,将l个连续时间步长的数据输入到lstm网络,该网络由多个lstm单元组成,如图4所示。
[0074]
图5和图6显示了有限且变化缓冲区辅助转发的中继选择环境的lstm-dqn框架。提出的lstm-dqn框架的关键思想是在保证中继用户在保证自身缓存需求等引起的部分状态观测下进行有效的中继转发。
[0075]
综上所述,当中继用户自身缓冲区需求较小时,中继能划出更多的缓冲区协助中继转发,可以降低丢包率,当中继用户自身缓冲区需求较大时,中继能划出的协助中继转发缓冲区相当有限,强化学习会综合考虑信道状态和中继历史缓冲区需求选择适当的链路进行数据包传输;本发明在深度强化学习网络dqn中加入lstm网络,使得强化学习更加契合终端用户用于协作通信的可用缓冲区大小变化的这个场景,根据历史的用户对缓冲区的需求大小、源节点-中继节点的信道状态和中继节点-目的节点的信道状态作为状态;建立了终端用户自身对缓冲区要求导致用于协作通信的可用缓冲区有限且变化的应用场景,当中继用户自身缓冲区需求较小时,中继能划出更多的缓冲区协助中继转发,并实现中继节点收发数据包的选择,与现有技术相比,用户的平均可用缓冲区提升,丢包率下降,提升系统容量。
技术特征:
1.一种基于缓存区预测的中继选择方法,其特征在于:该方法包括下列顺序的步骤:(1)进行通信环境即缓冲辅助中继转发系统的参数设置:确定中继节点个数、中继节点的位置坐标、源节点的位置坐标、目的节点的位置坐标,总缓冲区的大小、信道系数、发送功率、噪声功率和目标数据速率;(2)构建lstm-dqn网络,确定状态空间、动作空间和奖励函数;(3)智能体根据状态空间中初始状态在动作空间中选择动作,即对通信环境中中继节点的选择以及该中继节点的接收或者发送进行决策,得到下一个状态,不断重复上述过程,最终得到最大的奖励值,即链路容量最大。2.根据权利要求1所述的基于缓存区预测的中继选择方法,其特征在于:所述步骤(1)具体是指:所述缓冲辅助中继转发系统由一个源节点s、一个目的节点d和中继节点r
k
组成,1≤k≤k,其中k为中继节点的个数,中继节点、源节点和目的节点位于100m
×
100m的区域内,所述中继节点由终端用户构成,假设所有节点各有一根天线,以半双工模式工作,源节点和目的节点之间没有直连链路,需要通过中继转发完成通信;假设时间被划分为等时长的时隙,在每个时隙中,源节点s以固定的功率p发送一个数据包,每个中继节点的缓存大小有限,总缓冲区的大小为l+1,包括中继用户自身的缓存需求和协助转发的缓存大小,l为用作协助转发的缓存区大小,设中继用户自身的缓存需求最少要占用一个数据包的大小,因此在每个时隙中,用作协助转发的缓存区大小最多为l;假设每个用户的缓冲需求为lu,此时用作协助转发的缓存大小即为l+1-lu;用l
k
表示中继节点r
k
的缓冲区中存储的数据包数量,0≤l
k
≤l,在每个时隙中,对于不同的l
k
值,中继节点r
k
的可用链路数也不同:(1a)l
k
=0:没有数据包发送,只有源节点-中继节点链路即s-r链路可用;(1b)0<l
k
<l+1-lu:源节点-中继节点链路即s-r链路和中继节点-目的节点链路即r-d链路都可使用;(1c)l
k
=l+1-lu:只有中继节点-目的节点链路即r-d链路可用,没有缓冲区用于存储新的数据包;首先根据以往中继信道状态和终端中继用户历史缓存需求判断,如果该中继的缓冲区可以存储数据包,则选择该中继发送数据包;当第k个中继节点接收到源节点s发送的数据包时,对应缓冲区就被占用一个数据包的大小,当第k个中继节点向目的节点d成功发送数据包时,对应缓存区就减少一个数据包的大小;只有当中继节点在成功接收到数据包之后该中继才能向目的节点d发送数据包;假设源节点s一直有向目的节点d发送数据包的任务,信道系数服从瑞利分布,在一个时隙内信道系数保持不变,在不同时隙内独立变化,假设目的节点d最终接收到的信号受均值为零、方差为δ2的加性高斯白噪声影响;在某个时隙,当选择的是源节点s到中继节点r链路时,从源节点向s相应的中继r
k
发送单个数据包并存储在缓冲区中,在r
k
处的接收信号y
s,rk
为:其中,x
s
是来自s的数据信号,是方差为δ2的加性高斯白噪声,p是发送功率,是源节点到中继节点的信道系数,是源节点到中继节点的距离,α是路径损耗指数;如果
选择中继到目的链路,则从中继缓冲区中向目的发送一个数据包,并在目的处给出接收到的信号为:其中,是来自r
k
的数据信号,n
d
表示目的节点d处方差δ2的加性高斯白噪声,是中继节点到目的节点的信道系数,是中继节点到目的的节点的距离;节点m与节点n之间的链路容量c
m,n
为:式中,h
m,n
为节点m到节点n的信道系数,d
m,n
为节点m到节点n的距离,δ2为加性高斯白噪声功率;当c
m,n
≤η时,对应的链路为中断,其中η为目标数据速率。3.根据权利要求1所述的基于缓存区预测的中继选择方法,其特征在于:所述步骤(2)具体是指:在深度强化学习网络dqn中加入lstm网络,构成lstm-dqn网络,将l个连续时间步长的数据输入到lstm网络,该网络由多个lstm单元组成,lstm包含三个门,分别为输入门、遗忘门和输出门;lstm-dqn网络的状态空间、动作空间和奖赏值分别为:状态空间:在时间为t时,观测状态为其中r
t-1
表示时间为t-1时的用户缓冲区使用情况,是源节点到中继节点的信道系数,是中继节点到目的节点的信道系数,状态空间定义为s=[o
t+l-n
,...,o
t
],其中,n表示要捕获的过去观测状态数;动作空间:基于当前有限且变化的缓冲区辅助中继转发系统状态s
t
,需要对中继的选择和该中继的接收或者发送进行决策,环境为缓冲辅助中继选择网络,动作是选择一个链路进行数据传输,相当于确定m
k,j
,j∈{0,1},其中,k代表中继节点的个数,0代表中继接收数据包,1代表中继发送数据包;如果一个中继网络有k个中继节点,则有2k个传输链路,在一个时隙内,选择一条链路进行传输,或不选择任何链路,因此,动作总数为2k+1;奖励函数:奖赏和最优化目标函数相关,将吞吐量作为奖励函数。4.根据权利要求1所述的基于缓存区预测的中继选择方法,其特征在于:所述步骤(3)具体包括以下步骤:(3a)在深度强化学习网络dqn中,学习与决策者被称为智能体,与智能体交互的部分则称为环境,假设在时隙t,环境状态为s
t
,根据当前状态,智能体决定下一步行动:即选择哪条链路或者不选择链路进行数据传输,采用ε-greedy策略确定状态s
t
的动作,其中ε∈(0,1)是贪婪系数,n为训练迭代次数,ε最初设置为1以获得良好的探索效果,并随着迭代的次数逐渐减小;(3b)一旦智能体选择了行动a
t
,即选择某个中继节点且确定该中继节点接收还是发送,从而获得奖励值和下一状态,如果a
t
导致s
→
r或r
→
d链路选择,则对应的缓存长度分别增加1或减少1,否则保持缓存长度不变;另一方面,信道状态从一个时隙到另一个时隙独立变化,然后根据新的缓存长度和信道状态将状态转换到s
t+1
;
(3c)当前状态、执行的动作、执行动作后获得的奖赏值和下一刻的状态合成一个元组,即为(s
t
,a
t
,r
t
,s
t+1
),存储在经验池里;(3d)回到步骤(3a),用状态s
t+1
重复该过程,并生成另一组元组,直至状态值达到终止状态,所获得的奖励值达到最大值。
技术总结
本发明涉及一种基于缓存区预测的中继选择方法,包括:进行通信环境即缓冲辅助中继转发系统的参数设置;构建LSTM-DQN网络,确定状态空间、动作空间和奖励函数;智能体根据状态空间中初始状态在动作空间中选择动作,即对通信环境中中继节点的选择以及该中继节点的接收或者发送进行决策,得到下一个状态,不断重复上述过程,最终得到最大的奖励值,即链路容量最大。本发明建立了终端用户自身对缓冲区要求导致用于协作通信的可用缓冲区有限且变化的应用场景,当中继用户自身缓冲区需求较小时,中继能划出更多的缓冲区协助中继转发,并实现中继节点收发数据包的选择,与现有技术相比,用户的平均可用缓冲区提升,丢包率下降,提升系统容量。升系统容量。升系统容量。
技术研发人员:智慧 费洁 王雅宁 段苗苗 黄彧
受保护的技术使用者:安徽大学
技术研发日:2023.05.08
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
