认知非正交多址接入网络的数据传输方法、系统及设备

未命名 08-27 阅读：148 评论：0

1.本发明涉及无线网络技术领域，尤其涉及一种认知非正交多址接入网络的数据传输方法、系统及设备。

背景技术：

2.移动设备的爆炸式增长，以及增强现实和虚拟现实等宽带服务的快速增长，使得固定频谱分配政策带来的频谱稀缺问题日益严重。传统的通信系统中主要用的是正交多址接入技术(orthogonal multiple access，oma)，使用oma可以在低复杂度的情况下轻松分离出不同的用户信号所携带的信息，并且oma的一个缺陷是支持的用户数量受到可用正交资源数量的限制，无法在有限的资源内接入更多的用户，就无法达到高频谱效率和大规模连接要求。因此，如何在满足海量连接需求的同时，实现高频谱效率成为一个亟待解决的问题。
3.上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

4.本发明的主要目的在于提供了一种认知非正交多址接入网络的数据传输方法、系统及设备，旨在解决如何在满足海量连接需求的同时，实现高频谱效率的技术问题。
5.为实现上述目的，本发明提供了一种认知非正交多址接入网络的数据传输方法，所述认知非正交多址接入网络的数据传输方法包括：
6.获取不同功率电平下活跃次用户的随机接入索引集，并确定所述活跃次用户的资源块分配概率分布；
7.基于所述资源分配概率分布和所述随机接入索引集确定所述活跃次用户的吞吐量；
8.判断所述活跃次用户的吞吐量是否为最大吞吐量；
9.若否，则基于所述活跃次用户的吞吐量通过演化博弈策略确定所述活跃次用户的最大吞吐量；
10.根据所述活跃次用户的最大吞吐量分配资源块进行数据传输。
11.此外，为实现上述目的，本发明还提出一种认知非正交多址接入网络的数据传输系统，所述认知非正交多址接入网络的数据传输系统包括：
12.获取模块，用于获取不同功率电平下活跃次用户的随机接入索引集，并确定所述活跃次用户的资源块分配概率分布；
13.确定模块，用于基于所述资源分配概率分布和所述随机接入索引集确定所述活跃次用户的吞吐量；
14.判断模块，用于判断所述活跃次用户的吞吐量是否为最大吞吐量；
15.处理模块，用于若否，则基于所述活跃次用户的吞吐量通过演化博弈策略确定所
述活跃次用户的最大吞吐量；
16.传输模块，用于根据所述活跃次用户的最大吞吐量分配资源块进行数据传输。
17.此外，为实现上述目的，本发明还提出一种认知非正交多址接入网络的数据传输设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的认知非正交多址接入网络的数据传输程序，所述认知非正交多址接入网络的数据传输程序配置为实现如上文所述的认知非正交多址接入网络的数据传输方法的步骤。
18.此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有认知非正交多址接入网络的数据传输程序，所述认知非正交多址接入网络的数据传输程序被处理器执行时实现如上文所述的认知非正交多址接入网络的数据传输方法的步骤。
19.本发明首先获取不同功率电平下活跃次用户的随机接入索引集，并确定活跃次用户的资源块分配概率分布，然后基于资源分配概率分布和随机接入索引集确定活跃次用户的吞吐量，之后判断活跃次用户的吞吐量是否为最大吞吐量，若否，则基于活跃次用户的吞吐量通过演化博弈策略确定活跃次用户的最大吞吐量，最后根据活跃次用户的最大吞吐量分配资源块进行数据传输。相较于现有技术中正交多址接入技术(orthogonal multiple access，oma)，使用oma可以在低复杂度的情况下轻松分离出不同的用户信号所携带的信息。并且oma的一个缺陷是支持的用户数量受到可用正交资源数量的限制，无法在有限的资源内接入更多的用户，就无法达到高频谱效率和大规模连接要求。而本发明是认知非正交多址接入网络技术，通过演化博弈策略确定活跃次用户的最大吞吐量，之后分配资源块进行数据传输，使得未来无线网络在满足海量连接需求的同时，实现高频谱效率。
附图说明
20.图1是本发明实施例方案涉及的硬件运行环境的认知非正交多址接入网络的数据传输设备的结构示意图；
21.图2为本发明认知非正交多址接入网络的数据传输方法第一实施例的流程示意图；
22.图3为本发明认知非正交多址接入网络的数据传输方法第一实施例的正交多址接入与非正交多址接入的对比图；
23.图4为本发明认知非正交多址接入网络的数据传输方法第一实施例的使用认知功率域非正交多址网络接入支持主用户和次用户的资源分配图；
24.图5为本发明认知非正交多址接入网络的数据传输方法第一实施例的结合单步强化学习的认知网络资源分配演化博弈框架图；
25.图6为本发明认知非正交多址接入网络的数据传输方法第一实施例的系统整体结构流程示意图；
26.图7为本发明认知非正交多址接入网络的数据传输系统第一实施例的结构框图。
27.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
28.应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
29.参照图1，图1为本发明实施例方案涉及的硬件运行环境的认知非正交多址接入网
络的数据传输设备结构示意图。
30.如图1所示，该认知非正交多址接入网络的数据传输设备可以包括：处理器1001，例如中央处理器(central processing unit，cpu)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity，wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory，ram)，也可以是稳定的非易失性存储器(non-volatile memory，nvm)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储系统。
31.本领域技术人员可以理解，图1中示出的结构并不构成对认知非正交多址接入网络的数据传输设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
32.如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及认知非正交多址接入网络的数据传输程序。
33.在图1所示的认知非正交多址接入网络的数据传输设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明认知非正交多址接入网络的数据传输设备中的处理器1001、存储器1005可以设置在认知非正交多址接入网络的数据传输设备中，所述认知非正交多址接入网络的数据传输设备通过处理器1001调用存储器1005中存储的认知非正交多址接入网络的数据传输程序，并执行本发明实施例提供的认知非正交多址接入网络的数据传输方法。
34.本发明实施例提供了一种认知非正交多址接入网络的数据传输方法，参照图2，图2为本发明认知非正交多址接入网络的数据传输方法第一实施例的流程示意图。
35.本实施例中，所述认知非正交多址接入网络的数据传输方法包括以下步骤：
36.步骤s10：获取不同功率电平下活跃次用户的随机接入索引集，并确定所述活跃次用户的资源块分配概率分布。
37.易于理解的是，本实施例的执行主体可以是具有数据处理、网络通讯和程序运行等功能的认知非正交多址接入网络的数据传输设备，也可以为其他具有相似功能的计算机设备等，本实施例并不加以限制。
38.本发明针对多信道网络中主用户和次用户共存，功率域非正交多址接入下，一个基站和多个设备拥有多个信道(资源块)。一组设备是低占空比主用户，另一组是更有认知能力的次用户，次用户动态分配资源块且发射功率高于主用户，避免在功率域与主用户发生冲突。主用户分配固定资源块与基站通信，射频能力和灵活性较差；次用户灵活，根据学习的资源分配概率进行动态选择。主用户和次用户以不同的功率电平分配资源块。
39.无线电接入方式下，宽带单元池提供集中存储和通信，接入点通过前传链路连接宽带单元池，数据作为边缘缓存分布在接入点和用户设备中，不仅为接入点分配缓存，而且无线电信号处理和资源管理在本地进行。资源分配编排由采集、控制、决策和分发组成，通过应用编程接口(api)与认知网络交互。
40.还需要说明的是，划分不同功率电平下的资源块，引入人为可控的非正交多址接
入采集和控制模式包括：系统由一个基站和多个设备组成，设备分两组，一组是低占空比或接入概率的主用户，另一组是更有认知能力的次用户，给次用户动态分配资源块且次用户发射功率高于主用户。如图3所示，图3为本发明认知非正交多址接入网络的数据传输方法第一实施例的正交多址接入与非正交多址接入的对比图，与正交多址不同，在非正交多址接入中，多个用户共享相同的时间或频率资源，同时分配不同的代码或功率电平，在接收器使用连续干扰消除技术进行分离。次用户以比主用户更高的功率进行传输，避免通过功率域非正交多址接入与主用户发生冲突。本发明提出的方法具有更高的吞吐量，代价是次用户的高发射功率。
41.主用户有固定的资源块与基站通信，射频能力较差导致灵活性弱；次用户灵活，能够根据学习后的资源分配概率进行动态选择。在图3所示的资源分配中，给次用户和固定主用户分配功率电平不同的资源块。以雾无线电接入，控制平面不在云无线电接入网中的宽带单元池中。宽带单元池提供集中存储和通信，接入点通过前传链路连接宽带单元池。与集中式数据存储不同，数据作为边缘缓存分布在接入点和设备中，不仅为接入点分配缓存，而且无线电信号处理和资源管理在接入点本地进行。设备直接连接接入点获取内容，不和核心网建立复杂传输链路。
42.资源分配编排器由采集、控制、决策和分发模块组成，通过应用编程接口(api)与认知网络交互：
①
采集模块采集干扰、负载等网络信息；
②
控制模块与决策模块交互得到决策结果，包括具体协调方案和基站信息；
③
分发模块传送协调方案和基站控制消息到认知网络；
④
认知网络执行协调器命令。认知网络的无线电资源控制子层执行协调器接收的控制消息，向物理子层发送内部控制消息指示使用哪种策略。
43.进一步地，获取不同功率电平下活跃次用户的随机接入索引集的处理方式为确定不同功率电平下的资源块，获取资源块的活跃主用户信号和活跃次用户信号，根据活跃主用户信号和活跃次用户信号确定资源块接收信号，基于资源块接收信号对资源块进行解码，在资源块解码失败时，获取次用户总数量和活跃次用户访问概率，根据资源块的活跃次用户索引集确定活跃次用户数量，根据活跃次用户数量、次用户总数量和活跃次用户访问概率确定平均活跃次用户数量，基于平均活跃次用户数量建立活跃次用户的随机接入索引集。
44.在具体实现中，活跃主用户和次用户具备索引集并发出信号。在不同功率电平下，获取信道(资源块)接收信号，以及次用户的信干噪比(sinr)。次用户信号通过资源块解码，同一资源块最多有一个活跃主用户，主用户信号在连续干扰消除之后也可解码。多个次用户的数据包冲突导致同一资源块中主用户的解码失败，设置数据包与次用户冲突的概率足够低。平均活跃次用户数低于资源块数，活跃主用户访问概率是二项式随机变量。次用户总数大，独立的活跃次用户的访问概率低，活跃次用户数为泊松随机变量。
45.在本实施例中，如图4所示，图4为本发明认知非正交多址接入网络的数据传输方法第一实施例的使用认知功率域非正交多址网络接入支持主用户和次用户的资源分配图，功率域非正交多址接入下有n个资源块(信道)，令e
p
和es为主用户和次用户的功率电平，qn和为信号分配资源块n(n＝1,
…
,n)的活跃主用户索引集和活跃次用户索引集，qn＝|qn|,令yj和是来自第j个活跃主用户信号和活跃次用户信号，un为分配资源块n
接收信号即资源块接收信号：
[0046][0047]
式中，vn～n(0,∑)为高斯分布的背景噪声。设置接收信号期望～n(0,∑)为高斯分布的背景噪声。设置接收信号期望和方差如果次用户信干噪比sinrs：
[0048][0049]
其中，次用户信号通过资源块n解码，设置成功解码阈值γ：
[0050][0051]
使得sinrs≥γ，如果同一资源块最多有一个活跃主用户，则次用户信号解码，主动主用户信号通过连续干扰消除也可解码。
[0052]
资源块中多个次用户的数据包发生冲突，使得同一资源块中主用户的解码失败。设置数据包与次用户冲突的概率很低，令tn是通过资源块n访问的主用户数量即主用户访问数量，l
p
为主用户总数量：
[0053][0054]
式中，p
p
和ps分别为独立的活跃主用户和活跃次用户的访问概率即活跃主用户访问概率和活跃次用户访问概率，qn是具有参数tn和p
p
的二项分布，概率p(qn＝)为：
[0055][0056]
其中，次用户总数ls有限，平均活跃次用户数即活跃次用户的随机接入索引集μ＝e[as]＝lsps，as为活跃次用户数量：
[0057][0058]
在次用户总数大且活跃次用户的访问概率低的情况下，设置活跃次用户数为泊松随机变量满足近似as～p(q；μ)，具有随机选择下的不变性。
[0059]
进一步地，确定活跃次用户的资源块分配概率分布的处理方式为获取资源块的活跃主用户访问概率和主用户访问数量及主用户总数量，基于次用户信干噪比根据活跃主用户访问概率、主用户访问数量、活跃次用户访问概率及活跃次用户索引集得到活跃次用户成功传输概率，根据活跃次用户成功传输概率和活跃次用户数量确定分配资源块的成功传输概率，根据分配资源块的成功传输概率确定活跃次用户的资源块分配概率分布。
[0060]
在具体实现中，为主用户分配固定资源块，次用户在多个资源块中进行选择，次用户有一个随机接入策略，依据选择某个资源块的概率分布，系统性能因次用户访问策略改
变。为次用户分配资源块，期望最多一个主用户传输而没有其他次用户传输。雾无线电接入具备分布式特性，采用基站通知的最佳接入策略。次用户的最大吞吐量视作资源分配理想状态下的帕累托最优。
[0061]
根据次用户信干噪比(sinr)，得到次用户成功传输数据包的概率，取决资源分配中活跃主用户数量。得到次用户分配资源块后成功传输数据包的条件概率，依据资源块被选中的概率得到资源分配分布。
[0062]
在本实施例中，次用户发送数据包，需要在资源块中进行选择。次用户有一个接入策略，即分配某个资源块的概率分布，系统性能因次用户的访问策略改变。次用户选择资源块，希望最多一个主用户传输而没有其他次用户传输。由于雾无线电接入的分布式特性，次用户不知道资源块上的主用户和其它次用户数。基站知道环境(即资源块上的主用户和次用户的数量及活动)并能找到最佳接入策略，次用户采用基站通知的最佳接入策略。
[0063]
功率域非正交多址接入的次用户具备最大吞吐量，可视作资源分配理想状态下的帕累托最优。根据次用户的信干噪比(sinr)，计算得到一个且只有一个活跃次用户成功传输的概率即活跃次用户成功传输概率：
[0064][0065]
其中，还取决于资源块n中活跃主用户数量。有as个活跃次用户，活跃次用户分配资源块n后成功传输的条件概率即分配资源块的成功传输概率：
[0066][0067]
式中，xn为资源块n被选中的概率，向量x＝[x1…
xn]
t
为资源分配分布即活跃次用户的资源块分配概率分布。
[0068]
步骤s20：基于所述资源分配概率分布和所述随机接入索引集确定所述活跃次用户的吞吐量。
[0069]
进一步地，基于资源分配概率分布和随机接入索引集确定活跃次用户的吞吐量的处理方式为根据资源分配概率分布、随机接入索引集、活跃次用户数量及活跃次用户成功传输概率确定活跃次用户的吞吐量。
[0070]
在具体实现中，为了解码活跃主用户信号，需要解码活跃的次用户并执行连续干扰消除，获得次用户吞吐量和主用户吞吐量。具备认知的次用户伺机访问信道，不对能力较差的主用户产生严重干扰。问题的最优解为吞吐量最优资源分配分布。基站找到完整环境信息的最佳资源分配分布，发送次用户。吞吐量最优的选择分布为帕累托最优解。
[0071]
在本实施例中，为了解码资源块中活跃的主用户信号，需要解码所有活跃的次用户信号并进行连续干扰消除。次用户吞吐量θs()为：
[0072][0073]
主用户吞吐量θ
p
(x)为：
[0074][0075]
按照随机接入，只要μxn足够低，主用户吞吐量就不太依赖于xn。这是次用户伺机访问信道的理想结果，次用户不会对能力较差的主用户产生干扰。得到资源分配优化：
[0076][0077]
式中，x
*
为吞吐量最优资源分配分布。基站找到具有完整环境信息的最佳资源分配分布，发送次用户。次用户吞吐量是系统吞吐量，x
*
为帕累托最优解。
[0078]
步骤s30：判断所述活跃次用户的吞吐量是否为最大吞吐量。
[0079]
进一步地，判断活跃次用户的吞吐量是否为最大吞吐量，若是，则将活跃次用户的吞吐量作为活跃次用户的最大吞吐量，根据活跃次用户的最大吞吐量分配资源块进行数据传输。
[0080]
步骤s40：若否，则基于所述活跃次用户的吞吐量通过演化博弈策略确定所述活跃次用户的最大吞吐量。
[0081]
进一步地，基于活跃次用户的吞吐量通过演化博弈策略确定活跃次用户的最大吞吐量的处理方式为根据资源块分配概率分布通过次用户选择混合策略确定次用户混合策略的平均回报，判断次用户混合策略的平均回报是否满足纳什均衡条件和稳定性条件，若否，则基于演化博弈策略根据所述活跃次用户的吞吐量和次用户混合策略的平均回报确定最大资源块选择回报，根据最大资源块选择回报确定所述活跃次用户的最大吞吐量；若是，则根据用户混合策略的平均回报确定活跃次用户的最大吞吐量，根据活跃次用户的最大吞吐量分配资源块进行数据传输。
[0082]
基于演化博弈策略根据活跃次用户的吞吐量和次用户混合策略的平均回报确定最大资源块选择回报的处理方式为基于演化博弈策略根据次用户混合策略的平均回报、活跃次用户分配资源块回报通过纳什均衡条件和稳定性条件确定资源分配演化稳定策略和资源分配复制动态，基于资源分配演化稳定策略和资源分配复制动态建立单步强化学习，基于单步强化学习根据活跃次用户的吞吐量通过资源分配分布策略确定最大资源块选择回报。
[0083]
在本实施例中，参考图5，图5为本发明认知非正交多址接入网络的数据传输方法第一实施例的结合单步强化学习的认知网络资源分配演化博弈框架图，面向演化博弈，获取次用户的种群状态和平均回报的内容包括：采用次用户间的非合作博弈，每个次用户选择最佳策略来最大化回报或吞吐量，特别是实现海量连接需求次用户的演化博弈。一些次
用户想要偏离规则，在吞吐量方面以其他次用户性能下降为代价来提高性能，这是一种自私行为。次用户在雾无线电接入分布式环境，希望不遵循给定规则最大化自己回报，如果自私行为带来比其他次用户更好的表现。因此，需要用非合作博弈来刻画性能。
[0084]
由于存在大量次用户，演化博弈用于次用户竞争多信道资源时的性能，相对于传统非合作博弈具有优势：
①
演化博弈(演化稳定策略)的方案作为纳什均衡改进(例如，纳什均衡不一定有效，一个博弈中可能存在多个纳什均衡，或者纳什均衡不存在)；
②
演化博弈不需要强理性假设，因为已经模拟次用户行为；
③
演化博弈基于演化过程，本质上是动态的，建模和捕捉次用户行为以改变策略并随着时间推移达到均衡。
[0085]
用大量博弈玩家代表海量连接的活跃次用户，每个玩家都有一套策略(动作)资源块数n可看作动作(信道，资源块，摇臂)的数量。令向量x＝[x1…
xn]
t
为种群状态，xn为选择动作的种群比例，具备约束
[0086][0087]
次用户数量有限，每个次用户选择混合策略g＝[g1…gn
]
t
，gn为玩家选择动作的概率。令r(n,x)为当种群状态为x时玩家选择动作的回报(适合度)，具有混合策略g的博弈玩家的平均回报
[0088][0089]
式中，为rn的(n-1)维单纯形，为次用户混合策略的平均回报。
[0090]
如果存在对于所有g≠x，满足对于所有g≠x，满足那么种群状态x是演化稳定状态。演化稳定状态有两个分解：
①
纳什均衡条件：对于所有
②
稳定性条件：如果回报向量r(x)＝[r(1,x)
…
r(n,x)]
t
，纳什均衡条件等价于变分不等式r(x)(x-g)
t
≥0，演化稳定状态x对所有都满足。
[0091]
结合演化博弈“变异”，静态地建立资源分配演化稳定策略的内容包括：演化博弈论是博弈论在生物进化中的应用，两大机制是变异和选择：(1)“变异”在于前面修改次用户特征(作为个体基因或玩家策略)，并将新特征次用户引入种群；(2)“选择”在于后面保留高适应度次用户，同时消除低适应度次用户。演化博弈中，“变异”由静态系统角度的演化稳定策略来描述，“选择”机制由动态系统角度的复制动态描述。次用户作为博弈玩家按照一定策略分配资源块，实现回报最大化。资源分配博弈是一个演化博弈，找到演化稳定状态作为最优策略(代替纳什均衡)。演化稳定状态是针对每个玩家的策略，没有单个次用户有单边激励改变策略。找到演化稳定状态取决于回报函数。下面，寻找资源分配博弈的唯一演化稳定状态，再设计一种找到演化稳定状态的方法。
[0092]
博弈玩家分配资源块n，玩家回报为玩家成功传输数据包的概率。按照数学期望，
活跃次用户分配资源块n的回报r(n,x)为：
[0093][0094]
式中，r(n,x)是xn的严格递减函数，采用混合策略g平均回报：
[0095][0096]
资源分配博弈是一个非合作博弈，获得的吞吐量可能比优化问题中的最大值小。演化博弈的最佳资源分配分布与优化问题不同，由于非合作特性，性能差距是一种无政府状态代价。
[0097]
为了找到资源块回报中支付函数的演化稳定状态，令虚拟目标函数：
[0098][0099]
同时，虚拟目标函数r(x)的梯度向量作为xn的递减函数，r(n,xn)导数为负数，r(x)的黑塞矩阵是负对角元素的对角矩阵：
[0100][0101]
虚拟目标函数是凹函数，得到单纯形是凸集，优化问题是具有唯一解的凸优化。此外，纳什均衡条件是x成为的最优解的充分必要条件，估计值是满足纳什均衡条件的唯一解。由于r(n,xn)是xn的严格递减函数，如果
[0102][0103]
可知，稳定性条件成立。
[0104][0105]
上述公式的解是唯一的演化稳定状态，即资源分配博弈的演化稳定状态存在并且唯一。
[0106]
结合演化博弈“选择”，动态地建立资源分配复制动态的内容包括：许多无法说明的智能体之间的竞争与合作，演化博弈论能够提供很好的解释，演化博弈论的复制动态由微分方程给出。为了找到资源分配博弈的演化稳定状态，针对虚拟目标函数r(x)直接凸优
化会耗费很高计算成本，因此需要设计一种低复杂度方法。
[0107]
通过微分方程，演化稳定状态通过复制动态找到：
[0108][0109]
李雅普诺夫函数：
[0110][0111]
找到演化稳定状态，其余点处于演化稳定状态，作为稳定性条件。作为微分方程解的稳定性之一，李雅普诺夫稳定性描述平衡点附近解的稳定性。为了避免求解复制状态的微分方程，需要找到演化稳定状态。
[0112][0113]
随时间s
→
∞，令回报回报作为演化稳定状态的必要条件。
[0114]
为了寻找上述必要条件所有解，令
[0115]
或者
[0116][0117]
不失一般性，令ψ1≤ψ2≤
…
≤ψn，由于φ(g)是递减函数，其反函数φ-1
(
·
)也是递减函数。对于给定的有令令在约束下求解，找到满足：
[0118][0119][0120][0121]
式中，是对应
[0122]
的演化稳定状态。吞吐量最优资源分配分布x
*
虽然最大化次用户吞吐量，但不是纳什均衡或演化稳定状态。因此，次用户想要偏离吞吐量最优的资源块配分布来最大化回报，导致公地悲剧。这是因为尽管演化稳定状态最大化虚拟目标函数r(x)，但并
没有最大化次用户的吞吐量θs(x)。
[0123]
建立复制动态的单步强化学习，最大化资源分配回报的内容包括：单步强化学习任务对应k-摇臂赌博机，可以采用汤普森采样(一种计算所有摇臂的最高回报的蒙特卡洛采样方法)求解，先假设拉动每根摇臂的回报服从一个特定概率分布，然后根据拉动每根摇臂的期望回报来进行选择。一个赌徒面前有多台摇臂机，事先不知每台真实盈利情况，如何根据每次玩摇臂机的结果选择下次拉哪台或者是否停止赌博，来最大化自己从头到尾的回报。名字来源于摇臂机有一个操控杆，玩摇臂机的结果往往是口袋被掏空。k-摇臂赌博机用于次用户，通过学习减少冲突或提高系统吞吐量。设计时考虑两种不同设备类型：一方面，主用户在射频上不灵活，每个主用户必须通过预定信道传输信号；另一方面，次用户灵活，可以动态选择信道来传输信号。次用户学习信道环境，包括每个信道中主用户的活跃水平。
[0124]
单步强化学习任务用于次用户在资源块上选择，一个次用户有n个摇臂(资源块)。如果在多次博弈中选择摇臂的回报独立同分布，次用户学习平均回报，令ξn为摇臂n在多次博弈。选择最佳摇臂博弈。选择最佳摇臂是的估计。由于多个次用户在资源块交互，成功传输的回报不是独立同分布。选取单步强化学习任务结合汤普森采样情况，选择在概率上成为最优摇臂最大的摇臂，保证对数的渐进最优积累懊悔。用贝塔分布对当前每个动作的回报概率分布进行描述，每个摇臂在次用户i处有形状参数α
n；i
(s)和β
n；i
(s)的贝塔分布b(α
n；i
(s),β
n；i
(s),i∈{1,
…
,ls}。在时间s，如果次用户i处于活跃状态，选择摇臂
[0125][0126]gn；i
(s)～b(α
n；i
(s),β
n；i
(s))
[0127]
一致先验下，设置形状参数α
n；i
(0)＝β
n；i
(0)＝1。每一轮后，次用户i收到反馈f
n；i
(s)∈{1,-1}，1或-1表示次用户i通过资源块n的传输成功或者不成功。形状参数做出更新：
[0128][0129]
如果次用户i不活跃，形状参数不更新，即α
n；i
()＝α
n；i
(-1)，β
n；i
(s)＝β
n；i
(s-1)。每个用户选择最合适的资源块而不冲突。
[0130]
次用户找到混合策略，使用复制动态来最大化回报。复制动态使用基站反馈在时间s更新混合策略g
n；i
(s)。当次用户i活跃时分配资源块n，基站给出反馈f
n；i
(s)。在复制动态中，选择动作n的回报r(n,g)作为实时回报。根据反馈{f
n；i
(s)，得到次用户i分配资源块n时的回报
[0131][0132]
式中，是次用户i处于活跃状态的时间片索引集。活跃次用户i有资源分配分布
[0133][0134]
ξ》0是步长，同时，定义域为c的示性函数i(f
n；i
(s)＝
1用作实时回报r(n；g)。归一化处理：
[0135][0136]
确保gi(s+1)＝[g
1；
i(s+1)
…gn；i
(s+1)]
t
位于中。
[0137]
复制动态结合单步强化学习任务，根据资源分配分布策略gi(s)选择一个摇臂(资源块)，并作实时回报更新，分布式环境下根据基站反馈以雾无线电接入进行：
①
对于所有n个摇臂(资源块)，获得次用户i的资源分配分布
②
时间片循环，次用户i在时间s处于活跃状态，根据资源分配分布gi(s)＝[g
1；
i(s)
…gn；i
(s)]
t
分配资源块。
③
活跃次用户i在时间片s结束时从基站接收反馈f
n；i
(s)。
④
活跃次用户i根据r
n；i
(s)更新回报：
[0138][0139]
依据g
n；i
(s+1)更新资源分配分布：
[0140][0141][0142]
进行下一次传输，在下一个时间跳到
②
，进入下一轮时间循环。如果次用户i不活跃，则资源分配分布保持不变，gi(s+1)＝gi(s)。
[0143]
找到演化稳定状态有另一个原因。如果所有次用户都是合作的并遵循由基站提供的相同接入规则，产生的吞吐量称为最大吞吐量。虽然演化稳定状态也是纳什均衡，在没有激励任何次用户改变其策略的意义上是最佳的，但就可实现的总体回报或吞吐量最大化而言，不一定是最佳策略(帕累托最优)，例如一些次用户偏离给定规则，牺牲其他次用户为代价来最大化回报。因此，演化稳定状态获得的性能不仅成为具有竞争次用户的雾无线电接入的分布式访问的基准，而且揭示最大吞吐量与竞争次用户之间共享资源的吞吐量之间的差距“公地悲剧”，即为了追求单个次用户利益而忽视整体频谱分配福利，导致过度消费而最终耗尽公共频谱资源，这对每个次用户都不利。
[0144]
步骤s50：根据所述活跃次用户的最大吞吐量分配资源块进行数据传输。
[0145]
在本实施例中，参考图6，图6为本发明认知非正交多址接入网络的数据传输方法第一实施例的系统整体结构流程示意图，本方案划分为七个步骤：(1)划分不同功率电平下的资源块，引入人为可控的非正交多址接入采集和控制模式；(2)依据信干噪比，获得不同功率电平下活跃次用户的随机接入索引集；(3)依据获得次用户的资源分配概率分布确定吞吐量；(4)面向演化博弈，获取次用户的种群状态和平均回报；(5)结合演化博弈“变异”，静态地建立资源分配演化稳定策略；(6)结合演化博弈“选择”，动态地建立资源分配复制动态；(7)建立复制动态的单步强化学习，最大化资源分配回报。
[0146]
步骤(1)中，本发明针对多信道网络中主用户和次用户共存，功率域非正交多址接
入下，一个基站和多个设备拥有多个信道(资源块)。一组设备是低占空比主用户，另一组是更有认知能力的次用户，次用户动态分配资源块且发射功率高于主用户，避免在功率域与主用户发生冲突。主用户分配固定资源块与基站通信，射频能力和灵活性较差；次用户灵活，根据学习的资源分配概率进行动态选择。主用户和次用户以不同的功率电平分配资源块。
[0147]
无线电接入方式下，宽带单元池提供集中存储和通信，接入点通过前传链路连接宽带单元池，数据作为边缘缓存分布在接入点和用户设备中，不仅为接入点分配缓存，而且无线电信号处理和资源管理在本地进行。资源分配编排由采集、控制、决策和分发组成，通过应用编程接口(api)与认知网络交互。
[0148]
步骤(2)中，活跃主用户和次用户具备索引集并发出信号。在不同功率电平下，获取信道(资源块)接收信号，以及次用户的信干噪比(sinr)。次用户信号通过资源块解码，同一资源块最多有一个活跃主用户，主用户信号在连续干扰消除之后也可解码。多个次用户的数据包冲突导致同一资源块中主用户的解码失败，设置数据包与次用户冲突的概率足够低。平均活跃次用户数低于资源块数，活跃主用户访问概率是二项式随机变量。次用户总数大，独立的活跃次用户的访问概率低，活跃次用户数为泊松随机变量。
[0149]
步骤(3)中，为主用户分配固定资源块，次用户在多个资源块中进行选择，次用户有一个随机接入策略，依据选择某个资源块的概率分布，系统性能因次用户访问策略改变。为次用户分配资源块，期望最多一个主用户传输而没有其他次用户传输。雾无线电接入具备分布式特性，采用基站通知的最佳接入策略。次用户的最大吞吐量视作资源分配理想状态下的帕累托最优。
[0150]
根据次用户信干噪比(sinr)，得到次用户成功传输数据包的概率，取决资源分配中活跃主用户数量。得到次用户分配资源块后成功传输数据包的条件概率，依据资源块被选中的概率得到资源分配分布。为了解码活跃主用户信号，需要解码活跃的次用户并执行连续干扰消除，获得次用户吞吐量和主用户吞吐量。具备认知的次用户伺机访问信道，不对能力较差的主用户产生严重干扰。问题的最优解为吞吐量最优资源分配分布。基站找到完整环境信息的最佳资源分配分布，发送次用户。吞吐量最优的选择分布为帕累托最优解。
[0151]
步骤(4)中，分布式环境中，次用户希望在不遵循给定规则的情况下最大化自己回报，如果自私行为带来比其他次用户更好的表现。自私次用户存在需要考虑非合作博弈，次用户选择最佳策略最大化回报或吞吐量，实现次用户演化博弈，用于次竞争多信道资源。作为对纳什均衡的改进，演化博弈不需要强理性假设并模拟次用户行为。演化博弈捕捉次用户行为以改变策略并随着时间推移达到均衡。
[0152]
有大量博弈玩家(活跃次用户)，每个玩家都有一套策略。资源分配分布依据种群状态，资源块被选中的概率为选择动作的种群比例。每个次用户选择混合策略，依据博弈玩家选择动作的概率。按照博弈玩家选择动作(信道，资源块，摇臂)的回报(适合度)，获得混合策略的玩家的平均回报。找到演化稳定状态的种群状态，分解为纳什均衡条件和稳定性条件。
[0153]
步骤(5)中，博弈过程包括演化稳定策略和复制动态，进行变异和选择。博弈玩家按照策略最大化回报，选择不同混合策略的玩家获得平均回报。演化过程中，资源分配博弈找到一个演化稳定状态作为最优策略达到纳什均衡。虽然演化稳定状态也是纳什均衡，在
没有激励任何次用户改变策略的意义上最佳，但就可实现的总体回报或吞吐量最大化而言，不一定是帕累托最优。演化稳定状态针对每个博弈玩家策略，没有单个次用户有单边激励来改变策略，找到演化稳定状态取决于回报函数。给博弈玩家分配资源块，回报为玩家成功传输数据包的概率。在某个时刻，得到活跃次用户分配资源块的回报，以及混合策略下的平均回报。平均回报依据吞吐量，非合作博弈所得吞吐量可能比优化问题中的最大值差。纳什均衡是群体状态向量成为最优解的充要条件，找到稳定性成立条件，判断唯一性是否成立。
[0154]
步骤(6)中，演化稳定状态通过复制动态找到，来降低复杂度。作为微分方程解的稳定性之一，李雅普诺夫稳定性描述在平衡点附近解的稳定性。为了避免求解微分方程，需要找到演化稳定状态。吞吐量最优资源分配分布虽然最大化次用户回报，但不是纳什均衡或演化稳定状态。次用户想要偏离吞吐量最优的资源分配分布然后最大化回报，会导致公地悲剧。尽管演化稳定状态最大化虚拟目标函数，但并没有最大化次用户的吞吐量。
[0155]
步骤(7)中，单步强化学习用于次用户学习和减少冲突，提高系统吞吐量并分配资源块。认知网络用户数大于信道数。次用户学习信道环境，包括每个信道中主用户活跃水平。采用k-摇臂赌博机用于次用户的多个资源分配，一个次用户有多个摇臂(资源块)，单步操作包括两方面：探索(估计摇臂的优劣)和利用(选择当前最优摇臂)。当次用户活跃并传输数据包时，选择摇臂之一并从基站得到反馈。摇臂多次博弈，选择最佳摇臂，采用汤普森采样(一种计算所有摇臂的最高回报的蒙特卡洛方法)，摇臂在次用户处服从贝塔分布。次用户活跃则收到反馈，形状参数做出更新；次用户不活跃，形状参数则不更新。
[0156]
次用户找到混合策略，使用复制动态最大化回报。复制动态使用基站的反馈随时更新混合策略。当次用户活跃时分配资源块，得到基站反馈，选择动作的回报(适合度)作为实时回报。活跃次用户根据资源分配分布选择一个摇臂(资源块)，概率分布根据所选摇臂随时间的回报更新，从基站反馈并以分布式方式进行。
[0157]
还需要说明的是，本实施例根据上述方案所得到的有益效果：一、面向多信道认知网络的主用户和次用户共存，引入人为可控的功率域非正交多址接入，建立次用户竞争多信道资源的非合作博弈，每个次用户都学习资源分配分布，根据基站反馈来最大化适应度或回报；二、在认知非正交多址接入网络中，从静态系统角度进行“变异”，结合演化博弈中演化稳定状态的存在性和唯一性，设计寻找演化稳定状态(纳什均衡的改进)的方法；三、从动态系统角度进行“选择”，建立复制动态的单步强化学习任务，以便网络中次用户在主用户存在的情况下选择多信道而不会冲突，并以演化稳定状态性能为基准，判断竞争次用户的方法是否有用。
[0158]
本实施例首先获取不同功率电平下活跃次用户的随机接入索引集，并确定活跃次用户的资源块分配概率分布，然后基于资源分配概率分布和随机接入索引集确定活跃次用户的吞吐量，之后判断活跃次用户的吞吐量是否为最大吞吐量，若否，则基于活跃次用户的吞吐量通过演化博弈策略确定活跃次用户的最大吞吐量，最后根据活跃次用户的最大吞吐量分配资源块进行数据传输。相较于现有技术中正交多址接入技术，使用oma可以在低复杂度的情况下轻松分离出不同的用户信号所携带的信息。并且oma的一个缺陷是支持的用户数量受到可用正交资源数量的限制，无法在有限的资源内接入更多的用户，就无法达到高频谱效率和大规模连接要求。而本实施例是认知非正交多址接入网络技术，通过演化博弈
策略确定活跃次用户的最大吞吐量，之后分配资源块进行数据传输，使得未来无线网络在满足海量连接需求的同时，实现高频谱效率。
[0159]
参照图7，图7为本发明认知非正交多址接入网络的数据传输系统第一实施例的结构框图。
[0160]
如图7所示，本发明实施例提出的认知非正交多址接入网络的数据传输系统包括：
[0161]
获取模块7001，用于获取不同功率电平下活跃次用户的随机接入索引集，并确定所述活跃次用户的资源块分配概率分布；
[0162]
确定模块7002，用于基于所述资源分配概率分布和所述随机接入索引集确定所述活跃次用户的吞吐量；
[0163]
判断模块7003，用于判断所述活跃次用户的吞吐量是否为最大吞吐量；
[0164]
处理模块7004，用于若否，则基于所述活跃次用户的吞吐量通过演化博弈策略确定所述活跃次用户的最大吞吐量；
[0165]
传输模块7005，用于根据所述活跃次用户的最大吞吐量分配资源块进行数据传输。
[0166]
本发明认知非正交多址接入网络的数据传输系统的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。
[0167]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0168]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0169]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0170]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：
1.一种认知非正交多址接入网络的数据传输方法，其特征在于，所述认知非正交多址接入网络的数据传输方法包括以下步骤：获取不同功率电平下活跃次用户的随机接入索引集，并确定所述活跃次用户的资源块分配概率分布；基于所述资源分配概率分布和所述随机接入索引集确定所述活跃次用户的吞吐量；判断所述活跃次用户的吞吐量是否为最大吞吐量；若否，则基于所述活跃次用户的吞吐量通过演化博弈策略确定所述活跃次用户的最大吞吐量；根据所述活跃次用户的最大吞吐量分配资源块进行数据传输。2.如权利要求1所述的方法，其特征在于，所述获取不同功率电平下活跃次用户的随机接入索引集的步骤，包括：确定不同功率电平下的资源块；获取所述资源块的活跃主用户信号和活跃次用户信号；根据所述活跃主用户信号和所述活跃次用户信号确定资源块接收信号；基于所述资源块接收信号对所述资源块进行解码；在所述资源块解码失败时，获取次用户总数量和活跃次用户访问概率；根据所述资源块的活跃次用户索引集确定活跃次用户数量；根据所述活跃次用户数量、次用户总数量和所述活跃次用户访问概率确定平均活跃次用户数量；基于所述平均活跃次用户数量建立活跃次用户的随机接入索引集。3.如权利要求2所述的方法，其特征在于，所述确定所述活跃次用户的资源块分配概率分布的步骤，包括：获取所述资源块的活跃主用户访问概率和主用户访问数量及主用户总数量；基于次用户信干噪比根据所述活跃主用户访问概率、所述主用户访问数量、所述活跃次用户访问概率及所述活跃次用户索引集得到活跃次用户成功传输概率；根据所述活跃次用户成功传输概率和所述活跃次用户数量确定分配资源块的成功传输概率；根据所述分配资源块的成功传输概率确定所述活跃次用户的资源块分配概率分布。4.如权利要求3所述的方法，其特征在于，所述基于所述资源分配概率分布和所述随机接入索引集确定所述活跃次用户的吞吐量的步骤，包括：根据所述资源分配概率分布、所述随机接入索引集、所述活跃次用户数量及所述活跃次用户成功传输概率确定所述活跃次用户的吞吐量。5.如权利要求1-4任一项所述的方法，其特征在于，所述判断所述活跃次用户的吞吐量是否为最大吞吐量的步骤之后，还包括：若是，则将活跃次用户的吞吐量作为所述活跃次用户的最大吞吐量；根据所述活跃次用户的最大吞吐量分配资源块进行数据传输。6.如权利要求5所述的方法，其特征在于，所述基于所述活跃次用户的吞吐量通过演化博弈策略确定所述活跃次用户的最大吞吐量的步骤，包括：根据所述资源块分配概率分布通过次用户选择混合策略确定次用户混合策略的平均
回报；判断所述次用户混合策略的平均回报是否满足纳什均衡条件和稳定性条件；若否，则基于演化博弈策略根据所述活跃次用户的吞吐量和所述次用户混合策略的平均回报确定最大资源块选择回报；根据最大资源块选择回报确定所述活跃次用户的最大吞吐量。7.如权利要求6所述的方法，其特征在于，所述基于纳什均衡条件和稳定性条件判断所述活跃次用户的资源块选择分布是否为演化稳定状态的步骤之后，还包括：若是，则根据所述用户混合策略的平均回报确定所述活跃次用户的最大吞吐量；根据所述活跃次用户的最大吞吐量分配资源块进行数据传输。8.如权利要求6所述的方法，其特征在于，所述基于演化博弈策略根据所述活跃次用户的吞吐量和所述次用户混合策略的平均回报确定最大资源块选择回报的步骤，包括：基于演化博弈策略根据所述次用户混合策略的平均回报、活跃次用户分配资源块回报通过所述纳什均衡条件和所述稳定性条件确定资源分配演化稳定策略和资源分配复制动态；基于所述资源分配演化稳定策略和所述资源分配复制动态建立单步强化学习；基于所述单步强化学习根据所述活跃次用户的吞吐量通过资源分配分布策略确定最大资源块选择回报。9.一种认知非正交多址接入网络的数据传输系统，其特征在于，所述认知非正交多址接入网络的数据传输系统包括：获取模块，用于获取不同功率电平下活跃次用户的随机接入索引集，并确定所述活跃次用户的资源块分配概率分布；确定模块，用于基于所述资源分配概率分布和所述随机接入索引集确定所述活跃次用户的吞吐量；判断模块，用于判断所述活跃次用户的吞吐量是否为最大吞吐量；处理模块，用于若否，则基于所述活跃次用户的吞吐量通过演化博弈策略确定所述活跃次用户的最大吞吐量；传输模块，用于根据所述活跃次用户的最大吞吐量分配资源块进行数据传输。10.一种认知非正交多址接入网络的数据传输设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的认知非正交多址接入网络的数据传输程序，所述认知非正交多址接入网络的数据传输程序配置为实现如权利要求1至8中任一项所述的认知非正交多址接入网络的数据传输方法的步骤。

技术总结
本发明公开了一种认知非正交多址接入网络的数据传输方法、系统及设备，所述方法包括：获取不同功率电平下活跃次用户的随机接入索引集，并确定活跃次用户的资源块分配概率分布；基于资源分配概率分布和随机接入索引集确定活跃次用户的吞吐量；判断活跃次用户的吞吐量是否为最大吞吐量；若否，则基于活跃次用户的吞吐量通过演化博弈策略确定活跃次用户的最大吞吐量；根据活跃次用户的最大吞吐量分配资源块进行数据传输。相较于现有技术中均是利用正交多址接入技术，而本发明是认知非正交多址接入网络技术，通过演化博弈策略确定活跃次用户的最大吞吐量，之后分配资源块进行数据传输，使得未来无线网络在满足海量连接需求的同时，实现高频谱效率。实现高频谱效率。实现高频谱效率。

技术研发人员：秦航徐小利
受保护的技术使用者：长江大学
技术研发日：2023.04.17
技术公布日：2023/8/24

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

认知非正交多址接入网络的数据传输方法、系统及设备

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

认知非正交多址接入网络的数据传输方法、系统及设备

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表