人机物混合接入的异构网络中资源联合分配方法及装置

未命名 08-13 阅读：97 评论：0

1.本技术涉及通信领域，具体而言，涉及一种人机物混合接入的异构网络中资源联合分配方法及装置。

背景技术：

2.随着物联网的出现，未来的通信设备已经不仅仅是以人类型设备为主的移动通信，还包含许多种类机器与物之间的通信互联。各类型传感器、交通工具、智能家具、智能电器等都可以作为物联网中的通信对象，并产生了智能家居，智能交通，智能购物，智能健康等多样化的应用场景。因此，蜂窝网络和物联网共存将是未来通信中典型的通信场景，必须支持人机物混合接入网络下的通信需求。当人类型设备和物类型设备通信时，针对不同设备和不同业务相对应的通信速率、时延和可靠性等多样化服务质量(qos)需求也不同。例如虚拟现实(vr)/增强现实(ar)/混合现实(mr)对于通信网络的需求主要表现在低时延和高可靠性，而一些实时上传数据的传感器则需要稳定的传输速率的支持。因此，需要支持人机物混合接入下各类型设备的数据通信。
3.而上述设备产生的海量数据急需处理，这需要更高性能的信息基础设施。在传统的通信网络中，信息需要传输到远程云数据中心进行处理。随着实时信息处理任务的增加，传统通信网络高时延、回程过载等缺陷变得更加明显。最近，提出了将分布式服务器/计算节点部署在无线网络边缘的概念，即移动边缘计算(mec)。然而传统的边缘节点通常部署在地面，位置相对固定，对于请求的波动和用户的移动性难以通过静态部署满足需求。如果对边缘节点进行超密集部署，将大大增加基础设施建设的成本，并且在非高峰期，空闲的边缘节点将造成资源浪费。因此，可移动的空中边缘节点提供了新的解决方案。无人机(uav)低成本、高移动性、高灵活性的特点对热点区域进行覆盖和业务分流提供了可能性。在悬停模式下，uav可作为稳定空中平台执行任务，如果uav携带mec服务器，则有望解决mec的有效部署问题。作为移动边缘节点，uav简化了固定边缘节点的繁琐部署；其悬停稳定性和视线传输特性可以为用户提供可靠的低延迟通信链路。在多uav辅助的mec网络中，边缘节点可以更靠近活动用户，从而提供更高的服务质量和更低的延迟。
4.然而，uav辅助的mec服务也面临许多挑战。uav不仅需要大量的能量来维持自身飞行。还需要将部分能量提供给uav上的通信和计算单元，以提供可靠的数据传输和处理服务。由于uav上的电池大小受到限制，如何在保证人机物设备不同的qos需求下，将有限的通信和计算资源合理分配给用户便尤为重要。通信资源主要包含信道分配、功率控制、干扰控制等。需要研究合理的通信-计算资源联合分配算法，以平衡网络性能和服务成本。
5.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

6.本技术实施例提供了一种人机物混合接入的异构网络中资源联合分配方法及装置，以至少解决由于网络中资源分配不佳导致的网络性能较差和服务成本较高的技术问
题。
7.根据本技术实施例的一个方面，提供了一种人机物混合接入的异构网络中资源联合分配方法，包括：确定优化所述人机物混合接入的异构网络中的设备的约束条件、决策变量及优化目标；基于所确定的约束条件、决策变量及优化目标，来定义所述设备中的智能体的状态集、动作集和奖励函数；基于所定义的状态集、动作集和奖励函数，遍历所述智能体的状态集，根据所述智能体的当前状态的奖励值和下一状态的收益估计来更新所述智能体的所述当前状态的收益，直到找出最大的奖励值；基于所述最大的奖励值，得到使所述优化目标最优的资源分配方案。
8.根据本技术实施例的另一方面，还提供了一种人机物混合接入的异构网络中资源联合分配装置，包括：确定模块，被配置为确定优化所述人机物混合接入的异构网络中的设备的约束条件、决策变量及优化目标；定义模块，被配置为基于所确定的约束条件、决策变量及优化目标，来定义所述设备中的智能体的状态集、动作集和奖励函数；更新模块，被配置为基于所定义的状态集、动作集和奖励函数，遍历所述智能体的所述状态集，根据所述智能体的当前状态的奖励值和下一状态的收益估计来更新所述智能体的所述当前状态的收益，直到找出最大的奖励值；分配模块，被配置为基于所述最大的奖励值，得到使所述优化目标最优的资源分配方案。
9.根据本技术实施例的又一方面，还提供了一种人机物混合接入的异构网络，包括以下设备：宏基站、小型基站、无人机、人类型设备、物联网设备、和移动边缘计算服务器，其中，所述移动边缘计算服务器包括如上所述的人机物混合接入的异构网络中资源联合分配装置，所述智能体包括所述无人机和所述小型基站。
10.在本技术实施例中，基于所定义的状态集、动作集和奖励函数，遍历所述智能体的状态集，根据所述智能体的当前状态的奖励值和下一状态的收益估计来更新所述智能体的所述当前状态的收益，直到找出最大的奖励值，进而解决了由于网络中资源分配不佳导致的网络性能较差和服务成本较高的技术问题。
附图说明
11.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
12.图1是根据本技术实施例的一种人机物混合接入的异构网络中资源联合分配方法的流程图；
13.图2是根据本技术实施例的另一种人机物混合接入的异构网络中资源联合分配方法的流程图；
14.图3是根据本技术实施例的一种人机物混合接入的异构网络的结构示意图；
15.图4是根据本技术实施例的物联网设备数量变化与sbs平均能耗比较示意图；
16.图5是根据本技术实施例的无人机计算资源变化与物联网设备平均时延比较示意图；
17.图6是根据本技术实施例的人类型设备数量变化与物联网设备平均时延比较示意图。
具体实施方式
18.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
19.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
20.实施例1
21.根据本技术实施例，提供了一种人机物混合接入的异构网络中资源联合分配方法，如图1所示，该方法包括：
22.步骤s102，确定优化所述人机物混合接入的异构网络中的设备的约束条件、决策变量及优化目标；
23.异构网络中的设备包括所述人类型设备、所述物联网设备、所述小型基站、宏基站和所述无人机；所述智能体包括所述小型基站和所述无人机。
24.首先，异构网络进行初始化。例如，将信道分配、发射功率分配以及cpu周期数分配进行初始化，并根据初始化得到的初始值计算出用于确定所述优化目标和约束条件的先验信息；为每个所述智能体创建收益表，所述收益表表示相应的智能体的状态和动作对应的收益，其中，所述收益表能够根据所述相应智能体的当前状态的奖励值和下一状态中最大的收益不断更新。
25.接着，确定约束条件。例如，将所述异构网络中的人类型设备的服务质量需求的约束条件建模为最小传输速率约束；将所述异构网络中的物联网设备的服务质量需求的约束条件建模为最大传输功率约束；将所述异构网络中的小型基站sbs的服务质量需求的约束条件建模为用户关联数量约束；将所述异构网络中的无人机uav的服务质量需求的约束条件建模为用户关联数量约束、最大允许功耗约束、以及计算能力约束。
26.之后，确定优化目标。例如，计算用户在所述智能体中使用子信道时的信干噪比，并基于所述信干噪比计算所述用户在子信道上传输到所述智能体的数据传输速率；基于所述数据传输速率，计算所述用户的传输时延和传输能耗；计算所述任务所需计算时延和所述任务所需计算能耗；基于所述传输时延、所述传输能耗、所述任务所需计算时延和所述任务所需计算能耗，计算所述用户的开销；最小化各个所述用户的开销，以确定所述优化目标；其中，所述用户包括人类型设备和/或物联网设备。
27.步骤s104，基于所确定的约束条件、决策变量及优化目标，来定义所述设备中的智能体的状态集、动作集和奖励函数；
28.例如，基于所述决策变量中的用户所需完成任务的输入数据大小r和用户计算所
需完成任务的cpu周期数d，来构建所述状态集；基于所述决策变量中的信道分配矩阵γ、功率分配p，以及cpu周期数分配，来构建所述动作集；基于所述约束条件中的最小传输速率的约束最大传输时延的约束最大功耗约束和计算能力约束以及所述优化目标，来构建所述奖励函数。
29.步骤s106，基于所定义的状态集、动作集和奖励函数，遍历所述智能体的状态集，根据所述智能体的当前状态的奖励值和下一状态的收益估计来更新所述智能体的所述当前状态的收益，直到找出最大的奖励值。
30.例如，循环执行以下步骤，直到找出最大的奖励值：
31.1)在所述智能体基于当前状态选择动作后，根据当前网络环境的反馈计算所述智能体的所述当前状态的奖励值；
32.例如，在所述智能体基于当前状态随机选择动作或根据学习策略选择收益最大的动作后，所述智能体将所选动作、所述当前状态以及相应的收益共享到所述异构网络中，其中，所述相应的收益是基于所述当前状态和所选动作确定的；根据所述异构网络中所有设备对资源使用情况的反馈计算所述智能体的所述当前状态的奖励值，以与所述异构网络中的其他设备进行分布式合作。
33.2)获取所述智能体的下一状态的收益估计，根据所述收益估计和所述当前状态的奖励值更新所述当前状态的收益；
34.例如，获取所述智能体的下一状态；选取所述下一状态下奖励最大的动作，以得到所述下一状态的收益估计；根据所述下一状态的收益估计更新所述当前状态的收益。
35.3)从所述当前状态进入到下一状态，并将所述下一状态作为当前状态。
36.步骤s108，基于所述最大的奖励值，得到使所述优化目标最优的资源分配方案。
37.现有技术的资源分配算法所针对的场景大致可以分为以下几类：
38.一、只考虑物机共存。即无人机辅助的地面网络只考虑物联网设备，不考虑人类型设备和物类型设备共存的情况。如：灾难场景下，地面网络无法使用的无人机辅助通信等。
39.二、只考虑人机共存。即无人机辅助的地面网络只考虑人类型设备，不考虑人类型设备和物类型设备共存的情况。如无人机辅助蜂窝网络通信等。
40.三、只考虑人物共存。即只考虑人类型设备和物类型设备共存时地面网络的通信，没有无人机辅助通信。如h2h/m2m共存场景等。
41.这些类型的场景，没有真正实现人机物三类设备共存，只单一研究了其中一类或两类设备共存情况下的资源分配方法。其中类型一和类型二的网络场景设定过于理想，考虑的干扰因素很少，与现实情况脱节；类型三的场景，当用户设备急剧增加或任务量非常大时，仅靠地面网络难以支持用户需求。除此之外，很多现有技术仅考虑了通信资源管理，没有对计算资源进行分配，也会增大网络中的能量消耗，增加计算成本。
42.本发明提出的一种人机物混合接入的异构网络中基于强化学习的通信-计算资源联合分配方法，在人类型设备、物类型设备、无人机以及地面基站共存的网络场景下，联合优化通信资源和计算资源分配，本发明的目的是在复杂的干扰/互联环境下，通过为用户(人/物设备)优化信道分配、功率分配以及计算资源分配，实现系统总开销(能量消耗和任务完成时延加权)最小化，且保证各设备的qos需求。
43.在本发明提出的通信-计算资源联合分配方法中，考虑人机物混合接入网络上行
链路，网络中包含人类型设备、物类型设备、无人机以及地面基站，其中物类型设备为延迟敏感型设备，用户均可以与地面基站或无人机相连，但每个用户只能选择接入一种基站。接入同一小区基站的用户不存在小区间干扰，接入不同小区但工作在同一信道上的用户存在邻小区干扰。人类型设备和物类型设备的最大发射功率以及无人机和地面基站的最大计算资源约束均不同。
44.在本发明提出的通信-计算资源联合分配方法中，将总能耗最小化问题建模为多智能体协同控制问题。将地面基站和无人机视为智能体，根据优化问题的约束条件、决策变量及优化目标定义智能体的动作、状态和奖励。各智能体在选择动作后，进行信息共享，根据网络环境状态返回当前的奖励值，以分布式进行合作，在与无线网络环境交互的过程中，根据网络环境的改变，通过不断迭代优化通信-计算资源分配，找到使优化目标最优的方案。
45.实施例2
46.根据本技术实施例，提供了一种基于强化学习的通信-计算资源联合分配方法，如图2所示，该方法包括以下步骤：
47.步骤s202，系统初始化。
48.将信道分配、发射功率分配以及cpu周期数分配进行初始化，并根据这些初始值计算出信道增益、sinr等先验信息；将sbs和uav视为智能体，并为每个智能体创建q表，且进行初始化；初始化环境状态s
t
。
49.步骤s204，为智能体设计状态集、动作集以及奖励函数。
50.每个智能体根据当前状态做出动作选择，建立系统总开销优化模型。具体包括：制定传输功率、传输时延的约束条件和qos需求，其中qos需求根据不同设备的特点分别建模如下：人类型设备通常对于传输速率的要求很高，因此将其qos需求建模为最小传输速率约束；物联网设备受体积限制，能量较小，为降低其能耗，将其qos需求建模为最大传输功率约束；当接入同一sbs的用户过多，会造成资源分配不足，降低用户体验，故将sbs的qos需求建模为用户关联数量约束；uav由于电池很小，携带的资源有限，且自身飞行有一定能耗，将其qos需求建模为用户关联数量约束、最大允许功耗约束、以及计算能力约束。
51.步骤s206，计算奖励值。
52.基于上述优化模型，各智能体随机选择动作或根据学习策略选择q值最大的动作，之后进行信息共享，根据当前环境状态计算当前奖励值，之后转移到下一状态s
t+1
，更新q表；之后根据此过程迭代循环进行训练。
53.其中，状态集定义如下：
54.s
t
＝{r,d}
55.其中，r包含了用户所需完成任务的输入数据大小，d包含了用户计算所需完成任务的cpu周期数。该环境状态随时间不断变化。
56.在选择动作时采取贪婪学习策略，引入贪婪因子ε，当随机数x小于ε时，随机选择一个动作，当x大于ε时，选择当前最优的动作，动作集合定义为：
57.a
t
＝{γ,p,f}
58.其中，γ表示信道分配矩阵，p∈{p1,p2,...,p
max
}表示功率分配，f∈{f1,f2,...,f
max
}表示cpu周期数分配，p
max
表示最大发射功率，f
max
表示最大计算能力。
59.用j∈{1,2}对不同的bs进行索引，使bs1和bs2分别代表uav和sbs。定义一个布尔变量表示用户i是否与bsj相关联，如果表示相关联，表示不关联。与某个用户关联的bs数量限制在1个，即给定子信道赋值变量表示是否将子信道x分配给用户i，表示分配，表示不分配。
60.用户i在bsj中使用子信道x时的信干噪比为：
[0061][0062]
其中，是用户i到bsj在子信道x上的信道增益，和不同，pi表示用户i的发射功率，表示用户i与bsj的关联关系，i表示用户，j表示基站，i’表示除用户i之外的其他用户，j’表示除基站j之外的其他基站，表示用户i’的子信道分配，pi′
表示用户i’的发射功率，表示用户i’到bsj在子信道x上的信道增益，表示mued的子信道分配，pd表示mued发射功率，表示mued到宏基站在子信道x上的信道增益，d表示mue，d表示所有mue的集合。式中分母的第二项表示为其他小区同信道用户叠加的小区间干扰，第三项表示为mbs服务的mue的干扰，σ2为加性高斯白噪声功率。
[0063]
用户i在子信道x上传输到bsj的数据传输速率为：
[0064][0065]
其中，b表示子信道带宽，表示用户i在bsj中使用子信道x时的信干噪比。
[0066]
不考虑用户本地计算，只能将任务上传至sbs执行计算，或将任务卸载至无人机执行。用户i通过子信道x将任务上传到sbsj进行计算时，传输时延为：
[0067][0068]
其中，ri表示用户i所需完成任务的输入数据大小，表示用户i在子信道x上传输到bsj的数据传输速率。
[0069]
传输能耗为：
[0070][0071]
其中，pi表示用户i的发射功率。
[0072]
基站计算任务所需时延为：
[0073][0074]
其中，cj是基站处理1位数据所需cpu周期，fj为基站所分配的计算资源，di表示用户i计算所需完成任务的cpu周期数。
[0075]
任务计算能耗为：
[0076][0077]
其中，kj表示基站jcpu电容系数，
fj
表示基站所分配的计算资源，di表示用户i计算所需完成任务的cpu周期数，cj表示基站处理1位数据所需cpu周期。
[0078]
由此，当任务全部上传至sbs处理时，开销为：
[0079][0080]
其中ω为计算时延和能耗的加权因子，表示用户i上传至sbs的传输能耗，表示sbs计算用户i的任务的计算能耗，表示用户i上传至sbs的传输时延，表示sbs计算用户i的任务的计算时延；
[0081]
当将任务卸载至uav处理时，开销为：
[0082][0083]
其中，表示用户i上传至uav的传输能耗，表示uav计算用户i的任务的计算能耗，表示用户i上传至uav的传输时延，表示uav计算用户i的任务的计算时延。
[0084]
因此，对于第i个用户，其开销表示为：
[0085][0086]
其中，表示用户i将任务上传至sbs处理时的开销。
[0087]
至此，本技术的优化模型总结如下：
[0088][0089]
s.t.c1:
[0090]
c2:
[0091]
c3:
[0092]
c4:
[0093]
c5:
[0094]
c6:
[0095]
c7:
[0096]
c8:
[0097]
c9:
[0098]
c10:
[0099]
其中γ,p和f分别代表了子信道分配，发射功率分配和cpu周期数分配策略，s1和s2分别代表了uav和sbs最大关联用户数量，表示uav最大功耗，ηn表示人类型设备最小传输速率；c1代表了子信道分配约束；c2和c3代表了关联因子约束；c4,c5和c6分别代表了uav的qos需求的用户关联、计算能力和最大功耗约束；c7人类型设备qos需求约束；c8表示用户最大发射功率约束；c9表示物联网设备最大容忍传输时延约束；c10表示sbs的qos需求约束；x表示子信道，x表示子信道的集合，i表示用户，i表示用户的集合，s1表示uav最大关联用户数量，fu表示uav所分配的计算资源，ai表示用户i是否与uav相关联，n表示人类型设备的集合，pm表示物联网设备的发射功率，pn表示人类型设备的发射功率，m表示物联网设备的集合，s2表示sbs最大关联用户数量。
[0100]
为了使各智能体在训练的过程中，还能保证各类型设备的qos需求，本技术将qos约束加入到奖励函数的设计中：
[0101]
首先考虑人类型设备的qos约束，即最小传输速率约束，本技术设计的奖惩机制如下：
[0102][0103]
针对物联网设备，不仅需要考虑qos约束，还需要满足时延敏感型设备对于最大传输时延的约束，本技术设计的奖惩机制如下：
[0104][0105]
其中，rm表示物联网设备m所需完成任务的输入数据大小，表示物联网设备m所能容忍的最大传输时延。
[0106]
uav的qos约束较多，在奖励函数中只考虑最大功耗约束和计算能力约束，本技术设计的奖惩机制如下：
[0107][0108]
其中，ai表示用户i是否与uav相关联，pi表示用户i的发射功率，表示uav最大功耗，fu表示uav所分配的计算资源，表示uav的最大计算能力。
[0109]
uav和sbs的用户关联qos约束不在奖励函数中体现。
[0110]
此外，因为强化学习的奖励机制是最大化智能体收到的标量奖励信号的累计和的概率期望值，而本技术的优化目标是最小化系统总开销，故需要对优化目标做倒数处理，引入c1,c2和c3三个调和系数。综上，本技术将奖励函数设计为：
[0111][0112]
其中c1,c2和c3为正实数，用来平衡奖惩制度，zt为计算出的总开销。所有智能体使
用相同的奖励函数。
[0113]
步骤s208，基于所述最大的奖励值，得到使所述优化目标最优的资源分配方案。
[0114]
本发明实施例所提出的资源分配方法是基于强化学习中的q-学习理论提出的，在本发明所提相同人机物混合接入网系统场景下，可以采用其他机器学习方法以达到同样的效果。如在进行通信-计算资源联合分配时，若采取深度强化学习理论，且同样基于多智能体分布式框架，则此方法可以成为本发明的一种替代方案。
[0115]
本发明实施例提供的资源联合分配方法，通过最小化系统总开销，找到最优的通信资源和计算资源分配方案，并且保证了各类型设备不同的qos需求。此外，本发明实施例提供的资源联合分配方法，基于分布式多智能体学习框架，极大缓解了基站的负载，不仅提升了训练收敛速度，还提升了系统性能。
[0116]
实施例3
[0117]
根据本技术实施例，提供了一种人机物混合接入的异构网络系统，如图3所示，包括：宏基站(mbs)、小型基站(sbs)、uav、人类型设备、物联网设备、mbs服务用户(mue)、mec服务器；还包括x个正交的子信道，总带宽为w，子信道带宽b。
[0118]
其中，物联网设备均为延迟敏感型设备；sbs可以与用户建立通信链路，为其分配信道、发射功率和计算资源；uav高度固定，用于辅助sbs通信，作为边缘节点，配备mec服务器，也可以与用户建立通信链路，为其分配信道、发射功率和计算资源；每个用户可以与sbs或uav相连，但是只能选择一种基站进行连接。
[0119]
本实施例中，用表示sbs，表示uav，物联网设备用表示，且均为延迟敏感型节点，人类型设备用表示，mue的数量用d表示，其不参与资源分配，只充当固定的干扰。
[0120]
sbs可以与用户建立通信链路，为其分配信道、发射功率和计算资源。
[0121]
uav高度固定，用于辅助sbs通信，作为边缘节点，配备mec服务器，也可以与用户建立通信链路，为其分配信道、发射功率和计算资源。
[0122]
每个用户可以与sbs或uav相连，但是只能选择一种基站进行连接。对任意用户随机将用户分为k个簇，i1,i2…
ik为互斥集合穷举集。接入同一小区基站的用户不存在小区间干扰，接入不同小区但工作在同一信道上的用户存在邻小区干扰。
[0123]
在这个网络中假设每个用户i均有一个任务需要完成。对于物联网设备m，rm表示输入数据的大小，dm表示计算该任务所需要的cpu周期数，表示该任务所能容忍的最大通信时延。对于人类型设备n，
[0124]
本发明实施例提供的异构网络中，可以通过以下方法来进行联合资源分配：
[0125]
首先，系统初始化，将信道分配、发射功率分配以及cpu周期数分配进行初始化，并根据这些初始值计算出信道增益、sinr等先验信息；将sbs和uav视为智能体，并为每个智能体创建q表，且进行初始化；初始化环境状态。
[0126]
接着，为智能体设计状态/动作/奖励函数，每个智能体根据当前状态做出动作选
择，建立系统总开销优化模型。具体包括：制定传输功率、传输时延的约束条件和qos需求，其中qos需求根据不同设备的特点分别建模如下：人类型设备通常对于传输速率的要求很高，因此将其qos需求建模为最小传输速率约束；物联网设备受体积限制，能量较小，为降低其能耗，将其qos需求建模为最大传输功率约束；当接入同一sbs的用户过多，会造成资源分配不足，降低用户体验，故将sbs的qos需求建模为用户关联数量约束；uav由于电池很小，携带的资源有限，且自身飞行有一定能耗，将其qos需求建模为用户关联数量约束、最大允许功耗约束、以及计算能力约束。
[0127]
最后，基于上述优化模型，各智能体随机选择动作或根据学习策略选择q值最大的动作，之后进行信息共享，根据当前环境状态计算当前奖励值，之后转移到下一状态，更新q表；之后根据此过程迭代循环进行训练。
[0128]
本实施例中的异构网络，可以采用实施例1和2中的方法进行资源分配，因此，此处不再赘述异构网络如何进行资源分配。
[0129]
本发明提供的人机物混合接入的异构网络系统所含设备类型丰富，且考虑了各种干扰/互联关系，真正做到了人机物共存。
[0130]
仿真实验
[0131]
本发明做如下参数设置，mbs覆盖半径500m，sbs覆盖半径125m，uav高度50m，覆盖半径100m，1个mbs,5个sbs，4个uav，以及0-25个物联网设备和0-20个人类型设备随机散落在mbs覆盖范围内，设置5个mue在环境中充当固定干扰。uav选择用户最密集的四个sbs进行辅助。系统总带宽10mhz，共30个子信道，信道增益根据用户和基站间的距离随机生成数据。人类型设备最大发射功率为32dbm，物类型设备最大发射功率24dbm，物联网设备最大容忍传输延迟为10ms，人类型设备最小传输速率为10mbps。
[0132]
将本发明所提出的信道分配、功率分配、cpu周期数分配算法，根据其特点命名为：无人机辅助人物共存地面网络的通信计算资源联合分配算法(uac-ccra)，并与以下三种资源分配算法进行了比较：(1)无人机辅助人物共存地面网络的通信资源分配算法(uac-cra)，该算法仅在本发明提供的算法上不考虑计算资源分配；(2)无人机辅助物联网的通信计算资源联合分配算法(uai-ccra)，该算法在本发明提供的算法上，地面人类型用户不参与资源分配，仅充当干扰；(3)无无人机辅助人物共存地面网络的通信计算资源分配算法(non-uc-ccra)，该算法在本发明提供的算法上，仅不加入无人机辅助。
[0133]
依次命名本发明提出算法和三个对比算法为方案1、2、3、4。
[0134]
参照图4，介绍随着系统接入物联网设备数量的增加，sbs平均能耗的变化。由图可知，随着物联网设备数量的增加，sbs平均能耗不断上升。这是因为当物联网设备数量为0时，sbs只需要给人类型设备分配资源，且资源充足，每个用户都能得到最优的分配方案，因此sbs平均能耗很小。并且由于方案3，系统仅为物联网提供资源，故当物联网设备数量为0时，sbs平均能耗为0。随着用户数量的增加，系统中的资源逐渐紧张，不能很好的使每个用户都达到最优的分配方案，还会增加同信道干扰，降低sinr，因此能耗逐渐上升，且上升速率越来越快。
[0135]
由图可知方案3的sbs平均能耗最小，这是因为sbs和无人机只为物联网设备提供资源，相比于其他方案服务的用户数更少，资源也更加充足，所以对于sbs来说，性能更优。而方案4的性能最差，是因为系统中没有无人机的辅助，每个sbs需要服务的设备数量相较
其他方案都要多，从而降低sbs性能。通过比较方案2和方案1两条曲线，当接入设备较少时，二者差距并不大，但是随着设备数量的增加，二者能耗差距越来越大，由此体现了优化计算资源分配的优势。
[0136]
参照图5，介绍随着无人机计算资源的增加，物联网设备平均时延的变化。由图可知，随着无人机计算资源的增加，除方案4外的其他方案物联网设备平均时延随之下降，且降幅越来越小，逐渐变平缓。这是因为方案4的通信系统中没有无人机辅助，所以无人机计算资源的变化并不会对其性能造成影响。当无人机计算资源很小时，即可用资源很少，上传到无人机进行的任务时延增加，因此物联网设备平均时延较高。随着无人机计算资源越来越充足，无人机计算任务的时延也随之减小，当大部分任务所分配的计算资源都是最优时，无人机计算资源的增加对计算时延的影响也越来越小，所以物联网设备平均时延减少的幅度越来越小。由于方案3没有人类型设备共享资源，所以方案3对于物联网设备来说，性能还是最优的。其次是方案1性能最好，也体现了增加计算资源分配的优势。
[0137]
参照图6，介绍随着人类型设备数量的增加，物联网设备平均时延的变化。由图可知，随着人类型设备数量的增加，物联网设备平均时延不断上升。这是因为当系统中的人类型设备数量增加时，不仅会增加同信道干扰，减小接收端sinr，使得物联网传输时延增加，还会因为抢占计算资源，使得基站分配给物联网设备任务的计算资源减少，增加任务计算时延，从而降低物联网设备的qos。对于方案3，虽然人类型设备不会同物联网设备抢占资源，但是对物联网设备的干扰会更大，因此，不考虑人类型设备的资源分配，也会降低系统性能。
[0138]
综上分析，通过仿真结果可以证明本发明所提的人机物混合接入的异构网络中基于强化学习的通信-计算资源联合分配方法方案可行，在保证不同设备的qos需求下，整体性能表现良好。
[0139]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
[0140]
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。
[0141]
在本技术的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0142]
在本技术所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0143]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0144]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0145]
以上所述仅是本技术的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

技术特征：
1.一种人机物混合接入的异构网络中资源联合分配方法，其特征在于，包括：确定优化所述人机物混合接入的异构网络中的设备的约束条件、决策变量及优化目标；基于所确定的约束条件、决策变量及优化目标，来定义所述设备中的智能体的状态集、动作集和奖励函数；基于所定义的状态集、动作集和奖励函数，遍历所述智能体的状态集，根据所述智能体的当前状态的奖励值和下一状态的收益估计来更新所述智能体的所述当前状态的收益，直到找出最大的奖励值；基于所述最大的奖励值，得到使所述优化目标最优的资源分配方案。2.根据权利要求1所述的方法，其特征在于，确定优化所述人机物混合接入的异构网络中的设备的约束条件，包括以下至少之一：将所述异构网络中的人类型设备的服务质量需求的约束条件建模为最小传输速率约束；将所述异构网络中的物联网设备的服务质量需求的约束条件建模为最大传输功率约束；将所述异构网络中的小型基站sbs的服务质量需求的约束条件建模为用户关联数量约束；将所述异构网络中的无人机uav的服务质量需求的约束条件建模为用户关联数量约束、最大允许功耗约束、以及计算能力约束；其中，所述异构网络中的设备包括所述人类型设备、所述物联网设备、所述小型基站、宏基站和所述无人机；所述智能体包括所述小型基站和所述无人机。3.根据权利要求1所述的方法，其特征在于，基于所确定的约束条件、决策变量及优化目标，来定义所述设备中的智能体的状态集、动作集和奖励函数，包括：基于所述决策变量中的用户所需完成任务的输入数据大小r和用户计算所需完成任务的cpu周期数d，来构建所述状态集；基于所述决策变量中的信道分配矩阵γ、功率分配p，以及cpu周期数分配，来构建所述动作集；基于所述约束条件中的最小传输速率的约束最大传输时延的约束最大功耗约束和计算能力约束以及所述优化目标，来构建所述奖励函数。4.根据权利要求3所述的方法，其特征在于，所述优化目标通过以下步骤确定：计算用户在所述智能体中使用子信道时的信干噪比，并基于所述信干噪比计算所述用户在子信道上传输到所述智能体的数据传输速率；基于所述数据传输速率，计算所述用户的传输时延和传输能耗；计算所述任务所需计算时延和所述任务所需计算能耗；基于所述传输时延、所述传输能耗、所述任务所需计算时延和所述任务所需计算能耗，计算所述用户的开销；最小化各个所述用户的开销，以确定所述优化目标；其中，所述用户包括人类型设备和/或物联网设备。
5.根据权利要求1所述的方法，其特征在于，遍历所述智能体的所述状态集，根据所述智能体的当前状态的奖励值和下一状态的收益估计来更新所述智能体的所述当前状态的收益，直到找出最大的奖励值，包括：循环执行以下步骤，直到找出最大的奖励值：在所述智能体基于当前状态选择动作后，根据当前网络环境的反馈计算所述智能体的所述当前状态的奖励值；获取所述智能体的下一状态的收益估计，根据所述收益估计和所述当前状态的奖励值更新所述当前状态的收益；从所述当前状态进入到下一状态，并将所述下一状态作为当前状态。6.根据权利要求5所述的方法，其特征在于，在所述智能体基于当前状态选择动作后，根据当前网络环境的反馈计算所述智能体的所述当前状态的奖励值，包括：在所述智能体基于当前状态随机选择动作或根据学习策略选择收益最大的动作后，所述智能体将所选动作、所述当前状态以及相应的收益共享到所述异构网络中，其中，所述相应的收益是基于所述当前状态和所选动作确定的；根据所述异构网络中所有设备对资源使用情况的反馈计算所述智能体的所述当前状态的奖励值，以与所述异构网络中的其他设备进行分布式合作。7.根据权利要求5所述的方法，其特征在于，获取所述智能体的下一状态的收益估计，根据所述收益估计更新所述当前状态的收益，包括：获取所述智能体的下一状态；选取所述下一状态下奖励最大的动作，以得到所述下一状态的收益估计；根据所述下一状态的收益估计更新所述当前状态的收益。8.根据权利要求1至7中任一项所述的方法，其特征在于，在确定优化所述人机物混合接入的异构网络中的设备的约束条件、决策变量及优化目标之前，所述方法还包括：将信道分配、发射功率分配以及cpu周期数分配进行初始化，并根据初始化得到的初始值计算出用于确定所述优化目标和约束条件的先验信息；为每个所述智能体创建收益表，所述收益表表示相应的智能体的状态和动作对应的收益，其中，所述收益表能够根据所述智能体的当前状态的奖励值和下一状态中最大的收益不断更新。9.一种人机物混合接入的异构网络中资源联合分配装置，其特征在于，包括：确定模块，被配置为确定优化所述人机物混合接入的异构网络中的设备的约束条件、决策变量及优化目标；定义模块，被配置为基于所确定的约束条件、决策变量及优化目标，来定义所述设备中的智能体的状态集、动作集和奖励函数；更新模块，被配置为基于所定义的状态集、动作集和奖励函数，遍历所述智能体的所述状态集，根据所述智能体的当前状态的奖励值和下一状态的收益估计来更新所述智能体的所述当前状态的收益，直到找出最大的奖励值；分配模块，被配置为基于所述最大的奖励值，得到使所述优化目标最优的资源分配方案。10.一种人机物混合接入的异构网络，其特征在于，包括以下设备：宏基站、小型基站、无人机、人类型设备、物联网设备、和移动边缘计算服务器，其中，所述移动边缘计算服务器
包括如权利要求9所述的装置，所述智能体包括所述无人机和所述小型基站。

技术总结
本申请公开了一种人机物混合接入的异构网络中资源联合分配方法及装置。其中，该方法包括：确定优化所述人机物混合接入的异构网络中的设备的约束条件、决策变量及优化目标；基于所确定的约束条件、决策变量及优化目标，来定义所述设备中的智能体的状态集、动作集和奖励函数；基于所定义的状态集、动作集和奖励函数，遍历所述智能体的状态集，根据所述智能体的当前状态的奖励值和下一状态的收益估计来更新所述智能体的所述当前状态的收益，直到找出最大的奖励值；基于所述最大的奖励值，得到使所述优化目标最优的资源分配方案。本申请解决了由于网络中资源分配不佳导致的网络性能较差和服务成本较高的技术问题。较差和服务成本较高的技术问题。较差和服务成本较高的技术问题。

技术研发人员：陈硕李丽妍李学华
受保护的技术使用者：北京信息科技大学
技术研发日：2022.12.23
技术公布日：2023/8/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

人机物混合接入的异构网络中资源联合分配方法及装置

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

人机物混合接入的异构网络中资源联合分配方法及装置

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表