一种无人机辅助车联网下的联合缓存决策和轨迹优化方法

未命名 10-09 阅读：135 评论：0

approach."ieee transactions on vehicular technology 68.8(2019):7957-7969.”针对无人机联合轨迹设计和功率控制问题，提出了一种基于多智能体q学习的解决方案。文献“ding,ruijin,et al."trajectory design and access control for air
–
ground coordinated communications system with multiagent deep reinforcement learning."ieee internet of things journal 9.8(2021):5785-5798.”提出了一种概率多智能体深度确定性策略梯度(pmaddpg)方法，使地面用户能够最大化自己的吞吐量，并使无人机-bs提供公平和高精度的通信服务。
6.不过，以上许多研究侧重于低移动性用户的无人机辅助网络，不能直接在车联网环境中实现。首先，高机动性的车辆会导致内容请求分布的动态变化较大，影响无人机的服务性能。其次，由于无人机的存储空间和计算能力有限，缓存方案以及在线轨迹设计应在有限的计算资源下进行训练。第三，由于服务请求和车辆网络条件难以准确预测，无人机应该做出在线决策，以跟上高度动态的车辆状态的速度，提供最佳的实时解决方案。

技术实现要素：

7.发明目的：针对以上问题，本发明提出一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，通过对缓存决策、无人机轨迹优化，从而降低了多无人机辅助车联网环境下移动设备的使用能耗，实现节能、高质量服务。
8.技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，基于各车辆、各无人机、以及基站构成的空地协同系统下，其特征在于，各无人机针对预设时间段内的服务请求，空地协同执行以下步骤，得到各无人机的缓存决策模型和轨迹优化模型，实现各无人机根据优化轨迹为各车辆的服务请求提供内容缓存决策；
9.步骤a：针对空地协同系统，基于地面车辆对无人机和地面边缘设备的无线通信模型，执行缓存服务能耗模型以及无人机飞行和空地协同执行服务时的能耗模型，构建空地协同系统的目标函数与约束条件；
10.步骤b：基于空地协同系统的目标函数和约束条件，以缓存命中率为优化目标，根据给定的历史请求，采用差分进化算法对各无人机的内容缓存决策模型进行动态优化，得到各无人机在不同区域和时间内的最优缓存决策模型；
11.步骤c：基于各无人机在不同区域和时间内的最优缓存决策模型，针对模拟实时的服务请求，采用多智能体近端策略优化算法对各无人机的轨迹模型进行优化，得到各无人机在不同区域和时间内的轨迹优化模型；
12.步骤d：基于各无人机的最优缓存决策模型和轨迹优化模型，各无人机优化飞行路线，并对对应区域的车辆的服务请求提供相应的服务。
13.进一步的，所述步骤a中各无人机执行内容缓存和飞行轨迹决策时由步骤a1得到地面车辆对无人机和地面边缘设备的无线通信模型；
14.步骤a1：当需要传输车辆和边缘服务器之间的数据和服务内容时的无线通信模型，计算过程如下：
15.步骤a1.1：针对需要传输车辆和基站之间的数据和服务内容时的无线通信模型，计算车辆到基站之间的通信速率表示为：
[0016][0017]
其中表示t时刻车辆v到基站b之间的通信速率，b0表示基站分配给车辆的带宽，表示车辆和基站之间的信道增益，pv表示车辆的传输功率，σ2表示高斯白噪音功率；
[0018]
步骤a1.2：无人机与车辆进行信号传输时通信基于与视距los连接概率相关的los链路标准阴影模型进行建模，los连接概率计算为：
[0019][0020]
其中表示los连接概率，h是无人机距离水平地面的垂直高度，是t时刻时无人机n与车辆v之间的水平距离，ζ和χ是取决于无人机位置的环境常数；则无人机n与车辆v在t时刻通信的平均路径损耗为：
[0021][0022]
其中fc和c分别为载频和光速，和是随环境变化的阴影变量；与无人机n在t时刻的车辆v的平均信噪比为：
[0023][0024]
设为车辆v与无人机n之间的信道增益，则信道增益计算为：
[0025][0026]
其中是t时刻无人机n与车辆v之间的水平距离，是t时刻无人机n在坐标系中的横坐标，是t时刻车辆v在坐标系中的横坐标，是t时刻无人机n在坐标系中的纵坐标，是t时刻车辆v在坐标系中的纵坐标；则t时刻从车辆v到无人机n的上行数据传输速率计算为：
[0027][0028]
式中，bn为车辆分配给无人机n的频谱带宽，为车辆v的平均信噪比。
[0029]
进一步的，所述步骤a中各无人机执行内容缓存和飞行轨迹决策时由步骤a2得到执行缓存服务能耗模型；
[0030]
步骤a2：当执行缓存服务能耗模型时，设在道路上行驶的车辆v在一个时刻的开始需要一个或多个内容服务，那么对车辆v的需求表示为：
[0031][0032]
其中表示车辆v在t时刻是否需要服务k的决策变量，服务内容k包括三个参数(dk，rk，ck)，dk表示k的数据大小，rk表示k的结果大小，ck表示k的计算大小；将γ作为缓存策略，将作为服务内容k是否已经缓存到无人机n上的决策变量；如果则表示该内容已经缓存到无人机上；否则，内容没有缓存在无人机上；对于缓存的内容，将内容的处理结
果返回给所需的车辆；车辆v的反馈时间表示为：
[0033][0034]
式中，表示汽车v通过接收缓存在无人机n上的服务所花费的总时间，k是所有设定服务的集合，表示t时刻从车辆v到无人机n的上行数据传输速率；只有当只有当时，表示车辆v需要的服务内容k，同时该内容缓存在无人机上；车辆v的能耗计算为：
[0035][0036]
式中，表示汽车v通过接收缓存在无人机n上的服务所花费的总能耗，ψn为无人机n的卸载功率；在无人机n处缓存内容所消耗的能量计算为：
[0037][0038]
式中，eccn(t)表示无人机n上的缓存服务所花费的总能耗，cn是无人机n上的cpu时钟速度，表示无人机n的计算能力；业务占用的存储空间总和不超过无人机的存储容量cn，缓存决策每t时期更新一次，满足：
[0039][0040]
式中，是服务内容k是否已经缓存到无人机n上的决策变量。
[0041]
进一步的，所述步骤a中各无人机执行内容缓存和飞行轨迹决策时由步骤a3得到无人机飞行和空地协同执行服务时的能耗模型；
[0042]
步骤a3：当无人机飞行和空地协同执行服务时的能耗模型，其计算过程如下：
[0043]
步骤a3.1：针对无人机飞行时的能耗模型，对于速度为vn的旋翼无人机，t时刻的推进功率消耗p(vn)表示为：
[0044][0045]
式中，p0、p1、u、vr、d0、ρ、s、a是与无人机重量、机翼面积、空气密度相关的常数参数，其中p0是悬停状态下的无人机旋翼叶片轮廓功率，p1是悬停状态下的无人机旋翼叶片感应功率，u是叶片的尖端速度，vr是悬停时的平均转子诱导速度，d0是无人机所受的阻力比，ρ是空气密度，s表示旋翼转子的硬度，a是叶片圆盘的面积；无人机在t时刻内的推进能耗en(t)计算为：
[0046]en
(t)＝p(vn)
·
t
[0047]
步骤a3.2：针对空地协同执行服务时的能耗模型，首先对于在无人机上缓存的内容，只计算返回内容处理结果和在无人机上缓存内容所消耗的能量；
[0048]
否则，无人机上的非缓存内容经过以下步骤：将任务卸载到bs，计算并返回结果；在bs上计算的内容的执行时间表示为：
[0049][0050]
其中，表示车辆v将服务卸载到基站上处理所花费的总时间，表示车辆v到基站b之间的通信速率，cb是基站上的cpu时钟速度，表示车辆需要但未缓存到无人机上的内容；执行能耗计算为：
[0051][0052]
式中，表示车辆v将服务卸载到基站上处理所花费的总能耗，表示bs的计算能力，ψb表示bs的卸载能力；t时刻车辆v的执行能耗计算为：
[0053][0054]
由上式得t时刻总能耗e
total
(t)为：
[0055][0056]
其中，e
uav
(t)表示无人机飞行能耗，e
execution
(t)表示执行服务所花费的总能耗，n是无人机的集合，v是所有车辆的集合；在上式中，能耗为无人机飞行能耗和无人机对缓存内容的结果进行回传，以及在bs上处理非缓存服务的总能耗；
[0057]
步骤a3.4：针对空地协同系统，基于地面车辆对无人机和地面边缘设备的无线通信模型，执行缓存服务能耗模型以及无人机飞行和空地协同执行服务时的能耗模型，构建空地协同系统的目标函数与约束条件；
[0058]
目标函数为：
[0059][0060]
其中，t是无人机执行服务周期；表示缓存决策集合，表示无人机的轨迹集合，分别为无人机集合及用户需要的服务集合；
[0061]
约束条件如下：
[0062][0063]
表示每个无人机中所缓存的服务内容不得超过无人机缓存空间的最大值；
[0064][0065]
表示内容是否缓存在无人机上。
[0066]
进一步的，所述步骤b中，基于空地协同系统的目标函数和约束条件，以缓存命中率f(γ)为优化目标，根据给定的历史请求，采用差分进化算法对各无人机的内容缓存决策模型进行动态优化；
[0067]
执行步骤b1至b4，分别对各无人机的内容缓存策略模型进行优化，直到达到预设迭代次数，得到各无人机在不同区域和时间内的最优缓存决策模型；
[0068]
步骤b1：将差分进化算法中由不同染色体组成的个体作为边缘内容缓存策略将差分进化算法中由不同染色体组成的个体作为边缘内容缓存策略表示服务内容k是否已经缓存到无人机n上的决策变量，分别是无人机集合及服务用户需要的服务集合，进行种群初始化；
[0069]
步骤b2：基于所得到的边缘缓存策略，运用最佳变异选择策略，即对初始化的种群进行变异产生变异向量，为后期的产生子代种群建立基础；
[0070]
步骤b3：对原边缘缓存策略以及变异后的缓存策略进行交叉操作；
[0071]
步骤b4：利用贪婪算法选择出原边缘缓存策略以及交叉后的缓存策略中缓存命中率最高的缓存策略作为新一代的种群个体；
[0072]
按照上述步骤进行规定次数迭代后，从最终个体获得最优内容缓存策略。
[0073]
进一步的，所述步骤c中，基于空地协同系统的目标函数和约束条件，以及各无人机在不同区域和时间内的最优缓存决策模型，针对模拟实时的服务请求，采用多智能体近端策略优化算法对各无人机的轨迹模型进行优化，得到各无人机在不同区域和时间内的轨迹优化模型；
[0074]
步骤c1：轨迹优化过程满足马尔可夫决策过程，改进的马尔可夫决策过程模型如下：
[0075]
在车联网环境中，将每个无人机视为一个智能体进行轨迹优化，定义一个马尔可夫决策过程描述环境为(s,a,p,r)；
[0076]
其中s表示车联网环境及各无人机、车辆的当前状态，a表示无人机所执行的动作集合，p为无人机执行动作的策略映射关系，r为该环境下的奖励函数；
[0077]
环境的状态s包括无人机的位置、车辆的位置和车辆在每个时刻的任务请求量，t时刻的状态表示为：
[0078][0079]
其中，l
uav
(t)和l
vehicle
(t)表示t时刻无人机和车辆的位置集合，其中每个向量代表无人机或车辆的位置坐标，用于计算信道传输距离和传输速率，fv(t)表示t时刻中所有任务请求的数量；智能体从连续状态中学习，然后根据环境变化采取行动；每个无人机根据当前状态采取行动；将无人机的偏转角度和速度比率定义为每个agent的动作，表示为：
[0080][0081]
式中，θn(t)∈[0，2π]为agent的偏转角，ξn(t)∈[0，1]为agent的速度比率，即agent的速度计算公式为vn(t)＝v
max
·
ξn(t)，v
max
为无人机所能飞行的最大速度；
[0082]
策略是agent在不同状态下选择动作的策略，即从状态到动作的映射关系，策略表示为：π
θ
(ai|si)；
[0083]
其中，θ是策略网络的参数，所述策略网络是指强化学习的actor-critic模型中的行动者网络，ai是第i个agent所采取的动作策略，si是第i个agent所处在的状态空间；
[0084]
agent采取动作后，状态转移到另一个状态，状态转移概率表示为：p(s
′
|s，a)；
[0085]
其中，s
′
是更新后的状态空间，s是初始状态下的状态空间，a是所有agent的动作策略集合；
[0086]
基于空地协同系统的目标函数和约束条件，在最优缓存策略和轨迹规划的条件下，定义该车联网在服务周期t的总能耗为rewards；多智能体强化学习的目标是最大化奖励，将奖励的负值r定义为
[0087][0088]
其中，e
total
(t)为该车联网环境下无人机辅助所需要消耗的总能耗，t是无人机的服务周期；
[0089]
步骤c2：利用mappo算法通过集中的价值函数方法来考虑全局信息，进行多智能体环境下近端策略优化。
[0090]
进一步的，所述步骤c2，利用mappo算法通过集中的价值函数方法来考虑全局信息，进行多智能体环境下近端策略优化，具体包括：
[0091]
首先，单个智能体通过全局价值函数相互合作，在每个时刻开始时，记录内容服务请求的数量以及无人机和车辆的位置作为初始状态；
[0092]
然后，每个无人机从当前环境中采取一个行动，当环境接收到无人机获得的动作后，状态更新；
[0093]
将状态、动作、奖励和下一状态的经验元组存储在回放缓冲区中，在一个时刻结束时，agent更新它们的策略；
[0094]
在训练策略网络之前，agent首先从缓冲区中采样设定批次的经验元组；无人机协作为车联网提供服务，所有无人机共享策略网络和价值网络的参数，所述价值网络是指强化学习的actor-critic模型中的评论家网络；
[0095]
在每个训练步骤中，行动者和评论家分别用策略π
θ
和值函数v
φ
(s)更新网络参数，行动者网络的损失函数l(θ)表示为：
[0096][0097][0098]
其中，是决策的估计量的期望，为新决策与旧决策的比值，∈为裁剪强度，clip()是策略网络裁剪函数，是t时刻第i个agent的动作空间，是t时刻第i个agent的状态空间，是新策略映射关系，是旧策略映射关系，为广义优势估计，计算公式如下：
[0099][0100]
其中，γ是折扣因子，λ是加权因子，l是推迟因子，r
t+l
是推迟l后的奖励值，是t时刻的值函数；使用梯度下降法学习价值网络，价值网络的损失函数l(φ)如下：
[0101][0102]
其中，φ是价值网络的参数，为一段时间内预期总收益的估计值，
和是值函数所限定的区间边界值；
[0103]
最后，对决策网络和价值网络的参数进行如下更新：
[0104]
θ
←
θ+αl(θ)
[0105]
φ
←
φ+βl(φ)
[0106]
其中α和β分别是决策网络和价值网络的学习率，参数更新后，每个无人机共享此网络的参数，进行统筹优化，迭代更新，以求达到最优奖励值。
[0107]
有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：
[0108]
本发明提出了一种无人机辅助车联网环境中的联合缓存决策和轨迹优化方法，基于差分进化算法和多智能体近端策略优化(mappo)算法，将两种方法联合运用到空地协同系统中。其核心思想是无人机上的服务器通过历史请求，借助差分进化算法得到动态缓存策略，然后将无人机映射为mappo中的智能体，在为车辆请求进行缓存服务的同时，与环境交互学习，从而指导自己实时规划路径，实现系统能耗的最小化。
[0109]
同时，该发明给出了基于差分进化算法的缓存策略算法，以优化缓存命中率为目标，对缓存策略进行了初始化、变异、交叉、选择等操作，迭代选出最优缓存策略，弥补了传统缓存算法收敛慢、容易陷入局部最优的缺陷。还给出了空地协同系统中，轨迹优化决策的马尔可夫决策模型(mdp)，包括对于状态空间、动作空间、交互、奖励的设计。整个算法具有系统所需的动态调整缓存策略、实时学习优化的特征，能够在计算资源受限的情况下满足时延敏感型服务的请求，降低了多无人机辅助车联网环境下移动设备的使用能耗，实现节能、高质量服务。
附图说明
[0110]
图1是空地协同系统下的车联网场景示意图；
[0111]
图2是基于本发明的ctdr算法的能耗优化框架。
具体实施方式
[0112]
下面结合附图和实施例对本发明的技术方案作进一步的说明。
[0113]
本发明提出了一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，即一种多无人机缓存服务的基于差分进化算法和多智能体近端策略优化算法的节能轨迹设计方法，命名为ctdr。其中，无人机轨迹优化问题中所使用的mappo算法与大部分主流强化学习算法一样，可以很好地适应车联网环境下动态变化的服务规模和类型，而它的优势在于可以在计算资源受限的情况下，仍能高效、及时地完成优化任务。在ctdr方法中，首先无人机上的服务器通过历史请求，借助差分进化算法得到动态缓存策略，然后ctdr将无人机与智能体一一对应，在为车辆请求进行缓存服务的同时，与环境交互学习，从而指导自己实时规划路径，实现系统能耗的最小化。同时，该发明给出了基于差分进化算法的缓存策略算法，以优化缓存命中率为目标，对缓存策略进行了初始化、变异、交叉、选择等操作，迭代选出最优缓存策略，弥补了传统缓存算法收敛慢、容易陷入局部最优的缺陷。还给出了空地协同系统中，轨迹优化决策的马尔可夫决策模型(mdp)，包括对于状态空间、动作空间、交互、奖励的设计。ctdr算法具有系统所需的动态调整缓存策略、实时学习优化的特征，能够在计算资
源受限的情况下满足时延敏感型服务的请求，降低了多无人机辅助车联网环境下移动设备的使用能耗，实现节能、高质量服务。
[0114]
首先给出无人机辅助车联网网络下的空地协同系统模型，各使用到的物理量含义如表1所示。
[0115]
表1各关键物理量及其定义
[0116][0117][0118]
该发明设计了一个无人机辅助车联网框架，如图1所示，该框架由一个基站(bs)、n架无人机和v车组成。在高峰期工作时，基站可能会超载，无法满足车辆的通行需求。在这种情况下，流量卸载由配备缓存存储的无人机辅助。假设所有设备都配备了天线，以便在其他设备之间传输数据和内容。多架无人机充当飞行集装箱，为附近的车辆提供流行的内容传递服务，这些车辆可以在没有基站的情况下直接通信。车辆将在一个时间段的开始发送各种请求。首先，车辆向最近的无人机发出请求。如果无人机与车辆相连，并且缓存了所需的内容，它可以直接将结果返回给车辆。否则，请求将被发送到基站进行处理。经过一段时间后，无人机可以根据最近一段时间收到的内容请求，学习动态更新缓存方案，优化飞行轨迹，更有效地为系统服务。
[0119]
在本系统中，假设每辆车v∈ν在每个时刻t∈t中产生一个或多个计算密集型任务。此外，与传统的地面移动边缘计算网络不同，无人机辅助网络应将无人机的轨迹规划纳入设计。与已有研究一致，本发明采用三维笛卡尔坐标。设为无人机n∈n在
时刻t∈t中的坐标。同样，车辆v∈v高度设置为0，其坐标可记为无人机n∈n在任务中以固定高度h飞行，定义r
max
为无人机的最大水平覆盖半径。因此，无人机n与车辆v之间的水平距离需要在无人机的最大水平覆盖半径r
max
范围内。
[0120]
本发明所述的一种无人机辅助车联网环境中的联合缓存决策和轨迹优化方法，框架如图2所示，基于各车辆、各无人机、以及基站构成的空地协同系统下，各无人机针对预设时间段内的服务请求，空地协同执行以下步骤，得到各无人机的缓存决策模型和轨迹优化模型，实现各无人机根据优化轨迹为各车辆的服务请求提供及时、有效的内容缓存决策。
[0121]
步骤a：针对空地协同系统，基于地面车辆对无人机和地面边缘设备的无线通信模型，执行缓存服务能耗模型以及无人机飞行和空地协同执行服务时的能耗模型，构建空地协同系统的目标函数与约束条件。
[0122]
所述步骤a中各无人机执行内容缓存和飞行轨迹决策时由步骤a1至a3，得到地面车辆对无人机和地面边缘设备的无线通信模型，执行缓存服务能耗模型以及无人机飞行和空地协同执行服务时的能耗模型。
[0123]
步骤a1：当需要传输车辆和边缘服务器(无人机、基站)之间的数据和服务内容时的无线通信模型，计算过程如下：
[0124]
步骤a1.1：针对需要传输车辆和基站之间的数据和服务内容时的无线通信模型，计算车辆到基站之间的通信速率表示为：
[0125][0126]
其中表示t时刻车辆v到基站b之间的通信速率，b0表示基站分配给车辆的带宽，表示车辆和基站之间的信道增益，pv表示车辆的传输功率，σ2表示高斯白噪音功率。
[0127]
步骤a1.2：由于无人机在城市中与车辆进行信号传输时可能会遇到障碍物，影响信号传输效果，因此该通信是基于与视距los连接概率相关的los链路标准阴影模型进行建模，该模型取决于环境和无人机所在位置。因此，可以los连接概率计算为：
[0128][0129]
其中表示los连接概率，h是无人机距离水平地面的垂直高度，是t时刻无人机n与车辆v之间的水平距离，ζ和χ是取决于无人机位置的环境常数。则无人机n与车辆v在t时刻该通信的平均路径损耗为：
[0130][0131]
其中fc和c分别为载频和光速。和是随环境变化的阴影变量；
[0132]
所以与无人机n在t时刻的车辆v的平均信噪比为：
[0133]
[0134]
此外，假设无人机与车辆之间的通信采用正交时分多址(tdma)方式。设为车辆v与无人机n之间的信道增益，则信道增益可计算为：
[0135][0136]
其中是t时刻无人机n在坐标系中的横坐标，是t时刻车辆v在坐标系中的横坐标，是t时刻无人机n在坐标系中的纵坐标，是t时刻车辆v在坐标系中的纵坐标；则t时刻从车辆v到无人机n的上行数据传输速率可计算为：
[0137][0138]
式中，bn为车辆分配给无人机n的频谱带宽，为车辆v的平均信噪比。
[0139]
步骤a2：当执行缓存服务能耗模型时，假设在道路上行驶的车辆v在一个时刻的开始需要一个或多个内容服务。那么对车辆v的需求可以表示为：
[0140][0141]
其中表示车辆v在t时刻是否需要服务k的决策变量，服务内容k包括三个参数(dk，rk，ck)，dk表示k的数据大小，rk表示k的结果大小，ck表示k的计算大小。其中，将γ作为缓存策略，将作为服务内容k是否已经缓存到无人机n上的决策变量。如果则表示该内容已经缓存到无人机上。否则，内容没有缓存在无人机上。因此，对于缓存的内容，我们只需要将内容的处理结果返回给所需的车辆。车辆v的反馈时间表示为：
[0142][0143]
式中，表示汽车v通过接收缓存在无人机n上的服务所花费的总时间，k是所有设定服务的集合，表示t时刻从车辆v到无人机n的上行数据传输速率；只有当只有当时，表示车辆v需要的服务内容k，同时该内容缓存在无人机上。因此，车辆v的能耗可计算为：
[0144][0145]
式中，表示汽车v通过接收缓存在无人机n上的服务所花费的总能耗，ψn为无人机n的卸载功率。除此之外，在无人机n处缓存内容所消耗的能量计算为：
[0146][0147]
式中，eccn(t)表示无人机n上的缓存服务所花费的总能耗，cn是无人机n上的cpu时钟速度，表示无人机n的计算能力。
[0148]
另外，考虑到服务器有限的存储空间，不可能同时缓存所有的服务。因此，在保证缓存服务普及的情况下，应尽可能多地缓存服务内容。业务占用的存储空间总和不超过无人机的存储容量cn。此外，为了适应不断变化的交通道路，缓存决策每t时期更新一次，其中t由服务器提供商决定。因此，服务器必须正确地决定缓存哪个服务。由于有限的缓存内存
大小，它应该满足：
[0149][0150]
式中，是服务内容k是否已经缓存到无人机n上的决策变量。
[0151]
步骤a3：当无人机飞行和空地协同执行服务时的能耗模型，其计算过程如下：
[0152]
步a31：针对无人机飞行时的能耗模型，对于速度为vn的旋翼无人机，t时刻的推进功率消耗p(vn)表示为：
[0153][0154]
式中，p0、p1、u、vr、d0、ρ、s、a是与无人机重量、机翼面积、空气密度等相关的常数参数，其中p0表示悬停状态下的无人机旋翼叶片轮廓功率，p1为表示悬停状态下的无人机旋翼叶片感应功率，u表示叶片的尖端速度，vr为悬停时的平均转子诱导速度，d0是无人机所受的阻力比，ρ是空气密度，s表示旋翼转子的硬度，a是叶片圆盘的面积。因此，无人机在t时刻内的推进能耗可计算为：
[0155]en
(t)＝p(vn)
·
t
[0156]
步骤a3.2：针对空地协同执行服务时的能耗模型，首先对于在无人机上缓存的内容，只计算返回内容处理结果和在无人机上缓存内容所消耗的能量。否则，无人机上的非缓存内容需要经过以下步骤：将任务卸载到bs，计算并返回结果。在bs上计算的内容的执行时间表示为：
[0157][0158]
其中，表示车辆v将服务卸载到基站上处理所花费的总时间，表示车辆v到基站b之间的通信速率，cb是基站上的cpu时钟速度，表示车辆需要但未缓存到无人机上的内容。因此，执行能耗可计算为：
[0159][0160]
式中，表示车辆v将服务卸载到基站上处理所花费的总能耗，表示bs的计算能力，ψb表示bs的卸载能力。因此，t时刻车辆v的执行能耗可计算为：
[0161][0162]
由上式可得t时刻总能耗e
total
(t)为：
[0163][0164]
其中，e
uav
(t)表示无人机飞行能耗，e
execution
(t)表示执行服务所花费的总能耗，n是无人机的集合，v是所有车辆的集合；在上式中，能耗为无人机飞行能耗和无人机对缓存内容的结果进行回传，以及在bs上处理非缓存服务的总能耗。
[0165]
步骤a3.4：针对空地协同系统，基于地面车辆对无人机和地面边缘设备的无线通信模型，执行缓存服务能耗模型以及无人机飞行和空地协同执行服务时的能耗模型，构建空地协同系统的目标函数与约束条件；
[0166]
目标函数为：
[0167][0168]
其中，表示缓存决策集合，表示无人机的轨迹集合，t是无人机执行服务周期，分别为无人机集合，用户需要的服务集合；
[0169]
约束条件如下：
[0170][0171]
表示每个无人机中所缓存的服务内容不得超过无人机缓存空间的最大值；
[0172][0173]
表示内容是否缓存在无人机上，必须是0或1的一个数。
[0174]
步骤b：基于空地协同系统的目标函数和约束条件，以缓存命中率为优化目标，根据给定的历史请求，采用差分进化算法对各无人机的内容缓存决策模型进行动态优化，得到各无人机在不同区域和时间内的最优缓存决策模型。
[0175]
所述步骤b中，基于空地协同系统的目标函数和约束条件，以缓存命中率f(γ)为优化目标，根据给定的历史请求，采用差分进化算法对各无人机的内容缓存决策模型进行动态优化，执行步骤b1至b4，分别对各无人机的内容缓存策略模型进行优化，直到达到预设迭代次数，得到各无人机在不同区域和时间内的最优缓存决策模型。
[0176]
步骤b1：本发明将差分进化算法中由不同染色体组成的个体作为边缘内容缓存策略略表示服务内容k是否已经缓存到无人机n上的决策变量，分别是无人机集合，服务用户需要的服务集合，进行种群初始化，表示如下：
[0177][0178]
其中，γi(0)是第i个初始化个体，是第j维解向量。np是种群的大小，d＝n
·
k是一个种群的解向量。
[0179]
步骤b2：基于所得到的边缘缓存策略，运用最佳变异选择策略，即对初始化的种群进行变异产生变异向量，为后期的产生子代种群建立基础，可以表示为：
[0180]vi
(g+1)＝γ
best
(g)+f
·
(γ
r1
(g)-γ
r2
(g))
[0181]
其中γ
best
(g)为群体中最优缓存策略，f为控制偏差变比放大的可变因子。
[0182]
步骤b3：基于原边缘缓存策略以及变异后的缓存策略，进行交叉操作以提高种群的多样性，该步骤可以表示为：
[0183][0184]
其中cr表示交叉概率。
[0185]
步骤b4：基于原边缘缓存策略以及交叉后的缓存策略，进行贪婪算法，选择出表现
更好(即缓存命中率更高)的缓存策略作为新一代的种群个体：
[0186][0187]
按照上述步骤进行规定次数迭代后，从最终个体获得最优内容缓存策略。
[0188]
基于差分放大算法的最优缓存决策的流程如表2所示。先初始化种群，然后在每一次更新种群中，进行变异、交叉等操作，接着根据种群之间缓存命中率的大小，选择保存较好的种群，在达到预设迭代次数后，输出最优缓存方案。
[0189]
表2
[0190][0191][0192]
步骤c：基于各无人机在不同区域和时间内的最优缓存决策模型，针对模拟实时的服务请求，采用多智能体近端策略优化算法对各无人机的轨迹模型进行优化，得到各无人机在不同区域和时间内的轨迹优化模型。
[0193]
所述步骤c中，基于空地协同系统的目标函数和约束条件，以及各无人机在不同区域和时间内的最优缓存决策模型，针对模拟实时的服务请求，采用多智能体近端策略优化算法对各无人机的轨迹模型进行优化，得到各无人机在不同区域和时间内的轨迹优化模型。
[0194]
步骤c1：所述轨迹优化过程满足马尔可夫决策过程，ctdr中的马尔可夫决策过程(mdp)模型如下：
[0195]
在车联网环境中，将每架无人机视为一个智能体进行轨迹优化设计。我们定义了一个马尔可夫决策过程来描述环境为(s，a，p，r)，其中s表示车联网环境及各无人机、车辆的当前状态，a表示无人机所执行的动作集合，p为无人机执行动作的策略映射关系，r为该
环境下的奖励函数。环境s的状态包括无人机的位置、车辆的位置和车辆在每个时刻的任务请求量。故t时刻时的状态表示为：
[0196][0197]
其中l
uav
(t)和l
vehicle
(t)表示t中无人机和车辆的位置集合，其中每个向量代表无人机或车辆的位置坐标，用于计算信道传输距离和传输速率，fv(t)表示t中所有任务请求的数量。由于每个agent都要协同完成服务任务，以最小化系统的能耗，因此每个无人机都可以获得共享的环境状态s，并且注意，在不同的时刻中，以上三种状态都是动态变化的。这意味着智能体必须从连续状态中学习，然后根据环境变化采取行动。每个无人机需要根据当前状态采取行动。我们将无人机的偏转角度和速度比率定义为每个agent的动作，因此可以表示为：
[0198][0199]
式中，θn(t)∈[0，2π]为agent的偏转角，ξn(t)∈[0，1]为agent的速度比率，即agent的速度计算公式为vn(t)＝v
max
·
ξn(t)，式中v
max
为无人机所能飞行的最大速度。而策略是agent在不同状态下选择动作的策略，即从状态到动作的映射关系，故策略表示为：
[0200]
π
θ
(ai|si)
[0201]
其中θ是策略网络的参数，ai是第i个agent所采取的动作策略，si是第i个agent所处在的状态空间，i是指第i个agent。agent采取动作后，状态会转移到另一个状态。状态转移概率表示为：
[0202]
p(s
′
|s，a)
[0203]
其中，s
′
是更新后的状态空间，s是初始状态下的状态空间，a是所有agent的动作策略集合。
[0204]
基于空地协同系统的目标函数和约束条件，在最优缓存策略和轨迹规划的条件下，定义该车联网在t服务周期的总能耗为rewards。由于多智能体强化学习的目标是最大化奖励，我们将奖励的负值定义为
[0205][0206]
其中，e
total
(t)为该车联网环境下无人机辅助所需要消耗的总能耗，t是无人机的服务周期。
[0207]
步骤c2：从经验缓冲区中，抽样出一些批次经验，基于当前环境状态，策略网络的损失l(θ)可表示为：
[0208][0209]
其中，是决策的估计量的期望，为新决策与旧决策的比值，∈为裁剪强度，clip()是策略网络裁剪函数，是t时刻第i个agent的动作空间，是t时刻第i个agent的状态空间，是旧策略映射关系，是新策略映射关系，为广义优势估计(gae)，计算公式如下：
[0210][0211]
其中γ是折扣因子，λ是gae的加权因子，l是推迟因子，r
t+l
是推迟l后的奖励值，是t时刻的值函数；它提供了偏差和方差之间的权衡。使用梯度下降法学习价值网络，损失函数如下：
[0212][0213]
其中，φ是价值网络的参数，为一段时间内预期总收益的估计值，和是值函数所限定的区间边界值。最后，对策略网络和价值网络的参数进行了如下更新：
[0214]
θ
←
θ+αl(θ)
[0215]
φ
←
φ+βl(φ)
[0216]
其中α和β分别是策略网络和价值网络的学习率，参数更新后，每个无人机共享此网络的参数，进行统筹优化，迭代更新，以求达到最优奖励值。
[0217]
作为多智能体环境下近端策略优化(ppo)性能的一种变体，mappo是近年来较为流行的marl算法之一。它采用集中的价值函数方法来考虑全局信息，属于集中训练和分散执行(ctde)框架。因此，单个智能体可以通过全局价值函数相互合作。在每个时刻开始时，记录内容服务请求的数量和无人机和车辆的位置作为初始状态。然后，每个无人机代理将从当前环境中采取一个行动。当环境接收到无人机获得的动作后，状态更新。将状态、动作、奖励和下一状态的经验元组存储在回放缓冲区中，可以提高模型参数的有效性。然后，在一个时刻结束时，agent将更新它们的策略。在训练策略网络之前，agent首先从缓冲区中采样一些批次的经验。在本发明中，无人机协作为车联网提供服务，从而假设所有无人机共享演员和评论家网络的参数。然后在每个训练步骤中，行动者和评论家分别用策略π
θ
和值函数v“(s)更新网络参数。此外，所述各无人机中行动者和评论家网络参数的更新是共享的，每个无人机都可以通过周围环境，协同合作更新自己的网络参数。
[0218]
基于多智能体近端策略优化算法的轨迹优化设计的流程如表3所示。在每一次的决策中，除了获得请求、执行轨迹规划和处理服务外，各无人机存储状态、动作、奖励到一个回放缓存区中(line4-line12)。
[0219]
表3
[0220][0221]
本发明设计了一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，该发明提出名为ctdr的联合缓存决策和轨迹优化方法。该方法基于差分进化算法和多智能体近端策略优化(mappo)算法，将两种方法联合运用到空地协同系统中。其核心思想是无人机上的服务器通过历史请求，借助差分进化算法得到动态缓存策略，然后将无人机映射为mappo中的智能体，在为车辆请求进行缓存服务的同时，与环境交互学习，从而指导自己实时规划路径，实现系统能耗的最小化。同时，该发明给出了基于差分进化算法的缓存策略算法，以优化缓存命中率为目标，对缓存策略进行了初始化、变异、交叉、选择等操作，迭代选出最优缓存策略，弥补了传统缓存算法收敛慢、容易陷入局部最优的缺陷。还给出了空地协同系统中，轨迹优化决策的马尔可夫决策模型(mdp)，包括对于状态空间、动作空间、交互、奖励的设计。整个算法具有系统所需的动态调整缓存策略、实时学习优化的特征，能够在计算资源受限的情况下满足时延敏感型服务的请求。
[0222]
上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

技术特征：
1.一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，基于各车辆、各无人机、以及基站构成的空地协同系统下，其特征在于，各无人机针对预设时间段内的服务请求，空地协同执行以下步骤，得到各无人机的缓存决策模型和轨迹优化模型，实现各无人机根据优化轨迹为各车辆的服务请求提供内容缓存决策；步骤a：针对空地协同系统，基于地面车辆对无人机和地面边缘设备的无线通信模型，执行缓存服务能耗模型以及无人机飞行和空地协同执行服务时的能耗模型，构建空地协同系统的目标函数与约束条件；步骤b：基于空地协同系统的目标函数和约束条件，以缓存命中率为优化目标，根据给定的历史请求，采用差分进化算法对各无人机的内容缓存决策模型进行动态优化，得到各无人机在不同区域和时间内的最优缓存决策模型；步骤c：基于各无人机在不同区域和时间内的最优缓存决策模型，针对模拟实时的服务请求，采用多智能体近端策略优化算法对各无人机的轨迹模型进行优化，得到各无人机在不同区域和时间内的轨迹优化模型；步骤d：基于各无人机的最优缓存决策模型和轨迹优化模型，各无人机优化飞行路线，并对对应区域的车辆的服务请求提供相应的服务。2.根据权利要求1所述的一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，其特征在于，所述步骤a中各无人机执行内容缓存和飞行轨迹决策时由步骤a1得到地面车辆对无人机和地面边缘设备的无线通信模型；步骤a1：当需要传输车辆和边缘服务器之间的数据和服务内容时的无线通信模型，计算过程如下：步骤a1.1：针对需要传输车辆和基站之间的数据和服务内容时的无线通信模型，计算车辆到基站之间的通信速率表示为：其中表示t时刻车辆v到基站b之间的通信速率，b0表示基站分配给车辆的带宽，表示车辆和基站之间的信道增益，p
v
表示车辆的传输功率，σ2表示高斯白噪音功率；步骤a1.2：无人机与车辆进行信号传输时通信基于与视距los连接概率相关的los链路标准阴影模型进行建模，los连接概率计算为：其中表示los连接概率，h是无人机距离水平地面的垂直高度，是t时刻无人机n与车辆v之间的水平距离，ζ和χ是取决于无人机位置的环境常数；则无人机n与车辆v在t时刻通信的平均路径损耗为：其中f
c
和c分别为载频和光速，和是随环境变化的阴影变量；与无人机n在t时
刻的车辆v的平均信噪比为：设为车辆v与无人机n之间的信道增益，则信道增益计算为：其中是t时刻无人机n与车辆v之间的水平距离，是t时刻无人机n在坐标系中的横坐标，是t时刻车辆v在坐标系中的横坐标，是t时刻无人机n在坐标系中的纵坐标，是t时刻车辆v在坐标系中的纵坐标；则t时刻从车辆v到无人机n的上行数据传输速率计算为：式中，b
n
为车辆分配给无人机n的频谱带宽，为车辆v的平均信噪比。3.根据权利要求1所述的一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，其特征在于，所述步骤a中各无人机执行内容缓存和飞行轨迹决策时由步骤a2得到执行缓存服务能耗模型；步骤a2：当执行缓存服务能耗模型时，设在道路上行驶的车辆v在一个时刻的开始需要一个或多个内容服务，那么对车辆v的需求表示为：其中表示车辆v在t时刻是否需要服务k的决策变量，服务内容k包括三个参数(d
k
,r
k
,c
k
)，d
k
表示k的数据大小，r
k
表示k的结果大小，c
k
表示k的计算大小；将γ作为缓存策略，将作为服务内容k是否已经缓存到无人机n上的决策变量；如果则表示该内容已经缓存到无人机上；否则，内容没有缓存在无人机上；对于缓存的内容，将内容的处理结果返回给所需的车辆；车辆v的反馈时间表示为：式中，表示汽车v通过接收缓存在无人机n上的服务所花费的总时间，k是所有设定服务的集合，表示t时刻从车辆v到无人机n的上行数据传输速率；只有当只有当时，表示车辆v需要的服务内容k，同时该内容缓存在无人机上；车辆v的能耗计算为：式中，表示汽车v通过接收缓存在无人机n上的服务所花费的总能耗，ψ
n
为无人机n的卸载功率；在无人机n处缓存内容所消耗的能量计算为：
式中，ecc
n
(t)表示无人机n上的缓存服务所花费的总能耗，c
n
是无人机n上的cpu时钟速度，表示无人机n的计算能力；业务占用的存储空间总和不超过无人机的存储容量c
n
，缓存决策每t时期更新一次，满足：式中，是服务内容k是否已经缓存到无人机n上的决策变量。4.根据权利要求3所述的一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，其特征在于，所述步骤a中各无人机执行内容缓存和飞行轨迹决策时由步骤a3得到无人机飞行和空地协同执行服务时的能耗模型；步骤a3：当无人机飞行和空地协同执行服务时的能耗模型，其计算过程如下：步骤a3.1：针对无人机飞行时的能耗模型，对于速度为v
n
的旋翼无人机，t时刻的推进功率消耗p(v
n
)表示为：式中，p0、p1、u、v
r
、d0、ρ、s、a是与无人机重量、机翼面积、空气密度相关的常数参数，其中p0是悬停状态下的无人机旋翼叶片轮廓功率，p1是悬停状态下的无人机旋翼叶片感应功率，u是叶片的尖端速度，v
r
是悬停时的平均转子诱导速度，d0是无人机所受的阻力比，ρ是空气密度，s表示旋翼转子的硬度，a是叶片圆盘的面积；无人机在t时刻的推进能耗e
n
(t)计算为：e
n
(t)＝p(v
n
)
·
t步骤a3.2：针对空地协同执行服务时的能耗模型，首先对于在无人机上缓存的内容，只计算返回内容处理结果和在无人机上缓存内容所消耗的能量；否则，无人机上的非缓存内容经过以下步骤：将任务卸载到bs，计算并返回结果；在bs上计算的内容的执行时间表示为：其中，表示车辆v将服务卸载到基站上处理所花费的总时间，表示车辆v到基站b之间的通信速率，c
b
是基站上的cpu时钟速度，表示车辆需要但未缓存到无人机上的内容；执行能耗计算为：
式中，表示车辆v将服务卸载到基站上处理所花费的总能耗，表示bs的计算能力，ψ
b
表示bs的卸载能力；t时刻车辆v的执行能耗计算为：由上式得t时刻总能耗e
total
(t)为：其中，e
uav
(t)表示无人机飞行能耗，e
execntion
(t)表示执行服务所花费的总能耗，n是无人机的集合，v是所有车辆的集合；在上式中，能耗为无人机飞行能耗和无人机对缓存内容的结果进行回传，以及在bs上处理非缓存服务的总能耗；步骤a3.4：针对空地协同系统，基于地面车辆对无人机和地面边缘设备的无线通信模型，执行缓存服务能耗模型以及无人机飞行和空地协同执行服务时的能耗模型，构建空地协同系统的目标函数与约束条件；目标函数为：其中，t是无人机执行服务周期；表示缓存决策集合，表示无人机的轨迹集合，分别为无人机集合及用户需要的服务集合；约束条件如下：表示每个无人机中所缓存的服务内容不得超过无人机缓存空间的最大值；表示内容是否缓存在无人机上。5.根据权利要求1所述的一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，其特征在于，所述步骤b中，基于空地协同系统的目标函数和约束条件，以缓存命中率f(γ)为优化目标，根据给定的历史请求，采用差分进化算法对各无人机的内容缓存决策模型进行动态优化；执行步骤b1至b4，分别对各无人机的内容缓存策略模型进行优化，直到达到预设迭代次数，得到各无人机在不同区域和时间内的最优缓存决策模型；步骤b1：将差分进化算法中由不同染色体组成的个体作为边缘内容缓存策略将差分进化算法中由不同染色体组成的个体作为边缘内容缓存策略表示服务内容k是否已经缓存到无人机n上的决策变量，分别是无人机集合及服务用户需要的服务集合，进行种群初始化；步骤b2：基于所得到的边缘缓存策略，运用最佳变异选择策略，即对初始化的种群进行变异产生变异向量，为后期的产生子代种群建立基础；步骤b3：对原边缘缓存策略以及变异后的缓存策略进行交叉操作；
步骤b4：利用贪婪算法选择出原边缘缓存策略以及交叉后的缓存策略中缓存命中率最高的缓存策略作为新一代的种群个体；按照上述步骤进行规定次数迭代后，从最终个体获得最优内容缓存策略。6.根据权利要求1所述的一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，其特征在于，所述步骤c中，基于空地协同系统的目标函数和约束条件，以及各无人机在不同区域和时间内的最优缓存决策模型，针对模拟实时的服务请求，采用多智能体近端策略优化算法对各无人机的轨迹模型进行优化，得到各无人机在不同区域和时间内的轨迹优化模型；步骤c1：轨迹优化过程满足马尔可夫决策过程，改进的马尔可夫决策过程模型如下：在车联网环境中，将每个无人机视为一个智能体进行轨迹优化，定义一个马尔可夫决策过程描述环境为(s，a，p，r)；其中s表示车联网环境及各无人机、车辆的当前状态，a表示无人机所执行的动作集合，p为无人机执行动作的策略映射关系，r为该环境下的奖励函数；环境的状态s包括无人机的位置、车辆的位置和车辆在每个时刻的任务请求量，t时刻的状态表示为：其中，l
uav
(t)和l
vehicle
(t)表示t时刻无人机和车辆的位置集合，其中每个向量代表无人机或车辆的位置坐标，用于计算信道传输距离和传输速率，f
v
(t)表示t时刻所有任务请求的数量；智能体从连续状态中学习，然后根据环境变化采取行动；每个无人机根据当前状态采取行动；将无人机的偏转角度和速度比率定义为每个agent的动作，表示为：式中，θ
n
(t)∈[0，2π]为agent的偏转角，ξ
n
(t)∈[0，1]为agent的速度比率，即agent的速度计算公式为v
n
(t)＝v
max
·
ξ
n
(t)，v
max
为无人机所能飞行的最大速度；策略是agent在不同状态下选择动作的策略，即从状态到动作的映射关系，策略表示为：π
θ
(a
i
|s
i
)；其中，θ是策略网络的参数，所述策略网络是指强化学习的actor-critic模型中的行动者网络，a
i
是第i个agent所采取的动作策略，s
i
是第i个agent所处在的状态空间；agent采取动作后，状态转移到另一个状态，状态转移概率表示为：p(s
′
|s，a)；其中，s
′
是更新后的状态空间，s是初始状态下的状态空间，a是所有agent的动作策略集合；基于空地协同系统的目标函数和约束条件，在最优缓存策略和轨迹规划的条件下，定义该车联网在服务周期t的总能耗为rewards；多智能体强化学习的目标是最大化奖励，将奖励的负值r定义为其中，e
total
(t)为该车联网环境下无人机辅助所需要消耗的总能耗，t是无人机的服务周期；步骤c2：利用mappo算法通过集中的价值函数方法来考虑全局信息，进行多智能体环境
下近端策略优化。7.根据权利要求6所述的一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，其特征在于，所述步骤c2，利用mappo算法通过集中的价值函数方法来考虑全局信息，进行多智能体环境下近端策略优化，具体包括：首先，单个智能体通过全局价值函数相互合作，在每个时刻开始时，记录内容服务请求的数量以及无人机和车辆的位置作为初始状态；然后，每个无人机从当前环境中采取一个行动，当环境接收到无人机获得的动作后，状态更新；将状态、动作、奖励和下一状态的经验元组存储在回放缓冲区中，在一个时刻结束时，agent更新它们的策略；在训练策略网络之前，agent首先从缓冲区中采样设定批次的经验元组；无人机协作为车联网提供服务，所有无人机共享策略网络和价值网络的参数，所述价值网络是指强化学习的actor-critic模型中的评论家网络；在每个训练步骤中，行动者和评论家分别用策略π
θ
和值函数v“(s)更新网络参数，行动者网络的损失函数l(θ)表示为：者网络的损失函数l(θ)表示为：其中，是决策的估计量的期望，为新决策与旧决策的比值，∈为裁剪强度，clip()是策略网络裁剪函数，是t时刻第i个agent的动作空间，是t时刻第i个agent的状态空间，是新策略映射关系，是旧策略映射关系，为广义优势估计，计算公式如下：其中，γ是折扣因子，λ是加权因子，l是推迟因子，r
t
¤
l
是推迟l后的奖励值，是t时刻的值函数；使用梯度下降法学习价值网络，价值网络的损失函数l(φ)如下：其中，φ是价值网络的参数，为一段时间内预期总收益的估计值，和是值函数所限定的区间边界值；最后，对决策网络和价值网络的参数进行如下更新：θ
←
θ+αl(θ)
φ
←
φ+βl(φ)其中α和β分别是决策网络和价值网络的学习率，参数更新后，每个无人机共享此网络的参数，进行统筹优化，迭代更新，以求达到最优奖励值。

技术总结
本发明公开了一种无人机辅助车联网下的联合缓存决策和轨迹优化方法，属于无线通信技术领域。该方法基于差分进化算法和多智能体近端策略优化(MAPPO)算法，将两者联合运用到空地协同系统中。其核心思想是无人机上的服务器通过历史请求，借助差分进化算法得到动态缓存策略，然后将无人机映射为MAPPO中的智能体，在为车辆请求进行缓存服务的同时，与环境交互学习，指导自己实时规划路径，实现系统能耗的最小化。整个算法具有系统所需的动态调整缓存策略、实时学习优化的特征，能够在计算资源受限的情况下满足时延敏感型服务的请求，降低了多无人机辅助车联网下移动设备的使用能耗，实现节能、高质量服务。高质量服务。高质量服务。

技术研发人员：许小龙王稳
受保护的技术使用者：南京信息工程大学
技术研发日：2023.06.30
技术公布日：2023/10/8

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种车载软件可售卖商品的判别方法、售卖平台及系统与流程 下一篇：一种内耳重复给药的人工耳蜗植入体的制作方法

一种无人机辅助车联网下的联合缓存决策和轨迹优化方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种无人机辅助车联网下的联合缓存决策和轨迹优化方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表