车联网资源分配方法、装置、存储介质及电子设备

未命名 10-19 阅读：95 评论：0

1.本技术涉及通信技术领域，尤其涉及一种车联网资源分配方法、装置、存储介质及电子设备。

背景技术：

2.随着车载网络技术和智能计算机系统的快速进步，人工智能应用在车载操作系统中的使用越来越普遍。这些车载应用产生的数据量庞大，对车载网络的存储和计算带来了极大的挑战。车载边缘计算技术可以提供高速、低延迟、高可靠性的服务，开辟了实现智能服务的新途径，但也面临着泄露用户隐私数据的风险。联邦学习是一种很有前途的隐私保护技术，它只使用分散训练的本地模型的参数来生成全局模型，从而避免了敏感数据的泄露。但是，由于联邦学习需要频繁地进行模型交换，因此会对通信和计算资源产生大量的占用，将联邦学习引入车辆网络中会带来额外的成本。此外，在noma信道中，不同车辆占用同一子信道会产生信道干扰，影响模型的传输速率，如何合理分配资源以降低通信成本，是目前非常重要的问题。同时考虑到在实际应用场景中，不同车辆占用相同信道资源将会产生干扰且因车辆本身的高移动特性与复杂的城市环境特性难以避免的会导致车辆无线信道的快速变化，因此合理分配信道资源、优化车辆的传输成本是至关重要的。但目前的车联网中的资源分配常采用集中式深度强化学习框架，使用非确定性多项式难题进行组合优化的方案，上述方法会导致极高的信令消耗以及高复杂性的运算。
3.因此，亟需一种低复杂性和有效的技术方案以解决上述技术问题。

技术实现要素：

4.本技术提供一种车联网资源分配方法、装置、存储介质及电子设备，用于解决在车联网中的资源分配方面缺乏低复杂性和有效的解决方案的问题，从而优化车联网中数据传输的成本。
5.为达到上述目的，本技术采用如下技术方案：
6.第一方面，本发明提出一种车联网资源分配方法，应用于基站，所述基站与所述基站覆盖范围内的多个车辆组成联邦学习网络，所述方法包括：
7.联邦学习模型；所述联邦学习模型用于所述联邦学习网络中车辆与车辆间进行通信，联邦学习包括车辆的图像识别学习；
8.通信模型；所述通信模型用于所述联邦学习网络中车辆与所述基站通信数据的传输；
9.资源计算模型；所述资源计算模型用于所述联邦学习网络中数据传输成本的计算；
10.基于图神经网络获取所述车辆的资源特征；
11.基于所述资源特征计算特征嵌入；所述特征嵌入包括所述资源计算模型所输入的参数；
12.根据所述特征嵌入确定所述车辆的状态数据、动作数据和共享奖励函数；
13.基于多智能体深度强化学习和深度q网络确定资源分配策略；所述资源分配策略用于优化计算所述状态数据、所述动作数据和所述共享奖励函数的传输成本。
14.在一种可能的实现方式中，所述联邦学习模型包括所述车辆的集合、所述车辆的本地数据集、所述车辆的本地训练图像识别模型参数；所述车辆的本地数据集包括图像识别数据样本、图像识别结果；所述车辆的图像识别学习包括：
15.基于所述联邦学习模型获取所述车辆的本地训练图像识别模型参数；
16.所述基站聚合计算所述车辆的集合对应的训练图像识别模型参数以生成全局模型参数；
17.基于所述全局模型参数更新所述车辆的本地训练图像识别模型参数。
18.在一种可能的实现方式中，所述基于所述联邦学习模型获取所述车辆本地训练图像识别模型参数，包括：
19.基于损失函数评估所述车辆本地训练图像识别模型参数。
20.在一种可能的实现方式中，所述通信模型采用非正交多址技术实现所述车辆与所述基站间的数据传输，所述通信模型包括频率资源单元和功率资源单元，所述频率资源单元和功率资源单元可由多用户进行复用；所述通信模型还包括：
21.基于大尺度衰落和小尺度衰落针对复合衰落频率子单元进行信道增益计算。
22.在一种可能的实现方式中，所述基于图神经网络获取所述车辆的资源特征包括：
23.基于图神经网络将联邦学习网络转化为有向图确定所述车辆的节点观测值和链路权值。
24.在一种可能的实现方式中，所述基于所述资源特征计算特征嵌入，包括：
25.获取车辆在每个频率资源单元的信道增益；
26.基于所述信道增益、其他车辆的干扰链路增益和所述车辆相对邻车辆的干扰链路增益确定所述车辆的特征嵌入。
27.在一种可能的实现方式中，在所述基于多智能体深度强化学习和深度q网络确定资源分配策略之后，还包括：
28.基于仿真实验测试所述资源分配策略。
29.第二方面，还提出一种车联网资源分配装置，包括：
30.获取模块，用于基于图神经网络获取所述车辆的资源特征；
31.计算模块，用于基于所述资源特征计算特征嵌入；
32.函数模块，用于根据所述特征嵌入确定所述车辆的状态数据、动作数据和共享奖励函数；
33.学习模块，用于基于多智能体深度强化学习和深度q网络确定资源分配策略。
34.第三方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如第一方面的一种车联网资源分配方法。
35.第四方面，一种电子设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，执行如第一方面的一种车联网资源分配方法。
36.本技术提供了一种车联网资源分配方法、装置、存储介质及电子设备，应用于车联
网车辆与基站进行数据传输的场景中。在需要合理分配信道资源、优化车辆的传输成本时，可以建立联邦学习模型、通信模型、资源计算模型；基于图神经网络获取车辆的资源特征；基于资源特征计算特征嵌入；特征嵌入包括资源计算模型所输入的参数；根据特征嵌入确定车辆的状态数据、动作数据和共享奖励函数；基于多智能体深度强化学习和深度q网络确定资源分配策略。从而解决在实际应用场景中，不同车辆占用相同信道资源将会产生干扰且因车辆本身的高移动特性与复杂的城市环境特性难以避免的会导致车辆无线信道的快速变化时，通信资源分配缺乏低复杂性和有效的解决方案的问题。可以优化车联网中数据传输的成本。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的获得其他的附图。
38.图1为本技术的实施例提供的一种车联网资源分配方法的流程示意图；
39.图2为本技术的实施例提供的一种信道的通信资源划分图；
40.图3为本技术的实施例提供的一种车联网资源分配系统的结构示意图；
41.图4为本技术的实施例提供的一种基于图神经网络的车辆网络有向图；
42.图5为本技术的实施例提供的一种基于图神经网络和深度q网络的资源分配方法的结构示意图；
43.图6为本技术的实施例提供的一种基于图神经网络和深度q网络的资源分配方法的训练效果示意图；
44.图7为本技术的实施例提供的一种基于图神经网络和深度q网络的资源分配方法的平均奖励值和平均传输延迟时间示意图；
45.图8为本技术的实施例提供的一种基于图神经网络和深度q网络的资源分配方法的不同参与车辆数下的平均训练奖励曲线示意图；
46.图9为本技术的实施例提供的一种基于图神经网络和深度q网络的资源分配方法在不同参与车辆数和提取特征数下的训练时间图示意图；
47.图10为本技术的实施例提供的一种基于图神经网络和深度q网络的资源分配方法和其他两种图神经网络对比算法的训练奖励对比示意图；
48.图11为本技术的实施例提供的一种基于图神经网络和深度q网络的资源分配方法和基线方法的长期折扣奖励对比示意图；
49.图12为本技术的实施例提供的一种基于图神经网络和深度q网络的资源分配方法和基线方法在不同车辆数下的平均传输成本示意图；
50.图13为本技术的实施例提供的一种基于图神经网络和深度q网络的资源分配方法在不同车辆数和提取特征数下的平均回报示意图；
51.图14为本技术的实施例提供的一种车联网资源分配装置的结构示意图；
52.图15为本技术的实施例提供的一种电子设备的结构示意图。
具体实施方式
53.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。在本技术的描述中，除非另有说明，“至少一个”“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。
54.常规的车联网中的资源分配常采用集中式深度强化学习框架，使用非确定性多项式难题进行组合优化的方案，上述方法会导致极高的信令消耗以及高复杂性的运算。
55.为了解决上述问题，本技术实施例提供了一种车联网资源分配方法，在常规的资源分配基础上，引入了图神经网络对车辆进行抽象化为节点以提取低维特征，基于提取到的特征进而采用多智能体深度强化学习和深度q网络确定资源分配策略以进行频谱和功率分配来优化车联网中数据传输的成本。
56.图1示出了根据本发明一个实施例的车联网资源分配方法的流程示意图图。如图1所示，该方法包括：
57.联邦学习模型；在一种可能的实现方式中，由一个基站和多辆车组成的车辆网络，基站位于十字路口的中心，车辆分布在道路上。假设每台车辆都配置至少一个边缘服务器，该服务器可以提供本地训练能力，且每辆车都配置至少一个天线，该天线可以向基站传输信息。联邦学习模型用于在基站与其覆盖范围内的一些车辆之间的图像识别学习，基站可以通过非正交多址技术与其覆盖范围内的车辆之间进行通信，联邦学习过程发生在基站与其覆盖范围内的一些车辆之间。
58.其中，可用车辆集v＝[v1,...,vn,...,vn]具有它们自己的本地数据集d＝[d1,...,dn,...,dn]和本地机器学习模型参数w＝[w1,...,wn,...,wk]。对于车辆vn，数据集dn包含数据样本xi表示图像数据样本的输入，yi表示xi对应的输出。|dn|表示数据集的大小。需要说明的是，联邦学习是分阶段进行的，在第一轮开始时，车辆在本地进行学习模型的训练，并将其模型参数上传到基站。进一步的，基站聚合全局模型并将全局模型参数传递给车辆。第三阶段，车辆根据接收到的全局参数，车辆设置下一轮的初始训练参数。
[0059]
通信模型；在联邦学习网络中，v2i是联邦学习过程中涉及的主要无线通信技术。为了更好地处理车辆移动引起的多普勒频移，可以采用非正交多址技术，即noma实现车辆与基站之间数据的传输。由于下行带宽相较上行带宽更大，考虑到上行noma通信，离散带宽和离散功率的noma的通信性能相较连续域的noma并无较大差距，因此可以通过离散化频域和功率域，进而获得更详细的资源划分。可以理解的是，频率资源单元(子信道)和功率资源单元(功率片)可由多用户复用。优选的，接收机采用连续干扰消除(sic)技术对多用户信号进行解调。
[0060]
如图2所示，设整个带宽b上有l个子信道，整个功率p上有k个功率片，对于车辆vn，为第l个子信道的占用指示符，为第l个子信道的占用指示符，为第l个子信道上第j个功率片的占用指示符，车辆移动性的影响可以转换为距离dn(vn和边缘服务器之间)对车辆vn的传输速率rn的影响。与基站的覆盖半径相比，设基站的高度可以忽
略，则车辆vn的传输速率为：其中，r
ln
为车辆vn在第l个子信道上可达到的传输速率，根据香农理论可表示为：其中，ρ
sub
＝b/l为一个子信道提供的带宽，第l个子信道上的信噪比可表示为：其中，为在第l个子信道上为vn分配的功率片的数量，ρ
pwr
＝p/k为一个功率片提供的功率，为加性高斯白噪声的方差。vn在第l个子信道上的信道增益为：可以将车辆与基站之间的距离表示为：其中，(xb,yb)是基站的位置坐标，(xn,yn)是的位置坐标。
[0061]
资源计算模型；对于联邦学习网络中的车辆vn，一轮联邦学习的传输时延为：其中|wn|为本地模型参数的大小，rn为上行noma传输速率。可以理解的是，在本方法中，使每个参与优化目标是车辆的联邦学习传输成本的总和最小化，在联邦学习网络中，联邦学习所消耗的多维资源为：子信道，即用于传输的信道资源的单位、功率片，即用于通信的功率资源单位。进一步的，将资源占用量和资源占用时间相结合，可以定义数据传输成本为：其中，δ
sub
，δ
pwr
是单位时间内使用一个资源单位的成本。为vn的资源消耗，为子信道的分配数，为分配的功率片数。根据上述公式结合本方法的目的，资源分配可以表述为根据如下公式进行的优化问题：
[0062][0063][0064][0065][0066][0067]
sinrn≥sinr
*
,；
[0068]
0＜pn≤p
max
.；
[0069]
若设每个参与车辆可以占用最多u1个子信道，设一个子信道最多可以被u2个联邦学习网络内的车辆复用。其中，sinr
*
是信噪比阈值，它是vn可靠传输到基站的保证。
为vn分配的传输功率，p
max
为上行链路最大传输功率约束。
[0070]
s110、基于图神经网络获取车辆的资源特征。
[0071]
其中，首先将车辆网络构建为一个图模型，基于图神经网络技术来提取和参与车辆资源优化相关的特征，将每个参与的车辆视为一个节点，将车辆之间的信道干扰视为边。
[0072]
在一种可能的实现方式中，基于图神经网络获取车辆的资源特征，包括：
[0073]
s111、基于图神经网络将联邦学习网络转化为有向图确定车辆的节点观测值和链路权值。
[0074]
对于如图3所示的联邦学习网络，如图4所示的基于图神经网络的有向图表示，具体地，节点v的观测值和从节点u到节点v的链路权值分别可以写成xv＝{{hv}
l
}，e
uv
＝{{h
uv
}
l
}，其中使用图神经网络来提取节点特征。
[0075]
s120、基于资源特征计算特征嵌入。
[0076]
需要说明的是，步骤s111的目的是学习每个节点的一个特征嵌入包含相邻节点和边的信息，其中ds为特征嵌入的维数。可以将zv的第i次迭代描述为：,其中x
ne
[v]表示节点v的传入邻居的观测值，n(v)表示节点相邻节点的集合，即与节点v有链接的节点，f(
·
)是需要设计的更新函数。优选的，图神经网络的更新函数可以由以下公式得出：其中||表示向量连接，是第i次迭代的节点v的可训练权重。需要说明的是，采用整流线性单元(relu)作为图神经网络的激活函数，σ(x)＝max(0,x)。
[0077]
在一种可能的实现方式中，基于资源特征计算特征嵌入，包括：
[0078]
s121、基于信道增益、其他车辆的干扰链路增益和车辆相对邻车辆的干扰链路增益确定车辆的特征嵌入。
[0079]
其中，每个节点的特征嵌入取决于v2i通信链路的信道增益xv、其他车辆的干扰链路增益{e
uv
}
u∈n(v)
，以及其相邻车辆中的特征嵌入更具体地说，xv表示每个车辆的通信能力，{e
uv
}
u∈n(v)
表示每个车辆从其邻居接收到的干扰，而反映每个车辆对其邻居造成的干扰。因此，每个车辆的特征嵌入结果包括用于后续资源分配的足够信息。
[0080]
通常，在特征嵌入开始时为了减少网络信令开销，在第i次迭代时，仅在相邻节点之间交换特征嵌入其中v＝k是对应于参与车辆的节点集合。在i次迭代之后，提取的节点特征被获得为
[0081]
s130、根据特征嵌入确定车辆的状态数据、动作数据和共享奖励函数。
[0082]
需要说明的是，可以将每个联邦学习网络下的车辆视作智能体，通过采取动作与未知环境进行交互以获取经验，进而将上述经验被用于指导自己的资源分配策略设计。多个智能体可以共同对环境进行探索，并基于他们自己对环境的观察来改进资源分配策略。
另一方面，在数学层面，强化学习可以被建模为马尔可夫决策过程(mdp)。在每个离散时间步t，每个智能体从状态空间s中观察环境的当前状态s(t)，然后从动作空间a中选择动作a(t)，形成联合动作a(t)，一个时间步后，所有智能体获得奖励r(t+1)。接下来环境演化到下一个状态s(t+1)，转移概率为一个状态s(t+1)，转移概率为需要说明的是，其中，系统中的所有智能体共享相同的奖励。
[0083]
其中，状态数据是由车辆所处的真实环境的状态s(t)确定的，该状态包括整个系统环境的信道信息和所有智能体的动作，对于每个单独的智能体来说是未知的。单个智能体的观察空间包含其自身的信道增益和基于图神经网络提取到的资源特征，时间步t处的第n个智能体的状态可以表示为：其中，车辆的资源分配基于功率资源单元和功率资源单元，即子信道和功率片的选择，智能体的动作数据是确定自身的子信道分配指示符和功率片分配指示符的值。需要说明的是，在本方法中将智能体的动作定义为：其中，分别表示第n个参与车辆的子信道分配向量和功率片分配向量。
[0084]
其中，本方法的资源分配方法的优化目标是最小化所有参与车辆数据传输成本的总和，但其优化机制是在智能体与环境之间的交互过程中追求更高的回报值。因此，将奖励定义为总传输成本的负值，对于全局所有智能体，将奖励设计为：进一步的，强化学习的问题的解与策略π(s,a)的概念有关，它定义了s在观察中的状态时选择a中的每个动作的概率。智能体的目标是学习到一个最优策略π
*
，使任何初始状态s0的长期折扣回报最大化，因此，本方法将长期折扣回报定义为：其中，γ为折扣系数，0≤γ≤1。
[0085]
s140、基于多智能体深度强化学习和深度q网络确定资源分配策略。
[0086]
其中，深度q学习和经验回放来训练多个智能体，以获取资源分配策略，可以理解的是p(s
′
,r|s,a)不需要进行先验处理，q学习是基于π给定策略的动作值函数的概念，其定义为从状态s开始，智能体采取动作，然后遵循策略π的期望回报，其形式表示为：q
π
(s,a)＝e
π
[g
t
|s
t
＝s,a
t
＝a]其中，g
t
是上式中定义的长期折扣回报，最优策略π*下的最优动作值函数q
*
(s,a)满足著名的贝尔曼最优方程，可通过迭代更新方法得到：
[0087]
其中，α为学习率，此外，在状态s
t
的动作a
t
的选择遵循一些探索性策略，如ε贪婪策略。其中，以概率ε选择具有最大估计值的动作，以1-ε的概率在动作空间中随机选择动作。为了更好地理解，贪婪策略可以表示为：其中ε为探索率，此外，在α上随机近似条件的改变和所有状态-动作对持续更新的假设下，q学习中的动作价值
函数必将收敛到最优动作值函数q
*
。深度学习q网络采用ε贪婪策略探索状态空间，并在每个时间步将转换元组(s
t
,a
t
,r
t+1
,s
t+1
)存储在重放内存中。重放记忆是智能体在多个mdp事件中积累的经验。在每一个时间步，从重放记忆中均匀地采样一个小批经验d，称为经验重放，用随机梯度下降法的变体更新网络参数θn，最小化均方误差：
[0088]
其中θn′
是目标q网络的参数，它是从训练q网络参数θn复制而来的。γ是折扣参数。表明状态由图神经网络导出，o
(t)
表示在时间步t时基于图神经网络提取的信息。参数参数w和θn可以通过最小化均方误差公式同时训练。由此，经验重放通过从重放记忆中反复采样经验，提高了采样效率，并且打破了连续更新中的相关性，也稳定了学习过程。
[0089]
为了更清晰的示出如何确定资源分配策略，如下步骤示出了基于图神经网络和深度q网络框架的训练过程细节，具体可参见图5。
[0090]
输入：图神经网络结构，每个参与联邦学习的车辆的q网络结构，以及仿真环境。
[0091]
输出：对于所有n∈n，图神经网络和由深度q网络的参数θn表示的资源分配策略πn。
[0092]
步骤1：初始化图神经网络和所有深度q网络模型。
[0093]
步骤2：对于每个episode，初始化仿真环境。
[0094]
步骤3：对于每个时间步长t＝0,...,t-1，观察o
(t)
表示的图信息，包括节点观测值和边权
[0095]
步骤4：每个参与车辆利用式中提出的图神经网络，经过i次迭代后，提取其特征。
[0096]
步骤5：每个参与车辆获取根据q网络导出的策略πn，根据状态选择动作
[0097]
步骤6：所有参与车辆获得奖励r
(t+1)
。
[0098]
步骤7：信道更新，获得下一个时间步的新图信息o
(t+1)
。
[0099]
步骤8：将{o
(t)
,a
(t)
,r
(t+1)
,o
(t+1)
}存储在缓冲区b中。
[0100]
步骤9：从b中均匀抽样小批量d。
[0101]
步骤10：对于每个参与车辆代理n，使用d通过最小化估计返回值和q值之间的均方误差联合训练带有参数w的图神经网络和带有参数θn的第个q网络。
[0102]
步骤11：每c个时间步更新第个目标q网络：θn′←
θn。
[0103]
步骤12：每c个时间步更新目标图神经网络：w
′←
w。
[0104]
在一种可能的实现方式中，联邦学习包括车辆的图像识别学习包括：
[0105]
s210、基于联邦学习模型获取车辆的本地训练图像识别模型参数。
[0106]
可以理解的是，联邦学习需要经过大量迭代轮次，本方法中步骤s210、s220、s230
为完成的一个轮次。
[0107]
s220、基站聚合计算车辆的集合对应的训练图像识别模型参数以生成全局模型参数。
[0108]
需要说明的是，在完成所有局部训练之后，获得第r轮的局部模型参数[w1(r),w2(r),...,wn(r)]，可以将全局模型的聚合参数可以定义为：
[0109]
s230、基于全局模型参数更新车辆的本地训练图像识别模型参数。
[0110]
其中，根据步骤s220确定的全局模型参数，车辆可以进行设置下一轮的初始本地训练图像识别模型参数。
[0111]
在一种可能的实现方式中，基于联邦学习模型获取车辆的本地训练图像识别模型参数，包括：
[0112]
s211、基于损失函数评估车辆的本地训练图像识别模型。
[0113]
其中，在第一阶段开始时的本地训练期间，引入损失函数fn(wn)进行评估vn的本地训练效果，其中f(wn；xi,yi)是一个数据样本的损失函数，将损失函数设置为：结合上述损失函数，可以利用标准梯度下降法来调整和更新局部模型的参数。
[0114]
在一种可能的实现方式中，方法还包括：
[0115]
s310、基于大尺度衰落和小尺度衰落针对复合衰落频率子单元进行信道增益计算。
[0116]
其中，对于复合衰落子信道，本方法根据大尺度衰落(路径损耗和阴影衰落)和小尺度衰落(瑞利衰落)两个方面进行考量。(dn/rb)-ζ
10
λ/10
是从vn到基站的大尺度衰落。阴影衰落符合对数正态随机分布，其中独立标准偏差为ζ是路径损耗指数。随机变量λ服从正态分布，该分布的平均值为态分布，该分布的平均值为是符合瑞利分布的信道系数，其平均值为0，方差为1。
[0117]
在一种可能的实现方式中，方法还包括：
[0118]
s410、基于仿真实验测试资源分配策略。
[0119]
本步骤对上述资源分配方法进行仿真实验，目的在于验证仿真结果以表明上述所提出资源分配方案的可行性和有效性。
[0120]
具体地，如图6所示，当参与车辆数为4，提取特征维度为16时，在训练过程中智能体的不同episode的平均训练奖励。可以看出，平均训练奖励在开始时迅速增加，随着训练episode的增加，平均奖励大约在700个episodes时逐渐收敛。这证明了所提算法的收敛性能。
[0121]
如图7所示，当参与车辆数量为4，提取特征维度为16时，在训练过程中奖励值和联邦学习传输延迟的趋势。左坐标的值是一个episode中智能体的所有训练时间步的训练奖励的平均值，右坐标的值是一个episode中智能体的所有训练时间步的传输延迟的平均值。可以看出，平均奖励大约在700个episodes后达到收敛。此外，所提算法不仅可以将联邦学习传输成本保持在相对较低的水平，同时还可以间接优化联邦学习的传输延迟，这证明了所提出的解决方案在所提出的模型中的可行性。
[0122]
如图8所示，给出了在不同参与车辆数的情况下，不同episode所有时间步的平均训练奖励的对比图。可以看出，平均训练奖励在训练的开始随着episode的增加而逐渐增大，并且，随着参与车辆数的增加，平均奖励依然可以收敛到稳定水平，这表明了所提算法的可扩展性。此外，随着参与车辆数的增加，训练奖励收敛速度变慢，收敛值下降，并且曲线抖动变得越来越强烈。这主要是因为更多的参与车辆使系统中有限资源的竞争更加激烈，迫使联邦学习的传输成本增加，从而导致更低的收敛值。此外，更多的参与车辆共同持续影响整个环境，使得环境变得更加不稳定和复杂，这进一步加剧了训练的难度。
[0123]
如图9所示，在固定学习率下，不同提取特征维度时，智能体数量对训练时间的影响。为了确保可比性，将训练迭代次数固定为2000次。可以看出，随着提取特征维度的增大，训练时间逐渐增加，这是因为提取特征的维度与图神经网络的可训练权重呈正相关。其中，提取特征维度为0时，意味着图神经网络不起作用，智能体仅基于其局部观测做出决策。此外，随着智能体数量的增加，训练时间呈现线性增长，这意味着所提的算法具有良好的可扩展性和效率。
[0124]
下面的仿真实验在参与车辆数为4，提取特征维度为16的情况下将所提图神经网络-dqn方案与以下几种基线方案进行了比较。监督图神经网络：通过直接学习输入-输出映射来近似优化问题。采用cce算法生成足够的有标签的训练样本，标签表示节点的资源分配决策，训练一个多分类问题；无监督图神经网络：无监督图神经网络具有与监督图神经网络相同的结构和参数，训练样本是无标签的；随机方案：在每个时间步以随机的方式选择每个参与车辆的子信道和功率片；贪婪方案：在每个时间步，每个参与车辆贪婪地占用子信道和功率片。
[0125]
如图10所示，所提方案、监督图神经网络和无监督图神经网络三种方案下训练奖励的对比图。可以看出，所提的方案可以在更少的训练轮次下收敛到更高的奖励值，这主要是因为，所提的方案可以根据观察的状态自适应的调整资源分配策略。有监督图神经网络比无监督图神经网络表现更好的可能原因包括，有监督方法比无监督方法更适合于分类问题，无监督学习通常需要更大的训练数据集来实现更好的性能。
[0126]
如图11所示，进一步对比了随机分配方案和贪婪分配方案的性能，显示了5种方案下，长期折扣奖励的对比图。可以看出，图神经网络-dqn的长期折扣奖励总是高于其他策略，这是因为图神经网络-dqn能够自适应的调整子信道和功率片的分配策略，使长期折扣奖励最大化。
[0127]
如图12所示，显示了提取特征维度为16时，不同参与车辆数对平均传输成本的影响。可以看出，对于贪婪方案，随着参与车辆数的增多，车辆的资源竞争增大，严重影响每个参与车辆可以贪婪占用的资源数量，因此，传输成本呈现下降趋势。此外，随机方案随着车辆数的增多，传输成本逐渐上升。另一方面，单独的图神经网络方案因其忽略了信道状态的变化，导致其平均传输成本高于图神经网络-dqn。其中，无监督图神经网络的成本高于监督图神经网络的成本，这是因为随着参与车辆数的增加，无监督图神经网络需要更多的训练数据以获取更好的训练效果，因此，无监督图神经网络的传输成本随车辆数的增加而呈现上升趋势。监督图神经网络成本呈现下降趋势的原因可能是由于样本标签反映了资源分配情况，因此他对系统具有更好的可扩展性。总之，与其他方案相比，图神经网络-dqn在平均传输成本方面实现了最佳的性能。
[0128]
如图13所示，显示了参与车辆数为4、6、8时，不同提取特征维度下，平均回报的变化图。可以看出，随着参与车辆数的增多，平均回报逐渐减小。特别地，意味着每个参与车辆仅基于其局部观测做出决策，而图神经网络不起作用。可以看出，随着提取特征维度的增大，平均回报逐渐增大，这表明图神经网络可以聚合更多信息用于决策，并显著提高分配性能。
[0129]
根据本发明的第二方面，还提出一种车联网资源分配装置。图2示出了根据本发明一个实施例的车联网资源分配装置200的示意性框图。如图14所示，装置可以包括：
[0130]
获取模块210，用于基于图神经网络获取车辆的资源特征；
[0131]
计算模块220，用于基于资源特征计算特征嵌入；
[0132]
函数模块230，用于根据特征嵌入确定车辆的状态数据、动作数据和共享奖励函数；
[0133]
学习模块240，用于基于多智能体深度强化学习和深度q网络确定资源分配策略。
[0134]
根据本发明的第三方面，还提出一种电子设备，图15示出了本发明实施例提供的一种电子设备的示意性框图。如图15所示，设备包括至少一个处理器310、以及与处理器310连接的至少一个存储器320、总线330；其中，处理器310、存储器320通过总线330完成相互间的通信；处理器310用于调用存储器320中的程序指令，以执行上述的车联网资源分配方法。
[0135]
本文中的设备可以是服务器、pc、pad、手机等。
[0136]
本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化上述方法步骤的程序。
[0137]
第四方面，还提出一种存储介质，在存储介质上存储了程序指令，程序指令在运行时用于执行如上的车联网资源分配方法。存储介质例如可以包括平板电脑的存储部件、计算机的硬盘、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器、或者上述存储介质的任意组合。计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
[0138]
本领域普通技术人员通过阅读上述有关车联网资源分配方法的相关描述，可以理解车联网资源分配装置、电子设备以及存储介质的具体细节以及有益效果，为了简洁在此不再赘述。
[0139]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和/或设备，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0140]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0141]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0142]
以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征：
1.一种车联网资源分配方法，其特征在于，应用于基站，所述基站与所述基站覆盖范围内的多个车辆组成联邦学习网络，所述方法包括：联邦学习模型；所述联邦学习模型用于所述联邦学习网络中车辆与车辆间进行通信，联邦学习包括车辆的图像识别学习；通信模型；所述通信模型用于所述联邦学习网络中车辆与所述基站通信数据的传输；资源计算模型；所述资源计算模型用于所述联邦学习网络中数据传输成本的计算；基于图神经网络获取所述车辆的资源特征；基于所述资源特征计算特征嵌入；所述特征嵌入包括所述资源计算模型所输入的参数；根据所述特征嵌入确定所述车辆的状态数据、动作数据和共享奖励函数；基于多智能体深度强化学习和深度q网络确定资源分配策略；所述资源分配策略用于优化计算所述状态数据、所述动作数据和所述共享奖励函数的传输成本。2.根据权利要求1所述的方法，其特征在于，所述联邦学习模型包括所述车辆的集合、所述车辆的本地数据集、所述车辆的本地训练图像识别模型参数；所述车辆的本地数据集包括图像识别数据样本、图像识别结果；所述车辆的图像识别学习包括：基于所述联邦学习模型获取所述车辆的本地训练图像识别模型参数；所述基站聚合计算所述车辆的集合对应的训练图像识别模型参数以生成全局模型参数；基于所述全局模型参数更新所述车辆的本地训练图像识别模型参数。3.根据权利要求2所述的方法，其特征在于，所述基于所述联邦学习模型获取所述车辆本地训练图像识别模型参数，包括：基于损失函数评估所述车辆本地训练图像识别模型参数。4.根据权利要求1所述的方法，其特征在于，所述通信模型采用非正交多址技术实现所述车辆与所述基站间的数据传输，所述通信模型包括频率资源单元和功率资源单元，所述频率资源单元和功率资源单元可由多用户进行复用；所述通信模型还包括：基于大尺度衰落和小尺度衰落针对复合衰落频率子单元进行信道增益计算。5.根据权利要求1所述的方法，其特征在于，所述基于图神经网络获取所述车辆的资源特征包括：基于图神经网络将联邦学习网络转化为有向图确定所述车辆的节点观测值和链路权值。6.根据权利要求1所述的方法，其特征在于，所述基于所述资源特征计算特征嵌入，包括：获取车辆在每个频率资源单元的信道增益；基于所述信道增益、其他车辆的干扰链路增益和所述车辆相对邻车辆的干扰链路增益确定所述车辆的特征嵌入。7.根据权利要求1所述的方法，其特征在于，在所述基于多智能体深度强化学习和深度q网络确定资源分配策略之后，还包括：基于仿真实验测试所述资源分配策略。8.一种车联网资源分配的装置，其特征在于，所述装置包括：
获取模块，用于基于图神经网络获取所述车辆的资源特征；计算模块，用于基于所述资源特征计算特征嵌入；函数模块，用于根据所述特征嵌入确定所述车辆的状态数据、动作数据和共享奖励函数；学习模块，用于基于多智能体深度强化学习和深度q网络确定资源分配策略。9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1-7中任一项所述的车联网资源分配的方法。10.一种电子设备，其特征在于，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，执行如权利要求1-7中任一项所述的车联网资源分配方法。

技术总结
本申请公开一种车联网资源分配方法、装置、存储介质及电子设备，用于优化车联网中数据传输的成本。方法包括：基于图神经网络获取所述车辆的资源特征；基于所述资源特征计算特征嵌入；所述特征嵌入包括所述资源计算模型所输入的参数；根据所述特征嵌入确定所述车辆的状态数据、动作数据和共享奖励函数；基于多智能体深度强化学习和深度Q网络确定资源分配策略。略。略。

技术研发人员：吴琼师帅张翠李正权
受保护的技术使用者：江南大学
技术研发日：2023.07.10
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种车载摄像头用长效快速消雾的控湿材料的制作方法 下一篇：富马酸在抑制水稻病害和调节作物生长中的应用

车联网资源分配方法、装置、存储介质及电子设备

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

车联网资源分配方法、装置、存储介质及电子设备

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表