一种基于DQN的云际资源接入的决策方法及系统

未命名 07-27 阅读：101 评论：0

一种基于dqn的云际资源接入的决策方法及系统
技术领域
1.本发明涉及云计算领域，具体而言，涉及一种基于dqn的云际资源接入的决策方法及系统。

背景技术：

2.近年来，云际计算已成为新一代云计算模式，支持云服务提供者之间开放协作、多方云资源深度融合，为建设全国一体化大数据中心、引领数字经济高质量发展提供关键支撑。全时全域的多样化存算和资源确权流通是构建大规模云际计算生态的基础需求，但面临着资源汇聚难、工作流调度复杂、资源跨域交互缺少可信监管与高效治理等痛点问题。为此，急需研究全时全域、高可信、隐私保护的云监管与治理体系，突破契约式跨域磋商、多目标动态分配与并行调度、联邦式多方计算治理以及软件系统差异化部署与动态重构技术。
3.在异构的多维资源云计算场景下，纵向接入和适配机制需要能够感知大量用户的实际资源使用需求，充分考虑平台的数据资源、存储资源、计算资源、网络资源等不同层级的已有资源情况，甚至需要权衡传统云和边缘云的不同资源和使用成本，来决定是否接入和适配不同类型资源。现有的云际计算场景下的纵向接入和适配机制主要有两种，一种是直接将云服务提供商想为云际平台提供上架的资源直接接入，这种不加选择的资源接入会导致平台中资源冗余，不考虑平台资源情况与用户的实际资源使用需求以及平台的接入成本、资源利用率，导致平台成本提高，资源利用率低；另一种是由人工进行资源接入审核以及接入决策，这种方法过于耗费人力资源，提高了维护平台的人力成本，而且云际平台体量巨大，大量云商资源接入请求频繁，人工处理效率低下。
4.针对现有技术的不足，本发明将强化学习技术运用到异构的多维资源云计算场景的纵向接入及适配机制中，充分考虑平台用户等各种信息进行智能决策，提出了一种采用深度强化学习中的dqn(deep q-network)算法来实现云际环境中的资源接入的动态决策和适配机制。

技术实现要素：

5.本发明提供一种基于dqn的云际资源接入的决策方法及系统，用以克服现有技术中存在的至少一个技术问题。
6.一方面，本发明实施例提供一种基于dqn的云际资源接入的决策方法，包括：
7.设定动作a
t
，所述动作a
t
包括接入、不接入；
8.初始化评估网络q(s
t
,a
t
；w)，其中，s
t
表示状态信息，w表示第一训练参数；
9.设置目标网络为其中，w-表示第二训练参数；
10.采集状态信息s
t
，所述状态信息s
t
包括平台已有资源信息、用户需求信息以及云商的待接入资源信息；
11.所述评估网络q(s
t
,a
t
；w)根据所述状态信息s
t
执行所述动作a
t
，得到云商价值r
t
；
12.利用所述目标网络和所述云商价值r
t
循环迭代训练所述评估网络q(s
t
,a
t
；w)，得
到更新后的第一训练参数；
13.利用所述更新后的第一训练参数更新所述目标网络，得到新目标网络；
14.将所述状态信息s
t
输入所述新目标网络，得到初步接入决策；
15.根据所述初步接入决策判断是否接入，若接入，云商提供待接入资源；若不接入，云商判断是否改变待接入资源信息，若是，将改变后的所述状态信息输入所述新目标网络，再次判断是否接入，若否，不接入资源；
16.将接入情况反馈至平台，所述状态信息s
t
更新后，跳转至采集状态信息s
t
步骤。
17.可选地，所述评估网络q(s
t
,a
t
；w)执行所述动作a
t
时，采取ε-贪心方法决定动作其中，ε表示探索参数。
18.可选地，利用所述目标网络和所述价值r
t
循环迭代训练所述评估网络，得到更新后的第一训练参数，具体为：
19.将所述状态信息s
t
、动作a
t
、云商价值r
t
和状态信息s
t+1
存储至缓冲区，得到存储信息(s
t
,a
t
,r
t
,s
t+1
)；
20.从所述缓冲区中随机采样m条所述存储信息(s
t
,a
t
,r
t
,s
t+1
)；
21.设置目标值为y
t
＝r
t
+maxaq(s
t+1
,a,w-)；
22.更新所述第一训练参数，当所述评估网络与所述目标值的误差满足预定要求时，对应的所述第一训练参数作为更新后的第一训练参数。
23.可选地，利用所述更新后的第一训练参数更新所述目标网络，具体为：
24.利用所述更新后的第一训练参数替换所述第二训练参数。
25.可选地，初始化评估网络q(s
t
,a
t
；w)之前，还包括：
26.利用卷积神经网络生成评估网络。
27.可选地，每个所述云商具有多项待接入资源，计算初步接入决策时，遍历每一项待接入资源得到每一项待接入资源的价值ri，对所有待接入资源的价值ri求和，得到对应的所述云商价值r
t
。
28.可选地，遍历每一项待接入资源得到每一项待接入资源的价值ri，具体为：
29.当动作a
t
为不接入时，所述待接入资源的价值ri＝0；
30.当动作a
t
为接入时，若所述待接入资源能满足用户需求且平台已有资源无法满足用户需求，则所述待接入资源的价值ri＝x；若所述待接入资源能满足用户需求且平台已有资源可以满足用户需求，则所述待接入资源的价值ri＝y；若所述待接入资源无法满足用户需求，则所述待接入资源的价值ri＝z；其中，x》y》z。
31.另一方面，本发明还提供一种基于dqn的云际资源接入的决策系统，包括：
32.设定模块，用于设定动作a
t
，所述动作a
t
包括接入、不接入；
33.初始化模块，用于初始化评估网络q(s
t
,a
t
；w)，其中，s
t
表示状态信息，w表示第一训练参数；
34.第一设置模块，用于设置目标网络为其中，w-表示第二训练参数；
35.采集模块，用于采集状态信息s
t
，所述状态信息s
t
包括平台已有资源信息、用户需
求信息以及云商的待接入资源信息；
36.执行模块，用于使所述评估网络q(s
t
,a
t
；w)根据所述状态信息s
t
执行所述动作a
t
，得到云商价值r
t
；
37.训练模块，用于利用所述目标网络和所述云商价值r
t
循环迭代训练所述评估网络q(s
t
,a
t
；w)，得到更新后的第一训练参数；
38.第一更新模块，用于利用所述更新后的第一训练参数更新所述目标网络，得到新目标网络；
39.输入模块，用于将所述状态信息s
t
输入所述新目标网络，得到初步接入决策；
40.判断模块，用于根据所述初步接入决策判断是否接入，若接入，云商提供待接入资源；若不接入，云商判断是否改变待接入资源信息，若是，将改变后的所述状态信息输入所述新目标网络，再次判断是否接入，若否，不接入资源；
41.反馈模块，用于将接入情况反馈至平台。
42.可选地，还包括：
43.存储模块，用于将所述状态信息s
t
、动作a
t
、云商价值r
t
和状态信息s
t+1
存储至缓冲区，得到存储信息(s
t
,a
t
,r
t
,s
t+1
)；
44.采样模块，用于从所述缓冲区中随机采样m条所述存储信息(s
t
,a
t
,r
t
,s
t+1
)；
45.第二设置模块，用于设置目标值为y
t
＝r
t
+maxaq(s
t+1
,a,w-)；
46.第二更新模块，用于更新所述第一训练参数，当所述评估网络与所述目标值的误差满足预定要求时，对应的所述第一训练参数作为更新后的训练参数。
47.可选地，还包括生成模块，用于利用卷积神经网络生成评估网络。
48.本发明实施例的创新点包括：
49.1、本实施例中，提出了在异构的多维资源云计算场景下，应用深度强化学习中的dqn算法进行接入决策，能够节约大量人力成本，同时极大程度提高资源接入的效率，是本发明实施例的创新点之一。
50.2、本实施例中，在应用dqn进行接入决策时，以平台已有资源信息、用户需求信息以及云商的待接入资源信息同时作为依据，进行学习及决策，可以有效降低平台成本，提高接入资源的利用率，是本发明实施例的创新点之一。
51.3、本实施例中，通过平台和云商的持续互动，能够保证在不同的资源条件下，以满足用户需求及降低平台成本为原则，始终做出近似最优的决策结果，而且能够及时适应环境变化，根据平台及用户的不同需求，迅速调整决策策略，从而保证决策近似最优，是本发明实施例的创新点之一。
附图说明
52.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
53.图1为本发明实施例提供的决策方法的一种流程图；
54.图2为本发明实施例提供的迭代训练评估网络的一种流程图；
55.图3为本发明实施例提供的决策方法的另一种流程图；
56.图4为本发明实施例提供的决策系统的一种结构示意图；
57.图5为本发明实施例提供的决策系统的另一种结构示意图；
58.图6为本发明实施例提供的决策系统的又一种结构示意图。
具体实施方式
59.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
60.需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
61.本发明实施例公开了一种基于dqn的云际资源接入的决策方法及系统。以下分别进行详细说明。
62.图1为本发明实施例提供的决策方法的一种流程图，请参考图1，本实施例提供的基于dqn的云际资源接入的决策方法，包括：
63.步骤1：设定动作a
t
，动作a
t
包括接入、不接入；
64.步骤2：初始化评估网络q(s
t
,a
t
；w)，其中，s
t
表示状态信息，w表示第一训练参数；
65.步骤3：设置目标网络为其中，w-表示第二训练参数；
66.步骤4：采集状态信息s
t
，状态信息s
t
包括平台已有资源信息、用户需求信息以及云商的待接入资源信息；
67.步骤5：评估网络q(s
t
,a
t
；w)根据状态信息s
t
执行动作a
t
，得到云商价值r
t
；
68.步骤6：利用目标网络和云商价值r
t
循环迭代训练评估网络q(s
t
,a
t
；w)，得到更新后的第一训练参数；
69.步骤7：利用更新后的第一训练参数更新目标网络，得到新目标网络；
70.步骤8：将状态信息s
t
输入新目标网络，得到初步接入决策；
71.步骤9：根据初步接入决策判断是否接入，若接入，云商提供待接入资源；若不接入，云商判断是否改变待接入资源信息，若是，将改变后的状态信息输入新目标网络，再次判断是否接入，若否，不接入资源；
72.步骤10：将接入情况反馈至平台，状态信息s
t
更新后，跳转至采集状态信息s
t
步骤。
73.具体地，请参考图1，本发明提供的基于dqn的云际资源接入的决策方法，采用深度强化学习中的dqn算法来实现云际环境中的资源接入的动态决策，在决策是否接入资源时，首先通过步骤1设定动作a
t
，如接入决策或不接入决策。
74.由于强化学习任务所面临的状态空间是连续的，存在无穷多个状态，因此，在本实施例中，采用函数q(s
t
,a
t
；w)来近似动作-价值函数q(s,a)，该函数q(s
t
,a
t
；w)又称为评估网络，s
t
表示状态信息，w表示第一训练参数。在步骤2中，对评估网络q(s
t
,a
t
；w)进行初始化，将状态信息s
t
、动作a
t
、第一训练参数w均初始化为随机值。
75.得到评估网络q(s
t
,a
t
；w)后，在步骤3中设置目标网络，目标网络的网络结构和评估网络的网络结构相同，仅仅是训练参数不同，本实施例中，目标网络为其中，w-表示第二训练参数。在与环境进行交互时，只更新评估网络q(s,a；w)的权重w，而目标网络q(s
t+1
,a,w-)的权重w-保持不变。在更新一定次数后，再将更新过的评估网络的权重复制给目标网络，进行下一批更新，这样目标网络也能得到更新。由于在目标网络没有变化的一段时间内回报的目标值是相对固定的，因此目标网络的引入增加了学习的稳定性。
76.得到评估网络后，在步骤4中采集当前的状态信息s
t
，其中，状态信息s
t
包括平台已有资源信息、用户需求信息以及云商的待接入资源信息。在本实施例中，假设平台中已存在的存储资源中存储空间为a3、网络资源中带宽为b3、计算资源中每台虚拟机中cpu核心数目为c3、内存大小为d3、数据资源中每种数据的数据标签及数据量为(e3,f3)，其中存储空间及数据量的单位为gb，带宽单位为m，内存单位为gb；用户需求的存储资源中存储空间为a2、网络资源中带宽为b2、计算资源中每台虚拟机中cpu核心数目为c2、内存大小为d2、数据资源中每种数据的数据标签及数据量为(e2,f2)；待接入的存储资源中存储空间为a1、网络资源中带宽为b1、计算资源中每台虚拟机中cpu核心数目为c1、内存大小为d1、数据资源中每种数据的数据标签及数据量为(e2,f2)。
77.得到状态信息后，在步骤5中，根据采集到的状态信息，使评估网络q(s
t
,a
t
；w)执行动作a
t
，在采取动作时，会采取使得q值最大的动作，如此，可能会导致一直采取相同的动作，为了避免一直采取相同的动作，且由于在最开始的时候不知道哪个动作比较好，因此，需要进行探索。因此，在本实施例中，采取ε-贪心方法决定动作，通常ε设一个很小的值。随着训练的次数越来越多，已经比较确定哪一个q较好，因此可以减少探索，把ε的值变小，主要根据q函数来决定动作，也即有1-ε的概率会按照q函数来决定动作，最终可以得到云商价值r
t
。
78.确定动作a
t
和云商价值r
t
后，在步骤6中，根据云商价值r
t
和目标网络确定目标值，通过不断更新第一训练参数对评估网络进行迭代训练，当评估网络足够接近目标值时，完成训练，并将此时对应的第一训练参数作为更新后的第一训练参数。然后在步骤7中，利用更新后的第一训练参数更新目标网络，如将目标网络中的第二训练参数替换为更新后的第一训练参数，使得目标网络得到更新，从而得到新目标网络。
79.得到新目标网络后，在步骤8中将状态信息输入新目标网络中，通过新目标网络可以计算得到最终的云商价值，根据最终的云商价值即可得到初步接入决策，如接入或不接入。
80.得到初步接入决策后，在步骤9中执行决策，如初步接入决策的决策类型是接入时，云商提供待接入资源；如初步接入决策的决策类型是不接入时，需要与云商进行磋商，判断是否变更待接入资源信息，当云商决定变更提供的资源时，将变更后的资源信息再次输入新目标网络，进行新一轮决策。需要说明的是，状态信息包括待接入资源信息，当待接入资源信息改变时，状态信息随着改变，因此，在进行新一轮决策时，是将改变后的状态信息输入新目标网络进行计算，再次判断是否接入。当云商不变更待接入资源信息时，表示不需要接入资源。
81.执行完决策后，通过步骤10将接入情况反馈至平台，平台会对用户需求信息和已有资源信息进行更新，也即，状态信息s
t
会发生更新，状态信息s
t
更新后，跳转至采集状态信
息s
t
步骤，再次进行决策，如此，平台和云商即可实现持续的互动和接入决策，从而使得平台可以得到近似最优的决策结果。
82.本发明提供的基于dqn的云际资源接入的决策方法，提出了在异构的多维资源云计算场景下，应用深度强化学习中的dqn算法进行接入决策，能够节约大量人力成本，同时极大程度提高资源接入的效率。在应用dqn进行接入决策时，以平台已有资源信息、用户需求信息以及云商的待接入资源信息同时作为依据，进行学习及决策，可以有效降低平台成本，提高接入资源的利用率。本发明通过平台和云商的持续互动，能够保证在不同的资源条件下，以满足用户需求及降低平台成本为原则，始终做出近似最优的决策结果，而且能够及时适应环境变化，根据平台及用户的不同需求，迅速调整决策策略，从而保证决策近似最优。
83.可选地，评估网络q(s
t
,a
t
；w)执行动作a
t
时，采取ε-贪心方法决定动作其中，ε表示探索参数。
84.具体地，评估网络q(s
t
,a
t
；w)执行动作a
t
时，会采取使得q值最大的动作，如此，可能会导致一直采取相同的动作，为了避免一直采取相同的动作，且由于在最开始的时候不知道哪个动作比较好，因此，需要进行探索。
85.在本实施例中，采取ε-贪心方法决定动作其中，ε表示探索参数，通常ε设一个很小的值，例如1-ε可能是90％，也就是90％的概率会按照q函数来决定动作，但是我们有10％的概率是随机的。在最开始的时候。因为还不知道哪个动作是比较好的，所以我们会花比较大的力气做探索，但随着训练的次数越来越多，已经比较确定哪一个q较好，因此可以减少探索，把ε的值变小，也即有很小的概率会随即决定动作，主要还是根据q函数来决定动作。本实施例通过ε-贪心方法决定动作，省去了为了找最优解可能需要穷举操作，从而可以简单、高效的找到比较好的动作，有利于降低算法难度，提高效率。
86.可选地，图2为本发明实施例提供的迭代训练评估网络的一种流程图，请参考图1和图2，步骤6中，利用目标网络和价值r
t
循环迭代训练评估网络，得到更新后的第一训练参数，具体为：步骤61，将状态信息s
t
、动作a
t
、价值r
t
和状态信息s
t+1
存储至缓冲区，得到存储信息(s
t
,a
t
,r
t
,s
t+1
)；步骤62，从缓冲区中随机采样m条存储信息(s
t
,a
t
,r
t
,s
t+1
)；步骤63，设置目标值为y
t
＝r
t
+maxaq(s
t+1
,a,w-)；步骤64，更新第一训练参数，当评估网络与目标值的误差满足预定要求时，对应的第一训练参数作为更新后的第一训练参数。
87.具体地，请参考图1和图2，在模型训练中，通过不断改变第一训练参数，对评估网络进行迭代更新，使得评估网络尽可能与目标值接近。在本实施例中，对评估网络进行迭代更新时，首先通过步骤61，将状态信息s
t
、动作a
t
、云商价值r
t
和状态信息s
t+1
存储至缓冲区，即可得到存储信息(s
t
,a
t
,r
t
,s
t+1
)。然后通过步骤62，从缓冲区中随机采样m条存储信息(s
t
,a
t
,r
t
,s
t+1
)，采样存储信息时，以批量的形式进行采样，其中，m的值可以根据需要具体设置，本发明对此不作限定。
88.对评估网络进行迭代更新时，需要使得评估网络与目标值接近，因此，本实施例通
过步骤63设置目标值，如目标值为y
t
＝r
t
+maxaq(s
t+1
,a,w-)。设置好目标值后，通过步骤64对评估网络进行训练，不断更新第一训练参数，直至评估网络与目标值的误差满足预定要求，此处的预定要求例如可以为评估网络q(s
t
,a
t
；w)的值尽可能接近目标值y
t
，此时，对应的第一训练参数即可作为更新后的第一训练参数。
89.可选地，利用更新后的第一训练参数更新目标网络，具体为：利用更新后的第一训练参数替换第二训练参数。
90.具体地，得到更新后的第一训练参数后，可以利用更新后的第一训练参数对目标网络进行更新，在本实施例中，将目标网络中的第二训练参数替换为更新后的第一训练参数，使得目标网络得到更新，从而得到新目标网络。在更新过程中，只更新评估网络的权重w，目标网络的权重w-保持不变。在更新一定次数后，再将更新过的评估网络的权重复制给目标网络，进行下一批更新，这样目标网络也能得到更新。由于在目标网络没有变化的一段时间内回报的目标值是相对固定的，因此目标网络的引入增加了学习的稳定性。
91.可选地，图3为本发明实施例提供的决策方法的另一种流程图，请参考图3，初始化评估网络q(s
t
,a
t
；w)之前，还包括：步骤02，利用卷积神经网络生成评估网络。
92.具体地，请参考图3，在初始化评估网络q(s
t
,a
t
；w)之前，需要先通过步骤02生成评估网络。在本实施例中，利用卷积神经网络生成评估网络，卷积神经网络具有局部感知和参数共享两个特点，局部感知即卷积神经网络提出每个神经元不需要感知图像中的全部像素，只对图像的局部像素进行感知，然后在更高层将这些局部的信息进行合并，从而得到图像的全部表征信息。不同层的神经单元采用局部连接的方式，即每一层的神经单元只与前一层部分神经单元相连，每个神经单元只响应感受野内的区域，完全不关心感受野之外的区域，这样的局部连接模式保证了学习到的卷积核对输入的空间局部模式具有最强的响应。权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
93.可选地，请参考图1，每个云商具有多项待接入资源，步骤8中计算初步接入决策时，遍历每一项待接入资源得到每一项待接入资源的价值ri，对所有待接入资源的价值ri求和，得到对应的云商价值r
t
。
94.具体地，在实际使用中，每一个云商会提供多项待接入资源，因此，对云商的初步接入决策进行计算时，需要对云商的每一项待接入资源进行遍历计算，得到每一项待接入资源的价值ri，通过对所有待接入资源的价值ri求和，得到该云商的云商价值r
t
。
95.可选地，遍历每一项待接入资源得到每一项待接入资源的价值ri，具体为：当动作a
t
为不接入时，待接入资源的价值ri＝0；当动作a
t
为接入时，若待接入资源能满足用户需求且平台已有资源无法满足用户需求，则设置对应的待接入资源的价值ri＝x；若待接入资源能满足用户需求且平台已有资源可以满足用户需求，则则设置对应的待接入资源的价值ri＝y；若待接入资源无法满足用户需求，则则设置对应的待接入资源的价值ri＝z；其中，x》y》z。
96.具体地，执行地动作不同，待接入资源的价值ri不同，例如，在本实施例中，当动作a
t
为不接入时，设置待接入资源的价值ri＝0。当动作a
t
为接入时，对待接入资源进行判断，若待接入资源能满足用户需求且平台已有资源无法满足用户需求，则设置待接入资源的价值ri＝ri+x；若待接入资源能满足用户需求且平台已有资源可以满足用户需求，则待接入资
源的价值ri＝ri+y；若待接入资源无法满足用户需求，则待接入资源的价值ri＝ri+z；其中，x》y》z。如此，通过对云商的每一项待接入资源进行遍历，可以得到每一项待接入资源的价值ri，然后对所有待接入资源的价值ri求和，即可得到该云商的云商价值r
t
。
97.基于同一发明构思，本发明还提供一种基于dqn的云际资源接入的决策系统，图4为本发明实施例提供的决策系统的一种结构示意图，请参考图4，本发明实施例提供的基于dqn的云际资源接入的决策系统100，包括：
98.设定模块101，用于设定动作a
t
，动作a
t
包括接入、不接入；
99.初始化模块102，用于初始化评估网络q(s
t
,a
t
；w)，其中，w表示第一训练参数；
100.第一设置模块103，用于设置目标网络为其中，w-表示第二训练参数；
101.采集模块104，用于采集状态信息s
t
，状态信息s
t
包括平台已有资源信息、用户需求信息以及云商的待接入资源信息；
102.执行模块105，使评估网络q(s
t
,a
t
；w)用于根据状态信息s
t
执行动作a
t
，得到云商价值r
t
；
103.训练模块106，用于利用目标网络和云商价值r
t
循环迭代训练评估网络q(s
t
,a
t
；w)，得到更新后的第一训练参数；
104.第一更新模块107，用于利用更新后的第一训练参数更新目标网络，得到新目标网络；
105.输入模块108，用于将状态信息s
t
输入新目标网络，得到初步接入决策；
106.判断模块109，用于根据初步接入决策判断是否接入，若接入，云商提供待接入资源；若不接入，云商判断是否改变待接入资源信息，若是，将改变后的状态信息输入新目标网络，再次判断是否接入，若否，不接入资源；
107.反馈模块110，用于将接入情况反馈至平台。
108.具体地，请参考图4，本发明提供的基于dqn的云际资源接入的决策系统100，采用深度强化学习中的dqn算法来实现云际环境中的资源接入的动态决策，在决策是否接入资源时，首先通过设定模块101设定动作a
t
，如接入决策或不接入决策。
109.由于强化学习任务所面临的状态空间是连续的，存在无穷多个状态，因此，在本实施例中，采用函数q(s
t
,a
t
；w)来近似动作-价值函数q(s,a)，该函数q(s
t
,a
t
；w)又称为评估网络，s
t
表示状态信息，w表示第一训练参数。在进行迭代训练之前，先利用初始化模块102对评估网络q(s
t
,a
t
；w)进行初始化，将状态信息s
t
、动作a
t
、第一训练参数w均初始化为随机值。
110.得到评估网络q(s
t
,a
t
；w)后，利用第一设置模块103设置目标网络，目标网络的网络结构和评估网络的网络结构相同，仅仅是训练参数不同，本实施例中，设置目标网络为其中，w-表示第二训练参数。在与环境进行交互时，只更新评估网络q(s,a；w)的权重w，而目标网络q(s
t+1
,a,w-)的权重w-保持不变。在更新一定次数后，再将更新过的评估网络的权重复制给目标网络，进行下一批更新，这样目标网络也能得到更新。由于在目标网络没有变化的一段时间内回报的目标值是相对固定的，因此目标网络的引入增加了学习的稳定性。
111.得到评估网络后，通过采集模块104采集当前的状态信息s
t
，其中，状态信息s
t
包括平台已有资源信息、用户需求信息以及云商的待接入资源信息。在本实施例中，假设平台中已存在的存储资源中存储空间为a3、网络资源中带宽为b3、计算资源中每台虚拟机中cpu核心数目为c3、内存大小为d3、数据资源中每种数据的数据标签及数据量为(e3,f3)，其中存储空间及数据量的单位为gb，带宽单位为m，内存单位为gb；用户需求的存储资源中存储空间为a2、网络资源中带宽为b2、计算资源中每台虚拟机中cpu核心数目为c2、内存大小为d2、数据资源中每种数据的数据标签及数据量为(e2,f2)；待接入的存储资源中存储空间为a1、网络资源中带宽为b1、计算资源中每台虚拟机中cpu核心数目为c1、内存大小为d1、数据资源中每种数据的数据标签及数据量为(e2,f2)。
112.得到状态信息后，执行模块105根据采集到的状态信息，使评估网络q(s
t
,a
t
；w)执行动作a
t
，在采取动作时，会采取使得q值最大的动作，如此，可能会导致一直采取相同的动作，为了避免一直采取相同的动作，且由于在最开始的时候不知道哪个动作比较好，因此，需要进行探索。因此，在本实施例中，采取ε-贪心方法决定动作，通常ε设一个很小的值，但随着训练的次数越来越多，已经比较确定哪一个q较好，因此可以减少探索，把ε的值变小，主要根据q函数来决定动作，也即有1-ε的概率会按照q函数来决定动作，最终可以得到云商价值r
t
。
113.确定动作a
t
和云商价值r
t
后，训练模块106根据云商价值r
t
和目标网络确定目标值，通过不断更新第一训练参数对评估网络进行迭代训练，当评估网络足够接近目标值时，完成训练，并将此时对应的第一训练参数作为更新后的第一训练参数。然后使得第一更新模块107利用更新后的第一训练参数更新目标网络，如将目标网络中的第二训练参数替换为更新后的第一训练参数，使得目标网络得到更新，从而得到新目标网络。
114.得到新目标网络后，输入模块108将状态信息输入新目标网络中，通过新目标网络可以计算得到最终的云商价值，根据最终的云商价值即可得到初步接入决策，如接入或不接入。
115.得到初步接入决策后，判断模块109开始执行决策，如初步接入决策的决策类型是接入时，云商提供待接入资源；如初步接入决策的决策类型是不接入时，需要与云商进行磋商，判断是否变更待接入资源信息，当云商决定变更提供的资源时，将变更后的资源信息再次输入新目标网络，进行新一轮决策。需要说明的是，状态信息包括待接入资源信息，当待接入资源信息改变时，状态信息随着改变，因此，在进行新一轮决策时，是将改变后的状态信息输入新目标网络进行计算，再次判断是否接入。当云商不变更待接入资源信息时，表示不需要接入资源。
116.执行完决策后，反馈模块110将接入情况反馈至平台，平台会对用户需求信息和已有资源信息进行更新，也即，状态信息s
t
会发生更新，状态信息s
t
更新后，跳转至采集状态信息s
t
步骤，再次进行决策，如此，平台和云商即可实现持续的互动和接入决策，从而使得平台可以得到近似最优的决策结果。
117.本发明提供的基于dqn的云际资源接入的决策系统100，提出了在异构的多维资源云计算场景下，应用深度强化学习中的dqn算法进行接入决策，能够节约大量人力成本，同时极大程度提高资源接入的效率。在应用dqn进行接入决策时，以平台已有资源信息、用户需求信息以及云商的待接入资源信息同时作为依据，进行学习及决策，可以有效降低平台
成本，提高接入资源的利用率。本发明通过平台和云商的持续互动，能够保证在不同的资源条件下，以满足用户需求及降低平台成本为原则，始终做出近似最优的决策结果，而且能够及时适应环境变化，根据平台及用户的不同需求，迅速调整决策策略，从而保证决策近似最优。
118.可选地，图5为本发明实施例提供的决策系统100的另一种结构示意图，请参考图5，决策系统100还包括：存储模块111，用于将状态信息s
t
、动作a
t
、价值r
t
和状态信息s
t+1
存储至缓冲区，得到存储信息(s
t
,a
t
,r
t
,s
t+1
)；采样模块112，用于从缓冲区中随机采样m条存储信息(s
t
,a
t
,r
t
,s
t+1
)；第二设置模块113，用于设置目标值为y
t
＝r
t
+maxaq(s
t+1
,a,w-)；第二更新模块114，用于更新第一训练参数，当评估网络与目标值的误差满足预定要求时，对应的第一训练参数作为更新后的训练参数。
119.具体地，请参考图5，在模型训练中，通过不断改变第一训练参数，对评估网络进行迭代更新，使得评估网络尽可能与目标值接近。在本实施例中，对评估网络进行迭代更新时，首先通过存储模块111将状态信息s
t
、动作a
t
、云商价值r
t
和状态信息s
t+1
存储至缓冲区，即可得到存储信息(s
t
,a
t
,r
t
,s
t+1
)。然后通过采样模块112从缓冲区中随机采样m条存储信息(s
t
,a
t
,r
t
,s
t+1
)，采样存储信息时，以批量的形式进行采样，其中，m的值可以根据需要具体设置，本发明对此不作限定。
120.对评估网络进行迭代更新时，需要使得评估网络与目标值接近，因此，需要确定目标值。本实施例通过第二设置模块113设置目标值，如目标值为y
t
＝r
t
+maxaq(s
t+1
,a,w-)。设置好目标值后，通过第二更新模块114对评估网络进行训练，不断更新第一训练参数，直至评估网络与目标值的误差满足预定要求，此处的预定要求例如可以为评估网络q(s
t
,a
t
；w)的值尽可能接近目标值y
t
，此时，对应的第一训练参数即可作为更新后的第一训练参数。
121.可选地，图6为本发明实施例提供的决策系统100的又一种结构示意图，请参考图6，决策系统100还包括生成模块115，用于利用卷积神经网络生成评估网络。
122.具体地，请参考图6，在初始化评估网络q(s
t
,a
t
；w)之前，需要先生成评估网络。在本实施例中，决策系统100还包括生成模块115，利用卷积神经网络生成评估网络，卷积神经网络具有局部感知和参数共享两个特点，局部感知即卷积神经网络提出每个神经元不需要感知图像中的全部像素，只对图像的局部像素进行感知，然后在更高层将这些局部的信息进行合并，从而得到图像的全部表征信息。不同层的神经单元采用局部连接的方式，即每一层的神经单元只与前一层部分神经单元相连，每个神经单元只响应感受野内的区域，完全不关心感受野之外的区域，这样的局部连接模式保证了学习到的卷积核对输入的空间局部模式具有最强的响应。权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
123.本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。
124.本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。
125.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管
参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

技术特征：
1.一种基于dqn的云际资源接入的决策方法，其特征在于，包括：设定动作a
t
，所述动作a
t
包括接入、不接入；初始化评估网络q(s
t
,a
t
；w)，其中，s
t
表示状态信息，w表示第一训练参数；设置目标网络为其中，w-表示第二训练参数；采集状态信息s
t
，所述状态信息s
t
包括平台已有资源信息、用户需求信息以及云商的待接入资源信息；所述评估网络q(s
t
,a
t
；w)根据所述状态信息s
t
执行所述动作a
t
，得到云商价值r
t
；利用所述目标网络和所述云商价值r
t
循环迭代训练所述评估网络q(s
t
,a
t
；w)，得到更新后的第一训练参数；利用所述更新后的第一训练参数更新所述目标网络，得到新目标网络；将所述状态信息s
t
输入所述新目标网络，得到初步接入决策；根据所述初步接入决策判断是否接入，若接入，云商提供待接入资源；若不接入，云商判断是否改变待接入资源信息，若是，将改变后的所述状态信息输入所述新目标网络，再次判断是否接入，若否，不接入资源；将接入情况反馈至平台，所述状态信息s
t
更新后，跳转至采集状态信息s
t
步骤。2.根据权利要求1所述的一种基于dqn的云际资源接入的决策方法，其特征在于，所述评估网络q(s
t
,a
t
；w)执行所述动作a
t
时，采取ε-贪心方法决定动作其中，ε表示探索参数。3.根据权利要求1所述的一种基于dqn的云际资源接入的决策方法，其特征在于，利用所述目标网络和所述价值r
t
循环迭代训练所述评估网络，得到更新后的第一训练参数，具体为：将所述状态信息s
t
、动作a
t
、云商价值r
t
和状态信息s
t+1
存储至缓冲区，得到存储信息(s
t
,a
t
,r
t
,s
t+1
)；从所述缓冲区中随机采样m条所述存储信息(s
t
,a
t
,r
t
,s
t+1
)；设置目标值为y
t
＝r
t
+max
a
q(s
t+1
,a,w-)；更新所述第一训练参数，当所述评估网络与所述目标值的误差满足预定要求时，对应的所述第一训练参数作为更新后的第一训练参数。4.根据权利要求1所述的一种基于dqn的云际资源接入的决策方法，其特征在于，利用所述更新后的第一训练参数更新所述目标网络，具体为：利用所述更新后的第一训练参数替换所述第二训练参数。5.根据权利要求1所述的一种基于dqn的云际资源接入的决策方法，其特征在于，初始化评估网络q(s
t
,a
t
；w)之前，还包括：利用卷积神经网络生成评估网络。6.根据权利要求1所述的一种基于dqn的云际资源接入的决策方法，其特征在于，每个所述云商具有多项待接入资源，计算初步接入决策时，遍历每一项待接入资源得到每一项待接入资源的价值r
i
，对所有待接入资源的价值r
i
求和，得到对应的所述云商价值r
t
。7.根据权利要求6所述的一种基于dqn的云际资源接入的决策方法，其特征在于，遍历
每一项待接入资源得到每一项待接入资源的价值r
i
，具体为：当动作a
t
为不接入时，所述待接入资源的价值r
i
＝0；当动作a
t
为接入时，若所述待接入资源能满足用户需求且平台已有资源无法满足用户需求，则所述待接入资源的价值r
i
＝x；若所述待接入资源能满足用户需求且平台已有资源可以满足用户需求，则所述待接入资源的价值r
i
＝y；若所述待接入资源无法满足用户需求，则所述待接入资源的价值r
i
＝z；其中，x>y>z。8.一种基于dqn的云际资源接入的决策系统，其特征在于，包括：设定模块，用于设定动作a
t
，所述动作a
t
包括接入、不接入；初始化模块，用于初始化评估网络q(s
t
,a
t
；w)，其中，s
t
表示状态信息，w表示第一训练参数；第一设置模块，用于设置目标网络为其中，w-表示第二训练参数；采集模块，用于采集状态信息s
t
，所述状态信息s
t
包括平台已有资源信息、用户需求信息以及云商的待接入资源信息；执行模块，用于使所述评估网络q(s
t
,a
t
；w)根据所述状态信息s
t
执行所述动作a
t
，得到云商价值r
t
；训练模块，用于利用所述目标网络和所述云商价值r
t
循环迭代训练所述评估网络q(s
t
,a
t
；w)，得到更新后的第一训练参数；第一更新模块，用于利用所述更新后的第一训练参数更新所述目标网络，得到新目标网络；输入模块，用于将所述状态信息s
t
输入所述新目标网络，得到初步接入决策；判断模块，用于根据所述初步接入决策判断是否接入，若接入，云商提供待接入资源；若不接入，云商判断是否改变待接入资源信息，若是，将改变后的所述状态信息输入所述新目标网络，再次判断是否接入，若否，不接入资源；反馈模块，用于将接入情况反馈至平台。9.根据权利要求8所述的一种基于dqn的云际资源接入的决策系统，其特征在于，还包括：存储模块，用于将所述状态信息s
t
、动作a
t
、云商价值r
t
和状态信息s
t+1
存储至缓冲区，得到存储信息(s
t
,a
t
,r
t
,s
t+1
)；采样模块，用于从所述缓冲区中随机采样m条所述存储信息(s
t
,a
t
,r
t
,s
t+1
)；第二设置模块，用于设置目标值为y
t
＝r
t
+max
a
q(s
t+1
,a,w-)；第二更新模块，用于更新所述第一训练参数，当所述评估网络与所述目标值的误差满足预定要求时，对应的所述第一训练参数作为更新后的训练参数。10.根据权利要求8所述的一种基于dqn的云际资源接入的决策系统，其特征在于，还包括生成模块，用于利用卷积神经网络生成评估网络。

技术总结
本发明公开一种基于DQN的云际资源接入的决策方法及系统，涉及云计算领域，包括设定动作；初始化评估网络；设置目标网络；采集状态信息；评估网络执行动作；迭代训练评估网络；更新目标网络；将状态信息输入新目标网络，得到初步接入决策；根据初步接入决策判断是否接入，若接入，云商提供待接入资源；若不接入，云商判断是否改变待接入资源信息，若是，将改变后的状态信息输入新目标网络，再次判断是否接入，若否，不接入资源；将接入情况反馈至平台，状态信息s

技术研发人员：曾荣飞赵明洋褚晓文刘羽飞韩子森
受保护的技术使用者：东北大学
技术研发日：2023.03.28
技术公布日：2023/7/25

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于DQN的云际资源接入的决策方法及系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于DQN的云际资源接入的决策方法及系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表