面向空间信息网络的递阶智能跨域资源调度方法

未命名 08-15 阅读：126 评论：0

1.本发明属于卫星通信技术领域，特别涉及一种递阶智能跨域资源调度方法，可用于空间信息网络智能调度，获得更高的全网的任务完成数。

背景技术：

2.空间信息网络包括：提供多样化服务需求的通信系统，提供导航和定位服务的导航系统，以及提供各种监测和观测服务的观测系统。随着通信技术的发展，空间信息网络正朝着异构、多功能、以及大规模的方向发展。通常情况下，一个具有特定服务功能的系统能够被定义为一个域，且各个域是相互独立的。每个域在提供服务期间，域内的每个卫星是不与其他域的卫星共享资源的，且不进行数据交互。然而，越来越明显的任务需求差异化及迅猛增长的任务数量使得利用单一域的资源难以提供满意和及时的服务保障。特别是当遇到对时效性要求高的突发事件时，上述问题变得更加突出。因此，打破各域资源独立的壁垒，实现资源的跨域调度，从而高效利用全网资源，提升全网的任务完成数，已经成为未来空间信息网络提供服务的关键方式。
3.目前，针对空间信息网络的跨域资源调度方法的研究极少，且考虑的方案中并没有关注不同域的任务的属性差异，这是不符合实际的。因此，需要设计一种考虑各域任务的属性的跨域资源调度方法，为各域的任务需求提供高效服务。此外，随着网络规模的不断扩大以及各域的任务需求差异化的显著增长，跨域资源调度方案需要着重考虑任务需求差异化、动态化、以及网络规模带来的影响，为此，需要设计一种域间-域内递阶智能跨域资源调度方法，以增强跨域资源调度策略的自适应性并避免网络规模增长造成的求解复杂度的提升。
4.qi hao等人在其发表的论文“a multi-aspect expanded hypergraph enabled cross-domain resource management in satellite networks”(ieee transactions on communications，july 2022)中提出了一种面向卫星网络的两阶段跨域资源调度方法。该方法关注了位于不同域的卫星之间的资源协同调度，且通过实现各域资源的共享，获得了比非跨域场景下更优的资源调度性能。但该方法忽略了不同域的任务的属性，将所有域的任务都归结为数据并认为所有域的任务具有相同的完成优先级，这是不符合实际的，且会影响紧急任务的任务完成数。同时由于该方法设计的两阶段跨域资源调度方法的本质是传统的优化问题的求解思路，其属于静态调度方法，对于不同的任务需求需要重新求解，因而无法适用于差异化以及高动态的任务需求，此外由于该方法求解复杂度较高且与网络规模相关，故无法适用于网络规模不断扩大的空间信息网络。

技术实现要素：

5.本发明的目的是针对上述现有技术的不足，提出了一种面向空间信息网络的递阶智能跨域资源调度方法，以有效提升紧急任务的任务完成数，增强对各域差异化、高动态的任务需求的适应性，避免网络规模增长造成的求解复杂度的提升，获得更高的资源调度性
能。
6.为实现上述目的，本发明采取的技术方案包括如下步骤：
7.(1)构建具有多个卫星系统及地面站的待规划的空间信息网络，并将网络中的每个卫星系统作为一个域；
8.(2)以τ为时隙长度，将待规划的空间信息网络的规划时间ts划分为t个时隙：t＝ts/τ；
9.(3)根据网络中域的个数k确定每个卫星除其所在域外用于辅助其传输任务的辅助域；
10.(4)确定每个卫星的中继卫星集合：
11.(4a)根据“一星四链”模式，确定每个卫星在其所在域的域内中继卫星；
12.(4b)在每个卫星的两个辅助域中分别选择一个卫星作为域间中继卫星；
13.(4c)用选取每个卫星的域内中继卫星及域间中继卫星构成该卫星的中继卫星集合；
14.(5)确定每个卫星与中继卫星及地面站的连接关系集合：
15.(5a)将每个卫星与其中继卫星处于彼此通信范围内的星间链接关系评定为可见，用“1”表示；将不处于彼此通信范围内的星间链接关系评定为不可见，用“0”表示；
16.(5b)将每个卫星能够覆盖地面站的星地连接关系评定为可见，用“1”表示；将不能够覆盖的星地连接关系评定为不可见，用“0”表示；
17.(5c)将任意时隙的每个卫星与其所有域内中继卫星的星间连接关系组成该卫星的域内中继卫星连接关系集合，每个卫星与其所有域间中继卫星的星间连接关系组成该卫星的域间中继卫星连接关系集合，每个卫星与其所有地面站的星地连接关系组成该卫星的地面站连接关系集合；
18.(6)应用神经网络分别构建每个卫星的域内及域间资源调度阶段的策略函数和状态值函数，并设置收集域间及域内资源调度阶段的训练经验的集合mj＝φ和mn＝φ，φ表示空集；
19.(7)在每个训练周期设置所有卫星的初始资源状态及任务属性信息；
20.(8)在每个规划时隙获取当前时隙所有卫星的域内及域间联合状态信息；
21.(9)选取每个卫星的域间及域内资源调度策略：
22.(9a)根据每个卫星的域内、域间及地面站连接关系集合确定其域间可行动作集，并应用域间资源调度阶段的策略函数从域间可行动作集中选取每个卫星的域间资源调度策略；
23.(9b)根据每个卫星的域内及域间连接关系集合确定其域内可行动作集，并应用域内资源调度阶段的策略函数从域内可行动作集中选取每个卫星执行的域内资源调度策略；
24.(10)执行域间资源调度策略和域内资源调度策略，获取每个卫星在任务传输过程中获得的收益值和惩罚值，并将收益值与惩罚值做差，得到域内及域间资源调度阶段的奖励；
25.(11)获取每个卫星下一时隙的域内联合状态信息及下一时隙的域间联合状态信息；
26.(12)将得到的域间及域内资源调度阶段的当前时隙的联合状态信息、资源调度策
略、奖励、时隙序号及下一时隙的联合状态信息，作为训练经验数据，并分别存储到mj和mn中；
27.(13)对域间资源调度阶段的策略函数和状态值函数进行训练：
28.(13a)判断域间资源调度阶段的经验集合中的经验数据数量|mj|是否达到域间训练数据的数量，若是则执行(13b)，否则执行(14)；
29.(13b)更新域间状态值函数及策略函数的训练参数，并设置mj＝φ；
30.(14)对域内资源调度阶段的策略函数和状态值函数进行训练：
31.(14a)判断域内资源调度阶段的经验集合中的经验数据数量|mn|是否达到域内训练数据的数量，若是，则执行(14b)；否则，执行(15)；
32.(14b)更新域内状态值函数及策略函数的训练参数，并设置mn＝φ；
33.(15)循环执行(8)到(14)，直到完成第t个时隙；
34.(16)循环执行(7)到(15)，直到收敛，得到训练好的域间及域内资源调度阶段的策略函数及状态值函数；
35.(17)使用训练好的域间及域内资源调度阶段的策略函数，得到每个时隙的域间以及域内资源调度策略，完成各域的任务。
36.本发明与现有技术相比，具有如下优点：
37.1.本发明由于将任务属性信息与资源状态信息相结合构建域间及域内联合状态信息，并将其分别输入到域间及域内资源调度阶段构建的策略函数以及状态值函数中进行调度策略的选取和训练，通过学习不同域任务的特征，动态调整资源调度策略，可实现在满足不同域任务需求的前提下获得更高的全网的任务完成数，克服了现有技术进行资源调度时忽略不同域的任务的属性，导致紧急任务完成数较低的问题。
38.2.本发明由于将跨域资源调度划分为域间及域内资源调度两个阶段，在每个阶段均构建策略函数以及状态值函数，并通过在各种资源以及任务属性状态下进行训练，不仅可获得对差异化和动态化任务需求具有高度适应性的策略函数，而且能够在资源调度期间根据任务需求智能调整资源调度策略，克服了现有技术应用静态调度方法，无法适用于差异化、高动态任务需求的问题。
39.3.本发明由于将每个卫星作为一个智能体并通过为其构建维度相同且恒定不变的域间及域内可行动作集，对域间及域内资源调度阶段进行分布式训练，可使每个阶段用于选取资源调度策略的可行动作集不随网络规模的增长而扩大，有效缓解了网络规模对资源调度求解复杂度的影响。克服了现有技术求解复杂度较高，无法适用于不断扩大的空间信息网络的问题。
附图说明
40.图1是本发明的实现流程图；
41.图2是本发明中的空间信息网络结构示意图；
42.图3是用本发明和现有方法对不同第一个域的紧急任务数的仿真结果图。
具体实施方式
43.下面结合附图对本发明的实施例和效果作进一步详细描述。
44.参照图1，本实例的实现步骤如下：
45.步骤1，构建待规划的空间信息网络。
46.构建包括k个卫星系统及n
es
个地面站的待规划的空间信息网络，并将每个卫星系统作为一个域，构成域集合为d＝{d1,
…
,dk,
…
,dk}，其中，dk表示第k个域，k≥2，n
es
≥1；
47.设每个域中包括i个轨道，每个轨道包括j个卫星，构成卫星集合为：其中，k∈{1,2,
…
,k}，i≥1，j≥2，表示第k个域的第i个轨道的第j个卫星。
48.在本实施例中，构建一个包括卫星通信系统、卫星观测系统及卫星导航系统这3个卫星系统及4个地面站的空间信息网络如图2所示，并将卫星通信系统称为第一个域，用d1表示,其包括3个轨道，每个轨道包括3个通信卫星；卫星观测系统称为第二个域，用d2表示,其包括3个轨道，每个轨道包括3个观测卫星；卫星导航系统称为第三个域，用d3表示,其包括3个轨道，每个轨道包括3个导航卫星；整体域集合d＝{d1,d2,d3}，k＝3，n
es
＝4。
49.步骤2，划分待规划空间信息网络的规划时间。
50.以τ为时隙长度，将待规划的空间信息网络的规划时间ts划分为t个时隙：t＝ts/τ。
51.本实施例中，时隙长度τ＝100s，规划时间ts＝6小时，时隙总数t＝216。
52.步骤3，确定每个卫星进行任务传输的辅助域。
53.本步骤是根据网络中域的个数k确定每个卫星除其所在域外用于辅助其传输任务的辅助域：
54.当k≤3时，将网络中除第k个域dk外的其他域作为第k个域的第i个轨道的第j个卫星的辅助域；
55.当k》3时，从网络中除第k个域dk外的其他域中随机选择两个域作为的辅助域，并设第k个域dk中的所有卫星选择相同的辅助域。
56.在本实施例中，第一个域d1中的每个卫星的辅助域是第二个域d2及第三个域d3，第二个域d2中的每个卫星的辅助域是第一个域d1及第三个域d3，第三个域d3中的每个卫星的辅助域是第一个域d1及第二个域d2。
57.步骤4，确定每个卫星的中继卫星集合。
58.4.1)采用“一星四链”模式，分别建立第k个域的第i个轨道的第j个卫星分别与第k个域的第i个轨道的第j-1个卫星第k个域的第i个轨道的第j+1个卫星第k个域的第i-1个轨道的第j个卫星和第k个域的第i+1个轨道的第j个卫星这四个卫星之间的链路，共建立四条星间链路；
59.在每个域中，卫星的轨道编号i∈{1,2,
…
,i}，每个轨道的卫星编号j∈{1,2,
…
,j}，卫星的轨道编号及每个轨道的卫星编号不能分别超过i和j，且不能小于1，根据此条件：
60.若i＝i，i+1》i，则与第k个域的第1个轨道的第j个卫星建立链路；
61.若i＝1，i-1《1，则与第k个域的第i个轨道的第j个卫星建立链路；
62.若j＝j，j+1》j，则与第k个域的第i个轨道的第j个卫星建立链路；
63.若j＝1，j-1《1，则与第k个域的第i个轨道的第1个卫星建立链路；
64.4.2)将上述与卫星建立星间链路的四个卫星及作为卫星的域内中继卫星。
65.4.3)在每个卫星的两个辅助域中分别选择一个卫星作为域间中继卫星；
66.4.4)用选取每个卫星的域内中继卫星及域间中继卫星构成该卫星的中继卫星集合。
67.本实例确定每个卫星的中继卫星集合如图2所示，其以第三个域的卫星为例，的域内中继卫星分别为及且分别选取第一个域d1中的卫星以及第二个域中d2的卫星为其域间中继卫星，的中继卫星集合为的中继卫星集合为的域内以及域间中继卫星在图2中用矩形框标注。
68.步骤5，确定每个卫星与中继卫星及地面站的连接关系集合。
69.5.1)将每个卫星与其中继卫星处于彼此通信范围内的星间链接关系评定为可见，用“1”表示；将不处于彼此通信范围内的星间链接关系评定为不可见，用“0”表示；
70.5.2)将每个卫星能够覆盖地面站的星地连接关系评定为可见，用“1”表示；将不能够覆盖的星地连接关系评定为不可见，用“0”表示；
71.5.3)用任意时隙的每个卫星与其所有域内中继卫星的星间连接关系组成该卫星的域内中继卫星连接关系集合，表示如下：
[0072][0073]
其中，表示第t个时隙的域内中继卫星连接关系集合，表示第t个时隙与其域内中继卫星的星间连接关系，表示的域内中继卫星组成的集合，表示第k个域的第i个轨道的第j个卫星，t∈{1,2,
…
,t}；
[0074]
5.4)用任意时隙的每个卫星与其所有域间中继卫星的星间连接关系组成该卫星的域间中继卫星连接关系集合，表示如下：
[0075][0076]
其中，表示第t个时隙的域间中继卫星连接关系集合，表示第t个时隙与其域间中继卫星的星间连接关系，表示的域间中继卫星组成的集合；
[0077]
5.5)用任意时隙的每个卫星与其所有地面站的星地连接关系组成该卫星的地面站连接关系集合，表示如下：
[0078][0079]
其中，表示第t个时隙的地面站连接关系集合，表示第t个时隙与地面站的星地连接关系。
[0080]
步骤6，构建域内以及域间资源调度函数，并初始化参数。
[0081]
6.1)设置收集域间及域内资源调度阶段的训练经验的集合mj＝φ和mn＝φ，其中，φ表示空集；
[0082]
6.2)应用神经网络构建每个卫星的域内及域间资源调度阶段的策略函数，分别表示如下：
[0083][0084][0085]
其中，和分别表示的域内及域间策略函数，与分别表示的域内及域间策略函数的训练参数，和分别表示第t个时隙的域内及域间联合状态信息，和分别表示第t个时隙的域内及域间调度策略，p(
·
|
·
)表示条件概率，s和a分别表示卫星的状态和动作，表示第k个域的第i个轨道的第j个卫星；
[0086]
在本实施例中，构建域内及域间策略函数的神经网络由输入层、隐藏层及输出层三部分级联组成，其中，输入层包括四个并列的全连接层，隐藏层包括一个全连接层，策略函数的输出层包括一个softmax层，每个全连接层的神经元个数设置为32。
[0087]
6.3)应用神经网络构建每个卫星的域内及域间资源调度阶段的状态值函数，分别表示如下：
[0088][0089][0090]
其中，和分别表示的域内及域间状态值函数，与分别表示的域内及域间状态值函数的训练参数，和分别表示第t个时隙的域内及域间资源调度阶段的奖励，e(
·
)表示求期望。
[0091]
在本实施例中，构建域内及域间状态值函数的神经网络由输入层、隐藏层及输出层三部分级联组成，其中，输入层包括四个并列的全连接层，隐藏层包括一个全连接层，输出层包括一个linear层，每个全连接层的神经元个数设置为32。
[0092]
步骤7，设置所有卫星的初始资源状态及任务属性信息。
[0093]
在每个训练周期设置所有卫星的初始资源状态及任务属性信息，其中：初始资源状态信息，包括第1个时隙存储任务的数据量电池的剩余能量初始任务属性信息，包括第k个域的卫星生成的任务生存时隙rsk，其中，表示第k个域的第i个轨道的第j个卫星。
[0094]
在本实施例中，设置第1个时隙存储任务的数据量电池的剩余能量
第一个域的卫星生成的任务生存时隙rs1＝18，第二个域的卫星生成的任务生存时隙rs2＝72，第三个域的卫星生成的任务生存时隙rs3＝6，其中，e
max
＝100kj表示卫星的电池容量。
[0095]
步骤8，获取当前时隙所有卫星的域内及域间联合状态信息。
[0096]
8.1)在每个规划时隙获取当前时隙所有卫星的域内联合状态信息，表示如下：
[0097][0098]
其中，表示第t个时隙的域内联合状态信息，表示第t个时隙的本地状态信息，s
(t)
(m)表示第t个时隙的域内中继卫星的本地状态信息，表示的域内中继卫星组成的集合，表示第k个域的第i个轨道的第j个卫星，∪表示对两个集合取并集；
[0099]
8.2)计算域内联合状态信息的平均值：
[0100][0101]
其中，表示第t个时隙的域内联合状态信息的平均值，|
·
|表示获取集合中元素的数量；
[0102]
8.3)在每个规划时隙由域内联合状态信息的平均值及域间中继卫星的本地状态信息构成域间联合状态信息，表示如下：
[0103][0104]
其中，表示第t个时隙的域间联合状态信息，s
(t)
(n)表示第t个时隙的域间中继卫星的本地状态信息，表示的域间中继卫星组成的集合。
[0105]
在本实施例中，第t个时隙的本地状态信息由第t个时隙可使用的通信资源存储任务数据量的相对值电池剩余电量的相对值及存储的所有任务的平均剩余生存时隙组成，其中，b
max
＝60gbits表示卫星星载存储器的容量，表示第t个时隙存储任务的数据量、表示第t个时隙电池的剩余能量，e
min
＝(1-η)
·emax
表示电池的最小剩余电量，η＝75％表示电池的最大放电深度，e
max
＝100kj表示卫星的电池容量，eo＝0.5kj表示卫星每个时隙维持正常运行需要消耗的能量。
[0106]
步骤9，选取每个卫星的域间及域内资源调度策略。
[0107]
9.1)根据第t个时隙第k个域的第i个轨道的第j个卫星的域内中继卫星连接关系集合第t个时隙的域间中继卫星连接关系集合及第t个时隙的地面站连
接关系集合确定的域间可行动作集
[0108]
如果或则将dk设置为可行动作并加入到中；
[0109]
如果则将与卫星的连接关系为可见的域间中继卫星所在的域设置为可行动作，并加入到中；
[0110]
9.2)应用的域间资源调度阶段的策略函数从的域间可行动作集中选取的域间资源调度策略
[0111]
9.3)根据第t个时隙第k个域的第i个轨道的第j个卫星的域内中继卫星连接关系集合及第t个时隙的地面站连接关系集合确定的域内可行动作集
[0112]
如果则将设置为可行动作，并加入到中，表示可以直接传输任务到地面站；
[0113]
如果则将与卫星的连接关系为可见的域内中继卫星设置为可行动作，并加入到中；
[0114]
9.4)应用的域内资源调度阶段的策略函数从的域内可行动作集中选取的域内资源调度策略
[0115]
步骤10，执行每个卫星的资源调度策略并获取其奖励。
[0116]
执行第t个时隙的域间资源调度策略及域内资源调度策略获取其在任务传输过程中成功传输到地面站的数据量，并将该数据量作为收益值；
[0117]
获取被中继卫星接收失败的数据量，并将该数据量作为惩罚值，若该卫星没有选择中继卫星作为域内调度策略则设置该卫星的惩罚值为0；
[0118]
将的收益值与惩罚值做差，得到其域内资源调度阶段的奖励及域间资源调度阶段的奖励
[0119]
步骤11，获取下一时隙所有卫星的联合状态信息，并收集每个卫星的训练经验。
[0120]
11.1)获取下一时隙的域内联合状态信息及下一时隙的域间联合状态信息
[0121]
11.2)将当前时隙域间及域内资源调度阶段联合状态信息、资源调度策略、奖励、时隙序号及下一时隙的联合状态信息，作为训练经验数据，并分别存储到mj和mn中。
[0122]
步骤12，对域间资源调度阶段的策略函数和状态值函数进行训练。
[0123]
12.1)设置域间训练所需数据的数量qj，在本实施例设置qj＝64；
[0124]
12.2)判断域间资源调度阶段的经验集合中的经验数据数量|mj|是否达到域间训练数据需要的数量qj：
[0125]
若是，则执行步骤12.3)，
[0126]
否则，执行步骤13；
[0127]
12.3)更新域间状态值函数的训练参数：
[0128][0129]
其中，是在训练过程中循环更新的域间状态值函数的参数，表示第p+1次更新时得到的域间状态值函数的参数值，表示第p次更新时得到的域间状态值函数的参数值，p表示域间状态值函数的参数的更新次数，表示域间状态值函数的学习率，表示对求梯度，表示在状态下的评估值，表示第t个时隙的域间资源调度阶段的奖励，表示在状态下的状态价值，和分别表示第t个时隙和第t+1个时隙的域间联合状态信息，γ∈[0,1)表示折扣因子，表示第k个域的第i个轨道的第j个卫星；
[0130]
12.4)更新域间策略函数的训练参数：
[0131][0132]
其中，是在训练过程中循环更新的域间策略函数的参数，表示第p+1次更新时得到的域间策略函数的参数值，表示第p次更新时得到的域间策略函数的参数值，表示对求梯度，表示的域间时序差分误差，α
θj
表示域间策略函数的学习率，
·
表示乘法操作；
[0133]
12.5)设置mj＝φ。
[0134]
步骤13，对域内资源调度阶段的策略函数和状态值函数进行训练。
[0135]
13.1)设置域内训练所需数据的数量qn，在本实施例设置qn＝64。
[0136]
13.2)判断域内资源调度阶段的经验集合中的经验数据数量|mn|是否达到域内训练数据需要的数量qn：
[0137]
若是，则执行步骤13.3)，
[0138]
否则，执行步骤14；
[0139]
13.3)更新域内状态值函数的训练参数：
[0140][0141]
其中，是在训练过程中循环更新的域内状态值函数的参数，表示第q+1次更新时得到的域内状态值函数的参数值，表示第q次更新时得到的域内状态值函数的参数值，q表示域内状态值函数的参数的更新次数，表示域内状态值函数的学
习率，表示对求梯度，表示在状态下的评估值，表示第t个时隙的域内资源调度阶段的奖励，表示在状态下的状态价值，和分别表示第t个时隙和第t+1个时隙的域内间联合状态信息，γ∈[0,1)表示折扣因子，表示第k个域的第i个轨道的第j个卫星；
[0142]
13.4)更新域内策略函数的训练参数：
[0143][0144]
其中，是在训练过程中循环更新的域内策略函数的参数，表示第q+1次更新时得到的域内策略函数的参数值，表示第q次更新时得到的域内策略函数的参数值，表示对求梯度，表示的域间时序差分误差，α
θn
表示域内策略函数的学习率，
·
表示乘法操作；
[0145]
13.5)设置mn＝φ。
[0146]
步骤14，循环执行步骤8到步骤13，直到完成第t个时隙。
[0147]
步骤15，循环执行步骤7到步骤14，直到获取所有卫星的奖励之和收敛，得到训练好的域间及域内资源调度阶段的策略函数和状态值函数。
[0148]
步骤16，利用训练好的策略函数完成任务。
[0149]
16.1)使用训练好的域间及域内资源调度阶段的策略函数，得到每个时隙的域间以及域内资源调度策略：
[0150][0151][0152]
其中，表示所有时隙的域间调度策略组成的集合，表示所有时隙的域内调度策略组成的集合，表示第t个时隙的域间调度策略，表示第t个时隙的域内调度策略，表示第k个域的第i个轨道的第j个卫星，t∈{1,2,
…
,t}；
[0153]
16.2)执行每个时隙的域间以及域内资源调度策略，完成各域的任务。
[0154]
在本实施例中，每个卫星首先利用域间资源调度阶段的策略函数获取域间资源调度策略，再利用域内资源调度阶段的策略函数获取域内资源调度策略，而后，每个卫星分别执行域间及域内资源调度策略，对每个时隙存储在该卫星上的任务进行传输，完成各域的任务。
[0155]
下面结合仿真实验对本发明的效果做进一步的说明：
[0156]
一.仿真条件
[0157]
构建一个包括3个域及10个地面站的空间信息网络，第一个域用d1表示,其包括6个轨道，每个轨道包括11个卫星；第二个域用d2表示,其包括8个轨道，每个轨道包括6个卫星；第三个域用d3表示,其包括3个轨道，每个轨道包括8个卫星；
[0158]
设置时隙长度τ＝100s，规划时间ts＝6小时，时隙总数t＝216；
[0159]
设置每个域均可生成常规任务和紧急任务，且第一个域的卫星生成的常规任务生存时隙rs1＝18，第二个域的卫星生成的常规任务生存时隙rs2＝72，第三个域的卫星生成的常规任务生存时隙rs3＝6；
[0160]
设置卫星的电池容量e
max
＝100kj，电池的最小剩余电量为25kj，电池的最大放电深度η＝75％，卫星每个时隙维持正常运行需要消耗的能量eo＝0.5kj，卫星星载存储器的容量b
max
＝60gbits，每个卫星第1个时隙存储任务的数据量为0及第1个时隙电池的剩余能量为60kj；
[0161]
设置域间训练所需数据的数量qj＝64，域内训练所需数据的数量qn＝64，域间及域内状态值函数的学习率域间及域内策略函数的学习率α
θj
＝α
θn
＝0.00025，折扣因子γ＝0.99。
[0162]
二.仿真内容
[0163]
仿真实验1：在上述仿真条件的基础上，进一步设置第一个域d1生成的常规任务数为10560，每个任务的数据量为1gbits,第二个域d2生成的常规任务数为1824，每个任务的数据量为3gbits，第三个域d3生成的常规任务数为4800，每个任务的数据量为0.5gbits，设置第一个域生成的紧急任务生存时隙为3，用本发明和现有方法对不同的第一个域生成的紧急任务数进行仿真，仿真结果如图3所示。
[0164]
从图3中能够看出，无论是常规任务还是紧急任务，本发明均获得了更好的性能，且完成任务总数随紧急任务数的增加而增加；同时可以看出，紧急任务数越多，本发明与现有方法相比性能提升越显著。原因在于，本发明由于在选取资源调度策略时考虑了任务属性信息且通过将资源调度阶段划分为域间及域内两个部分，因而能够更好的学习域间资源协同策略，当域内资源不能及时供给时，可通过有效的域间协同为紧急任务寻求可行的任务传输方案。
[0165]
仿真实验2：
[0166]
在上述仿真条件基础上，新增3个域，即第四个域d4,第五个域d5,第六个域d6；其中d4中包括6个轨道，每个轨道包括4个卫星；d5中包括6个轨道，每个轨道包括10个卫星；d6中包括8个轨道，每个轨道包括6个卫星。
[0167]
设置常规任务和紧急任务模式的参数：
[0168]
第一个域d1生成的常规任务数为6600，紧急任务数为3960，每个任务的数据量为1gbits；
[0169]
第二个域d2生成的常规任务数为960，紧急任务数为864，每个任务的数据量为3gbits；
[0170]
第三个域d3生成的常规任务数为2928，紧急任务数为1872，每个任务的数据量为0.5gbits；
[0171]
第四个域d4生成的常规任务数为2928，紧急任务数为1872，每个任务的数据量为0.5gbits，
[0172]
第五个域d5生成的常规任务数为3600，紧急任务数为3600，每个任务的数据量为1gbits；
[0173]
第六个域d6生成的常规任务数为960，紧急任务数为864，每个任务的数据量为
3gbits；
[0174]
第四个域生成的常规任务生存时隙rs4＝6，第五个域生成的常规任务生存时隙rs5＝18，第六个域生成的常规任务生存时隙rs6＝72；
[0175]
所有域生成的紧急任务生存时隙设置为3。
[0176]
在上述参数下，用本发明和现有方法对不同网络规模下常规任务和紧急任务模式的任务完成性能进行仿真，仿真结果如表1所示。
[0177]
表1不同网络规模下常规任务和紧急任务模式的任务完成性能对比
[0178][0179]
从表1中能够看出，本发明在不同域的个数下，所完成的任务总数均优于现有方法。同时可以看出，随着网络规模的增加，本发明与现有方法相比获得的任务完成总数的提升越来越明显。例如，在网络具有6个域的情况下，本发明获得任务完成总数比现有方法多2740个。这是因为本发明在域的个数增加时，无需增加可行动作集的维度，避免了网络规模增加带来的求解复杂度的提升，且通过域间及域内的递阶调度降低了对全网进行训练学习的难度，从而获得更好的训练效果。
[0180]
上述仿真结果表明，本发明面对动态变化的紧急任务需求，能够获得更高的紧急任务完成数，且针对具有差异化需求的常规任务及紧急任务，均有良好的性能表现，对差异化、动态化的任务需求也具有较好的适应性；同时，本发明能够在不同网络规模下获得更好对常规任务和紧急任务模式的完成性能，可适用于未来大规模空间信息网络。
[0181]
以上描述仅是本发明的一个具体实例，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

技术特征：
1.一种面向空间信息网络的递阶智能跨域资源调度方法，其特征在于，包括如下步骤：(1)构建具有多个卫星系统及地面站的待规划的空间信息网络，并将网络中的每个卫星系统作为一个域；(2)以τ为时隙长度，将待规划的空间信息网络的规划时间ts划分为t个时隙：t＝ts/τ；(3)根据网络中域的个数k确定每个卫星除其所在域外用于辅助其传输任务的辅助域；(4)确定每个卫星的中继卫星集合：(4a)根据“一星四链”模式，确定每个卫星在其所在域的域内中继卫星；(4b)在每个卫星的两个辅助域中分别选择一个卫星作为域间中继卫星；(4c)用选取每个卫星的域内中继卫星及域间中继卫星构成该卫星的中继卫星集合；(5)确定每个卫星与中继卫星及地面站的连接关系集合：(5a)将每个卫星与其中继卫星处于彼此通信范围内的星间链接关系评定为可见，用“1”表示；将不处于彼此通信范围内的星间链接关系评定为不可见，用“0”表示；(5b)将每个卫星能够覆盖地面站的星地连接关系评定为可见，用“1”表示；将不能够覆盖的星地连接关系评定为不可见，用“0”表示；(5c)将任意时隙的每个卫星与其所有域内中继卫星的星间连接关系组成该卫星的域内中继卫星连接关系集合，每个卫星与其所有域间中继卫星的星间连接关系组成该卫星的域间中继卫星连接关系集合，每个卫星与其所有地面站的星地连接关系组成该卫星的地面站连接关系集合；(6)应用神经网络分别构建每个卫星的域内及域间资源调度阶段的策略函数和状态值函数，并设置收集域间及域内资源调度阶段的训练经验的集合mj＝φ和mn＝φ，φ表示空集；(7)在每个训练周期设置所有卫星的初始资源状态及任务属性信息；(8)在每个规划时隙获取当前时隙所有卫星的域内及域间联合状态信息；(9)选取每个卫星的域间及域内资源调度策略：(9a)根据每个卫星的域内、域间及地面站连接关系集合确定其域间可行动作集，并应用域间资源调度阶段的策略函数从域间可行动作集中选取每个卫星的域间资源调度策略；(9b)根据每个卫星的域内及域间连接关系集合确定其域内可行动作集，并应用域内资源调度阶段的策略函数从域内可行动作集中选取每个卫星执行的域内资源调度策略；(10)执行域间资源调度策略和域内资源调度策略，获取每个卫星在任务传输过程中获得的收益值和惩罚值，并将收益值与惩罚值做差，得到域内及域间资源调度阶段的奖励；(11)获取每个卫星下一时隙的域内联合状态信息及下一时隙的域间联合状态信息；(12)将得到的域间及域内资源调度阶段的当前时隙的联合状态信息、资源调度策略、奖励、时隙序号及下一时隙的联合状态信息，作为训练经验数据，并分别存储到mj和mn中；(13)对域间资源调度阶段的策略函数和状态值函数进行训练：(13a)判断域间资源调度阶段的经验集合中的经验数据数量|mj|是否达到域间训练数据的数量，若是则执行(13b)，否则执行(14)；(13b)更新域间状态值函数及策略函数的训练参数，并设置mj＝φ；(14)对域内资源调度阶段的策略函数和状态值函数进行训练：(14a)判断域内资源调度阶段的经验集合中的经验数据数量|mn|是否达到域内训练数
据的数量，若是，则执行(14b)；否则，执行(15)；(14b)更新域内状态值函数及策略函数的训练参数，并设置mn＝φ；(15)循环执行(8)到(14)，直到完成第t个时隙；(16)循环执行(7)到(15)，直到收敛，得到训练好的域间及域内资源调度阶段的策略函数及状态值函数；(17)使用训练好的域间及域内资源调度阶段的策略函数，得到每个时隙的域间以及域内资源调度策略，完成各域的任务。2.根据权利要求1所述的方法，其特征在于，步骤(1)中构建待规划的空间信息网络，其包括k个卫星系统及n
es
个地面站，并将每个卫星系统作为一个域，构成域集合为d＝{d1,
…
,d
k
,
…
,d
k
}，其中，d
k
表示第k个域，k≥2，n
es
≥1；设每个域中包括i个轨道，每个轨道包括j个卫星，构成卫星集合为：其中，k∈{1,2,
…
,k}，i≥1，j≥2，表示第k个域的第i个轨道的第j个卫星。3.根据权利要求1所述的方法，其特征在于，步骤(3)中根据网络中域的个数k确定每个卫星的辅助域，实现如下：当k≤3时，将网络中除第k个域d
k
外的其他域作为第k个域的第i个轨道的第j个卫星的辅助域；当k＞3时，从网络中除第k个域d
k
外的其他域中随机选择两个域作为的辅助域，并设第k个域d
k
中的所有卫星选择相同的辅助域。4.根据权利要求1所述的方法，其特征在于，步骤(4a)中所述的“一星四链”模式及选取的域内中继卫星，实现如下：分别建立第k个域的第i个轨道的第j个卫星与第k个域的第i个轨道的第j-1个卫星第k个域的第i个轨道的第j+1个卫星第k个域的第i-1个轨道的第j个卫星和第k个域的第i+1个轨道的第j个卫星这四个卫星之间的链路，共建立四条星间链路；将上述与卫星建立星间链路的四个卫星及作为卫星的域内中继卫星。5.根据权利要求1所述的方法，其特征在于，步骤(5c)中的域内中继卫星连接关系集合、域间中继卫星连接关系集合及地面站连接关系集合，分别表示如下：合、域间中继卫星连接关系集合及地面站连接关系集合，分别表示如下：合、域间中继卫星连接关系集合及地面站连接关系集合，分别表示如下：其中，表示第t个时隙的域内中继卫星连接关系集合，表示第t个时隙与其域内中继卫星的星间连接关系，表示的域内中继卫星组成的集合，表示第t
个时隙的域间中继卫星连接关系集合，表示第t个时隙与其域间中继卫星的星间连接关系，表示的域间中继卫星组成的集合，表示第t个时隙的地面站连接关系集合，表示第t个时隙与地面站的星地连接关系，表示第k个域的第i个轨道的第j个卫星，t∈{1,2,
…
,t}。6.根据权利要求1所述的方法，其特征在于，步骤(6)中的域内、域间资源调度阶段的策略函数和域内、域间资源调度阶段的状态值函数，分别表示如下：略函数和域内、域间资源调度阶段的状态值函数，分别表示如下：略函数和域内、域间资源调度阶段的状态值函数，分别表示如下：略函数和域内、域间资源调度阶段的状态值函数，分别表示如下：其中，和分别表示的域内及域间策略函数，与分别表示域内及域间策略函数的训练参数，和分别表示第t个时隙的域内及域间联合状态信息，和分别表示第t个时隙的域内及域间调度策略，p(
·
|
·
)表示条件概率；和分别表示域内及域间状态值函数，与分别表示域内及域间状态值函数的训练参数，和分别表示第t个时隙的域内及域间资源调度阶段的奖励，e(
·
)表示求期望，s和a分别表示卫星的状态和动作，表示第k个域的第i个轨道的第j个卫星。7.根据权利要求1所述的方法，其特征在于，步骤(8)中的域内及域间联合状态信息，分别表示如下：其中，和分别表示第t个时隙的域内及域间联合状态信息，表示第t个时隙的本地状态信息，s
(t)
(m)表示第t个时隙的域内中继卫星的本地状态信息，表示第t个时隙的域内联合状态信息的平均值，表示第t个时隙的域间中继卫星的本地状态信息，表示的域内中继卫星组成的集合，表示的域间中继卫星组成的集合表示第k个域的第i个轨道的第j个卫星，∪表示对两个集合取并集。
8.根据权利要求1所述的方法，其特征在于，所述步骤(9a)中的域间可行动作集，是根据第t个时隙第k个域的第i个轨道的第j个卫星的域内中继卫星连接关系集合第t个时隙的域间中继卫星连接关系集合及第t个时隙的地面站连接关系集合确定的域间可行动作集如果或则将d
k
设置为可行动作并加入到中；如果则将与卫星的连接关系为可见的域间中继卫星所在的域设置为可行动作，并加入到中；所述步骤(9b)中的域内可行动作集，是根据及确定的域内可行动作集如果则将设置为可行动作，并加入到中，表示可以直接传输任务到地面站；如果则将与卫星的连接关系为可见的域内中继卫星设置为可行动作，并加入到中。9.根据权利要求1所述的方法，其特征在于，步骤(13b)中的更新域间状态值函数及策略函数的训练参数，分别表示如下：略函数的训练参数，分别表示如下：其中，和分别是在训练过程中循环更新的域间状态值函数及策略函数的参数，和分别表示第p+1次更新时得到的域间状态值函数及策略函数的参数值，和分别表示第p次更新时得到的域间状态值函数及策略函数的参数值，p表示域间状态值函数及策略函数的参数的更新次数，和α
θj
分别表示域间状态值函数及策略函数的学习率，表示对求梯度，表示在状态下的评估值，表示第t个时隙的域间资源调度阶段的奖励，表示在状态下的状态价值，和分别表示第t个时隙和第t+1个时隙的域间联合状态信息，表示的域间时序差分误差，γ∈[0,1)表示折扣因子，表示第k个域的第i个轨道的第j个卫星，
·
表示乘法操作。10.根据权利要求1所述的方法，其特征在于，步骤(14b)中的更新域内状态值函数及策
略函数的训练参数，分别表示如下：其中，和分别是在训练过程中循环更新的域内状态值函数及策略函数的参数，和分别表示第q+1次更新时得到的域内状态值函数及策略函数的参数值，和分别表示第q次更新时得到的域内状态值函数及策略函数的参数值，q表示域内状态值函数及策略函数的参数的更新次数，和α
θn
分别表示域内状态值函数及策略函数的学习率，表示对求梯度，表示在状态下的评估值，表示第t个时隙的域内资源调度阶段的奖励，表示在状态下的状态价值，和分别表示第t个时隙和第t+1个时隙的域内间联合状态信息，γ∈[0,1)表示折扣因子，表示第k个域的第i个轨道的第j个卫星，
·
表示乘法操作。11.根据权利要求1所述的方法，其特征在于，步骤(17)中得到的域间以及域内资源调度策略，表示如下：度策略，表示如下：其中，表示所有时隙的域间调度策略组成的集合，表示所有时隙的域内调度策略组成的集合，表示第t个时隙的域间调度策略，表示第t个时隙的域内调度策略，表示第k个域的第i个轨道的第j个卫星，t∈{1,2,
…
,t}。

技术总结
本发明公开了一种面向空间信息网络的递阶智能跨域资源调度方法，主要解决现有紧急任务完成性能差且无法适用于差异化、动态化任务需求及大规模网络的问题。其方案是：将空间信息网络的规划时间划分为时隙，确定每个卫星的辅助域、中继卫星及连接关系；构建域内及域间的策略函数和状态值函数，根据当前时隙的域内及域间联合状态信息利用其策略函数从域内及域间可行动作集中选取调度策略；执行调度策略得到奖励及下一时隙的联合状态信息，收集训练数据，并训练域内及域间的策略函数和状态值函数；利用训练好的域内及域间的策略函数获取每个时隙的调度策略完成任务传输。本发明能获得差异化、动态化各类任务更高的完成数，可用于未来大规模空间信息网络。未来大规模空间信息网络。未来大规模空间信息网络。

技术研发人员：盛敏鲍晨曦周笛史琰李建东白卫岗李浩然朱彦
受保护的技术使用者：西安电子科技大学
技术研发日：2023.06.07
技术公布日：2023/8/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种用于海上风电安装的桩基防冲刷保护装置 下一篇：一种新型烟气污染物填料洗涤装置

面向空间信息网络的递阶智能跨域资源调度方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

面向空间信息网络的递阶智能跨域资源调度方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表