一种基于Actor-Critic的传感器网络数据上传方法

未命名 08-05 阅读：138 评论：0

一种基于actor-critic的传感器网络数据上传方法
技术领域
1.本发明涉及无线通信技术领域，使用了强化学习的方法来解决传感器数据上传研究问题。

背景技术：

2.未来物联网(internet of things,iot)的趋势是实现无处不在的传感和连接系统，从而提供以数据为驱动的决策分析和无需人工干预的自动化，在这样的系统中，数据包延迟不能被视为主要的性能指标，而是目的地端接收到传感器数据的新鲜度，过时的传感器数据对目的地并无太大的意义，甚至可能导致目的地端做出错误的决策。aoi是一个衡量信息新鲜度的指标，定义为自从上一次在目的地收到的更新数据包以后过去的时间，该指标与经典的指标比如吞吐量和延迟有着很大区别，其可以更全面地反映目的地在每一时刻信息的新鲜度。
3.目前aoi的研究是一个热门的方向。在现有文献中，接入点和智能设备之间的通信是双向的，接入点有恒定的电源而智能设备没有，接入点同时向智能设备通过块衰落信道传输信息和能量，智能设备同时收到接入点传过来的能量和信息，并将能量储存在能量缓冲器中，给予aoi和传输速率不同的加权系数，并在aoi和传输速率之间进行权衡，然后通过高效算法提出最优功率分配比和最优加权系数，但是文献没有考虑到aoi可能会超过某一阈值的可能。另有文献，提出了aoi的违规概率(violation probability)，定义为aoi超过某一个给定值的概率，减少违规概率对于保证物联网系统数据的新鲜度具有重要意义，系统由一个传感器节点，一个监视者以及满足先到先服务策略的m/m/1队列构成，每一时刻传感器节点都要向监视者传输数据包，文章推导出了使违规概率最小的数据包产生速率。大多文献都是研究平均aoi的违规概率，也有文献提出了优化峰值aoi的违规概率，研究了在点对点的通信系统中，根据最后到达的时间对数据包的处理采用了后到先服务的抢占式策略，由于可能出现的丢包现象，文章在信道中采用了自动重传协议进行重传，并使用了正交相移键控调制和最大似然信道估计的方法，对于给定的数据包大小、一些物理层参数、发射和接收天线的数量以及导频符号的数量，文章可以确保系统在低于一个峰值aoi违背概率的前提下运行。但是上述文献没有在超过阈值后给予一定的惩罚值。
4.由于传输中可能会出现传输失败的情况，有文献考虑了一个发送源测量一个随时间变化的变量并周期地向监测站报告测量信息，可用的通信信道是有限的，发送源在每一次发送测量信息时都需要使用其中的一条信道，监测站不知道这些信道的成功概率是多少，文章将此建模为多臂强盗问题(multi-arm bandit problem)，通过仿真展示了aoi-aware测量比现有的aoi策略要更好，但是文献没有考虑到传输失败的概率在不同信道之间的差异性。
5.用强化学习去优化aoi有着很好的效果。有文献考虑了系统是一个服务器服务多个流，使用了策略梯度和深度q-learning的方法去学习智能体的调度策略，并与基准方法进行对比。但是策略梯度算法通常收敛于全局最优而非局部，而深度q-learning算法很难
用于高维度或连续动作空间，actor-critic算法结合了策略梯度算法和深度q-learning算法的优点，有文献就使用actor-critic算法，文章研究了关注时延的工业物联网设备，新兴网络功能虚拟化使得服务者可以使用虚拟网络功能(virtual network functions,vnfs)传输给定的网络服务，然而，合适的vnf的布局和调度在这些方案中是np-hard的，通过传统方法找到全局最优解是非常复杂的，深度强化学习则是解决此类问题的可行方法，文章首先使用了低复杂度的单智能体强化学习actor-critic算法来联合优化vnf成本和aoi，为了解决单智能体学习的容量限制，文章使用智能体可以相互合作的多智能体强化学习算法，并证明了单智能体强化学习算法在平均网络成本和aoi的优化方面比贪婪算法表现更好，而且多智能体强化学习算法通过分离智能体的任务来减小平均开销，但是由于需要智能体之间的相互合作，所以多智能体强化学习算法需要更多的迭代。有的文献将强化学习算法和经典算法进行对比以证明其优越性，有文献提出了多个传感器节点和一个远程控制中心通信，文章想要最优化所有传感器节点的aoi和实现超可靠低延迟通信(ultra reliable low latency communication,urllc)，并对比了深度强化学习算法和两种经典算法的差异。但是上述文献都没有考虑到能量问题，一般而言，数据的传输都需要消耗能量，而且对于多对一系统而言，不同设备传输所消耗的能量也存在差异。
6.总结来说，上述文献提到的模型还存在着以下问题：
7.(1)在考虑优化aoi的时候，没有考虑超过某一阈值的情况，或者在考虑到阈值后没有考虑在超过这一阈值以后应该给予多少惩罚值，而当aoi超过某一个值以后，就意味着传输策略非常糟糕，需要尽量避免；
8.(2)在考虑不同信道的数据传输时，考虑到了传输失败的问题，但是忽略了传输失败的概率在不同信道之间的差异性；
9.(3)仅仅只是考虑优化aoi，没有考虑到每次传输的能量消耗问题，实际上，传感器节点都有固定的能量，每一次传输都需要消耗一定的能量，在能量消耗完以后，就需要更换传感器节点，这需要一定的成本；
10.(4)不同传感器节点的实际情况是不同的，每次传输消耗的能量以及产生的数据包大小也就有所不同，在很多模型设计时都没有考虑到这一情况。

技术实现要素：

11.技术问题：本发明所要解决的技术问题在于，提出了一种基于强化学习的传感器数据上传研究方法。使用了age of information(aoi)和能量消耗作为衡量指标，每一个传感器节点都会监测相应物理过程的信息并将其传输给中央控制器，物理过程可以看作一系列的任务，而由于有限的无线资源，监测每一个任务后只有一个传感器节点可以传输，所以使用了强化学习actor-critic算法用于决策哪些传感器节点可以传输，actor-critic算法可以使得调度节点每一次都会选择需要传输的节点进行传输，降低了计算时间复杂度，提高了传感器节点传输的效率。
12.技术方案：本发明采用的技术方案如下：
13.(1)首先建立传感器节点无线传输问题所对应的数学模型。
14.(2)根据传感器节点传输数学模型搭建对应的仿真环境，以及初始化该环境中用的各项参数。包括传感器节点k的aoi，传感器节点k最多能储存的能量，传感器节点k传输所
消耗的能量，传感器节点k传输的数据包大小lk，传感器节点k传送数据包的速率λ(i)。
15.(3)在调度节点侧，先根据所研究问题的特点将其转化为一个马尔可夫决策过程(mdp)：(s,a,r)，其中s表示状态空间，a表示动作空间，r表示奖励函数。
16.(4)最后采用强化学习actor-critic算法训练智能体，用于决策满足各项约束并且使得aoi和能量消耗最少的传输方案。
17.其中所述步骤(1)具体如下：
18.(11)考虑由k个传感器节点和一个调度节点组成的网络，调度节点选择一个传感器节点去产生一个新的数据包并将其传输给中央控制器。监测的物理过程可以看做是一系列的任务，用i∈{1,2,...,t}表示任务的序列，调度策略就是在监测第i个任务时，调度节点选择一个传感器节点k∈{1,2,,...,k}以速率为λ(i)传输新的数据包，
19.(12)引入aoi来衡量信息传输的及时性。在调度节点方面，aoi定义为自上次成功接收到最新数据包以来经过的时隙数。可以设置一个最大值βk来限制aoi的上限值，当aoi超过最大值βk后，给予δk的惩罚。
20.(13)假设调度节点侧有一个固定的能量源，每一个传感器节点都有电池，能量最多可以储存b焦耳，当电池用完时，更换相应的传感器节点，然后该传感器的电量变为满电量，需要花费成本c，传感器节点k传输第i个任务需要消耗的能量为ek(i)，传感器节点k在传输第i个任务前的电量为ek(i)。
21.(14)在调度节点侧，第k个传感器节点在调度节点侧的aoi可以表示为：
[0022][0023]
被选中进行传输的传感器节点k在传输第i+1个任务前的电量为：
[0024][0025]
则优化目标为：
[0026][0027]
其中所述步骤(3)具体如下：
[0028]
(31)首先把调度节点当做智能体，分别编号为：{1,2,...,k}，其中k表示传感器节点总数。
[0029]
(32)状态空间s的设定：监测第i个任务后，其状态空间si定义为：si＝(ak(i),ek(i),λ(i),lk)k，其中as表示传感器节点k的aoi，ek(i)表示传感器节点k在传输第i个任务前的电量，λ(i)表示传感器节点k传输的数据包大小，lk表示代表传感器节点k传输的数据包大小。
[0030]
(33)动作空间a的设定：监测第i个任务后，其动作空间ai可表示为行向量形式：ai＝{0,1}k。其中1和0分别代表调度节点是否选择某一个传感器节点进行传输，k是传感器节点的个数。对于每一个任务i，只有一个传感器节点可以被选中进行传输，故1被选择1次而0
被选择k-1次。
[0031]
(34)奖励函数r的设定：监测第i个任务后，智能体的奖励函数ri定义为调度节点侧的aoi、超过aoi阈值后给予的惩罚值、传感器节点传输的能量消耗和传输节点更换的成本的负值。
[0032]
其中所述步骤(4)具体如下：
[0033]
(41)首先初始化actor-critic算法中各个智能体的actor网络参数θa以及critic网络参数θc。
[0034]
(42)智能体观测当前环境状态，并根据当前策略从动作空间ai中选择一个动作a。
[0035]
(43)联合动作作用于当前状态，并将当前的状态从s更新为s
′
，同时得到即时奖励r。
[0036]
(44)之后，奖励将作为反馈给予所智能体，更新其策略神经网络参数θa以及价值神经网络参数θc。
[0037]
(45)不断重复步骤(41-44)，直到获得的奖励r收敛，整个过程如图1所示。
[0038]
有益效果：本发明提出了一种基于强化学习的传感器数据上传研究方法。使用了age of information(aoi)和能量消耗作为衡量指标，每一个传感器节点都会监测相应物理过程的信息并将其传输给中央控制器，物理过程可以看作一系列的任务，而由于有限的无线资源，监测每一个任务后只有一个传感器节点可以传输，所以使用了强化学习actor-critic算法用于决策哪些传感器节点可以传输，actor-critic算法可以使得调度节点每一次都会选择需要传输的节点进行传输，降低了计算时间复杂度，提高了传感器节点传输的效率。
附图说明
[0039]
图1为强化学习算法训练示意图。
具体实施方式
[0040]
下面对本发明技术方案进行详细说明，但本发明的保护范围不局限于所述实施实例。
[0041]
本发明提出了一种基于强化学习的传感器数据上传研究方法。
[0042]
下面给出一种实施实例：
[0043]
(1)首先建立传感器节点无线传输问题所对应的数学模型。
[0044]
考虑由k个传感器节点和一个调度节点组成的网络，调度节点选择一个传感器节点去产生一个新的数据包并将其传输给中央控制器。监测的物理过程可以看做是一系列的任务，用i∈{1,2,...,t}表示任务的序列，调度策略就是在监测第i个任务时，调度节点选择一个传感器节点k∈{1,2,,...,k}以速率为λ(i)传输新的数据包。
[0045]
在监测第i个任务时，用ik(i)＝1表示传感器节点k被选择去传输，而ik(i)＝0表示传感器节点k没有被选择去传输。不同传感器节点传输的数据包大小是不同的，用lk代表节点k传输的数据包大小，数据包在调度节点被成功接收的概率为pk∈(0,1]，用rk(i)代表节点k成功传输数据包所做出的尝试次数，引入aoi来衡量信息传输的及时性，第k个传感器节点在调度节点侧的aoi可以表示为：
[0046][0047]
λ
t
(i)代表在第t次传输的传输速率。当ik(i)＝1时，也就是在监测任务i时若调度节点选择了传感器节点k，该传感器节点在调度节点侧的aoi就是传输数据包所花费的时间，当ik(i)＝0时，也就是其他节点u≠k时被选择去传输任务i时，对于任务i+1来说，传感器节点k在调度节点侧的aoi为任务i的aoi加上传感器节点u传输数据包所花费的时间。
[0048]
假设每个传感器节点都有一个电池，电池电量为b，当电池用完时，更换相应的传感器节点，然后该传感器的电量变为满电量。传感器节点k传输第i个任务需要消耗的能量为ek(i)，传感器节点k在传输第i个任务前的电量为则被选中进行传输的传感器节点k在传输第i+1个任务前的电量为：
[0049][0050]
优化目标是使得调度节点侧的aoi，超过aoi阈值给予的惩罚值，传输的能量消耗以及更换传感器节点的成本最低，优化目标函数可以表示为：
[0051][0052]
其中：
[0053][0054][0055]
其中第一项代表aoi，第二项代表超过aoi阈值时给的惩罚值，βk代表传感器节点k的aoi上限，当超过这一上限时，给予δk的惩罚，第三项代表传输数据所消耗的能量，第四项代表在传感器节点能量耗尽时更换节点的代价，c为每次更换传感器节点所需要的成本。在监测每一个任务后，式(4)表示只有一个传感器节点可以传输，式(5)表示传感器节点要么选择传输要么不传。
[0056]
(2)解决上述问题的关键是将aoi以及能量消耗进行联合优化，同时考虑aoi超过阈值和在传感器节点能量耗尽时进行更换等因素，由于每一时刻aoi和能量消耗都仅与上一时刻有关，故可将问题转化为一个离散时间马尔科夫过程，用强化学习的方法进行求解。
[0057]
下面本发明定义了状态空间，动作空间以及奖励函数。在强化学习的框架下，智能体为调度节点，每一时刻都会做出动作，并由环境给予相应的奖励，从而转移到下一个状态。
[0058]
1.状态空间
[0059]
监测第i个任务后，智能体的状态空间si定义为：
[0060][0061]
其中ak(i)代表传感器节点k在传输第i个任务后的aoi，代表传感器节点k在传输第i个任务前剩余的电量，lk代表传感器节点k传输的数据包大小，λ(i)代表了监测第i
个任务后传输的速率，k是传感器节点的个数。
[0062]
2.动作空间
[0063]
监测第i个任务后，智能体的动作空间ai定义为：
[0064]ai
＝{0,1}kꢀꢀ
(7)
[0065]
其中1和0分别代表调度节点是否选择某一个传感器节点进行传输，k是传感器节点的个数。对于每一个任务i，只有一个传感器节点可以被选中进行传输，故1被选择1次而0被选择k-1次。
[0066]
3.奖励函数
[0067]
监测第i个任务后，智能体的奖励函数ri定义为：
[0068][0069]
其中第一项代表在任务i结束后所有传感器节点的aoi之和，第二项代表当传感器节点的aoi超过某一个阈值后所得到的惩罚，第三项代表被选中的传感器节点传输数据所消耗的能量，第四项代表在传感器节点电池能量耗尽时更换所需要的成本，c代表每一次更换传感器节点所需的成本，智能体的每一个动作都需要考虑到这四项因素，并在其中找到一个平衡，因此，奖励函数反映出了每一个动作的表现。
[0070]
(3)本发明采用强化学习来进行aoi和能量消耗的联合优化。由于问题中的状态空间和动作空间较大，经典的强化学习算法如q-learning已经不能满足问题的要求了，因此，采用的深度强化学习框架下的actor-critic算法来解决问题。
[0071]
在使用actor-critic算法来训练传感器节点传输模型时，首先初始化actor网络参数θa以及critic网络参数θc，然后进行每一轮的训练，在每一轮的训练中，先重置梯度dθa＝0，dθc＝0，并从状态空间中选择一个状态s0对智能体的状态进行初始化，在监测每一个任务时，智能体都会从动作空间ai＝{0,1}k中选取动作ai，即选择哪一个传感器节点进行传输，获得奖励，转移到下一个状态，并更新actor网络和critic网络的参数。
[0072]
基于传感器数据上传的actor-critic算法网络图如图1所示。通过神经网络来确定智能体的策略，智能体观察到环境的状态，包括过去j个任务的吞吐量，所有传感器的aoi即ak(i)，传输的数据包大小lk(i)以及目前剩余的能量并将这些值输入神经网络，由神经网络输出动作，动作就是调度节点在下一个任务将选择哪个传感器节点进行传输，然后得到奖励并反馈给智能体，智能体使用奖励信息去训练和提升其神经网络模型。除了输出的维数不一样，actor网络和critic网络拥有相同的结构。
[0073]
采用强化学习actor-critic算法训练智能体仿真参数设置如下：
[0074]
考虑一个由一个调度器节点和十个传感器节点构成的系统，任务的数量总共有100个，传感器节点的数据包传输速率为10bytes/s，传感器节点产生的数据包大小为10kbytes，即从10bytes到100bytes，第一个节点为10bytes，后面每一个节点比上一个节点多10bytes，每一个传感器节点的aoi阈值都不同，第一个节点的aoi阈值为20s，后面每一个节点的aoi阈值都比上一个要多20s，而aoi阈值低的节点的惩罚值会更大，设置，在传输耗能方面，传感器节点的电池容量为为30joules，但是不同传感器传输一次数据所消耗的能
量也有差异，在一个传感器节点的电量用完时，需要对该节点进行更换，需要花费成本为20，更换完后，电池的电量重新变成最大电量。

技术特征：
1.一种基于actor-critic的传感器网络数据上传方法，所述传感器网络包括k个传感器节点和一个调度节点，传感器节点监测任务，调度节点每次选取一个传感器节点进行传输并将获得的数据包传输给中央控制器，其特征在于，包括如下步骤：建立传感器节点无线传输问题所对应的传感器节点传输数学模型；所述传感器节点传输数学模型的优化目标是使得以下几项之和最小：调度节点侧的aoi，超过aoi阈值后给予的惩罚值，传感器节点传输的能量消耗和传输节点更换的成本；根据传感器节点传输数学模型搭建对应的仿真环境，以及初始化仿真环境中相关的各项参数，包括传感器节点k的aoi，传感器节点k最多能储存的能量，传感器节点k传输第i个任务所消耗的能量e
k
(i)，传感器节点k传输的数据包大小l
k
，传感器节点k传送数据包的速率λ(i)；k＝1,
…
,k；将调度节点的传感器节点调度问题转化为一个马尔可夫决策过程(s,a,r)，其中s表示状态空间，a表示动作空间，r表示奖励函数；采用强化学习actor-critic算法训练智能体，用于决策满足各项约束并且使得aoi和能量消耗最少的数据上传方案。2.如权利要求1所述的基于actor-critic的传感器网络数据上传方法，其特征在于，在调度节点侧，第k个传感器节点在调度节点侧的aoi表示为：被选中进行传输的传感器节点k在传输第i+1个任务前的电量为：则优化目标为：其中，r
k
(i)代表节点k成功传输数据包所做出的尝试次数；在监测第i个任务时，用i
k
(i)＝1表示传感器节点k被选择去传输，而i
k
(i)＝0表示传感器节点k没有被选择去传输；l
k
代表节点k传输的数据包大小；为传感器节点k在传输第i个任务前的电量；b为传感器节点的电池电量；e
k
(i)为传感器节点k传输第i个任务需要消耗的能量；u≠k；c为每次更换传感器节点所需要的成本；β
k
为传感器节点k的aoi上限；δ
k
为传感器节点k的aoi超过上限时，给予的惩罚。3.如权利要求1所述的基于actor-critic的传感器网络数据上传方法，其特征在于，状态空间s的设定：传感器节点监测第i个任务后，智能体的状态空间s
i
定义为：s
i
＝(a
k
(i),e
k
(i),λ(i),l
k
)
k
，其中a
k
表示传感器节点k的aoi，e
k
(i)表示传感器节点k在传输第i个任务前的电量，λ(i)表示传感器节点k传输的数据包大小，l
k
表示代表传感器节点k传输的数据包大小；动作空间a的设定：传感器节点监测第i个任务后，智能体的动作空间a
i
表示为行向量形
式：a
i
＝{0,1}
k
，其中1和0分别代表调度节点是否选择某一个传感器节点进行传输，k是传感器节点的个数；对于每一个任务i，只有一个传感器节点可以被选中进行传输，故1被选择1次而0被选择k-1次；奖励函数r的设定：传感器节点监测第i个任务后，智能体的奖励函数r
i
定义为调度节点侧的aoi、超过aoi阈值后给予的惩罚值、传感器节点传输的能量消耗和传输节点更换的成本的负值。4.如权利要求1所述的基于actor-critic的传感器网络数据上传方法，其特征在于，采用强化学习actor-critic算法训练智能体包括如下步骤：首先初始化actor-critic算法中各个智能体的actor网络参数θ
a
以及critic网络参数θ
c
；智能体观测当前环境状态，并根据当前策略从动作空间a
i
中选择一个动作a；联合动作作用于当前状态，并将当前的状态从s更新为s
′
，同时得到即时奖励r；奖励将作为反馈给予所智能体，更新其策略神经网络参数θ
a
以及价值神经网络参数θ
c
；不断重复上述步骤，直到获得的奖励r收敛。

技术总结
本发明公开了一种基于Actor-Critic的传感器网络数据上传方法。使用了Age of Information(AoI)和能量消耗作为衡量指标，每一个传感器节点都会监测相应物理过程的信息并将其传输给中央控制器，物理过程可以看作一系列的任务，而由于有限的无线资源，监测每一个任务后只有一个传感器节点可以传输，所以使用了强化学习Actor-Critic算法用于决策哪些传感器节点可以传输，Actor-Critic算法可以使得调度节点每一次都会选择需要传输的节点进行传输，降低了计算时间复杂度，提高了传感器节点传输的效率。节点传输的效率。节点传输的效率。

技术研发人员：刘楠许宪哲潘志文尤肖虎
受保护的技术使用者：东南大学
技术研发日：2023.06.02
技术公布日：2023/8/4

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种阵列基板、显示面板和显示装置的制作方法 下一篇：一种二次电喷雾离子源的制作方法

一种基于Actor-Critic的传感器网络数据上传方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于Actor-Critic的传感器网络数据上传方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表