一种6G空天地一体化网络下基于DQN网络的无人机邻节点发现方法

未命名 07-12 阅读:133 评论:0

一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法
技术领域
1.本发明属于无人机通信技术领域,具体涉及一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法。


背景技术:

2.随着移动通信技术的不断发展,人类迈入了移动互联互通时代。5g的蓬勃发展使人类生活更为便捷与多姿多彩,但同时也使数据传输呈指数级增长,目前广泛开展的5g相关技术已无法满足新兴业务对现用通信性能的需求。因此,加快未来通信网络技术的研究正日益引起工业界和学术界重视。6g网络目前把空天地一体化多接入能力作为一个重要的关键能力,就是以移动通信网络为基础,拓展用户接入方式。
3.无人机在环境监测、灾害管理等领域有着广泛的应用。多架无人机组成的自组网更能有效、经济的完成任务。而随着无人机技术的迅猛发展,无人机通信网络将成为6g空天地一体化网络融合的关键组成部分,在战场侦察、野外救援和物联网信息传输等民用和军用领域发挥重要作用。
4.邻节点发现是发现相邻节点和构建无人机网络拓扑的关键步骤,利用所构造的拓扑,可以设计无人机网络和路由方案。传统的邻节点发现方法是将广播分组时间间隔设置为常数,即每间隔固定的时间间隔向周围节点发送本节点的状态信息。但是由于无人机的三维部署和高移动性,相对位置在不断变化,固定的广播分组时间间隔不能适应无人机自组网高移动性的特征。另外,广播时间间隔过短,会增大系统开销;而广播时间间隔过长,则会遗漏邻节点,使得发现精度大大降低。
5.现有的技术中有基于q-learning的无人机邻节点发现方法,通过不断检测发现邻节点数量来调整节点自身状态,改变信标消息发送间隔,从而尽可能的发现所有邻居节点。但是这种方法不适合无人机网络的高动态性,其状态空间会较大,而且q-learning算法在训练中需要离散化问题,导致学习最优策略速度很慢。并且现有的无人机邻节点发现方法均未考虑到当两个或两个以上的节点同时广播发现消息时,信道发生冲突的情况,减小了邻节点发现的精度。


技术实现要素:

6.为了解决现有技术中存在的上述问题,本发明提供了一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法。本发明要解决的技术问题通过以下技术方案实现:
7.一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法,包括以下步骤:
8.步骤一,构建无人机网络的初始系统模型;其中,初始系统模型中包括多个网络节点、随机从所述网络节点中选取的多个参考节点以及通信信道;
9.步骤二,采用二维马尔科夫链对csma/ca协议的二元指数退避算法计算每个所述
参考节点竞争信道成功并成功发送信息的概率ps;
10.步骤三,根据竞争信道成功并成功发送信息的概率ps设置dqn网络的状态、根据发送信标消息的常数广播间隔设置dqn网络的动作并根据无人机邻节点发现奖励和信标消息发送次数奖励构建dqn网络的奖励函数;
11.步骤四,基于所述状态、所述动作和所述奖励函数对dqn网络进行训练,得到训练后的dqn网络;
12.步骤五,将所述网络节点对应的当前状态输入训练后的dqn网络,输出奖励值最大对应的动作。
13.在本发明的一个实施例中,所述竞争信道成功并成功发送信息的概率ps根据下式计算:
[0014][0015]
其中,
[0016][0017]
pc=1-(1-p
tr
)n,
[0018][0019][0020][0021]
p
tr
表示参考节点竞争信道成功的概率;pc表示信道中发生冲突的概率;pb表示信道在一个时隙内繁忙的概率;pa表示一个参考节点至少有一个数据包等待发送的概率;p
tr0
表示pa=1时,参考节点竞争信道成功的概率;m表示二元指数退避算法允许的最大后退次数;n表示参考节点在某一时刻的真实邻节点数;r表示n个参考节点中至少有一个数据包等待发送的节点的数量;wi表示后退次数为i时的竞争窗口大小;表示二元指数退避算法的所有状态的平均竞争窗口大小;λa表示除hello包外的其他数据包的到达强度。
[0022]
在本发明的一个实施例中,所述状态的表达式为:
[0023]
state=《x,y,z,r,v,ps》;
[0024]
其中,x、y、z分别表示无人机在三维空间中的地理位置,r表示无人机的通信范围,v表示当前时刻无人机的飞行速度;
[0025]
所述动作的表达式为:
[0026]
actions={

τ-0.1,τ,τ+0.1

};
[0027]
其中,τ表示发送信标消息的常数广播间隔;
[0028]
所述奖励函数的表达式为:
[0029][0030]
其中,r
discovery
表示邻节点发现奖励,r
discovery
=(n
r-nd)g,r
overhead
表示信标消息发送次数奖励,r
overhead
=τ',nr表示真实邻节点数目,nd表示发现邻节点数目,τ'表示当前发送信标消息的广播间隔,g是权重因子,α和β均表示常数系数。
[0031]
在本发明的一个实施例中,所述步骤四包括:
[0032]
步骤41,初始化dqn网络的关键参数;
[0033]
步骤42,基于当前状态采用贪心算法选择奖励值最大的动作;
[0034]
步骤43,执行所述奖励值最大的动作并根据奖励函数计算当前奖励值;
[0035]
步骤44,获得新的状态;
[0036]
步骤45,将状态转换结果存储在记忆池中;
[0037]
步骤46,当记忆池中的状态转换结果数量大于记忆池规模时对dqn网络进行训练,得到训练后的dqn网络。
[0038]
在本发明的一个实施例中,所述关键参数包括:记忆池规模d、训练池规模d、dqn网络权重、贪心算法概率ε和状态空间dp。
[0039]
本发明的有益效果:
[0040]
本发明将无人机网络的多业务需求作为邻节点发现的考虑因素,通过多业务竞争模型并基于dqn网络提出无人机邻节点发现方法,本发明中,奖励函数最大值对应的动作也即是最优的发送信标消息的广播间隔,而奖励函数的最大值则对应当无人机发现邻节点的数目最小同时发送信标消息的广播间隔最大,因此,降低了无人机网络系统开销的同时提高了邻节点发现精度。
[0041]
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
[0042]
图1为本发明实施例提供的一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法的流程示意图;
[0043]
图2为本发明实施例提供的一种基于6g空天地一体化网络的无人机网络初始系统示意图。
具体实施方式
[0044]
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
[0045]
如图1和图2所示,一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法,包括以下步骤:
[0046]
步骤一,构建无人机网络的初始系统模型;其中,初始系统模型中包括多个网络节点、随机从网络节点中选取的多个参考节点以及通信信道。
[0047]
本步骤中,网络节点指整个网络中活动的无人机节点,其在空间中的分布满足三维泊松分布,其飞行速度由于飞行任务的不同而不同,通信范围随着信道条件实时变化,竞争信道成功并成功发送信息的概率则随着通信范围内的节点数量而变化,参考节点随机从
网络节点中挑选,同时也是无人机网络中执行任务的普通节点。通信信道是对无人机复杂通信环境的表征。
[0048]
步骤二,采用二维马尔科夫链对csma/ca协议的二元指数退避算法计算每个参考节点竞争信道成功并成功发送信息的概率ps。具体地,竞争信道成功并成功发送信息的概率ps根据下式计算:
[0049][0050]
其中,
[0051][0052]
pc=1-(1-p
tr
)n,
[0053][0054][0055][0056]
p
tr
表示参考节点竞争信道成功的概率;pc表示信道中发生冲突的概率;pb表示信道在一个时隙内繁忙的概率;pa表示一个参考节点至少有一个数据包等待发送的概率;p
tr0
表示pa=1时,参考节点竞争信道成功的概率;m表示二元指数退避算法允许的最大后退次数;n表示参考节点在某一时刻的真实邻节点数;r表示n个参考节点中至少有一个数据包等待发送的节点的数量;wi表示后退次数为i时的竞争窗口大小;表示二元指数退避算法的所有状态的平均竞争窗口大小;λa表示除hello包外的其他数据包的到达强度。联立上述等式,可以解出ps和p
tr

[0057]
步骤三,根据竞争信道成功并成功发送信息的概率ps设置dqn网络的状态、根据发送信标消息的常数广播间隔设置dqn网络的动作并根据无人机邻节点发现奖励和信标消息发送次数奖励构建dqn网络的奖励函数。
[0058]
定义dqn理论中的状态、动作和回报;在dqn算法中,采用神经网络代替q-learning算法中的q表,用于解决大规模连续状态空间中q表占用空间大、计算复杂度高的问题。
[0059]
将无人机邻节点发现问题建模为dqn算法可解决的问题,需要定义状态state、动作action和回报reward。
[0060]
设置状态state的表达式为:
[0061]
state=《x,y,z,r,v,ps》;
[0062]
其中,x、y、z分别表示无人机在三维空间中的地理位置,单位可以根据无人机的移动范围做出更改,可取km或者m为单位,r表示无人机的通信范围,v表示当前时刻无人机的飞行速度;
[0063]
动作action:不同的状态下,所做出的行为即广播间隔的选择,在发送信标消息的常数广播间隔τ的基础上,在该值的左右两侧选择若干间隔数值,从而根据状态的变化做出改变。
[0064]
actions={

τ-0.1,τ,τ+0.1

};
[0065]
其中,τ表示发送信标消息的常数广播间隔;
[0066]
奖励值的设置将会根据在状态state下发现的邻节点无人机的个数来评估,例如,在实际无人机飞行场景中,在某些状态下周围的邻节点无人机数目更多,则需要更加频繁的进行广播,在周围无人机数目较少的时候增大广播间隔,从而实现动态的广播间隔更改。
[0067]
奖励函数的表达式为:
[0068][0069]
其中,r
discovery
表示邻节点发现奖励,r
discovery
=(n
r-nd)g,r
overhead
表示信标消息发送次数奖励,r
overhead
=τ',nr表示真实邻节点数目,nd表示发现邻节点数目,τ'表示当前发送信标消息的广播间隔,g表示权重因子,α和β均表示常数系数。
[0070]
reward:奖励函数为非稀疏奖励函数,包括邻节点发现奖励和信标发送次数奖励两个部分。
[0071]
邻节点发现奖励用于表示无人机发现邻节点的数目,可以使无人机每一个广播间隔的选择都能得到对应的回报,是奖励函数的主要部分之一,对智能体的高效学习具有重要意义。为了计数方便,使用遗漏节点数r
discovery
来表征邻节点发现奖励,遗漏节点数即真实的邻节点数减去发现的邻节点数。真实的邻节点数也即是在发送信标消息的广播间隔内在参考节点通信范围内的节点数。
[0072]
信标发送次数奖励是无人机邻节点发现效率的重要指示部分,能够衡量无人机用于邻节点发现的通信开销。信标发送次数奖励被定义为r
overhead
=τ',其中τ'表征通信开销,其值越小,说明越频繁地发送信标消息,则通信开销越大,反之则通信开销越小。
[0073]
步骤四,基于状态、动作和奖励函数对dqn网络进行训练,得到训练后的dqn网络。具体地,步骤四包括步骤41-步骤46:
[0074]
步骤41,初始化dqn网络的关键参数;关键参数包括:记忆池规模d、训练池规模d、dqn网络权重、贪心算法概率ε和状态空间dp。
[0075]
步骤42,基于当前状态采用贪心算法选择奖励值最大的动作;
[0076]
步骤43,执行奖励值最大的动作并根据奖励函数计算当前奖励值;
[0077]
步骤44,获得新的状态;
[0078]
步骤45,将状态转换结果存储在记忆池中;
[0079]
步骤46,当记忆池中的状态转换结果数量大于记忆池规模时对dqn网络进行训练,得到训练后的dqn网络。
[0080]
步骤五,将网络节点对应的当前状态输入训练后的dqn网络,输出奖励值最大对应的动作。本步骤中,在使用dqn网络求解最优广播间隔,基于训练好的dqn网络,求解当前状态下的最大奖励值的动作,对状态进行调整,采取的动作就是最优的发送信标消息的广播间隔。
[0081]
本实施例中,每次取奖励值最大对应的动作,奖励函数的最大值则对应的动作为
当无人机发现邻节点的数目最小同时发送信标消息的广播间隔最大的发送信标消息的广播间隔,也即是使得整个邻节点发现过程精度高且开销低的广播间隔。当确定最优的广播间隔时也即是确定了当前的状态,也即是发现了邻节点。
[0082]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0083]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
[0084]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

技术特征:
1.一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法,其特征在于,包括以下步骤:步骤一,构建无人机网络的初始系统模型;其中,初始系统模型中包括多个网络节点、随机从所述网络节点中选取的多个参考节点以及通信信道;步骤二,采用二维马尔科夫链对csma/ca协议的二元指数退避算法计算每个所述参考节点竞争信道成功并成功发送信息的概率p
s
;步骤三,根据竞争信道成功并成功发送信息的概率p
s
设置dqn网络的状态、根据发送信标消息的常数广播间隔设置dqn网络的动作并根据无人机邻节点发现奖励和信标消息发送次数奖励构建dqn网络的奖励函数;步骤四,基于所述状态、所述动作和所述奖励函数对dqn网络进行训练,得到训练后的dqn网络;步骤五,将所述网络节点对应的当前状态输入训练后的dqn网络,输出奖励值最大对应的动作。2.根据权利要求1所述的一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法,其特征在于,所述竞争信道成功并成功发送信息的概率p
s
根据下式计算:其中,p
c
=1-(1-p
tr
)
n
,,,p
tr
表示参考节点竞争信道成功的概率;p
c
表示信道中发生冲突的概率;p
b
表示信道在一个时隙内繁忙的概率;p
a
表示一个参考节点至少有一个数据包等待发送的概率;p
tr0
表示p
a
=1时,参考节点竞争信道成功的概率;m表示二元指数退避算法允许的最大后退次数;n表示参考节点在某一时刻的真实邻节点数;r表示n个参考节点中至少有一个数据包等待发送的节点的数量;w
i
表示后退次数为i时的竞争窗口大小;表示二元指数退避算法的所有状态的平均竞争窗口大小;λ
a
表示除hello包外的其他数据包的到达强度。3.根据权利要求1所述的一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法,其特征在于,所述状态的表达式为:state=<x,y,z,r,v,p
s
>;
其中,x、y、z分别表示无人机在三维空间中的地理位置,r表示无人机的通信范围,v表示当前时刻无人机的飞行速度;所述动作的表达式为:action
s
={

τ-0.1,τ,τ+0.1

};其中,τ表示发送信标消息的常数广播间隔;所述奖励函数的表达式为:其中,r
discovery
表示邻节点发现奖励,r
discovery
=(n
r-n
d
)
g
,r
overhead
表示信标消息发送次数奖励,r
overhead
=τ',n
r
表示真实邻节点数目,n
d
表示发现邻节点数目,τ'表示当前发送信标消息的广播间隔,g是权重因子,α和β均表示常数系数。4.根据权利要求3所述的一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法,其特征在于,所述步骤四包括:步骤41,初始化dqn网络的关键参数;步骤42,基于当前状态采用贪心算法选择奖励值最大的动作;步骤43,执行所述奖励值最大的动作并根据奖励函数计算当前奖励值;步骤44,获得新的状态;步骤45,将状态转换结果存储在记忆池中;步骤46,当记忆池中的状态转换结果数量大于记忆池规模时对dqn网络进行训练,得到训练后的dqn网络。5.根据权利要求4所述的一种6g空天地一体化网络下基于dqn网络的无人机邻节点发现方法,其特征在于,所述关键参数包括:记忆池规模d、训练池规模d、dqn网络权重、贪心算法概率ε和状态空间dp。

技术总结
本发明公开了一种6G空天地一体化网络下基于DQN网络的无人机邻节点发现方法,包括以下步骤:步骤一,构建无人机网络的初始系统模型;步骤二,采用二维马尔科夫链对CSMA/CA协议的二元指数退避算法计算每个参考节点竞争信道成功并成功发送信息的概率p


技术研发人员:朱丽娜 时一磊 张杰 高泓
受保护的技术使用者:西安电子科技大学
技术研发日:2023.03.16
技术公布日:2023/7/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐