一种基于信息素的强化学习的无人机集群多目标搜索方法
未命名
07-23
阅读:94
评论:0
1.本发明涉及无人机集群多目标搜索技术领域,具体为一种基于信息素的强化学习的无人机集群多目标搜索方法。
背景技术:
2.近年来,无人机在军民两用领域都发挥着至关重要的作用。利用无人机执行侦察任务在众多领域都得到了广泛应用,例如对敌区目标情况进行侦察监视,在公海、沙漠或山区展开搜索营救以及对矿藏的资源勘查等。单架无人机由于续航时间短,可搜索的最大区域面积小,抗干扰能力弱以及载荷有限,因此单架无人机执行目标搜索导致任务失败的概率较大。在单架无人机己经无法满足日趋复杂的任务要求的情形下,多无人机协同搜索作为当下的解决复杂任务的手段而诞生,并成为未来无人机行业的研究热点。多无人机组成集群对重点区域进行协同搜索是一类典型的无人机任务,目的是更好地发现目标和获取情报信息。与单架无人机相比,多无人机协同搜索可以更加高效地完成任务,良好地系统冗余性,搜索侦察区域大以及更加可靠。在无人机协同的研究领域中,区域内多无人机对多目标的协同搜索问题具有较高的实际应用价值,受到了国内外学者的热切关注和广泛研究。
3.在无人机集群协同控制中,当前存在多种多无人机协同搜索方法,比如基于协同任务规划的方法、基于智能优化的方法、基于一致性控制的方法等。但是上述搜索方法大多都是采用先建立数学模型、然后通过数值计算求解可行解的方式实现,会存在以下问题:
4.1:难以精确建模。上述各类搜索方法的搜索性能需要依赖于精确的模型,但是无人机集群多目标搜索问题涉及无人机自身状态、目标状态、多机协作状态、信息交互状态等方面,要实现精确的建模较为困难,同时也难以定量分析各方面对决策的影响,难以支撑上述搜索方法对精确模型的依赖。
5.2:可扩展性不足。问题的状态空间将随无人机的数量及决策步长呈双指数增长,随着无人机集群中节点数量的增加,上述搜索方法将面临状态空间爆炸的问题,致使应用的可扩展性不足。
6.3:求解困难。无人机执行环境是实时变化的,无人机需要实时进行决策,同时无人机集群通常规模较大,这会使得上述搜索方法要实现快速求解异常困难。
7.3.1:可求解性。在无人机集群中,大量无人机通过相互协作进行决策,状态空间的规模将随无人机的数量及决策步长呈双指数增长,因而在无人机集群控制中,如何求解大规模分布式决策问题是关键也是难点问题之一。
8.3.2:不确定性。在目标搜索的应用中,关于目标的数量、分布、运动状态等先验知识往往较少或者可能难以获得,同时传感器的探测也会存在着噪声和误差,均会造成不确定性。上述不确定性不仅会增加问题计算难度,同时还会严重影响搜索的有效性及稳定性。现有技术中大多对目标分布及传感器探测成功率是采用概率分布模型进行假设,但是,当概率分布模型改变时,该类方法将难以适用。
9.目前较为先进的方法是将人工智能的技术应用到无人机集群多目标搜索中,针对
以往的传统计算优化方法,采用深度强化学习技术方法简单,计算复杂程度降低,鲁棒处理能力提高,搜索效率随之提高,能够比较高效的实现无人机集群多目标分布式协同搜索。
10.基于深度强化学习方法,不仅能够具备有效降低问题求解规模的能力,使得可以快速、有效的处理无人机间交互协调,而且还具备对信息不确定性的鲁棒处理能力,充分结合深度强化学习方法实现无人机集群对多目标分布式协同搜索,即控制无人机集群协同、协作的完成多目标的搜索。
11.但是目前该方法存在以下问题:
12.1:奖励设计复杂。在强化学习中,智能体的目标被形式化表征为一种特殊信号,称为奖励,它通过环境传递给智能体。在每个时刻,奖励都是一个单一标量数值。智能体的目标是最大化其收到的总奖励。这意味着需要最大化的不是当前奖励,而是长期的累计奖励。但是设计这样的奖励函数,工程师不仅需要懂得强化学习领域的知识,也需要懂得无人机、运动学等领域的知识。而且,有这些知识也未必能设计出很好的奖励函数供智能体学习。因此如果如果有一种简单实用的奖励函数自动设计方式可以完成任务,就不需要费心去设计负责的奖励函数了。
13.2:在各种地图尺寸、高密度障碍物情况下,自适应性较差。
14.3:在独立强化学习中,多智能体集群直接使用单智能体算法,每个智能体独立学习自己的策略,将其他智能体视为环境的一部分,由于环境不再是静态的,会使得策略的学习变得无效,且智能体之间信息交流以及通信不足,当较多智能体同时工作时易产生维度爆炸的局限性,使得训练过程慢,奖励收敛慢或者难以收敛。
技术实现要素:
15.(一)解决的技术问题
16.针对现有技术的不足,本发明了一种基于信息素的强化学习的无人机集群多目标搜索方法,具备无人机集群多目标搜索速度大幅度提升的优点,加强了多智能体之间的通信和协作能力,解决了在深度强化学习中人为设计奖励函数困难的问题,以及多智能体同时工作时易产生维度爆炸的局限性。
17.(二)技术方案
18.为实现上述无人机集群的目标搜索速度大幅度提升优点,本发明提供如下技术方案:一种基于信息素的强化学习的无人机集群多目标搜索方法,包括以下步骤:
19.s1、目标建模
20.对无人机集群多目标搜索进行建模,构建包括集群决策模型、无人机局部视野大小以及地面目标的运动学模型、集群中无人机配置共用一个神经网络模型,并构建无人机输入状态与输出动作之间的映射关系。
21.s2、设置信息素种类
22.信息素释放以及衰减条件和参数,将智能体所处的位置上的信息素浓度作为智能体的奖励,从而驱动并使得智能体根据信息素浓度做出相应的决策。
23.s3、多目标搜索
24.集群中无人机使用共同的神经网络模型,将各无人机的观测数据分别输入神经网络当中,神经网络根据各无人机当前的情况输出动作,从而获取所需的执行动作,与环境进
行交互,生成历史信息并进行存储。
25.s4、搜索深度强化学习模型
26.采用d3qn(dueling double deep q-learning network)的深度强化学习算法,以及信息素协同机制的启发式奖励;获取智能体集群历史信息,所述历史信息包括历史状态信息以及历史决策信息,利用智能体集群历史信息对神经网络进行训练更新,神经网络的优化目标为获得最优的智能体目标搜索策略。
27.优选的,所述在s1、步骤中,使用python生成全局栅格地图、一定数量的智能体、初始位置范围、多个目标位置范围以及障碍物范围。栅格地图中,栅格数量可以设置为20x20个的环境。
28.优选的,所述在s1、步骤中,所述神经网络包括3层,各层依次连接,其中第一层为线性层,用于输入无人机对周围环境的局部观测数据,第二层为线性层,用于对所述观测数据全连接层的特征提取,第三层为两层全连接层,对所述第二层的数据,分别输入第三层两个全连接层之后计算v值和a值,最后通过v值和a值计算得到的q值选择目标动作。
29.优选的,所述在s1、步骤中,所述第一层中采用特征表示的方式将输入数据表示为固定长度,当无人机的局部观测视野大小为3x3时,表示,以无人机的所在的位置为中心,形成3x3大小的正方形的网格,为无人机的观测视野s,其观测数据的长度为10,观测环境中的位置上,用0表示无其他物体,1表示该位置存在其他无人机,2表示障碍物和边界外的信息,3表示目标位置。
30.优选的,所述在s1、步骤中,前9个数值表示无人机对当前环境下的观测状态,最后一个数值表示的是无人机当前状态下的信息素浓度,该数值取值范围为[-4,4],当信息素的数值为[-4,0)时表示标志信息素,标志信息素遇到障碍物时会进行释放,表示该地存在一定的危险性,当信息的数值为[0,4]时表示聚集信息素,在整个无人机搜索过程中均会进行释放,浓度越大,表明该地越接近目标,无人机越往该处聚集。
[0031]
某一时刻某一无人机的观测状态可以为:
[0032]
s=[0,0,0,1,2,1,0,0,3,2.3],其中,2.3表示智能体在当前位置下的信息素浓度和。
[0033]
进一步的,无人机的动作空间维度为5,上、下、左、右以及悬停。
[0034]
优选的,所述在s2、步骤中,初始化化环境中两种信息素的分布地图。环境中存在两种信息素,聚集信息素c和标志信息素m,聚集信息素是当无人机每次采取动作之后释放一定数量的聚集信息素cg,该信息素按照扩散速率cd进行扩散,并按照cy的速率进行衰减;当智能体遇到障碍物时会释放一定量标志信息素的mg,该信息素按照md的速率扩散,并按照my的速率进行衰减。其中cd,cy,md,my∈[0,1]
[0035]
当智能体处于该位置时,该位置上的信息素为p:
[0036][0037]
该公式中c(t)表示在无人机在t时刻处于该位d置时的聚集信息素的浓度,c(t+1)表示无人机在该位置执行完动作之后的聚集信息素浓度,其中co表示t时刻其他位置的聚集信息素在该位置的扩散值。
[0038][0039]
该公式中m(t)表示无人机在t时刻处于该位置时的标志信息素的浓度,m(t+1)表示无人机在该位置执行完动作之后的标志信息素浓度,其中m0表示t时刻其他位置的标志信息素在该位置的扩散值。
[0040]
所以在t时刻,当智能体处于该位置时,信息素的浓度p(t)=c(t)+m(t),且信息素在某一时刻只能释放一种信息素。无人机根据当前环境决定释放哪种信息素。
[0041]
所以,在t时刻智能体的启发式奖励可以根据信息素的浓度信息来设置
[0042]
r(t)=p(t),智能体根据当前环境下的信息素种类和浓度做出决策,选择出合适的动作。
[0043]
优选的,所述在s3.1、步骤中,初始化共享经验池d,设置共享经验池的大小为n,利用随机权值θ初始化无人机集群的共享网络模型。在对目标进行协同搜索过程中,无人机依据各所感知到的局部环境,以及自身位置的信息素浓度作为行动引导进行后续的移动;由于采用分布式的执行,中心化训练的方式,没有中心节点,每个无人机无法进行全局信息素感知,只能感知到部分信息,通过当前位置信息素的局部交互实现全局信息的间接协调感知,在s3.2、步骤中,循环执行每个episode,episode范围为[1,n],n为总的episode数量,对无人机集群中的每一个智能体,将各自的局部观测值已经自身位置的信息素浓度组成一个数组作为当前状态s,并输入到共享的决策模型中,在s3.3、步骤中,循环当前episode的每个时间步t,t的取值范围为[1,t],t为最大实验次数。在当前时间步t,对于每个智能体i,依据贪婪策略ε选择随机动作a(t),若小概率事件没有发生,则用ε-greedy贪婪策略选择当前值函数最大的动作:
[0044]
a(t)=argmax
a q(si(t),a;θ)。其中,si(t)表示在时间步t智能体i的状态,a为可选的动作,θ为动作行为值函数q(
·
)权值,在s3.4、步骤中,当无人机集群在时间t执行完a
t
动作之后,更新每个无人机当前环境下的信息素含量,目的是在环境中留下信息素,为后续的无人机到达该位置提供信息,并作为启发式奖励驱动智能体做出决策,在s3.5、步骤中,在当前时间步,无人机i从环境中获取局部观测信息si(t),通过si(t)输入共享决策模型获得到执行动作ai(t),将ai(t)和环境进行交互之后获得到新的状态si(t+1),且从环境中获得到基于信息素的启发式奖励pi(t),已经是否结束训练的信息donei(t),将所有无人机在时间t下的经验数据
[0045]
(si(i),ai(t),si(i+1),pi(t),donei(i))
[0046]
存放到经验池d中。
[0047]
优选的,所述在s4、步骤中,从经验池中随机抽取容量为batch的数据样本,(s
t
,a
t
,s
t+1
,p
t
,done
t
),输入共享决策模型中进行训练。在模型中第三层使用的是dueling network,其中状态价值函数为v,adv是优势函数adv(s,a),
[0048][0049]
采用的状态动作价值函数为:
[0050][0051]
采用d3qn(dueling double deep q-learning network)的网络权重更新方法对网络进行权值更新,具体采用评价网络和目标网络双网络结构,分别为qe(s,a,θ)和q
t
(s
′
,α
′
,θ
′
),其中分别是评价网络的状态,动作和网络权值,s
′
,a
′
,θ
′
分别是
[0052]
目标网络的状态,动作和网络权值。评价网络和目标网络的网络结构设设计;共享网络权值更新时,具体定义损失函数为:
[0053][0054]
其中γ为折扣因子且为预先设置的超参数,随后采用梯度更新的方法,对评价网络的网络权值进行更新:其中α是学习率,为预先设置的超参数。目标网络的权值更新:
[0055]
θ
′
=τθ+(1-τ)θ
′
[0056]
其中,τ∈(0,1),采用的是软更新策略,τ为软更新率,预先设置的超参数。
[0057]
通过采用基于双网络结构的d3qn网络权值更新方法对无人机的神经网络模型进行参数更新,能够结合各无人机的实时动作快速、有效的实现网络参数更新,从而确保无人机集群系统的协同。
[0058]
(三)有益效果
[0059]
与现有技术相比,本发明提供了一种基于信息素的强化学习的无人机集群多目标搜索方法,具备以下有益效果:
[0060]
1、该基于信息素的强化学习的无人机集群多目标搜索方法,通过信息素机制,避免了在强化学习中人为设置复杂的奖励函数。
[0061]
2、该基于信息素的强化学习的无人机集群多目标搜索方法,通过信息素机制,加强了智能体之间的通信和协作能力。
[0062]
3、该基于信息素的强化学习的无人机集群多目标搜索方法,通过使用分布式与环境交互,中心化共同训练的方式,通过信息
[0063]
4、素提供的启发式奖励,使得无人机集群的目标搜索速度大幅度提升。
[0064]
5、无人机搜索的环境复杂度可以设置不同的难度和大小,且可以设置不同数量的无人机,比如从10-10000均能实验,并且有良好的效果,解决了环境鲁棒性问题,同时解决了多智能中随着智能体数量增加而产生维度爆炸的问题。
附图说明
[0065]
图1为本发明网络结构示意图;
[0066]
图2为本发明交互过程示意图;
[0067]
图3为本发明正方形网格环境示意图。
具体实施方式
[0068]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0069]
请参阅图1-3,本发明提供一种技术方案:一种基于信息素的强化学习的无人机集群多目标搜索方法,包括以下步骤:
[0070]
一种基于信息素的强化学习的无人机集群多目标搜索方法,其特征在于,包括以下步骤:
[0071]
s1、目标建模
[0072]
对无人机集群多目标搜索进行建模,构建包括集群决策模型、无人机局部视野大小以及地面目标的运动学模型、集群中无人机配置共用一个神经网络模型,并构建无人机输入状态与输出动作之间的映射关系。
[0073]
s2、设置信息素种类
[0074]
信息素释放以及衰减条件和参数,将智能体所处的位置上的信息素浓度作为智能体的奖励,从而驱动并使得智能体根据信息素浓度做出相应的决策。
[0075]
s3、多目标搜索
[0076]
集群中无人机使用共同的神经网络模型,将各无人机的观测数据分别输入神经网络当中,神经网络根据各无人机当前的情况输出动作,从而获取所需的执行动作,与环境进行交互,生成历史信息并进行存储。
[0077]
s4、搜索深度强化学习模型
[0078]
采用d3qn(dueling double deep q-learning network)的深度强化学习算法,以及信息素协同机制的启发式奖励;获取智能体集群历史信息,所述历史信息包括历史状态信息以及历史决策信息,利用智能体集群历史信息对神经网络进行训练更新,神经网络的优化目标为获得最优的智能体目标搜索策略。
[0079]
使用python生成全局栅格地图、一定数量的智能体、初始位置范围、多个目标位置范围以及障碍物范围。栅格地图中,栅格数量可以设置为20x20个的环境,神经网络包括3层,各层依次连接,其中第一层为线性层,用于输入无人机对周围环境的局部观测数据,第二层为线性层,用于对所述观测数据全连接层的特征提取,第三层为两层全连接层,对所述第二层的数据,分别输入第三层两个全连接层之后计算v值和a值,最后通过v值和a值计算得到的q值选择目标动作,所述第一层中采用特征表示的方式将输入数据表示为固定长度,当无人机的局部观测视野大小为3x3时,表示,以无人机的所在的位置为中心,形成3x3大小的正方形的网格,为无人机的观测视野s,其观测数据的长度为10,观测环境中的位置上,用0表示无其他物体,1表示该位置存在其他无人机,2表示障碍物和边界外的信息,3表示目标位置,前9个数值表示无人机对当前环境下的观测状态,最后一个数值表示的是无人机当前状态下的信息素浓度,该数值取值范围为[-4,4],当信息素的数值为[-4,0)时表示标志信息素,标志信息素表示该地存在一定的危险性,当信息的数值为[0,4]时表示聚集信息素,在整个无人机搜索过程中均会进行释放,浓度越大,表明该地越接近目标,无人机聚集的越多。某一时刻某一无人机的观测状态可以为:
[0080]
s=[0,0,0,1,2,1,0,0,3,2.3],其中,2.3表示智能体在当前位置下的信息素浓度和。
[0081]
进一步的,无人机的动作空间维度为5,上、下、左、右以及悬停。
[0082]
初始化化环境中两种信息素的分布地图。环境中存在两种信息素,聚集信息素c和标志信息素m,聚集信息素是当无人机每次采取动作之后释放一定数量的聚集信息素cg,该信息素按照扩散速率cd进行扩散,并按照cy的速率进行衰减;当智能体遇到障碍物时会释放一定量标志信息素的mg,该信息素按照md的速率扩散,并按照my的速率进行衰减。其中cd,cy,md,my∈[0,1]
[0083]
当智能体处于该位置时,该位置上的信息素为p:
[0084][0085]
该公式中c(t)表示在无人机在t时刻处于该位d置时的聚集信息素的浓度,c(t+1)表示无人机在该位置执行完动作之后的聚集信息素浓度,其中co表示t时刻其他位置的聚集信息素在该位置的扩散值。
[0086][0087]
该公式中m(t)表示无人机在t时刻处于该位置时的标志型信息素的浓度,m(t+1)表示无人机在该位置执行完动作之后的标志信息素浓度,其中m0表示t时刻其他位置的标志信息素在该位置的扩散值。
[0088]
所以在t时刻,当智能体处于该位置时,信息素的浓度p(t)=c(t)+m(t),且信息素在某一时刻只能释放一种信息素。无人机根据当前环境决定释放哪种信息素。
[0089]
所以,在t时刻智能体的启发式奖励可以根据信息素的浓度信息来设置
[0090]
r(t)=p(t),智能体根据当前环境下的信息素种类和浓度做出决策,选择出合适的动作。
[0091]
初始化共享经验池d,设置共享经验池的大小为n,利用随机权值θ初始化无人机集群的共享网络模型。在对目标进行协同搜索过程中,无人机依据各所感知到的局部环境,以及自身位置的信息素浓度作为行动引导进行后续的移动;由于采用分布式的执行,中心化训练的方式,没有中心节点,每个无人机无法进行全局信息素感知,只能感知到部分信息,通过当前位置信息素的局部交互实现全局信息的间接协调感知,在s3.2、步骤中,循环执行每个episode,episode范围为[1,n],n为总的episode数量,对无人机集群中的每一个智能体,将各自的局部观测值已经自身位置的信息素浓度组成一个数组作为当前状态s,并输入到共享的决策模型中,在s3.3、步骤中,循环当前episode的每个时间步t,t的取值范围为[1,t],t为最大实验次数。在当前时间步t,对于每个智能体i,依据贪婪策略ε选择随机动作a(t),若小概率事件没有发生,则用ε-greedy贪婪策略选择当前值函数最大的动作:
[0092]
a(t)=argmax
a q(si(t),a;θ)。其中,si(t)表示在时间步t智能体i的状态,a为可选的动作,θ为动作行为值函数q(
·
)权值,在s3.4、步骤中,当无人机集群在时间t执行完a
t
动作之后,更新每个无人机当前环境下的信息素含量,目的是在环境中留下信息素,为后续的无人机到达该位置提供信息,并作为启发式奖励驱动智能体做出决策,在s3.5、步骤中,在当前时间步,无人机i从环境中获取局部观测信息si(t),通过si(t)输入共享决策模型获
得到执行动作ai(t),将ai(t)和环境进行交互之后获得到新的状态si(t+1),且从环境中获得到基于信息素的启发式奖励pi(t),已经是否结束训练的信息donei(t),将所有无人机在时间t下的经验数据
[0093]
(si(t),ai(t),si(t+1),pi(t),donei(t))
[0094]
存放到经验池d中
[0095]
从经验池中随机抽取容量为batch的数据样本,(s
t
,a
t
,s
t+1
,p
t
,done
t
),输入共享决策模型中进行训练。在模型中第三层使用的是dueling network,其中状态价值函数为v,adv是优势函数adv(s,a),
[0096][0097]
采用的状态动作价值函数为:
[0098][0099]
采用d3qn(dueling double deep q-learning network)的网络权重更新方法对网络进行权值更新,具体采用评价网络和目标网络双网络结构,分别为qe(s,a,θ)和q
t
(s
′
,a
′
,θ
′
),其中分别是评价网络的状态,动作和网络权值,s
′
,a
′
,θ
′
分别是
[0100]
目标网络的状态,动作和网络权值。评价网络和目标网络的网络结构设设计;共享网络权值更新时,具体定义损失函数为:
[0101][0102]
其中γ为折扣因子且为预先设置的超参数,随后采用梯度更新的方法,对评价网络的网络权值进行更新:其中α是学习率,为预先设置的超参数。目标网络的权值更新:
[0103]
θ
′
=τθ+(1-τ)θ
′
[0104]
其中,τ∈(0,1),采用的是软更新策略,τ为软更新率,预先设置的超参数。
[0105]
通过采用基于双网络结构的d3qn网络权值更新方法对无人机的神经网络模型进行参数更新,能够结合各无人机的实时动作快速、有效的实现网络参数更新,从而确保无人机集群系统的协同。
[0106]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于信息素的强化学习的无人机集群多目标搜索方法,其特征在于,包括以下步骤:s1、目标建模对无人机集群多目标搜索进行建模,构建包括集群决策模型、无人机局部视野大小以及地面目标的运动学模型、集群中无人机配置共用一个神经网络模型,并构建无人机输入状态与输出动作之间的映射关系;s2、设置信息素种类信息素释放以及衰减条件和参数,将智能体所处的位置上的信息素浓度作为智能体的奖励,从而驱动并使得智能体根据信息素浓度做出相应的决策;s3、多目标搜索集群中无人机使用共同的神经网络模型,将各无人机的观测数据分别输入神经网络当中,神经网络根据各无人机当前的情况输出动作,从而获取所需的执行动作,与环境进行交互,生成历史信息并进行存储;s4、搜索深度强化学习模型采用d3qn(dueling double deep q-learning network)的深度强化学习算法,以及信息素协同机制的启发式奖励;获取智能体集群历史信息,所述历史信息包括历史状态信息以及历史决策信息,利用智能体集群历史信息对神经网络进行训练更新,神经网络的优化目标为获得最优的智能体目标搜索策略。2.根据权利要求1所述的一种基于信息素的强化学习的无人机集群多目标搜索方法,其特征在于,所述在s1、步骤中,使用python生成全局栅格地图、一定数量的智能体、初始位置范围、多个目标位置范围以及障碍物范围。栅格地图中,栅格数量可以设置为20x20个的环境。3.根据权利要求1所述的一种基于信息素的强化学习的无人机集群多目标搜索方法,其特征在于,所述在s1、步骤中,所述神经网络包括3层,各层依次连接,其中第一层为线性层,用于输入无人机对周围环境的局部观测数据,第二层为线性层,用于对所述观测数据全连接层的特征提取,第三层为两层全连接层,对所述第二层的数据,分别输入第三层两个全连接层之后计算v值和a值,最后通过v值和a值计算得到的q值选择目标动作。4.根据权利要求1所述的一种基于信息素的强化学习的无人机集群多目标搜索方法,其特征在于,所述在s1、步骤中,所述第一层中采用特征表示的方式将输入数据表示为固定长度,当无人机的局部观测视野大小为3x3时,表示,以无人机的所在的位置为中心,形成3x3大小的正方形的网格,为无人机的观测视野s,其观测数据的长度为10,观测环境中的位置上,用0表示无其他物体,1表示该位置存在其他无人机,2表示障碍物和边界外的信息,3表示目标位置。5.根据权利要求1所述的一种基于信息素的强化学习的无人机集群多目标搜索方法,其特征在于,所述在s1、步骤中,前9个数值表示无人机对当前环境下的观测状态,最后一个数值表示的是无人机当前状态下的信息素浓度,该数值取值范围为[-4,4],当信息素的数值为[-4,0)时表示标志信息素,标志信息素遇到障碍物时会进行释放,表示该地存在一定的危险性,当信息的数值为[0,4]时表示聚集信息素,在整个无人机搜索过程中均会进行释放,浓度越大,表明该地越接近目标,无人机越往该处搜索。
某一时刻某一无人机的观测状态可以为:s=[0,0,0,1,2,1,0,0,3,2.3],其中,2.3表示智能体在当前位置下的信息素浓度和。进一步的,无人机的动作空间维度为5,上、下、左、右以及悬停。6.根据权利要求1所述的一种基于信息素的强化学习的无人机集群多目标搜索方法,其特征在于,所述在s2、步骤中,初始化环境中两种信息素的分布地图。环境中存在两种信息素,聚集信息素c和标志信息素m,聚集信息素是当无人机每次采取动作之后释放一定数量的聚集信息素c
g
,该信息素按照扩散速率c
d
进行扩散,并按照c
y
的速率进行衰减;当智能体遇到障碍物时会释放一定量的标志信息素m
g
,该信息素按照m
d
的速率扩散,并按照m
y
的速率进行衰减。其中c
d
,c
y
,m
d
,m
y
∈[0,1]当智能体处于该位置时,该位置上的信息素为p:该公式中c(t)表示在无人机在t时刻处于该位置d时的聚集信息素的浓度,c(t+1)表示无人机在该位置执行完动作之后的聚集信息素浓度,其中c
o
表示t时刻其他位置的聚集信息素在该位置的扩散值。该公式中m(t)表示无人机在t时刻处于该位置时的标志型信息素的浓度,m(t+1)表示无人机在该位置执行完动作之后的标志信息素浓度,其中m0表示t时刻其他位置的标志信息素在该位置的扩散值。所以在t时刻,当智能体处于该位置时,信息素的浓度p(t)=c(t)+m(t),且信息素在某一时刻只能释放一种信息素。无人机根据当前环境决定释放哪种信息素。所以,在t时刻智能体的启发式奖励可以根据信息素的浓度信息来设置r(t)=p(t),智能体根据当前环境下的信息素种类和浓度做出决策,选择出合适的动作。7.根据权利要求1所述的一种基于信息素的强化学习的无人机集群多目标搜索方法,其特征在于,所述在s3.1、步骤中,初始化共享经验池d,设置共享经验池的大小为n,利用随机权值θ初始化无人机集群的共享网络模型。在对目标进行协同搜索过程中,无人机依据各所感知到的局部环境,以及自身位置的信息素浓度作为行动引导进行后续的移动;由于采用分布式的执行,中心化训练的方式,没有中心节点,每个无人机无法进行全局信息素感知,只能感知到部分信息,通过当前位置信息素的局部交互实现全局信息的间接协调感知,在s3.2、步骤中,循环执行每个episode,episode范围为[1,n],n为总的episode数量,对无人机集群中的每一个智能体,将各自的局部观测值以及自身位置的信息素浓度组成一个数组作为当前状态s,并输入到共享的决策模型中,在s3.3、步骤中,循环当前episode的每个时间步t,t的取值范围为[1,t],t为最大实验次数。在当前时间步t,对于每个智能体i,依据贪婪策略ε选择随机动作a(t),若小概率事件没有发生,则用ε-greedy贪婪策略选择当前值函数最大的动作:
a(t)=argmax
a
q(s
i
(t),a;θ)。其中,s
i
(t)表示在时间步t智能体i的状态,a为可选的动作,θ为动作行为值函数q(
·
)权值,在s3.4、步骤中,当无人机集群在时间t执行完a
t
动作之后,更新每个无人机当前环境下的信息素含量,目的是在环境中留下信息素,为后续的无人机到达该位置提供信息,并作为启发式奖励驱动智能体做出决策,在s3.5、步骤中,在当前时间步,无人机i从环境中获取局部观测信息s
i
(t),通过s
i
(t)输入共享决策模型获得到执行动作a
i
(t),将a
i
(t)和环境进行交互之后获得到新的状态s
i
(t+1),且从环境中获得到基于信息素的启发式奖励p
i
(t),以及是否结束训练的信息done
i
(t),将所有无人机在时间t下的经验数据(s
i
(t),a
i
(t),s
i
(t+1),p
i
(t),done
i
(t))存放到经验池d中。8.根据权利要求1所述的一种基于信息素的强化学习的无人机集群多目标搜索方法,其特征在于,所述在s4、步骤中,从经验池中随机抽取容量为batch的数据样本,(s
t
,a
t
,s
t+1
,p
t
,done
t
),输入共享决策模型中进行训练。在模型中第三层使用的是dueling network,其中状态价值函数为v,adv是优势函数adv(s,a),采用的状态动作价值函数为:采用d3qn(dueling double deep q-learning network)的网络权重更新方法对网络进行权值更新,具体采用评价网络和目标网络双网络结构,分别为q
e
(s,a,θ)和q
t
(d
′
,a
′
,θ
′
),其中s,a,θ分别是目标网络的状态,动作和网络权值,s
′
,a
′
,θ
′
分别是目标网络的状态,动作和网络权值。评价网络和目标网络的网络结构设设计;共享网络权值更新时,具体定义损失函数为:其中γ为折扣因子且为预先设置的超参数,随后采用梯度更新的方法,对评价网络的网络权值进行更新:其中α是学习率,为预先设置的超参数。目标网络的权值更新:θ
′
=τθ+(1-τ)θ
′
其中,τ∈(0,1),采用的是软更新策略,τ为软更新率,预先设置的超参数。通过采用基于双网络结构的d3qn网络权值更新方法对无人机的神经网络模型进行参数更新,能够结合各无人机的实时动作快速、有效的实现网络参数更新,从而确保无人机集群系统的协同。
技术总结
本发明涉及无人机集群多目标搜索技术领域,且公开了一种基于信息素的强化学习的无人机集群多目标搜索方法。该基于信息素的强化学习的无人机集群多目标搜索方法,提供一种无人工奖励设计、实现方法简单、计算复杂程度低、通信能力强、鲁棒处理能力强、搜索效率高以及训练收敛速度快的基于信息素的强化学习的无人机集群多目标搜索方法,能够高效的实现无人机多目标的协同搜索。通过信息素机制,避免了在强化学习中人为设置复杂的奖励函数,通过信息素机制,加强了智能体之间的通信和协作能力,通过使用分布式与环境交互,中心化共同训练的方式,通过信息素提供的启发式奖励,使得无人机集群的目标搜索速度大幅度提升。机集群的目标搜索速度大幅度提升。机集群的目标搜索速度大幅度提升。
技术研发人员:唐伟轩 李志鹏 庾用杰 曾庆鑫 朱文杰
受保护的技术使用者:广州大学
技术研发日:2023.03.08
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:面向流水线并行训练的调度策略确定方法及系统与流程 下一篇:一种约束装置的制作方法
