无人车路径规划方法、装置、设备及存储介质

未命名 10-18 阅读：100 评论：0

1.本发明涉及路径规划技术领域，尤其涉及一种无人车路径规划方法、装置、设备及存储介质。

背景技术：

2.采用传统的蝴蝶优化算法来求解无人车路径规划问题时，容易导致出现规划代价高、精度差和陷入局部最优的不足。

技术实现要素：

3.本发明的主要目的在于提供一种无人车路径规划方法、装置、设备及存储介质，旨在解决现有技术中采用传统的蝴蝶优化算法求解无人车路径规划问题时导致规划代价高、精度差以及陷入局部最优的技术问题。
4.为实现上述目的，本发明提供了一种无人车路径规划方法，所述方法包括以下步骤：
5.s10、初始化参数，其中，所述参数包括算法参数和模型参数，所述算法参数为q学习蝴蝶优化算法的相关参数，所述模型参数为无人车路径规划模型的相关参数；
6.s20、建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标；
7.s30、基于随机生成n个蝴蝶个体建立初始种群；
8.s40、基于所述模型参数、所述障碍物坐标、所述无人车起点坐标以及所述无人车终点坐标，计算所述初始种群中各种群个体的路径代价，并确定全局最优个体；
9.s50、根据所述算法参数中的切换概率确定各种群个体对应的新路径；
10.s60、根据所述新路径确定新全局最优个体；
11.s70、判断当前迭代次数是否等于最大迭代次数；
12.s80、若否，则将所述新全局最优个体作为步骤s40中的全局最优个体之后，重复执行步骤s40-s80；若是，则将所述新全局最优个体作为输出全局最优个体，并根据所述输出全局最优个体确定无人车最优路径。
13.可选地，所述根据所述算法参数中的切换概率确定各种群个体对应的新路径，包括：
14.生成各种群个体的随机值；
15.判断所述随机值是否小于所述切换概率；
16.若是，则利用q学习全局搜索机制更新种群个体的路径，得到新路径，其中，所述q学习全局搜索机制为基于q学习机制对boa算法的全局搜索过程改进得到的；
17.若否，则利用q学习优化惯性权重的局部开发机制更新种群个体的路径，得到新路径，其中，所述q学习优化惯性权重的局部开发机制为基于q学习机制对boa算法的局部开发过程改进得到的。
18.可选地，利用q学习全局搜索机制更新各种群个体的路径，得到新路径，包括：
19.s5031、定义第一状态集合和第一动作集合，其中，所述第一状态集合包括第一全局状态、第二全局状态以及第三全局状态，所述第一动作集合包括第一全局动作、第二全局动作以及第三全局动作；
20.s5032、根据所述第一状态集合以及所述第一动作集合，生成种群个体的第一q表，其中，所述第一q表中存储有状态-动作组合对应的期望奖励；
21.s5033、确定种群个体的第一状态以及第一选择动作，其中，所述第一选择动作为以p的概率从所述第一动作集合中随机选择的动作和以1-p的概率选择第一最大动作，所述第一最大动作为所述第一q表中具有最大期望奖励对应的动作，所述p的概率为切换概率；
22.s5034、确定种群个体在所述第一状态下执行所述第一选择动作时的新期望奖励，并根据所述新期望奖励更新所述第一q表；
23.s5035、根据所述第一选择动作更新种群个体的路径，得到更新路径；
24.s5036、判断第一迭代次数是否等于第一预设迭代次数；
25.s5037、若否，则在基于所述更新路径重新确定步骤s5033中的第一状态，以及基于更新之后的第一q表重新确定步骤s5033中第一选择动作之后，重复执行步骤s5033-s5037；若是，则将所述更新路径作为所述新路径。
26.可选地，所述确定种群个体的第一状态，包括：
27.确定种群个体的先前路径代价和当前路径代价，其中，所述先前路径代价为根据所述种群个体在先前时刻下对应的路径确定，所述当前路径代为根据所述种群个体在当前时刻下对应的路径确定；
28.将所述先前路径代价与所述当前路径代价进行比较，得到第一比较结果；
29.基于所述第一比较结果，从所述第一状态集合中确定所述种群个体的第一状态。
30.可选地，利用q学习优化惯性权重的局部开发机制更新各种群个体的路径，得到新路径，包括：
31.s5041、定义第二状态集合和第二动作集合，其中，所述第二状态集合包括第一局部状态、第二局部状态、第三局部状态以及第四局部状态，所述第二动作集合包括第一局部动作、第二局部动作、第三局部动作以及第四局部动作；
32.s5042、根据所述第二状态集合以及所述第二动作集合，生成种群个体的第二q表；
33.s5043、根据种群个体的路径代价将所述初始种群划分为子种群，其中，所述子种群包括精英种群、第一普通种群、第二普通种群以及劣等种群；
34.s5044、确定各子种群的第二状态以及确定各子种群中种群个体的第二选择动作，其中，所述第二选择动作为以p的概率从所述第二动作集合中随机选择的动作和以1-p的概率选择第二最大动作，所述第二最大动作为所述第二q表中具有最大期望奖励对应的动作，所述p的概率为切换概率；
35.s5045、确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表；
36.s5046、根据所述第二选择动作更新各种群个体的路径，得到更新路径；
37.s5047、判断第二迭代次数是否等于第二预设迭代次数；
38.s5048、若否，则在基于所述更新路径重新确定步骤s5044中的第二状态，以及基于
更新之后的第二q表重新确定步骤s5044中第二选择动作之后，重复执行步骤s5044-s5048；若是，则将所述更新路径作为所述新路径。
39.可选地，所述确定各子种群的第二状态，包括：
40.确定子种群中种群个体的数量为第一数量，以及确定所述种群个体中出现局部最优适应度减小的种群个体的数量为第二数量；
41.根据所述第一数量以及所述第二数量确定所述子种群的局部适应度降低率；
42.根据所述局部适应度降低率确定各子种群的第二状态。
43.可选地，所述确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表，还包括：
44.基于种群个体与目标点的间距确定即时奖励；
45.在判定所述第二状态处于第一范围且其对应的局部适应度降低率减小时，确定目标奖励为第一固定值；
46.在判定所述第二状态处于第二范围且其对应的局部适应度降低率增大时，确定所述目标奖励为第二固定值；
47.在判定所述第二状态对应的局部适应度降低率减小时，确定所述目标奖励为负即时奖励；
48.在判定所述第二状态对应的局部适应度降低率增大时，确定所述目标奖励为正即时奖励；
49.基于目标奖励，确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表。
50.此外，为实现上述目的，本发明还提出一种无人车路径规划装置，所述无人车路径规划装置包括：
51.初始化模块，用于初始化参数，其中，所述参数包括算法参数和模型参数，所述算法参数为q学习蝴蝶优化算法的相关参数，所述模型参数为无人车路径规划模型的相关参数；
52.建立模块，用于建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标；
53.所述建立模块，还用于基于随机生成n个蝴蝶个体建立初始种群；
54.计算模块，用于基于所述模型参数、所述障碍物坐标、所述无人车起点坐标以及所述无人车终点坐标，计算所述初始种群中各种群个体的路径代价，并确定全局最优个体；
55.确定模块，用于根据所述算法参数中的切换概率确定各种群个体对应的新路径；
56.所述确定模块，还用于根据所述新路径确定新全局最优个体；
57.判断模块，用于判断当前迭代次数是否等于最大迭代次数；
58.执行模块，用于将所述新全局最优个体作为输出全局最优个体，并根据所述输出全局最优个体确定无人车最优路径。
59.此外，为实现上述目的，本发明还提出一种无人车路径规划设备，所述无人车路径规划设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无人车路径规划程序，所述无人车路径规划程序配置为实现如上文所述的无人车路径规划方法的步骤。
60.此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有无人车路径规划程序，所述无人车路径规划程序被处理器执行时实现如上文所述的无人车路径规划方法的步骤。
61.本发明提出的无人车路径规划方法、装置、设备及存储介质，通过初始化参数，其中，所述参数包括算法参数和模型参数，所述算法参数为q学习蝴蝶优化算法的相关参数，所述模型参数为无人车路径规划模型的相关参数；建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标；基于随机生成n个蝴蝶个体建立初始种群；基于所述模型参数、所述障碍物坐标、所述无人车起点坐标以及所述无人车终点坐标，计算所述初始种群中各种群个体的路径代价，并确定全局最优个体；根据所述算法参数中的切换概率确定各种群个体对应的新路径；根据所述新路径确定新全局最优个体；根据当前迭代次数与最大迭代次数的比较来确定是否初始种群是否需要继续进行迭代，从而确定输出全局最优个体，再根据所述输出全局最优个体确定无人车最优路径。通过建立无人车路径规划模型，将路径规划转化为多维目标函数优化问题，并利用q学习蝴蝶优化算法求解无人车路径规划问题，以综合考虑路径长度和碰撞程度的目标函数评估蝴蝶个体的适应度，对路径规划方案进行迭代寻优，能够降低无人车的路径规划总代价，生成一条路径更短、碰撞程度更小的最优路径。
附图说明
62.图1是本发明实施例方案涉及的硬件运行环境的无人车路径规划设备的结构示意图；
63.图2为本发明无人车路径规划方法第一实施例的流程示意图；
64.图3为本发明无人车路径规划方法第一实施例中的无人车路径规划地形图；
65.图4为本发明无人车路径规划方法第一实施例中的蝴蝶个体编码图；
66.图5为本发明无人车路径规划方法第一实施例中的无人车路径规划路径图；
67.图6为本发明无人车路径规划方法第二实施例的流程示意图；
68.图7为本发明无人车路径规划方法第二实施例中的q学习全局搜索机制的流程示意图；
69.图8为本发明无人车路径规划方法第二实施例的q学习全局搜索机制的示意图；
70.图9为本发明无人车路径规划方法第二实施例中的q学习优化惯性权重的局部开发机制的流程示意图；
71.图10为本发明无人车路径规划方法第二实施例的又一流程示意图；
72.图11为本发明无人车路径规划装置第一实施例的结构框图。
73.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
74.应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
75.参照图1，图1为本发明实施例方案涉及的硬件运行环境的无人车路径规划设备结构示意图。
76.如图1所示，该无人车路径规划设备可以包括：处理器1001，例如中央处理器
(central processing unit，cpu)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity，wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory，ram)存储器，也可以是稳定的非易失性存储器(non-volatile memory，nvm)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
77.本领域技术人员可以理解，图1中示出的结构并不构成对无人车路径规划设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
78.如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及无人车路径规划程序。
79.在图1所示的无人车路径规划设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明无人车路径规划设备中的处理器1001、存储器1005可以设置在无人车路径规划设备中，所述无人车路径规划设备通过处理器1001调用存储器1005中存储的无人车路径规划程序，并执行本发明实施例提供的无人车路径规划方法。
80.基于上述硬件结构，提出本发明无人车路径规划方法实施例。
81.参照图2，图2为本发明一种无人车路径规划方法第一实施例的流程示意图。
82.本实施例中，所述无人车路径规划方法包括以下步骤：
83.步骤s10：初始化参数，其中，所述参数包括算法参数和模型参数，所述算法参数为q学习蝴蝶优化算法的相关参数，所述模型参数为无人车路径规划模型的相关参数。
84.需要说明的是，本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备，例如手机、平板电脑、个人电脑等，或者是一种能够实现上述功能的电子设备或无人车路径规划设备。以下以所述无人车路径规划设备为例，对本实施例及下述各实施例进行说明。
85.需要说明的是，算法参数包括种群规模、搜索维度、最大迭代次数、切换概率、感知形态、激励指数；模型参数包括地图环境、无人车起点坐标和无人车终点坐标、导航点数量、障碍物数量、障碍物中心坐标、障碍物威胁半径、代价函数的权重系数、学习率、折扣率、控制系数。
86.步骤s20：建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标。
87.在具体实现中，地形图为二维地形图，障碍物在地形图中可以圆柱形表示，具体为：
88.r2＝(x-a)2+(x-b)289.式中，(a,b)为障碍物中心坐标，(x,y)为障碍物圆周上点的横坐标和纵坐标，r为障碍物威胁半径。
90.在具体实现中，如图3所示，以500m
×
500m大小的地形图为例，设置无人车起点坐标为(0,0)，无人车终点坐标为(500,500)。
91.步骤s30：基于随机生成n个蝴蝶个体建立初始种群。
92.需要说明的是，在路径规划模型中，令无人车起点坐标为(x0,y0)，无人车终点坐标为(x
m+1
,y
m+1
)，根据无人车起点坐标以及无人车终点坐标可将无人车从起点到终点的横坐标划分为m份(即为在地形图中设置m个导航点，m对应于种群个体的维度)；路径规划模型的目标是通过q学习蝴蝶优化算法搜索出一条最短的安全路径(即在不与任一障碍物发生碰撞的情况下无人车从起点到终点的最短路径)，规划的路径可表示为{(x0,y0),(x1,y1),...(xm,ym),(x
m+1
,y
m+1
)}，由于起点坐标和终点坐标已知，所以待求解路径为{(x1,y1),...(xm,ym)}。
93.需要说明的是，蝴蝶个体的编码形式如图4所示。
94.在具体实现中，以图5所示地形图为例，设导航点个数m＝4，可知地图的横坐标被均分为5等份，4个导航点的x坐标依次为100/200/300/400，重点是确定导航点的y坐标值，且y∈[0,500]。图5为在该模型下生成的4条无人车路径，且生成的4条路径均是可行路径，未与任一障碍物发生碰撞。
[0095]
步骤s40：基于所述模型参数、所述障碍物坐标、所述无人车起点坐标以及所述无人车终点坐标，计算所述初始种群中各种群个体的路径代价，并确定全局最优个体。
[0096]
可以理解的是，初始种群中路径代价最小的种群个体为全局最优个体。
[0097]
需要说明的是，种群个体的路径代价由路径长度和碰撞程度(碰撞程度指的是无人车与障碍物的碰撞程度)决定，其中，路径代价的计算公式如下：
[0098]
cost＝w1×
length+w2×
collision
[0099]
式中，w1、w2为权重系数(权重系数能够用于定义在路径规划时对于路径长度和碰撞程度的侧重程度)，且0《w1、w2《1。
[0100]
在具体实现中，路径长度的计算公式如下：
[0101][0102]
在具体实现中，碰撞程度的计算公式如下：
[0103][0104][0105]
式中，k表示障碍物数量，h(k)为无人机与第k个障碍物的碰撞程度，(a,b)为障碍物中心坐标，r为障碍物威胁半径。
[0106]
需要说明的是，在传统的蝴蝶优化算法(boa算法)中，每只蝴蝶会散发一定浓度的香味，经过空气扩散后，其他个体会根据香味浓度被其吸引；若蝴蝶个体嗅到最高浓度的香味，该个体会向这个香味靠近，靠近的过程即为全局搜索；若蝴蝶个体感知不到任何香味，该个体将在空间内随机游走式飞行，随机游走式飞行的过程即为局部开发；其中，蝴蝶个体散发的香味浓度的计算公式为：
[0107]
f＝c
·
ia[0108]
式中，i为刺激强度，c为感知形态，a为激励指数(激励指数可以理解为不同程度香味的吸收)，且a、c∈[0,1]。
[0109]
需要说明的是，在boa算法中，通常a＝0.1，c的初始值为0.01，其迭代变化公式为：
[0110][0111]
式中，tmax为最大迭代次数。
[0112]
需要说明的是，在传统方法中，蝴蝶个体在进行全局搜索时的位置更新方式为：
[0113]
xi(t+1)＝xi(t)+(r
12
×g*-xi(t))
×fi
[0114]
式中，xi(t)为种群中第i只蝴蝶在第t次迭代时的位置，xi(t+1)为种群中第i只蝴蝶在第t+1次迭代时的位置，g
*
为当前最优位置，r1∈[0,1]，为随机量，fi为种群中第i只蝴蝶的香味浓度。
[0115]
需要说明的是，在传统方法中，蝴蝶个体在进行局部开发时的位置更新方式为：
[0116]
xi(t+1)＝xi(t)+(r
22
×
xj(t)-xk(t))
×fi
[0117]
式中，xj(t)、xk(t)为种群中随机选择的两只蝴蝶在第t次迭代时的位置，r2∈[0,1]，为随机量。
[0118]
步骤s50：根据所述算法参数中的切换概率确定各种群个体对应的新路径。
[0119]
在具体实现中，需要产生随机值，然后将该随机值与切换概率进行比较，从而确定采用何种方式对种群个体对应的路径进行更新；具体地，当该随机值小于等于切换概率时，利用q学习全局搜索机制更新种群个体的路径，得到新路径，其中，所述q学习全局搜索机制为基于q学习机制对boa算法的全局搜索过程改进得到的；当该随机值大于切换概率时，则利用q学习优化惯性权重的局部开发机制更新种群个体的路径，得到新路径，其中，所述q学习优化惯性权重的局部开发机制为基于q学习机制对boa算法的局部开发过程改进得到的。
[0120]
步骤s60：根据所述新路径确定新全局最优个体。
[0121]
需要说明的是，当初始种群中所有的种群个体都进行路径更新了之后，可以基于种群个体的新路径来确定种群个体的新路径代价，新路径代价最小的种群个体即为新全局最优个体。
[0122]
步骤s70：判断当前迭代次数是否等于最大迭代次数。
[0123]
需要说明的是，当初始种群中所有种群个体的路径同时完成更新时，可记录为初始种群的一次迭代，初始种群每迭代一次，当前迭代次数都加1。
[0124]
步骤s80：若否，则将所述新全局最优个体作为步骤s40中的全局最优个体之后，重复执行步骤s40-s80；若是，则将所述新全局最优个体作为输出全局最优个体，并根据所述输出全局最优个体确定无人车最优路径。
[0125]
在具体实现中，可将输出全局最优个体进行解码之后确定无人车最优路径。
[0126]
本实施例通过初始化参数，其中，所述参数包括算法参数和模型参数，所述算法参数为q学习蝴蝶优化算法的相关参数，所述模型参数为无人车路径规划模型的相关参数；建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标；基于随机生成n个蝴蝶个体建立初始种群；基于所述模型参数、所述障碍物坐标、所述无人车起点坐标以及所述无人车终点坐标，计算所述初始种群中各种群个体的路径代价，并确定全局最优个体；根据所述算法参数中的切换概率确定各种群个体对应的新路径；根据所述新路径确定新全局最优个体；根据当前迭代次数与最大迭代次数的比较来确定是否初始种群是否需要继续进行迭代，从而确定输出全局最优个体，再根据所述输
出全局最优个体确定无人车最优路径。通过建立无人车路径规划模型，将路径规划转化为多维目标函数优化问题，并利用q学习蝴蝶优化算法求解无人车路径规划问题，以综合考虑路径长度和碰撞程度的目标函数评估蝴蝶个体的适应度，对路径规划方案进行迭代寻优，能够降低无人车的路径规划总代价，生成一条路径更短、碰撞程度更小的最优路径。
[0127]
参考图6，图6为本发明一种无人车路径规划方法第二实施例的流程示意图。
[0128]
基于上述第一实施例，本实施例无人车路径规划方法中根据所述算法参数中的切换概率确定各种群个体对应的新路径，包括：
[0129]
步骤s501：生成各种群个体的随机值。
[0130]
可以理解的是，随机值指的是随机生成的数值，不同种群个体的随机值可以相同，也可以不同。
[0131]
步骤s502：判断所述随机值是否小于所述切换概率。
[0132]
需要说明的是，可通过将随机值与切换概率进行比较来确定种群个体的路径更新方法。
[0133]
步骤s503：若是，则利用q学习全局搜索机制更新种群个体的路径，得到新路径，其中，所述q学习全局搜索机制为基于q学习机制对boa算法的全局搜索过程改进得到的。
[0134]
在一实施例中，如图7所示，利用q学习全局搜索机制更新各种群个体的路径，得到新路径，包括：
[0135]
s5031、定义第一状态集合和第一动作集合，其中，所述第一状态集合包括第一全局状态、第二全局状态以及第三全局状态，所述第一动作集合包括第一全局动作、第二全局动作以及第三全局动作。
[0136]
s5032、根据所述第一状态集合以及所述第一动作集合，生成种群个体的第一q表，其中，所述第一q表中存储有状态-动作组合对应的期望奖励。
[0137]
在具体实现中，第一q表如下表所示：
[0138][0139]
表中，a表示全局动作，s表示全局状态，q表示期望奖励。
[0140]
s5033、确定种群个体的第一状态以及第一选择动作，其中，所述第一选择动作为以p的概率从所述第一动作集合中随机选择的动作和以1-p的概率选择第一最大动作，所述第一最大动作为所述第一q表中具有最大期望奖励对应的动作，所述p的概率为切换概率。
[0141]
需要说明的是，第一状态为所述第一状态集合中的任一状态。
[0142]
在一实施例中，所述确定种群个体的第一状态，包括：
[0143]
确定种群个体的先前路径代价和当前路径代价，其中，所述先前路径代价为根据所述种群个体在先前时刻下对应的路径确定，所述当前路径代为根据所述种群个体在当前
时刻下对应的路径确定；
[0144]
将所述先前路径代价与所述当前路径代价进行比较，得到第一比较结果；
[0145]
基于所述第一比较结果，从所述第一状态集合中确定所述种群个体的第一状态。
[0146]
可以理解的是，路径代价的大小与种群个体对应的路径优劣成反比，路径代价越小，种群个体对应的路径越优，路径代价越大，种群个体对应的路径越劣。
[0147]
需要说明的是，可根据种群个体的路径代价来从第一状态集合中确定种群个体的第一状态，具体地，第一全局状态表示生成个体优于原始个体(即种群个体在先前时刻下对应的路径的路径代价大于种群个体在当前时刻下对应的路径的路径代价)，第二全局状态表示生成个体与原始个体相同(即种群个体在先前时刻下对应的路径的路径代价等于种群个体在当前时刻下对应的路径的路径代价)，第三全局状态表示生成个体差于原始个体(即种群个体在先前时刻下对应的路径的路径代价小于种群个体在当前时刻下对应的路径的路径代价)。
[0148]
可以理解的是，第一比较结果为先前路径代价大于当前路径代价时，说明种群个体处于第一全局状态，第一比较结果为先前路径代价等于当前路径代价时，说明种群个体处于第二全局状态，第一比较结果为先前路径代价小于当前路径代价时，说明种群个体处于第三全局状态。
[0149]
在具体实现中，在当前时刻下，种群个体处于第一全局状态时，得到奖励值为1；在当前时刻下，种群个体处于第二全局状态时，得到奖励值为-0.001；在当前时刻下，种群个体处于第三全局状态时，得到奖励值为-1，具体表示如下：
[0150]
式中，r为奖励值。
[0151]
需要说明的是，第一选择动作是基于p-贪婪策略来确定的，第一选择动作为以p的概率从所述第一动作集合中随机选择的动作和以1-p的概率选择第一最大动作，所述第一最大动作为所述第一q表中具有最大期望奖励对应的动作。
[0152]
在具体实现中，第一选择动作对应的概率可定义为：
[0153][0154]
式中，π(a|s)为状态s下选择动作a的概率，m为状态s下动作集a中动作的数量，此时a＝3，a*为第一最大动作。
[0155]
s5034、确定种群个体在所述第一状态下执行所述第一选择动作时的新期望奖励，并根据所述新期望奖励更新所述第一q表。
[0156]
需要说明的是，确定种群个体在所述第一状态下执行所述第一选择动作时的新期望奖励，并根据所述新期望奖励更新所述第一q表，具体为：
[0157][0158]
式中，s
t
为种群个体在当前时刻t下的状态、s
t+1
为种群个体在下一时刻t+1下的状
态，a
t
为种群个体在当前时刻t下执行的动作，β为系统学习率，γ为折扣率，且0≤β、γ≤1，r
t+1
为智能体在状态st下执行动作后得到的即时奖励值(即种群个体在不同状态下对应的奖励值)，maxq(s
t+1
,a
t
)为在状态s
t+1
下执行动作a
t
得到的最大期望奖励，q
t+1
(s
t+1
,a
t
)为种群个体在所述第一状态下执行所述第一选择动作时的新期望奖励，若γ较大并接近于1，表明种群个体侧重于未来奖励；若γ较小并接近于0，表明种群个体侧重于当前时刻得到的即时奖励。
[0159]
s5035、根据所述第一选择动作更新种群个体的路径，得到更新路径。
[0160]
需要说明的是，如图8所示第一全局动作为差分进化变异de策略，第二全局动作为花授粉算法fpa的全局搜索策略，第三全局动作为原始蝴蝶优化算法boa的全局搜索策略。
[0161]
在具体实现中，采用差分进化变异de策略来更新种群个体的路径公式如下：
[0162]
xi(t+1)＝x
rand1
(t)+f
·
(x
rand2
(t)-x
rand3
(t))
[0163]
式中，x
rand1
、x
rand2
、x
rand3
分别指代种群个体在第t次迭代时从初始种群中随机选择的三个种群个体，f为变异算子，通常为通常0≤f≤1，xi(t+1)为初始种群中第i只种群个体在第t+1次迭代时的路径。
[0164]
在具体实现中，采用花授粉算法fpa的全局搜索策略来更新种群个体的路径如下：
[0165]
xi(t+1)＝xi(t)+β
·
l
·
(xi(t)-x
best
(t))
[0166]
式中，xi(t+1)为初始种群中第i只种群个体在第t+1次迭代时的路径，xi(t)为初始种群中第i只种群个体在第t次迭代时的路径，x
best
(t)为初始种群在第t次迭代时的全局最优个体，β为步长控制因子，l为levy飞行步长。
[0167]
在具体实现中，采用原始蝴蝶优化算法boa的全局搜索策略来更新种群个体的路径如下：
[0168]
xi(t+1)＝xi(t)+(r
12
×g*-xi(t))
×fi
[0169]
式中，xi(t+1)为初始种群中第i只种群个体在第t+1次迭代时的路径，xi(t)为初始种群中第i只种群个体在第t次迭代时的路径，g
*
为初始种群在第t次迭代时的全局最优个体，r1为[0,1]间的随机量，fi为初始种群中第i只种群个体的香味浓度。
[0170]
需要说明的是，在传统的蝴蝶优化算法(boa算法)中，每只蝴蝶会散发一定浓度的香味，经过空气扩散后，其他个体会根据香味浓度被其吸引；若蝴蝶个体嗅到最高浓度的香味，该个体会向这个香味靠近，靠近的过程即为全局搜索；若蝴蝶个体(即种群个体)感知不到任何香味，该个体将在空间内随机游走式飞行，随机游走式飞行的过程即为局部开发；其中，蝴蝶个体散发的香味浓度的计算公式为：
[0171]
f＝c
·
ia[0172]
式中，i为刺激强度，c为感知形态，a为激励指数(激励指数可以理解为不同程度香味的吸收)，且a、c∈[0,1]。
[0173]
需要说明的是，在boa算法中，通常a＝0.1，c的初始值为0.01，其迭代变化公式为：
[0174][0175]
式中，tmax为最大迭代次数。
[0176]
s5036、判断第一迭代次数是否等于第一预设迭代次数。
[0177]
s5037、若否，则在基于所述更新路径重新确定步骤s5033中的第一状态，以及基于
更新之后的第一q表重新确定步骤s5033中第一选择动作之后，重复执行步骤s5033-s5037；若是，则将所述更新路径作为所述新路径。
[0178]
需要说明的是，利用q学习蝴蝶优化算法来更新种群个体的路径时，蝴蝶个体(种群个体)即对应于q学习系统中的智能体agent，个体的搜索策略(路径更新方式)即对应于智能体执行的动作，算法迭代结果对应于q学习的状态。q学习蝴蝶优化算法为每个种群个体建立一个独立q表，个体根据所处环境和状态进行动作选择，以此提升算法的全局搜索能力。对于个体选择的确定动作a，个体将获得反馈r和下一状态s’，并更新个体的q表。若此时个体的适应度得到了优化，则状态-动作对得到的环境反馈为正值，对应q值也增大；若此时个体的适应度未得到优化，则状态-动作对得到的环境反馈为负值，对应q值也减小。
[0179]
步骤s504：若否，则利用q学习优化惯性权重的局部开发机制更新种群个体的路径，得到新路径，其中，所述q学习优化惯性权重的局部开发机制为基于q学习机制对boa算法的局部开发过程改进得到的。
[0180]
在一实施例中，如图9所示，利用q学习优化惯性权重的局部开发机制更新各种群个体的路径，得到新路径，包括：
[0181]
s5041、定义第二状态集合和第二动作集合，其中，所述第二状态集合包括第一局部状态、第二局部状态、第三局部状态以及第四局部状态，所述第二动作集合包括第一局部动作、第二局部动作、第三局部动作以及第四局部动作。
[0182]
s5042、根据所述第二状态集合以及所述第二动作集合，生成种群个体的第二q表。
[0183]
在具体实现中，第二q表如下表所示：
[0184][0185]
表中，a表示局部动作，s表示局部状态，q表示期望奖励。
[0186]
s5043、根据种群个体的路径代价将所述初始种群划分为子种群，其中，所述子种群包括精英种群、第一普通种群、第二普通种群以及劣等种群。
[0187]
在具体实现中，以1:4:4:1的比例按照种群个体的路径代价将初始种群划分为精英种群、第一普通种群、第二普通种群以及劣等种群，若令初始种群中种群个体的数量为n，则精英种群中种群个体的数量为n/10，两个普通种群中种群个体的数量均为4n/10，劣等种群中种群个体的数量为n/10；一般来说，全局最优个体在精英种群的概率更大，增强精英种群的局部开发能力，可以增加搜索到全局最优解(即全局最优个体)的概率，普通种群仅需保持均衡的全局搜索与局部开发能力即可。而劣等种群一般离全局最优解较远，应增强劣等种群的全局搜索能力，以便算法得到更多高质量解。
[0188]
s5044、确定各子种群的第二状态以及确定各子种群中种群个体的第二选择动作，其中，所述第二选择动作为以p的概率从所述第二动作集合中随机选择的动作和以1-p的概率选择第二最大动作，所述第二最大动作为所述第二q表中具有最大期望奖励对应的动作，所述p的概率为切换概率。
[0189]
需要说明的是，第二状态为所述第二状态集合中的任一状态。
[0190]
需要说明的是，第二选择动作是基于p-贪婪策略来确定的，第二选择动作为以p的概率从所述第二动作集合中随机选择的动作和以1-p的概率选择第二最大动作，所述第最大动作为所述第二q表中具有最大期望奖励对应的动作。
[0191]
在具体实现中，第二选择动作对应的概率可定义为：
[0192][0193]
式中，π(a|s)为状态s下选择动作a的概率，m为状态s下动作集a中动作的数量，此时a＝4，a*为第二最大动作。
[0194]
需要说明的是，种群个体执行的动作则对应于对惯性权重的增加或减小行为，增减步长根据不同状态设置为0.05或0.1，并设置个体的四个动作，动作集合a＝{a1,a2,a3,a4}，如表3所示，总体来说，当局部适应度降低率减小的种群个体数量占比较高时，此时种群个体应采取减小惯性权重值的方式加速算法收敛；而当局部适应度降低率减小的种群个体数量占比较低时，此时个体应采取增加惯性权重值的方式扩大种群搜索范围，尽早跳离局部最优。
[0195]
在具体实现中，动作对应的动作值根据不同的状态来设置：
[0196][0197]
在一实施例中，所述确定各子种群的第二状态，包括：
[0198]
确定子种群中种群个体的数量为第一数量，以及确定所述种群个体中出现局部最优适应度减小的种群个体的数量为第二数量；
[0199]
根据所述第一数量以及所述第二数量确定所述子种群的局部适应度降低率；
[0200]
根据所述局部适应度降低率确定各子种群的第二状态。
[0201]
在具体实现中，pf(局部适应度降低率)的范围与第一局部状态、第二局部状态、第三局部状态以及第四局部状态的对应关系如下表所示，其中，s1表示第一局部状态，s2表示第二局部状态，s3表示第三局部状态，s4表示第四局部状态：
[0202][0203]
需要说明的是，种群的pf(局部适应度降低率)对应的计算公式如下：
[0204]
pf＝n’/n
[0205]
式中，n为第一数量，n’为第二数量，pf表示局部适应度降低率。
[0206]
可以理解的是，确定子种群的局部适应度降低率之后可根据该局部适应度降低率对应的范围来确定子种群的状态(即第二状态)。
[0207]
s5045、确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表。
[0208]
在一实施例中，所述确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表，还包括：
[0209]
基于种群个体与目标点的间距确定即时奖励；
[0210]
在判定所述第二状态处于第一范围且其对应的局部适应度降低率减小时，确定目标奖励为第一固定值；
[0211]
在判定所述第二状态处于第二范围且其对应的局部适应度降低率增大时，确定所述目标奖励为第二固定值；
[0212]
在判定所述第二状态对应的局部适应度降低率减小时，确定所述目标奖励为负即时奖励；
[0213]
在判定所述第二状态对应的局部适应度降低率增大时，确定所述目标奖励为正即时奖励；
[0214]
基于目标奖励，确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表。
[0215]
需要说明的是，基于种群个体与目标点的间距确定即时奖励的计算公式如下：
[0216][0217]
式中，dis为种群个体与目标点的间距，以欧氏距离计算，λ、ζ为控制系数，a表示第二选择动作，s表示第二状态。
[0218]
在具体实现中，目标奖励的定义公式如下：
[0219][0220]
式中，r表示目标奖励，pf表示局部适应度降低率，第一固定值为-10,第二固定值
为10。
[0221]
需要说明的是，基于目标奖励，确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表，具体为：
[0222][0223]
式中，s
t
为种群个体在当前时刻t下的状态、s
t+1
为种群个体在下一时刻t+1下的状态，a
t
为种群个体在当前时刻t下执行的动作，β为系统学习率，γ为折扣率，且0≤β、γ≤1，r
t+1
为种群个体在状态s
t
下执行动作后得到的即时收益值(即种群个体在不同状态下对应的目标奖励)，maxq(s
t+1
,a
t
)为在状态s
t+1
下执行动作a
t
得到的最大期望奖励，q
t+1
(s
t+1
,a
t
)为种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励。
[0224]
s5046、根据所述第二选择动作更新各种群个体的路径，得到更新路径。
[0225]
s5047、判断第二迭代次数是否等于第二预设迭代次数。
[0226]
s5048、若否，则在基于所述更新路径重新确定步骤s5044中的第二状态，以及基于更新之后的第二q表重新确定步骤s5044中第二选择动作之后，重复执行步骤s5044-s5048；若是，则将所述更新路径作为所述新路径。
[0227]
在具体实现中，利用q学习蝴蝶优化算法求解无人车路径规划问题如图10所示。
[0228]
本实施例通过生成各种群个体的随机值；判断所述随机值是否小于所述切换概率；若是，则利用q学习全局搜索机制更新种群个体的路径，得到新路径，其中，所述q学习全局搜索机制为基于q学习机制对boa算法的全局搜索过程改进得到的；若否，则利用q学习优化惯性权重的局部开发机制更新种群个体的路径，得到新路径，其中，所述q学习优化惯性权重的局部开发机制为基于q学习机制对boa算法的局部开发过程改进得到的。通过上述方式，设计了q学习全局搜索机制，使生成的路径规划方案能够依据当前环境和状态做出奖励最优的动作选择，同时通过融入不同种群个体更新方式丰富种群的多样性；同时设计了q学习优化惯性权重的局部开发机制，利用q学习算法对种群个体更新的惯性权重进行自适应调整，有效均衡搜索与开发间的关系，从而整体提升算法的搜索精度。
[0229]
此外，本发明实施例还提出一种存储介质，所述存储介质上存储有无人车路径规划程序，所述无人车路径规划程序被处理器执行时实现如上文所述的无人车路径规划方法的步骤。
[0230]
参照图11，图11为本发明无人车路径规划装置第一实施例的结构框图。
[0231]
如图11所示，本发明实施例提出的无人车路径规划装置包括：
[0232]
初始化模块10，用于初始化参数，其中，所述参数包括算法参数和模型参数，所述算法参数为q学习蝴蝶优化算法的相关参数，所述模型参数为无人车路径规划模型的相关参数；
[0233]
建立模块20，用于建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标；
[0234]
所述建立模块20，还用于基于随机生成n个蝴蝶个体建立初始种群；
[0235]
计算模块30，用于基于所述模型参数、所述障碍物坐标、所述无人车起点坐标以及所述无人车终点坐标，计算所述初始种群中各种群个体的路径代价，并确定全局最优个体；
[0236]
确定模块40，用于根据所述算法参数中的切换概率确定各种群个体对应的新路
径；
[0237]
所述确定模块40，还用于根据所述新路径确定新全局最优个体；
[0238]
判断模块50，用于判断当前迭代次数是否等于最大迭代次数；
[0239]
执行模块60，用于将所述新全局最优个体作为输出全局最优个体，并根据所述输出全局最优个体确定无人车最优路径。
[0240]
应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。
[0241]
本实施例通过初始化参数，其中，所述参数包括算法参数和模型参数，所述算法参数为q学习蝴蝶优化算法的相关参数，所述模型参数为无人车路径规划模型的相关参数；建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标；基于随机生成n个蝴蝶个体建立初始种群；基于所述模型参数、所述障碍物坐标、所述无人车起点坐标以及所述无人车终点坐标，计算所述初始种群中各种群个体的路径代价，并确定全局最优个体；根据所述算法参数中的切换概率确定各种群个体对应的新路径；根据所述新路径确定新全局最优个体；根据当前迭代次数与最大迭代次数的比较来确定是否初始种群是否需要继续进行迭代，从而确定输出全局最优个体，再根据所述输出全局最优个体确定无人车最优路径。通过建立无人车路径规划模型，将路径规划转化为多维目标函数优化问题，并利用q学习蝴蝶优化算法求解无人车路径规划问题，以综合考虑路径长度和碰撞程度的目标函数评估蝴蝶个体的适应度，对路径规划方案进行迭代寻优，能够降低无人车的路径规划总代价，生成一条路径更短、碰撞程度更小的最优路径。
[0242]
在一实施例中，所述确定模块40，还用于：
[0243]
生成各种群个体的随机值；
[0244]
判断所述随机值是否小于所述切换概率；
[0245]
若是，则利用q学习全局搜索机制更新种群个体的路径，得到新路径，其中，所述q学习全局搜索机制为基于q学习机制对boa算法的全局搜索过程改进得到的；
[0246]
若否，则利用q学习优化惯性权重的局部开发机制更新种群个体的路径，得到新路径，其中，所述q学习优化惯性权重的局部开发机制为基于q学习机制对boa算法的局部开发过程改进得到的。
[0247]
在一实施例中，所述确定模块40，还用于：
[0248]
定义第一状态集合和第一动作集合，其中，所述第一状态集合包括第一全局状态、第二全局状态以及第三全局状态，所述第一动作集合包括第一全局动作、第二全局动作以及第三全局动作；
[0249]
根据所述第一状态集合以及所述第一动作集合，生成种群个体的第一q表，其中，所述第一q表中存储有状态-动作组合对应的期望奖励；
[0250]
确定种群个体的第一状态以及第一选择动作，其中，所述第一选择动作为以p的概率从所述第一动作集合中随机选择的动作和以1-p的概率选择第一最大动作，所述第一最大动作为所述第一q表中具有最大期望奖励对应的动作，所述p的概率为切换概率；
[0251]
确定种群个体在所述第一状态下执行所述第一选择动作时的新期望奖励，并根据所述新期望奖励更新所述第一q表；
[0252]
根据所述第一选择动作更新种群个体的路径，得到更新路径；
[0253]
判断第一迭代次数是否等于第一预设迭代次数；
[0254]
根据判断结果确定是否需要重新进行迭代来更新种群个体的路径。
[0255]
在一实施例中，所述确定模块40，还用于：
[0256]
确定种群个体的先前路径代价和当前路径代价，其中，所述先前路径代价为根据所述种群个体在先前时刻下对应的路径确定，所述当前路径代为根据所述种群个体在当前时刻下对应的路径确定；
[0257]
将所述先前路径代价与所述当前路径代价进行比较，得到第一比较结果；
[0258]
基于所述第一比较结果，从所述第一状态集合中确定所述种群个体的第一状态。
[0259]
在一实施例中，所述确定模块40，还用于：
[0260]
定义第二状态集合和第二动作集合，其中，所述第二状态集合包括第一局部状态、第二局部状态、第三局部状态以及第四局部状态，所述第二动作集合包括第一局部动作、第二局部动作、第三局部动作以及第四局部动作；
[0261]
根据所述第二状态集合以及所述第二动作集合，生成种群个体的第二q表；
[0262]
根据种群个体的路径代价将所述初始种群划分为子种群，其中，所述子种群包括精英种群、第一普通种群、第二普通种群以及劣等种群；
[0263]
确定各子种群的第二状态以及确定各子种群中种群个体的第二选择动作，其中，所述第二选择动作为以p的概率从所述第二动作集合中随机选择的动作和以1-p的概率选择第二最大动作，所述第二最大动作为所述第二q表中具有最大期望奖励对应的动作，所述p的概率为切换概率；
[0264]
确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表；
[0265]
根据所述第二选择动作更新各种群个体的路径，得到更新路径；
[0266]
判断第二迭代次数是否等于第二预设迭代次数；
[0267]
根据判断结果确定是否需要重新进行迭代来更新种群个体的路径。
[0268]
在一实施例中，所述确定模块40，还用于：
[0269]
确定子种群中种群个体的数量为第一数量，以及确定所述种群个体中出现局部最优适应度减小的种群个体的数量为第二数量；
[0270]
根据所述第一数量以及所述第二数量确定所述子种群的局部适应度降低率；
[0271]
根据所述局部适应度降低率确定各子种群的第二状态。
[0272]
在一实施例中，所述确定模块40，还用于：
[0273]
基于种群个体与目标点的间距确定即时奖励；
[0274]
在判定所述第二状态处于第一范围且其对应的局部适应度降低率减小时，确定目标奖励为第一固定值；
[0275]
在判定所述第二状态处于第二范围且其对应的局部适应度降低率增大时，确定所述目标奖励为第二固定值；
[0276]
在判定所述第二状态对应的局部适应度降低率减小时，确定所述目标奖励为负即时奖励；
[0277]
在判定所述第二状态对应的局部适应度降低率增大时，确定所述目标奖励为正即时奖励；
[0278]
基于目标奖励，确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表。
[0279]
需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。
[0280]
另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的无人车路径规划方法，此处不再赘述。
[0281]
此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0282]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0283]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(read only memory，rom)/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0284]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：
1.一种无人车路径规划方法，其特征在于，所述无人车路径规划方法包括：s10、初始化参数，其中，所述参数包括算法参数和模型参数，所述算法参数为q学习蝴蝶优化算法的相关参数，所述模型参数为无人车路径规划模型的相关参数；s20、建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标；s30、基于随机生成n个蝴蝶个体建立初始种群；s40、基于所述模型参数、所述障碍物坐标、所述无人车起点坐标以及所述无人车终点坐标，计算所述初始种群中各种群个体的路径代价，并确定全局最优个体；s50、根据所述算法参数中的切换概率确定各种群个体对应的新路径；s60、根据所述新路径确定新全局最优个体；s70、判断当前迭代次数是否等于最大迭代次数；s80、若否，则将所述新全局最优个体作为步骤s40中的全局最优个体之后，重复执行步骤s40-s80；若是，则将所述新全局最优个体作为输出全局最优个体，并根据所述输出全局最优个体确定无人车最优路径。2.如权利要求1所述的方法，其特征在于，所述根据所述算法参数中的切换概率确定各种群个体对应的新路径，包括：生成各种群个体的随机值；判断所述随机值是否小于所述切换概率；若是，则利用q学习全局搜索机制更新种群个体的路径，得到新路径，其中，所述q学习全局搜索机制为基于q学习机制对boa算法的全局搜索过程改进得到的；若否，则利用q学习优化惯性权重的局部开发机制更新种群个体的路径，得到新路径，其中，所述q学习优化惯性权重的局部开发机制为基于q学习机制对boa算法的局部开发过程改进得到的。3.如权利要求2所述的方法，其特征在于，利用q学习全局搜索机制更新各种群个体的路径，得到新路径，包括：s5031、定义第一状态集合和第一动作集合，其中，所述第一状态集合包括第一全局状态、第二全局状态以及第三全局状态，所述第一动作集合包括第一全局动作、第二全局动作以及第三全局动作；s5032、根据所述第一状态集合以及所述第一动作集合，生成种群个体的第一q表，其中，所述第一q表中存储有状态-动作组合对应的期望奖励；s5033、确定种群个体的第一状态以及第一选择动作，其中，所述第一选择动作为以p的概率从所述第一动作集合中随机选择的动作和以1-p的概率选择第一最大动作，所述第一最大动作为所述第一q表中具有最大期望奖励对应的动作，所述p的概率为切换概率；s5034、确定种群个体在所述第一状态下执行所述第一选择动作时的新期望奖励，并根据所述新期望奖励更新所述第一q表；s5035、根据所述第一选择动作更新种群个体的路径，得到更新路径；s5036、判断第一迭代次数是否等于第一预设迭代次数；s5037、若否，则在基于所述更新路径重新确定步骤s5033中的第一状态，以及基于更新之后的第一q表重新确定步骤s5033中第一选择动作之后，重复执行步骤s5033-s5037；若
是，则将所述更新路径作为所述新路径。4.如权利要求3所述的方法，其特征在于，所述确定种群个体的第一状态，包括：确定种群个体的先前路径代价和当前路径代价，其中，所述先前路径代价为根据所述种群个体在先前时刻下对应的路径确定，所述当前路径代为根据所述种群个体在当前时刻下对应的路径确定；将所述先前路径代价与所述当前路径代价进行比较，得到第一比较结果；基于所述第一比较结果，从所述第一状态集合中确定所述种群个体的第一状态。5.如权利要求2所述的方法，其特征在于，利用q学习优化惯性权重的局部开发机制更新各种群个体的路径，得到新路径，包括：s5041、定义第二状态集合和第二动作集合，其中，所述第二状态集合包括第一局部状态、第二局部状态、第三局部状态以及第四局部状态，所述第二动作集合包括第一局部动作、第二局部动作、第三局部动作以及第四局部动作；s5042、根据所述第二状态集合以及所述第二动作集合，生成种群个体的第二q表；s5043、根据种群个体的路径代价将所述初始种群划分为子种群，其中，所述子种群包括精英种群、第一普通种群、第二普通种群以及劣等种群；s5044、确定各子种群的第二状态以及确定各子种群中种群个体的第二选择动作，其中，所述第二选择动作为以p的概率从所述第二动作集合中随机选择的动作和以1-p的概率选择第二最大动作，所述第二最大动作为所述第二q表中具有最大期望奖励对应的动作，所述p的概率为切换概率；s5045、确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表；s5046、根据所述第二选择动作更新各种群个体的路径，得到更新路径；s5047、判断第二迭代次数是否等于第二预设迭代次数；s5048、若否，则在基于所述更新路径重新确定步骤s5044中的第二状态，以及基于更新之后的第二q表重新确定步骤s5044中第二选择动作之后，重复执行步骤s5044-s5048；若是，则将所述更新路径作为所述新路径。6.如权利要求5所述的方法，其特征在于，所述确定各子种群的第二状态，包括：确定子种群中种群个体的数量为第一数量，以及确定所述种群个体中出现局部最优适应度减小的种群个体的数量为第二数量；根据所述第一数量以及所述第二数量确定所述子种群的局部适应度降低率；根据所述局部适应度降低率确定各子种群的第二状态。7.如权利要求5所述的方法，其特征在于，所述确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表，还包括：基于种群个体与目标点的间距确定即时奖励；在判定所述第二状态处于第一范围且其对应的局部适应度降低率减小时，确定目标奖励为第一固定值；在判定所述第二状态处于第二范围且其对应的局部适应度降低率增大时，确定所述目标奖励为第二固定值；在判定所述第二状态对应的局部适应度降低率减小时，确定所述目标奖励为负即时奖
励；在判定所述第二状态对应的局部适应度降低率增大时，确定所述目标奖励为正即时奖励；基于目标奖励，确定种群个体在所述第二状态下执行所述第二选择动作时的新期望奖励，并根据所述新期望奖励更新所述第二q表。8.一种无人车路径规划装置，其特征在于，所述无人车路径规划装置包括：初始化模块，用于初始化参数，其中，所述参数包括算法参数和模型参数，所述算法参数为q学习蝴蝶优化算法的相关参数，所述模型参数为无人车路径规划模型的相关参数；建立模块，用于建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标；所述建立模块，还用于基于随机生成n个蝴蝶个体建立初始种群；计算模块，用于基于所述模型参数、所述障碍物坐标、所述无人车起点坐标以及所述无人车终点坐标，计算所述初始种群中各种群个体的路径代价，并确定全局最优个体；确定模块，用于根据所述算法参数中的切换概率确定各种群个体对应的新路径；所述确定模块，还用于根据所述新路径确定新全局最优个体；判断模块，用于判断当前迭代次数是否等于最大迭代次数；执行模块，用于将所述新全局最优个体作为输出全局最优个体，并根据所述输出全局最优个体确定无人车最优路径。9.一种无人车路径规划设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无人车路径规划程序，所述无人车路径规划程序配置为实现如权利要求1至7中任一项所述的无人车路径规划方法的步骤。10.一种存储介质，其特征在于，所述存储介质上存储有无人车路径规划程序，所述无人车路径规划程序被处理器执行时实现如权利要求1至7任一项所述的无人车路径规划方法的步骤。

技术总结
本发明属于路径规划技术领域，公开了一种无人车路径规划方法、装置、设备及存储介质。该方法包括：初始化算法参数和模型参数；建立无人车行进区域的地形图，确定在所述地形图中的障碍物坐标、无人车起点坐标以及无人车终点坐标；基于随机生成N个蝴蝶个体建立初始种群；计算所述初始种群中各种群个体的路径代价，并确定全局最优个体；根据所述算法参数中的切换概率确定各种群个体对应的新路径；根据所述新路径确定新全局最优个体；根据当前迭代次数与最大迭代次数来判断是否需要继续对种群个体的路径进行迭代，从而得到输出全局最优个体对应的无人车最优路径。能够降低无人车的路径规划总代价，生成最优路径。生成最优路径。生成最优路径。

技术研发人员：张小庆白旭祥徐舫肖海洋李润杰
受保护的技术使用者：武汉轻工大学
技术研发日：2023.06.05
技术公布日：2023/10/11

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

无人车路径规划方法、装置、设备及存储介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

无人车路径规划方法、装置、设备及存储介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表