一种自主避障规划方法、装置及系统与流程

未命名 08-15 阅读：97 评论：0

1.本发明属于避障技术领域，具体涉及一种自主避障规划方法、装置及系统。

背景技术：

2.局部避障技术是自动驾驶、自动车辆或机器人等应用上的核心技术之一，帮助移动的车辆或机器人到达目标的任务中，躲避或绕开障碍物。目前局部避障算法可分为：传统避障算法和深度学习算法。更多、更复杂场景下深度学习算法在局部避障任务上表现出了更强的鲁棒性，但深度学习算法存在黑箱计算的弊端，神经网络本质上是一组多项式回归，人工神经网络通过大量的乘加近似问题的解，但网络参数通常都数以万计，实时的观测神经元会变得很困难，从而导致避障失败。

技术实现要素：

3.针对上述问题，本发明提出一种自主避障规划方法、装置及系统，能够提高自动移动车辆的安全性，十分适合于容错率低且任务复杂的场景下。
4.为了实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：
5.第一方面，本发明提供了一种自主避障规划方法，包括：
6.获取车辆的实时状态；
7.将车辆的实时状态输入至采用深度确定策略梯度方法预先训练好的行为网络，获得车辆的控制量，完成自主避障规划；
8.其中，所述预先训练好的行为网络在训练过程中，以避开障碍物为目标，以车辆的状态和障碍物的位置作为输入数据，以车辆的控制量作为标签数据。
9.可选地，所述预先训练好的行为网络包括顺次设置的感知神经元层、中间神经元层、指令神经元层和运动神经元层；相邻层之间的神经元通过以下方法建立连接：
10.前一层中的每个神经元随机连接后一层中的k个神经元，创建k个突触，所述突触的极性服从二项分布；
11.基于后一层中所有被连接过的神经元，计算平均扇入u；
12.若后一层中存在没有被前一层中神经元连接的神经元，则从前一层中随机选择u个神经元连接到后一层中未被连接神经元，连接过程中产生的突触的极性服从二项分布；
13.其中，所述指令神经元层还建立循环连接，所述循环连接包括随机选取kc个指令神经元，任意一个选中的指令神经元随机连接所有指令神经元中一个指令神经元，创建kc个突触。
14.可选地，所述行为网络中每层中的神经元的动力学模型的表达式为：
15.16.其中，xi(t+δ)是神经元i间隔时间步长δ的膜电位，xi(t)是神经元i的膜电位，是神经元i的膜电容，xj(t)是神经元j的膜电位，w
ij
是神经元i连接到神经元j的突触权重参数，δ是时间步长，是神经元i的静息电位，e
ij
是神经元i连接到神经元j的反突触电位，用于区分兴奋和抑制信号；是神经元i的漏电电导，σ(xj(t))为神经元j的激活值，γ
ij
和μ
ij
分别是神经元i和神经元j之间的σ(xj(t))的伸缩和平移变换的超参数。
17.可选地，所述预先训练好的行为网络的训练方法包括：
18.基于车辆的当前状态和当前动作，生成车辆的下一时刻状态；
19.将车辆的下一时刻状态输入至目标行为网络，由目标行为网络估计出车辆的下一时刻动作；
20.将车辆的下一时刻动作输入至目标价值网络，由目标价值网络计算出车辆的下一时刻动作打分，将车辆的下一时刻动作打分乘以预设的折扣，加上奖励值，生成td目标；所述奖励值基于车辆和障碍物的距离计算得到；
21.基于反向传播，将该td目标作为价值网络的监督值，更新与行为网络输出端相连的价值网络的网络参数；
22.将价值网络的输出数据的相反数作为行为网络的损失值，利用反向传播更新行为网络；
23.利用更新后的行为网络和价值网络软更新目标行为网络和目标价值网络。
24.可选地，所述价值网络和目标价值网络的输入数据为车辆的状态以及行为网络输出的车辆的控制量，其输出数据为动作打分。
25.可选地，在计算奖励值时，车辆距离障碍物越近，负奖励越大，奖励值与车辆和障碍物的距离成反比；车辆距离目标点距离越近，正奖励越大，奖励值与车辆和目标点距离成正比。
26.可选地，所述利用更新后的行为网络和价值网络软更新目标行为网络和目标价值网络时采用的更新公式为：
27.θ
t+1
←
τθ
t
+(1-τ)θ
′
t
28.其中，θ
t+1
为t+1时刻目标行为网络/目标价值网络的网络参数，τ为超参数，θ
t
为t时刻的目标行为网络目标/价值网络的网络参数，θ
′
t
为t时刻的行为网络/价值网络的网络参数。
29.可选地，所述自主避障规划方法还包括：
30.利用避障路径、避障时间和与障碍物的最小距离均作为评价指标，对训练好的行为网络进行评价。
31.第二方面，本发提供了一种自主避障规划装置，包括：
32.获取模块，用于获取车辆的实时状态；
33.规划模块，用于将车辆的实时状态输入至采用深度确定策略梯度方法预先训练好的行为网络，获得车辆的控制量，完成自主避障规划；
34.其中，所述预先训练好的行为网络在训练过程中，以避开障碍物为目标，以车辆的状态和障碍物的位置作为输入数据，以车辆的控制量作为标签数据。
35.第三方面，本发提供了一种自主避障规划系统，包括存储介质和处理器；
36.所述存储介质用于存储指令；
37.所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述的方法。
38.与现有技术相比，本发明的有益效果：
39.本发明能够提高自动移动车辆的安全性，十分适合于容错率低且任务复杂的场景下。
40.本发明以四种不同的神经元类型将神经元网络分为四层，每次指定神经元数量随机创建连接，使得神经元网络连接变得稀疏，因此相对于巨大参数量导致过程难以观测的深度神经网络更有确定性，能够提高自动移动车辆的安全性。
41.本发明中的神经元的动力学模型是一个时间函数，因此能像rnn一样具有处理时序信号的能力，相对于处理单一时刻的神经网络更具鲁棒性。
42.本发明网络的训练只需指定每一层需要连接的神经元数目，以及正负极性的概率就能够以端到端的方式可完成网络的创建；训练方式采用强化学习ddpg算法的训练方式，也是端到端的训练方法，因此本发明属于端到端的神经网络控制方法，更加稳定和易于使用。
附图说明
43.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，其中：
44.图1为本发明一种实施例的自主避障规划方法的流程示意图；
45.图2为本发明一种实施例的行为网络的训练过程示意图。
具体实施方式
46.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
47.另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。
48.实施例1
49.本发明实施例中提供了一种自主避障规划方法，如图1所示，包括以下步骤：
50.(1)获取车辆的实时状态；
51.(2)将车辆的实时状态输入至采用深度确定策略梯度方法预先训练好的行为网
络，获得车辆的控制量，完成自主避障规划；
52.其中，所述预先训练好的行为网络在训练过程中，以避开障碍物为目标，以车辆的状态和障碍物的位置作为输入数据，以车辆的控制量作为标签数据。
53.在本发明实施例的一种具体实施方式中，所述预先训练好的行为网络包括顺次设置的感知神经元层、中间神经元层、指令神经元层和运动神经元层；相邻层之间的神经元通过以下方法建立连接：
54.前一层中的每个神经元随机连接后一层中的k个神经元，创建k个突触，所述突触的极性服从二项分布；
55.基于后一层中所有被连接过的神经元，计算平均扇入u；
56.若后一层中存在没有被前一层中神经元连接的神经元，则从前一层中随机选择u个神经元连接到后一层中未被连接神经元，连接过程中产生的突触的极性服从二项分布；
57.其中，所述指令神经元层还建立循环连接，所述循环连接包括随机选取kc个指令神经元，任意一个选中的指令神经元随机连接所有指令神经元中一个指令神经元，创建kc个突触。在具体实施过程中，各层之间的连接的建立具体包括以下步骤：
58.建立感知神经元与中间神经元之间的连接。每个感知神经元随机连接ks个中间神经元即创建了ks个突触，ks个突触的极性(1或-1)服从概率为p1的二项分布。然后计算被连接过的中间神经元的平均扇入μ
in
(即将所有被连接的中间神经元的扇入求和，再除以被连接的中间神经元总数)，若存在没有被感知神经元连接的中间神经元，则随机选择μ
in
个感知神经元连接到这些未被连接的中间神经元上面，这些突触的极性(1或-1)服从概率为p2的二项分布。
59.建立中间神经元和指令神经元的连接。每个中间神经元随机连接ki个指令神经元即创建了ki个突触，ki个突触的极性(1或-1)服从概率为p1的二项分布。然后计算计算被连接过的指令神经元的平均扇入μ
in
。若存在没有被中间神经元连接的指令神经元，则随机选择μ
in
个中间神经元连接到这些未被连接的指令神经元上面，这些突触的极性(1或-1)服从概率为p2的二项分布。
60.创建指令神经元循环连接。随机选取kc个指令神经元，任意一个选中的指令神经元随机连接所有指令神经元中一个指令神经元(包括自身)，即创建了kc个突触。考虑ki和kc满足5：2的比例效果较好，也可以根据实际情况调整二者之间的比例；
61.建立指令神经元和运动神经元之间的连接。每个指令神经元随机连接km个运动神经元即创建了km个突触，km个突触的极性(1或-1)服从概率为p1的二项分布。然后计算被连接过的运动神经元的平均扇入μ
in
。若存在没有被指令神经元连接的运动神经元，则随机选择μ
in
个指令神经元连接到这些未被连接的运动神经元上面，这些突触的极性(1或-1)服从概率为p2的二项分布。
62.在本发明实施例的一种具体实施方式中，所述行为网络中每层中的神经元的动力学模型的表达式为：
[0063][0064]
其中，xi(t+δ)是神经元i间隔时间步长δ的膜电位，xi(t)是神经元i的膜电位，是神经元i的膜电容，xj(t)是神经元j的膜电位，w
ij
是神经元i连接到神经元j的突触权
重参数，δ是时间步长，是神经元i的静息电位，e
ij
是神经元i连接到神经元j的反突触电位，用于区分兴奋和抑制信号；g
li
是神经元i的漏电电导，σ(xj(t))为神经元j的激活值，γ
ij
和μ
ij
分别是神经元i和神经元j之间的σ(xj(t))的伸缩和平移变换的超参数。
[0065]
可见，本发明实施例中的神经元的动力学模型是一个时间函数，和rnn一样能处理时序信号，连续控制上，更具鲁棒性。
[0066]
在本发明实施例的一种具体实施方式中，如图2所示，所述预先训练好的行为网络的训练方法包括：
[0067]
基于车辆的当前状态和当前动作，生成车辆的下一时刻状态；
[0068]
将车辆的下一时刻状态输入至目标行为网络，由目标行为网络估计出车辆的下一时刻动作；
[0069]
将车辆的下一时刻动作输入至目标价值网络，由目标价值网络计算出车辆的下一时刻动作打分，将车辆的下一时刻动作打分乘以预设的折扣，加上奖励值，生成td目标；所述奖励值基于车辆和障碍物的距离计算得到；
[0070]
基于反向传播，将该td目标作为价值网络的监督值，更新与行为网络输出端相连的价值网络的网络参数；
[0071]
将价值网络的输出数据的相反数作为行为网络的损失值，利用反向传播更新行为网络；
[0072]
利用更新后的行为网络和价值网络软更新目标行为网络和目标价值网络。
[0073]
其中，所述价值网络和目标价值网络的输入数据为车辆的状态以及行为网络输出的车辆的控制量，其输出数据为动作打分。
[0074]
在计算奖励值时，车辆距离障碍物越近，负奖励越大，奖励值与车辆和障碍物的距离成反比；车辆距离目标点距离越近，正奖励越大，奖励值与车辆和目标点距离成正比。
[0075]
所述利用更新后的行为网络和价值网络软更新目标行为网络和目标价值网络时采用的更新公式为：
[0076]
θ
t+1
←
τθ
t
+(1-τ)θ
′
t
[0077]
其中，θ
t+1
为t+1时刻目标行为网络/目标价值网络的网络参数，τ为超参数，θ
t
为t时刻的目标行为网络目标/价值网络的网络参数，θ
′
t
为t时刻的行为网络/价值网络的网络参数。
[0078]
下面结合一具体实施方式对预先训练好的行为网络的训练方法进行详细说明。
[0079]
以ddpg算法为例，训练避障模型，分为行为网络和价值网络两部分。所述行为网络包括感知神经元层、中间神经元层、指令神经元层和运动神经元层，也可在此基础上增加两层全连接平滑输出的动作控制。行为网络的输出层还需要经过tanh激活函数，将输出限定在正负1之间。价值网络和行为网络网络结构相似，二者的区别在输入和输出上，行为网络输入为车辆的状态，输出是车辆的控制量。价值网络的输入是车辆的状态以及行为网络输出的车辆的控制量，输出是动作的评分，分数越高，表示控制越好。
[0080]
将编码好的数据(车辆的速度、加速度，以及相对障碍物的位置、距离)作为状态输入行为网络，行为网络输出车辆的控制量(即控制动作)，车辆运动后更新新的状态。
[0081]
计算奖励，车辆距离障碍物越近，负奖励越大，奖励与车辆和障碍物的距离成反比。车辆距离目标点距离越近，正奖励越大，奖励与车辆和目标点距离成正比。如果到达目
标点则得到很大的正奖励，如果撞到障碍物则会得到很大的负奖励。
[0082]
保存车辆当前时刻状态、当前状态下的动作，以及更新的下一个时刻的状态，以及奖励值。
[0083]
保存一定数量的数据后，从缓存池中随机抽取固定数量的批数据，数据包含当前时刻状态s
t
、当前时刻动作a
t
、当前时刻奖励r
t
(基于真实的观测值计算得到)，下一时刻的状态s
t+1
用于策略梯度训练。
[0084]
策略梯度训练方面，设置四个网络，分别为：行为网络和目标行为网络，价值网络和目标价值网络，减小网络高估的问题。将下一时刻状态s
t+1
输入至目标行为网络，计算得到下一时刻的动作a
t+1
，再用目标价值网络对a
t+1
打分。使用时间差分(temporal-difference，td)算法计算td目标，td目标的计算公式即为r
t
+γmaxq(s
t+1
,a
t+1
；w)，td目标是价值网络在t时刻做出的预测，其中包含基于真实观测到的奖励r
t
，γ是折扣，a
t+1
是下一时刻的动作，w为权重，q()为目标价值网络的输出；td目标与价值网络的输出的差值构成了td误差，即网络损失。以价值网络的输出与td目标更相近的原则构建损失函数，通过反向传播更新价值网络参数。
[0085]
将价值网络的输出的相反数作为行为网络的损失值，利用反向传播更新行为网络。
[0086]
利用更新的行为网络和价值网络软更新目标行为网络和目标价值网络。具体地，即在每个batch缓慢更新目标网络的参数，使得目标网络的参数不会发生过大的变化。即网络参数θ
t+1
←
τθ
t
+(1-τ)θ
′
t
，其中，θ
t+1
为t+1时刻目标行为网络/目标价值网络的网络参数，τ为超参数，θ
t
为t时刻的目标行为网络目标/价值网络的网络参数，θ
′
t
为t时刻的行为网络/价值网络的网络参数；
[0087]
循环执行以上步骤，直到预设好的循环轮数数量。
[0088]
在本发明实施例的一种具体实施方式中，为了评价行为网络的训练优劣，所述自主避障规划方法还包括：
[0089]
利用避障路径、避障时间和与障碍物的最小距离均作为评价指标，对训练好的行为网络进行评价；
[0090]
使用训练好的行为网络能够为车辆提供避障的车辆控制量，如连续的线速度、角速度或方向盘角度。
[0091]
实施例2
[0092]
基于与实施例1相同的发明构思，本发明实施例中提供了一种自主避障规划装置，包括：
[0093]
获取模块，用于获取车辆的实时状态；
[0094]
规划模块，用于将车辆的实时状态输入至采用深度确定策略梯度方法预先训练好的行为网络，获得车辆的控制量，完成自主避障规划；
[0095]
其中，所述预先训练好的行为网络在训练过程中，以避开障碍物为目标，以车辆的状态和障碍物的位置作为输入数据，以车辆的控制量作为标签数据。
[0096]
在本发明实施例的一种具体实施方式中，所述预先训练好的行为网络包括顺次设置的感知神经元层、中间神经元层、指令神经元层和运动神经元层；相邻层之间的神经元通过以下方法建立连接：
[0097]
前一层中的每个神经元随机连接后一层中的k个神经元，创建k个突触，所述突触的极性服从二项分布；
[0098]
基于后一层中所有被连接过的神经元，计算平均扇入u；
[0099]
若后一层中存在没有被前一层中神经元连接的神经元，则从前一层中随机选择u个神经元连接到后一层中未被连接神经元，连接过程中产生的突触的极性服从二项分布；
[0100]
其中，所述指令神经元层还建立循环连接，所述循环连接包括随机选取kc个指令神经元，任意一个选中的指令神经元随机连接所有指令神经元中一个指令神经元，创建kc个突触。在具体实施过程中，各层之间的连接的建立具体包括以下步骤：
[0101]
建立感知神经元与中间神经元之间的连接。每个感知神经元随机连接ks个中间神经元即创建了ks个突触，ks个突触的极性(1或-1)服从概率为p1的二项分布。然后计算被连接过的中间神经元的平均扇入μ
in
(即将所有被连接的中间神经元的扇入求和，再除以被连接的中间神经元总数)，若存在没有被感知神经元连接的中间神经元，则随机选择μ
in
个感知神经元连接到这些未被连接的中间神经元上面，这些突触的极性(1或-1)服从概率为p2的二项分布。
[0102]
建立中间神经元和指令神经元的连接。每个中间神经元随机连接ki个指令神经元即创建了ki个突触，ki个突触的极性(1或-1)服从概率为p1的二项分布。然后计算计算被连接过的指令神经元的平均扇入μ
in
。若存在没有被中间神经元连接的指令神经元，则随机选择μ
in
个中间神经元连接到这些未被连接的指令神经元上面，这些突触的极性(1或-1)服从概率为p2的二项分布。
[0103]
创建指令神经元循环连接。随机选取kc个指令神经元，任意一个选中的指令神经元随机连接所有指令神经元中一个指令神经元(包括自身)，即创建了kc个突触。考虑ki和kc满足5：2的比例效果较好，也可以根据实际情况调整二者之间的比例；
[0104]
建立指令神经元和运动神经元之间的连接。每个指令神经元随机连接km个运动神经元即创建了km个突触，km个突触的极性(1或-1)服从概率为p1的二项分布。然后计算被连接过的运动神经元的平均扇入μ
in
。若存在没有被指令神经元连接的运动神经元，则随机选择μ
in
个指令神经元连接到这些未被连接的运动神经元上面，这些突触的极性(1或-1)服从概率为p2的二项分布。
[0105]
在本发明实施例的一种具体实施方式中，所述行为网络中每层中的神经元的动力学模型的表达式为：
[0106][0107][0108]
其中，xi(t+δ)是神经元i间隔时间步长δ的膜电位，xi(t)是神经元i的膜电位，是神经元i的膜电容，xj(t)是神经元j的膜电位，w
ij
是神经元i连接到神经元j的突触权重参数，δ是时间步长，是神经元i的静息电位，e
ij
是神经元i连接到神经元j的反突触电位，用于区分兴奋和抑制信号；是神经元i的漏电电导，σ(xj(t))为神经元j的激活值，γ
ij
和μ
ij
分别是神经元i和神经元j之间的σ(xj(t))的伸缩和平移变换的超参数。所述σ(xj(t))为s型函数。
[0109]
在本发明实施例的一种具体实施方式中，所述预先训练好的行为网络的训练方法包括：
[0110]
基于车辆的当前状态和当前动作，生成车辆的下一时刻状态；
[0111]
将车辆的下一时刻状态输入至目标行为网络，由目标行为网络估计出车辆的下一时刻动作；
[0112]
将车辆的下一时刻动作输入至目标价值网络，由目标价值网络计算出车辆的下一时刻动作打分，将车辆的下一时刻动作打分乘以预设的折扣，加上奖励值，生成td目标；所述奖励值基于车辆和障碍物的距离计算得到；
[0113]
基于反向传播，将该td目标作为价值网络的监督值，更新与行为网络输出端相连的价值网络的网络参数；
[0114]
将价值网络的输出数据的相反数作为行为网络的损失值，利用反向传播更新行为网络；
[0115]
利用更新后的行为网络和价值网络软更新目标行为网络和目标价值网络。
[0116]
其中，所述价值网络和目标价值网络的输入数据为车辆的状态以及行为网络输出的车辆的控制量，其输出数据为动作打分。
[0117]
在计算奖励值时，车辆距离障碍物越近，负奖励越大，奖励值与车辆和障碍物的距离成反比；车辆距离目标点距离越近，正奖励越大，奖励值与车辆和目标点距离成正比。
[0118]
所述利用更新后的行为网络和价值网络软更新目标行为网络和目标价值网络时采用的更新公式为：
[0119]
θ
t+1
←
τθ
t
+(1-τ)θ
′
t
[0120]
其中，θ
t+1
为t+1时刻目标行为网络/目标价值网络的网络参数，τ为超参数，θ
t
为t时刻的目标行为网络目标/价值网络的网络参数，θ
′
t
为t时刻的行为网络/价值网络的网络参数。
[0121]
下面结合一具体实施方式对预先训练好的行为网络的训练方法进行详细说明。
[0122]
以ddpg算法为例，训练避障模型，分为行为网络和价值网络两部分。所述行为网络包括感知神经元层、中间神经元层、指令神经元层和运动神经元层，也可在此基础上增加两层全连接平滑输出的动作控制。行为网络的输出层还需要经过tanh激活函数，将输出限定在正负1之间。价值网络和行为网络网络结构相似，二者的区别在输入和输出上，行为网络输入为车辆的状态，输出是车辆的控制量。价值网络的输入是车辆的状态以及行为网络输出的车辆的控制量，输出是动作的评分，分数越高，表示控制越好。
[0123]
将编码好的数据(车辆的速度、加速度，以及相对障碍物的位置、距离)作为状态输入行为网络，行为网络输出车辆的控制量(即控制动作)，车辆运动后更新新的状态。
[0124]
计算奖励，车辆距离障碍物越近，负奖励越大，奖励与车辆和障碍物的距离成反比。车辆距离目标点距离越近，正奖励越大，奖励与车辆和目标点距离成正比。如果到达目标点则得到很大的正奖励，如果撞到障碍物则会得到很大的负奖励。
[0125]
保存车辆当前时刻状态、当前状态下的动作，以及更新的下一个时刻的状态，以及奖励值。
[0126]
保存一定数量的数据后，从缓存池中随机抽取固定数量的批数据，数据包含当前
时刻状态s
t
、当前时刻动作a
t
、当前时刻奖励r
t
(基于真实的观测值计算得到)，下一时刻的状态s
t+1
用于策略梯度训练。
[0127]
策略梯度训练方面，设置四个网络，分别为：行为网络和目标行为网络，价值网络和目标价值网络，减小网络高估的问题。将下一时刻状态s
t+1
输入至目标行为网络，计算得到下一时刻的动作a
t+1
，再用目标价值网络对a
t+1
打分。使用时间差分(temporal-difference，td)算法计算td目标，td目标的计算公式即为r
t
+γmaxq(s
t+1
,a
t+1
；w)，td目标是价值网络在t时刻做出的预测，其中包含基于真实观测到的奖励r
t
，γ是折扣，a
t+1
是下一时刻的动作，w为权重，q()为目标价值网络的输出；td目标与价值网络的输出的差值构成了td误差，即网络损失。以价值网络的输出与td目标更相近的原则构建损失函数，通过反向传播更新价值网络参数。
[0128]
将价值网络的输出的相反数作为行为网络的损失值，利用反向传播更新行为网络。
[0129]
利用更新的行为网络和价值网络软更新目标行为网络和目标价值网络。具体地，即在每个batch缓慢更新目标网络的参数，使得目标网络的参数不会发生过大的变化。即网络参数θ
t+1
←
τθ
t
+(1-τ)θ
′
t
，其中，θ
t+1
为t+1时刻目标行为网络/目标价值网络的网络参数，τ为超参数，θ
t
为t时刻的目标行为网络目标/价值网络的网络参数，θ
′
t
为t时刻的行为网络/价值网络的网络参数；
[0130]
循环执行以上步骤，直到预设好的循环轮数数量。
[0131]
在本发明实施例的一种具体实施方式中，为了评价行为网络的训练优劣，所述自主避障规划方法还包括：
[0132]
利用避障路径、避障时间和与障碍物的最小距离均作为评价指标，对训练好的行为网络进行评价；
[0133]
使用训练好的行为网络能够为车辆提供避障的车辆控制量，如连续的线速度、角速度或方向盘角度。
[0134]
实施例3
[0135]
基于与实施例1相同的发明构思，本发明实施例中提供了一种自主避障规划系统，包括存储介质和处理器；
[0136]
所述存储介质用于存储指令；
[0137]
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述的方法。
[0138]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0139]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0140]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0141]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0142]
以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。
[0143]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

技术特征：
1.一种自主避障规划方法，其特征在于，包括：获取车辆的实时状态；将车辆的实时状态输入至采用深度确定策略梯度方法预先训练好的行为网络，获得车辆的控制量，完成自主避障规划；其中，所述预先训练好的行为网络在训练过程中，以避开障碍物为目标，以车辆的状态和障碍物的位置作为输入数据，以车辆的控制量作为标签数据。2.根据权利要求1所述的一种自主避障规划方法，其特征在于：所述预先训练好的行为网络包括顺次设置的感知神经元层、中间神经元层、指令神经元层和运动神经元层；相邻层之间的神经元通过以下方法建立连接：前一层中的每个神经元随机连接后一层中的k个神经元，创建k个突触，所述突触的极性服从二项分布；基于后一层中所有被连接过的神经元，计算平均扇入u；若后一层中存在没有被前一层中神经元连接的神经元，则从前一层中随机选择u个神经元连接到后一层中未被连接神经元，连接过程中产生的突触的极性服从二项分布；其中，所述指令神经元层还建立循环连接，所述循环连接包括随机选取k
c
个指令神经元，任意一个选中的指令神经元随机连接所有指令神经元中一个指令神经元，创建k
c
个突触。3.根据权利要求1所述的一种自主避障规划方法，其特征在于：所述行为网络中每层中的神经元的动力学模型的表达式为：的神经元的动力学模型的表达式为：其中，x
i
(t+δ)是神经元i间隔时间步长δ的膜电位，x
i
(t)是神经元i的膜电位，是神经元i的膜电容，x
j
(t)是神经元j的膜电位，w
ij
是神经元i连接到神经元j的突触权重参数，δ是时间步长，是神经元i的静息电位，e
ij
是神经元i连接到神经元j的反突触电位，用于区分兴奋和抑制信号；g
li
是神经元i的漏电电导，σ(x
j
(t))为神经元j的激活值，γ
ij
和μ
ij
分别是神经元i和神经元j之间的σ(x
j
(t))的伸缩和平移变换的超参数。4.根据权利要求1所述的一种自主避障规划方法，其特征在于：所述预先训练好的行为网络的训练方法包括：基于车辆的当前状态和当前动作，生成车辆的下一时刻状态；将车辆的下一时刻状态输入至目标行为网络，由目标行为网络估计出车辆的下一时刻动作；将车辆的下一时刻动作输入至目标价值网络，由目标价值网络计算出车辆的下一时刻动作打分，将车辆的下一时刻动作打分乘以预设的折扣，加上奖励值，生成td目标；所述奖励值基于车辆和障碍物的距离计算得到；基于反向传播，将该td目标作为价值网络的监督值，更新与行为网络输出端相连的价值网络的网络参数；
将价值网络的输出数据的相反数作为行为网络的损失值，利用反向传播更新行为网络；利用更新后的行为网络和价值网络软更新目标行为网络和目标价值网络。5.根据权利要求4所述的一种自主避障规划方法，其特征在于：所述价值网络和目标价值网络的输入数据为车辆的状态以及行为网络输出的车辆的控制量，其输出数据为动作打分。6.根据权利要求4所述的一种自主避障规划方法，其特征在于：在计算奖励值时，车辆距离障碍物越近，负奖励越大，奖励值与车辆和障碍物的距离成反比；车辆距离目标点距离越近，正奖励越大，奖励值与车辆和目标点距离成正比。7.根据权利要求4所述的一种自主避障规划方法，其特征在于：所述利用更新后的行为网络和价值网络软更新目标行为网络和目标价值网络时采用的更新公式为：θ
t+1
←
τθ
t
+(1-τ)θ
t
′
其中，θ
t+1
为t+1时刻目标行为网络/目标价值网络的网络参数，τ为超参数，θ
t
为t时刻的目标行为网络目标/价值网络的网络参数，θ
t
′
为t时刻的行为网络/价值网络的网络参数。8.根据权利要求4所述的一种自主避障规划方法，其特征在于：所述自主避障规划方法还包括：利用避障路径、避障时间和与障碍物的最小距离均作为评价指标，对训练好的行为网络进行评价。9.一种自主避障规划装置，其特征在于，包括：获取模块，用于获取车辆的实时状态；规划模块，用于将车辆的实时状态输入至采用深度确定策略梯度方法预先训练好的行为网络，获得车辆的控制量，完成自主避障规划；其中，所述预先训练好的行为网络在训练过程中，以避开障碍物为目标，以车辆的状态和障碍物的位置作为输入数据，以车辆的控制量作为标签数据。10.一种自主避障规划系统，其特征在于，包括存储介质和处理器；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行根据权利要求1-8中任一项所述的方法。

技术总结
本发明公开了一种自主避障规划方法、装置及系统，所述方法包括获取车辆的实时状态；将车辆的实时状态输入至采用深度确定策略梯度方法预先训练好的行为网络，获得车辆的控制量，完成自主避障规划；其中，所述预先训练好的行为网络在训练过程中，以避开障碍物为目标，以车辆的状态和障碍物的位置作为输入数据，以车辆的控制量作为标签数据。本发明相对于巨大参数量导致过程难以观测的深度神经网络更有确定性，提高自动移动车辆的安全性，十分适合于容错率低且任务复杂的场景下。于容错率低且任务复杂的场景下。于容错率低且任务复杂的场景下。

技术研发人员：杨宗林陶丽颖尚德龙周玉梅
受保护的技术使用者：中科南京智能技术研究院
技术研发日：2023.06.05
技术公布日：2023/8/14

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种安全带自动锁合结构及锁合方法与流程 下一篇：用于发送和接收信号的方法及装置、以及计算机可读介质与流程

一种自主避障规划方法、装置及系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种自主避障规划方法、装置及系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表