融合堆叠LSTM与SAC算法的路径规划方法及系统
未命名
08-07
阅读:353
评论:0
融合堆叠lstm与sac算法的路径规划方法及系统
技术领域
1.本发明涉及路径规划技术领域,具体地说,涉及一种融合堆叠lstm与sac算法的路径规划方法及系统。
背景技术:
2.传统的路径规划方法,即基于地图的方法,主要依赖同步定位与建图(simultaneous localization and mapping,slam)和导航。一个突出的问题是,这些方法易受到传感器噪声累积的影响,这些噪声沿着从映射、定位到导航的过程传播,导致这些方法累积误差较大。
3.为了减少累计误差,越来越多的研究人员将时间精力投入到基于深度强化学习(deep reinforcement learning,drl)的端到端方法上,以人工智能体学习策略时产生的最大化奖励来评估规划路径的性能。深度强化学习的路径规划方法是一种新的端到端方法,它基于第一人称视觉信息帮助智能体规划一条从起点到达特定目标位置的无碰最优路径。
4.有文献提出了一种新的基于近端策略优化(proximal policy optimization,ppo)算法的室内路径规划方法,它可以在室内环境中仅使用rgb图像和里程计来到达之前没有训练过的新目标。堆叠的lstm结构旨在帮助记忆环境,并学习建立内部表征。该模型以rgb图像作为视觉输入,以里程计作为目标参考最后一个时间步中的速度和回报有助于理解路径规划的任务。最后,在模拟环境和真实环境下进行了实验,到达新目标的成功率为60%。
5.有文献提出了一种新的基于视觉的路径规划注意力概率模型,该模型以resnet18最顶卷积层的空间位置为子窗口,编码了观测对象的语义信息,以及它们所在位置的空间信息。注意力概率模型由三个部分组成:目标、动作和记忆。“什么”和“哪里”的这种组合使智能体有效地规划到目标对象的最优路径。
6.有文献提出了一种多目标协作的基于视觉的路径规划模型。引入了两种新的路径规划辅助任务:逆动力学模型和多目标协同学习。逆动力学模型在给定智能体的上一状态和当前状态的情况下,预测上一动作。通过预测动作和真实动作的比较,可以确定顺序状态之间的关键差异,充分捕获观测与目标之间的线索,这可以解决深度强化学习中的奖励稀疏问题。多目标协同学习可以将一个已成功到达目标生成的样本用于另一个相关目标的路径规划,显著提高了样本利用率。
7.但是,现有的技术没有充分理解环境中的信息,对未知新目标的泛化性能差、动态避障能力差,且对深度强化学习的奖励函数设计较简单,没有充分利用移动机器人本身的运动信息,因此会出现奖励稀疏的问题与推理不充分的问题,进而使得训练收敛速度变慢,到达目标的成功率变低,规划的路径不是最短最优。
技术实现要素:
8.本发明的内容是提供一种融合堆叠lstm与sac算法的路径规划方法及系统,其能够提高了对未知目标的泛化能力及规划到指定目标成功率。
9.根据本发明的一种融合堆叠lstm与sac算法的路径规划方法,其包括以下步骤:
10.一、收集移动机器人第一视角观测到的常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;
11.二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;
12.三、构建堆叠lstm网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠lstm网络中;
13.四、构建路径规划的sac深度强化学习模型,将堆叠lstm网络输出的结果馈送到sac深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,通过改进的奖励函数进行sac深度强化学习模型的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。
14.作为优选,常规场景图像尺寸为224
×
224
×
1,深度场景图像尺寸为64
×
64
×
1。
15.作为优选,卷积神经网络包括4个卷积层,每层分别有128、64、16、16个滤波器、3
×
3的内核,跨距为1,每一层之间用relu作为激活函数。
16.作为优选,堆叠lstm网络包括2层lstm网络和全连接层,卷积特征和目标点的位置输入到第1层lstm网络中,然后上一时刻的速度v
t-1
及上一时刻的奖励r
t-1
输入到第2层lstm网络中,再输入到包含256个神经元的全连接层中。
17.作为优选,改进的奖励函数为:
[0018][0019]
其中,rc为碰撞奖励,d
t-1
为上一时刻t-1下移动机器人与目标位置的距离,d
t
为当前时刻t下移动机器人与目标位置的距离,若该距离小于常量阈值t,移动机器人则获得到达奖励ra,dd为移动机器人到动态障碍物的距离,d为以动态障碍物为中心的警戒区半径阈值,cd为警戒区参数,cr为距离参数,c
l
为线速度参数,ca为角速度参数,为移动机器人在t时刻下的线速度,为移动机器人在t时刻下的角速度。
[0020]
作为优选,改进的奖励函数训练流程如下:
[0021]
1)收集目标点、障碍物的位置信息,计算移动机器人与目标点、障码物的距离;
[0022]
2)判断移动机器人到目标点间的距离是否小于常量闽值t,若是,则获得到达目标的正奖励,训练结束;若否,进行下一步;
[0023]
3)判断移动机器人到动态障碍物间的距高是否小于阀值d,若是,获得警戒区负奖励,训练结束;若否,进行下一步;
[0024]
4)判断是否发生碰撞,若是,获得碰撞的负奖励;若否,获得目标距离、角速度、线速度及时间相关的综合奖励,训练结束。
[0025]
本发明提供了一种融合堆叠lstm与sac算法的路径规划系统,其采用上述的融合堆叠lstm与sac算法的路径规划方法,并包括:
[0026]
环境感知模块:通过传感器收集周围环境的信息,用于确定机器人的位置和状态;
[0027]
状态特征提取模块:将环境感知模块获取到的图像数据作为状态输入,通过深度卷积神经网络提取特征,获取机器人在当前状态下的关键特征;
[0028]
记忆推理模块:以环境感知模块获取到的运动数据及位置数据作为参考,使用堆叠lstm网络对环境及目标进行学习与记忆;
[0029]
行为决策模块:根据移动机器人的观测图像和目标位置等,运用sac深度强化学习模型训练移动机器人,确定移动机器人在当前状态下的角速度与线速度,以此指导移动机器人运动直到到达目标。
[0030]
本发明提出一种新的融合堆叠长短期记忆神经网络(long short term memory,lstm)和柔性演员-评论家(soft actor-critic,sac)算法的端到端路径规划模型,根据移动机器人第一人称视角观测到的rgb-d图像以及目标点在的极坐标,通过改进框架结构,并针对奖励稀疏、动态避障及对未知新目标的泛化性能的问题,引入移动机器人本身的运动信息及动态障碍物警戒区信息来改进奖励函数,训练过程能够以较快速度收敛,提高了对未知目标的泛化能力及规划到指定目标成功率。
附图说明
[0031]
图1为实施例中一种融合堆叠lstm与sac算法的路径规划方法的流程图;
[0032]
图2为实施例中融合堆叠lstm与sac算法的路径规划框架示意图;
[0033]
图3为实施例中改进的奖励函数训练流程图。
具体实施方式
[0034]
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
[0035]
实施例
[0036]
如图1所示,本实施例提供了一种融合堆叠lstm与sac算法的路径规划方法,其包括以下步骤:
[0037]
一、收集移动机器人第一视角观测到的常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;
[0038]
二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;
[0039]
三、构建堆叠lstm网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠lstm网络中;
[0040]
四、构建路径规划的sac深度强化学习模型,将堆叠lstm网络输出的结果馈送到sac深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,通过改进的奖励函数进行sac深度强化学习模型的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。
[0041]
本实施例的主要任务是实现移动机器人在无地图环境下,以移动机器人当前时刻第一人称视角观测到的rgb-d图像及目标点在移动机器人坐标系中的极坐标为输入,融合
堆叠lstm和sac算法改进路径规划框架与奖励函数来训练移动机器人从起点到达指定目标位置,输出移动机器人当前时刻的角速度与线速度,实现的端到端的路径规划任务,使移动机器人可以无碰安全地到达目标位置,并通过堆叠lstm推理移动机器人到达未知新目标,提高泛化性能。因此,该问题可被定义为:
[0042]vt
=f(i
t
,o
t
,v
t-1
)
[0043]
其中,i
t
为移动机器人以第一人称视角观测到的rgb-d图像进行特征提取后的特征值,o
t
为当前时刻移动机器人与目标位置的相对极坐标位置,v
t-1
为移动机器人上一时刻输出的速度,包括角速度与线速度。
[0044]
融合堆叠lstm与sac算法的路径规划框架
[0045]
融合堆叠lstm与sac算法的路径规划框架以当前时刻移动机器人第一人称视角观测到的rgb-d图像及与目标点有关的距离和角度的极坐标为输入,输出移动机器人的角速度与线速度,实现端到端的路径规划任务,通过对不同的目标进行训练,更新路径规划框架中的相关参数,再对未知的新目标进行推理,通过到达新目标的规划成功率来决定路径规划框架是否继续需要进行下一步更新,到达新目标的规划成功率越高,该路径规划框架对环境信息的理解程度越高。
[0046]
融合堆叠lstm与sac算法的路径规划框架如图2所示,rgb-d图像尺寸为224
×
224
×
1,深度图像尺寸为64
×
64
×
1,然后分别馈送到卷积神经网络的4个卷积层中,每层分别有128、64、16、16个滤波器、3
×
3的内核,跨距为1,每一层之间用relu作为激活函数。将得到的输出与目标信息输入到堆叠lstm网络的第1层lstm网络中,再与上一时刻的速度v
t-1
及上一时刻的奖励r
t-1
输入到第2层lstm网络中,再输入到包含256个神经元的全连接层中,最后基于sac深度强化学习模型确定移动机器人当前时刻的速度v
t
,其中包含线速度和角速度
[0047]
改进的奖励函数
[0048]
在三维环境中,移动机器人的线速度范围为0~0.3m/s,角速度范围为0~1rad/s,移动机器人通过与环境的交互累积经验来训练路径规划框架,得到从起点到指定目标位置的无碰最优路径,并基于堆叠的lstm网络推理到达未训练过的未知新目标,实现端到端的路径规划任务。
[0049]
深度强化学习中的奖励函数设计十分关键,奖励函数的好坏决定了移动机器人能否有效的学习环境,能否快速完成任务。在路径规划框架中,移动机器人能否安全快速到达目标,取决于移动机器人是否发生碰撞,是否速度够快,是否路径最短。因此,若想使移动机器人安全无碰地到达目标位置,需要在移动机器人发生碰撞时给予负奖励rc;在靠近动态障碍物时,若与动态障碍物的距离dd小于以动态障碍物为中心的警戒区半径阈值d,为鼓励移动机器人逃逸动态障碍物,加入相应的警戒区负奖励;在与目标位置的距离d
t
小于规定常量阈值t时,认定移动机器人已经到达目标位置,给予正奖励ra;在其他情况下,为了鼓励移动机器人高效探索环境,加入移动机器人线速度的作为正奖励;为了使移动机器人从起到目标的路径更平滑,加入移动机器人角速度的负奖励;为了使移动机器人朝着目标所在方向移动,加入移动机器人与目标距离的作为正奖励;为了使移动机器人快速接近目标,给与-0.01/s的有关时间的负奖励。改进的奖励函数为:
[0050][0051]
其中,rc为碰撞奖励,d
t-1
为上一时刻t-1下移动机器人与目标位置的距离,d
t
为当前时刻t下移动机器人与目标位置的距离,若该距离小于常量阈值t,移动机器人则获得到达奖励ra,dd为移动机器人到动态障碍物的距离,d为以动态障碍物为中心的警戒区半径阈值,cd为警戒区参数,cr为距离参数,c
l
为线速度参数,ca为角速度参数,为移动机器人在t时刻下的线速度,为移动机器人在t时刻下的角速度。
[0052]
如图3所示,改进的奖励函数训练流程如下:
[0053]
1)收集目标点、障碍物的位置信息,计算移动机器人与目标点、障码物的距离;
[0054]
2)判断移动机器人到目标点间的距离是否小于常量闽值t,若是,则获得到达目标的正奖励,训练结束;若否,进行下一步;
[0055]
3)判断移动机器人到动态障碍物间的距高是否小于阀值d,若是,获得警戒区负奖励,训练结束;若否,进行下一步;
[0056]
4)判断是否发生碰撞,若是,获得碰撞的负奖励;若否,获得目标距离、角速度、线速度及时间相关的综合奖励,训练结束。
[0057]
本实施例提供了一种融合堆叠lstm与sac算法的路径规划系统,其采用上述的融合堆叠lstm与sac算法的路径规划方法,并包括:
[0058]
环境感知模块:通过传感器收集周围环境的信息,用于确定机器人的位置和状态;
[0059]
状态特征提取模块:将环境感知模块获取到的图像数据作为状态输入,通过深度卷积神经网络提取特征,获取机器人在当前状态下的关键特征;
[0060]
记忆推理模块:以环境感知模块获取到的运动数据及位置数据作为参考,使用堆叠lstm网络对环境及目标进行学习与记忆;
[0061]
行为决策模块:根据移动机器人的观测图像和目标位置等,运用sac深度强化学习模型训练移动机器人,确定移动机器人在当前状态下的角速度与线速度,以此指导移动机器人运动直到到达目标。
[0062]
本实施例经过与其他基于深度强化学习的端到端路径规划方法进行多组实验对比,在gazebo仿真框架中取得了很好的效果,泛化能力和到达目标的成功率都有所提升。
[0063]
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
技术特征:
1.融合堆叠lstm与sac算法的路径规划方法,其特征在于:包括以下步骤:一、收集移动机器人第一视角观测到的常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;三、构建堆叠lstm网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠lstm网络中;四、构建路径规划的sac深度强化学习模型,将堆叠lstm网络输出的结果馈送到sac深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,通过改进的奖励函数进行sac深度强化学习模型的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。2.根据权利要求1所述的融合堆叠lstm与sac算法的路径规划方法,其特征在于:常规场景图像尺寸为224
×
224
×
1,深度场景图像尺寸为64
×
64
×
1。3.根据权利要求2所述的融合堆叠lstm与sac算法的路径规划方法,其特征在于:卷积神经网络包括4个卷积层,每层分别有128、64、16、16个滤波器、3
×
3的内核,跨距为1,每一层之间用relu作为激活函数。4.根据权利要求3所述的融合堆叠lstm与sac算法的路径规划方法,其特征在于:堆叠lstm网络包括2层lstm网络和全连接层,卷积特征和目标点的位置输入到第1层lstm网络中,然后上一时刻的速度v
t-1
及上一时刻的奖励r
t-1
输入到第2层lstm网络中,再输入到包含256个神经元的全连接层中。5.根据权利要求4所述的融合堆叠lstm与sac算法的路径规划方法,其特征在于:改进的奖励函数为:其中,r
c
为碰撞奖励,d
t-1
为上一时刻t-1下移动机器人与目标位置的距离,d
t
为当前时刻t下移动机器人与目标位置的距离,若该距离小于常量阈值t,移动机器人则获得到达奖励r
a
,d
d
为移动机器人到动态障碍物的距离,d为以动态障碍物为中心的警戒区半径阈值,c
d
为警戒区参数,c
r
为距离参数,c
l
为线速度参数,c
a
为角速度参数,为移动机器人在t时刻下的线速度,为移动机器人在t时刻下的角速度。6.根据权利要求5所述的融合堆叠lstm与sac算法的路径规划方法,其特征在于:改进的奖励函数训练流程如下:1)收集目标点、障碍物的位置信息,计算移动机器人与目标点、障码物的距离;2)判断移动机器人到目标点间的距离是否小于常量闽值t,若是,则获得到达目标的正奖励,训练结束;若否,进行下一步;3)判断移动机器人到动态障碍物间的距高是否小于阀值d,若是,获得警戒区负奖励,训练结束;若否,进行下一步;
4)判断是否发生碰撞,若是,获得碰撞的负奖励;若否,获得目标距离、角速度、线速度及时间相关的综合奖励,训练结束。7.融合堆叠lstm与sac算法的路径规划系统,其特征在于:其采用如权利要求1-6中任一所述的融合堆叠lstm与sac算法的路径规划方法,并包括:环境感知模块:通过传感器收集周围环境的信息,用于确定机器人的位置和状态;状态特征提取模块:将环境感知模块获取到的图像数据作为状态输入,通过深度卷积神经网络提取特征,获取机器人在当前状态下的关键特征;记忆推理模块:以环境感知模块获取到的运动数据及位置数据作为参考,使用堆叠lstm网络对环境及目标进行学习与记忆;行为决策模块:根据移动机器人的观测图像和目标位置等,运用sac深度强化学习模型训练移动机器人,确定移动机器人在当前状态下的角速度与线速度,以此指导移动机器人运动直到到达目标。
技术总结
本发明涉及路径规划技术领域,涉及一种融合堆叠LSTM与SAC算法的路径规划方法及系统,方法包括:一、收集常规场景图像及深度场景图像,并设计卷积神经网络提取图像特征;二、收集目标点、障碍物的位置信息,计算移动机器人与目标点、障碍物的距离;三、构建堆叠LSTM网络,将提取到的卷积特征、目标点的位置、上一时刻移动机器人的线速度及奖励输入到堆叠LSTM网络中;四、构建路径规划的SAC深度强化学习模型,并引入动态障碍物的位置信息改进在奖励函数,进行的训练,输出移动机器人连续的线速度和角速度,直到移动机器人达到目标点。本发明能提高对未知目标的泛化能力及规划到指定目标成功率。标成功率。标成功率。
技术研发人员:任子良 闫皎洁 张锲石 秦勇 张福勇 洪小宇
受保护的技术使用者:东莞理工学院
技术研发日:2023.06.02
技术公布日:2023/8/6
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
