一种基于智能网联车的交叉路口管理方法
未命名
07-17
阅读:93
评论:0
1.本发明涉及智能化交通技术领域,尤其是涉及一种基于智能网联车的交叉路口管理方法。
背景技术:
2.近年来,交通拥堵问题一直是一个亟待解决的重要问题,现在的交通信号灯灵活性较差,相位变换存在上限,交通拥堵愈发严重,而在这其中交叉路口是一个进行堵塞优化的关键结点。随着车联网和人工智能技术的发展,希望通过对交叉路口进行智能化管理已达到解决交通拥堵的目的,有信号的交叉路口智能化管理受限于信号灯本身,可以很快的取得一定效果,但是上限较低,因此大部分研究集中在无信号交叉路口智能化管理。
3.在智能化交通领域,有三个关键技术:低延时车联网、智能网联车以及道路计算单元,通过结合这三者技术,可以在一定程度上对现阶段每个交通问题进行智能化管理,交叉路口也不例外。车联网技术是一个基础技术,和如今的通信网络类似,智能网联车是现在车辆的发展方向,车辆逐渐具备计算能力和通信能力,分为智能车和网联车两种,如图1所示,智能车一般认为是可以进行智能驾驶的车辆,因此具有能直接与控制模块相连的决策模块,网联车是可以连接到车联网网络,但还是由驾驶员进行驾驶的车辆。
4.道路计算单元一般由路口计算单元和计算服务器构成,相较于智能车和网联车,道路计算单元造价昂贵,成本高昂,在每一个路口都设置道路计算单元很不现实,因此针对众多的小型交叉路口,如何构建分布式策略,利用车辆本身的计算能力来替代造价高昂的道路计算单元,以达到智能化交叉路口管理的目标,是目前亟需解决的问题。
5.同时,分布式方案固然可以大幅度减少因为建造道路计算单元而产生的成本开销,但是在如何收敛和优化算法上存在很大的难度,因为缺少了中心结点后,整个路口在大部分情况下并没有一个接受全局车辆信息的结点,导致每个分布式结点(车辆)在接收路口信息时会不全面,在算法优化时就会带来环境不稳定而难以收敛优化的问题。
技术实现要素:
6.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于智能网联车的交叉路口管理方法。
7.本发明的目的可以通过以下技术方案来实现:
8.一种基于智能网联车的交叉路口管理方法,包括以下步骤:
9.构建多智能体强化学习模型,智能体定义为每辆进入交叉路口的智能车;
10.设定智能车与网联车之间的协同数据通信,基于协同通信数据,为每个智能体定义局部状态空间、局部动作空间和奖励函数;
11.通过ra-maddpg算法对每个智能体进行训练和优化,得到训练好的模型,最后将训练好的模型部署于智能车中,通过模型引导智能车运行实现交叉路口管理。
12.进一步地,所述ra-maddpg算法为多智能体残差注意力机制深度确定性策略网络
算法,采用中心式训练分布式执行的思想和注意力网络的残差连接相结合,算法构建包括算法建模步骤及算法训练和更新步骤,所述算法建模步骤包括:
13.构建全局状态空间;
14.构建局部观测空间;
15.构建动作空间;
16.构建奖励函数。
17.进一步地,所述构建全局状态空间包括:
18.获取交叉路口中每辆车的运行信息,将每辆车的运行信息用数字表示,所述运行信息包括位置坐标、速度大小及方向;
19.依次得到各辆车用数字表示的运行信息,记为si,全局的状态空间表示为:n表示路口中车辆的总数。
20.进一步地,所述动作空间定义为智能车的油门、刹车和方向盘转向角。
21.进一步地,所述奖励函数定义为:
[0022][0023]
v为车辆当前速度,v
max
为车辆的最大速度,v
min
为车辆的最小速度,collision表示车辆是否发生碰撞,arrived表示车辆是否到达目的地,interact表示车辆之间是否进行信息交互,η1,η2,η3,η4分别表示各项系数。
[0024]
进一步地,每个智能体具有独立的策略网络、q值网络及残差注意力网络;
[0025]
所述策略网络的输入是车辆局部观测状态,即根据车辆自身能力所能获取到的附近车辆信息,将该信息输入到残差注意力网络得到相应的车辆权重信息,并且和原始附近车辆信息进行残差连接,将拼接后的结果共同作为策略网络的输入;
[0026]
所述策略网络的输出为每个智能车的动作空间;
[0027]
所述q值网络为中心式评论员架构,q值网络的输入为车辆全局观测状态和车辆全局动作,q值网络的输出为当前策略的q值,表示对当前智能车所采取策略的评分。
[0028]
进一步地,所述策略网络的输出增加有高斯白噪声,以便于算法收敛。
[0029]
进一步地,所述算法训练和更新步骤包括对分布式策略网络进行更新以及对全局q值网络进行梯度更新,在训练最开始时,算法采取随机策略进行动作输出和打分,得到一系列动作a、状态x、采取动作后的下一个状态x’以及同时所获得的即时奖励r,将四种数据以四元组的方式存储起来,当存储数据的大小满足进行随机梯度下降的批大小后,对网络进行更新。
[0030]
进一步地,对于q网络,目标函数表示为最小化目标值和估计值之间的均方差,表示为:
[0031][0032]
表示车辆全局观测状态经过残差注意力网络后的输出,y表示目标值,有:
[0033]
[0034]
μ表示策略网络,γ表示折扣因子,ok表示第k个车辆局部观测状态经过残差注意力网络后的输出;ne表示第e个智能车,k=1,2
…
ne,r为车辆选取动作后所获得的即时奖励。
[0035]
将下一个车辆局部观测状态值和由策略网络输出的车辆动作值代入到q值网络中得到下一个状态动作值q’,与即时奖励相加就得到目标值。
[0036]
进一步地,对于估计策略网络,需要让其输出使得q值网络的输出越大越好,策略梯度表示为:
[0037][0038]
与现有技术相比,本发明具有以下有益效果:
[0039]
1、本发明通过构建多智能体强化学习模型,智能体定义为每辆进入交叉路口的智能车,使用车辆本身的计算能力来替代造价高昂的道路计算单元,达到智能化交叉路口管理的目标,能够有效节省交通控制成本。
[0040]
2、本发明提出ra-maddpg算法对每个智能体进行训练和优化,将训练好的模型部署于智能车中,通过模型引导智能车运行,达到分布式智能化路口管理、车辆快速且安全通行的目的,控制方法简单有效。
[0041]
3、本发明提出的ra-maddpg算法采用中心式训练分布式执行的策略,每一个智能体拥有独立的策略网络、q值网络和残差注意力网络,算法创新点在于中心式训练分布式执行的思想和注意力网络的残差连接相结合,加速算法收敛和取得更优性能。相比于主流分布式算法,本发明提出的算法可以更快的收敛且取得更低的平均车辆通行延时。
附图说明
[0042]
图1为智能网联车车载单元内部结构示意图;
[0043]
图2为本发明实施例中的分布式自动化路口模型示意图;
[0044]
图3为本发明实施例中的车辆关系举例;
[0045]
图4为本发明提出的分布式方案总体流程图;
[0046]
图5为本发明提出的算法更新流程图;
[0047]
图6为本发明实施例中分布式策略网络的结构示意图;
[0048]
图7为本发明实施例中q值网络的结构示意图。
具体实施方式
[0049]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0050]
针对现有技术中的缺陷,本技术提出了一种基于智能网联车的交叉路口管理方法,采用分布式策略,如图2所示,使用车辆本身的计算能力来替代造价高昂的道路计算单元,达到智能化交叉路口管理的目标。
[0051]
本技术受到中心式训练分布式执行思想的启发,通过采用残差注意力机制提取出和全局信息相比同样有用的辅助特征,例如车辆与车辆之间潜在的关系,如图3所示,协作
情况无潜在冲突点,可以直接快速通行,竞争情况存在潜在冲突点,需要进行冲突避让,将这些特征通过权重的方式赋予到每一辆车,权重大表示可能是竞争情况,需要引起注意,权重小表示可能是协作情况,而且通过残差连接,可以在原有观测空间的基础上辅助这些信息帮助智能体进行策略优化。通过实验评估表明,本发明提出的方法相比于主流分布式算法,可以更快的收敛且取得更低的平均车辆通行延时。
[0052]
如图4至图5所示,为本发明提出的分布式方案总体流程图,首先将问题建模,构建多智能体强化学习模型,智能体定义为每辆进入路口的智能车,通过设计智能车与网联车之间的协同通讯数据,定义局部状态空间、局部动作空间和奖励函数,通过算法对每个智能体进行训练和优化,最后将训练得到的模型部署至智能车中,达到分布式智能化路口管理、车辆快速且安全通行的目的。
[0053]
算法更新采用中心式训练分布式执行的策略,每一个智能体拥有独立的策略网络、q值网络和残差注意力网络,算法创新点在于中心式训练分布式执行的思想和注意力网络的残差连接相结合,加速算法收敛和取得更优性能。
[0054]
算法详细步骤包括:
[0055]
(a)算法建模
[0056]
全局状态空间:将每辆车的位置坐标,速度大小方向等信息用数字表示出来,表示为s,全局的状态空间可以表示为:n表示路口中车辆的总数。
[0057]
局部观测空间:在分布式场景中,全局状态空间确实存在,但是大多数情况下没有结点可以得到这个信息,每个分布式结点车辆仅能得到部分状态信息,这部分信息称为局部观测空间,信息的大小受限于车辆本身的通信能力,通信能力越强的车辆,局部观测空间越大。
[0058]
动作空间:智能车的油门、刹车和方向盘转向角。
[0059]
奖励函数:分布式场景中,每一个智能体都有自己对应的奖励函数,对于某一个智能体而言,他的目标是最大化自己的奖励函数,但是对于整个路口而言,则需要最大化全部车辆的奖励函数,因此不仅需要考虑安全性,还需要考虑车辆之间的交互。我们希望车辆之间尽可能多交互以获取相对比较全局的信息。函数定义为:
[0060][0061]
(b)算法训练和更新
[0062]
整个算法的训练过程可分为两个主要的过程,对分布式策略网络进行更新以及对全局q值网络进行更新,两个网络的结构如图6和图7所示。
[0063]
在策略网络中,网络的输入是车辆的局部观测状态,即根据车辆自身能力所能获取到的附近的车辆信息,将该信息输入到注意力网络得到相应的车辆权重信息,并且和原始附近车辆信息进行残差连接(残差连接指将两者拼接在一起),将拼接后的结果共同作为策略网络的输入。对于策略网络而言,有目标策略网络和估计策略网络,两者网络结构完全相同,不同的是,估计策略网络每次都会更新参数,而目标策略网络会隔一段时间在进行更新,以此来保证回放经验池中数据的重复利用。
[0064]
每个网络由三个全连接层构成,维度分别为(1024,1024)、(512,512)、(256,256),
输出为每个智能车的动作空间,且会增加一个高斯白噪声有利于算法收敛。
[0065]
在q值网络中,实质上是一个中心式评论员架构,网络的输入为车辆全局观测状态和车辆全局动作,与策略网络结构类似,均有注意力网络的残差连接、两个q值网络等,不同在于q值网络的输出为当前策略的q值,表示对当前智能车所采取策略的评分。
[0066]
算法在更新时,分别对两种网络进行梯度更新,优化目标可以简述为评论员q值网络打分更加准确,策略网络做的决策可以取得更高的分数。在训练最开始,算法采取随机策略进行动作输出和打分,得到一系列动作a、状态x、采取动作后的下一个状态x’以及同时所获得的即时奖励r,将四种数据以四元组的方式存储起来,当存储数据的大小满足进行随机梯度下降的批大小后,对网络进行更新。
[0067]
对于估计q网络而言,目标函数表示为最小化目标值和估计值之间的均方差,表示为:
[0068][0069]
表示车辆全局观测状态经过残差注意力网络后的输出,y表示目标值,通常可写为:
[0070][0071]
μ表示策略网络,γ表示折扣因子,ok表示第k个车辆局部观测状态经过残差注意力网络后的输出;将下一个车辆局部观测状态值和由目标策略网络输出的动作值代入到q值网络中就可以得到下一个状态动作值q’,与即时奖励相加就可以得到目标值。
[0072]
对于估计策略网络而言,需要让自己的输出使得q值网络的输出越大越好,策略梯度可以表示为:
[0073][0074]
通过上述流程,对模型进行训练和优化,不仅可以解决环境的不稳定性问题,还可以利用注意力网络提取关于路口场景的高级特征,辅助算法加速收敛和达到性能更优的目的,整个方案在训练完成后,每个智能车都会有独立的估计策略网络。
[0075]
(c)算法部署
[0076]
将上述训练得到的策略网络模型部署至每一辆智能车的车辆计算单元内部,就可以完成分布式自动交叉路口管理的任务。
[0077]
表1实验结果
[0078][0079]
如表1所示,为本实施例得到的实验结果,ra-maddpg表示本发明提出的算法,即多智能体残差注意力机制深度确定性策略网络算法。其他为较为主流的分布式强化学习算法,包括:渐进策略梯度优化算法ppo,注意力机制渐进策略优化算法sa-ppo,深度q网络算法dqn,演员评论员算法a2c,深度确定性策略网络算法maddpg。可见使用本发明所提出的算法可以实现更低的碰撞率、更高的完成率及最低的平均车辆通行延时。
[0080]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
技术特征:
1.一种基于智能网联车的交叉路口管理方法,其特征在于,包括以下步骤:构建多智能体强化学习模型,智能体定义为每辆进入交叉路口的智能车;设定智能车与网联车之间的协同数据通信,基于协同通信数据,为每个智能体定义局部状态空间、局部动作空间和奖励函数;通过ra-maddpg算法对每个智能体进行训练和优化,得到训练好的模型,最后将训练好的模型部署于智能车中,引导智能车运行实现交叉路口管理。2.根据权利要求1所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述ra-maddpg算法为多智能体残差注意力机制深度确定性策略网络算法,采用中心式训练分布式执行的思想和注意力网络的残差连接相结合,算法构建包括算法建模步骤及算法训练和更新步骤,所述算法建模步骤包括:构建全局状态空间;构建局部观测空间;构建动作空间;构建奖励函数。3.根据权利要求1所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述构建全局状态空间包括:获取交叉路口中每辆车的运行信息,将每辆车的运行信息用数字表示,所述运行信息包括位置坐标、速度大小及方向;依次得到各辆车用数字表示的运行信息,记为s
i
,全局的状态空间表示为:n表示路口中车辆的总数。4.根据权利要求1所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述动作空间定义为智能车的油门、刹车和方向盘转向角。5.根据权利要求1所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述奖励函数定义为:v为车辆当前速度,v
max
为车辆的最大速度,v
min
为车辆的最小速度,collision表示车辆是否发生碰撞,arrived表示车辆是否到达目的地,interact表示车辆之间是否进行信息交互,η1,η2,η3,η4分别表示各项系数。6.根据权利要求2所述的一种基于智能网联车的交叉路口管理方法,其特征在于,每个智能体具有独立的策略网络、q值网络及残差注意力网络;所述策略网络的输入是车辆局部观测状态,即根据车辆自身能力所能获取到的附近车辆信息,将该信息输入到残差注意力网络得到相应的车辆权重信息,并且和原始附近车辆信息进行残差连接,将拼接后的结果共同作为策略网络的输入;所述策略网络的输出为每个智能车的动作空间;所述q值网络为中心式评论员架构,q值网络的输入为车辆全局观测状态和车辆全局动作,q值网络的输出为当前策略的q值,表示对当前智能车所采取策略的评分。7.根据权利要求6所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述
策略网络的输出增加有高斯白噪声,以便于算法收敛。8.根据权利要求6所述的一种基于智能网联车的交叉路口管理方法,其特征在于,所述算法训练和更新步骤包括对分布式策略网络进行更新以及对全局q值网络进行梯度更新,在训练最开始时,算法采取随机策略进行动作输出和打分,得到一系列动作a、状态x、采取动作后的下一个状态x’以及同时所获得的即时奖励r,将四种数据以四元组的方式存储起来,当存储数据的大小满足进行随机梯度下降的批大小后,对网络进行更新。9.根据权利要求8所述的一种基于智能网联车的交叉路口管理方法,其特征在于,对于q网络,目标函数表示为最小化目标值和估计值之间的均方差,表示为:q网络,目标函数表示为最小化目标值和估计值之间的均方差,表示为:表示车辆全局观测状态经过残差注意力网络后的输出,y表示目标值,有:μ表示策略网络,γ表示折扣因子,o
k
表示第k个车辆局部观测状态经过残差注意力网络后的输出;n
e
表示第e个智能车,k=1,2
…
n
e
,r为车辆选取动作后所获得的即时奖励;将下一个车辆局部观测状态值和由策略网络输出的车辆动作值代入到q值网络中得到下一个状态动作值q’,与即时奖励相加就得到目标值。10.根据权利要求9所述的一种基于智能网联车的交叉路口管理方法,其特征在于,对于估计策略网络,需要让其输出使得q值网络的输出越大越好,策略梯度表示为:
技术总结
本发明涉及一种基于智能网联车的交叉路口管理方法,包括以下步骤:构建多智能体强化学习模型,智能体定义为每辆进入交叉路口的智能车;设定智能车与网联车之间的协同数据通信,基于协同通信数据,为每个智能体定义局部状态空间、局部动作空间和奖励函数;通过算法对每个智能体进行训练和优化,得到训练好的模型,最后将训练好的模型部署于智能车中,通过模型引导智能车运行实现交叉路口管理。与现有技术相比,本发明使用车辆本身的计算能力来替代道路计算单元,提出多智能体残差注意力机制深度确定性策略网络算法控制智能车运动,采用中心式训练分布式执行的思想和注意力网络的残差连接相结合,实现更快的收敛且取得更低的平均车辆通行延时。平均车辆通行延时。平均车辆通行延时。
技术研发人员:赵生捷 薛锦伟 邓浩
受保护的技术使用者:同济大学
技术研发日:2023.03.31
技术公布日:2023/6/28
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
