一种基于邻域信息融合的交通灯控制方法及终端与流程

未命名 07-17 阅读:117 评论:0


1.本发明涉及终端应用领域,尤其涉及的是一种基于邻域信息融合的交通灯控制方法及终端。


背景技术:

2.智能交通灯控制是一种很有前景的缓解道路交通拥堵、提高道路通行效率的方法,而不需要改造或升级现有城市交通路网的基础设施。然而,如何实时动态优化交通灯控制策略提高交通路网的通行效率一直是智能交通领域研究的一个重点问题。
3.近些年,随着人工智能技术的高速发展,基于强化学习(特别是多智能体强化学习)的交通灯控制策略得到了广泛的关注和研究。然而,现有的技术和方法仍存在一些问题:(1)现有的面向交通路网通行效率优化的强化学习模型大多依赖于交通路网的全局信息,存在状态、动作空间爆炸的问题,特别是在交通路网规模很大的情况下。(2)现有的多智能体强化学习交通灯控制模型存在训练效率低的问题。
4.因此,现有技术还有待改进。


技术实现要素:

5.本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种基于邻域信息融合的交通灯控制方法及终端,以解决因现有的基于强化学习的交通灯优化效率低的技术问题。
6.本发明解决技术问题所采用的技术方案如下:
7.第一方面,本发明提供一种基于邻域信息融合的交通灯控制方法,基于邻域信息融合的交通灯控制方法包括以下步骤:
8.将目标区域交通路网分解为多个基础的子网;其中,每个子网包括:目标路口和相邻路口;
9.对于所述交通路网中的每个交通灯,获取所述交通灯四面的车流信息以及交通灯状态信息,并对所述车流信息和所述交通灯信息进行数字化处理,得到数字化交通流状态信息;其中,所述车流信息包括:车辆位置信息和车辆速度信息;
10.根据所述交通路网中的子网和获得的数字化交通流状态信息,构建基于邻域状态融合的多智能体强化学习交通灯控制模型;
11.基于构建的多智能体强化学习交通灯控制模型,进行邻域模型融合,并根据融合后模型对交通路网中的交通灯进行控制。
12.在一种实现方式中,所述多智能体强化学习交通灯控制模型包括:卷积神经网络、循环神经网络和图神经网络;
13.所述构建基于邻域状态融合的多智能体强化学习交通灯控制模型,包括:
14.对于每个子网目标路口交通灯,将所述数字化交通流状态信息转换为位置矩阵和速度矩阵,并用卷积神经网络进行处理,得到交通流物理特征;
15.对于每个子网目标路口交通灯,收集其历史状态,并用循环神经网络进行处理,得到交通流动力学特征;
16.对于每个子网目标路口交通灯,收集当前交通灯及相邻路口的历史状态信息,并用图神经网络进行处理,得到交通流交互特征;
17.将所述交通流物理特征、所述交通流交互特征以及交通灯状态,以向量形式进行拼接,结合交通灯动作信息,得到当前动作在当前车流状态和交通灯状态下的价值;
18.确定当前状态下交通灯最佳动作。
19.在一种实现方式中,所述交通流物理特征为:
[0020][0021]
其中,和分别为t时刻的位置矩阵和速度矩阵;
[0022]
φi和分别为所述卷积神经网络cnni的模型参数和输出。
[0023]
在一种实现方式中,所述交通流动力学特征为:
[0024][0025]
其中,为耦合等待队列长度;
[0026]
c为历史时间跨度;
[0027]
和分别为所述循环神经网络rnni的模型参数和输出。
[0028]
在一种实现方式中,所述交通流交互特征为:
[0029][0030]
其中,ψi和分别为所述图神经网络gnni的模型参数和输出。
[0031]
在一种实现方式中,所述基于构建的多智能体强化学习交通灯控制模型,进行邻域模型融合,并根据融合后模型对交通路网中的交通灯进行控制,包括:
[0032]
初始化每个交通灯的强化学习模型参数和模型训练超参数;
[0033]
根据贪心策略选择交通灯动作;
[0034]
根据交通灯动作后车辆等待序列长度设计奖励,得到一个经验样本,并将经验样本保存在本地数据集;
[0035]
基于得到的经验样本,从所述本地数据集中随机选择若干样本,利用梯度下降方法优化深度q网络参数,最小化损失函数;
[0036]
对每个交通灯,基于本地深度q网络模型控制当前交通灯,并收集子网中相邻交通灯的模型参数,通过邻域模型聚合方法,更新当前交通灯的模型参数。
[0037]
在一种实现方式中,所述当前交通灯的模型参数为:
[0038][0039]
其中,ki为子网中交通灯数量;
[0040]
θ
′j为邻域模型参数;
[0041]
为模型聚合权重向量,所述模型聚合权重向量的维度取决于子网的大小。
[0042]
在一种实现方式中,所述更新当前交通灯的模型参数,之后包括:
[0043]
判断是否满足终止条件:
[0044]
若当前迭代次数大于总迭代次数,则停止更新;
[0045]
若所述当前迭代次数小于或等于所述总迭代次数,则继续根据贪心策略选择交通灯动作,直至满足所述终止条件。
[0046]
第二方面,本发明提供一种终端,包括:处理器以及存储器,所述存储器存储有基于邻域信息融合的交通灯控制程序,所述基于邻域信息融合的交通灯控制程序被所述处理器执行时用于实现如第一方面所述的基于邻域信息融合的交通灯控制方法。
[0047]
第三方面,本发明提供一种存储介质,所述存储介质存储有基于邻域信息融合的交通灯控制程序,所述基于邻域信息融合的交通灯控制程序被处理器执行时用于实现如第一方面所述的基于邻域信息融合的交通灯控制方法。
[0048]
本发明采用上述技术方案具有以下效果:
[0049]
本发明通过将交通网络分解为更基础的子网并提出了邻域信息融合方法,各交通灯只需要考虑与其直接相邻的路口,大大降低了状态和动作空间维度,避免了“维数灾难”问题;并且,提出了邻域状态融合方法,在收集邻域信息时,只收集与目标交通路口耦合的相邻路口车道等待队列长度,大大降低了计算复杂度,提高了模型性能,同时每个交通灯只需要与其相连交通灯通信,分享模型参数,而不需要中央服务器的协调,有效避免了通信阻塞和单点故障问题。
附图说明
[0050]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0051]
图1是本发明的一种实现方式中基于邻域信息融合的交通灯控制方法的流程图。
[0052]
图2是本发明的一种实现方式中交通网络及子网分解示意图。
[0053]
图3是本发明的一种实现方式中邻域状态融合流程图。
[0054]
图4是本发明的一种实现方式中耦合等待队列示意图。
[0055]
图5是本发明的一种实现方式中终端的功能原理图。
[0056]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0057]
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0058]
示例性方法
[0059]
基于强化学习(特别是多智能体强化学习)的交通灯控制策略,仍存在一些问题:(1)现有的面向交通路网通行效率优化的强化学习模型大多依赖于交通路网的全局信息,存在状态、动作空间爆炸的问题,特别是在交通路网规模很大的情况下。(2)现有的多智能体强化学习交通灯控制模型存在训练效率低的问题。
[0060]
针对上述技术问题,本发明实施例提供一种基于邻域信息融合的多智能体强化学习交通灯控制方法用于提高交通路网通行效率,包括邻域状态融合和邻域模型融合。其主要特点是将交通路网分解为更小更基础的子网,各交通灯只需要与其直接相邻的交通灯通信,分享交通流信息和模型信息,通过邻域信息融合,训练基于多智能体强化学习的交通灯控制模型,提高交通路网通行效率。
[0061]
如图1所示,本发明实施例提供一种基于邻域信息融合的交通灯控制方法,基于邻域信息融合的交通灯控制方法包括以下步骤:
[0062]
步骤s100,将目标区域交通路网分解为多个基础的子网。
[0063]
在本实施例中,所述基于邻域信息融合的交通灯控制方法应用于终端中,所述终端包括但不限于:计算机以及移动终端等设备;具体地,所述终端为用于控制交通路网中各交通灯动作(即交通灯信号)的终端设备。
[0064]
在实施所述基于邻域信息融合的交通灯控制方法时,需要获取城市交通路网信息,所述城市交通路网信息可以是由某些主干道及与其连接的其他道路构成的路网信息,也可以是城市行政区域中的某个部分的路网信息;基于所述城市交通路网信息,可以获得所述城市交通路网信息中的交通灯信息;其中,所获得的交通灯信息为预设区域内的交通灯信息,所述预设区域可以是某一交通灯相邻的多个交通灯的管辖区域,也可以是以某一个交通灯为中心的指定范围区域。
[0065]
如图2所示,在本实施例中,在获取城市交通路网信息后,可以将目标区域交通路网分解为许多基础的子网,每个子网由目标路口和与其直接相邻的路口组成。
[0066]
与现有基于中心化训练去中心化执行架构的多智能体强化学习交通灯控制策略不同,本发明实施例通过将交通网络分解为更基础的子网并提出了邻域信息融合方法,各交通灯只需要考虑与其直接相邻的路口,大大降低了状态和动作空间维度,避免了“维数灾难”问题。
[0067]
如图1所示,在本发明实施例的一种实现方式中,基于邻域信息融合的交通灯控制方法还包括以下步骤:
[0068]
步骤s200,对于所述交通路网中的每个交通灯,获取所述交通灯四面的车流信息以及交通灯状态信息,并对所述车流信息和所述交通灯信息进行数字化处理,得到数字化交通流状态信息。
[0069]
在本实施例中,对于所述交通路网中的每个交通灯,均可以确定该交通灯对应的摄像头、雷达以及地感线圈,基于所述摄像头、所述雷达以及所述地感线圈获取该交通灯管辖区域的交通流状态;其中,所述交通流状态包括:交通灯状态信息(例如,红灯状态、绿灯状态以及黄灯状态等)和交通灯四面的车流信息;进而,所述车流信息包括:车辆位置信息和车辆速度信息;在得到所述交通状态后,对所述交通灯状态信息和交通灯四面的车流状态信息进行数字化处理,获得数字化交通流状态信息。
[0070]
如图1所示,在本发明实施例的一种实现方式中,基于邻域信息融合的交通灯控制
方法还包括以下步骤:
[0071]
步骤s300,根据所述交通路网中的子网和获得的数字化交通流状态信息,构建基于邻域状态融合的多智能体强化学习交通灯控制模型。
[0072]
在本实施例中,根据步骤s100中的交通路网中的子网,以及步骤s200获得的数字化交通流状态信息,即可构建基于邻域状态融合的多智能体强化学习交通灯控制模型,可以有效提取交通流的时空耦合信息提高模型性能;进而,在该模型的基础上,通过邻域模型融合,各交通灯不依赖于服务器协调就能实现合作训练,提高模型训练效率。
[0073]
即在本实施例的一种实现方式中,步骤s300具体包括以下步骤:
[0074]
步骤s310,对于每个子网目标路口交通灯,将所述数字化交通流状态信息转换为位置矩阵和速度矩阵,并用卷积神经网络进行处理,得到交通流物理特征。
[0075]
如图3所示,在本实施例中,多智能体强化学习交通灯控制模型包括:卷积神经网络、循环神经网络和图神经网络。
[0076]
在构建该模型的过程中,对于每个子网目标路口交通灯i,将交通流信息数字化为位置矩阵和速度矩阵,并用卷积神经网络进行处理,得到交通流物理特征,具体为:
[0077][0078]
其中,和分别为t时刻的位置矩阵和速度矩阵;
[0079]
φi和分别为所述卷积神经网络cnni的模型参数和输出。
[0080]
在本实施例的一种实现方式中,步骤s300具体还包括以下步骤:
[0081]
步骤s320,对于每个子网目标路口交通灯,收集其历史状态,并用循环神经网络进行处理,得到交通流动力学特征。
[0082]
在本实施例中,对于每个子网目标路口交通灯i,收集其历史状态并用循环神经网络进行处理,得到交通流动力学特征,具体为:
[0083][0084]
其中,为耦合等待队列长度;
[0085]
c为历史时间跨度;
[0086]
和分别为所述循环神经网络rnni的模型参数和输出。
[0087]
具体地,耦合等待队列是指对目标路口车流量有影响的队列,以目标路口i左侧车流为例(如图4所示,实线箭头表示耦合等待队列),对其有影响的车流来自目标路口左侧路口j,具体包括:来自路口j左侧并直行通过路口j的车流,来自路口j上方并左转通过路口j的车流,来自路口j下方并右转通过路口j的车流;同理,可以得到目标路口其他方向的耦合等待队列。
[0088]
在本实施例的一种实现方式中,步骤s300具体还包括以下步骤:
[0089]
步骤s330,对于每个子网目标路口交通灯,收集当前交通灯及相邻路口的历史状态信息,并用图神经网络进行处理,得到交通流交互特征;
[0090]
在本实施例中,对于每个子网目标路口交通灯i,收集其自身及相邻路口的历史状
态信息并用图神经网络进行处理,得到交通流交互特征,具体为:
[0091][0092]
其中,ψi和分别为所述图神经网络gnni的模型参数和输出。
[0093]
具体地,在子网中,计算目标路口历史状态与其相邻各路口的历史状态信息的相关程度,并用softmax函数进行归一化后得到α
ij
,进而得到其中σ为激活函数,w为线性变换矩阵。
[0094]
在本实施例的一种实现方式中,步骤s300具体还包括以下步骤:
[0095]
步骤s340,将所述交通流物理特征、所述交通流交互特征以及交通灯状态,以向量形式进行拼接,结合交通灯动作信息,得到当前动作在当前车流状态和交通灯状态下的价值;
[0096]
步骤s350,确定当前状态下交通灯最佳动作。
[0097]
在本实施例中,将上述的交通流物理特征交通流交互特征与交通灯状态以向量形式进行拼接,结合交通灯动作信息,得到该动作在当前车流状态和交通灯状态下的价值q(si,ai,θi),其中,θi={φi,φi,ψi}为强化学习模型参数,si和ai分别为当前交通状态和交通灯动作;最后,通过分析得到当前状态下交通灯最佳动作
[0098]
与现有交通流状态信息提取不同,本发明提出了邻域状态融合方法,结合卷积神经网络、循环神经网络、图神经网络等提取交通流的时空耦合信息。特别地,在收集邻域信息时,只收集与目标交通路口耦合的相邻路口车道等待队列长度,大大降低了计算复杂度,提高了模型性能。
[0099]
如图1所示,在本发明实施例的一种实现方式中,基于邻域信息融合的交通灯控制方法还包括以下步骤:
[0100]
步骤s400,基于构建的多智能体强化学习交通灯控制模型,进行邻域模型融合,并根据融合后模型对交通路网中的交通灯进行控制。
[0101]
在本实施例中,基于步骤s300所建立的多智能体强化学习模型,结合邻域模型融合对交通灯进行控制,控制的过程为:先初始化交通灯模型的参数,然后,结合邻域模型进行信息融合,根据融合信息对子网中的交通灯进行参数更新,从而根据更新后的参数实现对该交通灯进行控制。
[0102]
即在本实施例的一种实现方式中,步骤s400具体包括以下步骤:
[0103]
步骤s410,初始化每个交通灯的强化学习模型参数和模型训练超参数;
[0104]
步骤s420,根据贪心策略选择交通灯动作;
[0105]
步骤s430,根据交通灯动作后车辆等待序列长度设计奖励,得到一个经验样本,并将经验样本保存在本地数据集;
[0106]
步骤s440,基于得到的经验样本,从所述本地数据集中随机选择若干样本,利用梯度下降方法优化深度q网络参数,最小化损失函数;
[0107]
步骤s450,对每个交通灯,基于本地深度q网络模型控制当前交通灯,并收集子网
中相邻交通灯的模型参数,通过邻域模型聚合方法,更新当前交通灯的模型参数。
[0108]
在本实施例中,初始化每个交通灯的强化学习模型参数θ,和模型训练超参数,模型参数包括:学习率η,折扣因子γ,贪心策略中的∈,迭代总次数t,当前迭代次数t等。
[0109]
之后,根据贪心策略选择交通灯动作,并且根据交通灯动作后车辆等待序列长度设计奖励这里i表示该交通灯路口所有车道的数量,li为第i个车道上在交通灯动作后车辆的等待序列长度,从而可以得到一个经验样本s

为执行交通灯动作a后的该子网的交通状态,并将经验样本保存在本地数据集d={d1,d2,...dn}中,这里为n为样本总数量。
[0110]
基于得到的经验样本,从本地数据集d中随机选择一些样本,利用梯度下降方法优化深度q网络参数θ,从而最小化损失函数化深度q网络参数θ,从而最小化损失函数这里为目标值,θ-为目标网络参数,a

为在下一个状态s

下选择的动作,模型参数更新规则为θi=θ
i-ηe(θi),这里θi和θi分别为第i个交通灯本地更新前后的模型参数,e(θi)为其对应的梯度。
[0111]
对每个交通灯i,基于步骤s100中的交通子网交通灯i收集其邻居模型参数并通过邻域模型聚合方法,更新交通灯i的模型参数θ
′i,具体为:这里ki为子网中交通灯数量,中交通灯数量,为模型聚合权重向量,其维度取决于子网的大小。
[0112]
即在本实施例的一种实现方式中,步骤s450之后包括以下步骤:
[0113]
步骤s460,判断是否满足终止条件:
[0114]
步骤s470,若当前迭代次数大于总迭代次数,则停止更新;
[0115]
步骤s480,若所述当前迭代次数小于或等于所述总迭代次数,则继续根据贪心策略选择交通灯动作,直至满足所述终止条件。
[0116]
在本实施例中,最后判断终止条件,若当前迭代次数t大于总迭代次数t,则停止更新当前交通灯的模型参数,否则转到步骤s420,根据贪心策略选择其他交通灯动作。
[0117]
与现有基于联邦学习的分布式训练策略不同,本发明提出邻域模型融合方法,每个交通灯只需要与其相连交通灯通信,分享模型参数,而不需要中央服务器的协调,有效避免了通信阻塞和单点故障问题。
[0118]
本实施例采用上述技术方案具有以下效果:
[0119]
本实施例通过将交通网络分解为更基础的子网并提出了邻域信息融合方法,各交通灯只需要考虑与其直接相邻的路口,大大降低了状态和动作空间维度,避免了“维数灾难”问题;并且,提出了邻域状态融合方法,在收集邻域信息时,只收集与目标交通路口耦合的相邻路口车道等待队列长度,大大降低了计算复杂度,提高了模型性能,同时每个交通灯只需要与其相连交通灯通信,分享模型参数,而不需要中央服务器的协调,有效避免了通信
阻塞和单点故障问题。
[0120]
示例性设备
[0121]
基于上述实施例,本发明还提供一种终端,其原理框图可以如图5所示。
[0122]
该终端包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,该终端的处理器用于提供计算和控制能力;该终端的存储器包括存储介质以及内存储器;该存储介质存储有操作系统和计算机程序;该内存储器为存储介质中的操作系统和计算机程序的运行提供环境;该接口用于连接外部终端设备,例如,移动终端以及计算机等设备;该显示屏用于显示相应的基于邻域信息融合的交通灯控制信息;该通讯模块用于与云端服务器或移动终端进行通讯。
[0123]
该计算机程序被处理器执行时用以实现一种基于邻域信息融合的交通灯控制方法。
[0124]
本领域技术人员可以理解的是,图5中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0125]
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,存储器存储有基于邻域信息融合的交通灯控制程序,基于邻域信息融合的交通灯控制程序被处理器执行时用于实现如上的基于邻域信息融合的交通灯控制方法。
[0126]
在一个实施例中,提供了一种存储介质,其中,存储介质存储有基于邻域信息融合的交通灯控制程序,基于邻域信息融合的交通灯控制程序被处理器执行时用于实现如上的基于邻域信息融合的交通灯控制方法。
[0127]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
[0128]
综上,本发明提供了一种基于邻域信息融合的交通灯控制方法及终端,方法包括:将目标区域交通路网分解为多个基础的子网;对于交通路网中的每个交通灯,获取交通灯四面的车流信息以及交通灯状态信息,并对车流信息和交通灯信息进行数字化处理,得到数字化交通流状态信息;根据交通路网中的子网和获得的数字化交通流状态信息,构建基于邻域状态融合的多智能体强化学习交通灯控制模型;基于构建的多智能体强化学习交通灯控制模型,进行邻域模型融合,并根据融合后模型对交通路网中的交通灯进行控制。本发明通过将交通网络分解为更基础的子网并提出了邻域信息融合方法,各交通灯只需要考虑与其直接相邻的路口,提高了交通灯优化效率。
[0129]
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

技术特征:
1.一种基于邻域信息融合的交通灯控制方法,其特征在于,所述基于邻域信息融合的交通灯控制方法包括以下步骤:将目标区域交通路网分解为多个基础的子网;其中,每个子网包括:目标路口和相邻路口;对于所述交通路网中的每个交通灯,获取所述交通灯四面的车流信息以及交通灯状态信息,并对所述车流信息和所述交通灯信息进行数字化处理,得到数字化交通流状态信息;其中,所述车流信息包括:车辆位置信息和车辆速度信息;根据所述交通路网中的子网和获得的数字化交通流状态信息,构建基于邻域状态融合的多智能体强化学习交通灯控制模型;基于构建的多智能体强化学习交通灯控制模型,进行邻域模型融合,并根据融合后模型对交通路网中的交通灯进行控制。2.根据权利要求1所述的基于邻域信息融合的交通灯控制方法,其特征在于,所述多智能体强化学习交通灯控制模型包括:卷积神经网络、循环神经网络和图神经网络;所述构建基于邻域状态融合的多智能体强化学习交通灯控制模型,包括:对于每个子网目标路口交通灯,将所述数字化交通流状态信息转换为位置矩阵和速度矩阵,并用卷积神经网络进行处理,得到交通流物理特征;对于每个子网目标路口交通灯,收集其历史状态,并用循环神经网络进行处理,得到交通流动力学特征;对于每个子网目标路口交通灯,收集当前交通灯及相邻路口的历史状态信息,并用图神经网络进行处理,得到交通流交互特征;将所述交通流物理特征、所述交通流交互特征以及交通灯状态,以向量形式进行拼接,结合交通灯动作信息,得到当前动作在当前车流状态和交通灯状态下的价值;确定当前状态下交通灯最佳动作。3.根据权利要求2所述的基于邻域信息融合的交通灯控制方法,其特征在于,所述交通流物理特征为:其中,和分别为t时刻的位置矩阵和速度矩阵;φ
i
和分别为所述卷积神经网络cnn
i
的模型参数和输出。4.根据权利要求2所述的基于邻域信息融合的交通灯控制方法,其特征在于,所述交通流动力学特征为:其中,为耦合等待队列长度;c为历史时间跨度;和分别为所述循环神经网络rnn
i
的模型参数和输出。5.根据权利要求2所述的基于邻域信息融合的交通灯控制方法,其特征在于,所述交通流交互特征为:
其中,ψ
i
和分别为所述图神经网络gnn
i
的模型参数和输出。6.根据权利要求1所述的基于邻域信息融合的交通灯控制方法,其特征在于,所述基于构建的多智能体强化学习交通灯控制模型,进行邻域模型融合,并根据融合后模型对交通路网中的交通灯进行控制,包括:初始化每个交通灯的强化学习模型参数和模型训练超参数;根据贪心策略选择交通灯动作;根据交通灯动作后车辆等待序列长度设计奖励,得到一个经验样本,并将经验样本保存在本地数据集;基于得到的经验样本,从所述本地数据集中随机选择若干样本,利用梯度下降方法优化深度q网络参数,最小化损失函数;对每个交通灯,基于本地深度q网络模型控制当前交通灯,并收集子网中相邻交通灯模型参数,通过邻域模型聚合方法,更新当前交通灯的模型参数。7.根据权利要求6所述的基于邻域信息融合的交通灯控制方法,其特征在于,所述当前交通灯的模型参数为:其中,k
i
为子网中交通灯数量;θ
j

为邻域模型参数;为模型聚合权重向量,所述模型聚合权重向量的维度取决于子网的大小。8.根据权利要求6所述的基于邻域信息融合的交通灯控制方法,其特征在于,所述更新当前交通灯的模型参数,之后包括:判断是否满足终止条件:若当前迭代次数大于总迭代次数,则停止更新;若所述当前迭代次数小于或等于所述总迭代次数,则继续根据贪心策略选择交通灯动作,直至满足所述终止条件。9.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有基于邻域信息融合的交通灯控制程序,所述基于邻域信息融合的交通灯控制程序被所述处理器执行时用于实现如权利要求1-8中任意一项所述的基于邻域信息融合的交通灯控制方法。10.一种存储介质,其特征在于,所述存储介质存储有基于邻域信息融合的交通灯控制程序,所述基于邻域信息融合的交通灯控制程序被处理器执行时用于实现如权利要求1-8中任意一项所述的基于邻域信息融合的交通灯控制方法。

技术总结
本发明公开了一种基于邻域信息融合的交通灯控制方法及终端,方法包括:将目标区域交通路网分解为多个基础的子网;对于交通路网中的每个交通灯,获取交通灯四面的车流信息以及交通灯状态信息,并对车流信息和交通灯信息进行数字化处理,得到数字化交通流状态信息;根据交通路网中的子网和获得的数字化交通流状态信息,构建基于邻域状态融合的多智能体强化学习交通灯控制模型;基于构建的多智能体强化学习交通灯控制模型,进行邻域模型融合,并根据融合后模型对交通路网中的交通灯进行控制。本发明通过将交通网络分解为更基础的子网并提出了邻域信息融合方法,各交通灯只需要考虑与其直接相邻的路口,提高了交通灯优化效率。提高了交通灯优化效率。提高了交通灯优化效率。


技术研发人员:刘博 刘欣阳 陈畅 黄建伟
受保护的技术使用者:深圳市人工智能与机器人研究院
技术研发日:2023.03.31
技术公布日:2023/7/6
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐