一种基于深度强化学习的自适应交通灯控制方法
未命名
07-17
阅读:112
评论:0
1.本发明涉及一种自适应交通灯控制方法,尤其是基于深度强化学习的自适应交通灯控制方法。
背景技术:
2.在城市化进程中交通拥堵和交通事故等问题的日益加剧,传统的定时信号灯已经难以适应城市道路交通的需要。随着人工智能、计算机视觉等技术的不断发展,智能信号灯得以应运而生。智能信号灯通过利用传感器、摄像头、计算机等技术,实时感知和分析路口交通状况,并根据状况智能控制信号灯,从而减少交通拥堵,提高道路通行效率,降低交通事故的风险。智能信号灯还可以与车辆、行人、交通网络等其他交通设施连接,形成更加智能的交通管理体系。
3.在智能信号灯控制算法研究方面,现有的研究大多没有考虑到交通路口之间的互相影响和协作,部分研究只停留在对信号灯时长进行动态控制,也有部分研究通过对交通路网的整体控制实现对信号灯的调控,即利用图神经网络实现整体把控。但是,现实的情况比实验中的更加复杂。这么设计的信号灯会尽可能的将车辆从进车道输出到出车道上,而这有可能会出现某条出车道完全堵死的情况。
4.在cn115578870a中公开了在actor new信号策略网络中采用ε-greedy算法对信号相位概率分布进行采样并得到第n回合下t时刻的信号相位,但ε-greedy方法容易陷入局部最优,从而得到概率分布中局部最大值对应的信号相位;在cn113868113a中也直接使用了actor-critic算法和ε-greedy方法,并对奖励函数进行设计,但会存在探索与利用困境这一问题,即该方法无法对环境进行充分探索,容易陷入局部最优。
技术实现要素:
5.发明目的:本发明的目的是提供一种依据交通节点之间道路的状况以及相邻节点之间的互相影响程度且避免陷入局部最优的交通信号灯控制方法。
6.技术方案:本发明所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,将交通数据集和车流数据集导入dueling actor-critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;
7.所述dueling actor-critic深度强化学习框架包括actor网络和critic网络;根据车道上的车辆数量得到状态集s,将所述状态集s输入到critic网络中的q网络,得到优势值x,进而计算相对状态下的ε值,将所述ε值输入到actor网络中获得最优动作;
8.优势函数为:ε值的计算公式为:
9.其中a为动作集合,ω是共享网络参数,α和β分别是价值函数网络和优势函数网络的网络参数;v为价值函数,q为状态动作值函数;动作a用于对信号灯时长进行调控,a
′
为下
一时刻动作。
10.进一步地,利用所述ε值指导当前时刻状态s下的动作a以获取最优动作。
11.进一步地,每隔一段时间间隔,将所述q网络的网络参数输入critic网络中的目标q网络,对目标q网络的参数进行更新,并计算得到最大q值。
12.进一步地,所述交通数据集包括城市中所有交通节点的位置坐标信息和车道长度;所述车流数据集包括城市一段时间内所有车辆进入路网时间、离开路网时间及行动轨迹。
13.进一步地,所述动作a用于对信号灯时长进行调控包括对红灯时长或绿灯时长进行加减。
14.进一步地,利用cityflow平台将所述交通数据集和车流数据集在dueling actor-critic深度强化学习框架中训练的结果进行可视化展示。
15.本发明所述的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度强化学习的自适应交通灯控制方法。
16.本发明所述的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于深度强化学习的自适应交通灯控制方法。
17.有益效果:与现有技术相比,本发明的优点在于:对ε-greedy方法进行了优化:将ε值进行动态化处理,允许ε的值在整个执行的过程中以一种控制的方式进行不断变化,即在学习过程的开始,使其更具有探索性;同时本发明根据dueling actor-critic输出的优势值对ε值进行计算,优势值是用于评价一个动作的好坏,由此计算得出的ε值是在该状态下最合适的值,从而构建出dueling actor-critic的深度强化学习框架;其最终目标是为了获得最优动作并控制交通灯时长,避免了陷入局部最优的问题。
附图说明
18.图1为本发明的自适应交通灯控制方法流程图。
19.图2为本发明dueling actor-critic深度强化学习框架图。
20.图3为本发明实施例中自适应交通灯控制可视化结果图。
具体实施方式
21.下面结合附图对本发明的技术方案作进一步说明。
22.如图1所示,本发明所述的基于深度强化学习自适应交通灯控制方法,包括以下步骤:
23.步骤1、对城市内交通网络数据进行预处理,具体如下:
24.步骤1.1、采集一个城市内所有交通节点的信息,形成交通数据集。
25.对城市中所有交通节点,记录节点的位置坐标信息、所有车道长度,存入txt文件中,形成交通数据集。
26.步骤1.2、采集一个城市一段时间内的车流信息,形成车流数据集。
27.对城市一段时间内的车流,记录所有车辆进入路网、离开路网的时间,并记录车辆
的行动轨迹,形成车流数据集。
28.步骤2、建立基于自适应ε-greedy算法构建dueling actor-critic(对抗演员评论家)深度强化学习框架。
29.自适应ε-greedy算法具体如下:
30.步骤2.1、根据车道上的车辆数量得到状态集s,动作a用于对信号灯时长进行调控。状态值函数表示的是当前路口所有车道上的车辆情况,利用动作函数对红灯时长或绿灯时长进行加减,动作函数对信号灯时长每次加减10秒或者保持不变。
31.步骤2.2、将状态集合作为输入,输入到q网络,得到优势值x,则优势函数的公式为:
[0032][0033]
其中s为状态集,a为动作集,v为状态值函数,表示当前路口所有车道上的车辆情况,q为状态动作值函数,ω为共享网络参数,α和β分别是状态值函数和优势函数的网络参数。
[0034]
优势函数是计算后续ε值的一个重要因素。优势函数用于评估在状态s下采取各动作相对于平均回报的好坏。如果得到的优势值大于0则说明采取该动作的回报优于平均回报,反之则相反。
[0035]
步骤2.3根据所得的优势值计算出相对状态下合理的ε值,ε值是控制动作的一个关键参数。通过对ε值的动态化能够选择在某一状态下合适的动作,即根据车流量能够自适应地控制交通灯时长。具体计算表达式如下:
[0036][0037]
步骤2.4将ε值输入到actor网络中,获得最优动作并控制交通灯时长。由于该ε不能用于对当前动作a的选择,只能用于对下一状态s
′
动作a
′
的选择,就会出现一步偏差的问题。本发明使用actor-critic架构的思想,将得到的ε值去指导当前状态s下的动作a选择来解决一步偏差的问题。
[0038]
如图2所示,dueling actor-critic深度强化学习框架将当前状态输入q网络输出得到状态价值v和优势值x,将其相加得到q值。反向计算得出新的优势值x,同时计算得出当前时刻的ε值。将得到的ε值放入actor网络中指导智能体选择动作,最终得到当前状态下的最优动作。每过一段时间,将q网络的网络参数输入目标q网络,对目标网络的参数进行更新,并计算得到最大q估计maxq。使用td误差对q网络和actor网络进行优化。critic网络通过学习环境和奖励之间的关系,用它来指导actor网络的更新。
[0039]
步骤3、将交通数据集、车流数据集导入dueling actor-critic深度强化学习框架,进行训练,并记录记录车辆的平均通行时间、路口的通行量。
[0040]
步骤4、将步骤3中训练的最好的回合生成回放文件,导入至cityflow平台中,进行可视化展示。
[0041]
下面通过具体实验对本发明进行说明。
[0042]
如表1和表2所示分别为7组不同的交通数据集和车流数据集,将其分别导入actor-critic框架和dueling actor-critic深度强化学习框架进行训练。
[0043]
图3所示为利用dueling actor-critic深度强化学习框架训练得到的最优结果的可视化结果图。
[0044]
表1
[0045][0046][0047]
表2
[0048][0049]
在各路口平均通行车辆数目相同的情况下,对比了dueling actor-critic与actor-critic在各路口的平均通行时间的数据,能够发现在大部分情况下,使用dueling actor-critic得到的结果优于actor-critic。说明对ε-greedy方法进行的改进是有效果的,减少了ε-greedy方法陷入局部最优的可能性。
[0050]
所述计算机可读存储媒体可包括ram、rom、eeprom、cd-rom或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。
[0051]
处理器用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
技术特征:
1.一种基于深度强化学习的自适应交通灯控制方法,其特征在于,将交通数据集和车流数据集导入dueling actor-critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;所述dueling actor-critic深度强化学习框架包括actor网络和critic网络;根据车道上的车辆数量得到状态集s,将所述状态集s输入到critic网络中的q网络,得到优势值x,进而计算相对状态下的ε值,将所述ε值输入到actor网络中获得最优动作;优势函数为:ε值的计算公式为:其中a为动作集合,ω是共享网络参数,α和β分别是价值函数网络和优势函数网络的网络参数;v为价值函数,q为状态动作值函数;动作a用于对信号灯时长进行调控,a
′
为下一时刻动作。2.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,利用所述ε值指导当前时刻状态s下的动作a以获取最优动作。3.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,每隔一段时间间隔,将所述q网络的网络参数输入critic网络中的目标q网络,对目标q网络的参数进行更新,并计算得到最大q估计。4.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,所述交通数据集包括城市中所有交通节点的位置坐标信息和车道长度;所述车流数据集包括城市一段时间内所有车辆进入路网时间、离开路网时间及行动轨迹。5.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,所述动作a用于对信号灯时长进行调控包括对红灯时长或绿灯时长进行加减。6.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,利用cityflow平台将所述交通数据集和车流数据集在dueling actor-critic深度强化学习框架中训练的结果进行可视化展示。7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于深度强化学习的自适应交通灯控制方法。8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1-6任一项所述的基于深度强化学习的自适应交通灯控制方法。
技术总结
本发明公开了一种基于深度强化学习的自适应交通灯控制方法,将交通数据集和车流数据集导入Dueling Actor-Critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;所述Dueling Actor-Critic深度强化学习基于自适应ε-greedy算法建立,ε值在整个执行过程不断变化,使其更具有探索性,最终目标是为了获得最优动作并控制交通灯时长,避免了陷入局部最优的问题。避免了陷入局部最优的问题。避免了陷入局部最优的问题。
技术研发人员:孔燕 曹俊豪
受保护的技术使用者:南京信息工程大学
技术研发日:2023.03.13
技术公布日:2023/6/26
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
