基于雷视融合与深度增强学习的信号机控制方法及系统与流程

未命名 07-18 阅读：80 评论：0

1.本技术涉及智慧交通技术领域，特别是涉及一种基于雷视融合与深度增强学习的信号机控制方法及系统。

背景技术：

2.随着社会经济的快速发展，城市化建设的规模越来越大，并且人口与车辆也随之持续增长。在城市交通中，车辆以及人口的增加造成交通越来越拥堵，尤其在早高峰与晚高峰的通勤时间内，容易出现交通事故以及路段拥堵的问题，进而对于交叉路口的交通信号灯的控制尤为重要。
3.传统信号机控制方法采用固定信号配置，固定信号的获取是以历史交通数据为依据，由此来设置固定的绿灯时间、红灯时间、黄灯时间、相位以及周期等时间信号。然而，传统信号机控制方法的控制方式是来源于历史交通数据的固定信号配置，控制方式固定不易变通，对于交通复杂的路口以及交通流量较大的道路无法进行合理的调控，导致交叉路口容易出现拥堵或交通事故。

技术实现要素：

4.本技术的目的是解决传统信号机控制方法的控制方式固定不易变通，对于交通复杂的路口以及交通流量较大的道路无法进行合理的调控的技术问题。为实现上述目的，本技术提供一种基于雷视融合与深度增强学习的信号机控制方法及系统。
5.本技术提供一种基于雷视融合与深度增强学习的信号机控制方法，包括：
6.获取经过路口的所有车辆的时空信息与每个周期包含的相位、阶段、通行车道以及禁行车道，所述时空信息基于雷视融合数据获得；
7.根据所述路口的所有车辆的时空信息与所述周期包含的相位、阶段、通行车道以及禁行车道，计算获得车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息；
8.将所述车道粒度的排队长度、所述车辆粒度的车辆状态及停止时间、所述空放时间、所述空放占比、所述车辆延长时间以及所述交通环境信息中多个指标参数作为评估指标集，将维持当前相位与切换至目标相位集作为控制策略集；
9.根据所述评估指标集构建指标回报函数；
10.根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建最大期望函数；
11.以所述最大期望函数为目标，将所述评估指标集输入至神经网络进行迭代计算，获得所述控制策略集中期望控制策略；
12.根据所述期望控制策略，对信号机的运行状态进行控制。
13.在一个实施例中，所述根据所述评估指标集构建指标回报函数，包括：
14.根据所述评估指标集中所述车辆粒度的车辆状态与停止时间，计算获得第一状态
下所有车辆的第一累计停车时长与第二状态下所有车辆的第二累计停车时长；
15.根据所述第一累计停车时长与所述第二累计停车时长，构建所述指标回报函数；
16.其中，所述指标回报函数为：
17.r＝r
1-r2，r1表示所述第一累计停车时长，r2表示所述第二累计停车时长。
18.在一个实施例中，所述根据所述评估指标集构建指标回报函数，还包括：
19.根据所述评估指标集中所述空放时间，计算获得第一状态下所有车道的第一车道累计空放时长与第二状态下所有车道的第二车道累计空放时长；
20.根据所述第一车道累计空放时长与所述第二车道累计空放时长，构建所述指标回报函数；
21.其中，所述指标回报函数为：
22.r＝r
3-r4，r3表示所述第二车道累计空放时长，r4表示所述第二车道累计空放时长。
23.在一个实施例中，所述根据所述评估指标集构建指标回报函数，还包括：
24.根据所述评估指标集中所述车辆延长时间，计算获得第一类车辆与第二类车辆在第一状态下的第一累计延长时长、所述第一类车辆与所述第二类车辆在第二状态下的第二累计延长时长；
25.根据所述第一累计延长时长与所述第二累计延长时长，构建所述指标回报函数；
26.其中，所述指标回报函数为：
27.r＝r
5-r6＝(k1×
d1+k2×
d2)-(k1×
d3+k2×
d4)，r5表示所述第一累计延长时长，r6表示所述第二累计延长时长，k1表示所述第一类车辆的权重，k2表示所述第二类车辆的权重，d1表示所述第一类车辆在所述第一状态下的第一类时长，d2表示所述第二类车辆在所述第一状态下的第二类时长，d3表示所述第一类车辆在所述第二状态下的第三类时长，d4表示所述第二类车辆在所述第二状态下的第四类时长。
28.在一个实施例中，所述根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建最大期望函数，包括：
29.根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建所述最大期望函数为
30.其中，s表示所述评估指标集，a表示所述控制策略集，r表示所述指标回报函数，γ表示折扣系数。
31.在一个实施例中，本技术提供一种基于雷视融合与深度增强学习的信号机控制系统，包括：
32.数据获取模块，用于获取经过路口的所有车辆的时空信息与每个周期包含的相位、阶段、通行车道以及禁行车道，所述时空信息基于雷视融合数据获得；
33.控制指标获取模块，用于根据所述路口的所有车辆的时空信息与所述周期包含的相位、阶段、通行车道以及禁行车道，计算获得车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息；
34.控制指标与策略构建模块，用于将所述车道粒度的排队长度、所述车辆粒度的车辆状态及停止时间、所述空放时间、所述空放占比、所述车辆延长时间以及所述交通环境信息中多个指标参数作为评估指标集，将维持当前相位与切换至目标相位集作为控制策略
集；
35.指标回报函数构建模块，用于根据所述评估指标集构建指标回报函数；
36.最大期望函数构建模块，用于根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建最大期望函数；
37.期望控制策略获取模块，用于以所述最大期望函数为目标，将所述评估指标集输入至神经网络进行迭代计算，获得所述控制策略集中期望控制策略；
38.控制模块，用于根据所述期望控制策略，对信号机的运行状态进行控制。
39.在一个实施例中，所述指标回报函数构建模块包括：
40.累计停车时长计算模块，用于根据所述评估指标集中所述车辆粒度的车辆状态与停止时间，计算获得第一状态下所有车辆的第一累计停车时长与第二状态下所有车辆的第二累计停车时长；
41.第一回报构建模块，用于根据所述第一累计停车时长与所述第二累计停车时长，构建所述指标回报函数；
42.其中，所述指标回报函数为：
43.r＝r
1-r2，r1表示所述第一累计停车时长，r2表示所述第二累计停车时长。
44.在一个实施例中，所述指标回报函数构建模块还包括：
45.累计空放时长计算模块，用于根据所述评估指标集中所述空放时间，计算获得第一状态下所有车道的第一车道累计空放时长与第二状态下所有车道的第二车道累计空放时长；
46.第二回报构建模块，用于根据所述第一车道累计空放时长与所述第二车道累计空放时长，构建所述指标回报函数；
47.其中，所述指标回报函数为：
48.r＝r
3-r4，r3表示所述第二车道累计空放时长，r4表示所述第二车道累计空放时长。
49.在一个实施例中，所述指标回报函数构建模块还包括：
50.累计延长时长计算模块，用于根据所述评估指标集中所述车辆延长时间，计算获得第一类车辆与第二类车辆在第一状态下的第一累计延长时长、所述第一类车辆与所述第二类车辆在第二状态下的第二累计延长时长；
51.第三回报构建模块，用于根据所述第一累计延长时长与所述第二累计延长时长，构建所述指标回报函数；
52.其中，所述指标回报函数为：
53.r＝r
5-r6＝(k1×
d1+k2×
d2)-(k1×
d3+k2×
d4)，r5表示所述第一累计延长时长，r6表示所述第二累计延长时长，k1表示所述第一类车辆的权重，k2表示所述第二类车辆的权重，d1表示所述第一类车辆在所述第一状态下的第一类时长，d2表示所述第二类车辆在所述第一状态下的第二类时长，d3表示所述第一类车辆在所述第二状态下的第三类时长，d4表示所述第二类车辆在所述第二状态下的第四类时长。
54.在一个实施例中，所述最大期望函数构建模块包括：
55.目标构建模块，用于根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建所述最大期望函数为
56.其中，s表示所述评估指标集，a表示所述控制策略集，r表示所述指标回报函数，γ表示折扣系数。
57.上述基于雷视融合与深度增强学习的信号机控制方法及系统中，根据雷视融合数据、配时方案信息以及高精度地图的信息，获得经过路口的所有车辆的时空信息与每个周期包含的相位、阶段、通行车道以及禁行车道，进一步获知车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息等信息，形成评估指标集。构建控制策略集与指标回报函数，并基于评估指标集、控制策略集以及指标回报函数构建最大期望函数作为神经网络迭代计算的目标，计算获得最优价值数值对应的控制策略，作为期望控制策略。根据期望控制策略对信号机进行控制，实现对交叉路口的信号进行调控。
58.本技术提供的基于雷视融合与深度增强学习的信号机控制方法，不仅基于交叉路口的多维度数据，且基于神经网络算法进行深度增强学习，迭代计算获得期望控制策略，更加灵活变通的对交叉路口进行交通管理，提高了交叉路口的通行效率，更有利于对交叉路口进行智能化管理，解决了交叉路口拥堵或交通事故等问题。
附图说明
59.图1是本技术提供的基于雷视融合与深度增强学习的信号机控制方法的步骤流程示意图。
60.图2是本技术提供的基于雷视融合与深度增强学习的信号机控制系统的结构示意图。
具体实施方式
61.下面通过附图和实施例，对本技术的技术方案做进一步的详细描述。
62.请参见图1，本技术提供一种基于雷视融合与深度增强学习的信号机控制方法，包括：
63.s10，获取经过路口的所有车辆的时空信息与每个周期包含的相位、阶段、通行车道以及禁行车道，时空信息基于雷视融合数据获得；
64.s20，根据路口的所有车辆的时空信息与周期包含的相位、阶段、通行车道以及禁行车道，计算获得车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息；
65.s30，将车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息中多个指标参数作为评估指标集，将维持当前相位与切换至目标相位集作为控制策略集；
66.s40，根据评估指标集构建指标回报函数；
67.s50，根据评估指标集、控制策略集以及指标回报函数，构建最大期望函数；
68.s60，以最大期望函数为目标，将评估指标集输入至神经网络进行迭代计算，获得控制策略集中期望控制策略；
69.s70，根据期望控制策略，对信号机的运行状态进行控制。
70.本实施例中，雷视融合数据来源于雷达数据与视频数据的融合。雷视一体机设置
于交叉路口，用于获取视频图像数据与雷达探测数据。将视频图像数据与雷达探测数据进行融合，获得所有车辆的时空信息。通过视频图像数据捕获车辆，识别车辆属性信息，如车牌号码，车牌颜色，车辆颜色等。通过雷达探测数据识别车辆距离，车辆速度等。视频图像数据与雷达探测数据经光纤传输，解调器解调后传输至平台端进行融合。
71.对基于相机的车辆信息与基于雷达的车辆信息进行时空融合时，可以分为时间融合与空间融合，对雷达坐标系与相机坐标系之间进行转换，实现雷达坐标系向像素坐标系的转换，完成视频图像数据与雷达探测数据的空间融合，对视频图像数据与雷达探测数据在时间上同步采集数据，实现时间上的融合。高精度地图可以提供交叉路口的停止线轮廓位置信息、车道线轮廓位置信息以及交叉路口的经纬度信息等。相对时空信息包括车辆相对于交叉路口的相对空间位置，根据车辆相对于交叉路口距离可以将相对空间位置转换成地理坐标系下的空间位置，获得地理坐标系下车辆对应的经纬度位置。从而，将每个车辆相对于交叉路口的相对时空信息，转换为时空信息，进而获知每个车辆的行驶轨迹。
72.时空信息包括某一车辆在某一时刻的经纬度位置、时间信息、车辆位置信息、车辆速度信息、车辆行驶方向信息、车辆型号信息、车辆车牌信息以及车辆颜色信息等。根据车辆对应的经纬度位置可以在地图上进行相应车辆标记，提供相关地理位置信息支持。
73.配时方案信息通过信控机获得，将配时方案信息与高精度地图中显示的车道信息共同计算，可以获取一个周期包含的多个阶段与多个相位以及对应通行与禁止通行的车道。一个周期可以理解为信号灯色按照设定的信号相位顺序变化一周所需的时间。一个周期内包含n个阶段数或者n个相位数，相位表示的为一个时刻状态，阶段表示了状态持续时间。周期包含的阶段与相位是由配时获得的，红绿灯表示允许通行的流向，进而用流向匹配车道，获得通行车道。例如：相位允许通行的是北直、北右、南直、南右，南北向的直行车道中右转车道、直行+右转车道均是可以通行的，即形成通行车道。对每个相位赋予对应的时间，形成阶段。
74.通过配时方案中的相位信息，获知任一个时刻允许通行的流向(如南向北、东向南等)，从高精度地图中获取车道的位置与转向(如西侧第一车道、左转)，可以获知车道流向(如西向北)，进而以此类推可以获知任一个时刻各个相位对应的车道是通行还是禁止，进而获得每个周期包含的相位、阶段、通行车道以及禁行车道等信息。
75.粒度可以理解为数据精细度。粒度可以为日、小时、分钟、秒、毫秒等。根据每个车辆在各个时刻的状态进行划分，将车道上连续多个停止车辆形成的排队队伍对应的队首车辆的车头位置与队尾车辆的车尾位置之间的路段长度，作为排队长度。或者，根据队首车辆的车头位置与队尾车辆之间的车辆数量，获得排队队伍的排队数量长度。排队长度可以为距离路段的长度，也可以为车辆数量的长度。车辆状态通过车辆在每个时刻是否停车进行划分，分为停止车辆或者非停止车辆。
76.将每个车道的阶段用时内的每个车辆的延长时间段、启动子损失时间段以及清场子损失时间段去除，剩余时间为每个车道的空放时间。进一步，根据每个车道的空放时间，可以获知方向级空放时间、路口空放时间、阶段空放时间等。空放时间可以为车道空放时间、方向级空放时间、路口空放时间、阶段空放时间中的任一种，可以根据实际需求进行设置。空放占比可以理解为空放时间占一个阶段或者一个周期的时间占比。
77.对在每个车道的阶段用时内通过停止线的每个车辆进行时间标记，获得每个车辆
的标记时刻，对每个车辆的标记时刻进行饱和车头时距的时间延长，获得每个车辆的车辆延长时间。交通环境信息包括上游路口流量、天气、工作/休息日等信息。
78.评估指标集可以理解为车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息中一个或者多个的组合数据集。评估指标集不仅仅限于包括车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息，还可以包括其他与交叉路口相关的交通信息参数。
79.控制策略集包括维持当前相位与切换至目标相位集两个执行动作。当前相位可以理解为当前状态对应的相位。维持当前相位可以理解为继续提供绿灯方向，持续当前相位的时间。切换至目标相位集可以理解为切换至目标相位集中其它相位，也可以理解为当前相位对应的红灯亮，允许其它相位的流向进行通行。目标相位集包括相位一、相位二、相位三、相位四等。目标相位集中相位一、相位二、相位三、相位四等与当前相位不同，且不与当前相位冲突，例如左转待停需要将左转放入当前方向直行。目标相位集可以理解为需要切换到的相位的集合，可以切换当前相位至目标相位集中任一个目标相位。
80.评估指标集表征了某个状态，控制策略集表征了可以执行的动作。例如，排队长度变长，可以切换灯色，排队长度即为评估指标集中的状态，切换灯色即为控制策略集中的切换至目标相位集的动作。
81.指标回报函数可以理解为评估指标集与控制策略集构成的策略的属性，不同的控制指标对应不同的控制策略，对应产生不同的回报。指标回报函数对应的回报越大，代表价值越大。对于评估指标集中不同状态，可以执行控制策略集中不同动作，产生不同的回报。将评估指标集、控制策略集以及指标回报函数构建价值函数，价值函数符合贝尔曼方程的基本形态，可以通过神经网络进行迭代计算，获取最优价值函数，也就是最大期望函数，进而获得最大期望函数对应的最优策略。
82.将最大期望函数作为迭代计算的目标，将评估指标集与控制策略集输入至神经网络进行迭代计算，对价值函数进行计算，获得不同控制策略对应的不同价值数值，进一步获得最优价值数值对应的控制策略，作为期望控制策略。期望控制策略作为最优策略。从而，根据期望控制策略(例如维持当前相位或者切换至目标相位集)，对信号机的运行状态进行控制。
83.本技术提供的基于雷视融合与深度增强学习的信号机控制方法，根据雷视融合数据、配时方案信息以及高精度地图的信息，获得经过路口的所有车辆的时空信息与每个周期包含的相位、阶段、通行车道以及禁行车道，进一步获知车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息等信息，形成评估指标集。构建控制策略集与指标回报函数，并基于评估指标集、控制策略集以及指标回报函数构建最大期望函数作为神经网络迭代计算的目标，计算获得最优价值数值对应的控制策略，作为期望控制策略。根据期望控制策略对信号机进行控制，实现对交叉路口的信号进行调控。
84.本技术提供的基于雷视融合与深度增强学习的信号机控制方法，不仅基于交叉路口的多维度数据，且基于神经网络算法进行深度增强学习，迭代计算获得期望控制策略，更加灵活变通的对交叉路口进行交通管理，提高了交叉路口的通行效率，更有利于对交叉路
口进行智能化管理，解决了交叉路口拥堵或交通事故等问题。
85.在一个实施例中，s40，根据评估指标集构建指标回报函数，包括：
86.s411，根据评估指标集中车辆粒度的车辆状态与停止时间，计算获得第一状态下所有车辆的第一累计停车时长与第二状态下所有车辆的第二累计停车时长；
87.s412，根据第一累计停车时长与第二累计停车时长，构建指标回报函数；
88.其中，指标回报函数为：
89.r＝r
1-r2，r1表示第一累计停车时长，r2表示第二累计停车时长。
90.本实施例中，车辆状态可以分为停车状态与非停车状态，可以通过对当前时刻的瞬时速度与速度阈值进行判断，车辆状态为停车状态或者非停车状态。在一个实施例中，若上一时刻的状态为非停车状态，则判断车辆在当前时刻的瞬时速度是否小于低速度阈值，若是，则当前时刻的状态为停车状态，若否，则当前时刻的状态为非停车状态；若上一时刻的状态为停车状态，则判断车辆在当前时刻的瞬时速度是否小于高速度阈值，若是，则当前时刻的状态为非停车状态，若否，则当前时刻的状态为停车状态。
91.在一个实施例中，第一状态与第二状态为相邻状态。第一状态与第二状态可以理解为上一状态与当前状态，表征了某一个时刻或者时段的状态。对于某个车道或者某个方向或者某个交叉路口，根据每个车辆在一段时间内的各个时刻的停车状态，对多个连续的停车状态对应的时长进行求和，获得每个车辆的停车时长。对第一状态下所有车辆的停车时长进行求和，获得第一累计停车时长。对第二状态下所有车辆的停车时长进行求和，获得第二累计停车时长。第一累计停车时长与第二累计停车时长可以对应着某个车道或者某个方向或者某个交叉路口。根据第一累计停车时长与第二累计停车时长的差值构建指标回报函数。
92.通过本实施例中第一状态与第二状态对应的第一累计停车时长与第二累计停车时长构建指标回报函数，可以使得车辆延误时间尽量短，让车辆尽快通过交叉路口。
93.在一个实施例中，s40，根据评估指标集构建指标回报函数，还包括：
94.s421，根据评估指标集中空放时间，计算获得第一状态下所有车道的第一车道累计空放时长与第二状态下所有车道的第二车道累计空放时长；
95.s422，根据第一车道累计空放时长与第二车道累计空放时长，构建指标回报函数；
96.其中，指标回报函数为：
97.r＝r
3-r4，r3表示第二车道累计空放时长，r4表示第二车道累计空放时长。
98.本实施例中，空放时间可以为车道的空放时间、方向级空放时间、路口空放时间、阶段空放时间。对于每个车道的空放时间，可以将每个车道的阶段用时内的每个车辆的延长时间段、启动子损失时间段以及清场子损失时间段去除获得。对同方向的每个车道的空放时间进行交集计算，获得方向级空放时间。对交叉路口的每个方向的方向级空放时间段进行交集计算，获得路口空放时间段。对一个周期内的每个阶段的每个车道的空放时间段进行交集计算，获得阶段空放时间段。
99.当空放时间为车道的空放时间时，将第一状态下所有车道的空放时间进行求和计算，获得第一车道累计空放时长。将第二状态下所有车道的空放时间进行求和计算，获得第二车道累计空放时长。根据第一车道累计空放时长与第二车道累计空放时长的差值作为指标回报函数，可以使得交叉口减少空放，整体提高利用率。
100.在一个实施例中，s40，根据评估指标集构建指标回报函数，还包括：
101.s431，根据评估指标集中车辆延长时间，计算获得第一类车辆与第二类车辆在第一状态下的第一累计延长时长、第一类车辆与第二类车辆在第二状态下的第二累计延长时长；
102.s432，根据第一累计延长时长与第二累计延长时长，构建指标回报函数；
103.其中，指标回报函数为：
104.r＝r
5-r6＝(k1×
d1+k2×
d2)-(k1×
d3+k2×
d4)，r5表示第一累计延长时长，r6表示第二累计延长时长，k1表示第一类车辆的权重，k2表示第二类车辆的权重，d1表示第一类车辆在第一状态下的第一类时长，d2表示第二类车辆在第一状态下的第二类时长，d3表示第一类车辆在第二状态下的第三类时长，d4表示第二类车辆在第二状态下的第四类时长。
105.本实施例中，车辆延长时间可以根据非自由通过交叉路口的实际行驶时间与自由通过交叉路口的标准通过时间的差值计算获得。标准通过时间表征了在绿灯时间段内自由经过且没有任何阻拦的通过交叉路口的时间。车辆延长时间表征了车辆在交叉路口上受阻、行驶时间损失消耗的时间。
106.第一类车辆与第二类车辆的车辆类型不同。在一个实施例中，第一类车辆可以为特殊车辆，如公交车、救护车、消防车等。第二类车辆可以为普通车辆，如私家车、摩托车、自行车等。对于不同类型的车辆赋予不同计算权重，划分在回报计算过程中不同类型赋予的回报比例。k1表示第一类车辆的权重，k2表示第二类车辆的权重，k1为k2的数值的2～4倍，具体数值可根据实际情况进行调控。通过本实施例中，对指标回报函数中各个不同车辆类型的权重设置，可以使得特殊车辆的车辆权重进行大幅提升，以使得特殊车辆的放行具有更大的回报，使得信控机信号的控制更加灵活适用于各种交通状况。
107.在一个实施例中，s50，根据评估指标集、控制策略集以及指标回报函数，构建最大期望函数，包括：
108.s510，根据评估指标集、控制策略集以及指标回报函数，构建最大期望函数为
109.其中，s表示评估指标集，a表示控制策略集，r表示指标回报函数，γ表示折扣系数。
110.本实施例中，根据评估指标集、控制策略集以及指标回报函数，可以构建价值函数。本实施例中，价值函数采用q函数。通过神经网络迭代计算q函数的数值，获得多个不同的价值数值。在迭代计算过程中，构建最大期望函数，也可以理解为最大q函数期望值作为迭代计算的目标，最终获得最优的q值，进而获得最优q值对应的最优策略，实现对信号机的运行状态进行控制。
111.请参见图2，本技术提供一种基于雷视融合与深度增强学习的信号机控制系统100。基于雷视融合与深度增强学习的信号机控制系统100包括数据获取模块10、控制指标获取模块20、控制指标与策略构建模块30、指标回报函数构建模块40、最大期望函数构建模块50、期望控制策略获取模块60以及控制模块70。数据获取模块10用于获取经过路口的所有车辆的时空信息与每个周期包含的相位、阶段、通行车道以及禁行车道，时空信息基于雷视融合数据获得。
112.控制指标获取模块20用于根据路口的所有车辆的时空信息与周期包含的相位、阶
段、通行车道以及禁行车道，计算获得车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息。控制指标与策略构建模块30用于将车道粒度的排队长度、车辆粒度的车辆状态及停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息中多个指标参数作为评估指标集，将维持当前相位与切换至目标相位集作为控制策略集。指标回报函数构建模块40用于根据评估指标集构建指标回报函数。
113.最大期望函数构建模块50用于根据评估指标集、控制策略集以及指标回报函数，构建最大期望函数。期望控制策略获取模块60用于以最大期望函数为目标，将评估指标集输入至神经网络进行迭代计算，获得控制策略集中期望控制策略。控制模块70用于根据期望控制策略，对信号机的运行状态进行控制。
114.本实施例中，数据获取模块10的相关描述可参考上述实施例中s10的相关描述。控制指标获取模块20的相关描述可参考上述实施例中s20的相关描述。控制指标与策略构建模块30的相关描述可参考上述实施例中s30的相关描述。指标回报函数构建模块40的相关描述可参考上述实施例中s40的相关描述。最大期望函数构建模块50的相关描述可参考上述实施例中s50的相关描述。期望控制策略获取模块60的相关描述可参考上述实施例中s60的相关描述。控制模块70的相关描述可参考上述实施例中s70的相关描述。
115.在一个实施例中，指标回报函数构建模块40包括累计停车时长计算模块与第一回报构建模块。累计停车时长计算模块用于根据评估指标集中车辆粒度的车辆状态与停止时间，计算获得第一状态下所有车辆的第一累计停车时长与第二状态下所有车辆的第二累计停车时长。第一回报构建模块用于根据第一累计停车时长与第二累计停车时长，构建指标回报函数。
116.其中，指标回报函数为：
117.r＝r
1-r2，r1表示第一累计停车时长，r2表示第二累计停车时长。
118.本实施例中，累计停车时长计算模块的的相关描述可参考上述实施例中s411的相关描述。第一回报构建模块的相关描述可参考上述实施例中s412的相关描述。
119.在一个实施例中，指标回报函数构建模块40还包括累计空放时长计算模块与第二回报构建模块。累计空放时长计算模块用于根据评估指标集中空放时间，计算获得第一状态下所有车道的第一车道累计空放时长与第二状态下所有车道的第二车道累计空放时长。第二回报构建模块用于根据第一车道累计空放时长与第二车道累计空放时长，构建指标回报函数。
120.其中，指标回报函数为：
121.r＝r
3-r4，r3表示第二车道累计空放时长，r4表示第二车道累计空放时长。
122.本实施例中，累计空放时长计算模块的相关描述可参考上述实施例中s421的相关描述。第二回报构建模块的相关描述可参考上述实施例中s422的相关描述。
123.在一个实施例中，指标回报函数构建模块40还包括累计延长时长计算模块与第三回报构建模块。累计延长时长计算模块用于根据评估指标集中车辆延长时间，计算获得第一类车辆与第二类车辆在第一状态下的第一累计延长时长、第一类车辆与第二类车辆在第二状态下的第二累计延长时长。第三回报构建模块用于根据第一累计延长时长与第二累计延长时长，构建指标回报函数。
124.其中，指标回报函数为：
125.r＝r
5-r6＝(k1×
d1+k2×
d2)-(k1×
d3+k2×
d4)，r5表示第一累计延长时长，r6表示第二累计延长时长，k1表示第一类车辆的权重，k2表示第二类车辆的权重，d1表示第一类车辆在第一状态下的第一类时长，d2表示第二类车辆在第一状态下的第二类时长，d3表示第一类车辆在第二状态下的第三类时长，d4表示第二类车辆在第二状态下的第四类时长。
126.本实施例中，累计延长时长计算模块的相关描述可参考上述实施例中s431的相关描述。第三回报构建模块的相关描述可参考上述实施例中s432的相关描述。
127.在一个实施例中，最大期望函数构建模块50包括目标构建模块。目标构建模块用于根据评估指标集、控制策略集以及指标回报函数，构建最大期望函数为
128.其中，s表示评估指标集，a表示控制策略集，r表示指标回报函数，γ表示折扣系数。
129.本实施例中，目标构建模块的相关描述可参考上述实施例中s510的相关描述。
130.上述各个实施例中，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于的特定顺序或层次。
131.本领域技术人员还可以了解到本技术实施例列出的各种说明性逻辑块(illustrative logical block)，模块和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，模块和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本技术实施例保护的范围。
132.本技术实施例中所描述的各种说明性的逻辑块，或模块都可以通过通用处理器，数字信号处理器，专用集成电路(asic)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。
133.本技术实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中，asic可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。
134.以上所述的具体实施方式，对本技术的目的、技术方案和有益效果进行了进一步
详细说明，所应理解的是，以上所述仅为本技术的具体实施方式而已，并不用于限定本技术的保护范围，凡在本技术的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

技术特征：
1.一种基于雷视融合与深度增强学习的信号机控制方法，其特征在于，包括：获取经过路口的所有车辆的时空信息与每个周期包含的相位、阶段、通行车道以及禁行车道，所述时空信息基于雷视融合数据获得；根据所述路口的所有车辆的时空信息与所述周期包含的相位、阶段、通行车道以及禁行车道，计算获得车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息；将所述车道粒度的排队长度、所述车辆粒度的车辆状态及停止时间、所述空放时间、所述空放占比、所述车辆延长时间以及所述交通环境信息中多个指标参数作为评估指标集，将维持当前相位与切换至目标相位集作为控制策略集；根据所述评估指标集构建指标回报函数；根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建最大期望函数；以所述最大期望函数为目标，将所述评估指标集输入至神经网络进行迭代计算，获得所述控制策略集中期望控制策略；根据所述期望控制策略，对信号机的运行状态进行控制。2.根据权利要求1所述的基于雷视融合与深度增强学习的信号机控制方法，其特征在于，所述根据所述评估指标集构建指标回报函数，包括：根据所述评估指标集中所述车辆粒度的车辆状态与停止时间，计算获得第一状态下所有车辆的第一累计停车时长与第二状态下所有车辆的第二累计停车时长；根据所述第一累计停车时长与所述第二累计停车时长，构建所述指标回报函数；其中，所述指标回报函数为：r＝r
1-r2，r1表示所述第一累计停车时长，r2表示所述第二累计停车时长。3.根据权利要求1所述的基于雷视融合与深度增强学习的信号机控制方法，其特征在于，所述根据所述评估指标集构建指标回报函数，还包括：根据所述评估指标集中所述空放时间，计算获得第一状态下所有车道的第一车道累计空放时长与第二状态下所有车道的第二车道累计空放时长；根据所述第一车道累计空放时长与所述第二车道累计空放时长，构建所述指标回报函数；其中，所述指标回报函数为：r＝r
3-r4，r3表示所述第二车道累计空放时长，r4表示所述第二车道累计空放时长。4.根据权利要求1所述的基于雷视融合与深度增强学习的信号机控制方法，其特征在于，所述根据所述评估指标集构建指标回报函数，还包括：根据所述评估指标集中所述车辆延长时间，计算获得第一类车辆与第二类车辆在第一状态下的第一累计延长时长、所述第一类车辆与所述第二类车辆在第二状态下的第二累计延长时长；根据所述第一累计延长时长与所述第二累计延长时长，构建所述指标回报函数；其中，所述指标回报函数为：r＝r
5-r6＝(k1×
d1+k2×
d2)-(k1×
d3+k2×
d4)，r5表示所述第一累计延长时长，r6表示所述第二累计延长时长，k1表示所述第一类车辆的权重，k2表示所述第二类车辆的权重，d1表示所述第一类车辆在所述第一状态下的第一类时长，d2表示所述第二类车辆在所述第一状
态下的第二类时长，d3表示所述第一类车辆在所述第二状态下的第三类时长，d4表示所述第二类车辆在所述第二状态下的第四类时长。5.根据权利要求2或权利要求3或权利要求4所述的基于雷视融合与深度增强学习的信号机控制方法，其特征在于，所述根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建最大期望函数，包括：根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建所述最大期望函数为q
π
(s,a)＝e
π
[r+γm
a
a
′
xq(s
′
,a
′
|s,a)]；其中，s表示所述评估指标集，a表示所述控制策略集，r表示所述指标回报函数，γ表示折扣系数。6.一种基于雷视融合与深度增强学习的信号机控制系统，其特征在于，包括：数据获取模块，用于获取经过路口的所有车辆的时空信息与每个周期包含的相位、阶段、通行车道以及禁行车道，所述时空信息基于雷视融合数据获得；控制指标获取模块，用于根据所述路口的所有车辆的时空信息与所述周期包含的相位、阶段、通行车道以及禁行车道，计算获得车道粒度的排队长度、车辆粒度的车辆状态与停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息；控制指标与策略构建模块，用于将所述车道粒度的排队长度、所述车辆粒度的车辆状态及停止时间、所述空放时间、所述空放占比、所述车辆延长时间以及所述交通环境信息中多个指标参数作为评估指标集，将维持当前相位与切换至目标相位集作为控制策略集；指标回报函数构建模块，用于根据所述评估指标集构建指标回报函数；最大期望函数构建模块，用于根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建最大期望函数；期望控制策略获取模块，用于以所述最大期望函数为目标，将所述评估指标集输入至神经网络进行迭代计算，获得所述控制策略集中期望控制策略；控制模块，用于根据所述期望控制策略，对信号机的运行状态进行控制。7.根据权利要求6所述的基于雷视融合与深度增强学习的信号机控制系统，其特征在于，所述指标回报函数构建模块包括：累计停车时长计算模块，用于根据所述评估指标集中所述车辆粒度的车辆状态与停止时间，计算获得第一状态下所有车辆的第一累计停车时长与第二状态下所有车辆的第二累计停车时长；第一回报构建模块，用于根据所述第一累计停车时长与所述第二累计停车时长，构建所述指标回报函数；其中，所述指标回报函数为：r＝r
1-r2，r1表示所述第一累计停车时长，r2表示所述第二累计停车时长。8.根据权利要求6所述的基于雷视融合与深度增强学习的信号机控制系统，其特征在于，所述指标回报函数构建模块还包括：累计空放时长计算模块，用于根据所述评估指标集中所述空放时间，计算获得第一状态下所有车道的第一车道累计空放时长与第二状态下所有车道的第二车道累计空放时长；第二回报构建模块，用于根据所述第一车道累计空放时长与所述第二车道累计空放时长，构建所述指标回报函数；
其中，所述指标回报函数为：r＝r
3-r4，r3表示所述第二车道累计空放时长，r4表示所述第二车道累计空放时长。9.根据权利要求6所述的基于雷视融合与深度增强学习的信号机控制系统，其特征在于，所述指标回报函数构建模块还包括：累计延长时长计算模块，用于根据所述评估指标集中所述车辆延长时间，计算获得第一类车辆与第二类车辆在第一状态下的第一累计延长时长、所述第一类车辆与所述第二类车辆在第二状态下的第二累计延长时长；第三回报构建模块，用于根据所述第一累计延长时长与所述第二累计延长时长，构建所述指标回报函数；其中，所述指标回报函数为：r＝r
5-r6＝(k1×
d1+k2×
d2)-(k1×
d3+k2×
d4)，r5表示所述第一累计延长时长，r6表示所述第二累计延长时长，k1表示所述第一类车辆的权重，k2表示所述第二类车辆的权重，d1表示所述第一类车辆在所述第一状态下的第一类时长，d2表示所述第二类车辆在所述第一状态下的第二类时长，d3表示所述第一类车辆在所述第二状态下的第三类时长，d4表示所述第二类车辆在所述第二状态下的第四类时长。10.根据权利要求7或权利要求8或权利要求9所述的基于雷视融合与深度增强学习的信号机控制系统，其特征在于，所述最大期望函数构建模块包括：目标构建模块，用于根据所述评估指标集、所述控制策略集以及所述指标回报函数，构建所述最大期望函数为q
π
(s,a)＝e
π
[r+γm
a
a
′
xq(s
′
,a
′
|s,a)]；其中，s表示所述评估指标集，a表示所述控制策略集，r表示所述指标回报函数，γ表示折扣系数。

技术总结
本发明公开一种基于雷视融合与深度增强学习的信号机控制方法及系统。方法包括：获取经过路口的所有车辆的时空信息与每个周期包含的相位、阶段、通行车道以及禁行车道，计算获得车道粒度的排队长度、车辆粒度的车辆状态及停止时间、空放时间、空放占比、车辆延长时间以及交通环境信息，并将其中多个指标参数作为评估指标集，将维持当前相位与切换至目标相位集作为控制策略集；根据评估指标集构建指标回报函数；根据评估指标集、控制策略集以及指标回报函数，构建最大期望函数；以最大期望函数为目标，将评估指标集与控制策略集输入至神经网络进行迭代计算，获得期望控制策略，对信号机的运行状态进行控制。的运行状态进行控制。的运行状态进行控制。

技术研发人员：王鹏闫昊张宇昂廖福坤
受保护的技术使用者：智慧互通科技股份有限公司
技术研发日：2022.11.23
技术公布日：2023/5/16

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种基于编队的单点无信号交叉口智能调度方法与系统 下一篇：一种智慧工地管理用报警装置及其使用方法与流程

基于雷视融合与深度增强学习的信号机控制方法及系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于雷视融合与深度增强学习的信号机控制方法及系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表