交通信号灯联合控制方法、装置、计算机设备和存储介质与流程

未命名 07-18 阅读：88 评论：0

1.本技术涉及道路交通技术领域，特别是涉及一种交通信号灯联合控制方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.随着社会发展的进步，汽车成为人类生活中必不可少的部分，例如满足出行需求的私家车、公交车，能够运输获取的商用车等，而随着消费水平的提升，汽车保有量不断增加，随之而来的城市交通拥堵成为了日常生活中不可避免的烦恼之一。在道路交通路口，针对不同方向的交通流，给予相应的放行的时间，交通信号灯的每一种控制状态，即对各种路口的进口道不同方向所显示的不同灯色的组合，就称为一个交通信号灯相位。现有的城市交通信号灯的相位转换次序和对应的持续时长均是提前预设好的，没有考虑到实际交通情况，在遇到特殊情况时，例如下雨天气，现有的控制方法无法满足实际场景中不同车流量车辆的通行需求，容易造成交通拥堵，通行效率较低。

技术实现要素：

3.基于此，有必要针对上述技术问题，提供一种能够高效且准确地调整交通信号灯的交通信号灯联合控制方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
4.第一方面，本技术提供了一种交通信号灯联合控制方法。所述方法包括：
5.针对目标路口中的信号灯，获取信号灯正在使用的当前相位类型和目标路口的当前路况数据；
6.根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；
7.将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，相位预测模型和时间预测模型是根据同一训练样本进行同时训练所得到的；
8.控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标相位的持续时长。
9.在其中一个实施例中，当前路况数据包括目标路口相应各车道的当前车辆数量和当前相位类型投入使用后各车道上车辆的平均行驶距离；根据当前相位和当前路况数据，生成目标路口的当前交通状态，包括：
10.根据当前相位类型和所有相位类型的数量，生成用于表征当前相位类型的第一特征向量；
11.根据各车道的当前车辆数量和车道总数量，生成第二特征向量，根据各车道的平均行驶距离和车道总数量，生成第三特征向量；
12.基于第一特征向量、第二特征向量和第三特征向量，生成目标路口的当前交通状态。
13.在其中一个实施例中，时间预测模型的训练过程，包括：
14.获取与时间预测模型结构相同的第一时间训练目标模型，并获取时间评价模型和与时间评价模型结构相同的第二时间训练目标模型；
15.获取多个训练样本，基于训练样本、时间预测模型和时间评价模型，对第二时间训练目标模型进行训练；
16.基于多个训练样本和第二时间训练目标模型，对第一时间训练目标模型进行训练；
17.根据训练后的第二时间训练目标模型中的参数和时间评价模型中的参数，对时间评价模型中的参数进行更新；
18.根据训练后的第一时间训练目标模型中的参数和时间预测模型中的参数，对时间预测模型中的参数进行更新。
19.在其中一个实施例中，相位预测模型的训练过程，包括：
20.获取多个训练样本和与相位预测模型结构相同的相位训练目标模型；
21.基于多个训练样本和相位预测模型，对相位训练目标模型进行训练；
22.根据训练后的相位训练目标模型中的参数，对相位预测模型中的参数进行更新。
23.在其中一个实施例中，训练样本的获取过程，包括：
24.获取样本交通状态，将样本交通状态分别输入至相位预测模型和时间预测模型，输出相应的样本相位类型和样本控制时长；
25.按照样本交通状态、相应的样本相位类型和样本控制时长，进行信号灯仿真控制，获得信号灯仿真控制后的下一样本交通状态和相应的样本奖励值，样本奖励值用于表征下一样本交通状态的交通状况改善程度；
26.将样本交通状态作为在前样本交通状态，将下一样本交通状态作为在后样本交通状态，将在前交通状态、相应的样本相位类型、相应的样本控制时长、相应的样本奖励值和在后交通状态构成训练样本。
27.在其中一个实施例中，信号灯仿真控制的过程是通过仿真模型实现的；仿真模型的构建过程，包括：
28.针对目标路口，实时采集在不同的旧交通状态下，按照不同的相位类型和控制时长进行信号灯控制后所形成的新交通状态、以及新交通状态所带来的奖励值；
29.基于采集到的数据构建仿真模型，仿真模型用于按照旧交通状态、相位类型和控制时长，进行信号灯仿真控制，获得信号灯仿真控制后的新交通状态和相应的奖励值。
30.在其中一个实施例中，训练样本包括在前交通状态和相应的样本控制时长；基于训练样本和时间评价模型，对第一时间训练目标模型进行训练，包括：
31.基于在前交通状态，通过时间评价模型对在前交通状态相应的样本控制时长进行评价，获得相应的评价值；
32.根据评价值构建第一损失函数，通过第一损失函数对第一时间训练目标模型中的参数进行训练。
33.在其中一个实施例中，训练样本包括在前交通状态、相应的样本控制时长、相应的样本奖励值和在后交通状态；基于训练样本、时间预测模型和时间评价模型，对第二时间训练目标模型进行训练，包括：
34.将在后交通状态输入至时间预测模型，输出在后交通状态相应的样本控制时长；
35.基于在后交通状态，通过时间评价模型对在后交通状态相应的样本控制时长进行评价，获得第一评分值；
36.根据第一评分值和在前交通状态相应的样本奖励值，确定训练样本针对第二时间训练目标模型的训练标签；
37.基于在前交通状态，通过时间评价模型对在前交通状态相应的样本控制时长进行评价，获得第二评分值；
38.根据第二评分值与训练标签间的差异，构建第二损失函数，通过第二损失函数对第二时间训练目标模型中的参数进行训练。
39.在其中一个实施例中，训练样本包括在前交通状态、相应的样本相位类型、相应的样本奖励值和在后交通状态；基于多个训练样本和相位预测模型，对相位训练目标模型进行训练，包括：
40.针对多个训练样本中的当前训练样本，将当前训练样本中的在后交通状态输入至相位预测模型，输出在后交通状态相应的样本相位类型和策略价值预测值；
41.根据在后交通状态相应的策略价值预测值和在前交通状态相应的样本奖励值，确定当前训练样本针对相位训练目标模型的训练标签；
42.将在前交通状态输入至相位预测模型，输出在前交通状态相应的策略价值预测值；
43.根据各训练样本中的在前交通状态相应的策略价值预测值和相应的训练标签间的差异，构建第三损失函数；
44.通过第三损失函数，对相位训练目标模型中的参数进行训练。
45.第二方面，本技术还提供了一种交通信号灯联合控制装置。所述装置包括：
46.数据获取模块，用于针对目标路口中的信号灯，获取信号灯正在使用的当前相位类型和目标路口的当前路况数据；
47.状态生成模块，用于根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；
48.动作预测模块，用于将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，相位预测模型和时间预测模型是根据同一训练样本进行同时训练所得到的；
49.动作执行模块，用于控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标相位的持续时长。
50.第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
51.针对目标路口中的信号灯，获取信号灯正在使用的当前相位类型和目标路口的当前路况数据；
52.根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；
53.将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，相位预测模型和时间预测模型是根据同一训练样本进行同时训练所得到的；
54.控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标
相位的持续时长。
55.第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
56.针对目标路口中的信号灯，获取信号灯正在使用的当前相位类型和目标路口的当前路况数据；
57.根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；
58.将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，相位预测模型和时间预测模型是根据同一训练样本进行同时训练所得到的；
59.控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标相位的持续时长。
60.第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
61.针对目标路口中的信号灯，获取信号灯正在使用的当前相位类型和目标路口的当前路况数据；
62.根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；
63.将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，相位预测模型和时间预测模型是根据同一训练样本进行同时训练所得到的；
64.控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标相位的持续时长。
65.上述交通信号灯联合控制方法、装置、计算机设备、存储介质和计算机程序产品，针对目标路口中的信号灯，获取信号灯正在使用的当前相位类型和目标路口的当前路况数据；根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，相位预测模型和时间预测模型是根据同一训练样本进行同时训练所得到的；控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标相位的持续时长。通过对交通信号灯的相位和持续时长同时进行训练，使得信号灯的相位控制智能体与时间控制智能体的训练数据之间存在关联性，进而使两个智能体的决策区学习到相匹配的最优策略，实现联合优化，能够提高信号灯的相位和时长的最优控制。且结合实际路口路况数据实现对路口信号灯相位智能设置并优化信号时间，激发路口潜在能力，提高路口通信效率。
附图说明
66.图1为一个实施例中交通信号灯联合控制方法的应用环境图；
67.图2为一个实施例中交通信号灯联合控制方法的流程示意图；
68.图3为一个实施例中十字路口信号灯相位参考示意图；
69.图4为一个实施例中交通信号灯联合控制方法中模型训练流程示意图；
70.图5为另一个实施例中交通信号灯联合控制方法的流程示意图；
71.图6为又一个实施例中交通信号灯联合控制方法的流程示意图；
72.图7为一个实施例中智能体的训练过程的流程示意图；
73.图8为一个实施例中交通信号灯联合控制装置的结构框图；
74.图9为一个实施例中计算机设备的内部结构图。
具体实施方式
75.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
76.本技术实施例提供的交通信号灯联合控制方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信，具体为终端102获取路口的实时路况数据，并将路况数据发送至服务器104，由服务器104对路况数据进行处理，得到当前路口交通灯的相位切换和时间设置。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。
77.其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
78.在一个实施例中，如图2所示，提供了一种交通信号灯联合控制方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：
79.步骤202，针对目标路口中的信号灯，获取信号灯正在使用的当前相位类型和目标路口的当前路况数据；
80.其中，相位类型是指目标路口的信号灯的相位类型，信号灯的相位是针对不同方向的交通流，给予相应的放行的时间，即是指在信号控制交叉口，信号灯的每一种控制状态，也即对各进口道不同方向所显示的不同灯色的组合，成为一个信号相位。例如对于十字交叉路口而言，相位类型可以包括东西向路口直行、东西向路口左转、南北向路口直行以及南北向路口左转。
81.路况数据是指描述路口的车辆分布状况的数据，路况数据通过路侧设备获取，例如毫米波雷达、激光雷达、摄像头等。路况数据可以包括车辆数量、车辆驶入驶出车道线的编号、车辆到达和离开路口的时间信息以及每一车道线车辆队列长度等数据。
82.需要说明的是，对于目标路口的相位类型可以通过路侧设备获取，例如目标路口每一进口道处的摄像头，也可以直接通过交通信号灯联合控制系统的控制数据中获取，本技术对此不作具体限定。具体地，在一个实施例中，通过获取目标路口多个摄像头在当前时刻拍摄的多帧图像，对多帧图像进行图像处理，确定目标路口的信号灯正在使用的当前相位类型、车辆数量、车辆驶入驶出车道线的编号、车辆到达和离开路口的时间信息。
83.步骤204，根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；
84.其中，当前交通状态是指能够被智能体识别的、描述当前路口交通状态的量。可以理解的是，步骤202中通过路侧设备获取当前相位类型和当前路况数据是由物理设备直接获取的设备，在使用智能体对数据进行处理进而控制交通信号灯的过程中，智能体无法直
接识别此类数据，需要对获取的数据进行处理，例如通过one-hot编码对相位类型编码，进而确定当前相位类型对应的one-hot向量。对于当前路况数据而言，例如当前交通状态中包括车道线队列长度，则在识别到的m个车道线时，使用一个m维的特征向量表示当前交通状态中的车道线队列长度，每一维度的值即为识别到的车辆队列长度。需要说明的是，在当前交通状态中n个参数类型时，则可以用m*n的特征向量进行表征，例如，当前交通状态还包括车辆在该路口行驶的距离，每一维度的值即平均行驶距离。
85.具体地，对于当前相位类型通过编码形式确定对应的特征向量；对于当前路况数据，对物理值数据进行定义表征，得到路口车辆分布情况的特征向量；由两者共同构成当前交通状态s。
86.步骤206，将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，相位预测模型和时间预测模型是根据同一训练样本进行同时训练所得到的；
87.相位预测模型即离散相位选择智能体，时间预测模型即连续时间分配智能体，两个智能体均是基于强化学习的训练所得到的。将表征当前交通状态的向量分别输入至训练好的两个智能体后，离散相位选择智能体确定当前时刻的下一时刻对应的目标相位类型，即连续时间分配智能体能够得到目标相位类型对应的目标控制时长。
88.需要说明的是，相位预测模型和时间预测模型之间具有一定的关联性，在对两者进行强化学习训练时，使用的是同一训练数据池中的同一批数据，也即在训练时，对于一个训练样本而言，需要同时输入至待训练的离散相位选择智能体和连续时间分配智能体，同时度相位预测模型和时间预测模型进行训练，保证两者学习数据分布的一致性，保证联合优化，提高通行效率。
89.步骤208，控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标相位的持续时长。
90.在得到目标相位类型和目标控制时长后，控制目标路口的信号灯相位调整为目标相位类型，并维持目标控制时长。例如，在一个十字交叉路口，目标路口当前的相位类型为东西向直行30s，经过本实施例的算法对当前路口的路况数据和相位类型进行处理后，得到目标相位类型为东西向左转，目标控制时长为45s，则控制目标路口的信号灯调整为东西向左转45s。
91.需要说明的是，目标相位类型可以是目标路口所有相位类型中的任一类型，也即目标相位类型与当前相位类型可以一致，也可以不一致，两者一致时说明大年车辆流通方向人具有大量车辆等待通行，故目标路口的信号灯相位保持不变。另外，需要说明的是，虽然对目标时长的预测使用的连续时间分配智能体，是对连续时间进行分配，得到一个时长，但是基于路口控制情况可知，已把信号东都是通过秒数进行控制的，因此对于得到目标控制时长一般取整数秒，便于信号灯的控制。
92.上述实施例提供的方法中，针对目标路口中的信号灯，获取信号灯正在使用的当前相位类型和目标路口的当前路况数据；根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长；控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标相位的持续时长。通过对交通信号灯的相位和持续时
长同时进行训练，使得信号灯的相位控制智能体与时间控制智能体的训练数据之间存在关联性，进而使两个智能体的决策区学习到相匹配的最优策略，实现联合优化，能够提高信号灯的相位和时长的最优控制。且结合实际路口路况数据实现对路口信号灯相位智能设置并优化信号时间，激发路口潜在能力，提高路口通信效率。
93.在其中一个实施例中，当前路况数据包括目标路口相应各车道的当前车辆数量和当前相位类型投入使用后各车道上车辆的平均行驶距离；根据当前相位和当前路况数据，生成目标路口的当前交通状态，包括：
94.根据当前相位类型和所有相位类型的数量，生成用于表征当前相位类型的第一特征向量；
95.根据各车道的当前车辆数量和车道总数量，生成第二特征向量，根据各车道的平均行驶距离和车道总数量，生成第三特征向量；
96.基于第一特征向量、第二特征向量和第三特征向量，生成目标路口的当前交通状态。
97.其中，所有相位类型是指目标路口具有的能够实现的所有信号灯的相位类型，对于不同的路口而言，由于信号灯所在路口的实际情况不同，故所存在的相位类型也会有所不同。例如不同类型的路口，十字路口与丁字路口的信号灯总数量不同，则两个路口的信号灯相位类型也不同；再例如同一类型的路口，十字路口1和十字路口2，虽然均存在4个信号灯，但是存在路口交通规则不同的情况，例如，十字路口1的东西向车道不允许左转。还有，对于同一路口的所有信号灯也会存在不同的相位类型组合，例如，在十字路口中，可以允许同一车道口的车辆直行和左转同时进行。综上，在本技术实施例中提及的相位类型应该是目标路口同一规则下确定的所有相位类型之一，也即本技术实施例提及的交通信号灯联合控制方法是在固定相位类型数量的情况下进行的，若需改变所有相位类型确定的规则，则需要重新对目标路口的信号灯相位预测模型和时间预测模型进行学习训练。
98.其中，车道总数量为目标路口的设定数据，车道的车辆数量可以通过路侧设备实时获取，确定当前时刻每一车道的车辆数量，即可形成第二特征向量，用于表示目标路口在当前时刻每一车道的车辆分布情况。第二特征向量的维数由目标路口的车道总数量确定，每一维度的值表征对应车道的车辆数量。同理，第三特征向量的维数也由目标路口的车道总数量确定，每一维度的值表征对应车道的平均行驶距离。
99.其中，车道的平均行驶距离根据获取此车道的车辆总数量和车辆驶入驶出此车道的距离相关。对于当前时刻而言，将第一特征向量、第二特征向量和第三特征向量进行整合，得到一个向量矩阵用于表征目标路口的当前交通状态。
100.可以理解的是，对于一个路口而言，所有的相位类型在某一时刻只能够实现其中一个，否则会出现交通混乱，因此，可以通过所有相位类型数量对当前相位类型进行编码，确定第一特征向量。参见图3所示的目标路口，相位类型对应的编码结果参见下表(未填表示为红灯状态)：
101.表1十字路口相位类型表
[0102][0103]
上述实施例提供的方法中，通过统一规则对目标路口的当前相位类型和当前车况数据进行数据转换，生成智能体能够识别的数据，实现信号灯的控制，提高信号灯控制系统的准确定和鲁棒性。
[0104]
在其中一个实施例中，时间预测模型的训练过程，包括：
[0105]
获取与时间预测模型结构相同的第一时间训练目标模型，并获取时间评价模型和与时间评价模型结构相同的第二时间训练目标模型；
[0106]
获取多个训练样本，基于训练样本、时间预测模型和时间评价模型，对第二时间训练目标模型进行训练；
[0107]
基于多个训练样本和第二时间训练目标模型，对第一时间训练目标模型进行训练；
[0108]
根据训练后的第二时间训练目标模型中的参数和时间评价模型中的参数，对时间评价模型中的参数进行更新；
[0109]
根据训练后的第一时间训练目标模型中的参数和时间预测模型中的参数，对时间预测模型中的参数进行更新。
[0110]
其中，训练样本是对目标路口的车辆运行状况进行仿真控制得到的数据，也可以是实际场景中获取的目标路口的历史车辆运行数据和对应的相位数据。需要说明的是，在训练样本中包括的数据用于描述目标路口与控制目标路口的智能体之间的交互经验，包括智能体对目标路口的输入和输入后的状态即反馈。对于获取到的数据可以直接作为样本数据进行使用，也可以对数据进行筛选、重组、查重、校验等处理后，再进行编码定义确定每一样本。
[0111]
时间预测模型中包括根据样本中的输入状态选择对应的输出控制动作的样本时长策略，对时间预测模型进行训练的目的为确定最优样本时长策略。而若直接对是将预测模型进行训练，则时间预测模型的参数变化会影响输出的变化，使得训练过程会存在较大误差，因此，构建与时间预测模型的结构相同的第一时间训练目标模型，第一时间训练目标模型用于更新参数选择动作，而时间预测模型则根据固定方式计算动作对应的评分值。因此，可以对第一时间训练目标模型进行训练，再将其参数直接复制给时间预测模型。
[0112]
可知，第一时间训练目标模型的作用是用于更新时间预测模型的参数，因此，第一
时间训练目标模型的结构需与时间预测模型一致，否则无法使用其参数对时间预测模型的参数进行更新。同理，第二时间训练目标模型的结构应与时间评价模型的结构一致。时间预测模型用于基于当前交通状态对下一时刻相位动作对应的时间进行选择，故而时间预测模型应该是动作空间连续的神经网络模型，例如deep deterministic policy gradient(ddpg)算法中的target critic网络，模型输出一个数据数值，代表具体动作，在本实施例中输出动作为时间分配动作。
[0113]
在一个实施例中，参见图4，target actor network为时间预测模型，eval actor network为第一时间训练目标模型，target critic network为时间评价模型，eval critic network为第二时间训练目标模型。将训练样本输入至target actor network中，例如样本(s,,,
′
)，其中s表示交通状态，a＝(a
phase,time
)为联合动作，包括相位分配动作a
phase
和时间分配动作a
time
，r为目标路口的仿真器在执行完联合动作a之后反馈给时间预测模型的奖励。将(s,,,
′
)输入至eval actor network神经网络并输出新的时间分配动作a
new
＝(s；μ)，其中π(s；μ)为第一时间训练目标模型eval actor network的时间分配策略，μ为eval actor network神经网络权重。将s和a
new
输入到eval critic network网络中对eval actor network网络输出的动作a
new
进行评估，得到评价值评估eval actor network的策略π(s；μ)，基于评价值对第一时间训练目标模型进行参数调整。
[0114]
在一个实施例中，为了加深对环境的探索得到全局最优解，可以对a
time
加上随机干扰，并且控制在最小控制时长和最大控制时长之间，例如最小控制时长为10s，最大控制时长为60s。
[0115]
而对于第二时间训练目标模型，通过将样本(s,,,
′
)输入至时间预测模型，对下一状态s
′
下的动作进行预测，然后对动作的目标值和期望值之间的差值进行优化，进而实现对第二时间训练目标模型eval critic network的参数更新。
[0116]
需要说明的是，每一训练样本对应一个时间步，在对时间预测模型进行训练时，每一样本输入模型后均需调整时间预测模型的参数，也即每一时间步都将训练好的第二时间训练目标模型的参数幅值到时间预测模型中，以完成时间预测模型的更新。另外，在根据第一时间训练目标模型和第二时间训练目标模型对时间评价模型和时间预测模型进行参数更新时，可以直接将权重参数复制，也可以通过特定方式进行权重参数转换，在此不作具体限定。
[0117]
上述实施例提供的方法中，通过四网络模型结构对其中的时间预测模型进行训练，完成连续时间动作的预测模型的训练，得到更精准的预测结果，使得信号灯控制更加精准。
[0118]
在其中一个实施例中，相位预测模型的训练过程，包括：
[0119]
获取多个训练样本和与相位预测模型结构相同的相位训练目标模型；
[0120]
基于多个训练样本和相位预测模型，对相位训练目标模型进行训练；
[0121]
根据训练后的相位训练目标模型中的参数，对相位预测模型中的参数进行更新。
[0122]
有上述描述可知，若直接对相位预测模型进行训练，则其输出过程会受到训练过程的影响，导致输出存在较大误差，因此获取与相位预测模型结构相同的相位训练目标模型，通过相位训练目标模型更新相位预测模型的参数。具体地，相位训练目标模型的作用在于更新参数选择动作，在训练过程中，相位预测模型进行自益得到回报的评估值，作为学习
目标；将训练样本输入至相位训练目标模型后，相位训练目标模型会根据训练样本中的当前样本状态进行动作价值估计，通过评估值和相位训练目标模型得到的价值进行参数更新。
[0123]
需要说明的是，本技术实施例提供的方法中采用多样本数据对相位预测模型进行软更新，也即相位预测模型的训练需要样本攒积，从样本的获取上来说，每一时刻获取的样本均对相位训练目标模型进行训练，每个预设周期通过相位训练目标模型的参数对相位预测模型的参数进行调整。例如，当前样本对应的时间为时间步t，每隔n个时间步为一个训练轮，每隔m个训练轮对相位预测模型的参数进行更新。
[0124]
针对n个训练样本中当前训练样本，将当前训练样本中的下一样本交通状态输入至相位预测模型，输出相应的样本相位策略和策略价值预测值(相位预测模型就是选择策略价值预测值最大的样本相位策略作为输出的样本相位策略，这里用于辅以构建训练标签)；根据策略价值预测值和当前训练样本中的奖励值，确定当前训练样本针对相位预测模型对应的相位训练目标模型的训练标签；
[0125]
将每一训练样本中的样本交通状态输入至相位预测模型，输出相应的策略价值预测值，根据这n个训练样本中每一训练样本中的样本交通状态相应的策略价值预测值和每一训练样本对应的训练标签间的差异，构建第三损失函数；根据第三损失函数对相位训练目标模型进行训练；根据训练后的相位训练目标模型中的参数，对相位预测模型中的参数进行更新。
[0126]
在上实施例提供的方法中，通过软更新方式对相位预测模型进行更新训练，得到更精准的相位预测模型，提高信号等控制中相位类型选择的准确性和信号灯控制系统的鲁棒性。
[0127]
在其中一个实施例中，参见图5，训练样本的获取过程，包括：
[0128]
步骤502，获取样本交通状态，将样本交通状态分别输入至相位预测模型和时间预测模型，输出相应的样本相位类型和样本控制时长；
[0129]
步骤504，按照样本交通状态、相应的样本相位类型和样本控制时长，进行信号灯仿真控制，获得信号灯仿真控制后的下一样本交通状态和相应的样本奖励值，样本奖励值用于表征下一样本交通状态的交通状况改善程度；
[0130]
步骤506，将样本交通状态作为在前样本交通状态，将下一样本交通状态作为在后样本交通状态，将在前交通状态、相应的样本相位类型、相应的样本控制时长、相应的样本奖励值和在后交通状态构成训练样本。
[0131]
其中，样本交通状态是指随机获取的目标路口的交通状态数据，例如，可以将通过目标路口的路侧设备(例如毫米波雷达，激光雷达，摄像头等)收集的历史车辆分布数据和对应的每一时刻的相位数据导入至信号灯仿真器中，为时间预测模型和相位预测模型与环境之间的交互训练做准备。其中，信号灯的仿真器是基于目标路口的参数建立的，本技术实施例不对仿真器的构建过程作具体限定。需要训练时，在时间步t，从信号灯仿真器中获取当前时间步t路口的路况数据和相位数据，生成当前交通状态，作为一个样本交通状态。
[0132]
对于当前样本交通状态s(在前样本交通状态)，输入至相位预测模型后，得到相位分配动作a
phase
；输入至时间预测模型后，得到时间分配动作a
time
，由相位分配动作a
phase
和时间分配动作a
time
构成联合动作a＝(a
phase,time
)，发送至信号灯仿真器进行仿真控制后，会得
到目标路口新的交通状态，也即下一样本交通状态s
′
(在后样本交通状态)。同时，仿真器或根据目标路口新的交通状态判断联合动作a对目标路口的路况的改善程度，反馈奖励r，也即当前样本交通状态s对应的奖励r。
[0133]
由上述过程则得到了一次交互经验(s,a,r,s
′
)，即可作为一个训练样本存入训练数据缓冲池中，在需要对相位预测模型和时间预测模型进行训练时，则从训练数据缓冲池获取一批训练样本，同时对相位预测模型和时间预测模型进行训练。
[0134]
上述实施例提供的方法中，通过将样本交通状态同时输入至时间预测模型和相位预测模型，得到联合动作，建立相位分配与动作分配之间的关联性。将相位分配动作和时间分配动作作为一次交互经验，构成一个训练样本，在训练时采用同数据源训练的方式，每一次训练学习时该方法中的分布式决策区域的两个智能体所用的训练数据都是相同的，进而学习到相匹配的最优策略，实现联合最优策略。
[0135]
在其中一个实施例中，参见图6，训练样本包括在前交通状态和相应的样本控制时长；基于训练样本和第二时间训练目标模型，对第一时间训练目标模型进行训练，包括：
[0136]
步骤602，基于在前交通状态，通过第二时间训练目标模型对在前交通状态相应的样本控制时长进行评价，获得相应的评分值；
[0137]
步骤604，根据评分值构建第一损失函数，通过第一损失函数对第一时间训练目标模型中的参数进行训练。
[0138]
对于当前训练样本(s,,,
′
)，参见图4，将在前样本交通状态s输入至第一时间训练目标模型eval actor network，得到当前样本交通状态s下的新的时间分配动作(样本控制时长)a
new
，然后通过第二时间训练目标模型eval critic network计算当前样本交通状态动作对(,a
new
)的评价值)的评价值其中，为eval critic network的权重，其中π(s；μ)为第一时间训练目标模型eval actor network的时间分配策略，μ为第一时间训练目标模型eval actor network的权重。
[0139]
需要说明的是，评价值表示的是累积期望回报，在一个实施例中，可以采用梯度上升算法最大化累积期望回报，对第一时间训练目标模型eval actor network的参数进行更新。
[0140]
在一个实施例中，第一损失函数可以为：
[0141][0142]
通过第一损失函数对第一时间训练目标模型中的参数μ进行更新。
[0143]
上述实施例提供的方法中，通过建立第一损失函数对第一时间训练目标模型的参数进行更新，提高模型训练的效果，进而提高信号灯的相位对应时长的控制效果。
[0144]
在其中一个实施例中，训练样本包括在前交通状态、相应的样本控制时长、相应的样本奖励值和在后交通状态；基于训练样本、时间预测模型和时间评价模型，对第二时间训练目标模型进行训练，包括：
[0145]
将在后交通状态输入至时间预测模型，输出在后交通状态相应的样本控制时长；
[0146]
基于在后交通状态，通过时间评价模型对在后交通状态相应的样本控制时长进行评价，获得第一评分值；
[0147]
根据第一评分值和在前交通状态相应的样本奖励值，确定训练样本针对第二时间
训练目标模型的训练标签；
[0148]
基于在前交通状态，通过时间评价模型对在前交通状态相应的样本控制时长进行评价，获得第二评分值；
[0149]
根据第二评分值与训练标签间的差异，构建第二损失函数，通过第二损失函数对第二时间训练目标模型中的参数进行训练。
[0150]
将训练样本中的在后交通状态输入至时间预测模型，输出训练样本中的在后交通状态相应的样本时长策略；基于训练样本中的在后交通状态，通过时间评价模型对训练样本中的在后交通状态相应的样本时长策略进行评分，获得第一评分值；根据第一评分值和训练样本的奖励值，确定训练样本针对时间评价模型相应的第二时间训练目标模型的训练标签。
[0151]
基于训练样本中的在前交通状态，通过时间评价模型对训练样本中的在前交通状态相应的样本时长策略进行评分，获得第二评分值；根据第二评分值与训练标签间的差异，构建第二损失函数，根据第二损失函数对第二时间训练目标模型中的参数进行训练；根据训练后的第二时间训练目标模型中的参数和时间评价模型中的参数，对时间评价模型中的参数进行更新。
[0152]
在一个实施例中，参见图4，第二损失函数的构建为：
[0153][0154]
其中，a
′
t
′
time
＝(s
′
；
′
)为在后交通状态相应的样本控制时长；a
time
＝π(s；μ)为在前交通状态相应的样本控制时长；为第一评分值，为第二评分值，为时间评价模型target critic network的网络权重。
[0155]
在其中一个实施例中，训练样本包括在前交通状态、相应的样本相位类型、相应的样本奖励值和在后交通状态；基于多个训练样本和相位预测模型，对相位训练目标模型进行训练，包括：
[0156]
针对多个训练样本中的当前训练样本，将当前训练样本中的在后交通状态输入至相位预测模型，输出在后交通状态相应的样本相位类型和策略价值预测值；
[0157]
根据在后交通状态相应的策略价值预测值和在前交通状态相应的样本奖励值，确定当前训练样本针对相位训练目标模型的训练标签；
[0158]
将在前交通状态输入至相位预测模型，输出在前交通状态相应的策略价值预测值；
[0159]
根据各训练样本中的在前交通状态相应的策略价值预测值和相应的训练标签间的差异，构建第三损失函数；
[0160]
通过第三损失函数，对相位训练目标模型中的参数进行训练。
[0161]
在一个实施例中，参见图4，第三损失函数可以为：
[0162]
l(θ)＝e[(r+γq
t
′
arget
(s
′
,
′
phase
；
′
)-q
eval
(s,a
phase
；))2]
[0163]
其中，θ为相位训练目标模型eval network的网络权重；θ
′
为相位预测模型target network的网络权重；a
′
phase
表示最大q
t
′
arget
对应的相位选择动作。通过上述第三损失函数对eval network的网络权重θ进行更新。
[0164]
上述实施例提供的方法中，通过建立第三损失函数对相位训练目标模型的参数进行更新，提高模型训练的效果，进而提高信号灯的相位对应时长的控制效果。
[0165]
在一个实施例中，提供一种基于智能体的交通信号灯联合控制方法，参见图7，智能体的训练过程包括：
[0166]
实时获取路口状况信息；
[0167]
对信息进行处理，得到当前相位信息以及车辆分布情况，把相位信息进行one-hot编码，车辆分布情况包括每一个车道线的队列长度，车辆在该路口行驶的距离，进而构建状态s以输入神经网络。
[0168]
把信号灯配时任务分解为两个子任务，即信号灯相位决策子任务和信号灯时间分配子任务。每一个子任务由不同的决策区域进行决策，然后构造相对应的离散相位决策智能体和连续时间分配智能体，该方法通过部署dqn(deep qnetwork)算法和ddpg(deep deterministic policy gradient)算法分别来学习最优的离散相位选择策略和最优的连续时间分配策略，由该两个算法同时完成某一时刻的信号灯配时任务。
[0169]
在训练数据收集阶段两个决策智能体会和路口不断进行交互，该方法采用分布式执行的方式把当前时间步状态s同时输入到相位决策区域和时间分配区域中，由各自对应的智能体同时决策出动作a
phase
和a
time
。决策出的结果应用于路口，路口会反馈给智能体一个奖励r，同时路口状况会发生变化，从s转移到下一个状态s
′
。然后把(s,,,
′
)(其中，a＝(a
phase,time
))存储到训练数据缓存池h中，当前时间步交互结束。
[0170]
在智能体学习阶段，每一个决策区域对应的智能体会从缓存池中抽取批量的交互经验进行训练以此来提高决策能力。训练数据收集阶段和智能体学习阶段不断交替进行，直至提出的算法收敛，得到最优的联合策略。其中，dqn每隔m个训练轮以软更新的方式更新target网络；ddpg中的所有target网络权重每一时间步都进行更新。
[0171]
该分布式执行方法把当前时间步隐含耦合信息的状态同时分别分发到不同的决策区域，智能体可以通过神经网络从状态中抽取耦合关系来实现相匹配的联合策略，从而实现联合优化，提高智能体控制信号灯带来的通行效率。
[0172]
应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0173]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的交通信号灯联合控制方法的交通信号灯联合控制装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个交通信号灯联合控制装置实施例中的具体限定可以参见上文中对于交通信号灯联合控制方法的限定，在此不再赘述。
[0174]
在一个实施例中，如图8所示，提供了一种交通信号灯联合控制装置，包括：数据获取模块801、状态生成模块802、动作预测模块803和动作执行模块804，其中：
[0175]
数据获取模块801，用于针对目标路口中的信号灯，获取信号灯正在使用的当前相
位类型和目标路口的当前路况数据；
[0176]
状态生成模块802，用于根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；
[0177]
动作预测模块803，用于将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，相位预测模型和时间预测模型是根据同一训练样本进行同时训练所得到的；
[0178]
动作执行模块804，用于控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标相位的持续时长。
[0179]
在其中一个实施例中，状态生成模块802还用于：
[0180]
根据当前相位类型和所有相位类型的数量，生成用于表征当前相位类型的第一特征向量；
[0181]
根据各车道的当前车辆数量和车道总数量，生成第二特征向量，根据各车道的平均行驶距离和车道总数量，生成第三特征向量；
[0182]
基于第一特征向量、第二特征向量和第三特征向量，生成目标路口的当前交通状态。
[0183]
在其中一个实施例中，交通信号灯联合控制装置还包括第一训练模块，用于：
[0184]
获取与时间预测模型结构相同的第一时间训练目标模型，并获取时间评价模型和与时间评价模型结构相同的第二时间训练目标模型；
[0185]
获取多个训练样本，基于训练样本、时间预测模型和时间评价模型，对第二时间训练目标模型进行训练；
[0186]
基于多个训练样本和第二时间训练目标模型，对第一时间训练目标模型进行训练；
[0187]
根据训练后的第二时间训练目标模型中的参数和时间评价模型中的参数，对时间评价模型中的参数进行更新；
[0188]
根据训练后的第一时间训练目标模型中的参数和时间预测模型中的参数，对时间预测模型中的参数进行更新。
[0189]
在其中一个实施例中，交通信号灯联合控制装置还包括第二训练模块，用于：
[0190]
获取多个训练样本和与相位预测模型结构相同的相位训练目标模型；
[0191]
基于多个训练样本和相位预测模型，对相位训练目标模型进行训练；
[0192]
根据训练后的相位训练目标模型中的参数，对相位预测模型中的参数进行更新。
[0193]
在其中一个实施例中，交通信号灯联合控制装置还包括训练样本获取模块，用于：
[0194]
获取样本交通状态，将样本交通状态分别输入至相位预测模型和时间预测模型，输出相应的样本相位类型和样本控制时长；
[0195]
按照样本交通状态、相应的样本相位类型和样本控制时长，进行信号灯仿真控制，获得信号灯仿真控制后的下一样本交通状态和相应的样本奖励值，样本奖励值用于表征下一样本交通状态的交通状况改善程度；
[0196]
将样本交通状态作为在前样本交通状态，将下一样本交通状态作为在后样本交通状态，将在前交通状态、相应的样本相位类型、相应的样本控制时长、相应的样本奖励值和在后交通状态构成训练样本。
[0197]
在其中一个实施例中，第一训练模块还用于：
[0198]
基于在前交通状态，通过第二时间训练目标模型对在前交通状态相应的样本控制时长进行评价，获得相应的评价值；
[0199]
根据评价值构建第一损失函数，通过第一损失函数对第一时间训练目标模型中的参数进行训练。
[0200]
在其中一个实施例中，第一训练模块还用于：
[0201]
将在后交通状态输入至时间预测模型，输出在后交通状态相应的样本控制时长；
[0202]
基于在后交通状态，通过时间评价模型对在后交通状态相应的样本控制时长进行评价，获得第一评分值；
[0203]
根据第一评分值和在前交通状态相应的样本奖励值，确定训练样本针对第二时间训练目标模型的训练标签；
[0204]
基于在前交通状态，通过时间评价模型对在前交通状态相应的样本控制时长进行评价，获得第二评分值；
[0205]
根据第二评分值与训练标签间的差异，构建第二损失函数，通过第二损失函数对第二时间训练目标模型中的参数进行训练。
[0206]
在其中一个实施例中，第二训练模块还用于：
[0207]
针对多个训练样本中的当前训练样本，将当前训练样本中的在后交通状态输入至相位预测模型，输出在后交通状态相应的样本相位类型和策略价值预测值；
[0208]
根据在后交通状态相应的策略价值预测值和在前交通状态相应的样本奖励值，确定当前训练样本针对相位训练目标模型的训练标签；
[0209]
将在前交通状态输入至相位预测模型，输出在前交通状态相应的策略价值预测值；
[0210]
根据各训练样本中的在前交通状态相应的策略价值预测值和相应的训练标签间的差异，构建第三损失函数；
[0211]
通过第三损失函数，对相位训练目标模型中的参数进行训练。
[0212]
上述交通信号灯联合控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0213]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储交通状态数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种交通信号灯联合控制方法。
[0214]
本领域技术人员可以理解，图9中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0215]
在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述实施例中提供的所有步骤。
[0216]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中提供的所有步骤。
[0217]
在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的所有步骤。
[0218]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
[0219]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0220]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

技术特征：
1.一种交通信号灯联合控制方法，其特征在于，所述方法包括：针对目标路口中的信号灯，获取所述信号灯正在使用的当前相位类型和所述目标路口的当前路况数据；根据所述当前相位类型和所述当前路况数据，生成所述目标路口的当前交通状态；将所述当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，所述相位预测模型和所述时间预测模型是根据同一训练样本进行同时训练所得到的；控制所述信号灯切换至所述目标相位类型对应的目标相位，并按照所述目标控制时长控制所述目标相位的持续时长。2.根据权利要求1所述的方法，其特征在于，所述时间预测模型的训练过程，包括：获取与所述时间预测模型结构相同的第一时间训练目标模型，并获取时间评价模型和与所述时间评价模型结构相同的第二时间训练目标模型；获取多个训练样本，基于所述多个训练样本、所述时间预测模型和所述时间评价模型，对所述第二时间训练目标模型进行训练；基于所述多个训练样本和所述第二时间训练目标模型，对所述第一时间训练目标模型进行训练；根据训练后的第二时间训练目标模型中的参数和所述时间评价模型中的参数，对所述时间评价模型中的参数进行更新；根据训练后的第一时间训练目标模型中的参数和所述时间预测模型中的参数，对所述时间预测模型中的参数进行更新。3.根据权利要求2所述的方法，其特征在于，所述相位预测模型的训练过程，包括：获取所述多个训练样本和与所述相位预测模型结构相同的相位训练目标模型；基于所述多个训练样本和所述相位预测模型，对所述相位训练目标模型进行训练；根据训练后的相位训练目标模型中的参数，对所述相位预测模型中的参数进行更新。4.根据权利要求2或3所述的方法，其特征在于，所述训练样本的获取过程，包括：获取样本交通状态，将所述样本交通状态分别输入至所述相位预测模型和所述时间预测模型，输出相应的样本相位类型和样本控制时长；按照所述样本交通状态、相应的样本相位类型和样本控制时长，进行信号灯仿真控制，获得信号灯仿真控制后的下一样本交通状态和相应的样本奖励值，所述样本奖励值用于表征所述下一样本交通状态的交通状况改善程度；将所述样本交通状态作为在前样本交通状态，将所述下一样本交通状态作为在后样本交通状态，将所述在前交通状态、相应的样本相位类型、相应的样本控制时长、相应的样本奖励值和所述在后交通状态构成训练样本。5.根据权利要求2所述的方法，其特征在于，所述训练样本包括在前交通状态和相应的样本控制时长；所述基于所述训练样本和所述第二时间训练目标模型，对所述第一时间训练目标模型进行训练，包括：基于所述在前交通状态，通过所述第二时间训练目标模型对所述在前交通状态相应的样本控制时长进行评价，获得相应的评价值；根据所述评价值构建第一损失函数，通过所述第一损失函数对所述第一时间训练目标
模型中的参数进行训练。6.根据权利要求2所述的方法，其特征在于，所述训练样本包括在前交通状态、相应的样本控制时长、相应的样本奖励值和在后交通状态；所述基于所述训练样本、所述时间预测模型和所述时间评价模型，对所述第二时间训练目标模型进行训练，包括：将所述在后交通状态输入至所述时间预测模型，输出所述在后交通状态相应的样本控制时长；基于所述在后交通状态，通过所述时间评价模型对所述在后交通状态相应的样本控制时长进行评价，获得第一评分值；根据所述第一评分值和所述在前交通状态相应的样本奖励值，确定所述训练样本针对所述第二时间训练目标模型的训练标签；基于所述在前交通状态，通过所述时间评价模型对所述在前交通状态相应的样本控制时长进行评价，获得第二评分值；根据所述第二评分值与所述训练标签间的差异，构建第二损失函数，通过所述第二损失函数对所述第二时间训练目标模型中的参数进行训练。7.根据权利要求3所述的方法，其特征在于，所述训练样本包括在前交通状态、相应的样本相位类型、相应的样本奖励值和在后交通状态；所述基于所述多个训练样本和所述相位预测模型，对所述相位训练目标模型进行训练，包括：针对多个训练样本中的当前训练样本，将所述当前训练样本中的在后交通状态输入至所述相位预测模型，输出所述在后交通状态相应的样本相位类型和策略价值预测值；根据所述在后交通状态相应的策略价值预测值和所述在前交通状态相应的样本奖励值，确定当前训练样本针对所述相位训练目标模型的训练标签；将所述在前交通状态输入至所述相位预测模型，输出所述在前交通状态相应的策略价值预测值；根据各训练样本中的在前交通状态相应的策略价值预测值和相应的训练标签间的差异，构建第三损失函数；通过所述第三损失函数，对所述相位训练目标模型中的参数进行训练。8.一种交通信号灯联合控制装置，其特征在于，所述装置包括：数据获取模块，用于针对目标路口中的信号灯，获取所述信号灯正在使用的当前相位类型和所述目标路口的当前路况数据；状态生成模块，用于根据所述当前相位类型和所述当前路况数据，生成所述目标路口的当前交通状态；动作预测模块，用于将所述当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，所述相位预测模型和所述时间预测模型是根据同一训练样本进行同时训练所得到的；动作执行模块，用于控制所述信号灯切换至所述目标相位类型对应的目标相位，并按照所述目标控制时长控制所述目标相位的持续时长。9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序
被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种交通信号灯联合控制方法、装置、计算机设备、存储介质和计算机程序产品，获取目标路口的信号灯正在使用的当前相位类型和目标路口的当前路况数据；根据当前相位类型和当前路况数据，生成目标路口的当前交通状态；将当前交通状态分别输入至训练后的相位预测模型和训练后的时间预测模型，输出目标相位类型和目标控制时长，相位预测模型和时间预测模型是根据同一训练样本进行同时训练所得到的；控制信号灯切换至目标相位类型对应的目标相位，并按照目标控制时长控制目标相位的持续时长。通过对交通信号灯的相位和持续时长同时进行训练，使得信号灯的相位控制与时间控制之间存在关联性，确保学习到相匹配的最优策略，提高路口通信效率。提高路口通信效率。提高路口通信效率。

技术研发人员：李荦杨唐涛王邓江胡汇泽
受保护的技术使用者：苏州万集车联网技术有限公司
技术研发日：2022.12.23
技术公布日：2023/5/30

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

交通信号灯联合控制方法、装置、计算机设备和存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

交通信号灯联合控制方法、装置、计算机设备和存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表