交通灯控制方法、无人车导航方法、模型训练方法、装置与流程

未命名 09-13 阅读：85 评论：0

1.本公开涉及计算机技术领域，尤其涉及交通灯控制方法、无人车导航方法、模型训练方法、装置。

背景技术：

2.近年来，随着自动驾驶技术、5g通信、以及车联网技术的极速发展，越来越多的智能交通灯和无人车被投入实际交通中，通常智能交通灯能够根据路面车流情况来决策绿灯的亮灯动作；无人车则能够根据导航道路决策其转向动作。
3.在相关技术中，无人车的导航控制和智能交通灯的信号控制通常被视为两个独立的智能体去进行决策，而在复杂混合交通场景下，无人车和智能交通灯的状态信息对于彼此的决策应当是息息相关的，把二者视为独立的智能体进行决策会导致决策不准确，无法解决复杂混合交通场景的交通问题。

技术实现要素：

4.本公开提供了一种用于解决上述技术问题中的至少一项的交通灯控制方法、无人车导航方法、模型训练方法、装置。
5.根据本公开的一方面，提供了一种交通灯控制方法，应用在交通灯控制端，其与无人车导航端通信连接，所述方法包括：
6.根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数；
7.根据所述强化交通灯状态参数，生成与所述强化交通灯状态参数匹配的交通灯控制动作；
8.其中，所述强化交通灯状态参数用于使所述无人车导航端根据所述强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数，并根据所述强化车辆状态参数生成与所述强化车辆状态参数匹配的无人车导航动作。
9.根据本公开的另一方面，提供了一种无人车导航方法，应用在无人车导航端，其与交通灯控制端通信连接，所述方法包括：
10.根据从所述交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；
11.根据所述强化车辆状态参数，生成与所述强化车辆状态参数匹配的无人车导航动作；
12.其中，所述交通灯控制端根据上述交通灯控制方法生成所述强化交通灯状态参数。
13.根据本公开的另一方面，提供了一种模型训练方法，所述方法包括：
14.根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数；
15.将所述强化交通灯状态参数输入第一强化学习模型，得到与所述强化交通灯状态参数匹配的交通灯控制动作；
16.执行所述交通灯控制动作，得到新的交通灯状态参数和第一奖励参数；
17.基于所述第一奖励参数、新的交通灯状态参数、所述强化交通灯状态参数确定第一损失值；
18.根据所述第一损失值对所述第一强化学习模型进行训练。
19.根据本公开的另一方面，提供了一种模型训练方法，所述方法包括：
20.根据从交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；
21.将所述强化车辆状态参数输入第二强化学习模型，得到与所述强化车辆状态参数匹配的无人车导航动作；
22.执行所述无人车导航动作，得到新的车辆状态参数和第二奖励参数；
23.基于所述第二奖励参数、新的车辆状态参数、所述强化车辆状态参数确定第二损失值；
24.根据所述第二损失值对所述第二强化学习模型进行训练。
25.根据本公开的另一方面，提供了一种交通灯控制装置，该装置包括：
26.强化交通灯状态生成模块，用于根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数；
27.交通灯控制动作生成模块，用于根据所述强化交通灯状态参数，生成与所述强化交通灯状态参数匹配的交通灯控制动作；
28.其中，所述强化交通灯状态参数用于使所述无人车导航端根据所述强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数，并根据所述强化车辆状态参数生成与所述强化车辆状态参数匹配的无人车导航动作。
29.根据本公开的另一方面，提供了一种无人车导航装置，该装置包括：
30.强化无人车状态生成模块，用于根据从所述交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；
31.无人车导航动作生成模块，用于根据所述强化车辆状态参数，生成与所述强化车辆状态参数匹配的无人车导航动作；
32.其中，所述交通灯控制端根据上述交通灯控制方法生成所述强化交通灯状态参数。
33.根据本公开的另一方面，提供了一种模型训练装置，该装置包括：
34.第一参数生成模块，用于根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数；
35.第一动作生成模块，用于将所述强化交通灯状态参数输入第一强化学习模型，得到与所述强化交通灯状态参数匹配的交通灯控制动作；
36.第一执行模块，用于执行所述交通灯控制动作，得到新的交通灯状态参数和第一奖励参数；
37.第一损失值确定模块，用于基于所述第一奖励参数、新的交通灯状态参数、所述强
化交通灯状态参数确定第一损失值；
38.第一训练模块，用于根据所述第一损失值对所述第一强化学习模型进行训练。
39.根据本公开的另一方面，提供了一种模型训练装置，该装置包括：
40.第二参数生成模块，用于根据从交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；
41.第二动作生成模块，用于将所述强化车辆状态参数输入第二强化学习模型，得到与所述强化车辆状态参数匹配的无人车导航动作；
42.第二执行模块，用于执行所述无人车导航动作，得到新的车辆状态参数和第二奖励参数；
43.第二损失值确定模块，用于基于所述第二奖励参数、新的车辆状态参数、所述强化车辆状态参数确定第二损失值；
44.第二训练模块，用于根据所述第二损失值对所述第二强化学习模型进行训练。
45.根据本公开的另一方面，提供了一种电子设备，包括：
46.至少一个处理器；以及
47.与所述至少一个处理器通信连接的存储器；其中，
48.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执上述交通灯控制方法或无人车导航方法或模型训练方法。
49.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述交通灯控制方法或无人车导航方法或模型训练方法。
50.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述交通灯控制方法或无人车导航方法或模型训练方法。
51.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
52.附图用于更好地理解本方案，不构成对本公开的限定。其中：
53.图1是本公开一种示例性的交通环境异构图；
54.图2是本公开第一实施例提供的交通灯控制方法的流程示意图；
55.图3是一种示例性的应用环境框架图；
56.图4是本公开第二实施例提供的交通灯控制方法的流程示意图；
57.图5是本公开第三实施例提供的无人车导航方法的流程示意图；
58.图6是本公开第四实施例提供的无人车导航方法的流程示意图；
59.图7是本公开第五实施例提供的模型训练方法的流程示意图；
60.图8是本公开第六实施例提供的模型训练方法的流程示意图；
61.图9是本公开第七实施例提供的交通灯控制装置的结构示意图；
62.图10是本公开第八实施例提供的无人车导航装置的结构示意图；
63.图11是本公开第九实施例提供的模型训练装置的结构示意图；
64.图12是本公开第十实施例提供的模型训练装置的结构示意图；
65.图13是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
66.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
67.在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。
68.如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
69.本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。
70.除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。
71.在相关技术中，无人车的导航控制和智能交通灯的信号控制通常被视为两个独立的智能体去进行决策，而在复杂混合交通场景下，无人车和智能交通灯的状态信息对于彼此的决策应当是息息相关的，把二者视为独立的智能体进行决策会导致决策不准确，无法解决复杂混合交通场景的交通问题。
72.为了解决相关技术问题，发明人想到参考交通灯的预设范围(即交通灯的信号所涉及的控制范围)内的无人车的车辆状态表征信息和交通灯自身的状态参数，去确定交通灯的交通灯控制动作；并且，参考交通灯的强化交通灯状态参数和无人车自身的状态参数，去确定无人车的导航动作，因此交通灯和无人车都能够综合实际的交通环境去进行控制和导航，从而获得更高效的交通疏导能力，并且适用于解决环境复杂的混合交通问题，有效提升交通系统的通行效率。
73.参见图1，图1示出一种示例性的交通环境异构图，其中，示例性地，图中包含3个时刻下，交通灯1、交通灯2、交通灯3的预设区域(图中圆形虚线限定的范围)内的交通情况，根据图神经网络(gnn)的思想，将左侧实际的交通环境图转换为右侧的交通环境异构图，其中包括以实线连接表示的灯-灯网络图；以及以虚线连接表示的车-灯网络图。在车-灯网络图中，以一个交通灯为例，交通灯的图结构可表示为其中其中代表t时刻所有处在交通灯i的预设区域内包含的无人车的集合，表示图中交通灯与无人车连接的边；同理，灯-灯网络图中的每个交通灯也可采用同样的方式表示，只用将表示为t时刻交通灯所连接的所有交通灯即可。在本公开提供的方法中，可以根据异构图，通过gnn聚合无人车或交通灯的状态参数，后续详述。
74.本公开提供的交通灯控制方法、无人车导航方法、模型训练方法、装置，旨在解决现有技术的如上技术问题中的至少一个。
75.根据本公开的交通灯控制方法、无人车导航方法、模型训练方法可以由终端设备或服务器等电子设备执行，终端设备可以为车载设备、用户设备(user equipment，ue)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(personal digital assistant，pda)、手持设备、计算设备、车载设备、可穿戴设备等，方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者，可通过服务器执行本公开提供的车载语音交互方法。
76.在公开第一实施例中，参见图2，图2示出本公开第一实施例提供的一种交通灯控制方法的流程图。该方法应用在交通灯控制端，交通灯控制端与无人车导航端通信连接，该方法包括：
77.s101、根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数。
78.一个目标交通灯的预设区域即该目标交通灯的交通控制区域，例如图1左侧每个交通灯的圆形虚线限定的区域，具体的区域范围可以根据需要设置。
79.车辆状态参数用于指示当前处于目标交通灯的预设范围内的车辆行驶状态(例如无人车数量、车速、行驶方向等)，车辆状态表征信息由无人车导航端根据预设范区域包含的无人车当前的车辆状态参数和过去多个时刻的历史车辆状态表征信息生成，参考过去时刻的无人车行驶状态，能够得出在更全面的交通环境信息。
80.结合目标交通灯的预设范围内的各个无人车的行驶状态(即车辆状态表征信息)和交通灯自身的交通灯状态参数(例如绿灯相位)，得到增强后的强化交通灯状态参数，强化交通灯状态参数不仅表达了交通灯自身的状态，还参考了其交通控制区域内的车辆行驶状态，与实际的交通环境具有更强的关联性。
81.s102、根据强化交通灯状态参数，生成与强化交通灯状态参数匹配的交通灯控制动作。
82.基于与实际的交通环境具有更强的关联性的强化交通灯状态参数，生成与强化交通灯状态参数匹配的交通灯控制动作，使目标交通灯执行该交通灯控制动作，从而够综合实际的交通环境去进行决策交通灯的行为，从而使交通灯获得更高效且和当前交通环境密切结合的交通疏导能力。
83.其中，s102中强化交通灯状态参数用于使无人车导航端根据强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数，并根据强化车辆状态参数生成与强化车辆状态参数匹配的无人车导航动作。交通灯的强化交通灯状态参数会传递给无人车导航端，当前路口的拥堵状况对无人车进行导航决策十分重要，因而能够提升无人车导航端准确性。无人车侧和交通灯侧都与环境交互并参考对侧进行决策，这种协同控制端方式适用于解决环境复杂的混合交通问题，有效提升交通系统的通行效率。
84.在一些示例中，s102包括：将强化交通灯状态参数输入第一强化学习模型，获得与强化交通灯状态参数匹配的交通灯控制动作。
85.在强化学习技术中，环境和智能体(交通灯或者无人车)的交互过程如下：智能体从环境中得到一个状态s
t
后，根据策略π选择最佳动作a
t
,并将此动作在环境中执行，生成新的状态s
t+1
和奖励r
t
。以上为一个循环，强化学习的过程是通过重复这个循环，使智能体不断优化自己的策略，从而最终学习到最佳策略，使得累计奖励最大化。基于此，s102步骤可
以采用强化学习模型，根据强化交通灯状态参数，决策与之匹配的交通灯控制动作。
86.其中，第一强化学习模型可以包括dqn(deep q-network)、sac(soft actor critic)、ppo(proximal policy optimization)等。
87.需要说明的是，s102也可以采用无模型的强化学习算法，在此不做限定。
88.在公开第二实施例中，参见图3，图3示出本技术的该方法的应用框架图，交通控制端包括第一编码器、目标网络、第一图神经网络和第一强化学习模型；无人车导航端包括敌人图神经网络和第二强化学习模型，其中s
l
为交通灯的交通灯状态参数、为强化交通灯状态参数、a
l
为对应的交通灯控制动作、g为目标网络得到的目标向量；其中sv为无人车的无人车状态参数、为强化无人车状态参数、av为对应的无人车导航动作、i为无人车的车辆状态表征信息。需要说明的是，本公开提供的方法能够基于无模型的架构执行，也可以基于有模型的架构执行，为了便于说明，本实施例基于该框架图进行说明，但并不对本公开构成限制。
89.首先基于对应交通灯的第一强化学习模型和对应无人车的第二强化学习模型定义一个强化学习的环境，该环境内包括两个智能体：无人车和交通灯，两个智能体能够双向传播状态参数，且都与环境进行交互，有各自的状态空间和动作空间。
90.针对交通灯：
91.交通灯的状态空间s
l
：包括当前的相位编码，所述相位编码为一个表示当前绿色相位的一热向量，绿色相位为绿灯的相位、压力(上游和下游道路等待车辆的总数量差)，以及每个流向(北-南、北-西、北-东、南-北、南-西、南-东、西-北、西-南、西-东、东-北、东-西、东-南)的车辆数量总和及各个流向平均速度；其中，交通灯状态参数即t时刻状态空间，交通灯状态参数包括：t时刻交通灯当前的相位编码、压力、每个流向的车辆数量总和及各个流向平均速度。
92.交通灯的动作空间a
l
：下一段时刻为绿灯时刻(t＝tg)的绿色相位索引，每个交通灯具有多个流向的绿灯，每个流向的绿灯具有一个绿色相位索引；交通灯控制动作即决策出的一个交通灯动作空间内的动作。
93.交通灯的奖励函数r
l
：路口所有车道总等待队列长度的负值；下述奖励参数即某一交通灯状态参数下，根据奖励函数确定的奖励参数。
94.针对交通灯：
95.无人车的状态空间sv：包括车速、当前驶向红绿灯的路口一热向量编码、当前驶向红绿灯的驶入方向(向东/向西/向南/向北)编码、终点道路所处的路口一热向量编码、终点道路的驶入方向的编码；其中，无人车状态参数即t时刻状态空间，无人车状态参数包括：t时刻无人车车速、当前驶向红绿灯的路口一热向量编码、当前驶向红绿灯的驶入方向编码、终点道路所处的路口一热向量编码、终点道路的驶入方向的编码。
96.无人车的动作空间av：在当前路口的转向方向(例如：左转、右转、直行)；无人车导航动作即决策出的一个无人车的动作空间内的动作。
97.无人车的奖励函数rv：在当前路段行驶的总时间长度；下述奖励参数即某一无人车状态参数下，根据奖励函数确定的奖励参数。
98.无人车的策略πv/交通灯的策略πl：策略函数是将状态和动作映射到策略的函数，
即s
×a→
π，其目的是指引智能体在不同状态下选择最佳动作。
99.无人车的状态转移函数pv/交通灯的状态转移函数p
l
：状态转移函数表示智能体从当前时刻的状态s
t
采取动作a
t
后转移到下个状态s
t+1
的概率。
100.无人车的折扣因子γv/交通灯的折扣因子γ
l
：表示在计算累计奖励时对过去时刻(过去的k时刻到当前的t时刻)的奖励r
t-k
的折扣因子，使其对于累计奖励的贡献减少，其中累计奖励的计算公式为将γv和γ
l
替换进该公式，即得到无人车的累计奖励或交通灯的累计奖励。需要说明的是，下述损失函数中用到的奖励均为无人车或交通灯累计奖励。
101.在强化学习中，环境和智能体的交互过程如下：智能体从环境中得到一个状态s
t
后，根据策略π选择最佳动作a
t
,并将此动作在环境中执行，生成新的状态s
t+1
和奖励r
t
。以上为一个循环，强化学习的过程是通过重复这个循环，使智能体不断优化自己的策略，从而最终学习到最佳策略，使得累计奖励最大化。
102.基于上述定义，参见图4，图4示出本公开第二实施例提供的一种交通灯控制方法的流程图。本公开提供的交通灯控制方法应用在交通灯控制端，该方法包括：
103.s201、将车辆状态表征信息和当前的交通灯状态参数拼接为混合环境信息。
104.从无人车导航端获取到车辆状态表征信息iit，再获取自身当前的交通灯状态通过图3左侧第一个+号拼接为混合环境信息。
105.在一些示例中，车辆表征信息由无人车导航端通过以下方式获得：
106.子步骤一：根据所述目标交通灯的预设区域内当前包含的无人车的车辆状态参数生成车辆状态聚合信息。
107.参见图1和图3，基于图1右侧的异构图中的车-灯网络图，采用图3中的第二图神经网络(gnn)聚合一个交通灯i的预设范围内包含的无人车j的车辆状态参数sj，生成当前交通灯预设范围内的车辆状态聚合信息xi：
[0108][0109]
其中，c(i)表示在交通灯i控制区域内的无人车，wi表示交通灯i的可学习转换矩阵。
[0110]
子步骤二：根据所述车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息生成当前的所述车辆状态表征信息。
[0111]
由于车-灯网络图在随着时间的推移和车的前进动态变化(例如图1中t1、t2、t3时刻)，可以通过将当前t时刻的车辆状态聚合信息xi和过去k时刻的车辆状态表征信息，生成个动态的车辆状态表征信息
[0112][0113]
其中f可以通过循环神经网络(rnn)或者一个线性函数来表示，在图3中采用了线性函数来建模。
[0114]
通过这种方式，聚合交通灯预设范围内当前及过去时刻包含的无人车的无人车状态参数，能够得出在更全面的交通环境信息。
[0115]
s202、将混合环境信息输入第一编码器，获得强化交通灯状态参数。
[0116]
其中，第一编码器为具有三层全连接的多层感知机(multilayer perceptron，mlp)。
[0117]
将混合环境信息传送给全连接的mlp来生成增强的强化交通灯状态参数：
[0118][0119]
其中，强化交通灯状态参数包含当前路口的拥堵状况和其交通控制范围内无人车的意图信息，从而达到交通灯与环境的交互，并且这些信息对于无人车在路口的导航决策十分有价值。
[0120]
因此，在一些示例中，交通灯控制端将强化交通灯状态参数发送给无人车导航端，参见图3右侧的+号，无人车导航端根据强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数即即其中j∈c(i)
t
，j∈c(i)
t
表示在t时刻交通灯i的预设范围内包含的无人车j。后续，将强化车辆状态参数输入第二强化学习模型，得到与强化车辆状态参数匹配的无人车导航动作通过这种参考交通灯侧的状态参数去决策无人车导航动作的方式，能够提升无人车导航端准确性。无人车侧和交通灯侧都与环境交互并参考对侧进行决策，这种协同控制端方式适用于解决环境复杂的混合交通问题，有效提升交通系统的通行效率。
[0121]
第二强化学习模型可以包括dqn(deep q-network)、sac(soft actor critic)、ppo(proximal policy optimization)等。
[0122]
需要说明的是，s201和s202是s101的一种实现方式，s101还具有其他实现方式，在此不做限定。
[0123]
s203、获取与目标交通灯相关联的关联交通灯的关联交通灯状态聚合信息。
[0124]
在一些示例中，交通灯不仅参考自身预设范围内无人车的状态参数进行决策，还参考与自身关联的交通灯的状态参数进行决策，具体的，通过图1右侧的异构图中的灯-灯网络图，基于第一图神经网络聚合交通灯周围的交通灯状态参数，在这种情况下，s203中关联交通灯状态聚合信息通过以下方式生成：
[0125]
步骤一：根据关联交通灯状态当前的交通灯状态参数，生成关联交通灯状态矩阵。
[0126]
获取目标交通灯关联的各个关联交通灯状态当前的交通灯状态参数，并以矩阵形式表达为关联交通灯状态矩阵x。
[0127]
步骤二：根据关联交通灯状态矩阵、目标交通灯的连接度参数、目标交通灯的权重矩阵生成关联交通灯状态聚合信息。
[0128]
其中，进一步参见图3，子步骤二具体包括：通过第一图神经网络，根据关联交通灯状态矩阵、目标交通灯的连接度参数、目标交通灯的权重矩阵生成关联交通灯状态聚合信息。
[0129]
如图3中的实线连接的交通灯所示，若两个交通灯是相邻的，它们之间就存在连接边。我们运用第一图神经网络结合残差连接来聚合关联交通灯的交通灯状态，生成关联交通灯状态聚合信息h：
[0130][0131]
其中x为关联交通灯状态矩阵，为加入自循环的邻接矩阵，d表示目标交通灯的连接度参数，每个交通灯i的连接度参数表示为该交通灯所连接的关联交通灯的数量，w表示可学习的第一图神经网络的权重矩阵。采用这种方式，在实际交通环境中，相邻路口之间的车流相互联系，参考相邻路口的交通灯的状态，能够使交通灯最大程度地学习到路口周围全面的环境信息。
[0132]
需要说明的是，基于s203的实施例中，第一强化学习模型的损失函数l表示为：
[0133][0134]
其中，r
t
为交通灯的累计奖励，γ为预设权重系数，θ为q
l
价值函数的参数，w为上述第一图神经网络的权重矩阵，s
l
为公式(3)中的减号前面的部分为第一强化学习模型预测的理想q价值，减号后面部分为实际的q价值，第一强化学习模型的优化目标为使两部分的差异减小。
[0135]
s204、根据强化交通灯状态参数和关联交通灯状态聚合信息，生成与强化交通灯状态参数匹配的交通灯控制动作。
[0136]
在一些示例中，进一步参见图3，s204具体包括：
[0137]
将强化交通灯状态参数和关联交通灯状态聚合信息输入第一强化学习模型，获得与强化交通灯状态参数匹配的交通灯控制动作。
[0138]
关联交通灯状态聚合信息h和强化交通灯状态参数会传递给交通灯的第一强化学习模型来确定与之对应的交通灯控制动作。通过这种方式，够综合实际的交通环境(包含车辆和周围交通灯的状态参数)去进行决策交通灯的行为，从而使交通灯获得更高效且和当前交通环境密切结合的交通疏导能力。并且无人车侧和交通灯侧都与环境交互并参考对侧进行决策，这种协同控制端方式适用于解决环境复杂的混合交通问题，有效提升交通系统的通行效率。
[0139]
其中，第一强化学习模型可以包括dqn(deep q-network)、sac(soft actor critic)、ppo(proximal policy optimization)等。
[0140]
需要说明的是，s203和s204是s102的一种实现方式，s101还具有其他实现方式，在此不做限定。
[0141]
在一些示例中，继续参见图3，在s202(或s101)之后的任一步骤，本公开提供的交通灯控制方法还包括：
[0142]
将强化交通灯状态参数输入预先训练的目标网络，得到目标向量。
[0143]
其中，无人导航端通过第二强化学习模型，根据强化车辆状态参数生成与强化车辆状态参数匹配的无人车导航动作；目标向量用于使无人车导航端根据目标向量调整第二强化学习模型。
[0144]
由于针对交通灯的第一强化模型的优化目标是疏导交通，而针对无人才的第二强化模型的优化目标是更高效的导航，二者的优化目标不一致，为了解决两种智能体的目标不一致的问题，引入目标(goal)向量来促进近似管理者的交通灯引领近似执行者的无人车
向一个统一的目标优化。目标网络为一个由三层全连接的神经网络组成的mlp，目标向量即向一个统一的目标优化。目标网络为一个由三层全连接的神经网络组成的mlp，目标向量即表示无人车理想的下个车辆状态参数，目标网络将输出的目标向量发送给无人车导航端，以统一第一、第二强化学习模型的优化目标，使得二者的协同性增强。
[0145]
在公开第三实施例中，参见图5，图5示出本公开第三实施例提供的一种无人车导航方法的流程图。该方法应用在无人车导航端，无人车导航端与交通灯控制端通信连接，该方法包括：
[0146]
s301、根据从交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数。
[0147]
其中，交通灯控制端根据以下方式生成强化交通灯状态参数：根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数。
[0148]
一个目标交通灯的预设区域即该目标交通灯的交通控制区域，例如图1左侧每个交通灯的圆形虚线限定的区域，具体的区域范围可以根据需要设置。
[0149]
车辆状态参数用于指示当前处于目标交通灯的预设范围内的车辆行驶状态(例如无人车数量、车速、行驶方向等)，车辆状态表征信息由无人车导航端根据预设范区域包含的无人车当前的车辆状态参数和过去多个时刻的历史车辆状态表征信息生成，参考过去时刻的无人车行驶状态，能够得出在更全面的交通环境信息。结合目标交通灯的预设范围内的各个无人车的行驶状态(即车辆状态表征信息)和交通灯自身的交通灯状态参数(例如绿灯相位)，得到增强后的强化交通灯状态参数，强化交通灯状态参数不仅表达了交通灯自身的状态，还参考了其交通控制区域内的车辆行驶状态，与实际的交通环境具有更强的关联性。
[0150]
再基于强化交通灯状态参数和自身的车辆状态参数生成强化车辆状态参数，强化车辆状态参数不仅表达了无人车自身的状态，还参考了其当前归属的交通灯的强化交通灯状态，与实际的交通环境具有更强的关联性。
[0151]
s302、根据强化车辆状态参数，生成与强化车辆状态参数匹配的无人车导航动作。
[0152]
基于与实际的交通环境具有更强的关联性的强化车辆状态参数，生成与强化无人车状态参数匹配的无人车导航动作，使目标无人车执行该无人车导航动作，从而够综合实际的交通环境去进行决策无人车的行为，从而使无人车获得更准确且和当前交通环境密切结合的导航能力。
[0153]
并且，无人车侧会向交通灯侧传递自身的车辆状态表征信息，无人车侧和交通灯侧都与环境交互并参考对侧进行决策，这种协同控制端方式适用于解决环境复杂的混合交通问题，有效提升交通系统的通行效率。
[0154]
具体地，s302可以采用强化学习模型或者无模型的强化学习算法执行，在此不做限定。
[0155]
在公开第四实施例中，需要说明的是，本公开提供的方法能够基于无模型的架构执行，也可以基于有模型的架构执行，为了便于说明，本实施例基于图3所示的框架图进行说明，但并不对本公开构成限制。参见图6，图6示出本公开第四实施例提供的一种无人车导航方法的流程图。该方法包括：
[0156]
s401、根据目标交通灯的预设区域内当前包含的无人车的车辆状态参数生成车辆
状态聚合信息。
[0157]
继续参见图3，s401具体包括：通过第二图神经网络，根据目标交通灯的预设区域内当前包含的无人车的车辆状态参数生成车辆状态聚合信息。
[0158]
参见图1和图3，基于图1右侧的异构图中的车-灯网络图，采用图3中的第二图神经网络(gnn)聚合一个交通灯i的预设范围内包含的无人车j的车辆状态参数sj，生成当前交通灯预设范围内的车辆状态聚合信息xi：
[0159][0160]
其中，c(i)表示在交通灯i控制区域内的无人车，wi表示交通灯i的可学习转换矩阵。
[0161]
s402、根据车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息生成当前的车辆状态表征信息。
[0162]
由于车-灯网络图在随着时间的推移和车的前进动态变化(例如图1中t1、t2、t3时刻)，可以通过将当前t时刻的车辆状态聚合信息xi和过去k时刻的车辆状态表征信息，生成个动态的车辆状态表征信息
[0163][0164]
在一些实现方式中，可以采用多种方式，公式(2)中的f可以多种方式表示，换言之，通过车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息生成当前的车辆状态表征信息，例如：
[0165]
方式一、将车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息输入循环神经网络(rnn)，获得当前的车辆状态表征信息。
[0166]
方式二、根据过去多个时刻的历史车辆状态表征信息构建线性函数，并通过线性函数根据车辆状态聚合信息获得当前的车辆状态表征信息。
[0167]
在s402后，将车辆状态表征信息发送给交通灯控制端，交通灯控制端根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数，并将强化交通灯状态参数发送给无人车导航端。
[0168]
具体地，交通灯控制端采用以下方式确定强化交通灯状态参数：
[0169]
步骤一：将车辆状态表征信息和当前的交通灯状态参数拼接为混合环境信息。
[0170]
从无人车导航端获取到车辆状态表征信息i
it
，再获取自身当前的交通灯状态通过图3左侧第一个+号拼接为混合环境信息。
[0171]
步骤二：将混合环境信息输入第一编码器，获得强化交通灯状态参数。
[0172]
其中，第一编码器为具有三层全连接的多层感知机(multilayer perceptron，mlp)。
[0173]
将混合环境信息传送给全连接的mlp来生成增强的强化交通灯状态参数：
[0174][0175]
其中，强化交通灯状态参数包含当前路口的拥堵状况和其交通控制范围内无人车的意图信息，从而达到交通灯与环境的交互，并且这些信息对于无人车在路口的导航决策十分有价值。
[0176]
s403、根据从交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数。
[0177]
基于上述公式(3)，交通灯控制端将强化交通灯状态参数发送给无人车导航端，参见图3右侧的+号，无人车导航端根据强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数即即其中j∈c(i)
t
，j∈c(i)
t
表示在t时刻交通灯i的预设范围内包含的无人车j。
[0178]
s404、将强化车辆状态参数输入第二强化学习模型，获得与强化车辆状态参数匹配的无人车导航动作。
[0179]
将强化车辆状态参数输入第二强化学习模型，得到与强化车辆状态参数匹配的无人车导航动作通过这种参考交通灯侧的状态参数去决策无人车导航动作的方式，能够提升无人车导航端准确性。无人车侧和交通灯侧都与环境交互并参考对侧进行决策，这种协同控制端方式适用于解决环境复杂的混合交通问题，有效提升交通系统的通行效率。
[0180]
在一些实现方式中，本公开提供的无人车导航方法还包括：
[0181]
根据目标向量调整第二强化学习模型。
[0182]
其中，目标向量由交通灯控制端通过如下方法生成：
[0183]
将强化交通灯状态参数输入预先训练的目标网络，得到目标向量。
[0184]
由于针对交通灯的第一强化模型的优化目标是疏导交通，而针对无人才的第二强化模型的优化目标是更高效的导航，二者的优化目标不一致，为了解决两种智能体的目标不一致的问题，引入目标(goal)向量来促进近似管理者的交通灯引领近似执行者的无人车向一个统一的目标优化。目标网络为一个由三层全连接的神经网络组成的mlp，目标向量即向一个统一的目标优化。目标网络为一个由三层全连接的神经网络组成的mlp，目标向量即表示无人车理想的下个车辆状态参数，目标网络将输出的目标向量发送给无人车导航端，以统一第一、第二强化学习模型的优化目标，使得二者的协同性增强。
[0185]
在公开第五实施例中，参见图7，图7示出本公开第五实施例提供的一种模型训练方法的流程图。该方法包括：
[0186]
s501、根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数。
[0187]
一个目标交通灯的预设区域即该目标交通灯的交通控制区域，例如图1左侧每个交通灯的圆形虚线限定的区域，具体的区域范围可以根据需要设置。
[0188]
车辆状态参数用于指示当前处于目标交通灯的预设范围内的车辆行驶状态(例如无人车数量、车速、行驶方向等)，车辆状态表征信息由无人车导航端根据预设范区域包含的无人车当前的车辆状态参数和过去多个时刻的历史车辆状态表征信息生成，参考过去时刻的无人车行驶状态，能够得出在更全面的交通环境信息。
[0189]
结合目标交通灯的预设范围内的各个无人车的行驶状态(即车辆状态表征信息)和交通灯自身的交通灯状态参数(例如绿灯相位)，得到增强后的强化交通灯状态参数，强化交通灯状态参数不仅表达了交通灯自身的状态，还参考了其交通控制区域内的车辆行驶状态，与实际的交通环境具有更强的关联性。
[0190]
s502、将强化交通灯状态参数输入第一强化学习模型，得到与强化交通灯状态参数匹配的交通灯控制动作。
[0191]
在一些示例中，s502包括：
[0192]
s502a、获取与目标交通灯相关联的关联交通灯的关联交通灯状态聚合信息。
[0193]
在一些示例中，交通灯不仅参考自身预设范围内无人车的状态参数进行决策，还参考与自身关联的交通灯的状态参数进行决策，具体的，通过图1右侧的异构图中的灯-灯网络图，基于第一图神经网络聚合交通灯周围的交通灯状态参数。
[0194]
其中，s502a中关联交通灯状态聚合信息通过以下方式生成：
[0195]
步骤一：根据关联交通灯状态当前的交通灯状态参数，生成关联交通灯状态矩阵。
[0196]
获取目标交通灯关联的各个关联交通灯状态当前的交通灯状态参数，并以矩阵形式表达为关联交通灯状态矩阵x。
[0197]
步骤二：根据关联交通灯状态矩阵、目标交通灯的连接度参数、目标交通灯的权重矩阵生成关联交通灯状态聚合信息。
[0198]
其中，进一步参见图3，子步骤二具体包括：通过第一图神经网络，根据关联交通灯状态矩阵、目标交通灯的连接度参数、目标交通灯的权重矩阵生成关联交通灯状态聚合信息。
[0199]
如图3中的实线连接的交通灯所示，若两个交通灯是相邻的，它们之间就存在连接边。我们运用第一图神经网络结合残差连接来聚合关联交通灯的交通灯状态，生成关联交通灯状态聚合信息h：
[0200][0201]
其中x为关联交通灯状态矩阵，为加入自循环的邻接矩阵，d表示目标交通灯的连接度参数，每个交通灯i的连接度参数表示为该交通灯所连接的关联交通灯的数量，w表示可学习的第一图神经网络的权重矩阵。采用这种方式，在实际交通环境中，相邻路口之间的车流相互联系，参考相邻路口的交通灯的状态，能够使交通灯最大程度地学习到路口周围全面的环境信息。
[0202]
s502b、将强化交通灯状态参数和关联交通灯状态聚合信息输入第一强化学习模型，得到与强化交通灯状态参数匹配的交通灯控制动作。
[0203]
关联交通灯状态聚合信息h和强化交通灯状态参数会传递给交通灯的第一强化学习模型来确定与之对应的交通灯控制动作。
[0204]
s503、执行交通灯控制动作，得到新的交通灯状态参数和第一奖励参数。
[0205]
使目标交通灯执行交通灯控制动作，通过第一强化模型得到新的交通灯状态参数和第一奖励参数。
[0206]
s504、基于第一奖励参数、新的交通灯状态参数、强化交通灯状态参数确定第一损失值。
[0207]
基于上述s502a-s502b的实施例，s504包括：
[0208]
基于第一奖励参数r
t
、新的交通灯状态参数新的交通灯状态参数对应的权重
矩阵强化交通灯状态参数强化交通灯状态参数对应的权重矩阵w确定第一损失值。
[0209]
其中，权重矩阵由第一强化学习模型的训练过程中学习得到。
[0210]
第一强化学习模型的损失函数l表示为：
[0211][0212]
其中，r
t
为交通灯的累计奖励(即第一奖励参数)，γ为预设权重系数，θ为q
l
价值函数的参数，w为上述第一图神经网络的权重矩阵，s
l
为公式(3)中的第一损失值通过公式(5)得到。
[0213]
s505、根据第一损失值对第一强化学习模型进行训练。
[0214]
将第一损失值反向传播给第一强化学习模型进行优化，参见公式(5)，减号前面的部分为第一强化学习模型预测的理想q价值，减号后面部分为实际的q价值，第一强化学习模型的优化目标为使两部分的差异减小。
[0215]
在公开第六实施例中，参见图8，图8示出本公开第六实施例提供的一种模型训练方法的流程图。该方法包括：
[0216]
s601、根据从交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数。
[0217]
其中，交通灯控制端根据以下方式生成强化交通灯状态参数：根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数。
[0218]
一个目标交通灯的预设区域即该目标交通灯的交通控制区域，例如图1左侧每个交通灯的圆形虚线限定的区域，具体的区域范围可以根据需要设置。
[0219]
车辆状态参数用于指示当前处于目标交通灯的预设范围内的车辆行驶状态(例如无人车数量、车速、行驶方向等)，车辆状态表征信息由无人车导航端根据预设范区域包含的无人车当前的车辆状态参数和过去多个时刻的历史车辆状态表征信息生成，参考过去时刻的无人车行驶状态，能够得出在更全面的交通环境信息。再基于强化交通灯状态参数和自身的车辆状态参数生成强化车辆状态参数，强化车辆状态参数不仅表达了无人车自身的状态，还参考了其当前归属的交通灯的强化交通灯状态，与实际的交通环境具有更强的关联性。
[0220]
s602、将强化车辆状态参数输入第二强化学习模型，得到与强化车辆状态参数匹配的无人车导航动作。
[0221]
s603、执行无人车导航动作，得到新的车辆状态参数和第二奖励参数。
[0222]
使目标无人车执行无人车导航动作，通过第二强化模型得到新的车辆状态参数和第二奖励参数。
[0223]
s604、基于第二奖励参数r
t
、新的车辆状态参数s
t+1
、强化车辆状态参数s
t
确定第二损失值。
[0224]
第二强化学习模型引入了两个神经网络，即当前q网络和目标网络，当前q网络每一步随着智能体和环境的交互被迭代训练，而目标网络每隔一段t时间步会和当前q网
络同步参数。
[0225]
更新当前q网络的参数θ时采用时间差学习的方式，第二强化学习模型的损失函数表示为：
[0226][0227]
其中，r
t
为无人车的累计奖励(即第二奖励参数)，γ为预设权重系数，θ为q
l
价值函数的参数，s
t
为上述第二损失值通过公式(6)得到。
[0228]
s605、根据第二损失值对第二强化学习模型进行训练。
[0229]
将第二损失值反向传播给第二强化学习模型进行优化，参见公式(6)，减号前面的部分为第二强化学习模型预测的理想q价值，减号后面部分为实际的q价值，第二强化学习模型的优化目标为使两部分的差异减小。
[0230]
在一些实现方式中，在s603之后，s604之前，方法还包括：
[0231]
步骤一：根据目标向量、当前的车辆状态参数、根据第二强化学习模型预测的理想车辆状态参数确定附加奖励参数；
[0232]
其中，目标向量由交通灯控制端通过权利要求8的方法生成。
[0233]
步骤二：根据附加奖励参数更新第二奖励参数。
[0234]
基于此，s604中的第二奖励参数为更新后的第二奖励参数。
[0235]
由于针对交通灯的第一强化模型的优化目标是疏导交通，而针对无人才的第二强化模型的优化目标是更高效的导航，二者的优化目标不一致，为了解决两种智能体的目标不一致的问题，引入目标(goal)向量来促进近似管理者的交通灯引领近似执行者的无人车向一个统一的目标优化。目标网络为一个由三层全连接的神经网络组成的mlp，目标向量即向一个统一的目标优化。目标网络为一个由三层全连接的神经网络组成的mlp，目标向量即表示无人车理想的下个车辆状态参数。
[0236]
在得s604得到第二奖励参数后，我们基于目标向量当前的车辆状态参数根据第二强化学习模型预测的理想车辆状态参数通过余弦距离计算内部的附加奖励参数：
[0237][0238]
附加奖励参数用于衡量车辆状态参数和理想当前车辆状态参数之间的差异。
[0239]
基于此，在计算无人车的第二损失值时，公式(6)中的第二奖励参数r
t
为附加奖励参数和环境中得到的外部奖励相之和，得到最终的无人车第二奖励参数r
t
(也即)，即α为预设附加奖励参数权重。
[0240]
在公开第七实施例中，基于与图2相同的原理，图9示出本公开第七实施例提供的交通灯控制装置90，该装置包括：
[0241]
强化交通灯状态生成模块901，用于根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和目标交通灯当前的交通灯状态参数，生成强化交通灯状态参
数；
[0242]
交通灯控制动作生成模块902，用于根据强化交通灯状态参数，生成与强化交通灯状态参数匹配的交通灯控制动作；
[0243]
其中，强化交通灯状态参数用于使无人车导航端根据强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数，并根据强化车辆状态参数生成与强化车辆状态参数匹配的无人车导航动作。
[0244]
在公开第八实施例中，基于与图5相同的原理，图10示出本公开第八实施例提供的无人车导航装置100，该装置包括：
[0245]
强化无人车状态生成模块1001，用于根据从交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；
[0246]
无人车导航动作生成模块1002，用于根据强化车辆状态参数，生成与强化车辆状态参数匹配的无人车导航动作；
[0247]
其中，交通灯控制端根据上述交通灯控制方法生成强化交通灯状态参数。
[0248]
在公开第九实施例中，基于与图7相同的原理，图11示出本公开第九实施例提供的模型训练装置110，该装置包括：
[0249]
第一参数生成模块1101，用于根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数；
[0250]
第一动作生成模块1102，用于将强化交通灯状态参数输入第一强化学习模型，得到与强化交通灯状态参数匹配的交通灯控制动作；
[0251]
第一执行模块1103，用于执行交通灯控制动作，得到新的交通灯状态参数和第一奖励参数；
[0252]
第一损失值确定模块1104，用于基于第一奖励参数、新的交通灯状态参数、强化交通灯状态参数确定第一损失值；
[0253]
第一训练模块1105，用于根据第一损失值对第一强化学习模型进行训练。
[0254]
在公开第十实施例中，基于与图8相同的原理，图12示出本公开第九实施例提供的模型训练装置120，该装置包括：
[0255]
第二参数生成模块1201，用于根据从交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；
[0256]
第二动作生成模块1202，用于将强化车辆状态参数输入第二强化学习模型，得到与强化车辆状态参数匹配的无人车导航动作；
[0257]
第二执行模块1203，用于执行无人车导航动作，得到新的车辆状态参数和第二奖励参数；
[0258]
第二损失值确定模块1204，用于基于第二奖励参数、新的车辆状态参数、强化车辆状态参数确定第二损失值；
[0259]
第二训练模块1205，用于根据第二损失值对第二强化学习模型进行训练。
[0260]
本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
[0261]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0262]
图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0263]
如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(rom)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(ram)1303中的计算机程序，来执行各种适当的动作和处理。在ram 1303中，还可存储设备900操作所需的各种程序和数据。计算单元1301、rom 1302以及ram 1303通过总线1304彼此相连。输入/输出(i/o)接口1305也连接至总线1304。
[0264]
设备1300中的多个部件连接至i/o接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0265]
计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如交通灯控制方法或无人车导航方法或模型训练方法。例如，在一些实施例中，交通灯控制方法或无人车导航方法或模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由rom 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到ram 1303并由计算单元1301执行时，可以执行上文描述的交通灯控制方法或无人车导航方法或模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行交通灯控制方法或无人车导航方法或模型训练方法。
[0266]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0267]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0268]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0269]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0270]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0271]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0272]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0273]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

技术特征：
1.一种交通灯控制方法，应用在交通灯控制端，其与无人车导航端通信连接，所述方法包括：根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数；根据所述强化交通灯状态参数，生成与所述强化交通灯状态参数匹配的交通灯控制动作；其中，所述强化交通灯状态参数用于使所述无人车导航端根据所述强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数，并根据所述强化车辆状态参数生成与所述强化车辆状态参数匹配的无人车导航动作。2.根据权利要求1所述的方法，其中，所述车辆状态表征信息由所述无人车导航端根据所述预设范区域包含的无人车当前的车辆状态参数和过去多个时刻的历史车辆状态表征信息生成。3.根据权利要求1或2所述的方法，其中，所述根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数，包括：将所述车辆状态表征信息和所述当前的交通灯状态参数拼接为混合环境信息；将所述混合环境信息输入第一编码器，获得所述强化交通灯状态参数。4.根据权利要求1-3任一所述的方法，其中，所述根据所述强化交通灯状态参数，生成与所述强化交通灯状态参数匹配的交通灯控制动作，包括：获取与所述目标交通灯相关联的关联交通灯的关联交通灯状态聚合信息；根据所述强化交通灯状态参数和所述关联交通灯状态聚合信息，生成与所述强化交通灯状态参数匹配的交通灯控制动作。5.根据权利要求4所述的方法，其中，所述关联交通灯状态聚合信息通过以下方式生成：根据所述关联交通灯状态当前的交通灯状态参数，生成关联交通灯状态矩阵；根据所述关联交通灯状态矩阵、所述目标交通灯的连接度参数、所述目标交通灯的权重矩阵生成所述关联交通灯状态聚合信息。6.根据权利要求5所述的方法，其中，所述根据所述关联交通灯状态矩阵、所述目标交通灯的连接度参数、所述目标交通灯的权重矩阵生成所述关联交通灯状态聚合信息，包括：通过第一图神经网络，根据所述关联交通灯状态矩阵、所述目标交通灯的连接度参数、所述目标交通灯的权重矩阵生成所述关联交通灯状态聚合信息。7.根据权利要求1-6任一所述的方法，其中，所述根据所述强化交通灯状态参数，生成与所述强化交通灯状态参数匹配的交通灯控制动作，包括：将所述所述强化交通灯状态参数输入第一强化学习模型，获得与所述强化交通灯状态参数匹配的所述交通灯控制动作。8.根据权利要求1-7任一所述的方法，其中，所述根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数之后，所述方法还包括：将所述强化交通灯状态参数输入预先训练的目标网络，得到目标向量；
其中，所述无人导航端通过第二强化学习模型，根据所述强化车辆状态参数生成与所述强化车辆状态参数匹配的无人车导航动作；所述目标向量用于使所述无人车导航端根据所述目标向量调整所述第二强化学习模型。9.一种无人车导航方法，应用在无人车导航端，其与交通灯控制端通信连接，所述方法包括：根据从所述交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；根据所述强化车辆状态参数，生成与所述强化车辆状态参数匹配的无人车导航动作；其中，所述交通灯控制端根据权利要求1-8任一所述方法生成所述强化交通灯状态参数。10.根据权利要求9所述的方法，其中，所述根据从所述交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数之前，所述方法包括：根据所述目标交通灯的预设区域内当前包含的无人车的车辆状态参数生成车辆状态聚合信息；根据所述车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息生成当前的所述车辆状态表征信息；其中，所述车辆状态表征信息用于使所述交通灯控制端根据所述目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成所述强化交通灯状态参数。11.根据权利要求10所述的方法，其中，所述根据所述目标交通灯的预设区域内当前包含的无人车的车辆状态参数生成车辆状态聚合信息，包括：通过第二图神经网络，根据所述目标交通灯的预设区域内当前包含的无人车的车辆状态参数生成车辆状态聚合信息。12.根据权利要求10或11所述的方法，其中，所述根据所述车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息生成当前的所述车辆状态表征信息，包括：将所述车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息输入循环神经网络，获得所述当前的所述车辆状态表征信息；或，根据过去多个时刻的历史车辆状态表征信息构建线性函数，并通过所述线性函数根据所述车辆状态聚合信息获得所述当前的所述车辆状态表征信息。13.根据权利要求9-12任一所述的方法，其中，所述根据所述强化车辆状态参数，生成与所述强化车辆状态参数匹配的无人车导航动作，包括：将所述强化车辆状态参数输入第二强化学习模型，获得与所述所述强化车辆状态参数匹配的所述无人车导航动作。14.根据权利要求13所述的方法，其中，所述方法还包括：根据目标向量调整所述第二强化学习模型；其中，所述目标向量由所述交通灯控制端通过权利要求8所述的方法生成。15.一种模型训练方法，所述方法包括：根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交
通灯当前的交通灯状态参数，生成强化交通灯状态参数；将所述强化交通灯状态参数输入第一强化学习模型，得到与所述强化交通灯状态参数匹配的交通灯控制动作；执行所述交通灯控制动作，得到新的交通灯状态参数和第一奖励参数；基于所述第一奖励参数、新的交通灯状态参数、所述强化交通灯状态参数确定第一损失值；根据所述第一损失值对所述第一强化学习模型进行训练。16.根据权利要求15所述的方法，其中，所述将所述强化交通灯状态参数输入第一强化学习模型，得到与所述强化交通灯状态参数匹配的交通灯控制动作，包括：获取与所述目标交通灯相关联的关联交通灯的关联交通灯状态聚合信息；将所述强化交通灯状态参数和所述关联交通灯状态聚合信息输入所述第一强化学习模型，得到与所述强化交通灯状态参数匹配的交通灯控制动作；其中，所述关联交通灯状态聚合信息通过以下方式生成：根据所述关联交通灯状态当前的交通灯状态参数，生成关联交通灯状态矩阵；根据所述关联交通灯状态矩阵、所述目标交通灯的连接度参数、所述目标交通灯的权重矩阵生成所述关联交通灯状态聚合信息；所述基于所述第一奖励参数、新的交通灯状态参数、所述强化交通灯状态参数确定第一损失值，包括：基于所述第一奖励参数、新的交通灯状态参数、新的交通灯状态参数对应的所述权重矩阵、所述强化交通灯状态参数、所述强化交通灯状态参数对应的所述权重矩阵确定第一损失值；其中，所述权重矩阵由所述第一强化学习模型的训练过程中学习得到。17.一种模型训练方法，所述方法包括：根据从交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；将所述强化车辆状态参数输入第二强化学习模型，得到与所述强化车辆状态参数匹配的无人车导航动作；执行所述无人车导航动作，得到新的车辆状态参数和第二奖励参数；基于所述第二奖励参数、新的车辆状态参数、所述强化车辆状态参数确定第二损失值；根据所述第二损失值对所述第二强化学习模型进行训练。18.根据权利要求17所述的方法，其中，所述执行所述无人车导航动作，得到新的车辆状态参数和第二奖励参数之后，所述基于所述第二奖励参数、新的车辆状态参数、所述强化车辆状态参数确定第二损失值之前，所述方法还包括：根据目标向量、当前的车辆状态参数、根据所述第二强化学习模型预测的理想车辆状态参数确定附加奖励参数；根据所述附加奖励参数更新所述第二奖励参数；其中，所述目标向量由所述交通灯控制端通过权利要求8所述的方法生成。19.一种交通灯控制装置，该装置包括：强化交通灯状态生成模块，用于根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数；
交通灯控制动作生成模块，用于根据所述强化交通灯状态参数，生成与所述强化交通灯状态参数匹配的交通灯控制动作；其中，所述强化交通灯状态参数用于使所述无人车导航端根据所述强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数，并根据所述强化车辆状态参数生成与所述强化车辆状态参数匹配的无人车导航动作。20.一种无人车导航装置，该装置包括：强化无人车状态生成模块，用于根据从所述交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；无人车导航动作生成模块，用于根据所述强化车辆状态参数，生成与所述强化车辆状态参数匹配的无人车导航动作；其中，所述交通灯控制端根据权利要求1-8任一所述方法生成所述强化交通灯状态参数。21.一种模型训练装置，该装置包括：第一参数生成模块，用于根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数；第一动作生成模块，用于将所述强化交通灯状态参数输入第一强化学习模型，得到与所述强化交通灯状态参数匹配的交通灯控制动作；第一执行模块，用于执行所述交通灯控制动作，得到新的交通灯状态参数和第一奖励参数；第一损失值确定模块，用于基于所述第一奖励参数、新的交通灯状态参数、所述强化交通灯状态参数确定第一损失值；第一训练模块，用于根据所述第一损失值对所述第一强化学习模型进行训练。22.一种模型训练装置，该装置包括：第二参数生成模块，用于根据从交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数；第二动作生成模块，用于将所述强化车辆状态参数输入第二强化学习模型，得到与所述强化车辆状态参数匹配的无人车导航动作；第二执行模块，用于执行所述无人车导航动作，得到新的车辆状态参数和第二奖励参数；第二损失值确定模块，用于基于所述第二奖励参数、新的车辆状态参数、所述强化车辆状态参数确定第二损失值；第二训练模块，用于根据所述第二损失值对所述第二强化学习模型进行训练。23.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法，或能够执行权利要求9-14任一所述的方法，或能够执行权利要求15-16任一所述的方法，或能够执行权利要求17-18任一所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法，或根据权利要求9-14任一所述的方法，或根据权利要求15-16任一所述的方法，或根据权利要求17-18任一所述的方法。25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法，或根据权利要求9-14任一所述的方法，或根据权利要求15-16任一所述的方法，或根据权利要求17-18任一所述的方法。

技术总结
本公开提供了一种交通灯控制方法，涉及计算机技术领域，尤其涉及无人车导航方法、模型训练方法、装置。具体实现方案为：根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和目标交通灯当前的交通灯状态参数，生成强化交通灯状态参数；根据强化交通灯状态参数，生成与强化交通灯状态参数匹配的交通灯控制动作；其中，强化交通灯状态参数用于使无人车导航端根据强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数，并根据强化车辆状态参数生成与强化车辆状态参数匹配的无人车导航动作。本公开能够综合实际的交通环境去进行控制和导航，从而获得更高效的交通疏导能力，并且适用于解决环境复杂的混合交通问题。合交通问题。合交通问题。

技术研发人员：孙倩张乐周景博熊辉张韦嘉鱼欢梅雨凌玮岑
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2023.05.06
技术公布日：2023/9/12

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种数据传输系统及方法与流程 下一篇：一种直管型质量流量计的制作方法

交通灯控制方法、无人车导航方法、模型训练方法、装置与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

交通灯控制方法、无人车导航方法、模型训练方法、装置与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表