一种交通信号控制方法、装置、电子设备及存储介质与流程

未命名 07-17 阅读：77 评论：0

1.本技术涉及交通控制技术领域，尤其涉及一种交通信号控制方法、装置、电子设备及存储介质。

背景技术：

2.随着经济的发展，生活质量水平的提高，驾车出行已成为人们的普遍选择。然而在车辆保有量急剧增长、城市交通路网基础设施规模没有大规模拓展的情况下，交通拥堵现象愈发严重。
3.如果通过拓展交通道路基础设施来缓解交通拥堵现象，不仅会产生昂贵的成本，而且在施工期内也会影响交通，增加了其他交通道路的通行压力。而建立完善的交通信号控制系统，可解决交通基础设施建设增长缓慢与车辆保有量激增之间的矛盾，也是缓解交通拥堵现象有效的途径。
4.由于交通场景的复杂性和多变性，若设计的交通信号控制系统不合理，不能对交通道路上的交通情况进行有效且及时的控制，则会给车辆行驶带来不便。
5.因此，如何高效的实现交通信号控制，是目前亟需解决的问题。

技术实现要素：

6.本技术提供了一种交通信号控制方法，用以高效的实现交通信号控制。
7.第一方面，提供一种交通信号控制方法，包括：
8.将获取到的路口交通信息进行转换，转换得到第一交通状态；其中，所述路口交通信息包括信号灯信息以及车辆队列信息；将所述第一交通状态输入到交通信号控制模型中，确定第一交通信号动作；根据第一期望目标、所述第一交通状态、所述第一交通信号动作，确定第一奖励值，以及下一时刻的第二交通状态；其中，所述第一奖励值用于表征所述第一交通状态对所述第一交通信号动作的偏好，所述第一期望目标是从设定的目标集合中进行随机采样的期望目标；将所述第一交通状态、所述第一交通信号动作、所述第一期望目标、所述第一奖励值，以及所述第二交通状态作为样本数据存储到经验回放池中；根据所述经验回放池对所述交通信号控制模型进行强化学习训练，得到目标控制策略，并按照所述目标控制策略对交通信号灯进行控制。
9.可选的，所述交通信号控制模型包括critic网络、actor网络、actor目标网络、critic目标网络；所述根据所述经验回放池对所述交通信号控制模型进行强化学习训练，包括：
10.将所述样本数据中的第二交通状态输入到所述actor目标网络中，并引入探索噪声，确定第二交通信号动作；将所述第二交通状态和所述第二交通信号动作输入到所述critic目标网络中，确定目标q值；根据所述目标q值和最小化损失函数，更新所述critic网络的网络参数μk；根据梯度下降算法，更新所述actor网络的网络参数φ；根据更新后的μk，更新所述critic目标网络的网络参数μ
′k，以及根据更新后的φ，更新所述actor目标网络
的网络参数φ
′
。
11.可选的，所述μk满足以下表达式：
[0012][0013][0014]
其中，y
t
为所述目标q值，为所述critic网络根据所述第一交通状态和所述第一交通信号动作计算得到的q值，所述n为所述样本数据的个数，所述r
t
为所述第一期望目标，所述s
′
t
为所述第二交通状态，所述为所述第二交通信号动作，所述γ为超参数。
[0015]
可选的，所述φ满足以下表达式：
[0016][0017]
其中，所述n为所述样本数据的个数，所述π
φ
为所述actor网络，所述s
t
为所述第一交通状态，所述a
t
为所述第一交通信号动作。
[0018]
可选的，所述将所述第一交通状态、所述第一交通信号动作、所述第一期望目标、所述第一奖励值，以及所述第二交通状态作为样本数据存储到经验回放池中之后，还包括：
[0019]
从所述目标集合中采样第二期望目标；
[0020]
根据所述第二期望目标、所述第一交通状态、所述第一交通信号动作，确定第二奖励值；
[0021]
将所述第二期望目标、所述第一交通状态、第一交通信号动作、所述第二奖励值，以及所述第二交通状态作为新的样本数据存储在所述经验回放池中。
[0022]
第二方面，提供一种交通信号控制装置，包括：
[0023]
信息处理模块，用于将获取到的路口交通信息进行转换，转换得到第一交通状态；其中，所述路口交通信息包括信号灯信息以及车辆队列信息；
[0024]
第一确定模块，用于将所述第一交通状态输入到交通信号控制模型中，确定第一交通信号动作；第二确定模块，用于根据第一期望目标、所述第一交通状态、所述第一交通信号动作，确定第一奖励值，以及下一时刻的第二交通状态；其中，所述第一奖励值用于表征所述第一交通状态对所述第一交通信号动作的偏好，所述第一期望目标是从设定的目标集合中进行随机采样的期望目标；经验回放模块，用于将所述第一交通状态、所述第一交通信号动作、所述第一期望目标、所述第一奖励值，以及所述第二交通状态作为样本数据存储到经验回放池中；控制模块，用于根据所述经验回放池对所述交通信号控制模型进行强化学习训练，得到目标控制策略，并按照所述目标控制策略对交通信号灯进行控制。
[0025]
可选的，所述交通信号控制模型包括critic网络、actor网络、actor目标网络、critic目标网络；
[0026]
所述控制模块，具体用于：
[0027]
将所述样本数据中的第二交通状态输入到所述actor目标网络中，并引入探索噪声，确定第二交通信号动作；将所述第二交通状态和所述第二交通信号动作输入到所述
critic目标网络中，确定目标q值；根据所述目标q值和最小化损失函数，更新所述critic网络的网络参数μk；根据梯度下降算法，更新所述actor网络的网络参数φ；根据更新后的μk，更新所述critic目标网络的网络参数μ
′k，以及根据更新后的φ，更新所述actor目标网络的网络参数φ
′
。
[0028]
可选的，所述经验回放模块，还用于：
[0029]
从所述目标集合中采样第二期望目标；根据所述第二期望目标、所述第一交通状态、所述第一交通信号动作，确定第二奖励值；将所述第二期望目标、所述第一交通状态、第一交通信号动作、所述第二奖励值，以及所述第二交通状态作为新的样本数据存储在所述经验回放池中。
[0030]
第三方面，提供一种电子设备，包括：
[0031]
存储器，用于存放计算机程序；处理器，用于执行所述存储器上所存放的计算机程序时，实现第一方面中任一项所述的方法步骤。
[0032]
第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项中所述的方法步骤。
[0033]
本技术实施例中，将获取到的路口交通信息进行转换，转换得到第一交通状态，由于该路口交通信息包括信号灯信息以及车辆队列信息，可对交通环境进行更全面的感知，提升后续的目标控制策略的准确性；将第一交通状态输入到交通信号控制模型中，确定第一交通信号动作，根据第一期望目标、第一交通状态、第一交通信号动作，确定第一奖励值，以及下一时刻的第二交通状态，由于该第一奖励值可表征第一交通状态对第一交通信号动作的偏好，因此计算奖励值可以为后续确定目标控制策略提供方向；将第一交通状态、第一交通信号动作、第一期望目标、第一奖励值，以及第二交通状态作为样本数据存储到经验回放池中；根据该经验回放池对交通信号控制模型进行强化学习训练，得到目标控制策略，并按照目标控制策略对交通信号灯进行控制，由于结合了事后经验回放机制对该模型进行强化学习训练，可解决交通信号控制问题时稀疏奖励问题带来的影响，提升了该模型的性能，对于复杂的交通场景有更好的泛化性，从而高效的实现交通信号控制。
[0034]
上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。
附图说明
[0035]
图1为本技术实施例提供的一种交通信号控制方法的流程图；
[0036]
图2为本技术实施例提供的一种对交通信号控制模型进行强化训练的逻辑示意图；
[0037]
图3为本技术实施例提供的一种交通信号控制装置的结构示意图；
[0038]
图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0039]
为了使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例
中。需要说明的是，在本技术的描述中“多个”理解为“至少两个”。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。a与b连接，可以表示：a与b直接连接和a与b通过c连接这两种情况。另外，在本技术的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。
[0040]
为了更好地理解本技术实施例，下面首先对本技术实施例中涉及的技术术语进行解释说明。
[0041]
(1)事后经验回放技术(hindsight experience replay，her)是一种可从失败中汲取经验教训的强化学习算法。
[0042]
(2)双延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient，td3)是结合了深度确定性策略梯度算法和双重q学习，在许多连续控制任务上都取得了不错的表现。该td3算法中包括六个网络，分别是actor网络、critic1网络、critic2网络、actor目标网络、critic目标网络1，critic目标网络2。该算法主要包括以下关键技术：采用两套critic网络，在计算目标q值时可取二者中的较小值，从而抑制网络过估计问题；在计算目标q值时，会在下一个状态的动作上加入扰动，从而使得评估更准确；更新critic网络后，再更新actor网络，从而保证actor网络的训练更加稳定。
[0043]
目前，对于交通信号控制一般是结合深度强化学习思路进行模型训练，从而产生控制策略，例如，通过从目标路口的实时信息图像中获取目标路口的实时车辆信息；将其输入预设单路口交通信号控制模型，得到目标路口的交通信号控制方案；其中，预设单路口交通信号控制模型是根据携带实时车辆样本信息进行训练得到的。由于交通场景的复杂性和多变性，若采集的车辆样本信息过于单一，则会对交通环境感知不全面，导致通过预设单路口交通信号控制模型得到的控制策略不够准确，再者，基于深度强化学习在解决交通信号控制问题时，也会存在的稀疏奖励问题，也会影响控制策略的准确性。
[0044]
鉴于此，本技术实施例提供了一种交通信号控制方法，该方法所应用的交通信号控制模型，从多角度采集交通信息，并结合td3算法和her机制，解决交通环境感知不全面，以及存在的稀疏奖励问题，有效的改善了交通信号控制模型的性能，提升了对于控制策略的效率和准确性。
[0045]
本技术实施例中，建立的交通信号控制模型可从如下几个方面考虑：
[0046]
方面一，在采集交通信息，定义该模型的交通状态时，从多角度进行信息采集，例如，可包括信号灯信息和车辆队列信息，从而提高对交通环境的感知能力。可选的，该交通状态满足以下表达式：
[0047]st
＝{vi,li}
……
(1)
[0048]
其中，vi为t时刻第i个车道的车辆队列长度，i为车道编号，li为t时刻第i个车道的交通信号灯状态，li为正时表示绿灯时间与黄灯时间之和，li为负时表示红灯时间。
[0049]
在一些实施例中，可将黄灯时间设为固定值，例如3秒，所有绿色阶段都有最小绿的时间和最大绿的时间，这能够确保收集足够的信息来评估后续奖励功能的效果，可防止出现时间极短的相位，从而有效避免交通事故的发生。
[0050]
方面二，基于定义的交通状态，定义该模型的交通信号动作。可选的，交通信号动作满足以下表达式：
[0051]ai
(t)＝{ai+m,ai,a
i-m}
……
(2)
[0052]
其中，ai+m表示第i个相位当前交通信号灯色加m秒，a
i-m表示第i个相位当前交通信号灯色减m秒，ai表示第i个相位时长不变。
[0053]
方面三，定义该模型的奖励值函数，由于奖励值可以反馈当前交通状态对交通信号动作的偏好，若不充分考虑模型的奖励值函数，可能会到该模型收敛缓慢，影响车辆的通行效率。可选的，该奖励值函数满足以下表达式：
[0054]rt
＝ω1(t
t+1-t
t
)+ω
2vq
……
(3)
[0055]
其中，ω1、ω2为权重系数。(t
t+1-t
t
)为所有车辆的累计平均等待时间之差，vq为车辆排队长度之和。
[0056]
为进一步说明本技术实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本技术实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本技术实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可按照实施例或者附图所示的方法顺序执行或者并执行。
[0057]
图1为本技术实施例提供的一种交通信号控制方法的流程图。该流程可由交通信号装置所执行，该装置可通过软件的方式实现，也可通过硬件的方式实现，还可通过软件结合硬件的方式实现。如图所示，该流程包括如下步骤：
[0058]
101：将获取到的路口交通信息进行转换，转换得到第一交通状态。
[0059]
可选的，该路口交通信息包括信号灯信息以及车辆队列信息，该信号灯信息可通过信号机获得，该车辆队列信息可通过图像采集设备，例如智能卡口设备获得。
[0060]
可选的，将获取到的路口交通信息之前，可对交通信号控制模型进行初始化，由于该交通信号控制模型是基于td3算法和her机制建立的，因此在对交通信号模型进行初始化时至少包括以下几种情况：
[0061]
情况1：初始化critic网络的网络参数μk(k＝1，2)，采用两套critic网络可避免后续计算的q值出现过估计现象，从而影响目标控制策略的准确性。
[0062]
情况2：初始化actor网络的网络参数φ，该actor网络可用于生成交通信号动作。
[0063]
情况3：初始化critic目标网络的网络参数μ
′k(k＝1，2)、actor目标网络的网络参数φ
′
。
[0064]
情况4：初始化经验回放池d，该经验回放池用于存储样本数据，可处理稀疏奖励问题。
[0065]
情况5：初始化目标集合，该目标集合包括采样的多个期望目标。
[0066]
情况6：初始化在该交通信号控制模型中引入的探索噪声，该探索噪声可用辅助寻找交通信号动作，提高td3算法的稳定性。
[0067]
上述步骤中，交通状态除了包括了车辆队列信息以外，还包括了信号灯信息，将其作为该模型的输入，使得对交通环境感知更全面，从而提升后续目标控制策略的准确性。
[0068]
102：将上述第一交通状态输入到交通信号控制模型中，确定第一交通信号动作。
[0069]
该步骤中，具体可以是将第一交通状态输入到交通信号控制模型的actor网络中，从而得到第一交通信号动作。
[0070]
在一些实施例中，还可在actor网络中引入探索噪声，确定第一交通信号动作，可选的，该第一交通信号动作满足以下表达式：
[0071]at
～π
φ
(s
t
)+ε，ε～n(0,σ)
……
(4)
[0072]
其中，a
t
为第一交通信号动作，π
φ
为actor网络，s
t
为第一交通状态，ε为探索噪声。
[0073]
103：根据第一期望目标、第一交通状态、第一交通信号动作，确定第一奖励值，以及下一时刻的第二交通状态。
[0074]
其中，第一奖励值用于表征第一交通状态(s
t
)对第一交通信号动作(a
t
)的偏好，第一期望目标(g)是从设定的目标集合(g)中进行随机采样的至少一个期望目标。
[0075]
该步骤中结合her机制，具体可以是：首先在目标集合中进行随机采样，得到第一期望目标，在基于该第一期望目标和当前的第一交通状态，确定出该第一交通信号动作，执行该第一交通信号动作后，从而确定该第一奖励值(r
t
)，以及下一时刻的第二交通状态(s
t
′
)。
[0076]
104：将上述第一交通状态、第一交通信号动作、第一期望目标、第一奖励值，以及第二交通状态作为样本数据存储到经验回放池中。
[0077]
该样本数据，可以表示为{s
t
||g,a
t
,r
t
,s
t
′
||g}，其中，s
t
||g表征第一交通状态和第一期望目标的拼接操作，s
t
′
||g表征第二交通状态和第一期望目标的拼接操作。
[0078]
可选的，在将上述第一交通状态、第一交通信号动作、第一期望目标、第一奖励值，以及第二交通状态作为样本数据存储到经验回放池中之后，还可采样多个新的样本数据存储到经验回放池中，从而解决稀疏奖励问题带来的影响，具体可包括如下过程:从目标集合中采样第二期望目标；根据第二期望目标、第一交通状态、第一交通信号动作，确定第二奖励值；将第二期望目标、第一交通状态、第一交通信号动作、第二奖励值，以及第二交通状态作为新的样本数据存储在经验回放池中，可重复上述过程，从而产生多个新的样本数据存储到该经验回放池中，便于后续以该经验回放池进行目标控制策略的训练，可很好的解决稀疏奖励问题，也提升了算法的性能，对于复杂的交通场景有更好的泛化性。
[0079]
105：根据上述经验回放池对交通信号控制模型进行强化学习训练，得到目标控制策略，并按照目标控制策略对交通信号灯进行控制。
[0080]
可选的，可在经验回放池(d)中选择小批量的样本数据，进行强化学习训练，以样本数据({s
t
||g,a
t
,r
t
,s
t
′
||g})为例，根据经验回放池对交通信号控制模型进行强化学习训练，具体可包括如下过程：
[0081]
将样本数据中的第二交通状态输入到actor目标网络中，并引入探索噪声，确定第二交通信号动作；将第二交通状态和第二交通信号动作输入到critic目标网络中，确定目标q值；根据目标q值和最小化损失函数，更新critic网络的网络参数μk；根据梯度下降算法，更新actor网络的网络参数φ；根据更新后的μk，更新critic目标网络的网络参数μ
′k，以及根据更新后的φ，更新actor目标网络的网络参数φ
′
。
[0082]
可选的，该第二交通信号动作满足以下表达式：
[0083][0084]
其中，为第二交通信号动作，π
φ
′
为actor目标网络，s
′
t
为第二交通状态，ε为探索噪声，在actor目标网络中引入的探索噪声是服从截断正态分布，可防止后续训练得到的
目标控制策略陷入局部最优。
[0085]
可选的，目标q值满足以下表达式：
[0086][0087]
其中，y
t
为两个critic目标网络根据s
′
t
和计算出的两个q值中较小的那个计算得到的目标q值，γ为超参数，r
t
为第一期望目标，为critic目标网络。
[0088]
可选的，μk满足以下表达式：
[0089][0090]
其中，为critic网络根据第一交通状态和第一交通信号动作计算得到的q值，n为样本数据的个数，为critic网络。
[0091]
可选的，φ满足以下表达式：
[0092][0093]
其中，公式(8)中各参数的含义参照前文所述，在此不再重复描述。
[0094]
可选的，μ
′k和φ
′
分别满足以下表达式：
[0095]
μ
′k←
τμk+(1-τ)μ
′k……
(9)
[0096]
φ
′←
τφ+(1-τ)φ
′……
(10)
[0097]
其中，τ＜＜1为软更新常数、k＝1，2，使目标网络的网络参数(μ
′k、φ
′
)变化缓慢，从而减少累计误差，达到提升算法稳定性的目的。
[0098]
上述步骤中，通过采用两套critic网络计算不同的q值，并选取其中较小的q值对目标q值进行计算，可解决q值过估计问题，从而避免在进行交通信号控制时选择被高估的控制策略。
[0099]
图2为本技术实施例提供的一种对交通信号控制模型进行强化训练的逻辑示意图。如图2所示，首先从经验回放池中选取小批量的样本数据({s
t
||g,a
t
,r
t
,s
t
′
||g})，将s
t
′
输入到actor目标网络(π
φ
′
)中，引入探索噪声，得到第二交通信号动作其次，将和样本数据中的第二交通状态(s
t
′
)输入到critic目标网络中，得到目标q值，根据目标q值和最小化损失函数，更新critic网络的网络参数μk，结合critic网络中任意一个网络根据第一交通状态和第一交通信号动作计算得到的q值进行梯度下降，更新actor网络(π
φ
)的网络参数φ；最后，根据更新后的μk，更新critic目标网络的网络参数μ
′k，以及根据更新后的φ，更新actor目标网络的网络参数φ
′
，从而完成交通信号控制模型的训练。
[0100]
本技术实施例中，将获取到的路口交通信息进行转换，转换得到第一交通状态，由于该路口交通信息包括信号灯信息以及车辆队列信息，可对交通环境进行更全面的感知，提升后续的目标控制策略的准确性；将第一交通状态输入到交通信号控制模型中，确定第一交通信号动作，根据第一期望目标、第一交通状态、第一交通信号动作，确定第一奖励值，以及下一时刻的第二交通状态，由于该第一奖励值可表征第一交通状态对第一交通信号动作的偏好，因此计算奖励值可以为后续确定目标控制策略提供方向；将第一交通状态、第一
交通信号动作、第一期望目标、第一奖励值，以及第二交通状态作为样本数据存储到经验回放池中；根据该经验回放池对交通信号控制模型进行强化学习训练，得到目标控制策略，并按照目标控制策略对交通信号灯进行控制，由于结合了事后经验回放机制对该模型进行强化学习训练，可解决交通信号控制问题时稀疏奖励问题带来的影响，提升了该模型的性能，对于复杂的交通场景有更好的泛化性，从而高效的实现交通信号控制。
[0101]
基于相同的技术构思，本技术实施例中还提供了一种交通信号控制装置，该装置可实现本技术实施例中上述交通信号控制方法流程。
[0102]
图3为本技术实施例提供的一种交通信号控制装置的结构示意图。如图所示，该装置包括：信息处理模块301、第一确定模块302、第二确定模块303、经验回放模块304、控制模块305。
[0103]
信息处理模块301，用于将获取到的路口交通信息进行转换，转换得到第一交通状态；其中，所述路口交通信息包括信号灯信息以及车辆队列信息。
[0104]
第一确定模块302，用于将所述第一交通状态输入到交通信号控制模型中，确定第一交通信号动作。
[0105]
第二确定模块303，用于根据第一期望目标、所述第一交通状态、所述第一交通信号动作，确定第一奖励值，以及下一时刻的第二交通状态；其中，所述第一奖励值用于表征所述第一交通状态对所述第一交通信号动作的偏好，所述第一期望目标是从设定的目标集合中进行随机采样的期望目标。
[0106]
经验回放模块304，用于将所述第一交通状态、所述第一交通信号动作、所述第一期望目标、所述第一奖励值，以及所述第二交通状态作为样本数据存储到经验回放池中。
[0107]
控制模块305，用于根据所述经验回放池对所述交通信号控制模型进行强化学习训练，得到目标控制策略，并按照所述目标控制策略对交通信号灯进行控制。
[0108]
可选的，所述交通信号控制模型包括critic网络、actor网络、actor目标网络、critic目标网络；所述控制模块305，具体用于：
[0109]
将所述样本数据中的第二交通状态输入到所述actor目标网络中，并引入探索噪声，确定第二交通信号动作；将所述第二交通状态和所述第二交通信号动作输入到所述critic目标网络中，确定目标q值；根据所述目标q值和最小化损失函数，更新所述critic网络的网络参数μk；根据梯度下降算法，更新所述actor网络的网络参数φ；根据更新后的μk，更新所述critic目标网络的网络参数μ
′k，以及根据更新后的φ，更新所述actor目标网络的网络参数φ
′
。
[0110]
可选的，所述经验回放模块304，还用于：
[0111]
从所述目标集合中采样第二期望目标；根据所述第二期望目标、所述第一交通状态、所述第一交通信号动作，确定第二奖励值；将所述第二期望目标、所述第一交通状态、第一交通信号动作、所述第二奖励值，以及所述第二交通状态作为新的样本数据存储在所述经验回放池中。
[0112]
在此需要说明的是，本技术实施例提供的上述装置，能够实现上述方法实施例中的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
[0113]
基于相同的技术构思，本技术实施例中还提供了一种电子设备，所述电子设备可
以实现前述一种交通信号控制装置的功能。
[0114]
图4为本技术实施例提供的电子设备的结构示意图。
[0115]
至少一个处理器401，以及与至少一个处理器401连接的存储器402，本技术实施例中不限定处理器401与存储器402之间的具体连接介质，图4中是以处理器401和存储器402之间通过总线400连接为例。总线400在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线400可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器401也可以称为控制器，对于名称不做限制。
[0116]
在本技术实施例中，存储器402存储有可被至少一个处理器401执行的指令，至少一个处理器401通过执行存储器402存储的指令，可以执行前文论述的一种交通信号控制方法。处理器401可以实现图3所示的装置中各个模块的功能。
[0117]
其中，处理器401是该装置的控制中心，可以利用各种接口和线路连接整个该控制设备的各个部分，通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据，该装置的各种功能和处理数据，从而对该装置进行整体监控。
[0118]
在一种可能的设计中，处理器401可包括一个或多个处理单元，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。在一些实施例中，处理器401和存储器402可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。
[0119]
处理器401可以是通用处理器，例如中央处理器(cpu)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的一种交通信号控制方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
[0120]
存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory，ram)、静态随机访问存储器(static random access memory，sram)、可编程只读存储器(programmable read only memory，prom)、只读存储器(read only memory，rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本技术实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。
[0121]
通过对处理器401进行设计编程，可以将前述实施例中介绍的一种交通信号控制方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行图1所示的实施例的一种交通信号控制方法。如何对处理器401进行设计编程为本领域技术人员所公知的技术，这里不再赘述。
[0122]
在此需要说明的是，本技术实施例提供的上述通电子设备，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
[0123]
本技术实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行上述实施例中的一种交通信号控制方法。
[0124]
本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在被计算机调用时，使得所述计算机执行上述实施例中的一种交通信号控制方法。
[0125]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0126]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0127]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0128]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

技术特征：
1.一种交通信号控制方法，其特征在于，包括：将获取到的路口交通信息进行转换，转换得到第一交通状态；其中，所述路口交通信息包括信号灯信息以及车辆队列信息；将所述第一交通状态输入到交通信号控制模型中，确定第一交通信号动作；根据第一期望目标、所述第一交通状态、所述第一交通信号动作，确定第一奖励值，以及下一时刻的第二交通状态；其中，所述第一奖励值用于表征所述第一交通状态对所述第一交通信号动作的偏好，所述第一期望目标是从设定的目标集合中进行随机采样的期望目标；将所述第一交通状态、所述第一交通信号动作、所述第一期望目标、所述第一奖励值，以及所述第二交通状态作为样本数据存储到经验回放池中；根据所述经验回放池对所述交通信号控制模型进行强化学习训练，得到目标控制策略，并按照所述目标控制策略对交通信号灯进行控制。2.如权利要求1所述的方法，其特征在于，所述交通信号控制模型包括critic网络、actor网络、actor目标网络、critic目标网络；所述根据所述经验回放池对所述交通信号控制模型进行强化学习训练，包括：将所述样本数据中的第二交通状态输入到所述actor目标网络中，并引入探索噪声，确定第二交通信号动作；将所述第二交通状态和所述第二交通信号动作输入到所述critic目标网络中，确定目标q值；根据所述目标q值和最小化损失函数，更新所述critic网络的网络参数μ
k
；根据梯度下降算法，更新所述actor网络的网络参数φ；根据更新后的μ
k
，更新所述critic目标网络的网络参数μ
′
k
，以及根据更新后的φ，更新所述actor目标网络的网络参数φ
′
。3.如权利要求2所述的方法，其特征在于，所述μ
k
满足以下表达式：满足以下表达式：其中，y
t
为所述目标q值，q
μk
(s
t
,a
t
)为所述critic网络根据所述第一交通状态和所述第一交通信号动作计算得到的q值，所述n为所述样本数据的个数，所述r
t
为所述第一期望目标，所述s
′
t
为所述第二交通状态，所述为所述第二交通信号动作，所述γ为超参数。4.如权利要求2所述的方法，其特征在于，所述φ满足以下表达式：其中，所述n为所述样本数据的个数，所述π
φ
为所述actor网络，所述s
t
为所述第一交通状态，所述a
t
为所述第一交通信号动作。5.如权利要求1所述的方法，其特征在于，所述将所述第一交通状态、所述第一交通信号动作、所述第一期望目标、所述第一奖励值，以及所述第二交通状态作为样本数据存储到经验回放池中之后，还包括：
从所述目标集合中采样第二期望目标；根据所述第二期望目标、所述第一交通状态、所述第一交通信号动作，确定第二奖励值；将所述第二期望目标、所述第一交通状态、第一交通信号动作、所述第二奖励值，以及所述第二交通状态作为新的样本数据存储在所述经验回放池中。6.一种交通信号控制装置，其特征在于，包括：信息处理模块，用于将获取到的路口交通信息进行转换，转换得到第一交通状态；其中，所述路口交通信息包括信号灯信息以及车辆队列信息；第一确定模块，用于将所述第一交通状态输入到交通信号控制模型中，确定第一交通信号动作；第二确定模块，用于根据第一期望目标、所述第一交通状态、所述第一交通信号动作，确定第一奖励值，以及下一时刻的第二交通状态；其中，所述第一奖励值用于表征所述第一交通状态对所述第一交通信号动作的偏好，所述第一期望目标是从设定的目标集合中进行随机采样的期望目标；经验回放模块，用于将所述第一交通状态、所述第一交通信号动作、所述第一期望目标、所述第一奖励值，以及所述第二交通状态作为样本数据存储到经验回放池中；控制模块，用于根据所述经验回放池对所述交通信号控制模型进行强化学习训练，得到目标控制策略，并按照所述目标控制策略对交通信号灯进行控制。7.如权利要求6所述的装置，其特征在于，所述交通信号控制模型包括critic网络、actor网络、actor目标网络、critic目标网络；所述控制模块，具体用于：将所述样本数据中的第二交通状态输入到所述actor目标网络中，并引入探索噪声，确定第二交通信号动作；将所述第二交通状态和所述第二交通信号动作输入到所述critic目标网络中，确定目标q值；根据所述目标q值和最小化损失函数，更新所述critic网络的网络参数μ
k
；根据梯度下降算法，更新所述actor网络的网络参数φ；根据更新后的μ
k
，更新所述critic目标网络的网络参数μ
′
k
，以及根据更新后的φ，更新所述actor目标网络的网络参数φ
′
。8.如权利要求6所述的装置，其特征在于，所述经验回放模块，还用于：从所述目标集合中采样第二期望目标；根据所述第二期望目标、所述第一交通状态、所述第一交通信号动作，确定第二奖励值；将所述第二期望目标、所述第一交通状态、第一交通信号动作、所述第二奖励值，以及所述第二交通状态作为新的样本数据存储在所述经验回放池中。9.一种电子设备，其特征在于，包括：存储器，用于存放计算机程序；处理器，用于执行所述存储器上所存放的计算机程序时，实现权利要求1-5中任一项所述的方法步骤。
10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5中任一项中所述的方法步骤。

技术总结
本申请公开了一种交通信号控制方法、装置、电子设备及存储介质，涉及交通控制技术领域。该方法包括：将获取到的路口交通信息进行转换，转换得到第一交通状态；其中，路口交通信息包括信号灯信息以及车辆队列信息；将第一交通状态输入到交通信号控制模型中，确定第一交通信号动作；根据第一期望目标、第一交通状态、第一交通信号动作，确定第一奖励值，以及下一时刻的第二交通状态，并将其作为样本数据存储到经验回放池中；根据经验回放池对交通信号控制模型进行强化学习训练，得到目标控制策略，并按照目标控制策略对交通信号灯进行控制，用以高效的实现交通信号控制。以高效的实现交通信号控制。以高效的实现交通信号控制。

技术研发人员：弓海文唐悦
受保护的技术使用者：浙江大华技术股份有限公司
技术研发日：2023.03.06
技术公布日：2023/6/27

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：基于贝叶斯线性模型的公路交通流异常检测方法及系统 下一篇：一种意外断电报警电路、报警设备及系统的制作方法

一种交通信号控制方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种交通信号控制方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表