一种交通拥堵时间预测方法、装置、电子设备及存储介质与流程

未命名 07-17 阅读：84 评论：0

1.本发明实施例涉及智能交通技术领域，尤其涉及一种交通拥堵时间预测方法、装置、电子设备及存储介质。

背景技术：

2.随着社会的不断发展和人们出行需求的日益扩增，使机动车在数量和质量上不断突破创新的同时，产生了交通拥堵问题。交通拥堵问题对人们的日常生活与工作带来许多不便，而且很大程度上增加了城市的交通压力，因此，可以通过交通拥堵时间预测模型来预测交通拥堵时间，进而可以缓解城市的交通压力。
3.现有技术中，对于交通拥堵时间预测模型的训练主要是基于历史数据，通过交通拥堵时间预测模型拟合过去的历史经验，进而对未来的交通拥堵时间进行预测。然而，现有技术中对于交通拥堵时间预测模型的训练，对于偶然发生的交通拥堵，因难以参照历史数据及经验，无法有效应对快速变化的交通拥堵状态，导致所预测的交通拥堵时间的误差较大。故，如何提高交通拥堵时间预测模型训练的可信度，以及交通拥堵时间预测过程对当前环境变化的敏感度是当前亟待解决的问题。

技术实现要素：

4.本发明提供了一种交通拥堵时间预测方法、装置、电子设备及存储介质，可以有效应对偶然发生的交通拥堵，提高了交通拥堵时间预测模型训练的可信度，进而提高了交通拥堵时间预测过程对当前环境变化的敏感度。
5.第一方面，本发明实施例提供了一种交通拥堵时间预测方法，包括：
6.获取当前环境状态信息；
7.确定所述当前环境状态信息所对应的当前即时回报信息；
8.基于所述当前环境状态信息和所述当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，所述训练后的交通拥堵时间预测模型用于预测交通拥堵时间。
9.第二方面，本发明实施例提供了一种行驶参量预测方法，包括：
10.将环境状态信息输入训练后的交通拥堵时间预测模型，得到动作信息和所预测的交通拥堵时间，所述交通拥堵时间预测模型基于第一方面所述的方法训练得到；
11.基于所述动作信息确定处理策略；
12.其中，所述行驶参量包括所述动作信息、所述交通拥堵时间和所述处理策略。
13.第三方面，本发明实施例提供了一种交通拥堵时间预测装置，包括：
14.获取模块，用于获取当前环境状态信息；
15.第一确定模块，用于确定所述当前环境状态信息所对应的当前即时回报信息；
16.训练模块，用于基于所述当前环境状态信息和所述当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，所述训练后的交
通拥堵时间预测模型用于预测交通拥堵时间。
17.第四方面，本发明实施例提供了一种行驶参量预测装置，包括：
18.输入模块，用于将环境状态信息输入训练后的交通拥堵时间预测模型，得到动作信息和所预测的交通拥堵时间，所述交通拥堵时间预测模型基于第一方面所述的方法训练得到；
19.第二确定模块，用于基于所述动作信息确定处理策略；
20.其中，所述行驶参量包括所述动作信息、所述交通拥堵时间和所述处理策略。
21.第五方面，本发明实施例提供了一种电子设备，包括：
22.至少一个处理器；以及
23.与所述至少一个处理器通信连接的存储器；其中，
24.所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的方法，或执行如第二方面所述的方法。
25.第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的方法，或实现如第二方面所述的方法。
26.本发明实施例的技术方案，通过当前环境状态信息确定当前环境状态信息所对应的当前即时回报信息，并结合当前环境状态信息和当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，提高了交通拥堵时间预测模型训练的可信度，进而提高了交通拥堵时间预测过程对当前环境变化的敏感度。
27.应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
28.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
29.图1是实现本发明的critic网络的结构示意图；
30.图2是根据本发明实施例一提供的一种交通拥堵时间预测方法的流程图；
31.图3是根据本发明实施例二提供的一种交通拥堵时间预测方法的流程图；
32.图4是根据本发明实施例三提供的一种行驶参量预测方法的流程图；
33.图5是根据本发明实施例四提供的一种交通拥堵时间预测装置的结构示意图；
34.图6是根据本发明实施例五提供的一种行驶参量预测装置的结构示意图；
35.图7示出了可以用来实施本发明的实施例的电子设备的结构示意图。
具体实施方式
36.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
37.需要说明的是，本发明中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
38.可以理解的是，在使用本发明各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围以及使用场景等告知用户并获得用户的授权。
39.交通拥堵时间估计一直是学术界与工业界研究的热点和难点，而交通拥堵是一个动态变化的过程，拥堵时间随着交通状态变化而变化。如何实现对交通拥堵时间动态变化情况下的交通拥堵时间进行准确估计，仍是个亟待解决的问题。近年来，随着高性能计算、大数据和深度学习技术的突飞猛进，强化学习也得到更为广泛的关注和更加快速的发展。尤其是强化学习和深度学习相结合而发展起来的深度强化学习技术，已取得突破性进展，并在多个领域表现出了强大学习和决策能力。因此，不少学者研究将深度强化学习相关方法引入到交通状态变化与控制研究过程中，并取得了长足的进展。目前存在的问题是基于深度强化学习相关的模型对交通拥堵时间进行估计，是一个静态的过程。实现对交通拥堵时间进行动态估计，需要模型对交通状态的变化情况做出及时反应。
40.本发明提供的一种交通拥堵时间预测方法、装置、电子设备及存储介质，以深度强化学习为基础框架，并针对现有深度强化学习算法无法准确估计动态变化的拥堵时间的问题，在交通拥堵时间预测模型训练时利用当前即时回报信息对现有深度强化学习算法进行改进，提高了交通拥堵时间预测模型训练的可信度，进而提高了交通拥堵时间预测过程对当前环境变化的敏感度。
41.通过本发明所提供的交通拥堵时间预测方法对交通拥堵时间预测模型进行训练，并将训练后的交通拥堵时间预测模型应用在交通拥堵时间预测过程中，可以在日常的交通状态下(如常发性拥堵)预测交通拥堵时间，而且在出现交通异常状态(如偶发性拥堵)时，也能预测交通拥堵时间。
42.在本发明中，在对交通拥堵时间预测模型进行训练之前，先构建待训练的交通拥堵时间预测模型。在构建待训练的交通拥堵时间预测模型时，包括但不限于学习框架的构建和待训练的交通拥堵时间预测模型的构建。
43.首先构建学习框架，在本发明中不限制构建学习框架的方法，只要能够构建学习框架即可。本发明中的学习框架可以以马尔科夫的强化学习框架为基础，将交通系统看作环境，车辆看作智能体(agent)，agent可以实时获取当前的环境状态信息，并基于当前环境状态信息预测交通拥堵时间。用马尔科夫模型描述交通拥堵时间预测过程的模型，具体包括：
44.(1)状态空间s：可以包括环境状态信息如：时间、所在路段、车道数量、当前车速、已拥堵时间长度、同一路段其他车辆车速、历史经过该路段时间、该路段长度和到拥堵点距
离等共同构成模型的环境状态变量。
45.(2)动作空间a：本发明中的动作空间可以是车速，车速可以是大于或等于0的连续变量，当执行一个动作后，会转移到一个新的状态，如当执行一个动作后，会对应新的环境状态信息。
46.(3)回报函数r：交通拥堵时间预测模型的奖励函数可以设计为对拥堵时间预测的准确率，对拥堵时间预测的准确率可以用评价指标r2表示，评价指标r2越大，表明对拥堵时间预测的准确率越高，回报r
t
的计算公式为：
[0047][0048]
其中，可以是指i时刻通过交通拥堵时间预测模型预测的交通拥堵时间，i可以取i＝1时刻到i＝n时刻的任一时刻；yi可以是指i时刻实际的交通拥堵时间；可以是指i＝1时刻到i＝n时刻所有时刻的实际的交通拥堵时间的平均值。
[0049]
(4)折扣回报率γ：取值空间为[0,1]。
[0050]
其次构建待训练的交通拥堵时间预测模型，本发明构建的待训练的交通拥堵时间预测模型可以以深度确定性策略梯度算法(deep deterministic policy gradient，ddpg)为基础，该算法的输出是精准的确定性动作，可以减少随机性、降低误差。ddpg算法可以由策略网络(即actor网络)和价值网络(即critic网络)组成，其中actor网络(即本发明中的第一网络)输出为确定性动作(即车速)，critic网络(即本发明中的第二网络)可以用于实现对actor输出动作进行评估(即交通拥堵时间)，每个网络可以再细分为现实网络和目标网络(即target网络)。
[0051]
本发明中的actor和critic可以是指两个深度神经网络，分别用μ(s|θ
μ
)和q(s,a|θq)表示，其中，a＝μ(s|θ
μ
)，a表示动作，s表示状态，即q(s,a|θq)可以表示为q(s,μ(s|θ
μ
)|θq)；同时构建actor和critic的target网络，分别用μ'(s|θ
μ
')和q'(s,a'|θq')表示，其中，a'＝μ'(s|θ
μ
'),即q'(s,a'|θq')可以表示为q'(s,μ'(s|θ
μ
')|θq')。θ
μ
和θ
μ
'为actor网络的参数，θq和θq'为critic网络的参数。μ(s|θ
μ
)和μ'(s|θ
μ
')网络的结构可以完全相同，只是参数取值不同。q(s,a|θq)和q'(s,a'|θq')网络的结构可以完全相同，只是参数取值不同。
[0052]
本发明中的actor和critic两个深度神经网络均可以包含1个输入层(inputlayer)、3个lstm层、1个批标准化层(batchnormalization)和两个全连接层(dense)。actor网络的输入层的输入维度可以为30*e(其中30可以是过去30个周期的环境状态信息，如：时间、所在路段、车道数量、当前车速、已拥堵时间长度、同一路段其他车辆车速、历史经过该路段时间、该路段长度和到拥堵点距离等，e可以表示状态空间的维度)；每个lstm层均可以抽取输入的序列数据的特征，并通过修正线性单元(rectified linear unit，relu)激活函数将抽取得到的特征做非线性化处理；最后一个lstm层的输出经batchnormalization层对数据做标准化处理后再输入全连接层，其中，进行标准化处理的意义可以是将数据转化为均值为0，方差为1的数据；第一个全连接层也采用relu激活函数，将输入第一个全连接层的数据再做一次特征变换，以便与输出层连接；第二个全连接层为
输出层，输出可以为大于或等于0的连续值，不需要激活函数。
[0053]
图1是实现本发明的critic网络的结构示意图，如图1所示，critic网络的输入层的输入维度是30*(e+1)，其中30为过去30个周期的环境状态信息，(e+1)可以包含e个状态空间的维度和1个actor网络的输出，actor网络的输出为大于或等于0的连续值，经扩展为30*1的张量后与状态张量拼接得到30*(e+1)的张量再输入到critic网络中。其中critic网络的3个lstm层、1个批batchnormalization层和两个全连接层的作用与actor网络中的作用相同，第二个全连接层为输出层，可以输出下一环境状态信息的下一估计值。
[0054]
需要说明的是，本发明中的深度神经网络不限于上述结构的深度神经网络，其他能够实现相同功能的深度神经网络结构也可以，在本发明中对此不作限定。
[0055]
需要说明的是，本发明构建的待训练的交通拥堵时间预测模型还可以以其他的强化学习算法为基础，如动作评价(actor-critic，ac)、优势动作评价(advantage actor-critic，a2c)、置信域策略优化(trust region policy optimization，trpo)、近端策略优化(proximal policy optimization，ppo)等单智能体强化学习算法，改进后的算法同样适用于指导交通拥堵时间预测过程。
[0056]
实施例一
[0057]
图2是根据本发明实施例一提供的一种交通拥堵时间预测方法的流程图，本实施例可适用于对交通拥堵时间预测模型进行训练的情况，该方法可以由交通拥堵时间预测装置来执行，该交通拥堵时间预测装置可以采用软件和/或硬件的形式实现，并集成在电子设备中。进一步的，电子设备包括但不限定于：计算机、笔记本电脑、智能手机、服务器等。如图1所示，该方法包括：
[0058]
s110、获取当前环境状态信息。
[0059]
当前环境状态信息可以是指当前时刻用于训练交通拥堵时间预测模型的环境状态信息。环境状态信息可以是指表征环境中的状态的信息。通过当前环境状态信息可以反映车辆当前所处环境的状态，其中，状态可以是对车辆当前所处环境的一种描述。对当前环境状态信息不作限定，只要能够反映车辆当前所处环境的状态即可，具体可以根据实际车辆所处环境来确定当前环境状态信息。
[0060]
在一个实施例中，车辆当前处在拥堵路段，对应的当前环境状态信息可以包括但不限于：时间、所在路段、车道数量、当前车速、已拥堵时间长度、同一路段其他车辆车速、历史经过该路段时间、该路段长度和到拥堵点距离等。
[0061]
当前环境状态信息的获取方式不作限定，只要能够获取当前环境状态信息即可。如，可以通过车载摄像头或传感器等设备监测当前车辆所处环境的变化，并将车载摄像头或传感器等设备监测到的数据上传至电子设备，进而能够获取当前环境状态信息，其中，车载摄像头或传感器等设备可以是根据实际需要选择的摄像头或者传感器；又如，可以是由电子设备通过电子设备的人机交互装置获取当前环境状态信息，其中人机交互装置可以为交互者(即驾驶员)进行人机交互的装置。人机交互装置包括但不限于触摸屏、输入部件(如键盘和按键等)。人机交互装置上可以显示有输入当前环境状态信息的界面，可以在输入当前环境状态信息的界面输入当前环境状态信息，如可以输入时间、所在路段、车道数量或当前车速等。
[0062]
s120、确定当前环境状态信息所对应的当前即时回报信息。
[0063]
当前即时回报信息可以是指表征当前时刻的即时回报的信息。当前即时回报信息可以包括但不限于当前时刻的回报r
t
，其中，当前时刻的回报r
t
可以是通过奖励函数计算的奖励的折扣累加，奖励函数可以是根据实际需要设定的函数，如可以将奖励函数设定为对拥堵时间预测的准确率，对拥堵时间预测的准确率可以用评价指标r2表示，评价指标r2越大，表明对拥堵时间预测的准确率越高。其中，当前时刻的回报r
t
的计算公式为：
[0064][0065]
当前环境状态信息所对应的当前即时回报信息的确定方式不作限定，只要能够确定当前环境状态信息所对应的当前即时回报信息即可。如，可以通过将当前环境状态信息输入待训练的交通拥堵时间预测模型，来确定当前环境状态信息所对应的当前即时回报信息，即可以在当前环境状态信息下，根据待训练的交通拥堵时间预测模型中的第一网络计算出当前动作信息，并执行当前动作信息进而得到当前时刻的回报r
t
，进而可以确定当前环境状态信息所对应的当前即时回报信息。其中，当前动作信息可以是指表征当前时刻的动作的信息，如当前时刻的车速。
[0066]
s130、基于当前环境状态信息和当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，训练后的交通拥堵时间预测模型用于预测交通拥堵时间。
[0067]
基于当前环境状态信息和当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型的具体方式不作限定，只要能够得到训练后的交通拥堵时间预测模型即可。如，在每一轮次的训练过程中，均可以结合设定时长内的每个时刻对交通拥堵时间预测模型进行训练。其中，设定时长内的每个时刻可以是包括当前环境状态信息所对应当前时刻和当前时刻前的历史时刻。
[0068]
在每个时刻下均可以计算该时刻所对应的即时回报信息和修正系数，并根据该时刻所对应的即时回报信息和修正系数，结合下一环境状态信息的下一估计值，确定每个时刻下的状态估计值；将每个时刻下的状态估计值取加权平均，即可确定下一环境状态信息的目标估计值；基于目标估计值对网络参数进行更新，以便于下个轮次训练时可以运用更新后的网络参数；以上步骤可以是针对一个训练轮次的训练过程，完成一次训练后可以返回获取当前环境状态信息的操作继续进行多个轮次的训练，直至满足结束条件，即可得到训练后的交通拥堵时间预测模型。训练后的交通拥堵时间预测模型可以用于预测交通拥堵时间，例如通过训练后的交通拥堵时间预测模型的输出，可以预测交通拥堵时间。
[0069]
其中，下一环境状态信息可以是指表征下一时刻环境中的状态的信息，下一估计值可以是指基于下一环境状态信息确定的估计值。下一估计值可以是通过第二网络计算得到的下一时刻的估计值；目标估计值可以是指基于当前环境状态信息对应的当前时刻，和当前时刻之前的多个历史时刻的多个状态估计值确定的估计值。结束条件可以是指使模型训练过程结束的条件。
[0070]
本发明实施例的技术方案，通过当前环境状态信息确定当前环境状态信息所对应的当前即时回报信息，并结合当前环境状态信息和当前即时回报信息对待训练的交通拥堵
时间预测模型进行训练，在对待训练的交通拥堵时间预测模型进行训练的过程中考虑到了当前即时回报信息，使训练过程更加合理，提高了交通拥堵时间预测模型训练的可信度，进而提高了交通拥堵时间预测过程对当前环境变化的敏感度。
[0071]
实施例二
[0072]
图3是根据本发明实施例二提供的一种交通拥堵时间预测方法的流程图，本实施例是在上述实施例一的基础上，对确定当前环境状态信息所对应的当前即时回报信息，和基于当前环境状态信息和当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型的进一步细化。
[0073]
在本发明实施例中，确定当前环境状态信息所对应的当前即时回报信息，包括：将当前环境状态信息输入待训练的交通拥堵时间预测模型所包括的第一网络，确定当前动作信息；执行当前动作信息，得到当前环境状态信息所对应的当前即时回报信息。
[0074]
在本发明实施例中，基于当前环境状态信息和当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，包括：基于当前环境状态信息和当前即时回报信息，确定当前修正系数；基于当前修正系数、当前即时回报信息、历史信息、所需的第一目标参数和下一估计值，确定设定时长内每个时刻的状态估计值，设定时长内的时刻包括当前环境状态信息所对应当前时刻和当前时刻前的历史时刻，历史信息包括历史时刻对应的即时回报信息和历史时刻所对应的修正系数；基于各状态估计值的加权平均值，确定下一环境状态信息的目标估计值；基于目标估计值和所需的第二目标参数，确定网络参数，并返回获取当前环境状态信息的操作继续训练待训练的交通拥堵时间预测模型，直至满足结束条件，得到训练后的交通拥堵时间预测模型。
[0075]
如图3所示，该方法包括：
[0076]
s110、获取当前环境状态信息。
[0077]
s121、将当前环境状态信息输入待训练的交通拥堵时间预测模型所包括的第一网络，确定当前动作信息。
[0078]
其中，当前动作信息可以是指表征当前时刻的动作的信息，如当前时刻的车速。待训练的交通拥堵时间预测模型所包括的第一网络可以是本发明中构建待训练的交通拥堵时间预测模型时所提及的actor网络，actor网络的输出为确定性动作，通过将当前环境状态信息输入待训练的交通拥堵时间预测模型所包括的第一网络，可以确定当前动作信息，其计算公式为：
[0079]at
＝μ(s
t
|θ
μ
)+ω
t
[0080]
其中，a
t
为当前动作信息；θ
μ
为第一网络的参数；s
t
表示当前环境状态信息；ω
t
可以是表示均值为0，方差为1的误差矩阵。
[0081]
s122、执行当前动作信息，得到当前环境状态信息所对应的当前即时回报信息。
[0082]
执行当前动作信息的方式不作限定，只要能够执行当前动作信息即可。如，可以由电子设备通过电子设备中的编程软件执行当前动作信息，编程软件可以是根据实际需要选择的软件，只要能够使软件执行当前动作信息即可。
[0083]
执行当前动作信息，得到当前环境状态信息所对应的当前即时回报信息，可以理解为，可以在当前环境状态信息s
t
下，通过电子设备与当前环境状态信息进行交互，获取当前即时回报信息r
t
。
[0084]
s131、基于当前环境状态信息和当前即时回报信息，确定当前修正系数。
[0085]
其中，当前修正系数可以是指当前时刻对应的修正系数，当前修正系数可以用于修正下一时刻的下一估计值，使得下一时刻的下一估计值更加准确，具有更好的时效性，在发生偶发性拥堵的情况下能做出更加及时的反应。
[0086]
基于当前环境状态信息和当前即时回报信息，确定当前修正系数的方式不作限定，只要能够基于当前环境状态信息和当前即时回报信息确定当前修正系数即可。如，可以是在当前环境状态信息下执行当前动作信息，得到下一环境状态信息，再利用待训练的交通拥堵时间预测模型所包括的第二网络计算当前环境状态信息的当前估计值和下一环境状态信息的下一估计值，结合当前估计值、下一估计值和当前即时回报信息，确定当前修正系数。其中，待训练的交通拥堵时间预测模型所包括的第二网络可以是指本发明中所提及的critic网络。当前估计值可以是指通过第二网络计算得到的当前时刻的估计值。下一估计值可以是针对当前估计值而言的，下一估计值可以是当前时刻所对应的下一时刻的估计值。
[0087]
进一步的，基于当前环境状态信息和当前即时回报信息，确定当前修正系数，包括：
[0088]
执行待训练的交通拥堵时间预测模型所包括的第一网络确定的当前动作信息，得到下一环境状态信息；
[0089]
将当前环境状态信息和当前动作信息输入待训练的交通拥堵时间预测模型所包括的第二网络，得到当前环境状态信息的当前估计值；
[0090]
将下一环境状态信息和下一环境状态信息对应的下一动作信息输入待训练的交通拥堵时间预测模型所包括的第二网络，得到下一环境状态信息的下一估计值；
[0091]
基于当前估计值、下一估计值和当前即时回报信息，确定修正系数中的当前修正系数。
[0092]
其中，执行待训练的交通拥堵时间预测模型所包括的第一网络确定的当前动作信息，得到下一环境状态信息，可以理解为，在当前环境状态信息s
t
下，通过电子设备与当前环境状态信息进行交互，执行当前动作信息a
t
，获取下一环境状态信息s
t+1
。
[0093]
将当前环境状态信息和当前动作信息输入待训练的交通拥堵时间预测模型所包括的第二网络，得到当前环境状态信息的当前估计值，可以理解为，可以将当前环境状态信息s
t
和当前动作信息a
t
作为第二网络的输入参数，并通过第二网络计算得到当前环境状态信息的当前估计值q'(s
t
,μ'(s
t
|θ
μ
')|θq')。
[0094]
将下一环境状态信息和下一环境状态信息对应的下一动作信息输入待训练的交通拥堵时间预测模型所包括的第二网络，得到下一环境状态信息的下一估计值，可以理解为，可以将下一环境状态信息s
t+1
和下一动作信息a
t+1
作为第二网络的输入参数，并通过第二网络计算得到下一环境状态信息的下一估计值q'(s
t+1
,μ'(s
t+1
|θ
μ
')|θq')。
[0095]
基于当前估计值、下一估计值和当前即时回报信息，确定修正系数中的当前修正系数的方式不作限定，只要能够基于当前估计值、下一估计值和当前即时回报信息确定修正系数中的当前修正系数即可。如，可以基于当前估计值、下一估计值和当前即时回报信息，通过数学运算来确定修正系数中的当前修正系数。
[0096]
基于当前估计值、下一估计值和当前即时回报信息，确定修正系数中的当前修正
系数，可以理解为，不同时刻对应有不同的修正系数，通过当前估计值、下一估计值和当前即时回报信息可以确定当前时刻对应的当前修正系数β
t
。
[0097]
基于当前环境状态信息和当前即时回报信息，确定当前修正系数，可以便于在后续通过当前修正系数对下一时刻的下一估计值进行修正，使下一时刻的下一估计值更加准确。
[0098]
在一个实施例中，可以通过第二网络中的现实网络计算q(s
t
,a|θq)和q(s
t+1
,a|θq)，其中，q(s
t
,a|θq)可以表示当前时刻对应的当前状态值，即当前时刻的状态的值，q(s
t+1
,a|θq)可以表示当前时刻的下一时刻对应的下一状态值，即下一时刻的状态的值；可以通过第二网络中的target网络计算q'(s
t
,μ'(s
t
|θ
μ
')|θq')和q'(s
t+1
,μ'(s
t+1
|θ
μ
')|θq')。
[0099]
进一步的，基于当前估计值、下一估计值和当前即时回报信息，确定修正系数中的当前修正系数，包括：
[0100]
确定当前估计值和下一估计值的差值；
[0101]
将当前即时回报信息与差值的比值确定为修正系数中的当前修正系数。
[0102]
确定当前估计值和下一估计值的差值，即当前估计值和下一估计值的差值为q'(s
t
,μ'(s
t
|θ
μ
')|θq')-q'(s
t+1
,μ'(s
t+1
|θ
μ
')|θq')；
[0103]
将当前即时回报信息r
t
与差值的比值确定为修正系数中的当前修正系数，即当前修正系数β
t
的计算公式为：
[0104]
β
t
＝r
t
/(q'(s
t
,μ'(s
t
|θ
μ
')|θq')-q'(s
t+1
,μ'(s
t+1
|θ
μ
')|θq'))
[0105]
在一个实施例中，可以将(s
t
,a
t
,r
t
,s
t+1
,β
t
)保存至经验缓存器buffer中，其中，经验缓存器buffer可以用于存放交通拥堵时间预测模型训练过程中每个时刻对应的(s
t
,a
t
,r
t
,s
t+1
,β
t
)数据，进而可以在后续训练中可以调用经验缓存器buffer中所保存的数据对交通拥堵时间预测模型进行训练。对经验缓存器buffer的长度不作限定，可以是根据实际需要设定的长度。当经验缓存器buffer的长度超过设定长度阈值k时，则去掉最先保存在经验缓存器buffer中的数据，以便于继续将数据存储在经验缓存器buffer中，其中，设定长度阈值k可以是根据实际需要设定的长度。
[0106]
s132、基于当前修正系数、当前即时回报信息、历史信息、所需的第一目标参数和下一估计值，确定设定时长内每个时刻的状态估计值。
[0107]
设定时长内的时刻包括当前环境状态信息所对应当前时刻和当前时刻前的历史时刻，历史信息包括历史时刻对应的即时回报信息和历史时刻所对应的修正系数。
[0108]
其中，对设定时长不作限定，设定时长可以是根据实际需要设定的时长，只要设定时长内的时刻能够包括当前环境状态信息所对应当前时刻和当前时刻前的历史时刻即可。历史时刻是相对当前环境状态信息所对应当前时刻而言的，历史时刻可以是当前时刻之前的时刻的统称。历史信息包括历史时刻对应的即时回报信息和历史时刻所对应的修正系数，可以理解为，在历史时刻内，历史时刻对应的每个时刻都有相应的即时回报信息和修正系数，历史信息即为历史时刻内对应的每个时刻的即时回报信息和修正系数的全部信息。
[0109]
进一步的，基于当前修正系数、当前即时回报信息、历史信息、所需的第一目标参数和下一估计值，确定设定时长内每个时刻的状态估计值，包括：
[0110]
针对设定时长内每个时刻，基于时刻所对应的修正系数、时刻所对应即时回报信息、所需的第一目标参数和下一估计值，确定时刻的状态估计值。
[0111]
设定时长内每个时刻可以是t-n到t时刻中的每个时刻，其中，t时刻对应的时刻为当前时刻，t时刻之前的t-1到t-n时刻即为历史时刻，t-n的值可以根据实际需要设定，本发明对此不作限定。
[0112]
针对设定时长内每个时刻，基于时刻所对应的修正系数、时刻所对应即时回报信息、所需的第一目标参数和下一估计值，确定时刻的状态估计值，具体可以表示为：
[0113][0114][0115]
……
[0116][0117]
上述公式中，g
t-n
到g
t
分别表示由t-n时刻到t时刻对应的每个时刻的状态估计值；β
t-n
到β
t
分别表示由t-n时刻到t时刻对应的每个时刻的修正系数；r
t-n
到r
t
分别表示由t-n时刻到t时刻对应的每个时刻的即时回报信息；q'(s
t+1
,μ'(s
t+1
|θ
μ
')|θq')表示下一估计值；所需的第一目标参数可以包括γ，γ可以是指折扣回报率，取值空间为[0,1]，具体的取值可以根据实际需要设定。
[0118]
针对设定时长内每个时刻，基于时刻所对应的修正系数、时刻所对应即时回报信息、所需的第一目标参数和下一估计值，确定时刻的状态估计值，便于通过设定时长内的多个时刻确定下一环境状态信息的目标估计值。
[0119]
s133、基于各状态估计值的加权平均值，确定下一环境状态信息的目标估计值。
[0120]
基于各状态估计值的加权平均值，确定下一环境状态信息的目标估计值，目标估计值的计算公式为：
[0121][0122]
其中，q'
new
(s
t+1
,μ'(s
t+1
|θ
μ
')|θq'))表示下一环境状态信息的目标估计值；gi可以是指i时刻的状态估计值，i可以取t-n时刻到t时刻的任一时刻；可以是指修正权重。
[0123]
基于各状态估计值的加权平均值，确定下一环境状态信息的目标估计值，可以在确定目标估计值时结合多个时刻的状态估计值，使目标估计值更加准确。
[0124]
在一个实施例中，在基于各状态估计值的加权平均值确定下一环境状态信息的目标估计值之后，还可以计算当前目标值y
t
，当前目标值y
t
可以是指根据目标估计值、当前即时回报信息和折扣回报率确定的当前时刻的目标值，可以用于结合当前时刻对应的当前状态值q(s
t
,a|θq)对网络参数进行更新。当前目标值y
t
(即td目标值)的计算公式为：
[0125]yt
＝r
t
+γ
×
q'
new
(s
t+1
,μ'(s
t+1
|θ
μ
')|θq'))
[0126]
s134、基于目标估计值和所需的第二目标参数，确定网络参数，并返回获取当前环境状态信息的操作继续训练待训练的交通拥堵时间预测模型，直至满足结束条件，得到训练后的交通拥堵时间预测模型。
[0127]
其中，网络参数可以是指第一网络和第二网络的参数的集合。所需的第二目标参数可以是指在确定网络参数时所需要的参数，如第一网络μ(s|θ
μ
)的学习率α
μ
、第二网络q(s,a|θq)的学习率αq或target网络的更新系数τ等参数。
[0128]
确定网络参数可以通过以下步骤实现：
[0129]
(1)更新第二网络参数：
[0130][0131][0132]
其中，q(si,ai|θq)为i时刻的状态值，yi为i时刻的目标值，n为该轮次训练集中的样本数量；δ
t
为当前轮次中n个样本的td目标值的均值；αq为第二网络q(s,a|θq)的学习率；q(s
t
,a
t
|θq)为当前状态值。
[0133]
(2)更新第一网络参数：
[0134][0135][0136]
其中，α
μ
为第一网络μ(s|θ
μ
)的学习率。
[0137]
(3)更新target网络参数：
[0138]
θq'＝τθq+(1-τ)θq'
[0139]
θ
μ
'＝τθ
μ
+(1-τ)θ
μ
'
[0140]
其中，τ为target网络的更新系数。
[0141]
基于目标估计值和所需的第二目标参数，确定网络参数，可以便于后续训练中可以利用基于目标估计值和所需的第二目标参数确定的网络参数对交通拥堵时间预测模型进行训练。
[0142]
返回获取当前环境状态信息的操作继续训练待训练的交通拥堵时间预测模型，直至满足结束条件，得到训练后的交通拥堵时间预测模型，其中，结束条件可以是指使模型训练过程结束的条件，对结束条件不作限定，如可以是训练轮次m达到设定训练轮次阈值，其中，对设定训练轮次阈值不作限定，具体可以根据实际应用场景设定。
[0143]
在一个实施例中，在对待训练的交通拥堵时间预测模型进行训练之前，还包括随机初始化μ(s|θ
μ
)、μ'(s|θ
μ
')、q(s,a|θq)和q'(s,a'|θq')网络的参数；同时初始化训练轮次m、每轮迭代步数t、μ(s|θ
μ
)网络的学习率为α
μ
、q(s,a|θq)网络的学习率αq、target网络的更新系数τ、初始化经验缓存器buffer和对应的缓存上限k(即设定长度阈值)，以及初始化修正权重
[0144]
需要说明的是，本发明实施例所涉及到的步骤s110到步骤s134中基于目标估计值和所需的第二目标参数确定网络参数的过程，为针对每一轮次训练过程的每一个迭代步骤，在实际应用中，可以根据实际需要不断循环上述训练过程，直至满足结束条件，得到训练后的交通拥堵时间预测模型。在每次训练时输入待训练的交通拥堵时间预测模型的当前环境状态信息可以根据实际应用需要获取，如可以是每次输入不同的当前环境状态信息，
也可以是输入相同的当前环境状态信息。
[0145]
本发明实施例的技术方案，在每个训练轮次内，均通过将当前环境状态信息对应的当前时刻，和当前时刻之前的多个历史时刻的多个状态估计值进行加权平均，进而确定下一环境状态信息的目标估计值，使目标估计值更加准确，同时可以通过多次操作训练待训练的交通拥堵时间预测模型，使最终得到的训练后的交通拥堵时间预测模型更加贴合实际需求，提高了交通拥堵时间预测模型训练的可信度。
[0146]
本发明实施例的技术方案，在步骤s131中确定当前修正系数的方法，能够更加合理估计下一估计值，指导交通拥堵时间预测模型在急速变化的环境中做出合理的决策；步骤s132能够根据多阶段的回报值来优化下一环境状态信息的目标估计值，使得交通拥堵时间预测模型更加稳定，提升交通拥堵时间预测模型的鲁棒性；步骤s133考虑了不同时刻的状态估计值的权重不同，使得时间越远的状态估计值的权重越小，时间越近的状态估计值权重越大，使得下一环境状态信息的目标估计值更加合理。经上述多步的改进优化过程，能够帮助交通拥堵时间预测模型合理估计目标估计值，从而指导模型输出合理的交通拥堵时间(即处理策略)，提高交通拥堵时间预测模型在交通拥堵时间预测过程中的稳定性和可靠性。
[0147]
实施例三
[0148]
图4是根据本发明实施例三提供的一种行驶参量预测方法的流程图，本实施例可适用于对训练后的交通拥堵时间预测模型进行实际应用的情况，该方法可以由行驶参量预测装置来执行，该行驶参量预测装置可以采用软件和/或硬件的形式实现，并集成在电子设备中。进一步的，电子设备包括但不限定于：计算机、笔记本电脑、智能手机、服务器等。该电子设备可以与本发明实施例一中提及的电子设备为同一个电子设备，也可以是不同的电子设备。
[0149]
如图4所示，该方法包括：
[0150]
s210、将环境状态信息输入训练后的交通拥堵时间预测模型，得到动作信息和所预测的交通拥堵时间，交通拥堵时间预测模型为基于交通拥堵时间预测方法训练得到。
[0151]
训练后的交通拥堵时间预测模型可以是指，通过本发明中的交通拥堵时间预测方法训练得到的交通拥堵时间预测模型。
[0152]
将环境状态信息输入训练后的交通拥堵时间预测模型，得到动作信息和所预测的交通拥堵时间的方式不作限定，只要能够得到动作信息和所预测的交通拥堵时间即可。如，可以是电子设备通过电子设备的人机交互装置，将环境状态信息输入训练后的交通拥堵时间预测模型所包括的actor网络(即本发明中的第一网络)，得到动作信息，其中，人机交互装置中可以显示有可以输入环境状态信息的界面；再将actor网络输出的动作信息，扩展为30*1的张量后与状态张量拼接得到30*(e+1)的张量，再输入到critic网络(即本发明中的第二网络)中，得到所预测的交通拥堵时间。
[0153]
s220、基于动作信息确定处理策略。
[0154]
处理策略可以是指基于动作信息判断操作手段的策略，其中，操作手段可以是改变车速。
[0155]
基于动作信息确定处理策略的方式不作限定，只要能够基于动作信息确定处理策略即可。如，可以通过动作信息与agent自身的特征信息进行比较，进而确定处理策略，其
中，agent自身的特征信息可以是车辆当前的车速，若动作信息所指示的车速大于车辆当前的车速，则可以通过电子设备控制车辆提高车速。
[0156]
其中，行驶参量包括动作信息、交通拥堵时间和处理策略。
[0157]
本发明实施例的技术方案，通过训练后的交通拥堵时间预测模型，结合环境状态信息计算出动作信息和交通拥堵时间，并基于动作信息确定处理策略，可以在实际应用中使用训练后的交通拥堵时间预测模型选择更加合适的处理策略。
[0158]
实施例四
[0159]
图5是根据本发明实施例四提供的一种交通拥堵时间预测装置的结构示意图，本实施例可适用于对交通拥堵时间预测模型进行训练的情况。如图5所示，该装置的具体结构包括：
[0160]
获取模块21，用于获取当前环境状态信息；
[0161]
第一确定模块22，用于确定当前环境状态信息所对应的当前即时回报信息；
[0162]
训练模块23，用于基于当前环境状态信息和当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，训练后的交通拥堵时间预测模型用于预测交通拥堵时间。
[0163]
本实施例提供的交通拥堵时间预测装置，首先通过获取模块获取当前环境状态信息；然后通过第一确定模块确定当前环境状态信息所对应的当前即时回报信息；最后通过训练模块基于当前环境状态信息和当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，训练后的交通拥堵时间预测模型用于预测交通拥堵时间。
[0164]
进一步的，第一确定模块22具体用于：
[0165]
将当前环境状态信息输入待训练的交通拥堵时间预测模型所包括的第一网络，确定当前动作信息；
[0166]
执行当前动作信息，得到当前环境状态信息所对应的当前即时回报信息。
[0167]
进一步的，训练模块23具体用于：
[0168]
基于当前环境状态信息和当前即时回报信息，确定当前修正系数；
[0169]
基于当前修正系数、当前即时回报信息、历史信息、所需的第一目标参数和下一估计值，确定设定时长内每个时刻的状态估计值，设定时长内的时刻包括当前环境状态信息所对应当前时刻和当前时刻前的历史时刻，历史信息包括历史时刻对应的即时回报信息和历史时刻所对应的修正系数；
[0170]
基于各状态估计值的加权平均值，确定下一环境状态信息的目标估计值；
[0171]
基于目标估计值和所需的第二目标参数，确定网络参数，并返回获取当前环境状态信息的操作继续训练待训练的交通拥堵时间预测模型，直至满足结束条件，得到训练后的交通拥堵时间预测模型。
[0172]
进一步的，训练模块23具体用于：
[0173]
执行待训练的交通拥堵时间预测模型所包括的第一网络确定的当前动作信息，得到下一环境状态信息；
[0174]
将当前环境状态信息和当前动作信息输入待训练的交通拥堵时间预测模型所包括的第二网络，得到当前环境状态信息的当前估计值；
[0175]
将下一环境状态信息和下一环境状态信息对应的下一动作信息输入待训练的交通拥堵时间预测模型所包括的第二网络，得到下一环境状态信息的下一估计值；
[0176]
基于当前估计值、下一估计值和当前即时回报信息，确定修正系数中的当前修正系数。
[0177]
进一步的，训练模块23具体用于：
[0178]
确定当前估计值和下一估计值的差值；
[0179]
将当前即时回报信息与差值的比值确定为修正系数中的当前修正系数。
[0180]
进一步的，训练模块23具体用于：
[0181]
针对设定时长内每个时刻，基于时刻所对应的修正系数、时刻所对应即时回报信息、所需的第一目标参数和下一估计值，确定时刻的状态估计值。
[0182]
本发明实施例所提供的交通拥堵时间预测装置可执行本发明实施例一或实施例二任一所提供的交通拥堵时间预测方法，具备执行方法相应的功能模块和有益效果。
[0183]
实施例五
[0184]
图6是根据本发明实施例五提供的一种行驶参量预测装置的结构示意图，本实施例可适用于对训练后的交通拥堵时间预测模型进行实际应用的情况。
[0185]
如图6所示，该装置的具体结构包括：
[0186]
输入模块31，用于将环境状态信息输入训练后的交通拥堵时间预测模型，得到动作信息和所预测的交通拥堵时间，交通拥堵时间预测模型基于交通拥堵时间预测方法训练得到；
[0187]
第二确定模块32，用于基于动作信息确定处理策略；
[0188]
其中，行驶参量包括动作信息、交通拥堵时间和处理策略。
[0189]
本实施例提供的行驶参量预测装置，首先通过输入模块将环境状态信息输入训练后的交通拥堵时间预测模型，得到动作信息和所预测的交通拥堵时间，交通拥堵时间预测模型基于交通拥堵时间预测方法训练得到；然后通过第二确定模块基于动作信息确定处理策略；其中，行驶参量包括动作信息、交通拥堵时间和处理策略。
[0190]
本发明实施例所提供的行驶参量预测装置可执行本发明实施例三所提供的行驶参量预测方法，具备执行方法相应的功能模块和有益效果。
[0191]
实施例六
[0192]
图7示出了可以用来实施本发明的实施例的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0193]
如图7所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(rom)12、随机访问存储器(ram)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序，来执行各种适当的动作和处理。在ram 13中，还可存储电子设备10操作所需的各种程序和数据。处理器
11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0194]
电子设备10中的多个部件连接至i/o接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0195]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如交通拥堵时间预测方法或行驶参量预测方法。
[0196]
在一些实施例中，交通拥堵时间预测方法或行驶参量预测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时，可以执行上文描述的交通拥堵时间预测方法或行驶参量预测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行交通拥堵时间预测方法或行驶参量预测方法。
[0197]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0198]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0199]
在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0200]
为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子
设备具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0201]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、区块链网络和互联网。
[0202]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务中，存在的管理难度大，业务扩展性弱的缺陷。
[0203]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。
[0204]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

技术特征：
1.一种交通拥堵时间预测方法，其特征在于，包括：获取当前环境状态信息；确定所述当前环境状态信息所对应的当前即时回报信息；基于所述当前环境状态信息和所述当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，所述训练后的交通拥堵时间预测模型用于预测交通拥堵时间。2.根据权利要求1所述的方法，其特征在于，所述确定所述当前环境状态信息所对应的当前即时回报信息，包括：将所述当前环境状态信息输入所述待训练的交通拥堵时间预测模型所包括的第一网络，确定当前动作信息；执行所述当前动作信息，得到所述当前环境状态信息所对应的当前即时回报信息。3.根据权利要求1所述的方法，其特征在于，所述基于所述当前环境状态信息和所述当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，包括：基于所述当前环境状态信息和所述当前即时回报信息，确定当前修正系数；基于所述当前修正系数、所述当前即时回报信息、历史信息、所需的第一目标参数和下一估计值，确定设定时长内每个时刻的状态估计值，所述设定时长内的时刻包括所述当前环境状态信息所对应当前时刻和所述当前时刻前的历史时刻，所述历史信息包括所述历史时刻对应的即时回报信息和所述历史时刻所对应的修正系数；基于各所述状态估计值的加权平均值，确定下一环境状态信息的目标估计值；基于所述目标估计值和所需的第二目标参数，确定网络参数，并返回获取当前环境状态信息的操作继续训练所述待训练的交通拥堵时间预测模型，直至满足结束条件，得到训练后的交通拥堵时间预测模型。4.根据权利要求3所述的方法，其特征在于，所述基于所述当前环境状态信息和所述当前即时回报信息，确定当前修正系数，包括：执行所述待训练的交通拥堵时间预测模型所包括的第一网络确定的当前动作信息，得到下一环境状态信息；将所述当前环境状态信息和所述当前动作信息输入所述待训练的交通拥堵时间预测模型所包括的第二网络，得到所述当前环境状态信息的当前估计值；将所述下一环境状态信息和所述下一环境状态信息对应的下一动作信息输入所述待训练的交通拥堵时间预测模型所包括的第二网络，得到所述下一环境状态信息的下一估计值；基于所述当前估计值、所述下一估计值和所述当前即时回报信息，确定修正系数中的当前修正系数。5.根据权利要求4所述的方法，其特征在于，所述基于所述当前估计值、所述下一估计值和所述当前即时回报信息，确定修正系数中的当前修正系数，包括：确定所述当前估计值和所述下一估计值的差值；将所述当前即时回报信息与所述差值的比值确定为所述修正系数中的当前修正系数。6.根据权利要求3所述的方法，其特征在于，所述基于所述当前修正系数、所述当前即
时回报信息、历史信息、所需的第一目标参数和下一估计值，确定设定时长内每个时刻的状态估计值，包括：针对设定时长内每个时刻，基于所述时刻所对应的修正系数、所述时刻所对应即时回报信息、所需的第一目标参数和下一估计值，确定所述时刻的状态估计值。7.一种行驶参量预测方法，其特征在于，包括：将环境状态信息输入训练后的交通拥堵时间预测模型，得到动作信息和所预测的交通拥堵时间，所述交通拥堵时间预测模型基于权利要求1-6任一所述的方法训练得到；基于所述动作信息确定处理策略；其中，所述行驶参量包括所述动作信息、所述交通拥堵时间和所述处理策略。8.一种交通拥堵时间预测装置，其特征在于，包括：获取模块，用于获取当前环境状态信息；第一确定模块，用于确定所述当前环境状态信息所对应的当前即时回报信息；训练模块，用于基于所述当前环境状态信息和所述当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，所述训练后的交通拥堵时间预测模型用于预测交通拥堵时间。9.一种行驶参量预测装置，其特征在于，包括：输入模块，用于将环境状态信息输入训练后的交通拥堵时间预测模型，得到动作信息和所预测的交通拥堵时间，所述交通拥堵时间预测模型基于权利要求1-6任一所述的方法训练得到；第二确定模块，用于基于所述动作信息确定处理策略；其中，所述行驶参量包括所述动作信息、所述交通拥堵时间和所述处理策略。10.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6中任一所述的方法，或执行如权利要求7所述的方法。11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法，或实现如权利要求7所述的方法。

技术总结
本发明公开了一种交通拥堵时间预测方法、装置、电子设备及存储介质。所述交通拥堵时间预测方法，包括：获取当前环境状态信息；确定所述当前环境状态信息所对应的当前即时回报信息；基于所述当前环境状态信息和所述当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，得到训练后的交通拥堵时间预测模型，所述训练后的交通拥堵时间预测模型用于预测交通拥堵时间。上述技术方案通过当前环境状态信息确定当前环境状态信息所对应的当前即时回报信息，并结合当前环境状态信息和当前即时回报信息对待训练的交通拥堵时间预测模型进行训练，提高了交通拥堵时间预测模型训练的可信度，进而提高了交通拥堵时间预测过程对当前环境变化的敏感度。环境变化的敏感度。环境变化的敏感度。

技术研发人员：崔德冠杨洪山
受保护的技术使用者：南京星环智能科技有限公司
技术研发日：2022.12.29
技术公布日：2023/6/26

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种基于NB-IOT井盖防丢报警系统 下一篇：一种手持烟雾发生器的制作方法

一种交通拥堵时间预测方法、装置、电子设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种交通拥堵时间预测方法、装置、电子设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表