知识和数据融合驱动的云控式网联车辆协同巡航控制方法
未命名
10-18
阅读:85
评论:0
1.本发明属于汽车智能安全与自动驾驶领域,特别是涉及到一种知识和数据融合驱动的云控式网联车辆协同式巡航控制方法。
背景技术:
2.近年来,随着道路车辆的持续增长,交通拥堵现象日益严重,其中还存在严峻的能源消耗问题。同时,车辆数量的增多也提高发生交通事故的风险,对生命财产造成威胁。由于驾驶员反应不及时、处置不当而造成的交通事故频发,而云控式网联车辆协同式巡航控制在提供舒适的乘客舒适度后,也有助于减少交通事故,同时车辆协同式巡航控制可以在保证车辆安全行驶的前提下减小车辆间的距离,提高道路车辆的通行效率,降低车辆的能源消耗,有效缓解上述难题。
3.网联车辆协同式巡航控制是指网联车辆根据其他车辆行驶信息来自动调整纵向运动状态,进而确保系统具有期望的车队队形和一致的行驶速度。文献1(jiang l,xie y,evans n g,et al.reinforcement learning based cooperative longitudinal control for reducing traffic oscillations and improving platoon stability[j].transportation research part c:emerging technologies,2022,141:103744.)提出一种基于强化学习算法的纵向协同控制方法来抑制交通振荡。文献2(wang z,huang h,tang j,et al.velocity control in car-following behavior with autonomous vehicles using reinforcement learning[j].accident analysis&prevention,2022,174:106729.)提出一种基于强化学习的安全速度控制方法来避免车辆与前后车碰撞,同时跟随前方车辆行驶。
[0004]
随着深度强化学习(deep reinforcement learning,drl)在众多领域的广泛应用,其作为数据驱动的控制形式被应用于车辆协同式巡航控制系统中,具有无需建立复杂动力学模型、实时性高和学习能力强等优点。对于深度强化学习来说,可靠性、学习效率和模型泛化能力是系统的基本要求,当在面对复杂场景时,单纯的数据驱动模型的学习效率低,将会导致控制器的实时性和适用性变差,同时人类驾驶员对车辆控制决策的不完善,在粗糙的路面上经常发生交通事故、严重拥堵和不舒适。
技术实现要素:
[0005]
本发明的目的是针对网络车辆在单一数据驱动和粗糙路面存在的问题,提供一种知识和数据融合驱动的云控式网联车辆协同巡航控制方法。基于知识引导学习策略,针对云控式网联车辆协同式巡航控制系统设计出一种知识和数据融合驱动的控制模型,很好地解决巡航控制系统在单一数据驱动形式下所带来的训练缓慢和性能差的问题,同时基于道路和交通信息学习安全、高效、舒适的跟车行为,实现车辆协同式巡航控制系统的零碰撞、舒适性和续航能力的提高。
[0006]
本发明提出一种基于知识和数据融合驱动的云控式车辆协同式巡航控制策略,在
策略的学习过程中包括两个阶段的训练框架,第一阶段是基于模型预测控制(model predictive control,mpc)来实现多智能体协同控制的模型引导方法,同时加入安全距离来避免碰撞,以产生用于训练策略网络的演示数据,利用模仿学习来预训练策略网络;第二阶段是在模仿学习的基础上利用强化学习来改进策略,根据知识引导学习的思想来设计强化学习模型及其启发式奖励函数,在奖励函数中融合交通道路信息,并在模型中加入防碰撞策略,极大地加速强化模型训练并提高学习效率,训练得到一种基于知识和数据融合驱动的完全分布式控制器,进而实现云控式车辆协同式巡航控制。
[0007]
本发明包括以下步骤:
[0008]
步骤1云控式网联车辆协同式巡航控制系统有n+1辆车,编号为0,
…
,n,其中0号车为领航车辆,1,
…
,n号车为跟随车辆,同时该系统包含着路边单元(roadside unit,rsu)和云平台;各个车辆通过自身装载的车载传感器以及v2x无线通信网络来采集周围车辆信息,路边单元rsu将道路和交通信息上传到云平台,作为历史数据,
[0009]
第一步,通过车载传感器和gps周期性地感知自车的状态信息,主要包括距离信息、速度信息和加速度信息;
[0010]
第二步,自车通过v2x无线通信网络与周围车辆进行信息交互,实时接收相应的行驶运动状态信息,主要包括前方车辆和后方跟随车辆的行驶距离、行驶速度和加速度信息;
[0011]
第三步,路边单元rsu收集道路和交通信息,将其集成到云端,实时更新道路信息并用于预测和决策;
[0012]
步骤2选取合适且稳定的强化学习算法,基于图论描述智能电动车之间的信息交互形式,建立网联车辆实现协同式巡航控制的目标函数;
[0013]
第一步,考虑算法健硕性和学习能力,选取软演员-评论家(softactor-critic,sac)算法;
[0014]
第二步,基于图论定义车辆协同式巡航控制系统的通信拓扑,并给出相对应的领接矩阵和牵引矩阵的定义;建立系统控制的目标函数,使各车辆保持一致性状态;
[0015]
步骤3引入先验规则、模型知识和已知算法等,利用模型预测控制方法实现多智能体协同控制,以此获取示例数据,然后对策略网络进行行为克隆;
[0016]
第一步,设计一个受约束的线性二次mpc模型,引入先验知识,利用知识驱动来实现智能体协同控制,获得专家数据,构建成数据集供模仿学习使用;
[0017]
第二步,利用行为克隆,通过模仿专家数据来学习策略,初始化策略网络,进行预训练;
[0018]
步骤4针对数据驱动的存在训练时间长的问题,构建启发式奖励函数,并在模型中引入相关车辆控制的理论知识;在云平台上训练所设计的强化学习模型,并将训练好的模型参数上传给各网联车辆的drl控制器;
[0019]
第一步,给出车辆服从一阶系统的动力学模型,运用先验知识,将平衡概念纳入跟车模型;
[0020]
第二步,根据通信拓扑,设计强化学习模型的状态空间;建立系统的动力学模型来更新模型的状态空间,依靠原先的先验知识,建立系统控制的防碰撞机制;
[0021]
第三步,给出四分之一车辆模型用来分析垂直舒适度指标,该模型主要用于悬挂系统上,采用加权均方根加速度(weighted root-mean-square acceleration,wrmsa)进行
垂直舒适度评估;
[0022]
第四步,考虑安全性、节能性、舒适性等系统性能目标,建立以知识来引导学习的启发式奖励函数,同时考虑垂直舒适度指标来适应粗糙路面的行驶状态,进而实现基于知识和数据融合驱动的云控式网联车辆协同式巡航控制策略,提高系统的综合性能;
[0023]
第五步,建立分布式的车辆协同式巡航控制模型,模型在云平台中训练时,先对特征数据进行归一化,最后将训练出好的模型参数上传到各个车辆的drl控制器,在车辆控制中,云会实时更新道路信息并上传给rsu,rsu再把信息发送给车辆,帮助控制器实时求出车辆的期望输出。
[0024]
本发明的技术效果和益处是:
[0025]
建立一种知识和数据融合驱动的云控式网联车辆协同式巡航控制方法,通过模型知识的知识驱动方法来获取高效的示例数据,上传云平台,以示例数据进行行为克隆,对策略网络进行预训练,初始化网络参数,并通过引入先验知识来引导强化学习模型的学习过程,保证车辆无碰撞行驶和节能效果好,有效改善单一数据驱动的训练缓慢或无法训练等问题。在基于交通和道路信息下学习安全、舒适和节能的跟车行为,在实际场景中必不可少会存在粗糙路面,该策略考虑粗糙路面来设计垂直舒适度,可以明显改善交通拥堵、乘客舒适度和安全隐患等问题。
附图说明
[0026]
图1为本发明的基于知识和数据融合驱动的云控式网联车辆协同式巡航控制方法系统及流程示意图。
[0027]
图2为软演员-评论家(softactor-critic,sac)算法及其神经网络结构图。
[0028]
图3为四分之一车模型。
具体实施方式
[0029]
为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0030]
本发明的基于知识和数据融合驱动的云控式网联车辆协同式巡航控制控制方法系统及流程示意图如图1所示,采用强化学习模型,首先利用模型知识来生成示例数据,用来预训练策略网络,接着在强化学习模型中融合规则知识、交通信息、避碰策略和节能策略等先验知识来引导学习过程,设计一个启发式奖励函数,能够提高模型的学习效率,有效解决传统方法弊端和单一数据驱动训练时间长和控制性能差等问题,同时改善粗糙路面上的舒适度问题。具体的,包括以下步骤:
[0031]
步骤1:车辆协同式巡航控制系统由1辆领航车、n辆跟随车、rsu和云平台组成,分别将车辆编号0以及1,
…
,n。系统中每一辆跟随车都通过车载传感器以及v2x无线通信网络,依据双向跟随式(bidirectional following,bd)通信拓扑来实时采集自车及相应通信车辆的行驶运动状态信息,并上传到云平台上,与此同时路边传感器主要作为云和车辆的信息传输中继。
[0032]
步骤1.1每辆跟随的网联车辆通过车载传感器和gps不断地获取自车的行驶信息,
主要包括位置信息、速度信息和加速度信息。
[0033]
步骤1.2自车通过v2x无线通信网络技术来与系统中其他车辆进行通信,实时采集相应的车辆行驶状态信息,主要包括前方车辆和后方跟随车辆的行驶位置、速度、加速度信息,并上传到云平台。
[0034]
步骤1.3rsu实时采集交通和道路信息,并上传给云平台,同时云平台会把模型参数和道路实时信息传输给rsu,rsu再实时发送给车辆。
[0035]
步骤2:采用sac算法作为车辆协同式巡航控制系统的控制算法,基于图论来描述网联车辆之间的信息交互形式,给出网联车辆协同式巡航控制的目标函数。
[0036]
步骤2.1考虑到车辆的油门和制动都要连续值作为控制输入,采用基于策略的强化学习算法。ppo是一种基于在策略算法,其缺点是样本效率低,需要大量样本才能学习。ddpg及其扩展是连续的“演员-评论家”算法,其采样效率高于ppo,但对超参数敏感,难以稳定。sac的采样效率高于ppo,相比于ddpg及其拓展算法,sac目标函数考虑策略的预期回报和预期熵,如下所示:
[0037][0038]
具有参数θ
φ
的actor网络估计随机策略其输出策略的均值和方差sac不具有目标actor网络,并且其选择动作值a
t
如下:
[0039][0040]
其中,ε
t
是从一些固定分布ν采样所得,比如多元正态分布。
[0041]
drl可以建模为马尔可夫决策过程,由两个交互对象组成:drl智能体(控制模型)和环境,主要包含状态s、动作a、策略π和奖励r,具体看下面步骤;软演员-评论家算法及其神经网络结构示意图如图2所示。
[0042]
步骤2.2基于图论,将车辆通信拓扑建模为一个对应于时间t的有向图节点的集合由n辆跟随车辆组成,边的集合描述了车辆间的连通关系,其中为邻接矩阵,当车辆i可以接收到车辆j的信息时,c
ij
(t)=1,i≠j;否者c
ij
=0。
[0043]
定义表示与其他车辆通信,包含着跟随车辆的标号,即定义牵引集合若车辆i可以接收到领航车信息,即qi=1。定义一个通信集合
[0044]
给定车辆协同式巡航控制系统的控制目标,为如下:
[0045][0046]
其中d
i,i-1
为期望的恒定时距,pi为第i辆车的位置。
[0047]
步骤3:利用mpc来建立多智能体协同控制模型,以此生成车辆行驶时的轨迹数据,
并将其进行预处理,作为示例数据,来对策略网络进行预训练。
[0048]
步骤3.1:给出多智能体系统的动力学模型其中xi=(pi,vi)是智能体的状态,pi和vi分别表示智能体i的位置和速度,ui=ai是智能体的加速度,
[0049]
设计一个受约束的线性二次mpc模型,协同控制采用一致性理论设计,并在模型中加入安全距离限制来避免碰撞,该模型在每个时间步求解有限时域最优控制问题,如下所示:
[0050][0051]
式中,n是预测范围,δd和δv是智能体间的间距和相对速度,是期望间距,δd
max
、δv
max
和是标准化不同类型跟踪误差的常数,是与其通信的智能体集合,常数h
safe
是安全间距。
[0052]
步骤3.2:将智能体的轨迹信息进行预处理,生成示例数据,如下所示:
[0053][0054]
式中,n为示例数据的总量,si=[δd
i,i-1
,δv
i,i-1
,δd
i,i+1
,δv
i,i+1
]为状态空间。
[0055]
行为克隆鼓励策略网络的决策μ(s;θ)与示例数据做出的动作a一样,采用回归的方法来训练人工神经网络,定义损失函数为如下:
[0056][0057]
当损失函数越小,代表神经网络的决策越接近示例数据的行为,该网络使用梯度下降来更新θ,为如下所示:
[0058][0059]
以示例数据预训练出人工神经网络后,将其参数赋予强化学习中的策略网络,并继续下一阶段的强化学习训练。
[0060]
步骤4:设计强化学习模型,建立一种防碰撞策略,以知识来引导学习,同时设计一种启发式奖励函数,考虑粗糙路面的情况下设计垂直舒适度奖励,最后得出知识和数据融合驱动的车辆协同式巡航控制方法。
[0061]
步骤4.1每个跟随车辆服从一阶系统描述的动力学模型,如下所示:
[0062][0063]
式中,pi(t)、vi(t)和ai(t)分别为车辆的位置、速度和加速度,τi是传动系动力学
的时间常数,ui(t)是车辆控制输入。考虑到驾驶舒适度和安全,应有约束a
min
≤ai(t)≤a
max
,u
min
≤ui(t)≤u
max
,其中a
min
和a
max
是加速度限制,u
min
和u
max
是控制输入限制。
[0064]
给出车辆协同式巡航控制系统达到一致状态时的平衡概念,将跟车策略集成到drl算法框架中,定义如下:
[0065][0066]
其中,是车辆i在时间t的目标平衡间距,是车辆速度,是恒定时距,li是静止间距,
[0067][0068]
自车实际车辆间距和目标平衡间距的偏差和相对速度为如下:
[0069][0070]
式中,是车辆i与车辆k的间距偏差,是相对速度。
[0071]
步骤4.2依据通信拓扑,车辆i获得其他车辆的状态信息定义为给出跟随车辆i的动力学模型,如下所示:
[0072]
xi(t+1)=aixi(t)+biui(t)+c
iai-1
(t),(11)
[0073]
其中,
[0074][0075]
式中,δt是时间间隔。
[0076]
在车辆协同式巡航控制中,选取bd通信拓扑,定义强化学习模型的状态空间如下所示:
[0077][0078]
在强化学习模型中,需要不断更新模型状态,利用上述车辆i的动力学模型来实时更新状态信息。定义强化学习模型的动作空间为a={ui(t)|ui(t)∈[u
min
,u
max
]},考虑到车辆行驶安全和强化学习模型在训练初期存在奖励稀疏,采用运动学的停车距离算法计算安全距离d
safe
,如下:
[0079][0080]
式中,rt是跟随车辆的反应时间,a
max
是假设的最大绝对加速度。
[0081]
在控制模型的训练和测试阶段,防碰撞机制与rl算法的集成方式如下:
[0082][0083]
根据上述的防碰撞机制,利用先验知识来引导模型正确学习,避免算法中经验池的污染,可以加快训练阶段的收敛速度,解决单纯数据驱动的训练时间差的问题。
[0084]
步骤4.3如图3给出四分之一车辆模型用来分析垂直舒适度指标,其模型如下所示:
[0085][0086]
式中,ms为代表车身的簧载质量;cs为被动阻尼器的系数;ks为弹簧刚度;zs和zu分别为为簧载质量和非簧载质量位移;f为可调阻尼器的阻尼力;mu为非簧载质量;k
t
为轮胎刚度;zr为道路高度。
[0087]
假设悬架是被动的,以避免剧烈的车辆振动,那么阻尼力是常数。在悬架控制中,垂直舒适性是基于车身加速度进行评估的,由于人体感觉与加速度在0.5~80hz频段之间存在显著关系,采用wrmsa进行垂直舒适度评估,具体描述为:
[0088][0089]
式中,wi为ith的1/3倍频波段的系数;ui和li分别为ith的1/3倍频波段的上限和下限频率;sa(f)为频率f处时域振动加速度的功率谱密度。较小的wrmsa意味着更舒适的垂直运动。
[0090]
步骤4.4建立一种利用各种先验知识来优化奖励信号的启发式奖励函数加快学习进度,并优化控制器性能,奖励来衡量车辆跟驰行为安全性和节能性。定义车辆的协同控制奖励为如下:
[0091][0092]
其中,是正定对角系数矩阵,而如下所示:
[0093][0094][0095]
式中,σ和η是常数,设定为1/2。
[0096]
车辆跟车效率和局部稳定性是由跟车奖励指标来衡量的。在车辆行驶过程中,其纵向舒适度也是衡量跟车性能的重要指标,其奖励成本为:
[0097]
[0098]
式中,jerk为加速度变化率,用来测量车辆的驾驶舒适度,常数值3600用来归一化奖励函数。
[0099]
实际交通道路上会存在粗糙路面的路段,垂直舒适度也是至关重要的,如下式:
[0100][0101]
式中,x
min
为乘客感受不到的振动下限;x为振动加速度;a和b是常数;而x
max
是乘客所能承受的振动上限,本研究设定x
min
=0.135,x
max
=2.5,单位为m/s2,a和b分别为0.4827和0.5577。
[0102]
为了限制垂直不舒适,网联车辆应将速度保持在[0,v
p
]区域内,给出其奖励形式为:
[0103][0104]
式中,v(t)是车辆速度,δve是期望速度偏差。
[0105]
在实际交通中能量效率也作为重要的行车评价指标,采用近似和可微的多项式能耗模型来评价车辆的能耗情况。电机的需求功率p
mot
是与速度v和加速度a相关的非线性函数,该模型简单高效,符合设定目标,拟合的瞬时能耗模型为:
[0106][0107]
式中,v(t)表示车速,a(t)表示加速度,p
ij
表示拟合得到的多项式系数。
[0108]
利用拟合的瞬时能耗模型(23)建立其奖励如下所示:
[0109][0110]
其中,常数值20000用来归一化奖励函数,δt是车辆仿真时间间隔
[0111]
根据防碰撞机制,建立一个惩罚奖励函数,以实现基于安全度由高到低的奖励函数递减,从而引导自车辆更好地学习主动避碰技能,具体如下所示:
[0112][0113]
其中,c为惩罚车辆行驶状态的常数。
[0114]
结合,可知作为所求的启发式奖励函数,用drl策略π来制定一个最优控制问题,以最大化折扣累积奖励,如下:
[0115]
[0116]
其中,表示奖励函数。
[0117]
步骤4.5为了减少神经网络在训练中存在的内部协变量偏移,将强化学习模型的状态空间的输入特征数据进行归一化处理,在将其输入神经网络前,对这些特征向量进行归一化,如下:
[0118][0119]
式中,f
*
是特征数据f经过归一化后的数值,f
mean
和f
std
分别表示特征向量f的平均值和标准偏差。
[0120]
在云平台中存储大量的历史数据、实时数据和道路信息,基于车辆信息和道路参数来训练模型,并将其训练参数和道路参数发送给rsu,rsu将它们传到各个车辆的drl控制器上,网联车辆携带的drl控制器实时求出期望输出,实现一种基于知识和数据融合驱动的云控式网联车辆协同式巡航控制方法。
[0121]
本发明在考虑车辆的安全性、舒适性和节能性的情况下,通过模仿学习策略和车辆防碰撞策略的引入,提升模型的计算效率。随着协同车辆基础设施系统的发展,rsu可以将交通道路信息上传给云,云平台具有强大存储和计算能力,存储方面主要存储历史数据、实时数据和交通道路信息,计算方面主要是预测道路参数和训练强化学习模型。基于上述方法实现云控式网联车辆协同式巡航控制,并保证车辆在粗糙路段上的安全、舒适和节能行驶。
[0122]
以上内容是结合优选技术方案对本发明所做的进一步详细说明,不能认定发明的具体实施仅限于这些说明。对本发明所属技术领域的普通技术人员来说,在不脱离本发明的构思的前提下,还可以做出简单的推演及替换,都应当视为本发明的保护范围。
技术特征:
1.知识和数据融合驱动的云控式网联车辆协同巡航控制方法,其特征在于包括以下步骤:步骤1云控式网联车辆协同式巡航控制系统有n+1辆车,编号为0,
…
,n,其中0号车为领航车辆,1,
…
,n号车为跟随车辆,同时该系统包含着路边单元rsu和云平台;各个车辆通过自身装载的车载传感器以及v2x无线通信网络来采集周围车辆信息,rsu将道路和交通信息上传到云平台,作为历史数据,(1)通过车载传感器和gps周期性地感知自车的状态信息,主要包括距离信息、速度信息和加速度信息;(2)自车通过v2x无线通信网络与周围车辆进行信息交互,实时接收相应的行驶运动状态信息,主要包括前方车辆和后方跟随车辆的行驶距离、行驶速度和加速度信息;(3)路边单元rsu收集道路和交通信息,将其集成到云端,实时更新道路信息并用于预测和决策;步骤2选取合适且稳定的强化学习算法,基于图论描述智能电动车之间的信息交互形式,建立网联车辆实现协同式巡航控制的目标函数;(1)考虑算法健硕性和学习能力,选取软演员-评论家算法;(2)基于图论定义车辆协同式巡航控制系统的通信拓扑,并给出相对应的领接矩阵和牵引矩阵的定义;建立系统控制的目标函数,使各车辆保持一致性状态;步骤3引入先验规则、模型知识和已知算法,利用模型预测控制方法实现多智能体协同控制,以获取示例数据,对策略网络进行行为克隆;(1)设计一个受约束的线性二次mpc模型,引入先验知识,利用知识驱动来实现智能体协同控制,获得专家数据,构建成数据集供模仿学习使用;(2)利用行为克隆,通过模仿专家数据学习策略,初始化策略网络,进行预训练;步骤4设计强化学习模型,建立防碰撞策略,以知识引导学习,针对数据驱动的存在训练时间长的问题,构建启发式奖励函数,考虑粗糙路面的情况下设计垂直舒适度奖励,在模型中引入相关车辆控制的理论知识;在云平台上训练所设计的强化学习模型,将训练好的模型参数上传给各网联车辆的drl控制器,完成知识和数据融合驱动的云控式网联车辆协同巡航控制;(1)给出车辆服从一阶系统的动力学模型,运用先验知识,将平衡概念纳入跟车模型;(2)根据通信拓扑,设计强化学习模型的状态空间;建立系统的动力学模型来更新模型的状态空间,依靠原先的先验知识,建立系统控制的防碰撞机制;(3)给出四分之一车辆模型用来分析垂直舒适度指标,该模型主要用于悬挂系统上,采用加权均方根加速度(weighted root-mean-square acceleration,wrmsa)进行垂直舒适度评估;(4)考虑安全性、节能性、舒适性等系统性能目标,建立以知识来引导学习的启发式奖励函数,同时考虑垂直舒适度指标来适应粗糙路面的行驶状态,进而实现基于知识和数据融合驱动的云控式网联车辆协同式巡航控制策略,提高系统的综合性能;(5)建立分布式的车辆协同式巡航控制模型,模型在云平台中训练时,先对特征数据进行归一化,将训练出好的模型参数上传到各个车辆的drl控制器,在车辆控制中,云会实时更新道路信息并上传给rsu,rsu再将信息发送给车辆,帮助控制器实时求出车辆的期望输
出。2.如权利要求1所述知识和数据融合驱动的云控式网联车辆协同巡航控制方法,其特征在于在步骤2中,所述选取合适且稳定的强化学习算法,基于图论描述智能电动车之间的信息交互形式,建立网联车辆实现协同式巡航控制的目标函数的具体步骤包括:(1)考虑车辆的油门和制动都要连续值作为控制输入,采用基于策略的强化学习算法;ppo是一种基于在策略算法,样本效率低,需要大量样本才能学习;ddpg及其扩展是连续的演员-评论家算法,采样效率高于ppo,但对超参数敏感,难以稳定;sac的采样效率高于ppo,相比于ddpg及其拓展算法,sac目标函数考虑策略的预期回报和预期熵,如下所示:具有参数θ
φ
的actor网络估计随机策略其输出策略的均值和方差sac不具有目标actor网络,且其选择动作值a
t
如下:其中,ε
t
是从一些固定分布ν采样所得,比如多元正态分布;drl建模为马尔可夫决策过程,由两个交互对象组成:drl智能体(控制模型)和环境,主要包含状态s、动作a、策略π和奖励r;(2)基于图论,将车辆通信拓扑建模为一个对应于时间t的有向图节点的集合由n辆跟随车辆组成,边的集合描述了车辆间的连通关系,其中为邻接矩阵,当车辆i可以接收到车辆j的信息时,c
ij
(t)=1,i≠j;否者c
ij
=0;定义表示与其他车辆通信,包含着跟随车辆的标号,即定义牵引集合若车辆i可以接收到领航车信息,即q
i
=1;定义一个通信集合给定车辆协同式巡航控制系统的控制目标,如下:其中,d
i,i-1
为期望的恒定时距,p
i
为第i辆车的位置。3.如权利要求1所述知识和数据融合驱动的云控式网联车辆协同巡航控制方法,其特征在于在步骤3中,所述预训练利用mpc来建立多智能体协同控制模型,以此生成车辆行驶时的轨迹数据,并将其进行预处理,作为示例数据,对策略网络进行预训练,具体步骤包括:(1)给出多智能体系统的动力学模型其中x
i
=(p
i
,v
i
)是智能体的状态,p
i
和v
i
分别表示智能体i的位置和速度,u
i
=a
i
是智能体的加速度,设计一个受约束的线性二次mpc模型,协同控制采用一致性理论设计,并在模型中加入
安全距离限制避免碰撞,该模型在每个时间步求解有限时域最优控制问题,如下所示:安全距离限制避免碰撞,该模型在每个时间步求解有限时域最优控制问题,如下所示:式中,n是预测范围,δd和δv是智能体间的间距和相对速度,是期望间距,δd
max
、δv
max
和是标准化不同类型跟踪误差的常数,是与其通信的智能体集合,常数h
safe
是安全间距;(2)将智能体的轨迹信息进行预处理,生成示例数据,如下所示:式中,n为示例数据的总量,s
i
=[δd
i,i-1
,δv
i,i-1
,δd
i,i+1
,δv
i,i+1
]为状态空间;行为克隆鼓励策略网络的决策μ(s;θ)与示例数据做出的动作a一样,采用回归的方法训练人工神经网络,定义损失函数为如下:当损失函数越小,代表神经网络的决策越接近示例数据的行为,该网络使用梯度下降来更新θ,如下所示:以示例数据预训练出人工神经网络后,将其参数赋予强化学习中的策略网络,继续下一阶段的强化学习训练。4.如权利要求1所述知识和数据融合驱动的云控式网联车辆协同巡航控制方法,其特征在于在步骤4中,所述设计强化学习模型,建立防碰撞策略,以知识引导学习,针对数据驱动的存在训练时间长的问题,构建启发式奖励函数的具体步骤包括:(1)每个跟随车辆服从一阶系统描述的动力学模型,如下所示:式中,p
i
(t)、v
i
(t)和a
i
(t)分别为车辆的位置、速度和加速度,τ
i
是传动系动力学的时间常数,u
i
(t)是车辆控制输入;考虑到驾驶舒适度和安全,应有约束a
min
≤a
i
(t)≤a
max
,u
min
≤u
i
(t)≤u
max
,其中a
min
和a
max
是加速度限制,u
min
和u
max
是控制输入限制;给出车辆协同式巡航控制系统达到一致状态时的平衡概念,将跟车策略集成到drl算法框架中,定义如下:
其中,是车辆i在时间t的目标平衡间距,是车辆速度,是恒定时距,l
i
是静止间距,自车实际车辆间距和目标平衡间距的偏差和相对速度为如下:式中,是车辆i与车辆k的间距偏差,是相对速度;(2)依据通信拓扑,车辆i获得其他车辆的状态信息定义为给出跟随车辆i的动力学模型,如下所示:x
i
(t+1)=a
i
x
i
(t)+b
i
u
i
(t)+c
i
a
i-1
(t),(11)其中,式中,δt是时间间隔;在车辆协同式巡航控制中,选取bd通信拓扑,定义强化学习模型的状态空间如下所示:在强化学习模型中,需要不断更新模型状态,利用上述车辆i的动力学模型来实时更新状态信息;定义强化学习模型的动作空间为a={u
i
(t)|u
i
(t)∈[u
min
,u
max
]},考虑到车辆行驶安全和强化学习模型在训练初期存在奖励稀疏,采用运动学的停车距离算法计算安全距离d
safe
,如下:式中,rt是跟随车辆的反应时间,a
max
是假设的最大绝对加速度;在控制模型的训练和测试阶段,防碰撞机制与rl算法的集成方式如下:根据上述的防碰撞机制,利用先验知识来引导模型正确学习,避免算法中经验池的污染,可以加快训练阶段的收敛速度,解决单纯数据驱动的训练时间差的问题;(3)给出四分之一车辆模型用于分析垂直舒适度指标,其模型如下所示:
式中,m
s
为代表车身的簧载质量;c
s
为被动阻尼器的系数;k
s
为弹簧刚度;z
s
和z
u
分别为为簧载质量和非簧载质量位移;f为可调阻尼器的阻尼力;m
u
为非簧载质量;k
t
为轮胎刚度;z
r
为道路高度;假设悬架是被动的,以避免剧烈的车辆振动,那么阻尼力是常数;在悬架控制中,垂直舒适性是基于车身加速度进行评估的,由于人体感觉与加速度在0.5~80hz频段之间存在显著关系,采用wrmsa进行垂直舒适度评估,具体描述为:式中,w
i
为ith的1/3倍频波段的系数;u
i
和l
i
分别为ith的1/3倍频波段的上限和下限频率;s
a
(f)为频率f处时域振动加速度的功率谱密度;较小的wrmsa意味着更舒适的垂直运动;(4)建立一种利用各种先验知识来优化奖励信号的启发式奖励函数加快学习进度,并优化控制器性能,奖励来衡量车辆跟驰行为安全性和节能性;定义车辆的协同控制奖励为如下:其中,是正定对角系数矩阵,而如下所示:如下所示:式中,σ和η是常数,设定为1/2;车辆跟车效率和局部稳定性是由跟车奖励指标来衡量的;在车辆行驶过程中,其纵向舒适度也是衡量跟车性能的重要指标,其奖励成本为:式中,jerk为加速度变化率,用来测量车辆的驾驶舒适度,常数值3600用来归一化奖励函数;实际交通道路上会存在粗糙路面的路段,垂直舒适度也是至关重要的,如下式:式中,x
min
为乘客感受不到的振动下限;x为振动加速度;a和b是常数;而x
max
是乘客所能承受的振动上限,设定x
min
=0.135,x
max
=2.5,单位为m/s2,a和b分别为0.4827和0.5577;为了限制垂直不舒适,网联车辆应将速度保持在[0,v
p
]区域内,给出其奖励形式为:
式中,v(t)是车辆速度,δv
e
是期望速度偏差;在实际交通中能量效率也作为重要的行车评价指标,采用近似和可微的多项式能耗模型来评价车辆的能耗情况;电机的需求功率p
mot
是与速度v和加速度a相关的非线性函数,该模型简单高效,符合设定目标,拟合的瞬时能耗模型为:式中,v(t)表示车速,a(t)表示加速度,p
ij
表示拟合得到的多项式系数;利用拟合的瞬时能耗模型(23)建立其奖励如下所示:其中,常数值20000用来归一化奖励函数,δt是车辆仿真时间间隔根据防碰撞机制,建立一个惩罚奖励函数,以实现基于安全度由高到低的奖励函数递减,从而引导自车辆更好地学习主动避碰技能,具体如下所示:其中,c为惩罚车辆行驶状态的常数;结合,可知作为所求的启发式奖励函数,用drl策略π来制定一个最优控制问题,以最大化折扣累积奖励,如下:其中,表示奖励函数;(5)为减少神经网络在训练中存在的内部协变量偏移,将强化学习模型的状态空间的输入特征数据进行归一化处理,在将其输入神经网络前,对这些特征向量进行归一化,如下:式中,f
*
是特征数据f经过归一化后的数值,f
mean
和f
std
分别表示特征向量f的平均值和标准偏差。
技术总结
知识和数据融合驱动的云控式网联车辆协同巡航控制方法,属于汽车智能安全与自动驾驶领域。提出云控式车辆协同式巡航控制策略,策略学习过程:1)基于模型预测控制MPC实现多智能体协同控制的模型引导方法,加入安全距离避免碰撞,以产生用于训练策略网络的演示数据,利用模仿学习预训练策略网络;2)在模仿学习的基础上利用强化学习改进策略,根据知识引导学习的思想设计强化学习模型及其启发式奖励函数,在奖励函数中融合交通道路信息,在模型中加入防碰撞策略,加速强化模型训练提高学习效率,得到完全分布式控制器,实现云控式车辆协同式巡航控制。该策略考虑粗糙路面设计垂直舒适度,可明显改善交通拥堵、乘客舒适度和安全隐患等问题。隐患等问题。隐患等问题。
技术研发人员:王靖瑶 李迅锐 郭景华 黄江山 曾泽钦 邓醒明
受保护的技术使用者:厦门大学
技术研发日:2023.07.14
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
