一种实现测试场景生成的模型的训练方法
未命名
07-27
阅读:90
评论:0
1.本文涉及但不限于无人驾驶技术,尤指一种实现测试场景生成的模型的训练方法。
背景技术:
2.当前自动驾驶汽车面临严峻的安全问题,相关公司研发的自动驾驶汽车均遭遇了严重的交通事故,这些安全问题从根本上阻碍了自动驾驶汽车的规模化应用和商业化落地,因此亟需对自动驾驶汽车进行安全性测试。
3.自动驾驶汽车测试评估的基本流程为:收集一系列真实场景(是指在一定的时间和空间范围内,自动驾驶汽车与行驶环境中的其它车辆、道路、交通设施、气象条件等元素综合交互过程的一种总体动态描述;它是自动驾驶汽车的驾驶情景与行驶环境的有机组合,既包括各类实体元素,也涵盖了实体执行的动作及实体之间的连接关系;例如、高速公路行驶场景、跟车场景、切车场景和转弯场景等);通过本体论或深度学习方法,基于真实场景生成大量的虚拟仿真的测试场景;根据生成的测试场景对自动驾驶汽车进行测试,并收集测试结果;根据收集的测试结果对自动驾驶汽车的安全性进行评估,以获得事故率等测试指标的估计值。
4.目前,由于真实世界中与汽车安全性相关的关键的测试场景(如:车辆碰撞)发生概率较低,采取真实道路测试或者基于重构获得的虚拟仿真的测试场景进行测试通常是较为低效的,难以高效评估自动驾驶汽车的平均性能水平,更难以有效测试出自动驾驶汽车的潜在安全问题,如:自动驾驶汽车在正常工作情况下仍然无法安全行驶的驾驶场景。此外,现有的测试场景生成方法,通常聚焦于整车级测试,并未关注车辆在各模块正常工作情况下,由于各模块的能力边界(如:感知算法无法识别的某一特定物体)所导致的车辆潜在安全问题,如:自动驾驶汽车在正常工作情况下仍然无法安全行驶的驾驶场景;因此,如何高效、自动生成这类关键的测试场景,成为亟待解决的问题。
技术实现要素:
5.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
6.本发明实施例提供一种实现测试场景生成的模型的训练方法,能够高效、自动生成自动驾驶汽车在正常工作情况下安全行驶的驾驶场景。
7.本发明实施例提供了一种实现测试场景生成的模型的训练方法,包括:
8.获取用于模型训练的数据集,数据集中包含历史观测序列和地图信息;
9.对数据集中的历史观测序列进行升维,获得第一高维特征信息;
10.根据数据集中的地图信息中包含的离散点之间的相关关系,获得地图信息的第二高维特征信息;
11.根据第一高维特征信息、第二高维特征信息与预先设定的表征所有车辆在场景中
的随机性的随机函数信息,生成隐变量状态信息;
12.对生成的隐变量状态信息进行解码,获得交通先验模型的输出;
13.对数据集中所有数据,根据交通先验模型的输入和获得的交通先验模型的输出计算预先设定的第一损失函数,获得交通先验模型;
14.其中,所述第一损失函数根据交通先验模型的预测的状态信息与真实的状态信息之间的距离确定;所述交通先验模型用于生成自动驾驶车辆的测试场景。
15.另一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述实现测试场景生成的模型的训练方法。
16.再一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,
17.处理器被配置为执行存储器中的计算机程序;
18.所述计算机程序被所述处理器执行时实现如上述实现测试场景生成的模型的训练方法。
19.本技术技术方案包括:获取用于模型训练的数据集,数据集中包含历史观测序列和地图信息;对数据集中的历史观测序列进行升维,获得第一高维特征信息;根据数据集中的地图信息中包含的离散点之间的相关关系,获得地图信息的第二高维特征信息;根据第一高维特征信息、第二高维特征信息与预先设定的表征所有车辆在场景中的随机性的随机函数信息,生成隐变量状态信息;对生成的隐变量状态信息进行解码,获得交通先验模型的输出;对数据集中所有数据,根据交通先验模型的输入和获得的交通先验模型的输出计算预先设定的第一损失函数,获得交通先验模型;其中,第一损失函数根据交通先验模型的预测的状态信息与真实的状态信息之间的距离确定;交通先验模型用于生成自动驾驶车辆的测试场景。本发明实施例训练获得了交通先验模型,为自动生成自动驾驶汽车在正常工作情况下安全行驶的驾驶场景提供了支持。
20.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
21.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本技术的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
22.图1为本发明实施例实现测试场景生成的模型的训练方法的流程图;
23.图2为本发明应用示例车辆三圆近似法的示意图。
具体实施方式
24.为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互任意组合。
25.在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中
执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
26.图1为本发明实施例实现测试场景生成的模型的训练方法的流程图,如图1所示,包括:
27.步骤101、获取用于模型训练的数据集,数据集中包含历史观测序列和地图信息;
28.步骤102、对数据集中的历史观测序列进行升维,获得第一高维特征信息;
29.步骤103、根据数据集中的地图信息中包含的离散点之间的相关关系,获得地图信息的第二高维特征信息;
30.需要说明的是,本发明实施例中包括第一高维特征信息和第二高维特征信息的高维度,为根据本领域技术人员根据历史观测序列和地图信息的数据结构确定的维度,高维度指通过线性变换后的向量,其维度高于变换前的向量维度。
31.步骤104、根据第一高维特征信息、第二高维特征信息与预先设定的表征所有车辆在场景中的随机性的随机函数信息,生成隐变量状态信息;
32.步骤105、对生成的隐变量状态信息进行解码,获得交通先验模型的输出;
33.步骤106、对数据集中所有数据,根据交通先验模型的输入和获得的交通先验模型的输出计算预先设定的第一损失函数,获得交通先验模型;
34.其中,第一损失函数根据交通先验模型的预测的状态信息与真实的状态信息之间的距离确定。
35.本发明实施例针对自动驾驶汽车,考虑车辆在正常工作情况下由决策层所引起的车辆潜在安全问题,训练获得了一种用于生成决策层相关关键的测试场景的深度学习模型,为实现自动化的测试场景的生成提供了技术支持,为提升测试场景的生成和测试的效率提供了基础,同时,通过获知自动驾驶汽车中决策层所导致的车辆潜在安全隐患,为自动驾驶系统的改进提供信息支持。在一种示例性实例中,本发明实施例中的数据集为:
36.其中,(xi,yi)为预先设定的固定时长t,采样间隔为δt的测试场景对,为地图信息;xi代表用以交通先验模型训练的场景时的历史观测序列;yi场景t-t
′
时的真实序列;s
it
∈rn×d,t∈{1,2,
…
,t},表示场景i中每一时刻的状态是维度为n
×
d的向量,n为车辆总数,d为状态信息的维度;s
it
=(x
it1
,x
it2
,
…
,x
itn
),代表场景i中t时刻所有车辆状态的集合,x
itj
=(x,y,
…
)∈rd表示场景i时刻t第j辆车的状态信息,代表被测试车辆的决策器模块的状态信息。
37.在一种示例性实例中,本发明实施例步骤104生成隐变量状态信息,包括:
38.将第一高维特征信息和第二高维特征信息,通过预先设定的自注意力机制模块进行处理,获得更新的表征车辆之间交互关系的第三高维特征信息;
39.将第三高维特征信息,通过预先设定的交叉注意力机制模块进行处理,获得更新的表征车辆与道路之间交互关系的第四高维特征信息;
40.根据第三高维特征信息、第四高维特征信息与随机函数信息,生成隐变量状态信息。
41.在一种示例性实例中,本发明实施例根据第三高维特征信息、第四高维特征信息
与随机函数信息,生成隐变量状态信息,包括:
42.将更新的第三高维特征信息和第四高维特征信息进行矩阵相乘;
43.根据矩阵相乘的结果与随机函数信息,确定隐变量状态信息。
44.在一种示例性实例中,本发明实施例中的随机函数信息通过预设的拟合器和调节器加载;
45.其中,拟合器用于根据数据集中的被测试车辆的决策器模块的输入的状态信息,对决策器模块的输出的状态信息进行预估;调节器用于对除被测试车辆以外的背景车辆的行为进行调整;这里,背景车辆包括:场景中所有车辆中除被测试车辆以外的其他车辆。
46.需要说明的是,本发明实施例当被测试车辆发生变化时,只要对调节器和拟合器中的被测试车辆和背景车辆进行调整后,执行本发明实施例的上述训练,即可获得适用调整后的车辆的交通先验模型。本发明实施例对背景车辆的行为进行调整,包括:对背景车辆在场景内每一时刻的位置信息进行调整。
47.在一种示例性实例中,本发明实施例对隐变量状态信息进行解码,包括:
48.通过预先设定的门控循环单元(gru)对隐变量状态信息进行解码。
49.在一种示例性实例中,本发明实施例中的第一损失函数的表达式为:
[0050][0051][0052]
其中,下标i1用于标识场景i中的被测试车辆的决策器模块,y
i1
表示场景i中决策器模块的真实的状态信息;表示交通先验模型输出的场景i中决策器模块的预测的状态信息;下标ij用于标识场景i中的车辆j,y
ij
表示场景i中车辆j的真实的状态信息;表示交通先验模型输出的场景i中车辆j的预测的状态信息;n为场景i中包含的车辆总数。
[0053]
在一种示例性实例中,本发明实施例训练方法还包括,在交通先验模型中添加以下第一约束项:
[0054][0055]
其中,r
ij
为场景i中车辆j的近似圆半径,r
ik
为场景i中车辆k的近似圆半径;d
itjk
表示车辆j与车辆k的间隔,d
itjk
=min
u,v
dist(l
itju
,l
itkv
),l
itju
代表场景i中的车辆j在t时刻的圆心u所在位置,l
itkv
代表场景i中的车辆k在t时刻的圆心v所在位置。
[0056]
在一种示例性实例中,本发明实施例第一约束项用于确保车辆的预测轨迹之间不发生碰撞。
[0057]
在一种示例性实例中,本发明实施例训练方法还包括:
[0058]
对拟合器的多层感知机(mlp)参数采用第一梯度下降方法进行更新,通过预先设
定的第二损失函数对拟合器进行训练;
[0059]
通过预先设定的第二损失函数对拟合器进行训练之后,对调节器的mlp参数采用第二梯度下降方法进行更新,通过预先设定的第三损失函数对调节器进行训练。
[0060]
在一种示例性实例中,本发明实施例中的第二损失函数为:
[0061][0062]
其中,下标i1用于标识场景i中的被测试车辆的决策器模块,y
i1
表示场景i中决策器模块的真实的状态信息;表示交通先验模型输出的场景i中决策器模块的预测的状态信息。
[0063]
需要说明的是,本发明实施例中的为交通先验模型根据拟合器进行训练后的参数,基于xi所估计的决策模块未来轨迹信息。
[0064]
在一种示例性实例中,本发明实施例中的第三损失函数为:
[0065][0066]
其中,下标i1用于标识场景i中的被测试车辆的决策器模块,表示交通先验模型输出的场景i中决策器模块的预测的状态信息;表示交通先验模型输出的场景i中背景车辆的预测的状态信息,即交通先验模型输出的场景i中背景车辆的位置预测值。
[0067]
在一种示例性实例中,本发明实施例中的第三损失函数表达式为:
[0068][0069]
其中,为背景车辆的轨迹信息,
[0070]rij
为场景i中车辆j的近似圆半径,r
ik
为场景i中车辆k的近似圆半径;d
itjk
表示车辆j与车辆k的间隔,d
itjk
=min
u,v
dist(l
itju
,l
itkv
),l
itju
代表场景i中的车辆j在t时刻的圆心u所在位置,l
itkv
代表场景i中的车辆k在t时刻的圆心v所在位置;w
tj
为预先设定的权重项,代表背景车辆j与被测试车辆之间的距离。
[0071]
在一种示例性实例中,本发明实施例训练方法还包括:通过预先设定的第二损失函数对拟合器进行训练时,在交通先验模型中添加以下kl散度(一般指相对熵;相对熵(relative entropy),又被称为kullback-leibler散度或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量)损失函数作为第二约束项:
[0072][0073]
其中:w1为拟合器的mlp参数更新前被测试车辆的决策器模块的随机性的随机变量,w
′1为拟合器的mlp参数更新后被测试车辆的决策器模块的随机性的随机变量,w1和w
′1分别服从dw为随机变量w1和w
′1的维数;σ
1k
表示交通先验模型输出的背景车辆未来位置分布的标准差,σ
′
1k
表示调节器输出的背景车辆未来位置分布的标准差,μ
1k
表示交通先验模型输出的背景车辆未来位置分布的均值,μ
′
1k
表示,调节器输出的背景车辆未来位置分布的均值。
[0074]
在一种示例性实例中,生成交通先验模型之后,本发明实施例方法还包括:
[0075]
通过生成的交通先验模型,生成待测试车辆的测试场景。也即本发明实施例基于生成的交通先验模型,获得了生成待测试车辆测试场景的方法。
[0076]
本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机程序,计算机程序被处理器执行时实现上述实现测试场景生成的模型的训练方法。
[0077]
本发明实施例还提供一种终端,包括:存储器和处理器,存储器中保存有计算机程序;其中,
[0078]
处理器被配置为执行存储器中的计算机程序;
[0079]
计算机程序被处理器执行时实现如上述实现测试场景生成的模型的训练方法。
[0080]
以下通过应用示例对本发明实施例进行简要说明,应用示例仅用于陈述本发明实施例,并不用于限定本发明的保护范围。
[0081]
应用示例
[0082]
本应用示例记一段固定时长为t,采样间隔为δt,在地图信息中获取的自动驾驶的测试场景为其中,s中的每一个因式表示一个采样时间步所有车辆的状态信息,s
t
={x
t1
,x
t2
,
…
,x
tn
},n为场景中车辆总数,x
tj
=(x,y,v
x
,vy,
…
)为第j辆车的状态信息,状态信息中包括:车辆在鸟瞰图视角下的横纵坐标和横纵速度等信息。为方便叙述,本应用示例记任意场景的任意时刻数据中的第一辆车为被测试车辆(被测试自动驾驶车辆),并记该车辆的决策器模块为p(
·
),决策器模块p(
·
)根据场景的地图信息和观测到的过去δ个时间步的所有车辆的状态信息(即过去δ个时间步的历史观测序列),规划自身未来δ
′
个时间步的状态信息;决策器模块中运行相关技术中的决策器算法。
[0083]
在一种示例性实例中,本应用示例参照相关技术获取自动驾驶的测试场景,包括:通过搭载多类传感器的(自动驾驶)汽车在道路上进行连续驾驶,采集并存储周围环境数据,基于采集的周围环境数据获得测试场景;或通过路侧传感器设备获取固定道路上一段时间内的车辆的数据,基于获取的车辆的数据获得测试场景。
[0084]
本应用示例生成安全关键测试场景的前提是生成合理的交通场景,即:现实世界中可能发生的场景,为此,需要先构造交通先验模型;将交通先验模型的构建问题建模为群体轨迹预测问题,即通过一段历史时长为的历史观测序列预测未来t-t
′
的序列,
这样可以通过端到端的深度学习方法,从真实数据中学习交通场景运行规则,并利用神经网络隐式地储存相应的交通场景运行关系;同时,将历史时长t
′
的历史观测序列作为场景初始化条件,生成复杂多样的测试场景。为了针对决策器算法能够高效地生成安全关键的测试场景,在构建的交通先验模型中,还需要额外有两个功能模块:对决策器算法进行近似的拟合器及对背景车辆行为进行微调的调节器。在一种示例性实例中,本应用示例决策器算法包括自动驾驶路径规划算法,即以周围车辆信息和地图信息等作为算法输入,并输出自身一段时间内的路径信息的算法,决策器算法还可以是相关技术中可以执行上述处理的其他已有算法,本应用示例在此不做赘述。
[0085]
在一种示例性实例中,本应用示例记测试场景中前采样时间步的子集为固定的场景初始化数据,记为xi,xi={s
i1
,s
i2
,
…
,s
it
′
};s
it
∈rn×d,t∈{1,2,
…
,t};s
i-xi为交通先验模型用于学习的未来的真实观测序列,记为yi。同时,将收集数据所采用的车辆作为被测试车辆,并固定其在每一时刻数据的第一个位置,即:s
t
={x
t1
,x
t2
,
…
,x
tn
},x
t1
为被测试车辆,据此构造数据集xi表示输入,yi表示输出。
[0086]
在一种示例性实例中,本应用示例参照相关技术构造数据集,包括:根据上述过程采集到的所有车辆的状态数据,划分成预先设定的固定时长(如20s,采样时间步)的数据片段,根据划分的数据片段构成数据集。
[0087]
在一种示例性实例中,本应用示例根据输入xi和输出yi之间的关系,将以数学角度定义的交通先验模型,通过深度神经网络模型表示;其中,代表网络所代表的函数,θ为其参数集合;利用数据集根据基于输入xi预测输出yi的问题,构造相应的第一损失函数,通过相关技术中的梯度下降方法更新网络参数,当训练达到预先设定的迭代上限时,获得近似最优解θ
*
;在一种示例性实例中,本应用示例根据经验设定迭代次数上限,假设迭代次数上限为m,在迭代过程中,如果在m次内,相邻两步损失函数的差值与损失函数的比值小于阈值时,停止迭代(即:);相反地,如果达到迭代次数上限时,相邻两步损失函数的差值与损失函数的比值大于或等于阈值时,表示仍未收敛,本应用示例参照相关技术增大m,并继续进行迭代计算。
[0088]
在一种示例性实例中,本应用示例构造深度神经网络模块的方法包括:确定深度神经网络的输入xi和输出yi;根据输入xi和输出yi的关系,确定网络模型结构;在一种示例性实例中,本应用示例深度神经网络的结构;其中,根据输入xi的时序特点,网络中包含相关技术中的gru;根据输入xi内部的交互关系的特点,网络中包含相关技术中的自注意力模块。
[0089]
本发明实施例被测试车辆中搭载决策器模块,决策器模块加载决策器算法,交通先验模型所收集到的数据中,包含搭载决策器模块的车辆的状态信息。数据集中涉及的每一个车辆(交通主体),都是交通先验模型中的一个节点,并具有对应的参数用来将原始的位置信息,映射到高维度的特征信息。
[0090]
其次,针对决策器模块,利用上述深度神经网络模型对决策器模块所对应的节点的网络参数进行进一步优化,从而使得对应节点在给定输入下,更准确地给出决策器模块所可能的输出。拟合器f(
·
),其参数集合利用数据集考虑对决策器算法进行数据拟合的优化问题,据此构造第二损失函数,固定参数集合θ
*
\θ1,通过相关技术中的梯度下降方法更新θ1,当达到迭代次数上限时,获得近似最优解对应拟合器并更新最后,考虑对背景车辆行为进行微调的调节器g(
·
),其参数集合考虑对决策器算法的拟合器进行对抗,以此作为安全关键的测试场景生成依据,据此构造第三损失函数,固定参数集合θ
*
\θ2,通过梯度下降方法更新θ2,当达到迭代上限时,获得近似最优解对应背景车辆行为调节器并更新参数为θ
*
的深度神经网络模型即为最终用来生成测试场景的模型。
[0091]
当依次完成上述三个阶段的优化后,对任意初始化场景xi={s
i1
,s
i2
,
…
,s
it
′
},s
it
∈rn×d,t∈{1,2,
…
,t},通过深度神经网络模型便可根据xi生成针对决策器模块的安全关键的测试场景,以尽可能地干扰其表现,测试其性能短板;当更改特定的决策器模块时,只需对上述处理中拟合器与调节器对应的参数进行调整即可。
[0092]
本应用示例针对自动驾驶汽车,考虑车辆在正常工作情况下由决策层所引起的车辆潜在安全问题,提出了一种基于深度学习模型与多阶段优化方法的决策层相关关键的测试场景生成方法,自动化的实现了测试场景的生成,提升了测试场景的生成和测试的效率,同时,通过获知自动驾驶汽车中决策层所导致的车辆潜在安全隐患,为自动驾驶系统的改进提供信息支持。
[0093]
以下通过示例的数据集,对上述处理进行说明:
[0094]
本应用示例,获取数据集其中,
[0095]
xi={s
i1
,s
i2
,
…
,s
it
′
}∈r
t
′×n×d;
[0096]
yi=(s
i,t
′
+1
,s
i,t
′
+2
,
…
,s
it
);
[0097]
(xi,yi)为预先设定的固定时长t,采样间隔为δt的测试场景对,为对应的高精度的地图信息,i为数据下标,表示第i个场景的数据;xi代表用以交通先验模型训练的场景时的历史观测序列;yi场景t-t
′
时的真实序列;s
it
∈rn×d,t∈{1,2,
…
,t},表示每一时刻的状态是维度为n
×
d的向量;s
it
=(x
it1
,x
it2
,
…
,x
itn
),代表t时刻场景i中所有车辆状态的集合,n为场景中车辆总数,x
itj
=(x,y,
…
)∈rd表示场景i时刻t第j辆车的状态信息,d为数据维度,同时:代表决策器模块的状态信息;
[0098]
本应用示例假设场景为场景n,则交通先验模型的输入为xn为场景的初始化数据,yn为交通先验模型的输出;
[0099]
对历史观测序列xi={s
i1
,s
i2
,
…
,s
it
′
}进行升维,获得第一高维特征信息h0∈rn×d;在一种示例性示例中,通过预先设定的门控循环单元(gru,gated recurrent unit)进行历史观测序列的升维;其中,n表示场景中的车辆数和n、d表示场景的特征向量的维数;根据地
图信息的离散点之间的相关关系,获得地图信息的第二高维特征信息假设地图信息有nm个离散点,每个离散点通过二维鸟瞰图坐标表示,即其中,离散点之间具有:前驱、后继、左邻和右邻四种相关关系,据此可以构造图(graph)gu=(v,eu),u=1,2,3,4;其中,v为用于标识nm个离散点的下标,用于表示离散点之间的相关关系,u代表第u类相关关系,若eu中的元素e
uij
=1,则代表i相对于j具有第u类相关性。利用图卷积神经网络对eu进行处理,获得地图信息的第二高维特征信息其中,nm、dm分别代表地图中的离散点数和特征向量的维数。
[0100]
将获得的第一高维特征信息h0和第二高维特征信息mi,通过预先设定的自注意力机制(self-attention)模块进行处理,获得表征车辆之间交互关系的第三高维特征信息:
[0101][0102]
其中,q=hiwq,k=hiwk,v=hiwv为hi的线性变换,分别表示hi的第一查询向量、第一键值向量和第一值向量,为本领域技术人员公知的网络结构参数;
←
代表更新;
[0103]
将获得的第三高维特征信息,通过预先设定的交叉注意力机制(cross-attention)模块进行处理,获得表征车辆与道路之间交互关系的第四高维特征信息:
[0104][0105]
其中,q
′
=h
′iwq,k
′
=h
′iwk,v
′
=h
′iwv为h
′i的线性变换,分别表示h
′i的第二查询向量、第二键值向量和第二值向量,为本领域技术人员公知的网络结构参数;
←
代表更新。
[0106]
获得更新hi和h
′i后,通过公式1和公式2矩阵相乘,获得考虑到现实场景中,车辆在场景中的行为并不仅与其自身及其他车辆的历史轨迹相关,而同时又具有一定的随机性,为了表征这种随机性,引入拟合器和调节器,其输入为z~n(0,i),其输出为拟合器和调节器的结构为一个多层感知机(mlp,multi-layer perception),通过采样n个zi~n(0,i),获得对应的随机函数信息
[0107]
根据更新的hi和wi生成隐变量状态信息,对隐变量状态信息进行解码,以获得交通先验模型的输出函数在一种示例性示例中,本发明实施例可以通过一个gru模块,对隐变量状态信息(hi,wi)进行解码,获得输出
[0108]
对数据集中所有数据,根据确定输入和输出,计算预先设定的第一损失函数,获得交通先验模型。
[0109]
针对解码过程,可以根据预测的轨迹与真实的轨迹之间的距离,参照一范数、二范数等相关原理,设计第一损失函数如下:
[0110][0111]
[0112]
其中,下标i1用于标识场景i中的被测试车辆的决策器模块,y
i1
表示场景i中决策器模块的真实的状态信息;表示交通先验模型输出的场景i中决策器模块的预测的状态信息;下标ij用于标识场景i中的车辆j,y
ij
表示场景i中车辆j的真实的状态信息;表示交通先验模型输出的场景i中车辆j的预测的状态信息;n为场景i中包含的车辆总数。
[0113]
考虑到真实世界数据集中存在较少的车辆碰撞行为,为确保预测结果的合理性,添加第一约束项以确保预测轨迹之间不发生碰撞;在一种示例性示例中,本应用示例对场景中的车辆利用三圆法或五圆法进行近似,图2为本发明应用示例车辆三圆近似法的示意图,如图2所示,三个圆的半径相同,为车宽,圆心位置按照车长等距分布;记场景i中车辆j的近似圆半径为r
ij
,场景在t时刻,车辆j与车辆k的间隔为d
itjk
=min
u,v dist(l
itju
,l
itkv
);其中,l
itju
代表场景i中的车辆j在t时刻的圆心u所在位置,l
itkv
代表场景i中的车辆k在t时刻的圆心v所在位置,则第一约束项变换为:
[0114][0115]
其中,
[0116]
本应用示例方法还包括:对拟合器的mlp参数采用第一梯度下降方法进行更新,通过预先设定的第二损失函数对拟合器进行训练;通过预先设定的第二损失函数对拟合器进行训练之后,对调节器的mlp参数采用第二梯度下降方法进行更新,通过预先设定的第三损失函数对调节器进行训练。
[0117]
本应用示例为了对决策器模块进行测试,交通先验模型需要首先对其进行拟合,以能够针对任意场景,判断其行为趋势,进而生成合理有效的安全关键测试场景。为了完成拟合任务,基于获得的交通先验模型,此时,保持交通先验模型的其余参数不变,仅对拟合器的mlp参数,采用第一梯度下降方法进行更新,采用第二损失函数对拟合器进行训练:
[0118][0119]
其中,下标i1用于标识场景i中的被测试车辆的决策器模块,y
i1
表示场景i中决策器模块的真实的状态信息;表示交通先验模型输出的场景i中决策器模块的预测的状态信息。
[0120]
同时,为了尽可能地利用到通过训练所得的交通先验模型的参数,同时确保拟合器的行为符合真实场景交互关系(描述不同分布差异性的基本概念,为领域共识),额外引入kl散度损失函数作为第二约束项:
[0121][0122]
其中:w1为拟合器的mlp参数更新前被测试车辆的决策器模块的随机性的随机变
量,w
′1为拟合器的mlp参数更新后被测试车辆的决策器模块的随机性的随机变量,w1和w
′1分别服从dw为随机变量w1和w
′1的维数;σ
1k
表示交通先验模型输出的背景车辆未来位置分布的标准差,σ
′
1k
表示调节器输出的背景车辆未来位置分布的标准差,μ
1k
表示交通先验模型输出的背景车辆未来位置分布的均值,μ
′
1k
表示,调节器输出的背景车辆未来位置分布的均值。
[0123]
本应用示例为了生成测试场景,基于通过预先设定的第二损失函数对拟合器进行训练之后的交通先验模型,基于数据集中的每一个场景的数据,分别进行调节器的优化处理,获得测试场景。此时,交通先验模型的其余参数不变,仅作为调节器的mlp参数进行更新,此时,第三损失函数更改为其中,为模型根据3)中优化后的参数,基于xi所估计的决策模块未来轨迹信息;在一种示例性实例中,本应用示例中的第三损失函数由两项构成:
[0124][0125]
其中,为背景车辆的轨迹信息,
[0126]
其中,r
ij
为场景i中车辆j的近似圆半径,r
ik
为场景i中车辆k的近似圆半径;d
itjk
表示车辆j与车辆k的间隔,d
itjk
=min
u,v
dist(l
itju
,l
itkv
),l
itju
代表场景i中的车辆j在t时刻的圆心u所在位置,l
itkv
代表场景i中的车辆k在t时刻的圆心v所在位置;w
tj
为预先设定的权重项,代表背景车辆j与被测试车辆之间的距离。
[0127]
本应用示例通过第三损失函数使得交通先验模型中的背景车辆,会自发地与被测车辆产生“碰撞”,进而产生安全关键的测试场景。
[0128]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他
磁存储或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
技术特征:
1.一种实现测试场景生成的模型的训练方法,包括:获取用于模型训练的数据集,数据集中包含历史观测序列和地图信息;对数据集中的历史观测序列进行升维,获得第一高维特征信息;根据数据集中的地图信息中包含的离散点之间的相关关系,获得地图信息的第二高维特征信息;根据第一高维特征信息、第二高维特征信息与预先设定的表征所有车辆在场景中的随机性的随机函数信息,生成隐变量状态信息;对生成的隐变量状态信息进行解码,获得交通先验模型的输出;对数据集中所有数据,根据交通先验模型的输入和获得的交通先验模型的输出计算预先设定的第一损失函数,获得交通先验模型;其中,所述第一损失函数根据交通先验模型的预测的状态信息与真实的状态信息之间的距离确定;所述交通先验模型用于生成自动驾驶车辆的测试场景。2.根据权利要求1所述的训练方法,其特征在于,所述数据集为:其中,(x
i
,y
i
)为预先设定的固定时长t,采样间隔为δt的测试场景对,为所述地图信息;x
i
代表用以交通先验模型训练的场景时的所述历史观测序列;y
i
场景t-t
′
时的真实序列;s
it
∈r
n
×
d
,t∈{1,2,
…
,t},表示场景i中每一时刻的状态是维度为n
×
d的向量,n为车辆总数,d为状态信息的维度;s
it
=(x
it1
,x
it2
,
…
,x
itn
),代表场景i中t时刻所有车辆状态的集合,x
itj
=(x,y,
…
)∈r
d
表示场景i时刻t第j辆车的状态信息,代表被测试车辆的决策器模块的状态信息。3.根据权利要求1所述的训练方法,其特征在于,所述生成隐变量状态信息,包括:将所述第一高维特征信息和第二高维特征信息,通过预先设定的自注意力机制模块进行处理,获得更新的表征车辆之间交互关系的第三高维特征信息;将所述第三高维特征信息,通过预先设定的交叉注意力机制模块进行处理,获得更新的表征车辆与道路之间交互关系的第四高维特征信息;根据所述第三高维特征信息、所述第四高维特征信息与所述随机函数信息,生成所述隐变量状态信息。4.根据权利要求3所述的训练方法,其特征在于,所述根据所述第三高维特征信息、所述第四高维特征信息与所述随机函数信息,生成隐变量状态信息,包括:将更新的所述第三高维特征信息和所述第四高维特征信息进行矩阵相乘;根据所述矩阵相乘的结果与所述随机函数信息,确定所述隐变量状态信息。5.根据权利要求1所述的训练方法,其特征在于,所述对生成的隐变量状态信息进行解码,包括:通过预先设定的门控循环单元gru对所述隐变量状态信息进行解码。6.根据权利要求1-5任一项所述的训练方法,其特征在于,所述第一损失函数的表达式为:
其中,下标i1用于标识场景i中的被测试车辆的决策器模块,y
i1
表示场景i中所述决策器模块的真实的状态信息;表示所述交通先验模型输出的场景i中决策器模块的预测的状态信息;下标ij用于标识场景i中的车辆j,y
ij
表示场景i中车辆j的真实的状态信息;表示所述交通先验模型输出的场景i中车辆j的预测的状态信息;n为场景i中包含的车辆总数。7.根据权利要求1-5任一项所述的训练方法,其特征在于,所述训练方法还包括,在所述交通先验模型中添加以下第一约束项:其中,r
ij
为场景i中车辆j的近似圆半径,r
ik
为场景i中车辆k的近似圆半径;d
itjk
表示车辆j与车辆k的间隔,d
itjk
=min
u,v
dist(l
itju
,l
itkv
),l
itju
代表场景i中的车辆j在t时刻的圆心u所在位置,l
itkv
代表场景i中的车辆k在t时刻的圆心v所在位置。8.根据权利要求1-5任一项所述的训练方法,其特征在于,所述随机函数信息通过预设的拟合器和调节器加载;其中,所述拟合器用于根据所述数据集中的被测试车辆的决策器模块的输入的状态信息,对所述决策器模块的输出的状态信息进行预估;所述调节器用于对除所述被测试车辆以外的背景车辆的行为进行调整。9.根据权利要求8所述的训练方法,其特征在于,所述训练方法还包括:对所述拟合器的多层感知机mlp参数采用第一梯度下降方法进行更新,通过预先设定的第二损失函数对拟合器进行训练;通过预先设定的第二损失函数对拟合器进行训练之后,对所述调节器的mlp参数采用第二梯度下降方法进行更新,通过预先设定的第三损失函数对调节器进行训练。10.根据权利要求9所述的训练方法,其特征在于,所述第二损失函数为:其中,下标i1用于标识场景i中的被测试车辆的决策器模块,y
i1
表示场景i中所述决策器模块的真实的状态信息;表示所述交通先验模型输出的场景i中决策器模块的预测的状态信息。11.根据权利要求9所述的训练方法,其特征在于,所述第三损失函数为:
其中,下标i1用于标识场景i中的被测试车辆的决策器模块,表示所述交通先验模型输出的场景i中决策器模块的预测的状态信息;表示交通先验模型输出的场景i中背景车辆的预测的状态信息。12.根据权利要求11所述的训练方法,其特征在于,所述第三损失函数表达式为:其中,为背景车辆的轨迹信息,为背景车辆的轨迹信息,r
ij
为场景i中车辆j的近似圆半径,r
ik
为场景i中车辆k的近似圆半径;d
itjk
表示车辆j与车辆k的间隔,d
itjk
=min
u,v
dist(l
itju
,l
itkv
),l
itju
代表场景i中的车辆j在t时刻的圆心u所在位置,l
itkv
代表场景i中的车辆k在t时刻的圆心v所在位置;w
tj
为预先设定的权重项,代表背景车辆j与被测试车辆之间的距离。13.根据权利要求9所述的训练方法,其特征在于,所述训练方法还包括:所述通过预先设定的第二损失函数对拟合器进行训练时,在所述交通先验模型添加以下kl散度损失函数作为第二约束项:其中:w1为所述拟合器的mlp参数更新前被测试车辆的决策器模块的随机性的随机变量,w
′1为所述拟合器的mlp参数更新后被测试车辆的决策器模块的随机性的随机变量,w1和w
′1分别服从d
w
为随机变量w1和w
′1的维数;σ
1k
表示所述交通先验模型输出的背景车辆未来位置分布的标准差,σ
,1k
表示所述调节器输出的背景车辆未来位置分布的标准差,μ
1k
表示所述交通先验模型输出的背景车辆未来位置分布的均值,μ
,1k
表示,所述调节器输出的背景车辆未来位置分布的均值。14.一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-13中任一项所述的实现测试场景生成的模型的训练方法。15.一种终端,包括:存储器和处理器,所述存储器中保存有计算机程序;其中,处理器被配置为执行存储器中的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求1-13中任一项所述的实现测试
场景生成的模型的训练方法。
技术总结
本文公开一种实现测试场景生成的模型的训练方法,包括:获取用于模型训练的数据集,数据集中包含历史观测序列和地图信息;对历史观测序列进行升维,获得第一高维特征信息;根据地图信息中包含的离散点之间的相关关系,获得的第二高维特征信息;根据第一高维特征信息、第二高维特征信息与表征所有车辆在场景中的随机性的随机函数信息,生成隐变量状态信息;对隐变量状态信息进行解码,获得交通先验模型的输出;对数据集中数据,根据交通先验模型的输入和获得的交通先验模型的输出计算预设的第一损失函数,获得交通先验模型。本发明实施例训练获得了交通先验模型,为自动生成自动驾驶汽车在正常工作情况下安全行驶的驾驶场景提供了支持。提供了支持。提供了支持。
技术研发人员:张毅 何泓霖 封硕 杨敬轩 裴华鑫 张佐
受保护的技术使用者:清华大学
技术研发日:2023.04.17
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
