一种基于博弈论的无信号右转交叉口行人轨迹预测方法

未命名 07-17 阅读：210 评论：0

1.本发明属于行人轨迹预测技术领域，尤其涉及一种基于博弈论的无信号右转交叉口行人轨迹预测方法。

背景技术：

2.在辅助驾驶领域，车辆过路口时的通过效率及安全性是非常重要的考量因素。在存在红绿灯的路口处，由于有红绿灯的指示，只需要跟着红绿灯的指示进行自动驾驶或辅助驾驶即可，人车冲突发生概率较低。
3.但是，在那些不存在红绿灯的特殊路口，如无信号右转交叉口，人车之间的相互关系变得尤为复杂，两者的行为既充满着不确定性又充满着联系，双方往往被多个不确定因素所影响，例如双方性格、环境因素等等。车辆通过无信号右转交叉路口时右转向并不需要接受交通信号的控制，右转机动车的随意行驶和不同方向交通流的相互作用下对行人产生干扰，大幅提高了行人通行的危险性。针对行人方面，由于行人在无信号右转交叉口通行时，具有较强的随机性以及机动性，且不同行人之间的通行意图也有明显区别。仅靠驾驶员主观判断并不准确，无法降低人车交互风险。
4.因此，要兼顾辅助驾驶/自动驾驶时通过无信号右转交叉口的效率与安全性，就需要对无信号右转交叉路口中行人的轨迹进行准确的预测，也只有这样，才能保证无信号右转交叉口的辅助驾驶决策的有效性。目前，行人的轨迹预测主要分为基于模型驱动的预测和基于历史数据驱动的深度学习预测。模型驱动包括社会力模型、马尔科夫模型、卡尔曼滤波模型等。由于深度学习可以较好的解决模型驱动预测方法的一些不足，使得基于历史数据驱动的深度学习预测逐渐成为了主流研究方向。例如，用于辅助驾驶的s-gan模型(即social-gan，社会生成对抗网络)，便在深度学习预测的基础上，加入了人车互动博弈的思想。
5.博弈论是现代数学的一个重要分支，用于研究双方或多个对象作为玩家，在相互影响的状态下进行决策的一个过程。博弈论的出现对于分析合作和竞争状态以及相互决策得失提供了一种精准的视角。但是，现有的关于交通路口的人车冲突的研究中，人车博弈思想的用途都集中在人车冲突安全性、通行风格、交互行为等研究。加入博弈思想对人车冲突中的各种风险因素分析，特别是对行人的轨迹预测的方式却几乎没有。而在实际交互场景中，人车交互是一个动态变化的过程，需要结合运动因素及宏观博弈决策。这就导致，现有研究的准确性都普遍有待提高，难以用于实际的无信号右转交叉口的辅助驾驶决策。
6.综上，怎样才能保证对无信号右转交叉口的行人轨迹的预测准确性，从而保证无信号右转交叉口的辅助驾驶决策的有效性，实现兼顾车辆通过无信号右转交叉口的效率及安全性，成为目前亟待解决的问题。

技术实现要素：

7.针对上述现有技术的不足，本发明提供了一种基于博弈论的无信号右转交叉口行
人轨迹预测方法，可以保证对无信号右转交叉口的行人轨迹的预测准确性，保证无信号右转交叉口的辅助驾驶决策的有效性，从而兼顾车辆通过无信号右转交叉口的效率及安全性。
8.为了解决上述技术问题，本发明采用了如下的技术方案：
9.一种基于博弈论的无信号右转交叉口行人轨迹预测方法，包括以下步骤：
10.s1、获取行人及车辆在无信号右转交叉口的历史数据；
11.s2、分析无信号右转交叉口的人车博弈因素，构建对应的人车博弈模型；
12.s3、将人车博弈模型插入到预设的s-gan模型中，得到sdg-gan模型，用于对行人的轨迹进行预测；
13.s4、使用s1获取的历史数据，对sdg-gan模型进行训练；
14.s5、使用训练好的sdg-gan模型对无信号右转交叉口的行人轨迹进行实时预测。
15.优选地，s2中，人车博弈模型的构建过程包括：
16.s21、划分博弈阶段，设计观察区域和冲突区域，行人与车辆一旦进入观察区域则认定博弈开始；并利用后侵入时间来表征人车冲突的危险程度，所述后侵入时间为行人及车辆进入冲突区域的时间差，后侵入时间越短则危险程度越高；
17.s22、基于行人与车辆在博弈中的决策策略，构建人车博弈支付矩阵；所述决策策略包括行人车辆同时通行、行人等待车辆通行、行人通行车辆等待以及行人车辆同时等待；
18.s23、基于人车博弈支付矩阵的特征，得到人车博弈模型的期望函数及对应的损失函数；
19.s24、基于s23得到的期望函数及损失函数，构建人车博弈模型。
20.优选地，s22中，当行人车辆同时通行时，
21.行人的支付函数为：
22.车辆的支付函数为：
23.其中，vv表示行人通过速度、av表示行人加速度v
p
表示车辆通过速度、a
p
表示车辆加速度、α1表示车辆的速度与加速度的共同影响因子、α2表示行人的速度与加速度的共同影响因子、σv表示车辆的碰撞严重程度因子、σ
p
表示行人的碰撞严重程度因子，且：
[0024][0025][0026]
当行人等待车辆通行时，行人的支付函数为：
[0027]
式中，α4为通过时的等待抑制系数，t
p
为行人等待时间；
[0028]
车辆的支付函数为：
[0029]
式中，α3为通过时的速度激励系数；
[0030]
当行人通行车辆等待时，行人的支付函数为：
[0031]
式中，α3为通过时的速度激励系数，v
p
为行人通过速度；
[0032]
车辆的支付函数为：
[0033]
式中，α4为通过时的等待抑制系数，tv为车辆等待时间，0.75s为驾驶员反应时间；
[0034]
当行人车辆同时等待时，行人的支付函数为
[0035]
车辆的支付函数为
[0036]
其中，α5为共同损失下车辆的等待抑制系数；α6为共同损失下行人的等待抑制系数；k为双方的后悔度因子，后悔因子与等待过程中的起步加速度相关联，表征对采取等待策略的后悔度，起步加速度越大则后悔程度越大；
[0037]
人车博弈支付矩阵为：
[0038][0039]
优选地，s23中，所述期望函数为车辆通过行择等待及行人通过车辆等待的混合优势策略的纳什均衡点时，车辆与行人双方的混合期望收益；
[0040]
其中，当车辆选择通过时的期望收益为：
[0041]
其中，表示行人通过的概率、为行人等待的概率；
[0042]
当车辆选择等待时的期望收益为：
[0043][0044]
对行人的纯策略收益进行分析，行人通过时的期望收益为：
[0045]
其中，表示车辆通过的概率、表示车辆等待的概率；
[0046]
当行人选择等待时的期望收益为：
[0047][0048]
当车辆的通过期望收益与等待期望收益相同时纳什均衡出现，行人的通过与等待的概率组合如下所示：
[0049]
[0050][0051]
当行人的通过期望收益与等待期望收益相同时纳什均衡出现，车辆的通过与等待的概率组合如下所示：
[0052][0053][0054]
优选地，sdg-gan模型对行人的轨迹进行预测时，对行人轨迹定义为在时间序列下的二维坐标位置变化，对行人u在t时刻下的坐标为车辆j在t时刻下的坐标为行人u从1到to内每个步长的历史轨迹集合xu为：
[0055][0056]
式中，1～to为行人历史轨迹的观测帧，to为观测帧长度；
[0057]
行人u从to+1到t
p
内每个步长的预测轨迹集合为：
[0058][0059]
式中，to+1～to+t
p
为行人历史轨迹的预测帧，t
p
为预测帧长度。
[0060]
行人u从to+1到t
p
内每个步长的真实历史轨迹集合yu为：
[0061][0062]
行人u从1到t
p
内的真实历史轨迹与预测生成轨迹分别为[xu,yu]和
[0063]
优选地，s3中，所述sdg-gan模型包括人车博弈模型、轨迹生成器和轨迹鉴别器；轨迹生成器用于将人车博弈模型的输出结果及行人历史轨迹进行编码解码，输出行人预测轨迹；轨迹鉴别器用于鉴别行人预测轨迹为真实轨迹的概率。
[0064]
优选地，轨迹生成器包括轨迹编码器、博弈机制模块、池化模块和轨迹解码器；
[0065]
轨迹编码器用于将每个时间步下的行人坐标位置与车辆坐标位置嵌入至含有relu非线性激活函数的嵌入函数φ中，获得固定长度向量与再通过lstm单元编码获得行人历史轨迹特征向量与车辆历史轨迹特征向量
[0066][0067][0068]
式中，嵌入函数φ为全连接神经网络层，为嵌入函数的权重参数，为lstm单元权重参数；
[0069]
博弈机制模块用于基于人车双方的博弈支付函数，对人车双方的博弈相关数据进
行提取；所述博弈相关数据包括速度、加速度、相对距离和等待时间；还用于利用每个时间步下的双方速度和与冲突区域的间隔距离获得此时的后侵入时间；利用后侵入时间数值判断此时间步下双方交互的危险程度；并通过双方此时的位置坐标判断其在观察区域或冲突区域；
[0070]
博弈机制模块还用于根据真实世界下人车双方的交互决策进行标定，获得决策下的双方具体期望得失和具体期望得失对人车双方历史轨迹特征向量进行影响得到双方博弈特征向量并融合成为人车混合博弈特征向量
[0071][0072]
式中，为行人u与车辆j各自的碰撞严重程度因子，为行人u与车辆j各自实时坐标区域，f
pet
为碰撞程度判定函数，fr为实时区域判断函数，t
pet
为人车交互时的后侵入时间，ω
pet
为碰撞程度权重参数，ωr为实时区域权重参数；
[0073][0074][0075][0076]
式中，f
pay
为博弈计算函数，为双方不同策略下的具体支付函数，f
inf
为博弈影响函数，f
mix
为博弈混合函数；
[0077]
池化模块用于将人车相对距离嵌入至嵌入函数φ中得到人车相对位置特征向量与人车混合博弈特征向量连接并通过多层感知机最后输出得到博弈池化向量
[0078][0079][0080]
式中，mlp
gp
为池化模块多层感知机网络层，cat用于连接特征向量，为对应各自网络层的权重参数；
[0081]
轨迹解码器用于将博弈池化向量与行人历史轨迹特征向量进行连接，并通过解码器模块多层感知机mlp
gd
，与网络随机高斯噪声z进行连接最后得到解码器特征向量量与经过嵌入函数编码后的行人坐标向量初始化细胞全零向量一并输入至lstm神经网络层得到向量最后将经过解码器多层感知机最终得到行人轨迹预测坐标
[0082][0083]
[0084][0085][0086]
式中，ω
λ
为对应网络层的权重参数。
[0087]
优选地，s3中，轨迹鉴别器的工作过程包括：将轨迹生成器输出的行人预测轨迹和真实的行人历史轨迹yu一并输入至鉴别器神经网络中，通过嵌入全连接神经网络层输出高维度特征向量再依次通过lstm神经网络层和鉴别器多层感知机，最后输出得到为真实轨迹的概率；
[0088][0089][0090][0091]
式中，为lstm网络层输出向量，对应各自网络层的权重参数，p
real
为判别为真实轨迹的概率。
[0092]
优选地，s3中，sdg-gan模型的损失函数l
sdg-gan
包含生成器和鉴别器的交叉熵损失函数l
gan
(g,d)与行人真实轨迹和行人预测轨迹的最小差值损失函数l
l2
(g)；
[0093]
l
sdg-gan
＝l
gan
(g,d)+l
l2
(g)；
[0094][0095][0096]
式中，e为所得期望值，r为输入的行人真实轨迹数据，s为基于模型生成结果的采样个数，z为输入的高斯噪声分布，d表示鉴别器、g表示生成器。
[0097]
优选地，s1中，历史数据包括：视频的帧数、行人的坐标、行人的加速度、行人的等待时间、车辆的坐标、车辆的加速度、车辆的等待时间、人车距离以及后侵入时间；所述人车距离为行人与车辆之间的欧式距离。
[0098]
本发明与现有技术相比，具有如下有益效果：
[0099]
1、本发明在s-gan的基础上，利用微观数据和博弈思想进行分析，得到不同时刻下无信号右转交叉口的人车的宏观交互策略；同时对人车交互进行阶段划分，包括观察区域与冲突区域。当处于观察区域中时，双方博弈支付收益通过概率获取其期望收益。当双方处于冲突区域时则判定已有决策，直接获取双方策略收益，实现对人车的博弈过程进行更为细致的分析。并在此基础上构建了sdg-gan模型。之后，通过微观人车交互数据和宏观人车博弈策略收益共同驱动sdg-gan模型对行人进行轨迹预测。通过这样的方式，本发明在实际交互场景中结合微观运动因素以及宏观博弈决策，将博弈思想加入人车交互状态中，可以对无信号右转交叉口的行人轨迹进行准确的预测。
[0100]
综上，本发明可以保证对无信号右转交叉口的行人轨迹的预测准确性，保证无信号右转交叉口的辅助驾驶决策的有效性，从而兼顾车辆通过无信号右转交叉口的效率及安
全性。
[0101]
2、本发明构建的sdg-gan算法融合宏观博弈与微观运动参数，对人车双方关系考虑更为全面，能够表达博弈状态下行人的真实反映，提高了预测行人轨迹的精准度及可解释性。
[0102]
3、本发明分析可无信号右转交叉口的特殊交互场景下的具体人车博弈因素，划分了博弈阶段，并利用侵犯后时间指标来区分人车冲突的危险程度，还通过与起步加速度相关联的“后悔因子”来表征博弈双方的后悔度，尽可能的综合考虑了博弈双方的各种因素，并在此基础上建立了人车博弈支付矩阵。并且，还结合完全信息博弈的纳什均衡思想嵌入深度学习网络模型中，实现对行人轨迹的预测。这样的处理，可以保证无信号右转交叉口的行人轨迹的预测准确性。
附图说明
[0103]
为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：
[0104]
图1为实施例中的流程图；
[0105]
图2为实施例中的博弈场景示意图；
[0106]
图3为实施例中的sdg-gan模型的结构示意图；
[0107]
图4为实施例中的数据采集场景示意图。
具体实施方式
[0108]
下面通过具体实施方式进一步详细的说明：
[0109]
实施例：
[0110]
如图1所示，本实施例中公开了一种基于博弈论的无信号右转交叉口行人轨迹预测方法，包括以下步骤：
[0111]
s1、获取行人及车辆在无信号右转交叉口的历史数据。
[0112]
具体实施时，史数据包括：视频的帧数、行人的坐标、行人的加速度、行人的等待时间、车辆的坐标、车辆的加速度、车辆的等待时间、人车距离以及后侵入时间；所述人车距离为行人与车辆之间的欧式距离。
[0113]
并依据收集的历史数据，建立人车数据集：
[0114]
(frame,id,x
p
,y
p
,v
p
,a
p
,w
p
,xv,yv,vv,av,wv,r,pet)，其中，右下标中的v、p分别指车辆和行人、frame表示视频的帧数，x/y表示坐标、v表示速度、a表示加速度、w表示等待时间、r表示人车距离、pet表示后侵入时间(即行人与车辆到达冲突区域的时间差)。
[0115]
s2、分析无信号右转交叉口的人车博弈因素，构建对应的人车博弈模型。
[0116]
通过实际场景观察与数据采集发现，依据当地交通法规规定在具体交互场景中车辆右转时需减速慢行，由于右转车辆车速相较直行车辆速度较慢，行人通行时的危险感并不强烈，大部分行人的通行意图非常强烈，并不愿意浪费时间等待。通过统计分析行人的通行行为发现，右转无信号交叉路口中由于无明确路权分布，行人普遍选择通行，而驾驶员普遍选择减速让行，由于车辆博弈失败其延误时间明显高于行人延误时间。
[0117]
本发明提出一种人车博弈模型，建立博弈公式，给定宏观决策概率，具体分析行人
通行时的影响因素。
[0118]
模型定义。(1)行人与驾驶员存在理性思考，会根据自身情况进行选择策略。(2)行人与车辆一旦进入判断区域则认定博弈开始。(3)行人与驾驶员决定是否通过服从完全信息静态博弈，双方同时决策。(4)当行人与车辆同时进入冲突区域时则认定人车发生冲突。
[0119]
模型建立。(1)玩家：在博弈过程中一共包含两位玩家，i＝1,2，i＝1代表行人，i＝2代表车辆。(2)策略：行人与车辆博弈过程中，行人与车辆拥有两种相同策略{passgae,wait}。(3)效益：博弈过程中，每个玩家将会获得其他玩家对自身的影响与自身决策的结果。包括玩家等待时的延迟损失、双方冲突下的损失以及一方等待一方通过时的收益等等。不同情况下的玩家效益将进行具体分析。
[0120]
行人与车辆在博弈中一共会产生四种决策结果，设定集合为sn，n∈[1,2,3,4]，分别对应行人车辆同时通行、行人等待车辆通行、行人通行车辆等待以及行人车辆同时等待。当行人与车辆同时进入观察区域时，驾驶员与行人开始分析并选择策略，并在下一步执行策略。博弈双方最终都将进入冲突区域，其进入冲突区域的相对时间差即为后侵入时间，象征着此次博弈的危险程度，如图2所示。
[0121]
基于上述分析，具体实施时，s2中，人车博弈模型的构建过程包括：
[0122]
s21、划分博弈阶段，设计观察区域和冲突区域，行人与车辆一旦进入观察区域则认定博弈开始；并利用后侵入时间来表征人车冲突的危险程度，所述后侵入时间为行人及车辆进入冲突区域的时间差，后侵入时间越短则危险程度越高；
[0123]
s22、基于行人与车辆在博弈中的决策策略，构建人车博弈支付矩阵；所述决策策略包括行人车辆同时通行、行人等待车辆通行、行人通行车辆等待以及行人车辆同时等待；
[0124]
当行人车辆同时通行时，
[0125]
行人的支付函数为：
[0126]
车辆的支付函数为：
[0127]
其中，vv表示行人通过速度、av表示行人加速度v
p
表示车辆通过速度、a
p
表示车辆加速度、α1表示车辆的速度与加速度的共同影响因子、α2表示行人的速度与加速度的共同影响因子、σv表示车辆的碰撞严重程度因子、σ
p
表示行人的碰撞严重程度因子，且：
[0128][0129][0130]
当行人等待车辆通行时，行人的支付函数为：
[0131]
式中，α4为通过时的等待抑制系数，t
p
为行人等待时间；
[0132]
车辆的支付函数为：
[0133]
式中，α3为通过时的速度激励系数；
[0134]
当行人通行车辆等待时，行人的支付函数为：
[0135]
式中，α3为通过时的速度激励系数，v
p
为行人通过速度；
[0136]
车辆的支付函数为：
[0137]
式中，α4为通过时的等待抑制系数，tv为车辆等待时间，0.75s为驾驶员反应时间；
[0138]
当行人车辆同时等待时，行人的支付函数为
[0139]
车辆的支付函数为
[0140]
其中，α5为共同损失下车辆的等待抑制系数；α6为共同损失下行人的等待抑制系数；k为双方的后悔度因子，后悔因子与等待过程中的起步加速度相关联，表征对采取等待策略的后悔度，起步加速度越大则后悔程度越大；
[0141]
人车博弈支付矩阵为：
[0142][0143]
从人车博弈支付矩阵中可以得知，车辆选择通过行人选择等待、行人选择通过车辆选择等待这两种策略更为合理。由于这两种策略更占优势因此在演化过程中并不稳定，通过纳什均衡原理可知，在博弈中若存在混合优势策略组合则一定存在纳什均衡点，通过计算可知车辆与行人双方的混合期望收益。
[0144]
s23、基于人车博弈支付矩阵的特征，得到人车博弈模型的期望函数及对应的损失函数；
[0145]
具体实施时，所述期望函数为车辆通过行择等待及行人通过车辆等待的混合优势策略的纳什均衡点时，车辆与行人双方的混合期望收益；
[0146]
其中，当车辆选择通过时的期望收益为：
[0147]
其中，表示行人通过的概率、为行人等待的概率；
[0148]
当车辆选择等待时的期望收益为：
[0149][0150]
对行人的纯策略收益进行分析，行人通过时的期望收益为：
[0151]
其中，表示车辆通过的概率、表示车辆等待的概率；
[0152]
当行人选择等待时的期望收益为：
[0153][0154]
当车辆的通过期望收益与等待期望收益相同时纳什均衡出现，行人的通过与等待的概率组合如下所示：
[0155][0156][0157]
当行人的通过期望收益与等待期望收益相同时纳什均衡出现，车辆的通过与等待的概率组合如下所示：
[0158][0159][0160]
s24、基于s23得到的期望函数及损失函数，构建人车博弈模型。
[0161]
s3、将人车博弈模型插入到预设的s-gan模型中，得到sdg-gan模型，用于对行人的轨迹进行预测。sdg-gan模型的结构如图3所示。
[0162]
sdg-gan模型对行人的轨迹进行预测时，对行人轨迹定义为在时间序列下的二维坐标位置变化，对行人u在t时刻下的坐标为车辆j轨迹坐标与行人坐标标定相同，车辆j在t时刻下的坐标为行人u从1到to内每个步长的历史轨迹集合xu为：
[0163][0164]
式中，1～to为行人历史轨迹的观测帧，to为观测帧长度；
[0165]
行人u从to+1到t
p
内每个步长的预测轨迹集合为：
[0166][0167]
式中，to+1～to+t
p
为行人历史轨迹的预测帧，t
p
为预测帧长度。
[0168]
行人u从to+1到t
p
内每个步长的真实历史轨迹集合yu为：
[0169][0170]
行人u从1到t
p
内的真实历史轨迹与预测生成轨迹分别为[xu,yu]和
[0171]
具体实施时，sdg-gan模型包括人车博弈模型、轨迹生成器和轨迹鉴别器；轨迹生成器用于将人车博弈模型的输出结果及行人历史轨迹进行编码解码，输出行人预测轨迹；轨迹鉴别器用于鉴别行人预测轨迹为真实轨迹的概率。
[0172]
轨迹生成器包括轨迹编码器、博弈机制模块、池化模块和轨迹解码器；
[0173]
轨迹编码器用于将每个时间步下的行人坐标位置与车辆坐标位置嵌入至含有
relu非线性激活函数的嵌入函数φ中，获得固定长度向量与再通过lstm单元编码获得行人历史轨迹特征向量与车辆历史轨迹特征向量
[0174][0175][0176]
式中，嵌入函数φ为全连接神经网络层，为嵌入函数的权重参数，为lstm单元权重参数。
[0177]
博弈机制模块用于基于人车双方的博弈支付函数，对人车双方的博弈相关数据进行提取；所述博弈相关数据包括速度、加速度、相对距离和等待时间；还用于利用每个时间步下的双方速度和与冲突区域的间隔距离获得此时的后侵入时间；利用后侵入时间数值判断此时间步下双方交互的危险程度；并通过双方此时的位置坐标判断其在观察区域或冲突区域；
[0178]
博弈机制模块还用于根据真实世界下人车双方的交互决策进行标定，获得决策下的双方具体期望得失和具体期望得失对人车双方历史轨迹特征向量进行影响得到双方博弈特征向量并融合成为人车混合博弈特征向量
[0179][0180]
式中，为行人u与车辆j各自的碰撞严重程度因子，为行人u与车辆j各自实时坐标区域，f
pet
为碰撞程度判定函数，fr为实时区域判断函数，t
pet
为人车交互时的后侵入时间，ω
pet
为碰撞程度权重参数，ωr为实时区域权重参数；
[0181][0182][0183][0184]
式中，f
pay
为博弈计算函数，为双方不同策略下的具体支付函数，f
inf
为博弈影响函数，f
mix
为博弈混合函数；
[0185]
池化模块用于将人车相对距离嵌入至嵌入函数φ中得到人车相对位置特征向量与人车混合博弈特征向量连接并通过多层感知机最后输出得到博弈池化向量
[0186][0187][0188]
式中，mlp
gp
为池化模块多层感知机网络层，cat用于连接特征向量，为对应各自网络层的权重参数；
[0189]
轨迹解码器用于将博弈池化向量与行人历史轨迹特征向量进行连接，并通过解码器模块多层感知机mlp
gd
，与网络随机高斯噪声z进行连接最后得到解码器特征向量量与经过嵌入函数编码后的行人坐标向量初始化细胞全零向量一并输入至lstm神经网络层得到向量最后将经过解码器多层感知机最终得到行人轨迹预测坐标
[0190][0191][0192][0193][0194]
式中，ω
λ
为对应网络层的权重参数。
[0195]
轨迹鉴别器的工作过程包括：将轨迹生成器输出的行人预测轨迹和真实的行人历史轨迹yu一并输入至鉴别器神经网络中，通过嵌入全连接神经网络层输出高维度特征向量再依次通过lstm神经网络层和鉴别器多层感知机，最后输出得到为真实轨迹的概率；
[0196][0197][0198][0199]
式中，为lstm网络层输出向量，对应各自网络层的权重参数，p
rea
l为判别为真实轨迹的概率。
[0200]
sdg-gan模型的损失函数l
sdg-gan
包含生成器和鉴别器的交叉熵损失函数l
gan
(g,d)与行人真实轨迹和行人预测轨迹的最小差值损失函数l
l2
(g)；
[0201]
l
sdg-gan
＝l
gan
(g,d)+l
l2
(g)；
[0202][0203][0204]
式中，e为所得期望值，r为输入的行人真实轨迹数据，s为基于模型生成结果的采样个数，z为输入的高斯噪声分布，d表示鉴别器、g表示生成器。
[0205]
s4、使用s1获取的历史数据，对sdg-gan模型进行训练。
[0206]
s5、使用训练好的sdg-gan模型对无信号右转交叉口的行人轨迹进行实时预测。
[0207]
对技术方案进行实际的实施时，发明人选取了c市bn区x大道一处无信号右转交叉路口作为数据采集地点，主要对行人与车的基本指标进行采集。由于此地点人流量密集，人
车交互频繁，导致人车冲突发生频率较高，且此场景右转第一车道具有停车位，右转车辆仅能驶入第二车道，更加精确了人车交互区域。因此此地点更加适合捕捉人车博弈过程，如图4所示。
[0208]
将采集的人车数据集输入sdg-gan模型进行训练，得到结果。在观察区域中，车辆与行人都未决策，sdg-gan算法通过现实通行概率得到行人博弈期望收益并结合人车相对位置共同影响行人轨迹预测结果，预测机制更为完善，故预测结果良好。当行人博弈成功，车辆等待时，行人动态博弈支付为正，车辆动态博弈支付为负。博弈机制会指明车辆危险性降低并激励行人向前行走。当行人博弈失败并等待时，行人动态博弈支付为负，车辆动态博弈支付为正。博弈机制会抑制行人继续前进，并扩大车辆通过的危险性。当人车冲突时，行人与车辆动态博弈支付同时为负。博弈机制表明双方发生冲突概率迅速增大，并依据双方微观数据更加细化双方冲突的严重程度对行人轨迹进行影响。当人车同时等待时，交通堵塞，通行效率降低，双方动态博弈支付皆为负，博弈机制通过后悔因子影响行人轨迹预测。
[0209]
本发明在s-gan的基础上，利用微观数据和博弈思想进行分析，得到不同时刻下无信号右转交叉口的人车的宏观交互策略；同时对人车交互进行阶段划分，包括观察区域与冲突区域。当处于观察区域中时，双方博弈支付收益通过概率获取其期望收益。当双方处于冲突区域时则判定已有决策，直接获取双方策略收益，实现对人车的博弈过程进行更为细致的分析。并且，本发明分析可无信号右转交叉口的特殊交互场景下的具体人车博弈因素，划分了博弈阶段，并利用侵犯后时间指标来区分人车冲突的危险程度，还通过与起步加速度相关联的“后悔因子”来表征博弈双方的后悔度，尽可能的综合考虑了博弈双方的各种因素，并在此基础上建立了人车博弈支付矩阵。并且，还结合完全信息博弈的纳什均衡思想嵌入深度学习网络模型中，实现对行人轨迹的预测。并在此基础上构建了sdg-gan模型。sdg-gan算法融合宏观博弈与微观运动参数，对人车双方关系考虑更为全面，能够表达博弈状态下行人的真实反映，提高了预测行人轨迹的精准度及可解释性。之后，通过微观人车交互数据和宏观人车博弈策略收益共同驱动sdg-gan模型对行人进行轨迹预测。通过这样的方式，本发明在实际交互场景中结合微观运动因素以及宏观博弈决策，将博弈思想加入人车交互状态中，可以对无信号右转交叉口的行人轨迹进行准确的预测。本发明可以保证对无信号右转交叉口的行人轨迹的预测准确性，保证无信号右转交叉口的辅助驾驶决策的有效性，从而兼顾车辆通过无信号右转交叉口的效率及安全性。
[0210]
最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

技术特征：
1.一种基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于，包括以下步骤：s1、获取行人及车辆在无信号右转交叉口的历史数据；s2、分析无信号右转交叉口的人车博弈因素，构建对应的人车博弈模型；s3、将人车博弈模型插入到预设的s-gan模型中，得到sdg-gan模型，用于对行人的轨迹进行预测；s4、使用s1获取的历史数据，对sdg-gan模型进行训练；s5、使用训练好的sdg-gan模型对无信号右转交叉口的行人轨迹进行实时预测。2.如权利要求1所述的基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于：s2中，人车博弈模型的构建过程包括：s21、划分博弈阶段，设计观察区域和冲突区域，行人与车辆一旦进入观察区域则认定博弈开始；并利用后侵入时间来表征人车冲突的危险程度，所述后侵入时间为行人及车辆进入冲突区域的时间差，后侵入时间越短则危险程度越高；s22、基于行人与车辆在博弈中的决策策略，构建人车博弈支付矩阵；所述决策策略包括行人车辆同时通行、行人等待车辆通行、行人通行车辆等待以及行人车辆同时等待；s23、基于人车博弈支付矩阵的特征，得到人车博弈模型的期望函数及对应的损失函数；s24、基于s23得到的期望函数及损失函数，构建人车博弈模型。3.如权利要求2所述的基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于：s22中，当行人车辆同时通行时，行人的支付函数为：车辆的支付函数为：其中，v
v
表示行人通过速度、a
v
表示行人加速度v
p
表示车辆通过速度、a
p
表示车辆加速度、α1表示车辆的速度与加速度的共同影响因子、α2表示行人的速度与加速度的共同影响因子、σ
v
表示车辆的碰撞严重程度因子、σ
p
表示行人的碰撞严重程度因子，且：表示行人的碰撞严重程度因子，且：当行人等待车辆通行时，行人的支付函数为：式中，α4为通过时的等待抑制系数，t
p
为行人等待时间；车辆的支付函数为：式中，α3为通过时的速度激励系数；当行人通行车辆等待时，行人的支付函数为：
式中，α3为通过时的速度激励系数，v
p
为行人通过速度；车辆的支付函数为：式中，α4为通过时的等待抑制系数，t
v
为车辆等待时间，0.75s为驾驶员反应时间；当行人车辆同时等待时，行人的支付函数为车辆的支付函数为其中，α5为共同损失下车辆的等待抑制系数；α6为共同损失下行人的等待抑制系数；k为双方的后悔度因子，后悔因子与等待过程中的起步加速度相关联，表征对采取等待策略的后悔度，起步加速度越大则后悔程度越大；人车博弈支付矩阵为：4.如权利要求3所述的基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于：s23中，所述期望函数为车辆通过行人选择等待及行人通过车辆选择等待的混合优势策略的纳什均衡点时，车辆与行人双方的混合期望收益；其中，当车辆选择通过时的期望收益为：其中，表示行人通过的概率、为行人等待的概率；当车辆选择等待时的期望收益为：对行人的纯策略收益进行分析，行人通过时的期望收益为：其中，表示车辆通过的概率、表示车辆等待的概率；当行人选择等待时的期望收益为：当车辆的通过期望收益与等待期望收益相同时纳什均衡出现，行人的通过与等待的概率组合如下所示：
当行人的通过期望收益与等待期望收益相同时纳什均衡出现，车辆的通过与等待的概率组合如下所示：与等待的概率组合如下所示：5.如权利要求4所述的基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于：sdg-gan模型对行人的轨迹进行预测时，对行人轨迹定义为在时间序列下的二维坐标位置变化，对行人u在t时刻下的坐标为车辆j在t时刻下的坐标为行人u从1到to内每个步长的历史轨迹集合x
u
为：式中，1～to为行人历史轨迹的观测帧，to为观测帧长度；行人u从to+1到t
p
内每个步长的预测轨迹集合为：式中，to+1～to+t
p
为行人历史轨迹的预测帧，t
p
为预测帧长度；行人u从to+1到t
p
内每个步长的真实历史轨迹集合y
u
为：行人u从1到t
p
内的真实历史轨迹与预测生成轨迹分别为[x
u
,y
u
]和6.如权利要求5所述的基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于：s3中，所述sdg-gan模型包括人车博弈模型、轨迹生成器和轨迹鉴别器；轨迹生成器用于将人车博弈模型的输出结果及行人历史轨迹进行编码解码，输出行人预测轨迹；轨迹鉴别器用于鉴别行人预测轨迹为真实轨迹的概率。7.如权利要求6所述的基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于：轨迹生成器包括轨迹编码器、博弈机制模块、池化模块和轨迹解码器；轨迹编码器用于将每个时间步下的行人坐标位置与车辆坐标位置嵌入至含有relu非线性激活函数的嵌入函数φ中，获得固定长度向量与再通过lstm单元编码获得行人历史轨迹特征向量与车辆历史轨迹特征向量与车辆历史轨迹特征向量与车辆历史轨迹特征向量式中，嵌入函数φ为全连接神经网络层，为嵌入函数的权重参数，为lstm单元权重参数；
博弈机制模块用于基于人车双方的博弈支付函数，对人车双方的博弈相关数据进行提取；所述博弈相关数据包括速度、加速度、相对距离和等待时间；还用于利用每个时间步下的双方速度和与冲突区域的间隔距离获得此时的后侵入时间；利用后侵入时间数值判断此时间步下双方交互的危险程度；并通过双方此时的位置坐标判断其在观察区域或冲突区域；博弈机制模块还用于根据真实世界下人车双方的交互决策进行标定，获得决策下的双方具体期望得失和具体期望得失对人车双方历史轨迹特征向量进行影响得到双方博弈特征向量并融合成为人车混合博弈特征向量并融合成为人车混合博弈特征向量式中，为行人u与车辆j各自的碰撞严重程度因子，为行人u与车辆j各自实时坐标区域，f
pet
为碰撞程度判定函数，f
r
为实时区域判断函数，t
pet
为人车交互时的后侵入时间，ω
pet
为碰撞程度权重参数，ω
r
为实时区域权重参数；为实时区域权重参数；为实时区域权重参数；式中，f
pay
为博弈计算函数，为双方不同策略下的具体支付函数，f
inf
为博弈影响函数，f
mix
为博弈混合函数；池化模块用于将人车相对距离嵌入至嵌入函数φ中得到人车相对位置特征向量与人车混合博弈特征向量连接并通过多层感知机最后输出得到博弈池化向量连接并通过多层感知机最后输出得到博弈池化向量连接并通过多层感知机最后输出得到博弈池化向量式中，mlp
gp
为池化模块多层感知机网络层，cat用于连接特征向量，为对应各自网络层的权重参数；轨迹解码器用于将博弈池化向量与行人历史轨迹特征向量进行连接，并通过解码器模块多层感知机mlp
gd
，与网络随机高斯噪声z进行连接最后得到解码器特征向量，与网络随机高斯噪声z进行连接最后得到解码器特征向量与经过嵌入函数编码后的行人坐标向量初始化细胞全零向量一并输入至lstm神经网络层得到向量最后将经过解码器多层感知机最终得到行人轨迹预测坐标测坐标测坐标
式中，ω
λ
为对应网络层的权重参数。8.如权利要求7所述的基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于：s3中，轨迹鉴别器的工作过程包括：将轨迹生成器输出的行人预测轨迹和真实的行人历史轨迹y
u
一并输入至鉴别器神经网络中，通过嵌入全连接神经网络层输出高维度特征向量再依次通过lstm神经网络层和鉴别器多层感知机，最后输出得到为真实轨迹的概率；率；率；式中，为lstm网络层输出向量，对应各自网络层的权重参数，p
real
为判别为真实轨迹的概率。9.如权利要求8所述的基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于：s3中，sdg-gan模型的损失函数l
sdg-gan
包含生成器和鉴别器的交叉熵损失函数l
gan
(g,d)与行人真实轨迹和行人预测轨迹的最小差值损失函数l
l2
(g)；l
sdg-gan
＝l
gan
(g,d)+l
l2
(g)；(g)；式中，e为所得期望值，r为输入的行人真实轨迹数据，s为基于模型生成结果的采样个数，z为输入的高斯噪声分布，d表示鉴别器、g表示生成器。10.如权利要求9所述的基于博弈论的无信号右转交叉口行人轨迹预测方法，其特征在于：s1中，历史数据包括：视频的帧数、行人的坐标、行人的加速度、行人的等待时间、车辆的坐标、车辆的加速度、车辆的等待时间、人车距离以及后侵入时间；所述人车距离为行人与车辆之间的欧式距离。

技术总结
本发明属于行人轨迹预测技术领域，尤其涉及一种基于博弈论的无信号右转交叉口行人轨迹预测方法，包括以下步骤：S1、获取行人及车辆在无信号右转交叉口的历史数据；S2、分析无信号右转交叉口的人车博弈因素，构建对应的人车博弈模型；S3、将人车博弈模型插入到预设的S-GAN模型中，得到SDG-GAN模型，用于对行人的轨迹进行预测；S4、使用S1获取的历史数据，对SDG-GAN模型进行训练；S5、使用训练好的SDG-GAN模型对无信号右转交叉口的行人轨迹进行实时预测。本发明可以保证对无信号右转交叉口的行人轨迹的预测准确性，保证无信号右转交叉口的辅助驾驶决策的有效性，从而兼顾车辆通过无信号右转交叉口的效率及安全性。右转交叉口的效率及安全性。右转交叉口的效率及安全性。

技术研发人员：李文礼唐远航张祎楠龚小豪
受保护的技术使用者：重庆理工大学
技术研发日：2023.01.31
技术公布日：2023/6/27

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：通信管理装置、通信管理方法以及通信管理程序与流程 下一篇：一种智慧城市的安全预防系统的制作方法

一种基于博弈论的无信号右转交叉口行人轨迹预测方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于博弈论的无信号右转交叉口行人轨迹预测方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表