自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质与流程

未命名 07-20 阅读：106 评论：0

1.本发明总体涉及用于自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质。

背景技术：

2.强化学习(rl)是机器学习的一个分支，在为高度自动化或自主车辆(也称为虚拟驾驶员)创建决策算法方面显示出巨大潜力。特别地，在需要考虑大量信息的复杂环境中，rl与手工制作的虚拟驱动程序相比具有优势。使用rl算法，虚拟驾驶员通过与环境交互自动获得最佳行为。这种最佳行为由一个策略来描述，将代理感知的环境状态映射到代理可用的动作。获得最佳行为是在试错的基础上实现的。换句话说，基于感知的状态，代理(虚拟驾驶员)选择要执行的动作，以实现预期目标，例如到达预定义的目的地。通过加强给定的状态动作对(state-aciton pair)的正面结果(“培训情景”)修改该策略，而负面结果则被削弱。由此，获得了导致改进结果的自动进化过程。
3.鉴于潜在的过程，可靠性必须通过环境交互来学习。然而，这通常会在培训和应用过程中导致潜在的不可预见的配置(交通情景)。在驾驶情况下代表可靠性保证的约束(也称为“道路常识规则”)很难纳入此类rl程序。
4.解决此问题的一种方法是在基础评估过程中包含指定的控制器。控制器监控所选的离散动作，并且将所选的动作转换为“可靠动作”。然而，这种方法需要考虑所有可能的动作空间。换句话说，对于影响车辆运动的所有可能措施，需要规定可靠的约束。因此，如果甚至可以预先识别所有可能的“不期望”动作，这种方法会导致复杂的监管情景。
5.另一种方法包括通过应用额外的优化程序来优化每个时间步的“要执行的动作”，并且可选地，包括其他条件，例如每次激活单个约束。换言之，二次评估过程适用于潜在的可靠性方面。尽管该方法也可以应用于连续动作，但该方法会导致较高的计算工作量，并且通常在计算资源有限的汽车应用中不可行。
6.一些替代方法会删除可用的动作集，从而排除“不希望的”动作。这可以在代理决定动作之前的预处理步骤中实现，也可以在代理已经做出决定之后的后处理步骤中完成。在后一种情况下，动作被分配不同的优先级，并且选择执行可靠且具有最高优先级的动作。
7.要提及的相关现有技术是出版物us 9977430 b2、cn 106157650 a、cn 110562258a和cn 109598934a。
8.然而，所有现有技术的方法都基于包括人为的可靠性约束使得动作空间受到限制。因此，需要首先识别“不期望的”动作，并且需要包括对这些动作做出反应的某些措施，这在计算上是昂贵的。
9.因此，需要提供一种用于自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质，其允许优选地也在训练阶段省略人工约束。

技术实现要素：

10.根据独立权利要求的主题服务于各自的需要。附加的实施例在从属权利要求和以下描述中被指示，其中的每一个单独地或组合地可以表示本发明的方面。本发明的一些方面是关于方法而呈现的，其他方面是关于相应的设备而呈现的。然而，这些特征也相应地被转换，反之亦然。
11.下面阐述本文公开的某些实施例的概要。应当理解，呈现这些方面仅仅是为了提供这些实施例的简要概述，并且这些方面不旨在限制本发明的范围。本发明可以包含以下可能未阐述的各种方面。
12.根据一方面，提供了一种用于自主驾驶车辆的方法。车辆包括至少一个感测设备和至少一个运动控制器。运动控制器被配置为如果至少一个控制值(表示为：a)被提供给运动控制器，则影响车辆的运动。该方法至少包括以下步骤：
13.s1至少基于利用感测设备获取的关于车辆的环境的数据来确定车辆的至少一个状态(表示为：s)；
14.s2使用深度神经网络基于有界激活函数确定车辆的至少一个运动控制器的至少一个归一化动作(表示为：)。有界激活函数被配置为相对于车辆的至少一个状态限制至少一个归一化动作以及
15.s3使用边界提取函数将至少一个归一化动作映射到至少一个控制值(a)。边界提取函数被配置为基于车辆的状态提供至少一个上限和至少一个下限，以限制至少一个控制值(a)，使得在向车辆的至少一个运动控制器提供至少一个控制值(a)时限制车辆的运动。
16.一般来说，深度神经网络由大量分层组织的连接神经元组成。深度神经网络允许从训练示例中自动学习特征。在这方面，如果神经网络具有输入和输出层以及至少一个隐藏的中间层，那么它被认为是“深度”的。每个节点都是根据来自前一层中的多个节点的加权输入来计算的。换句话说，在学习过程中，虚拟驾驶员(自主车辆)遵循描述深度神经网络机制的随机初始化策略π(s；θ
μ
)。这里，(s)描述了车辆的确定状态，θ
μ
描述了特定神经元的相应输入和输出信号之间所有神经元的权重。换言之，π(s；θ
μ
)描述了车辆至少一个运动控制器从确定状态到归一化输出动作的特定映射策略。因此，基于策略π(s；θ
μ
)，归一化动作将被限制在预定义的间隔内。取决于由车辆的状态确定的边界的边界提取函数用于相对于控制值(a)重新缩放预定间隔。特别地，控制值(a)表示可提供给至少一个运动控制器以影响车辆运动的量。通过重新缩放预定义的间隔，车辆的运动被限制在一个范围内，从而避免车辆的不希望的运动。可以通过提取车辆的状态的适当边界来考虑这些不需要的运动。这是因为状态不仅包括关于本车辆(这里“自我”表示被检测的车辆)的信息，而且还包括关于本车辆遇到的一般交通情景的信息。作为示例，基于状态中包括的信息可以确定下限和上限，因为考虑到车辆的环境而获取的数据可以指示要排除车辆的特定运动以避免“不期望的”动作。据此确定的控制值(a)影响车辆的运动，从而自动遵守用户定义的条件以仅允许“可靠”的动作。
17.换言之，鉴于本方法的架构，可靠性方面被自动考虑。特定的架构强制虚拟驾驶员在训练期间以及在常规操作期间保持在特定的预定义状态相关边界内。可以避免基于先前
领域知识手动应用可靠性程序(例如可靠性控制器等)以确保整个学习阶段的可靠性。此外，无需应用优先级排序过程。此外，在应用该方法之前，不需要预先识别车辆的“不期望”动作。相反，当确定自主传播到确定归一化动作以及确定最终影响车辆的运动的控制值(a)的过程中的状态时，可以包括相对条件。
18.由于相对可靠性度量被锚定在深度神经网络本身的架构内，因此可以毫无疑问地表明，在完成训练过程之后，相对可靠性方面也得到了尊重。鉴于在学习过程中未遇到的潜在情况(车辆相对于其环境的状态)，这是特别有利的。
19.在本上下文中，至少一个感测设备可以被认为是被配置为获取数据的设备，以在至少一个方面确定本车辆相对于环境的状态以及车辆相对于布置在本车辆的环境内的其他车辆的状态。例如，感测设备可以被认为是摄像机、光检测和测距(lidar)设备、无线电检测和测距(雷达)设备、全球导航卫星系统(gnss)设备、接近度传感器设备、超声波传感器设备等。感测设备可以被配置为相对于本车辆登记、识别和解释周围环境。
20.在本上下文中，运动控制器可以被认为代表致动器、发动机或被配置为影响被检测车辆(本车辆)的运动的设备。例如，运动控制器可以是被配置为改变车辆运动方向的转向系统。特别地，可以向运动控制器提供控制值(a)，作为指定如何影响车辆运动的措施。然后，运动控制器可以相应地调整车辆的运动。相比之下，归一化动作更具体规定了如何实现特定目标的更高层次的衡量标准，例如到达指定的目的地。尽管归一化动作可以表示命令“车道改变”，但控制值(a)可以被认为精确地确定转向装置应该如何反应。
21.在本上下文中，车辆可以被认为是配置用于在不同目的地之间运输物体、货物或人的设备。示例性车辆包括陆基车辆(例如汽车等)、有轨车辆、飞机或船舶。优选地，车辆可以被认为是当前上下文中的基于道路的车辆，例如汽车、卡车、公共汽车等。
22.在一些实施例中，该方法还可以包括至少基于连续概率分布来确定深度神经网络的可靠的探索机制的步骤。可以考虑由边界提取函数提供的至少一个上限和至少一个下限来确定连续概率分布。
23.特别地，连续分布可以表示高斯分布、泊松分布等，优选高斯分布。
24.此外，在一些实施例中，该方法还可以包括使用至少一个强化学习(rl)算法来训练深度神经网络的步骤，该算法包括基于可靠的探索机制的相关数据。相关数据可以包括所确定的车辆的至少一个状态和取决于其的所确定的车辆的至少一个运动控制器的至少一个归一化动作在替代方案中，相关数据可以包括所确定的车辆的至少一个状态和取决于其的所确定的至少一个控制值(a)。
25.在这方面，rl程序基于奖励系统。基于所确定的与车辆的基础状态相关的归一化动作(即，基于状态动作对)，虚拟驾驶员将获得一定的奖励该奖励系统用于通过重复运行状态动作对来更新和改进描述深度神经网络内在神经元相互作用的权重的映射策略。
26.此外，为了探索新的、潜在更有效的策略，可能导致改进的策略π(s；θ
μ
)。虚拟驾驶员也会反复偏离当前策略并且随机尝试新动作关于如何修改策略的参数向量θ
μ
的细节取决于所选的rl算法。
27.在这方面，本方法为基础rl算法提供了可靠的探索机制。该可靠的探索机制是基
于连续概率分布确定的，该概率分布自然允许与基础状态动作对(如前所述的相关数据)的标称归一化动作的偏差。然而，可靠的探测机制确保rl算法在优化深度神经网络的策略时，仅当边界限制可靠的探测机制时才偏离标称归一化动作由于可靠的探索机制的边界由直接取决于车辆的状态的边界提取函数提供的下限和上限确定，因此在探索程序中固有地考虑了车辆的运动的相对限制。因此，提供了一种程序，该程序能够至少部分地取决于车辆的环境，在特定边界内偏离标称归一化动作从而自动避免车辆的不希望的“不期望的”运动。这种内在的可靠性度量被锚定在学习过程本身中。对映射策略进行了更新，并且获得了优化的策略因此，在学习阶段以及在应用如此训练的深度神经网络期间避免了不必要的探索。可以有利地避免手动考虑可靠性策略的需要。此外，不需要应用可靠性控制器或优先级排序过程。
28.此外，本训练程序不依赖于特定的rl算法。它只需要使用一个明确的参与者网络，这是所有基于策略或参与者评价者(actor-critic)方法的情况。
29.如果边界提取函数相对于基础归一化动作是可微的，则相关数据还可以包括状态和依赖于该状态的至少一个确定的控制值(a)。
30.在一些实施例中，该方法还可以包括利用感测设备获取关于车辆的环境的数据的步骤。此外，该方法可以包括利用感测设备获取布置在车辆的环境内的车辆以及与之相关的数据的步骤。此外，该方法可以包括至少基于所获取的关于车辆的环境的数据和所获取的关于布置在车辆的环境内的车辆以及与其相关的数据来确定车辆的至少一个状态的步骤。
31.换言之，车辆的状态不仅可以描述车辆本身的特性，还可以包括布置在车辆的环境内的车辆的特定特性。为了实现这一点，可以应用感测设备来获取车辆相对于环境的特性。例如，可以感测车辆的速度和位置等。然而，此信息仅描述车辆本身的特性。它至少部分地忽略了通常强烈依赖于其他交通参与者的当前的交通情景。因此，在本车辆的环境内，可以使用感测设备感测其他车辆的数据。通常，数据将同时采集。由于本车辆正在接受检测，因此通常会获取关于本车辆的其他车辆的数据。例如，可以确定相对位置和速度。基于这两组信息，本车辆的状态是可确定的。因此，状态不仅描述了本车辆自身的交通状况，还描述了布置在本车辆的环境内的其他车辆。
32.可选地，本车辆的状态可以被归一化以提供归一化状态例如，可以认为，当适当地描述本车辆时，可能只需要包括有限数量的相邻车辆或关于根据有限环境布置的车辆获取的数据。因此，可以确定归一化状态这是有利的，因为可以减少计算费用。例如，为了确定本车辆的动作，如果车辆被布置在本车辆的左侧四车道，则可以省略。此外，相对于本车辆以较大距离布置的其他车辆可能被省略。在已经确定了归一化状态之后，可以将该信息提供给深度神经网络以确定归一化动作由于归一化状态包括较少的信息量，因此可以提高确定过程的稳定性。
33.考虑到状态中包括的信息，可以适当地提取用于限制车辆的运动的边界。因此，边界可以确保避免本车辆的不希望的运动。在这方面，在本方法中应用了边界探测函数。因此，控制值(a)也可以包括相应的边界。
34.可选地，可以预定义本车辆的环境。例如，环境可以包括围绕本车辆的特定区域，例如与本车辆的车道相邻的特定数量的车道。此外，环境可以包括相对于驾驶方向在本车辆前后的特定范围。因此，环境提供了使虚拟驾驶员适应实际情形的简单措施。环境也可以基于一般交通情景而不同。例如，高速公路交通情景可以需要与本车辆相关的第一环境，而市中心交通情景可以要求不同的环境来反映实际情形。
35.可选地，当获取关于本车辆和其他车辆的数据时，可以应用不同的感测设备。例如，尽管可以基于gnss设备来感测(本)车辆的速度，但是可以应用lidar设备来感其他车辆的相对位置和速度。
36.在一些实施例中，该方法还可以包括基于所确定的车辆的状态来确定车辆的至少一个运动控制器的至少一个速度设定点和/或位置设定点的步骤。
37.由于车辆的状态还包括布置在车辆的环境内的其他车辆的信息，因此可以确定设定点以相应地考虑这些信息。因此，如果状态显示附加车辆横向布置在本车辆旁边，则可以防止改变车道。此外，可以考虑在本车辆前面移动的另一车辆的速度，从而通过适当地确定速度设定点来避免车辆之间距离的减小。
38.速度设定点可以指纵向速度设定点，例如根据车辆的向前或向后运动。位置设定点可以指车辆的至少一个运动控制器的横向位置设定点。例如，横向位置可以与相对于车辆的车道或相对于基础路径的结构限制的相对位置相关。
39.可选地，可以考虑关于车辆的目的地信息的至少一个信息来确定设定点。
40.在一些实施例中，可以基于威胁评估算法来确定至少一个速度设定点，以将其限制在下限速度设定点和上限速度设定点之间。可替换地或累积地，可以基于威胁评估算法来确定车辆的位置的至少一个设定点，以将其限制在下限位置设定点和上限位置设定点之间。威胁评估算法可以包括关于下限和上限限制设定点的条件。例如，威胁评估算法可以考虑，如果另一车辆正在接近该区域，则可能不执行朝向本车辆的相邻车道的车道改变。在这种情况下，可以设置边界，使得位置设定点被排除在该区域之外。有利地，基于车辆的状态来确定下限和上限设定点。换句话说，边界是相对于本车辆确定的。
41.可选地，下限速度设定点可以为零。上限速度设定点可以基于车辆与位于车辆前方的最近车辆之间的速度差和间隙。下限位置设定点可以基于相对于车辆的最小可用横向间隙。在这方面，可以考虑到所获取的关于布置在车辆的环境内的车辆及与之相关的数据来确定最小可用横向间隙。基于这些方面，通过相应地限制设定点，“道路常识规则”可以很容易地包括在内。
42.可以由计算机至少实现上述方法的步骤s1至s3。
43.根据另一方面，提供了一种数据处理电路，其包括用于至少执行上述方法的步骤s1至s3的装置。
44.根据又一方面，提供了一种包括指令的计算机程序，当该程序由计算机执行时，该指令使计算机至少执行上述方法的步骤s1至s3。
45.根据又一方面，提供了一种包括指令的计算机可读介质，当该指令由计算机执行时使计算机至少执行上述方法的步骤s1至s3。
46.根据又一方面，提供了一种用于车辆的自主驾驶系统。自主驾驶系统包括至少一个感测设备、至少一个运动控制器和至少一个数据处理电路。数据处理电路连接到至少一
个感测设备和至少一个运动控制器。至少一个运动控制器被配置为如果向其提供至少一个控制值(a)，则影响车辆的运动。至少一个感测设备被配置为获取关于车辆的环境的数据。数据处理电路被配置为至少执行上述方法的步骤s1至s3。例如，至少一个运动控制器还可以包括被配置为自主驱动驾驶车辆的控制和伺服单元。
附图说明
47.所要求保护的主题的前述方面和进一步的优点将变得更容易理解，因为当结合附图进行时，通过参考以下详细描述将更好地理解这些方面和优点。
48.在附图中，
49.图1是根据一些实施例的用于自主驾驶车辆的方法的示意图；
50.图2是有界行动者架构(the bounded actor architecture)和有界探索采样(bounded exploration sampling)的示意图；
51.图3是车辆及其环境的示意图；
52.图4是深度神经网络的示意图；
53.图5是取决于车辆的环境的边界的示意图；
54.图6是自主车辆的高级反馈控制系统的示意图；以及
55.图7是包括自主驾驶系统的车辆的示意图。
具体实施方式
56.下面结合附图给出的详细描述(其中相同的附图标记表示相同的元件)旨在作为所公开主题的各种实施例的描述，而不旨在表示唯一的实施例。本发明中描述的每个实施例仅作为示例或说明而提供，不应被解释为优于或优越于其他实施例。本文提供的说明性示例不旨在穷尽或将所要求保护的主题限制为所公开的精确形式。对所描述的实施例的各种修改对于本领域技术人员来说将是显而易见的，并且在不脱离所描述实施例的精神和范围的情况下，本文定义的一般原理可以应用于其他实施例和应用。因此，所描述的实施例不限于所示的实施例，而是要符合与本文公开的原理和特征一致的最宽范围。
57.下文中关于示例实施例和/或附图公开的所有特征可以单独或以任何子组合与本公开的方面的特征组合，包括其优选实施例的特征，前提是所得到的特征组合对于本领域技术人员来说是合理的。
58.为了本发明的目的，短语“a、b和c中的至少一个”例如意味着(a)、(b)、(c)、(a和b)，(a和c)，(b和c)或(a、b和c)，包括当列出多于三个元素时的所有其他可能的排列。换句话说，术语“a和b中的至少一个”通常指“a和/或b”，即单独“a”、单独“b”或“a和b”。
59.图1是根据一些实施例的用于自主驾驶车辆的方法10的示意图。该方法包括强制步骤和可选步骤。可选步骤以虚线示出，并且可以单独地或以(子)组合的方式与方法10的强制步骤组合。
60.用于自主驾驶车辆的方法10包括步骤12，步骤12至少基于利用感测设备获取的关于车辆的环境的数据来确定车辆的至少一个状态。因此，车辆的状态在车辆自身确定的固有特性和车辆的环境特性以及布置在其中的其他物体方面表征车辆。
61.随后，方法10包括步骤14，使用深度神经网络基于有界激活函数来确定车辆的至
少一个运动控制器的至少一个归一化动作因此，有界激活函数被配置为相对于车辆的至少一个状态限制至少一个归一化动作运动控制器表示被配置为影响车辆运动的装置，例如致动器。归一化动作表示一种取决于寻求实现期望目标所依据的状态的措施，例如到达指定目的地。由于车辆的状态也包括关于车辆的环境的信息，因此在这方面自动提供了归一化动作的固有限制。例如，状态可以包括仅单个车道布置在车辆左侧的信息。因此，当确定归一化动作时，可以从可用动作空间中排除指示向左双车道变化的归一化动作。
62.此外，方法10包括使用边界提取函数将至少一个归一化动作映射到至少一个控制值(a)的步骤16。边界提取函数被配置为基于车辆的状态提供至少一个上限和至少一个下限，以限制至少一个控制值(a)使得当向车辆的至少一个运动控制器提供至少一个控制值(a)时，车辆的运动受到限制。通常，基于控制值(a)，运动控制器可以引起车辆运动的改变。然而，边界提取函数可以分析车辆的状态并且提取某些边界。可以应用这些边界来限制控制值(a)的可用值空间。例如，状态可以包括如下信息：当为该车道提供基础路径时，因此通常可以向车辆左侧改变车道。然而，状态还可以包括相对于本车辆占用下一个车道的附加车辆的信息。因此，实际改变车道应更加小心且以较小的横向速度进行。因此，出于可靠性原因，控制值(a)的可用值空间可能受到限制。因此，可以确定基于状态确定的边界，使得控制值(a)受到限制。
63.因此，考虑到基础的有界行动者架构的固有架构，方法10提供了车辆的可靠自主驾驶。在训练阶段以及应用基础深度神经网络期间实现了车辆的可靠操控。可以避免手动包括人工可靠性规则、可靠性控制器或优先级排序过程。与现有技术方法相比，有利地减少了计算费用。
64.方法10可以通过以下可选步骤进一步发展。
65.方法10可以包括可选步骤18，可选步骤18利用感测设备获取关于本车辆的环境的数据。
66.此外，方法10可以包括可选步骤20，可选步骤20利用感测设备获取布置在车辆的环境内的车辆的数据及其相关数据。可选地，可以同时执行步骤18和20。
67.此外，方法10可以包括可选步骤22，可选步骤22至少基于所获取的关于车辆的环境的数据和所获取的关于布置在车辆的环境内的车辆及其相关数据来确定车辆的至少一个状态。因此，状态不仅包括关于本车辆的信息，还包括关于其他车辆的信息。在一些示例中，状态可以包括诸如车辆自身在道路上的位置和速度、到最近车道中心和道路边缘的距离、到道路上其他车辆的横向和纵向距离、以及其他车辆相对于自身车辆的横向相对速度和纵向相对速度等信息。
68.此外，方法10可以包括确定车辆的至少一个归一化状态的可选步骤24。与本车辆的状态相比，归一化状态可能会忽略某些信息。例如，如果额外的车辆被布置在中间或者如果这些车辆被布置得距离较大，则可以省略车辆的信息。因此，可以实现计算费用的减少。可选地，可以省略步骤22，并且可以仅确定车辆的归一化状态
69.随后，方法10可以包括可选步骤26，可选步骤26基于确定的车辆的状态确定车辆的至少一个运动控制器的至少一速度设定点和/或位置设定点。设定点可以被确定为通常
实现更高级别的目标，例如到达预定目的地。由于状态也包括关于其他车辆的信息，因此很明显，可能需要选择设定点，以防止本车辆运动的不希望的“不期望的”变化。因此，设定点相应地包括基础信息从而考虑特定边界。由于在确定控制值(a)时包括边界，因此相应地限制动作以避免“不期望的”交通配置。
70.可选地，方法10还可以包括至少基于连续概率分布来确定深度神经网络的可靠的探索机制的步骤28。这里，考虑由边界提取函数提供的至少一个上限和至少一个下限来确定连续概率分布。深度神经网络的训练通常是在试错的基础上进行，遵循新的路线来实现期望的目标。在这方面，考虑到表示网络神经元的输入-输出权重的映射策略，深度神经网络可以遵循最初不受该方法影响的新结果。换言之，深度神经网络可能会稍微偏离确定的动作路线，以探索这种偏离是否会导致甚至改善的结果。为了提供这样一种可靠的探索机制，可以应用一种能够在一定概率下实现偏差的概率分布。在这方面，考虑了车辆的状态确定的边界，以防止可能导致不希望的“不期望的”动作的偏差。
71.因此，方法10可以包括使用至少一个rl算法来训练深度神经网络的可选步骤30，该rl算法包括基于可靠的探索机制的相关数据。相关数据包括所确定的车辆的至少一个状态和取决于其的所确定的车辆的至少一个运动控制器的至少一个归一化动作。可替换地，相关数据包括所确定的车辆的至少一个状态和取决于其的所确定的至少一个控制值。rl算法探索了映射策略，映射策略使用奖励系统以试错方法指定深度神经网络中神经元的权重。因此，正面结果会自动增强，而负面结果会减弱。因此，映射策略被自动调整和优化。
72.图2是有界行动者架构44和有界探索采样82的示意图40。
73.基于由至少一个感测设备感测的数据来确定车辆相对于环境和布置在其中的其他车辆的状态42。车辆的状态42作为输入被提供给有界行动者架构44。然后，有界行动者架构44的一个分支包括随后通过忽略某些信息(如果可能)来确定车辆的归一化状态46。
74.在这方面，图3是车辆50及其环境52的示意图48。可以根据威胁评估算法预定义环境52。例如，可以预定义环境52相对于本车辆50的尺寸，以实现考虑到交通状况的计算费用和潜在威胁之间的折衷。
75.当确定车辆的状态42时，还感测布置在环境52内的其他车辆54a至54e、56a、56b，以确定它们相对于本车辆50的相对位置、速度等。例如，由于车辆56c被布置在环境52之外，该车辆的数据将不包括在状态42内。此外，当确定归一化状态46时，可以考虑额外的条件，例如省略除了布置在本车辆50旁边的相邻五个车辆54a至54e之外的所有车辆，以进一步减少计算费用。自然，考虑到相邻车辆54a至54e被布置为最接近本车辆50，不希望的“不期望的”交通状况可能主要发生。因此，在该示例中，当确定归一化状态46时，车辆56a、56b被省略。由于车辆50相对于其环境的状态42已经包括关于一般交通状况的信息(例如车道60a至60c的车道配置)，因此该信息也包括在车辆50的归一化状态46中。
76.可选地，如果没有车辆相对于本车辆50布置在环境52内，则出于计算原因，可以在状态42内考虑幽灵车辆(ghost vehicle)58。幽灵车辆58可以被认为是在由环境52限定的最大距离处以最大允许速度行驶的参考车辆。然后，可以在比较过程中使用幽灵车辆58来识别相关车辆54、56。
77.在有界行动者架构44内，归一化状态46随后被应用于深度神经网络62。
78.深度神经网络的一般架构如图4所示。深度神经网络62包括布置在相邻层66a、66b中的多个神经元64。神经元64具有一个输出y和几个输入u1,
…
,um。线68表示不同神经元连接之间的概率，其也可以被认为是由激活函数f描述的映射策略的权重。换句话说，输出通常由y＝f(w1u1+w2u2+
…
+mum)确定。这意味着，将各种权重wi相加作为叠加，使得y的值由非线性激活函数f确定。
79.由于归一化状态46被用作深度神经网络62的输入，因此使用深度神经网络60确定的动作70也被归一化。换句话说，由于归一化状态46已经包括所确定的归一化动作70的可用空间受限的信息(例如车道配置)，因此本过程的特定映射策略π(s；θ
μ
)表示有界激活函数。这里，θ
μ
表示包含在基础深度神经网络62中的神经元64的所有权重的参数向量。
80.图5是取决于车辆50的环境52的边界的示意图。
81.在第一配置72中，车辆50的环境52没有其他车辆。因此，归一化动作70的上限74a是+1，其中归一化动作70的下限74b是-1。换言之，环境52的整个横向范围可用于映射过程，基于该映射过程使用深度神经网络62确定归一化动作70。
82.在第二配置76中，附加车辆78进入本车辆50的环境52。因此，车辆50从中心车道60a到左相邻车道60c的车道改变不再是可能的。因此，归一化动作70的上限80a和下限80b被适配。
83.由于状态42包括关于车辆50的环境52的信息，所以确定归一化动作70，使得在映射过程中自动考虑适当的边界。
84.应用有界行动者架构44的第二分支以基于感测设备感知到的车辆的状态42来提取下限和上限(见图2)。在这方面，应用边界提取函数82来确定相对于本车辆50的状态42的下限和上限b
l
(s),u(s)84a、84b，从而避免“不期望的”动作。这里，考虑实际交通状况并且基于状态42中包括的信息以防止某些相对动作，例如，如果该车道被占用，则执行特定的车道改变程序。由于状态42包括关于自身车辆50以及关于相邻车辆54a至54e、56a至56c的信息，所以能够确定下限和上限b
l
(s),u(s)84a、84b。注意，为了提高可读性，图2中的下限和上限b
l
(s),u(s)74a、74b表示为l和u。
85.提取的边界b
l
(s),u(s)84a、84b随后用于利用用于确定控制值(a)88的映射过程86来重新缩放归一化动作70。由于在确定控制值(a)88时包括提取的边界b
l
(s),u(s)84a、84b，因此相应地限制动作以避免“不期望的”交通配置。控制值(a)88描述了可以提供给运动控制器以适应车辆50的运动的量。考虑到车辆的感知状态42和描述深度神经网络62内的权重分布的参数向量θ
μ
，控制值(a)88的总体相关性可使用传递函数μ(s；θ
μ
)表示。因此，所确定的控制值(a)88不仅取决于深度神经网络62的权重分布θ
μ
，而且还取决于车辆50的感知状态42以及通过应用边界提取函数82提取的下限和上限b
l
(s),u(s)84a、84b。
86.在这方面，用于确定控制值(a)88的映射过程可以基于依赖于提取的边界b
l
(s),u(s)84a、84b的特定函数r1、r2，例如：
[0087][0088]
或：
[0089][0090]
这里，l和u用于表示由边界提取函数82提取的所提取的下限和上限b
l
(s),u(s)84a、84b。重新缩放函数r1更一般，并且允许归一化动作70的任何范围而第二重新缩放函数r2假设负下限和正上限(更适合于相对动作)。
[0091]
此外，提供有界探索采样92以使得能够应用强化学习。基于下限和上限b
l
(s),u(s)84a、84b，通过应用连续概率分布函数96来确定可靠的探索机制94。这里，分布函数96是高斯型的。在由可靠的探索机制94限定的范围内，强化学习可以偏离最初确定的控制值(a)88，例如使用修改的控制值(a+ε)98。因此，强化学习算法可以探索是否可以获得改进的结果，例如在更短的时间段或以降低的能耗到达预定义的目的地。基于奖励系统，可以相应地更新描述深度神经网络62内的权重分布的参数向量θ
μ
。
[0092]
图6是自主车辆50的高级反馈控制系统100的示意图。反馈控制系统100的车辆主控制单元102包括虚拟驾驶员104，其可以被认为是用于在此上下文中自主驾驶车辆50的算法。虚拟驾驶员104确定致动器106的设定点，致动器106被配置为影响车辆50例如车辆速度控制系统或车辆转向控制系统的运动。使用确定的控制值(a)88将设定值提供给致动器。因此，将出现实际速度或运动相关特性(例如位置)。当然，由于道路环境108造成的影响，实际值可能偏离设定点。因此，使用感测设备110感测实际运动相关特性。此外，还感测布置在本车辆50的环境内的其他车辆112的特性。测量的数据114被转发到包括在车辆主控制单元102内的传感器数据处理电路116。因此，可以确定车辆的状态42，状态42包括关于车辆50本身的信息以及关于道路环境和布置在本车辆50的环境内的其他车辆112的信息。
[0093]
图7是包括自主驾驶系统120的车辆50的示意图。虚拟驾驶员104连接到用于影响车辆50的运动的致动器106，以及连接到用于检测车辆50相对于其环境52以及布置在环境52内的其他车辆的特性的感测设备110。例如，致动器106可以通过控制车辆50的车轮122a、122b来调节速度。
[0094]
可选地，自主驾驶系统120还可以包括在存储在计算机可读介质124上的计算机程序126中。程序代码然后可以由包括在虚拟驾驶员104内的数据处理电路128执行。
[0095]
本文公开的某些实施例，特别是相应的模块，利用电路(例如，一个或多个电路)来实现本文公开的标准、协议、方法或技术，可操作地连接两个或更多个组件，生成信息、处理信息、分析信息、生成信号、编码/解码信号、转换信号、发送和/或接收信号，控制其他设备等。可以使用任何类型的电路。
[0096]
在实施例中，诸如数据处理电路之类的电路系统除了其他之外包括一个或多个计算设备，例如处理器(例如微处理器)、中央处理单元(cpu)、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)、片上系统(soc)等，或其任何组合，以及可以包括分立的数字或模拟电路元件或电子器件或其组合。在实施例中，电路系统包括硬件电路实现(例如，模拟电路实现、数字电路实现等，以及其组合)。
[0097]
在实施例中，电路系统包括电路和具有存储在一个或多个计算机可读存储器上的
软件或固件指令的计算机程序产品的组合，其一起工作以使设备执行本文描述的一个或多个协议、方法或技术。在实施例中，电路系统包括需要软件、固件等操作的电路，例如微处理器或微处理器的部分。在实施例中，电路系统包括一个或多个处理器或其部分以及伴随的软件、固件、硬件等。
[0098]
本技术可以引用数量和数字。除非特别说明，否则这些数量和数字不应被视为限制性的，而是与本技术相关的可能数量或数字的示例性的。同样在这方面，本技术可以使用术语“多个”来指代数量或数字。在这方面，术语“多个”是指大于一的任何数字，例如，二、三、四、五等。术语“大约”、“近似”、“接近”等表示所述值的正负5％。
[0099]
尽管已经针对一个或多个实施方式说明和描述了本发明，但是在阅读和理解本说明书和附图之后，本领域的其他技术人员将发生等效的改变和修改。此外，虽然本发明的特定特征可能仅针对几个实施例中的一个而被公开，但是对于任何给定或特定应用来说，这种特征可以与其他实施例的一个或多个其他特征组合，这可能是期望的并且是有利的。

技术特征：
1.一种自主驾驶车辆(50)的方法(10)，所述车辆(10)包括至少一个感测设备(110)和至少一个运动控制器(106)，其中所述运动控制器(106)被配置为如果至少一个控制值(88)被提供给所述运动控制器(106)，则影响所述车辆(50)的运动，其中所述方法至少包括以下步骤：s1至少基于利用感测设备(110)获取的关于所述车辆(50)的环境(52)的数据来确定所述车辆(50)的至少一个状态(42)；s2使用深度神经网络(62)基于有界激活函数确定所述车辆(50)的所述至少一个运动控制器(106)的至少一个归一化动作(70)，其中所述有界激活函数被配置为相对于所述车辆(50)的所述至少一个状态(42)限制所述至少一个归一化动作(60)；以及s3使用边界提取函数(82)将所述至少一个归一化动作(70)映射到至少一个控制值(88)，其中所述边界提取函数(82)被配置为基于所述车辆(50)的所述状态(42)提供至少一个上限(84b)和至少一个下限(84a)，以限制所述至少一个控制值(88)，使得在向所述车辆(50)的所述至少一个运动控制器(106)提供所述至少一个控制值(88)时限制所述车辆(50)的运动。2.根据权利要求1所述的方法(10)，其中所述方法还包括：s4至少基于连续概率分布(96)来确定所述深度神经网络(62)的可靠的探测机制(94)，其中考虑由所述边界提取函数(82)提供的所述至少一个上限(84b)和所述至少一个下限(84a)来确定所述连续概率分布(96)。3.根据前述权利要求中任一项所述的方法(10)，其中所述方法还包括：s5使用至少一种强化学习算法来训练所述深度神经网络(62)，所述强化学习算法包括基于所述可靠的探索机制(94)的相关数据，其中，所述相关数据包括所确定的所述车辆(50)的所述至少一个状态(42)和取决于所确定的所述至少一个状态(42)的所确定的所述车辆(50)的所述至少一个运动控制器(106)的所述至少一个归一化动作(70)；或者其中，所述相关数据包括所确定的所述车辆(50)的所述至少一个状态(42)和取决于所确定的所述至少一个状态(42)的所确定的所述至少一个控制值(88)。4.根据前述权利要求中任一项所述的方法(10)，其中所述方法还包括：s0-1利用所述感测设备(110)获取关于所述车辆(50)的所述环境(52)的数据；s0-2利用所述感测设备(110)获取布置在所述车辆(50)的环境(52)内的车辆(78)以及与其相关的数据；s0-3至少基于所获取的关于所述车辆(50)的所述环境(52)的数据和所获取的关于布置在所述车辆(50)的所述环境(52)内的车辆(78)以及与其相关的数据，确定所述车辆(50)的至少一个状态(42)。5.根据权利要求4所述的方法(10)，其中所述方法还包括：s0-4基于所确定的所述车辆(50)的所述状态(42)确定所述车辆(50)的所述至少一个运动控制器(106)的至少一个速度设定点和/或位置设定点。6.根据权利要求5所述的方法(10)，其中基于威胁评估算法来确定所述至少一个速度设定点，所述至少一个速度设定点被限制在下限速度设定点和上限速度设定点之间，和/或其中基于所述威胁评估算法来确定所述车辆(50)的位置的所述至少一个设定点，所述至少一个设定点被限制在下限位置设定点和上限位置设定点之间。
7.根据权利要求6所述的方法(10)，其中所述下限速度设定点为零，其中所述上限速度设定点基于所述车辆(50)与位于所述车辆(50)的前方的最近车辆之间的速度差和间隙，和/或其中，下限位置设定点基于相对于所述车辆(50)的最小可用横向间隙，其中考虑到所获取的关于布置在所述车辆(50)的所述环境(52)内的车辆(78)以及与之相关的数据来确定所述最小可用横向间隙。8.一种数据处理电路(128)，其包括用于至少执行权利要求1至7中任一项所述的方法(10)的所述步骤s1至s3的装置。9.一种包括指令的计算机程序(126)，当所述程序由计算机执行时，所述指令使所述计算机至少执行根据权利要求1至7中任一项所述的方法(10)的所述步骤s1至s3。10.一种包括指令的计算机可读介质(124)，所述指令在由计算机执行时使所述计算机至少执行根据权利要求1至7中任一项所述的方法(10)的所述步骤s1至s3。

技术总结
本发明总体涉及一种用于自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质。车辆包括至少一个感测设备和至少一个运动控制器，至少一个运动控制器被配置为在向运动控制器提供至少一个控制值的情况下影响车辆的运动。该方法包括至少基于利用感测设备获取的关于车辆的环境的数据来确定车辆的至少一个状态。该方法还包括使用深度神经网络基于有界激活函数确定车辆的至少一个运动控制器的至少一个归一化动作。此外，该方法包括使用边界提取函数将至少一个归一化动作映射到至少一个控制值。少一个控制值。少一个控制值。

技术研发人员：布拉姆
受保护的技术使用者：福特全球技术公司
技术研发日：2023.01.04
技术公布日：2023/7/19

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表