路径规划方法、路径规划模型的训练方法及装置与流程

未命名 07-15 阅读：102 评论：0

1.本公开涉及人工智能技术领域和自动驾驶技术领域，更具体地，涉及一种路径规划方法、路径规划模型的训练方法及装置。

背景技术：

2.路径规划一般可以包括先验完全信息的全局路径规划和基于传感器信息的局部路径规划。随着人工智能技术的发展，基于传感器采集的环境交互信息进行的局部路径规划被广泛应用于自动驾驶技术领域中。
3.在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：传统的局部路径规划方法一般是基于自动驾驶车辆当前位置区域内的驾驶环境得到的，在自动驾驶车辆到达下一个位置区域时再进行重新的路径规划，这种局部路径规划的方法由于缺乏全局规划策略，容易出现最终得到的总体路径难以满足实际应用场景需求的问题。

技术实现要素：

4.有鉴于此，本公开提供了一种路径规划方法、路径规划训练方法及装置。
5.本公开的一个方面提供了一种路径规划方法，包括：
6.响应于接收到目标车辆由当前位置向目标位置的驾驶服务请求，获取目标车辆的驾驶动作信息、障碍物的信息和当前位置与目标位置之间的初始驾驶路径的信息，在初始驾驶路径上包括多个任务点，多个任务点表征目标车辆变更驾驶动作的位置点。针对每一个任务点，利用路径规划模型，通过对目标车辆在任务点处的驾驶动作信息和任务点处的障碍物的信息进行处理，得到目标车辆在与任务点相邻的下一个任务点处的预期驾驶动作信息，得到目标车辆在多个任务点处的预期驾驶动作集合。根据预期驾驶动作集合和初始驾驶路径的信息，生成目标驾驶路径信息。
7.根据本公开的实施例，多个任务点包括m个，其中m为大于1的整数，通过对目标车辆在任务点处的驾驶动作信息和任务点处的障碍物的信息进行处理，得到目标车辆在与任务点相邻的下一个任务点处的预期驾驶动作信息，包括：
8.针对第m个任务点，对目标车辆在第m个任务点处的驾驶动作信息和第m个任务点的障碍物的信息进行处理，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息，m为大于等于1且小于m的整数。基于贪心算法，对多个候选驾驶动作信息进行处理，得到多个候选驾驶动作信息的价值分布概率。根据价值分布概率，从多个候选驾驶动作信息中筛选到预期驾驶动作信息。
9.根据本公开的实施例，对目标车辆在第m个任务点处的驾驶动作信息和第m个任务点的障碍物的信息进行处理，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息，包括：
10.根据目标车辆在第m个任务点处的驾驶动作信息，确定目标车辆在第m个任务点处的驾驶状态信息。根据驾驶状态信息和第m个任务点的障碍物的信息，得到目标车辆在第m
个任务点与障碍物之间的距离信息。根据驾驶状态信息和障碍物之间的距离信息，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息。
11.根据本公开的实施例，驾驶状态信息包括目标车辆的位置信息和目标车辆的朝向角度信息，障碍物的信息包括障碍物的位置信息，根据驾驶状态信息和第m个任务点的障碍物的信息，得到目标车辆在第m个任务点与障碍物之间的距离信息，包括：
12.根据目标车辆在第m个任务点处的位置信息和朝向角度信息，确定目标车辆的观测区域信息。根据目标车辆的观测区域信息和障碍物的位置信息，得到目标车辆与障碍物之间的多个观测距离。将多个观测距离中的最小观测距离确定为目标车辆在第m个任务点与障碍物之间的距离信息。
13.根据本公开的实施例，根据预期驾驶动作集合和初始驾驶路径的信息，生成目标驾驶路径信息，包括：
14.根据m个任务的驾驶动作信息，得到目标车辆在m个任务点的驾驶方向信息。根据驾驶方向信息，对初始驾驶路径进行调整，生成目标驾驶路径信息。
15.本公开的另一个方面提供了一种路径规划模型的训练方法，包括：
16.获取样本驾驶动作数据集、样本障碍物信息和样本路径的信息，样本路径上包括多个任务点，多个任务点表征表征目标车辆变更驾驶动作的位置点。利用样本驾驶动作数据集、样本障碍物信息和样本路径信息对预设模型进行训练，得到路径规划模型。
17.根据本公开的实施例，利用样本驾驶动作数据集、样本障碍物信息和样本路径信息对预设模型进行训练，得到路径规划模型，包括：
18.针对每一个任务点，利用预设模型对样本驾驶动作集中的样本驾驶动作、样本障碍物的信息进行处理，得到目标车辆在相邻下一个任务点的候选预期驾驶动作。基于奖励函数，从候选预期驾驶动作中筛选到目标预期驾驶动作和与目标预期驾驶动作对应的奖励值。统计对样本驾驶动作集的总选择次数和与多个任务点的目标预期驾驶动作对应的平均奖励值。基于目标函数，根据总选择次数和平均奖励值，得到多个任务点的预期驾驶动作的价值信息。基于价值信息，调整预设模型的模型参数，直至价值信息满足预定阈值，得到路径规划模型。
19.本公开的另一个方面提供了一种路径规划装置，包括：第一获取模块、处理模块和生成模块。其中，第一获取模块，用于响应于接收到目标车辆由当前位置向目标位置的驾驶服务请求，获取目标车辆的驾驶动作信息、障碍物的信息和当前位置与目标位置之间的初始驾驶路径的信息，在初始驾驶路径上包括多个任务点，多个任务点表征目标车辆变更驾驶动作的位置点。处理模块，用于针对每一个任务点，利用路径规划模型，通过对目标车辆在任务点处的驾驶动作信息和任务点处的障碍物的信息进行处理，得到目标车辆在与任务点相邻的下一个任务点处的预期驾驶动作信息，得到目标车辆在多个任务点处的预期驾驶动作集合。生成模块，用于根据预期驾驶动作集合和初始驾驶路径的信息，生成目标驾驶路径信息。
20.根据本公开的实施例，处理模块包括第一处理子模块、第二处理子模块和第一筛选子模块。其中，第一处理子模块，用于针对第m个任务点，对目标车辆在第m个任务点处的驾驶动作信息和第m个任务点的障碍物的信息进行处理，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息，m为大于等于1且小于m的整数。第二处理子模块，基于贪心算法，
对多个候选驾驶动作信息进行处理，得到多个候选驾驶动作信息的价值分布概率。第一筛选子模块，用于根据价值分布概率，从多个候选驾驶动作信息中筛选到预期驾驶动作信息。
21.根据本公开的实施例，第一处理子模块包括：第一确定单元、第一获得单元和第二获得单元。其中，第一确定单元，用于根据目标车辆在第m个任务点处的驾驶动作信息，确定目标车辆在第m个任务点处的驾驶状态信息。第一获得单元，用于根据驾驶状态信息和第m个任务点的障碍物的信息，得到目标车辆在第m个任务点与障碍物之间的距离信息。第二获得单元，用于根据驾驶状态信息和障碍物之间的距离信息，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息。
22.根据本公开的实施例，驾驶状态信息包括目标车辆的位置信息和目标车辆的朝向角度信息，障碍物的信息包括障碍物的位置信息。上述第一获得单元包括：第一确定子单元、获得子单元、第二确定子单元。其中，第一确定子单元，用于根据目标车辆在第m个任务点处的位置信息和朝向角度信息，确定目标车辆的观测区域信息。获得子单元，用于根据目标车辆的观测区域信息和障碍物的位置信息，得到目标车辆与障碍物之间的多个观测距离。第二确定子单元，用于将多个观测距离中的最小观测距离确定为目标车辆在第m个任务点与障碍物之间的距离信息。
23.根据本公开的实施例，生成模块包括：第一获得子模块和生成子模块。其中，第一获得子模块，用于根据m个任务的驾驶动作信息，得到目标车辆在m个任务点的驾驶方向信息。生成子模块，用于根据驾驶方向信息，对初始驾驶路径进行调整，生成目标驾驶路径信息。
24.本公开的另一个方面提供了一种路径规划模型的训练装置，包括：第二获取模块和训练模块。其中，第二获取模块，用于获取样本驾驶动作数据集、样本障碍物信息和样本路径的信息，样本路径上包括多个任务点，多个任务点表征表征目标车辆变更驾驶动作的位置点。训练模块，用于利用样本驾驶动作数据集、样本障碍物信息和样本路径信息对预设模型进行训练，得到路径规划模型。
25.根据本公开的实施例，上述训练模块包括：第三处理子模块、第二筛选子模块、统计子模块、第二获得子模块和调整子模块。其中，第三处理子模块，用于针对每一个任务点，利用预设模型对样本驾驶动作集中的样本驾驶动作、样本障碍物的信息进行处理，得到目标车辆在相邻下一个任务点的候选预期驾驶动作。第二筛选子模块，用于基于奖励函数，从候选预期驾驶动作中筛选到目标预期驾驶动作和与目标预期驾驶动作对应的奖励值。统计子模块，用于统计对样本驾驶动作集的总选择次数和与多个任务点的目标预期驾驶动作对应的平均奖励值。第二获得子模块，用于基于目标函数，根据总选择次数和平均奖励值，得到多个任务点的预期驾驶动作的价值信息。调整子模块，用于基于价值信息，调整预设模型的模型参数，直至价值信息满足预定阈值，得到路径规划模型。
26.本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。
27.本公开的另一方面提供了一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。
28.根据本公开的实施例，因为采用了针对每一个任务点，利用路径规划模型，通过对目标车辆在任务点处的驾驶动作信息和任务点处的障碍物的信息进行处理，得到目标车辆
在与任务点相邻的下一个任务点处的预期驾驶动作信息，得到目标车辆在多个任务点处的预期驾驶动作集合。再根据预期驾驶动作集合和初始驾驶路径的信息，生成目标驾驶路径信息技术手段，所以至少部分地克服了相关技术中由于缺乏全局规划策略，容易出现最终得到的总体路径难以满足实际应用场景需求的问题。进而达到了在规划路径上的每一个任务点均能得到较为优化的路径规划结果的情况下，满足应用场景对全局路径规划的需求的技术效果。
附图说明
29.通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：
30.图1示意性示出了可以应用本公开实施例的路径规划方法的应用场景图；
31.图2示意性示出了根据本公开实施例的路径规划方法的流程图；
32.图3示意性示出了根据本公开实施例的根据第m个任务点的驾驶动作信息得到第m+1个任务点的预期驾驶动作信息的示意图；
33.图4示意性示出了根据本公开实施例的路径规划方法的示意图；
34.图5示意性示出了根据本公开实施例的路径规划模型的训练方法的流程图；
35.图6示意性示出了根据本公开实施例的路径规划模型的训练方法的逻辑流程图；
36.图7示意性示出了根据本公开实施例的路径规划装置的框图；
37.图8示意性示出了根据本公开实施例的路径规划模型的训练装置的框图；以及
38.图9示意性示出了根据本公开实施例的适于实现上述路径规划方法或路径规划模型的训练方法的电子设备900的框图。
具体实施方式
39.以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。
40.在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
41.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。
42.在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
43.在本公开的实施例中，所涉及的数据(例如，包括但不限于用户个人信息)的收集、
更新、分析、处理、使用、传输、提供、公开、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。特别地，对用户个人信息采取了必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。
44.在本公开的实施例中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。
45.传统的局部路径规划方法一般是基于自动驾驶车辆当前位置区域内的驾驶环境得到的，在自动驾驶车辆到达下一个位置区域时再进行重新的路径规划，这种局部路径规划的方法由于缺乏全局规划策略，当每一个局部路径均达到最优的情况下，可能会导致整体的路径较长或路径崎岖，驾驶舒适度较低，容易出现最终得到的总体路径难以满足实际应用场景需求的问题。
46.有鉴于此，本公开的实施例提供了一种路径规划方法。该方法包括：响应于接收到目标车辆由当前位置向目标位置的驾驶服务请求，获取目标车辆的驾驶动作信息、障碍物的信息和当前位置与目标位置之间的初始驾驶路径的信息，在初始驾驶路径上包括多个任务点，多个任务点表征目标车辆变更驾驶动作的位置点。针对每一个任务点，利用路径规划模型，通过对目标车辆在任务点处的驾驶动作信息和任务点处的障碍物的信息进行处理，得到目标车辆在与任务点相邻的下一个任务点处的预期驾驶动作信息，得到目标车辆在多个任务点处的预期驾驶动作集合。根据预期驾驶动作集合和初始驾驶路径的信息，生成目标驾驶路径信息。以在规划路径上的每一个任务点均能得到较为优化的路径规划结果的情况下，满足应用场景对全局路径规划的需求的技术效果。
47.图1示意性示出了可以应用本公开实施例的路径规划方法的应用场景图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
48.如图1所示，根据该实施例的系统架构100可以包括目标车辆上的车载终端101、网络102和服务器103。网络102用以在目标车辆101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如无线通信链路等等。
49.用户可以使用目标车辆上的车载终端101通过网络102与服务器103交互，以接收或发送消息等。目标车辆上的车载终端101上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
50.目标车辆上的车载终端101可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于平板电脑。
51.服务器103可以是提供各种服务的服务器，例如对用户利用目标车辆上的车载终端101所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户驾驶服务请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备车载终端。
52.需要说明的是，本公开实施例所提供的路径规划方法一般可以由服务器103执行。相应地，本公开实施例所提供的路径规划装置一般可以设置于服务器103中。本公开实施例所提供的路径规划方法也可以由不同于服务器103且能够与车载终端101和/或服务器103
通信的服务器或服务器集群执行。相应地，本公开实施例所提供的路径规划装置也可以设置于不同于服务器103且能够与车载终端101和/或服务器103通信的服务器或服务器集群中。或者，本公开实施例所提供的路径规划方法也可以由车载终端101执行，或者也可以由不同于车载终端101的其他终端设备执行。相应地，本公开实施例所提供的路径规划装置也可以设置于车载终端101中，或设置于不同于车载终端101的其他终端设备中。
53.例如，目标车辆可以通过车载的传感器采集目标车辆的驾驶动作信息、障碍物的信息和当前位置与目标位置之间的初始驾驶路径的信息。然后，车载终端101中可以在本地执行本公开实施例所提供的路径规划方法，或者将目标车辆的驾驶动作信息、障碍物的信息和当前位置与目标位置之间的初始驾驶路径的信息发送到其他终端设备、服务器、或服务器集群，并由接收该目标车辆的驾驶动作信息、障碍物的信息和当前位置与目标位置之间的初始驾驶路径的信息的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的路径规划方法。
54.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
55.图2示意性示出了根据本公开实施例的路径规划方法的流程图。
56.如图2所示，该方法200包括操作s210～s230。
57.在操作s210，响应于接收到目标车辆由当前位置向目标位置的驾驶服务请求，获取目标车辆的驾驶动作信息、障碍物的信息和当前位置与目标位置之间的初始驾驶路径的信息，在初始驾驶路径上包括多个任务点，多个任务点表征目标车辆变更驾驶动作的位置点。
58.在操作s220，针对每一个任务点，利用路径规划模型，通过对目标车辆在任务点处的驾驶动作信息和任务点处的障碍物的信息进行处理，得到目标车辆在与任务点相邻的下一个任务点处的预期驾驶动作信息，得到目标车辆在多个任务点处的预期驾驶动作集合。
59.在操作s230，根据预期驾驶动作集合和初始驾驶路径的信息，生成目标驾驶路径信息。
60.根据本公开的实施例，目标车辆的驾驶动作信息可以包括：目标车辆的速度、加速度、航向角度、方向盘转动角度等信息。障碍物的信息可以包括静态障碍物和动态障碍物。其中，静态障碍物可以包括当前位置与目标位置之间的路障、车道边界线、交通指示灯等。动态障碍物可以包括当前位置与目标位置之间的其他车辆、行人等。
61.根据本公开的实施例，初始驾驶路径信息可以是基于当前位置和目标位置得到的多个驾驶路径中选择得到的。例如：当前位置可以是a点，目标位置可以是b点。在当前位置与目标位置之间可以存在c点、d点、e点。初始驾驶路径可以是以下多条可能路径中的任一一条路径。例如：多条可能路径可以是：由a点经过c点到达b点，也可以是由a点经过c点再经过d点达到b点，也可以是由a点经过d点再经过e点达到b点。
62.根据本公开的实施例，在选择初始驾驶路径，可以基于目标车辆的车载界面与人进行人机交互实现对初始驾驶路径的选择，也可以基于预定的规则对初始驾驶路径进行选择，也可以针对可能的每一条初始驾驶路径均执行本公开实施例的路径规划方法先得到多个目标驾驶路径，然后再基于人机交互从多个目标驾驶路径中选择最终的驾驶路径。
63.根据本公开的实施例，在初始驾驶路径中，例如：可以是由a点行驶至b点的直线路
径。可以在该直线路径上设置多个任务点，每一个任务点表征目标车辆的驾驶动作发生变更的位置点。例如：由a点行驶向b点，在没有任务障碍物的情况下，目标车辆的驾驶动作可以是直线行驶。但是在实际的驾驶环境中，在a点到b点的路径之间，可能存在多个障碍物，为了躲避障碍物，目标车辆的实际行驶路径可能是由a点先经过f点再经过g点才到达b点。这些f点、g点就可以作为任务点。
64.根据本公开的实施例，利用路径规划模型，可以先根据目标车辆在a点的驾驶动作信息、障碍物的信息，得到目标车辆在f点的预期驾驶动作，再根据f点的预期驾驶动作和障碍物的信息，得到目标车辆在g点的预期驾驶动作信息。最后根据g点的预期驾驶动作信息和障碍物的信息，得到目标车辆在b点的预期驾驶动作信息。
65.根据本公开的实施例，根据每一个点的预期驾驶动作信息对初始驾驶路径信息进行调整，生成目标驾驶路径信息。例如：f点可以位于a点的左上方，f点的预期驾驶动作可以是右转，说明在f点已经躲避障碍物，但躲避的距离较远，可以将初始路径中的f点向右平移得到f’点，在达到躲避障碍物的同时，能够使路径更加平滑，提高驾驶的平稳性。
66.根据本公开的实施例，因为采用了针对每一个任务点，利用路径规划模型，通过对目标车辆在任务点处的驾驶动作信息和任务点处的障碍物的信息进行处理，得到目标车辆在与任务点相邻的下一个任务点处的预期驾驶动作信息，得到目标车辆在多个任务点处的预期驾驶动作集合。再根据预期驾驶动作集合和初始驾驶路径的信息，生成目标驾驶路径信息技术手段，所以至少部分地克服了相关技术中由于缺乏全局规划策略，容易出现最终得到的总体路径难以满足实际应用场景需求的问题。进而达到了在规划路径上的每一个任务点均能得到较为优化的路径规划结果的情况下，提高自动驾驶的平稳性的技术效果。
67.下面参考图3～图4，结合具体实施例对图2所示的方法做进一步说明。
68.图3示意性示出了根据本公开实施例的根据第m个任务点的驾驶动作信息得到第m+1个任务点的预期驾驶动作信息的示意图。
69.如图3所示，在实施例300中，根据第m个任务点处的驾驶动作信息301和第m个任务点的障碍物的信息302，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息303。基于贪心算法，得到第m+1个任务点处多个候选驾驶动作信息的价值分布概率304，根据价值分布概率，可以选择价值分布概率最高的候选驾驶动作信息作为第m+1个任务点处的预期驾驶动作信息305。
70.根据本公开的实施例，对目标车辆在第m个任务点处的驾驶动作信息和第m个任务点的障碍物的信息进行处理，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息，可以包括如下操作：
71.根据目标车辆在第m个任务点处的驾驶动作信息，确定目标车辆在第m个任务点处的驾驶状态信息。根据驾驶状态信息和第m个任务点的障碍物的信息，得到目标车辆在第m个任务点与障碍物之间的距离信息。根据驾驶状态信息和障碍物之间的距离信息，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息。
72.根据本公开的实施例，驾驶状态信息可以包括目标车辆的驾驶位置坐标信息和目标车辆的朝向角度信息。障碍物的信息可以包括障碍物的位置坐标信息和障碍物的朝向角度信息。
73.根据本公开的实施例，在目标车辆的朝向角度与障碍物的朝向角度相对时，表示
目标车辆若沿着当前的驾驶动作继续行驶，会存在与障碍物发生碰撞的风险。此时，可以根据目标车辆的位置和障碍物的位置，确定二者之间的距离。再根据驾驶状态信息和障碍物之间的距离，预测下一个任务点的多个候选驾驶动作信息。
74.例如：下一个任务点在目标车辆与障碍物之间，目标车辆当前的驾驶状态可以是朝向正对障碍物的方向进行行驶，而且目标车辆的位置与障碍物之间的距离较远。因此，当目标车辆到达下一个任务点时，随着目标车辆与障碍物之间的距离逐渐靠近，目标车辆需要偏转较大的角度才能躲避障碍物。那么下一个任务点可以包括偏转角度的不同的候选驾驶动作。
75.根据本公开的实施例，候选驾驶动作的价值分布概率可以表征目标车辆在该任务点选择某驾驶动作之后，对下一个任务的驾驶动作选择以及全局路径规划的影响程度。可以将价值分布概率较高的候选驾驶动作确定为该任务点的预期驾驶动作。
76.根据本公开的实施例，利用贪心算法，对每一个任务点的候选驾驶动作，基于该驾驶动作对全局路径规划的影响程度进行选择，实现了将局部优化与全局优化相结合，有效避免了单独的局部优化操作较难满足全局优化条件导致过多的局部优化的冗余操作，提高路径规划的速度。
77.由于随着目标车辆与障碍物之间的距离变化，目标车辆需要偏转的角度也在不断变化，对于每一个任务点的候选驾驶动作的选择均会影响下一个任务点的预期驾驶动作。因此，可以将目标车辆与障碍物之间的最小观测距离作为目标车辆与障碍物之间的距离，以便在距离目标障碍物较远的时候，调整到较优的预期驾驶动作，避免目标车辆为躲避障碍物出现急速转向的情况。
78.根据本公开的实施例，根据驾驶状态信息和第m个任务点的障碍物的信息，得到目标车辆在第m个任务点与障碍物之间的距离信息，可以包括如下操作：
79.根据目标车辆在第m个任务点处的位置信息和朝向角度信息，确定目标车辆的观测区域信息。根据目标车辆的观测区域信息和障碍物的位置信息，得到目标车辆与障碍物之间的多个观测距离。将多个观测距离中的最小观测距离确定为目标车辆在第m个任务点与障碍物之间的距离信息。
80.根据本公开的实施例，驶状态信息包括目标车辆的位置信息和目标车辆的朝向角度信息。观测区域可以是目标车辆的车载摄像头的图像采集区域。
81.由于车载摄像头相对于目标车辆的位置是固定的，当目标车辆的朝向角度不同时，车载摄像头的观测区域也会发生变化。通常情况下，目标车辆上设置多个车载摄像头，以扩大观测视野。
82.例如：在观测区域oa1中，目标车辆与障碍物之间的观测距离可以是l1。在观测区域oa2中，目标车辆与障碍物之间的观测距离可以是l2。在l1小于l2的情况下，可以将l1确定为目标车辆与障碍物之间的距离。
83.根据本公开的实施例，将目标车辆与障碍物之间的最小观测距离作为执行路径规划策略的输入信息，以便于及时调整目标车辆的驾驶动作，尽量减小目标车辆的大幅度的变更路径。提高驾驶路径的平稳性。
84.图4示意性示出了根据本公开实施例的路径规划方法的示意图。
85.如图4所示，在实施例400中，初始驾驶路径可以包括起点、任务点1、任务点2和终
点(任务点3)。根据任务点1的预期驾驶动作401、任务点2的预期驾驶动作402、任务点3的预期驾驶动作403可以得到3个任务点的驾驶方向404。例如：任务点1的驾驶方向可以是沿水平方向向下偏移角度α1，任务点2的驾驶方向可以是沿水平方向向下偏移角度α2，任务点3的驾驶方向可以是沿水平方向向上偏移角度α3。
86.根据本公开的实施例，利用3个任务点的驾驶方向404可以对初始驾驶路径405中任务点1、任务点2的位置进行调整，得到目标驾驶路径406。
87.根据本公开的实施例，由于通过每一个任务点的预期驾驶动作对初始驾驶路径信息进行调整，可以尽量减少目标车辆出现急速转向、调头等降低路径规划质量的操作，得到驾驶路线平滑、驾驶总长度较短的目标驾驶路径信息。
88.图5示意性示出了根据本公开实施例的路径规划模型的训练方法的流程图。
89.如图5所示，在实施例500中，该训练方法可以包括操作s510～s520。
90.在操作s510，获取样本驾驶动作数据集、样本障碍物信息和样本路径的信息，样本路径上包括多个任务点，多个任务点表征表征目标车辆变更驾驶动作的位置点。
91.在操作s520，利用样本驾驶动作数据集、样本障碍物信息和样本路径信息对预设模型进行训练，得到路径规划模型。
92.根据本公开的实施例，样本驾驶动作数据集中可以包括多个样本驾驶动作。样本驾驶动作、样本障碍物信息和样本路径的信息的定义范围与前文描述路径规划方法的部分中对驾驶动作、障碍物、初始驾驶路径的定义范围相同，在此不做赘述。
93.图6示意性示出了根据本公开实施例的路径规划模型的训练方法的逻辑流程图。
94.如图6所示，在实施例600中，该训练方法可以包括操作s610～s660。
95.在操作s610，针对每一个任务点，利用预设模型对样本驾驶动作集中的样本驾驶动作、样本障碍物的信息进行处理，得到目标车辆在相邻下一个任务点的候选预期驾驶动作。
96.在操作s620，基于奖励函数，从候选预期驾驶动作中筛选到目标预期驾驶动作和与目标预期驾驶动作对应的奖励值。
97.在操作s630，统计对样本驾驶动作集的总选择次数和与多个任务点的目标预期驾驶动作对应的平均奖励值。
98.在操作s640，基于目标函数，根据总选择次数和平均奖励值，得到多个任务点的预期驾驶动作的价值信息。
99.在操作s650，确定价值信息是否满足预定阈值。若是，则执行操作s660。若不是，则调整预设模型的参数，返回执行操作s610。
100.根据本公开的实施例，目标函数可以采用ucb(upper confidence bound)算法的函数，如式(1)所示：
[0101][0102]
其中，n表示样本驾驶动作集的总选择次数，ni为在第i个任务点处对样本驾驶动作集的选择次数，表示在第i个任务点的目标预期驾驶动作的奖励值，c表示常量参数。si表示第i个任务点的驾驶状态。
[0103]
根据本公开的实施例，在模型训练的过程中，可以将整个路径规划的拓展过程为树搜索拓展。每一个节点可以表示一个任务点。从根节点开始，可以基于目标函数的ucb值得到每一个任务点的最佳驾驶动作，且每选择一个动作，都会增加对样本驾驶动作集的选择次数。以用于之后的动作选择。在选择了一个动作a之后，在搜索树中可以生成一个新的节点，对应上一个驾驶状态在执行完驾驶动作a之后的局面。当全部的节点均选择了预期驾驶动作之后，可以沿着树，从子节点开始回溯，并沿途更新每一个节点的统计信息，这样可以使得目标函数随着训练次数的增多，不断收敛。
[0104]
根据本公开的实施例，通过统计对样本驾驶动作集的总选择次数和与多个任务点的目标预期驾驶动作对应的平均奖励值，基于目标函数，根据总选择次数和平均奖励值，得到多个任务点的预期驾驶动作的价值信息，使得最终训练得到的路径规划模型可以输出每个任务点对于全局路径规划具有价值的驾驶动作，从而实现优化全局路径的目的。
[0105]
图7示意性示出了根据本公开实施例的路径规划装置的框图。
[0106]
如图7所示，该实施例的路径规划装置700包括：第一获取模块710、处理模块720和生成模块730。
[0107]
第一获取模块710，用于响应于接收到目标车辆由当前位置向目标位置的驾驶服务请求，获取目标车辆的驾驶动作信息、障碍物的信息和当前位置与目标位置之间的初始驾驶路径的信息，在驾驶路径上包括多个任务点，多个任务点表征目标车辆变更驾驶动作的位置点。
[0108]
处理模块720，用于针对每一个任务点，利用路径规划模型，通过对目标车辆在任务点处的驾驶动作信息和任务点处的障碍物的信息进行处理，得到目标车辆在与任务点相邻的下一个任务点处的预期驾驶动作信息，得到目标车辆在多个任务点处的预期驾驶动作集合；
[0109]
生成模块730，用于根据预期驾驶动作集合和初始驾驶路径的信息，生成目标驾驶路径信息。
[0110]
根据本公开的实施例，处理模块包括第一处理子模块、第二处理子模块和第一筛选子模块。其中，第一处理子模块，用于针对第m个任务点，对目标车辆在第m个任务点处的驾驶动作信息和第m个任务点的障碍物的信息进行处理，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息，m为大于等于1且小于m的整数。第二处理子模块，基于贪心算法，对多个候选驾驶动作信息进行处理，得到多个候选驾驶动作信息的价值分布概率。第一筛选子模块，用于根据价值分布概率，从多个候选驾驶动作信息中筛选到预期驾驶动作信息。
[0111]
根据本公开的实施例，第一处理子模块包括：第一确定单元、第一获得单元和第二获得单元。其中，第一确定单元，用于根据目标车辆在第m个任务点处的驾驶动作信息，确定目标车辆在第m个任务点处的驾驶状态信息。第一获得单元，用于根据驾驶状态信息和第m个任务点的障碍物的信息，得到目标车辆在第m个任务点与障碍物之间的距离信息。第二获得单元，用于根据驾驶状态信息和障碍物之间的距离信息，得到目标车辆在第m+1个任务点处的多个候选驾驶动作信息。
[0112]
根据本公开的实施例，驾驶状态信息包括目标车辆的位置信息和目标车辆的朝向角度信息，障碍物的信息包括障碍物的位置信息。上述第一获得单元包括：第一确定子单元、获得子单元、第二确定子单元。其中，第一确定子单元，用于根据目标车辆在第m个任务
点处的位置信息和朝向角度信息，确定目标车辆的观测区域信息。获得子单元，用于根据目标车辆的观测区域信息和障碍物的位置信息，得到目标车辆与障碍物之间的多个观测距离。第二确定子单元，用于将多个观测距离中的最小观测距离确定为目标车辆在第m个任务点与障碍物之间的距离信息。
[0113]
根据本公开的实施例，生成模块包括：第一获得子模块和生成子模块。其中，第一获得子模块，用于根据m个任务的驾驶动作信息，得到目标车辆在m个任务点的驾驶方向信息。生成子模块，用于根据驾驶方向信息，对初始驾驶路径进行调整，生成目标驾驶路径信息。
[0114]
图8示意性示出了根据本公开实施例的路径规划模型的训练装置的框图。
[0115]
如图8所示，该实施例的训练装置800包括：第二获取模块810和训练模块820。
[0116]
第二获取模块810，用于获取样本驾驶动作数据集、样本障碍物信息和样本路径的信息，样本路径上包括多个任务点，多个任务点表征表征目标车辆变更驾驶动作的位置点。
[0117]
训练模块820，用于利用样本驾驶动作数据集、样本障碍物信息和样本路径信息对预设模型进行训练，得到路径规划模型。
[0118]
根据本公开的实施例，上述训练模块包括：第三处理子模块、第二筛选子模块、统计子模块、第二获得子模块和调整子模块。其中，第三处理子模块，用于针对每一个任务点，利用预设模型对样本驾驶动作集中的样本驾驶动作、样本障碍物的信息进行处理，得到目标车辆在相邻下一个任务点的候选预期驾驶动作。第二筛选子模块，用于基于奖励函数，从候选预期驾驶动作中筛选到目标预期驾驶动作和与目标预期驾驶动作对应的奖励值。统计子模块，用于统计对样本驾驶动作集的总选择次数和与多个任务点的目标预期驾驶动作对应的平均奖励值。第二获得子模块，用于基于目标函数，根据总选择次数和平均奖励值，得到多个任务点的预期驾驶动作的价值信息。调整子模块，用于基于价值信息，调整预设模型的模型参数，直至价值信息满足预定阈值，得到路径规划模型。
[0119]
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0120]
例如，第一获取模块710、处理模块720和生成模块730中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，第一获取模块710、处理模块720和生成模块730中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路
进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获取模块710、处理模块720和生成模块730中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0121]
例如：第二获取模块810和训练模块820中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，第二获取模块810和训练模块820中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第二获取模块810和训练模块820中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0122]
需要说明的是，本公开的实施例中路径规划装置或路径规划模型的训练方法装置与本公开的实施例中路径规划方法或路径规划模型的训练方法是相对应的，路径规划装置或路径规划模型的训练方法装置的描述具体参考路径规划方法或路径规划模型的训练方法部分，在此不再赘述。
[0123]
图9示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图9示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0124]
如图9所示，根据本公开实施例的电子设备900包括处理器901，其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))，等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0125]
在ram 903中，存储有电子设备900操作所需的各种程序和数据。处理器901、rom 902以及ram 903通过总线904彼此相连。处理器901通过执行rom 902和/或ram 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除rom902和ram 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0126]
根据本公开的实施例，电子设备900还可以包括输入/输出(i/o)接口905，输入/输出(i/o)接口905也连接至总线904。系统900还可以包括连接至i/o接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半
导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0127]
根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0128]
本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。
[0129]
根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0130]
例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom 902和/或ram 903和/或rom 902和ram 903以外的一个或多个存储器。
[0131]
本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的路径规划方法或路径规划模型的训练方法。
[0132]
在该计算机程序被处理器901执行时，执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0133]
在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分909被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0134]
根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java，c++，python，“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，
包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0135]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0136]
以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

技术特征：
1.一种路径规划方法，包括：响应于接收到目标车辆由当前位置向目标位置的驾驶服务请求，获取所述目标车辆的驾驶动作信息、障碍物的信息和所述当前位置与所述目标位置之间的初始驾驶路径的信息，在所述驾驶路径上包括多个任务点，所述多个任务点表征所述目标车辆变更驾驶动作的位置点；针对每一个所述任务点，利用路径规划模型，通过对所述目标车辆在所述任务点处的驾驶动作信息和所述任务点处的障碍物的信息进行处理，得到所述目标车辆在与所述任务点相邻的下一个任务点处的预期驾驶动作信息，得到所述目标车辆在所述多个任务点处的预期驾驶动作集合；以及根据所述预期驾驶动作集合和所述初始驾驶路径的信息，生成目标驾驶路径信息。2.根据权利要求1所述的方法，其中，所述多个任务点包括m个，其中m为大于1的整数，所述通过对所述目标车辆在所述任务点处的驾驶动作信息和所述任务点处的障碍物的信息进行处理，得到所述目标车辆在与所述任务点相邻的下一个任务点处的预期驾驶动作信息，包括：针对第m个任务点，对所述目标车辆在第m个任务点处的驾驶动作信息和第m个任务点的障碍物的信息进行处理，得到所述目标车辆在第m+1个任务点处的多个候选驾驶动作信息，m为大于等于1且小于m的整数；基于贪心算法，对多个候选驾驶动作信息进行处理，得到所述多个候选驾驶动作信息的价值分布概率；以及根据所述价值分布概率，从所述多个候选驾驶动作信息中筛选到所述预期驾驶动作信息。3.根据权利要求2所述的方法，其中，所述对所述目标车辆在第m个任务点处的驾驶动作信息和第m个任务点的障碍物的信息进行处理，得到所述目标车辆在第m+1个任务点处的多个候选驾驶动作信息，包括：根据所述目标车辆在所述第m个任务点处的驾驶动作信息，确定所述目标车辆在第m个任务点处的驾驶状态信息；根据所述驾驶状态信息和所述第m个任务点的障碍物的信息，得到所述目标车辆在第m个任务点与所述障碍物之间的距离信息；以及根据所述驾驶状态信息和所述障碍物之间的距离信息，得到所述目标车辆在所述第m+1个任务点处的多个候选驾驶动作信息。4.根据权利要求3所述的方法，其中，所述驾驶状态信息包括所述目标车辆的位置信息和所述目标车辆的朝向角度信息，所述障碍物的信息包括所述障碍物的位置信息；所述根据所述驾驶状态信息和所述第m个任务点的障碍物的信息，得到所述目标车辆在第m个任务点与所述障碍物之间的距离信息，包括：根据所述目标车辆在所述第m个任务点处的位置信息和所述朝向角度信息，确定所述目标车辆的观测区域信息；根据所述目标车辆的观测区域信息和所述障碍物的位置信息，得到所述目标车辆与所述障碍物之间的多个观测距离；以及将所述多个观测距离中的最小观测距离确定为所述目标车辆在第m个任务点与所述障
碍物之间的距离信息。5.根据权利要求1所述的方法，其中，所述根据所述预期驾驶动作集合和所述初始驾驶路径的信息，生成目标驾驶路径信息，包括：根据所述m个任务的驾驶动作信息，得到目标车辆在m个任务点的驾驶方向信息；以及根据所述驾驶方向信息，对所述初始驾驶路径进行调整，生成所述目标驾驶路径信息。6.一种路径规划模型的训练方法，包括：获取样本驾驶动作数据集、样本障碍物信息和样本路径的信息，所述样本路径上包括多个任务点，所述多个任务点表征表征目标车辆变更驾驶动作的位置点；以及利用所述样本驾驶动作数据集、所述样本障碍物信息和所述样本路径信息对预设模型进行训练，得到路径规划模型。7.根据权利要求6所述的方法，其中，所述利用所述样本驾驶动作数据集、所述样本障碍物信息和所述样本路径信息对预设模型进行训练，得到路径规划模型，包括：针对每一个任务点，利用预设模型对样本驾驶动作集中的样本驾驶动作、样本障碍物的信息进行处理，得到所述目标车辆在相邻下一个任务点的候选预期驾驶动作；基于奖励函数，从所述候选预期驾驶动作中筛选到目标预期驾驶动作和与所述目标预期驾驶动作对应的奖励值；统计对所述样本驾驶动作集的总选择次数和与所述多个任务点的目标预期驾驶动作对应的平均奖励值；基于目标函数，根据所述总选择次数和所述平均奖励值，得到所述多个任务点的预期驾驶动作的价值信息；以及基于所述价值信息，调整所述预设模型的模型参数，直至所述价值信息满足预定阈值，得到所述路径规划模型。8.一种路径规划装置，包括：第一获取模块，用于响应于接收到目标车辆由当前位置向目标位置的驾驶服务请求，获取所述目标车辆的驾驶动作信息、障碍物的信息和所述当前位置与所述目标位置之间的初始驾驶路径的信息，在所述驾驶路径上包括多个任务点，所述多个任务点表征所述目标车辆变更驾驶动作的位置点；处理模块，用于针对每一个所述任务点，利用路径规划模型，通过对所述目标车辆在所述任务点处的驾驶动作信息和所述任务点处的障碍物的信息进行处理，得到所述目标车辆在与所述任务点相邻的下一个任务点处的预期驾驶动作信息，得到所述目标车辆在所述多个任务点处的预期驾驶动作集合；以及生成模块，用于根据所述预期驾驶动作集合和所述初始驾驶路径的信息，生成目标驾驶路径信息。9.一种路径规划模型的训练装置，包括：第二获取模块，用于获取样本驾驶动作数据集、样本障碍物信息和样本路径的信息，所述样本路径上包括多个任务点，所述多个任务点表征表征目标车辆变更驾驶动作的位置点；以及训练模块，用于利用所述样本驾驶动作数据集、所述样本障碍物信息和所述样本路径信息对预设模型进行训练，得到路径规划模型。
10.一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。11.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至7中任一项所述的方法。12.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

技术总结
本公开提供了一种路径规划方法、路径规划模型的训练方法及装置，涉及人工智能技术领域和自动驾驶技术领域。该路径规划方法包括：响应于接收到目标车辆由当前位置向目标位置的驾驶服务请求，获取目标车辆的驾驶动作信息、障碍物的信息和当前位置与目标位置之间的初始驾驶路径的信息，在驾驶路径上包括多个任务点。针对每一个任务点，利用路径规划模型，通过对目标车辆在任务点处的驾驶动作信息和任务点处的障碍物的信息进行处理，得到目标车辆在与任务点相邻的下一个任务点处的预期驾驶动作信息，得到目标车辆在多个任务点处的预期驾驶动作集合。根据预期驾驶动作集合和初始驾驶路径的信息，生成目标驾驶路径信息。生成目标驾驶路径信息。生成目标驾驶路径信息。

技术研发人员：王渤谦张亮亮
受保护的技术使用者：北京京东乾石科技有限公司
技术研发日：2023.03.15
技术公布日：2023/7/12

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种肢端型黑色素瘤诊疗标志物组合及其应用 下一篇：一种水果种类识别方法及自动售卖装置

路径规划方法、路径规划模型的训练方法及装置与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

路径规划方法、路径规划模型的训练方法及装置与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表