路径规划模型训练方法及装置与流程

专利2022-05-09 47

1.本公开的实施例涉及自动驾驶技术领域，尤其涉及一种路径规划模型训练方法及装置。

背景技术：

2.随着科学技术的不断发展，自动驾驶设备(如无人车等)已经逐渐进入人们的视野。
3.当自动驾驶设备面临复杂的障碍场景(如十字路口等)时，规划出一条兼具安全性与效率的可行路径对无人配送业务的最终落地具有一定的指导意义。
4.目前常用的路径规划方式通常是路径最短原则，即根据起点和终点规划出一条最短的路径作为自动驾驶设备的运动路径，然而，此种路径规划方式，在自动驾驶设备处于复杂的障碍场景时，可能会出现自动驾驶设备与障碍物碰撞的现象发生，进而导致自动驾驶设备出现损坏，增加了配送成本。

技术实现要素：

5.本公开的实施例提供一种路径规划模型训练方法及装置，用以结合强化学习的思路训练针对复杂场景的路径规划模型，可以提高路径规划的准确程度，提高了自动驾驶设备的安全性，降低了配送成本。
6.根据本公开的实施例的第一方面，提供了一种路径规划模型训练方法，包括：
7.在模拟自动驾驶设备在目标路段内行进的过程中，获取所述自动驾驶设备在第一时段内的第一参量，及所述自动驾驶设备对应的第一障碍物在所述第一时段内的第二参量；
8.将所述第一参量和所述第二参量输入至待训练的路径规划模型，并获取由所述路径规划模型输出的所述自动驾驶设备在第一时刻的第一设备参量；所述第一时刻为位于所述第一时段内最后一个时刻后的下一个时刻；
9.根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量；
10.将所述第一参量、所述第二参量、所述第三参量和第四参量输入至所述路径规划模型，并获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量；所述第四参量为所述第一障碍物在所述第一时刻的参量，所述第二时刻为位于所述第一时刻之后的下一个时刻；
11.将所述第二设备参量作为所述第一设备参量，循环执行所述根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量，至所述获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤，直至得到目标路径规划模型。
12.可选地，所述循环执行所述根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量，至所述获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤，直至得到目标路径规划模型，包括：
13.在迭代执行的过程，在达到参数调整条件的情况下，根据所述第一设备参量，确定所述自动驾驶设备与所述第一障碍物相碰撞的第一碰撞概率；
14.根据所述第一碰撞概率，调整所述路径规划模型的模型参数。
15.可选地，所述循环执行所述根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量，至所述获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤，直至得到目标路径规划模型，包括：
16.迭代执行设定次数的所述根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量，至所述获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤；
17.根据迭代执行结果，获取所述目标路径规划模型。
18.可选地，在所述得到目标路径规划模型之后，还包括：
19.获取测试样本，所述测试样本包括自动驾驶设备在第二时段内的第五参量和所述自动驾驶设备对应的第二障碍物在所述第二时段内的第六参量；
20.将所述测试样本输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述自动驾驶设备在第三时刻的测试设备参量；所述第三时刻为位于所述第二时段内最后一个时刻后的下一个时刻；
21.根据所述测试设备参量，确定所述自动驾驶设备在所述第三时刻与所述第二障碍物的第二碰撞概率；
22.在所述第二碰撞概率满足设定条件的情况下，确定所述目标路径规划模型满足测试条件。
23.可选地，在所述确定所述目标路径规划模型满足测试条件之后，还包括：
24.在目标自动驾驶设备在目标路段内行进的过程中，获取所述目标自动驾驶设备在第三时段内的第七参量；
25.获取所述目标自动驾驶设备对应的第三障碍物在所述第三时段内的第八参量；
26.将所述第七参量和所述第八参量输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述目标自动驾驶设备在第四时刻的目标设备参量；
27.根据所述目标设备参量，确定所述目标自动驾驶设备在所述第四时刻的目标位置。
28.根据本公开的实施例的第二方面，提供了一种路径规划模型训练装置，包括：
29.第一参量获取模块，用于在模拟自动驾驶设备在目标路段内行进的过程中，获取所述自动驾驶设备在第一时段内的第一参量，及所述自动驾驶设备对应的第一障碍物在所述第一时段内的第二参量；
30.第二参量获取模块，用于将所述第一参量和所述第二参量输入至待训练的路径规划模型，并获取由所述路径规划模型输出的所述自动驾驶设备在第一时刻的第一设备参量；所述第一时刻为位于所述第一时段内最后一个时刻后的下一个时刻；
31.第三参量获取模块，用于根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量；
32.第四参量获取模块，用于将所述第一参量、所述第二参量、所述第三参量和第四参量输入至所述路径规划模型，并获取由所述路径规划模型输出的自动驾驶设备在第二时刻
的第二设备参量；所述第四参量为所述第一障碍物在所述第一时刻的参量，所述第二时刻为位于所述第一时刻之后的下一个时刻；
33.目标模型获取模块，用于将所述第二设备参量作为所述第一设备参量，循环执行所述第三参量获取模块和所述第四参量获取模块，直至得到目标路径规划模型。
34.可选地，所述目标模型获取模块包括：
35.第一碰撞概率确定单元，用于在迭代执行的过程，在达到参数调整条件的情况下，根据所述第一设备参量，确定所述自动驾驶设备与所述第一障碍物相碰撞的第一碰撞概率；
36.模型参数调整单元，用于根据所述第一碰撞概率，调整所述路径规划模型的模型参数。
37.可选地，所述目标模型获取模块包括：
38.迭代执行设定次数的所述第三参量获取模块和所述第四参量获取模块；
39.目标模型获取单元，用于根据迭代执行结果，获取所述目标路径规划模型。
40.可选地，还包括：
41.测试样本获取模块，用于获取测试样本，所述测试样本包括自动驾驶设备在第二时段内的第五参量和所述自动驾驶设备对应的第二障碍物在所述第二时段内的第六参量；
42.测试参量获取模块，用于将所述测试样本输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述自动驾驶设备在第三时刻的测试设备参量；所述第三时刻为位于所述第二时段内最后一个时刻后的下一个时刻；
43.第二碰撞概率确定模块，用于根据所述测试设备参量，确定所述自动驾驶设备在所述第三时刻与所述第二障碍物的第二碰撞概率；
44.测试条件确定模块，用于在所述第二碰撞概率满足设定条件的情况下，确定所述目标路径规划模型满足测试条件。
45.可选地，还包括：
46.第五参量获取模块，用于在目标自动驾驶设备在目标路段内行进的过程中，获取所述目标自动驾驶设备在第三时段内的第七参量；
47.第六参量获取模块，用于获取所述目标自动驾驶设备对应的第三障碍物在所述第三时段内的第八参量；
48.目标设备参量获取模块，用于将所述第七参量和所述第八参量输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述目标自动驾驶设备在第四时刻的目标设备参量；
49.目标位置确定模块，用于根据所述目标设备参量，确定所述目标自动驾驶设备在所述第四时刻的目标位置。
50.根据本公开的实施例的第三方面，提供了一种自动驾驶设备，包括：
51.处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的路径规划模型训练方法。
52.根据本公开的实施例的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一项所述的路径规划模型训练方法。
53.本公开的实施例提供了一种路径规划模型训练方法及装置。通过在模拟自动驾驶设备在目标路段内行进的过程中，获取自动驾驶设备在第一时段内的第一参量，及自动驾驶设备对应的第一障碍物在第一时段内的第二参量，将第一参量和第二参量输入至路径规划模型，并获取由路径规划模型输出的自动驾驶设备在第一时刻的第一设备参量；第一时刻为位于第一时段内最后一个时刻后的下一个时刻；根据第一设备参量，获取自动驾驶设备在第一时刻的第三参量；将第一参量、第二参量、第三参量和第四参量输入至路径规划模型，并获取由路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量，第四参量为所述第一障碍物在第一时刻的参量，第二时刻为位于第一时刻之后的下一个时刻，将第二设备参量作为第一设备参量，循环执行根据所述第一设备参量，获取自动驾驶设备在第一时刻的第三参量，至获取由路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤，直至得到目标路径规划模型。本公开的实施例通过结合强化学习的思路训练针对复杂场景的路径规划模型，可以提高路径规划的准确程度，提高了自动驾驶设备的安全性，降低了配送成本。
附图说明
54.为了更清楚地说明本公开的实施例的技术方案，下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
55.图1为本公开的实施例提供的一种路径规划模型训练方法的步骤流程图；
56.图2为本公开的实施例提供的另一种路径规划模型训练装置的结构示意图。
具体实施方式
57.下面将结合本公开的实施例中的附图，对本公开的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的实施例一部分实施例，而不是全部的实施例。基于本公开的实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开的实施例保护的范围。
58.实施例一
59.参照图1，示出了本公开的实施例提供的一种路径规划模型训练方法的步骤流程图，如图1所示，该路径规划模型训练方法具体可以包括如下步骤：
60.步骤101：在模拟自动驾驶设备在目标路段内行进的过程中，获取所述自动驾驶设备在第一时段内的第一参量，及所述自动驾驶设备对应的第一障碍物在所述第一时段内的第二参量。
61.本公开的实施例可以应用于对自动驾驶设备处于复杂场景中的运行路径进行规划的模型训练的场景中。
62.在本实施例中，自动驾驶设备也即无人驾驶的设备。在实际应用中，自动驾驶设备可以为地面上行驶的车辆(如汽车、卡车、公交车等)，也可以为空中行驶的车辆(如无人机、飞机、直升机等)，还可以为水上行驶的车辆(如船、潜艇等)。在本示例中，自动驾驶设备可以应用于外卖配送、快递物流等领域，但不仅限于此，具体地，可以根据业务需求而定，本实
施例对此不加以限制。
63.在需要进行路径规划模型的训练时，可以通过仿真平台模拟自动驾驶设备在复杂场景(如路口场景等)的运行过程，并通过模拟情况实时获取自动驾驶设备所处的位置及自动驾驶设备的速度。
64.目标路段是指自动驾驶设备所处的复杂场景的路段，在本示例中，目标路段可以为路口场景路段、繁华路段(如车流量较大的路段等)等，具体地，可以根据业务需求预先设定，本公开的实施例对此不加以限制。
65.第一时段是指自动驾驶设备在目标路段内行进的过程中的一个时段，对于第一时段可以根据业务需求预先设定，本实施例对此不加以限制。
66.第一参量是指模拟的自动驾驶设备在第一时段内各个时刻的位置和速度两个参量。
67.第一障碍物是指在模拟自动驾驶设备在目标路段内行进的过程中形成于自动驾驶设备的障碍的对象，在本示例中，第一障碍物可以为车辆、行人等障碍物，具体地，可以根据业务需求而定，本实施例对此不加以限制。
68.第二参量是指第一障碍物在第一时段内的各个时刻的位置和速度两个参量。
69.在模拟自动驾驶设备在目标路段内行进的过程中，可以获取自动驾驶设备在第一时段内的第一参量，例如，第一时段为11：00～11：20，第一参量即包含了自动驾驶设备在11：00、11：05、11：10、11：15和11：20五个时刻处的位置和速度，即每5分钟定义为一个时刻。那么，第二参量即包含了第一障碍物在11：00、11：05、11：10、11：15和11：20五个时刻处的位置和速度。
70.可以理解地，上述示例仅是为了更好地理解本公开的实施例的技术方案而列举的示例，不作为对本公开的实施例的唯一限制。
71.在获取到自动驾驶设备在第一时段内的第一参量，及自动驾驶设备对应的第一障碍物在第一时段内的第二参量之后，执行步骤102。
72.步骤102：将所述第一参量和所述第二参量输入至待训练的路径规划模型，并获取由所述路径规划模型输出的所述自动驾驶设备在第一时刻的第一设备参量；所述第一时刻为位于所述第一时段内最后一个时刻后的下一个时刻。
73.路径规划模型是指需要进行训练的用于对自动驾驶设备在目标路段内的路径进行规划的模型。
74.第一时刻是指位于第一时段内最后一个时刻的下一个时刻，例如，第一时段为11：00～11：20，每隔5分钟定义一个时刻，第一时段的最后一个时刻即为11：20，那么第一时刻即为11：25。
75.可以理解地，上述示例仅是为了更好地理解本公开的实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。
76.第一设备参量是指路径规划模型输出的自动驾驶设备在第一时刻处的设备参量，第一设备参量可以包括：自动驾驶设备的加速度、速度等参量。
77.在获取到第一参量和第二参量之后，可以将第一参量和第二参量输入至路径规划模型，以获取由路径规划模型输出的自动驾驶设备在第一时刻的第一设备参量。
78.在获取到由路径规划模型输出的自动驾驶设备在第一时刻的第一设备参量之后，
执行步骤103。
79.步骤103：根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量。
80.第三参量是指自动驾驶设备在第一时刻的位置和速度参量。
81.在获取第一设备参量之后，可以根据第一设备参量获取自动驾驶设备在第一时刻处的第三参量。
82.在根据第一设备参量获取到自动驾驶设备在第一时刻的第三参量之后，执行步骤104。
83.步骤104：将所述第一参量、所述第二参量、所述第三参量和第四参量输入至所述路径规划模型，并获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量；所述第四参量为所述第一障碍物在所述第一时刻的参量，所述第二时刻为位于所述第一时刻之后的下一个时刻。
84.第四参量是指第一障碍物在第一时刻的位置和速度参量。
85.在获取到自动驾驶设备在第一时刻的第三参量之后，可以获取第一障碍物在第一时刻的第四参量，对于第四参量的获取方式可以是采用预设模型获取到的，也可以是根据第一障碍物的加速度、上一时刻的速度等参数计算得到的等等，具体地，对于第四参量的具体获取方式可以根据业务需求而定，本实施例对此不加以限制。
86.第二时刻是指位于第一时刻之后下一个时刻，例如，第一时刻为11：25，每隔5分钟定义一个时刻，那么第二时刻即为11：30。
87.可以理解地，上述示例仅是为了更好地理解本公开的实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。
88.第二设备参量是指待训练的路径规划模型输出的自动驾驶设备在第二时刻处的设备参量，第二设备参量可以包括：自动驾驶设备的加速度、速度等参量。
89.在获取到第三参量和第四参量之后，可以将第一参量、第二参量、第三参量和第四参量输入至路径规划模型，以获取由路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量。
90.在获取到第二设备参量之后，执行步骤105。
91.步骤105：将所述第二设备参量作为所述第一设备参量，循环执行步骤103至步骤104，直至得到目标路径规划模型。
92.在获取到第二设备参量之后，可以将第二设备参量作为第一设备参量，并循环执行上述步骤103至104，直至得到目标路径规划模型。
93.在迭代执行步骤103至步骤104的过程中，可以在达到参数调整条件的情况下，根据第一设备参量确定自动驾驶设备与第一障碍物相碰撞的第一碰撞概率，并根据第一碰撞概率调整路径规划模型的模型参数，在具体实现中，参数调整条件可以为设定步长，例如10步长等，每隔10步长则调整一次路径规划模型的模型参数等。
94.而在迭代设定次数的上述步骤103至步骤104之后，则可以将训练的路径规划模型作为目标路径规划模型，该目标路径规划模型则可以应用于后续的自动驾驶设备在目标路段内的路径规划场景中。
95.当然，在实际训练过程会迭代若干轮次，可以采用设备参量来分辨当前时间段是
否处于同一迭代轮次，例如，自动驾驶设备在第一轮走动了10步，在第二轮走动了12步，而在从中筛选训练样本的步数为6步，此时，可以分为三种情况：1、全部覆盖于第一轮；2、全部覆盖于第二轮；3、第一轮和第二轮中有交叉。在实际训练过程中，对于此三种情况应当全部覆盖，进而可以大幅提高模型的路径规划精度。
96.本公开的实施例在路径规划模型的训练过程中，引入实时的障碍物状态和位置，并结合自动驾驶设备的状态和位置对模型参数进行调整，能够实现自动驾驶设备在配送过程中动态更新自动驾驶设备的行进路径，避免出现碰撞的现象发生。
97.在得到目标路径规划模型之后，则可以对目标路径规划模型进行测试，以确定该目标路径规划模型是否能够满足业务需求，具体地，可以结合下述具体实现方式进行详细描述。
98.在本公开的一种具体实现方式中，在上述步骤105之后，还可以包括：
99.步骤s1：获取测试样本，所述测试样本包括自动驾驶设备在第二时段内的第五参量和所述自动驾驶设备对应的第二障碍物在所述第二时段内的第六参量。
100.在本实施例中，第二时段是指通过仿真模拟平台模拟的自动驾驶设备在目标路段内行进的过程中的某一个时段。
101.第二障碍物是指在模拟自动驾驶设备在目标路段内行进的过程中构成自动驾驶设备的障碍物，在本示例中，第二障碍物可以为车辆、行人等对象，具体地，可以根据业务需求而定，本实施例对此不加以限制。
102.第五参量是指自动驾驶设备在第二时段内各个时刻的位置和速度参量。
103.第六参量是指第二障碍物在第二时段内各个时刻的位置和速度参量。
104.测试样本是指用于对训练得到的目标路径规划模型进行测试的样本，测试样本可以包括自动驾驶设备在第二时段内的第五参量和自动驾驶设备对应的第二障碍物在第二时段内的第六参量。
105.在训练得到目标路径规划模型之后，可以获取测试样本，该测试样本可以用于对目标路径规划模型进行测试。
106.在获取到测试样本之后，执行步骤s2。
107.步骤s2：将所述测试样本输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述自动驾驶设备在第三时刻的测试设备参量；所述第三时刻为位于所述第二时段内最后一个时刻后的下一个时刻。
108.第三时刻是指位于第二时段内的最后一个时刻后的下一个时刻。
109.测试设备参量是指由目标路径规划模型输出的自动驾驶设备在第三时刻的设备参量，测试设备参量可以包括自动驾驶设备在第三时刻的加速度、速度等参量。
110.在获取到测试样本之后，可以将测试样本输入至目标路径规划模型，并获取由目标路径规划模型输出的自动驾驶设备在第三时刻的测试设备参量。
111.在获取到测试设备参量之后，执行步骤s3。
112.步骤s3：根据所述测试设备参量，确定所述自动驾驶设备在所述第三时刻与所述第二障碍物的第二碰撞概率。
113.在获取到测试设备参量之后，可以根据设备测试参量确定自动驾驶设备在第三时刻的位置，结合自动驾驶设备的位置和第二障碍物的位置，可以计算出自动驾驶设备在第
三时刻与第二障碍物的碰撞概率，即第二碰撞概率。
114.在确定第二碰撞概率之后，执行步骤s4。
115.步骤s4：在所述第二碰撞概率满足设定条件的情况下，确定所述目标路径规划模型满足测试条件。
116.设定条件是指由业务人员预先设定的用于判定碰撞概率是否能够满足业务需求的条件，在本示例中，设定条件可以为碰撞概率阈值，在得到的碰撞概率大于或者等于该碰撞概率阈值的情况下，则表示目标路径规划模型不满足测试条件；而在得到的碰撞概率小于该碰撞概率阈值的情况下，则表示目标路径规划模型满足测试条件。
117.当然，在具体实现中，设定条件还可以为其它形式的条件，具体地，可以根据业务需求而定，本实施例对此不加以限制。
118.在确定第二碰撞概率之后，可以判断第二碰撞概率是否满足设定条件。
119.在第二碰撞概率不满足设定条件的情况下，则可以对目标路径规划模型继续进行训练，直至目标路径规划模型满足测试条件。
120.在第二碰撞概率满足设定条件的情况下，则确定目标路径规划模型满足测试条件，该目标路径规划模型则可以应用于后续的自动驾驶设备在目标路段内的路径规划。
121.对于目标路径规划模型的应用过程可以结合下述具体实现方式进行详细描述。
122.在本公开的另一种具体实现方式中，在上述步骤s4之后，还可以包括：
123.步骤m1：在目标自动驾驶设备在目标路段内行进的过程中，获取所述目标自动驾驶设备在第三时段内的第七参量。
124.在本实施例中，目标自动驾驶设备是指在目标路段内进行的需要进行路径规划的配送设备。
125.第三时段是指目标自动驾驶设备在目标路段内行进的过程中距离当前时间为设定时长的某个时段。
126.第七参量是指目标自动驾驶设备在第三时段内各个时刻处的位置和速度参量。
127.在目标自动驾驶设备在目标路段内行进的过程中，可以获取目标自动驾驶设备在第三时段内的第七参量。
128.在获取到第七参量之后，执行步骤m2。
129.步骤m2：获取所述目标自动驾驶设备对应的第三障碍物在所述第三时段内的第八参量。
130.第三障碍物是指在目标自动驾驶设备在目标路段内行进的过程中，与目标自动驾驶设备的距离位于预设距离范围内的对象，在本示例中，第三障碍物可以为行人、车辆等对象，具体地，可以根据业务需求而定，本实施例对此不加以限制。
131.第八参量是指第三障碍物在第三时段内各个时刻处的位置和速度参量。
132.在获取到目标自动驾驶设备在第三时段内各个时刻的位置和速度参量(即第七参量)之后，可以获取目标自动驾驶设备对应的第三障碍物在第三时段内的第八参量。
133.步骤m3：将所述第七参量和所述第八参量输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述目标自动驾驶设备在第四时刻的目标设备参量。
134.第四时刻是指位于第三时段内最后一个时刻之后的下一个时刻，例如，第三时段为11：00～11：30，定以每隔5分钟为一个时刻，则第三时段内的最后一个时刻为11：30，那么
第四时刻即为11：35。
135.可以理解地，上述示例仅是为了更好地理解本公开的实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。
136.目标设备参量是指由目标路径规划模型输出的目标自动驾驶设备在第四时刻处的设备参量，在本示例中，目标设备参量可以包括速度、加速度等参量。
137.在获取到第七参量和第八参量之后，可以将第七参量和第八参量输入至目标路径规划模型，以获取由目标路径规划模型输出的目标自动驾驶设备在第四时刻的目标设备参量。
138.在获取到目标设备参量之后，执行步骤m4。
139.步骤m4：根据所述目标设备参量，确定所述目标自动驾驶设备在所述第四时刻的目标位置。
140.在获取到目标设备参量之后，即可以根据目标设备参量确定出目标自动驾驶设备在第四时刻的目标位置，具体地，可以根据速度和加速度，结合目标自动驾驶设备在第三时段内最后一个时刻处所处的位置，可以计算得到目标自动驾驶设备在第四时刻的位置。
141.本公开的实施例提供的路径规划模型训练方法，通过在模拟自动驾驶设备在目标路段内行进的过程中，获取自动驾驶设备在第一时段内的第一参量，及自动驾驶设备对应的第一障碍物在第一时段内的第二参量，将第一参量和第二参量输入至路径规划模型，并获取由路径规划模型输出的自动驾驶设备在第一时刻的第一设备参量；第一时刻为位于第一时段内最后一个时刻后的下一个时刻；根据第一设备参量，获取自动驾驶设备在第一时刻的第三参量；将第一参量、第二参量、第三参量和第四参量输入至路径规划模型，并获取由路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量，第四参量为所述第一障碍物在第一时刻的参量，第二时刻为位于第一时刻之后的下一个时刻，将第二设备参量作为第一设备参量，循环执行根据所述第一设备参量，获取自动驾驶设备在第一时刻的第三参量，至获取由路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤，直至得到目标路径规划模型。本公开的实施例通过结合强化学习的思路训练针对复杂场景的路径规划模型，可以提高路径规划的准确程度，提高了自动驾驶设备的安全性，降低了配送成本。
142.实施例二
143.参照图2，示出了本公开的实施例提供的一种路径规划模型训练装置的结构示意图，如图2所示，该路径规划模型训练装置200具体可以包括如下模块：
144.第一参量获取模块210，用于在模拟自动驾驶设备在目标路段内行进的过程中，获取所述自动驾驶设备在第一时段内的第一参量，及所述自动驾驶设备对应的第一障碍物在所述第一时段内的第二参量；
145.第二参量获取模块220，用于将所述第一参量和所述第二参量输入至待训练的路径规划模型，并获取由所述路径规划模型输出的所述自动驾驶设备在第一时刻的第一设备参量；所述第一时刻为位于所述第一时段内最后一个时刻后的下一个时刻；
146.第三参量获取模块230，用于根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量；
147.第四参量获取模块240，用于将所述第一参量、所述第二参量、所述第三参量和第
四参量输入至所述路径规划模型，并获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量；所述第四参量为所述第一障碍物在所述第一时刻的参量，所述第二时刻为位于所述第一时刻之后的下一个时刻；
148.目标模型获取模块250，用于将所述第二设备参量作为所述第一设备参量，循环执行所述第三参量获取模块和所述第四参量获取模块，直至得到目标路径规划模型。
149.可选地，所述目标模型获取模块250包括：
150.第一碰撞概率确定单元，用于在迭代执行的过程，在达到参数调整条件的情况下，根据所述第一设备参量，确定所述自动驾驶设备与所述第一障碍物相碰撞的第一碰撞概率；
151.模型参数调整单元，用于根据所述第一碰撞概率，调整所述路径规划模型的模型参数。
152.可选地，所述目标模型获取模块250包括：
153.迭代执行设定次数的所述第三参量获取模块和所述第四参量获取模块；
154.目标模型获取单元，用于根据迭代执行结果，获取所述目标路径规划模型。
155.可选地，还包括：
156.测试样本获取模块，用于获取测试样本，所述测试样本包括自动驾驶设备在第二时段内的第五参量和所述自动驾驶设备对应的第二障碍物在所述第二时段内的第六参量；
157.测试参量获取模块，用于将所述测试样本输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述自动驾驶设备在第三时刻的测试设备参量；所述第三时刻为位于所述第二时段内最后一个时刻后的下一个时刻；
158.第二碰撞概率确定模块，用于根据所述测试设备参量，确定所述自动驾驶设备在所述第三时刻与所述第二障碍物的第二碰撞概率；
159.测试条件确定模块，用于在所述第二碰撞概率满足设定条件的情况下，确定所述目标路径规划模型满足测试条件。
160.可选地，还包括：
161.第五参量获取模块，用于在目标自动驾驶设备在目标路段内行进的过程中，获取所述目标自动驾驶设备在第三时段内的第七参量；
162.第六参量获取模块，用于获取所述目标自动驾驶设备对应的第三障碍物在所述第三时段内的第八参量；
163.目标设备参量获取模块，用于将所述第七参量和所述第八参量输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述目标自动驾驶设备在第四时刻的目标设备参量；
164.目标位置确定模块，用于根据所述目标设备参量，确定所述目标自动驾驶设备在所述第四时刻的目标位置。
165.本公开的实施例提供了一种路径规划模型训练装置，通过在模拟自动驾驶设备在目标路段内行进的过程中，获取自动驾驶设备在第一时段内的第一参量，及自动驾驶设备对应的第一障碍物在第一时段内的第二参量，将第一参量和第二参量输入至路径规划模型，并获取由路径规划模型输出的自动驾驶设备在第一时刻的第一设备参量；第一时刻为位于第一时段内最后一个时刻后的下一个时刻；根据第一设备参量，获取自动驾驶设备在
第一时刻的第三参量；将第一参量、第二参量、第三参量和第四参量输入至路径规划模型，并获取由路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量，第四参量为所述第一障碍物在第一时刻的参量，第二时刻为位于第一时刻之后的下一个时刻，将第二设备参量作为第一设备参量，循环执行根据所述第一设备参量，获取自动驾驶设备在第一时刻的第三参量，至获取由路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤，直至得到目标路径规划模型。本公开的实施例通过结合强化学习的思路训练针对复杂场景的路径规划模型，可以提高路径规划的准确程度，提高了自动驾驶设备的安全性，降低了配送成本。
166.本公开的实施例还提供了一种自动驾驶设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施例的路径规划模型训练方法。
167.本公开的实施例还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的路径规划模型训练方法。
168.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
169.在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开的实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的实施例的内容，并且上面对特定语言所做的描述是为了披露本公开的实施例的最佳实施方式。
170.在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
171.类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的实施例的单独实施例。
172.本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
173.本公开的实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理
器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本公开的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
174.应该注意的是上述实施例对本公开的实施例进行说明而不是对本公开的实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
175.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
176.以上所述仅为本公开的实施例的较佳实施例而已，并不用以限制本公开的实施例，凡在本公开的实施例的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本公开的实施例的保护范围之内。
177.以上所述，仅为本公开的实施例的具体实施方式，但本公开的实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开的实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的实施例的保护范围之内。因此，本公开的实施例的保护范围应以权利要求的保护范围为准。

技术特征：
1.一种路径规划模型训练方法，其特征在于，包括：在模拟自动驾驶设备在目标路段内行进的过程中，获取所述自动驾驶设备在第一时段内的第一参量，及所述自动驾驶设备对应的第一障碍物在所述第一时段内的第二参量；将所述第一参量和所述第二参量输入至待训练的路径规划模型，并获取由所述路径规划模型输出的所述自动驾驶设备在第一时刻的第一设备参量；所述第一时刻为位于所述第一时段内最后一个时刻后的下一个时刻；根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量；将所述第一参量、所述第二参量、所述第三参量和第四参量输入至所述路径规划模型，并获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量；所述第四参量为所述第一障碍物在所述第一时刻的参量，所述第二时刻为位于所述第一时刻之后的下一个时刻；将所述第二设备参量作为所述第一设备参量，循环执行所述根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量，至所述获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤，直至得到目标路径规划模型。2.根据权利要求1所述的方法，其特征在于，所述循环执行所述根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量，至所述获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤，直至得到目标路径规划模型，包括：在迭代执行的过程，在达到参数调整条件的情况下，根据所述第一设备参量，确定所述自动驾驶设备与所述第一障碍物相碰撞的第一碰撞概率；根据所述第一碰撞概率，调整所述路径规划模型的模型参数。3.根据权利要求1所述的方法，其特征在于，所述循环执行所述根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量，至所述获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤，直至得到目标路径规划模型，包括：迭代执行设定次数的所述根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量，至所述获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量的步骤；根据迭代执行结果，获取所述目标路径规划模型。4.根据权利要求1所述的方法，其特征在于，在所述得到目标路径规划模型之后，还包括：获取测试样本，所述测试样本包括自动驾驶设备在第二时段内的第五参量和所述自动驾驶设备对应的第二障碍物在所述第二时段内的第六参量；将所述测试样本输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述自动驾驶设备在第三时刻的测试设备参量；所述第三时刻为位于所述第二时段内最后一个时刻后的下一个时刻；根据所述测试设备参量，确定所述自动驾驶设备在所述第三时刻与所述第二障碍物的第二碰撞概率；在所述第二碰撞概率满足设定条件的情况下，确定所述目标路径规划模型满足测试条
件。5.根据权利要求4所述的方法，其特征在于，在所述确定所述目标路径规划模型满足测试条件之后，还包括：在目标自动驾驶设备在目标路段内行进的过程中，获取所述目标自动驾驶设备在第三时段内的第七参量；获取所述目标自动驾驶设备对应的第三障碍物在所述第三时段内的第八参量；将所述第七参量和所述第八参量输入至所述目标路径规划模型，并获取由所述目标路径规划模型输出的所述目标自动驾驶设备在第四时刻的目标设备参量；根据所述目标设备参量，确定所述目标自动驾驶设备在所述第四时刻的目标位置。6.一种路径规划模型训练装置，其特征在于，包括：第一参量获取模块，用于在模拟自动驾驶设备在目标路段内行进的过程中，获取所述自动驾驶设备在第一时段内的第一参量，及所述自动驾驶设备对应的第一障碍物在所述第一时段内的第二参量；第二参量获取模块，用于将所述第一参量和所述第二参量输入至待训练的路径规划模型，并获取由所述路径规划模型输出的所述自动驾驶设备在第一时刻的第一设备参量；所述第一时刻为位于所述第一时段内最后一个时刻后的下一个时刻；第三参量获取模块，用于根据所述第一设备参量，获取所述自动驾驶设备在所述第一时刻的第三参量；第四参量获取模块，用于将所述第一参量、所述第二参量、所述第三参量和第四参量输入至所述路径规划模型，并获取由所述路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量；所述第四参量为所述第一障碍物在所述第一时刻的参量，所述第二时刻为位于所述第一时刻之后的下一个时刻；目标模型获取模块，用于将所述第二设备参量作为所述第一设备参量，循环执行所述第三参量获取模块和所述第四参量获取模块，直至得到目标路径规划模型。7.根据权利要求6所述的装置，其特征在于，所述目标模型获取模块包括：第一碰撞概率确定单元，用于在迭代执行的过程，在达到参数调整条件的情况下，根据所述第一设备参量，确定所述自动驾驶设备与所述第一障碍物相碰撞的第一碰撞概率；模型参数调整单元，用于根据所述第一碰撞概率，调整所述路径规划模型的模型参数。8.根据权利要求6所述的装置，其特征在于，所述目标模型获取模块包括：迭代执行设定次数的所述第三参量获取模块和所述第四参量获取模块；目标模型获取单元，用于根据迭代执行结果，获取所述目标路径规划模型。9.一种自动驾驶设备，其特征在于，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至5中任一项所述的路径规划模型训练方法。10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1至5中任一项所述的路径规划模型训练方法。
技术总结
本公开提供了一种路径规划模型训练方法及装置。包括：在模拟自动驾驶设备在目标路段内行进的过程中，获取自动驾驶设备在第一时段内的第一参量，及自动驾驶设备对应的第一障碍物在第一时段内的第二参量；将第一参量和第二参量输入至路径规划模型，获取由路径规划模型输出的自动驾驶设备在第一时刻的第一设备参量；根据第一设备参量获取自动驾驶设备在第一时刻的第三参量；将述第三参量和第四参量输入至路径规划模型，获取由路径规划模型输出的自动驾驶设备在第二时刻的第二设备参量；将第二设备参量作为第一设备参量，循环执行上述步骤，直至得到目标路径规划模型。本公开可以提高路径规划的准确程度及自动驾驶设备的安全性。性。性。

技术研发人员：白钰金昕泽任冬淳贾庆山
受保护的技术使用者：北京三快在线科技有限公司
技术研发日：2021.03.23
技术公布日：2021/7/15

转载请注明原文地址:https://doc.8miu.com/read-650348.html

专利

最新回复(0)