机械臂控制模型的训练方法、装置及机械臂控制系统

未命名 07-13 阅读：200 评论：0

1.本技术涉及机械臂控制技术领域，具体而言，涉及一种机械臂控制模型的训练方法、装置及机械臂控制系统。

背景技术：

2.在传统的制造业中，通常是人工对工件进行分拣，人工分拣存在效率低下、分拣准确率低等问题。随着“中国制造2025”战略的深入开展，中国现代制造业发展迅速，机械臂在工件分拣中表现出高稳定性和高效率，机械臂实现的工件分拣功能成为替代人工分拣的主流方案，制造业企业对机械臂的使用需求不断增加。
3.然而，目前在生产中使用的具备工件分拣功能的机械臂，都是通过人工编程和示教训练以实现其功能，工程师需要花费大量精力对机械臂进行编程和示教训练，花费了工程师的大量时间。

技术实现要素：

4.本技术的目的在于，针对上述现有技术中的不足，提供一种机械臂控制模型的训练方法、装置及机械臂控制系统，以便解决现有技术中存在的问题。
5.为实现上述目的，本技术实施例采用的技术方案如下：
6.第一方面，本技术实施例提供了一种机械臂控制模型的训练方法，包括：
7.采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对所述虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据；其中，每个交互轨迹数据为所述预设机械臂的虚拟模型执行一次交互任务中的轨迹数据；
8.从所述每个交互轨迹数据中采样多个转移数据，所述多个转移数据包括：所述预设机械臂的虚拟模型执行对应同一次交互任务的多个时间点的过程数据；
9.从所述多个转移数据中，确定所述多个时间点的候选回放目标集合，其中，每个时间点的候选回放目标集合包括：所述预设工件的虚拟模型在所述每个时间点之后的至少一个时间点的已完成目标位置；
10.根据所述每个时间点的候选回放目标集合，更新所述每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据；
11.根据更新后的多个转移数据，对所述初始机械臂控制模型进行训练，生成目标机械臂控制模型。
12.在一实施例中，所述从所述每个交互轨迹数据中采样多个转移数据，包括：
13.从所述每个交互轨迹数据中采样所述预设机械臂的虚拟模型在所述多个时间点的交互观察数据；
14.从所述每个交互轨迹数据中采样所述预设机械臂的虚拟模型在所述多个时间点的动作数据；其中，所述动作数据包括：所述预设工件的虚拟模型的位姿以及所述预设机械臂的虚拟模型末端的位姿；
15.从所述每个交互轨迹数据中采样在所述多个时间点的完成所述同一次交互任务的奖励数据；
16.从所述每个交互轨迹数据中采样在所述多个时间点的所述同一次交互任务的目标位置；
17.从所述每个交互轨迹数据中采样在所述多个时间点的已完成目标位置；
18.根据所述多个时间点的交互观察数据、动作数据、奖励数据、目标位置以及已完成目标位置，分别生成所述多个转移数据。
19.在一实施例中，所述根据所述每个时间点的候选回放目标集合，更新所述每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据，包括：
20.从所述每个时间点的候选回放目标集合中的各候选位置中，确定所述每个时间点的回放目标位置；
21.根据所述每个时间点的回放目标位置，更新所述每个时间点对应的转移数据中的已完成目标位置，得到所述更新后的转移数据。
22.在一实施例中，所述从所述每个时间点的候选回放目标集合中的各候选位置中，确定所述每个时间点的回放目标位置，包括：
23.根据所述每个时间点的各候选位置，以及所述同一次交互任务的目标位置，计算所述各候选位置对应的距离参数；
24.根据所述每个时间点的各候选位置，以及所述每个时间点的转移数据中的已完成目标位置，计算所述各候选位置对应的相似度参数；
25.根据所述各候选位置对应的距离参数，以及所述各候选位置对应的相似度参数进行加权处理，得到所述各候选位置的距离评价参数；
26.根据所述各候选位置的距离评价参数，选择距离评价参数最高的候选位置为所述每个时间点的回放目标位置。
27.在一实施例中，所述根据更新后的多个转移数据，对初始机械臂控制模型进行训练，生成目标机械臂控制模型，包括：
28.根据所述更新后的多个转移数据，分别计算所述多个时间点的目标奖励数据；
29.将所述更新后的多个转移数据中各时间点的奖励数据更新为所述各时间点的目标奖励数据，得到多个目标转移数据；
30.根据所述多个目标转移数据，对所述初始机械臂控制模型进行训练，生成所述目标机械臂控制模型。
31.在一实施例中，所述根据所述更新后的多个转移数据，分别计算所述多个时间点的目标奖励数据，包括：
32.根据所述更新后的多个转移数据中第一时间点之前的第二时间点的已完成目标位置和所述同一次交互任务的目标位置，计算所述第一时间点的第一距离参数；
33.根据所述更新后的多个转移数据中所述第一时间点的已完成目标位置和所述同一次交互任务的目标位置，计算所述第一时间点的第二距离参数；
34.根据所述第一距离参数和所述第二距离参数，计算所述第一时间点的目标奖励数据。
35.在一实施例中，所述根据所述第一距离参数和所述第二距离参数，计算所述第一
时间点的目标奖励数据，包括：
36.根据所述第一距离参数和所述第二距离参数的差值，计算所述第一时间点的进步奖励数据；
37.根据所述第一时间点的进步奖励数据，以及所述更新后的多个转移数据后所述第一时间点的奖励数据，计算所述第一时间点的目标奖励数据。
38.在一实施例中，所述根据所述多个目标转移数据，对所述初始机械臂控制模型进行训练，生成所述目标机械臂控制模型，包括：
39.根据所述多个目标转移数据，更新所述初始机械臂控制模型的参数；
40.采用参数更新后的所述初始机械臂控制模型，控制所述预设机械臂的虚拟模型对所述预设工件的虚拟模型执行交互任务，并获取所述初始机械臂控制模型的控制成功率；
41.若所述成功率不满足预设阈值，则重新控制所述初始机械臂的虚拟模型对所述预设工件的虚拟模型执行多次交互任务，直至得到的所述目标机械臂控制模型的控制成功率满足所述预设阈值。
42.第二方面，本技术实施例提供了一种机械臂控制模型的训练装置，包括：
43.控制模块，用于采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对所述虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据；其中，每个交互轨迹数据为所述预设机械臂的虚拟模型执行一次交互任务中的轨迹数据；
44.采集模块，用于从所述每个交互轨迹数据中采样多个转移数据，所述多个转移数据包括：所述预设机械臂的虚拟模型执行对应同一次交互任务的多个时间点的过程数据；
45.确定模块，用于从所述多个转移数据中，确定所述多个时间点的候选回放目标集合，其中，每个时间点的候选回放目标集合包括：所述预设工件的虚拟模型在所述每个时间点之后的至少一个时间点的已完成目标位置；
46.更新模块，用于根据所述每个时间点的候选回放目标集合，更新所述每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据；
47.训练模块，用于根据更新后的多个转移数据，对所述初始机械臂控制模型进行训练，生成目标机械臂控制模型。
48.第三方面，本技术实施例提供了一种机械臂控制系统，所述机械臂控制系统包括：计算机设备、预设机械臂、控制器以及环境采集模块；所述计算机设备上预先集成有所述目标机械臂控制模型、以及虚拟作业环境，其中，所述虚拟作业环境中具有预设机械臂的虚拟模型和预设工件的虚拟模型；所述目标机械臂控制模型为由上述实施例所述的机械臂控制模型的训练方法训练得到的模型；
49.所述计算机设备与所述环境采集模块通信连接，以获取所述预设机械臂所在实际作业环境中的环境参数，并基于所述环境参数以及预设目标位置，采用所述目标机械臂控制模型生成机械臂控制参数；
50.所述计算机设备和所述控制器通信连接，所述控制器和所述机械臂连接，以使得所述计算机设备在基于所述机械臂控制参数控制所述虚拟作业环境中所述预设机械臂的虚拟模型对所述预设工件的虚拟模型执行交互作业的情况下，通过所述控制器控制所述实际作业环境中的所述预设机械臂对预设工件执行交互作业。
51.第四方面，本技术实施例提供了一种计算机设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当计算机设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行上述机械臂控制模型的训练方法的步骤。
52.第五方面，本技术实施例提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述机械臂控制模型的训练方法的步骤。
53.本技术的有益效果是：本技术提供一种机械臂控制模型的训练方法、装置及机械臂控制系统，该机械臂控制模型的训练方法包括：采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据；从每个交互轨迹数据中采样多个转移数据；从多个转移数据中，确定多个时间点的候选回放目标集合；根据每个时间点的候选回放目标集合，更新每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据；根据更新后的多个转移数据，对初始机械臂控制模型进行训练，生成目标机械臂控制模型。采用该方法，可以对初始机械臂控制模型进行训练，得到训练好的目标机械臂控制模型，目标机械臂控制模型即可用于控制预设机械臂的虚拟模型将预设工件的虚拟模型放置在预设位置，本技术实现了对初始机械臂控制模型的自动训练，使工程师摆脱了繁杂的示教工作，也提高了机械臂的生产效率。
附图说明
54.为了更清楚地说明本技术实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
55.图1为本技术一实施例提供的一种机械臂控制模型的训练方法的流程示意图；
56.图2为本技术一实施例提供的获取转移数据的方法流程示意图；
57.图3为本技术一实施例提供的对转移数据进行更新的方法流程示意图；
58.图4为本技术一实施例提供的确定回放目标位置的方法流程示意图；
59.图5为本技术一实施例提供的又一机械臂控制模型的训练方法的流程示意图；
60.图6为本技术一实施例提供的计算目标奖励数据的方法流程示意图；
61.图7为本技术一实施例提供的计算目标奖励数据的具体方法的流程示意图；
62.图8为本技术一实施例提供的目标机械臂控制模型的测试方法的流程示意图；
63.图9为本技术一实施例提供的机械臂控制模型的训练装置的结构示意图；
64.图10(a)和图10(b)为本技术一实施例提供的机械臂控制系统的结构示意图；
65.图11为本技术一实施例提供的计算机设备的结构示意图。
66.附图标记说明：1、计算机设备；2、预设机械臂；3、控制器；4、环境采集模块；5、预设工件；6、储存盒；7、电源；8、变压器。
具体实施方式
67.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。
68.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
69.在本技术的描述中，需要说明的是，若出现术语“上”、“下”、等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。
70.此外，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
71.需要说明的是，在不冲突的情况下，本技术的实施例中的特征可以相互结合。
72.本技术实施例提供了一种机械臂控制模型的训练方法、装置及机械臂控制系统，该机械臂控制模型的训练方法可由任一集成有初始机械臂控制模型生成算法的计算机设备生成，计算机设备例如可以是面向终端的计算机设备，也可以是后端的服务器。
73.以下结合多个附图通过多个示例对本技术提供的机械臂控制模型的训练方法、装置及机械臂控制系统进行具体的示例说明。
74.图1为本技术一实施例提供的一种机械臂控制模型的训练方法的流程示意图。如图1所示，该方法包括：
75.s101、采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据。
76.首先需要说明的是，初始机械臂控制模型为参数初始化后的深度神经网络，可以用于使虚拟作业环境中的预设机械臂对虚拟作业环境中预设工件的虚拟模型执行交互任务，但控制预设机械臂的虚拟模型成功将预设工件的虚拟模型放置在预设位置的概率是随机的。其中，预设位置指预先指定的预设工件的虚拟模型需要被放置的位置。
77.本实施例的虚拟作业环境、预设机械臂的虚拟模型、预设工件的虚拟模型、预设位置分别由计算机设备基于实际作业环境、实际作业环境中的预设机械臂、实际作业环境中的预设工件、实际作业环境中的预设位置生成，虚拟作业环境与实际作业环境一致，预设机械臂的虚拟模型与实际作业环境中的预设型号的机械臂一致，预设工件的虚拟模型与实际作业环境中的预设形状尺寸的工件一致，预设位置与实际作业环境中的预设位置一致，可以理解为，本实施例的虚拟作业环境与实际作业环境完全相同，本实施例是在虚拟作业环
境中，对预设的初始机械臂控制模型进行训练，从而得到目标机械臂控制模型，训练得到的目标机械臂控制模型既可用于控制虚拟作业环境中的预设机械臂的虚拟模型将预设工件的虚拟模型放置在预设位置，也可用于通过控制器控制实际作业环境中的预设机械臂将预设工件放置在预设位置。
78.由此可知，本实施例是对预设的初始机械臂控制模型进行训练，因此，在对初始机械臂控制模型进行训练之前，需要采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据，从而根据多个交互轨迹数据来对初始机械臂控制模型进行训练。
79.其中，一次交互任务指虚拟作业环境中的预设机械臂虚拟模型对预设工件的虚拟模型进行一次抓取、以及将预设工件的虚拟模型放置的动作，每个交互轨迹数据为预设机械臂的虚拟模型执行一次交互任务中的轨迹数据，也即，在本实施例中，初始机械臂控制模型控制预设机械臂的虚拟模型对预设工件的虚拟模型执行了多次交互任务，生成了多个交互轨迹数据，每个交互轨迹数据对应一次交互任务，但每个交互轨迹数据并不一定是成功执行交互任务的数据。
80.综上，可以理解，用未经训练的初始机械臂控制模型对预设机械臂的虚拟模型进行控制，不能保证预设机械臂的虚拟模型将预设工件的虚拟模型放置至预设位置的成功率，而根据本实施例的步骤s101-s105训练得到目标机械臂控制模型，目标机械臂控制模型即可控制预设机械臂的虚拟模型将预设工件的虚拟模型成功放置至预设位置。
81.s102、从每个交互轨迹数据中采样多个转移数据。
82.根据步骤s101生成多个交互轨迹数据之后，即可从每个交互轨迹数据中都采样得到多个转移数据，可以理解，在多个交互轨迹数据中，每个交互轨迹数据都包含多个转移数据，同一个交互轨迹数据对应的多个转移数据对应同一次交互任务，即，同一次交互轨迹数据对应的多个转移数据，包括预设机械臂的虚拟模型执行同一次交互任务的多个时间点的过程数据。
83.图2为本技术一实施例提供的获取转移数据的方法流程示意图，如图2所示，从每个交互轨迹数据中采样多个转移数据，可以包括如下示例：
84.s201、从每个交互轨迹数据中采样预设机械臂的虚拟模型在多个时间点的交互观察数据。
85.具体地，交互观察数据为：从一个交互轨迹数据中采样得到的预设机械臂的虚拟模型在多个时间点的观测数据，在本实施例中，观测数据预设工件的虚拟模型的多个位姿、以及与工件的多个位姿对应的预设机械臂的虚拟模型末端的多个位姿。
86.s202、从每个交互轨迹数据中采样预设机械臂的虚拟模型在多个时间点的动作数据。
87.具体地，动作数据包括：从一个交互轨迹数据中采样得到的机械臂控制模型输出的机械臂动作数据，在本实施例中，机械臂动作数据包括预设机械臂的虚拟模型各个关节的旋转角度。
88.s203、从每个交互轨迹数据中采样在多个时间点的完成同一次交互任务的奖励数据。
89.具体地，奖励数据包括：从一个交互轨迹数据中采样得到的多个时间点的完成同
一次交互任务的奖励数据，该奖励数据用于对交互任务进行评价，在本实施例中，当预设机械臂的虚拟模型完成对预设工件的虚拟模型的抓取与放置任务时，奖励数据取0，其他情况下奖励数据均为-1。
90.s204、从每个交互轨迹数据中采样在多个时间点的同一次交互任务的目标位置。
91.具体地，目标位置包括：在虚拟作业环境中的三维坐标中，用于放置预设工件的虚拟模型的目标位置的坐标。
92.s205、从每个交互轨迹数据中采样在多个时间点的已完成目标位置。
93.具体地，已完成目标位置包括：在虚拟作业环境中的三维坐标中，预设工件的虚拟模型的当前坐标。
94.s206、根据多个时间点的交互观察数据、动作数据、奖励数据、目标位置以及已完成目标位置，分别生成多个转移数据。
95.在s201-s205的基础上，以第i个交互轨迹数据ti中第j个时间点为例，ti中第j个时间点的转移数据可以被定义为其中，为交互轨迹数据ti中第j个时间点的交互观察数据，为交互轨迹数据ti中第j个时间点的动作数据，为交互轨迹数据ti中第j个时间步的奖励数据，gi为交互轨迹数据ti的目标位置，为交互轨迹数据ti中第j个时间步的已完成目标位置。该交互轨迹数据的其他时间点下的转移数据、以及其他交互轨迹数据的多个时间点下的多个转移数据以此类推，在此不再赘述。
96.需要说明的是，在时间序列上，s201-s205可以是依次发生的，还可以是同时发生的，在此仅以s201-s205为例进行具体说明，不能认为s201-s205所述的方法必须按照上述顺序进行，s201-s205可以是同时发生或任意顺序。
97.s103、从多个转移数据中，确定多个时间点的候选回放目标集合。
98.在获取多个转移数据之后，由于各转移数据对应的交互轨迹数据并不一定是成功执行交互任务时的数据，还需要对转移数据进行更新修正，具体可以为：从多个转移数据中，分别确定多个时间点的候选回放目标集合gji，其中，每个时间点的候选回放目标集合包括：预设工件的虚拟模型在每个时间点之后的所有时间点下的已完成目标位置(每个时间点之后的所有时间点至少为一个)，例如，第i个交互轨迹数据ti在时间点j的候选回放目标集合可以为其中，l为交互轨迹数据ti的长度。
99.s104、根据每个时间点的候选回放目标集合，更新每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据。
100.得到每个时间点的候选回放目标集合后，即可根据各个时间点的候选回放目标集合，更新每个时间点对应的转移数据中的已完成目标位置，得到每个时间点更新后的一个转移数据。
101.s105、根据更新后的多个转移数据，对初始机械臂控制模型进行训练，生成目标机械臂控制模型。
102.得到各个时间点更新后的转移数据后，即可根据更新后的多个转移数据对初始机械臂控制模型进行训练，生成目标机械臂控制模型，生成的目标机械臂控制模型既可控制虚拟作业环境中预设机械臂的虚拟模型与预设工件的虚拟模型之间的交互任务，也可控制
实际作业环境中的预设机械臂与预设工件之间的交互任务。其中，初始机械臂控制模型为预设类型的神经网络模型，例如可以为包含三层隐藏层的多层感知机模型。
103.综上，本实施例提供一种机械臂控制模型的训练方法，包括采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据；从每个交互轨迹数据中采样多个转移数据；从多个转移数据中，确定多个时间点的候选回放目标集合；根据每个时间点的候选回放目标集合，更新每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据；根据更新后的多个转移数据，对初始机械臂控制模型进行训练，生成目标机械臂控制模型。采用本实施例的方法，可以对初始机械臂控制模型进行训练，得到训练好的目标机械臂控制模型，目标机械臂控制模型即可用于控制预设机械臂的虚拟模型将预设工件的虚拟模型放置在预设位置，本实施例实现了对初始机械臂控制模型的自动训练，使工程师摆脱了繁杂的示教工作，也提高了机械臂的生产效率。
104.图3为本技术一实施例提供的对转移数据进行更新的方法流程示意图，如图3所示，步骤s104中，根据每个时间点的候选回放目标集合，更新每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据，包括：
105.s301、从每个时间点的候选回放目标集合中的各候选位置中，确定每个时间点的回放目标位置。
106.如上述实施例所述，每个时间点的候选回放目标集合中包含多个候选位置，因此，在根据每个时间点的候选回放目标集合，更新每个时间点对应的转移数据中的已完成目标位置之前，需要先确定每个时间点的回放目标位置。
107.以第i个交互轨迹数据ti在时间点j的候选回放目标集合为例，需要在该集合中的多个候选回放目标中，确定回放目标位置，也即最优的候选回放目标的候选位置。
108.s302、根据每个时间点的回放目标位置，更新每个时间点对应的转移数据中的已完成目标位置，得到更新后的转移数据。
109.得到一个时间点的最优的候选回放目标的候选位置之后，即可将该时间点对应的转移数据中的已完成目标位置更新为该候选位置的候选回放目标，对每个时间点重复上述操作，即可将每个时间点对应的转移数据中的已完成目标位置更新为该时间点对应的候选位置的候选回放目标。
110.通过本实施例的方法，可以对转移数据进行更新修正，避免在使用初始机械臂控制模型对初始机械臂控制模型进行训练的过程中，因转移数据的偏差而导致生成的目标机械臂控制模型与初始机械臂控制模型不一致，确保了目标机械臂控制模型的可靠性。
111.在此基础上，图4为本技术一实施例提供的确定回放目标位置的方法流程示意图，如图4所示，步骤s301中，从每个时间点的候选回放目标集合中的各候选位置中，确定每个时间点的回放目标位置，包括：
112.s401、根据每个时间点的各候选位置，以及同一次交互任务的目标位置，计算各候选位置对应的距离参数。
113.在本实施例中，各候选位置上的转移数据由表示，同一次交互任务的目标位置由gi表示，距离参数例如可以为
114.s402、根据每个时间点的各候选位置，以及每个时间点的转移数据中的已完成目标位置，计算各候选位置对应的相似度参数。
115.在本实施例中，各候选位置上的转移数据由表示，每个时间点的转移数据中的已完成目标位置由表示，距离参数例如可以为
116.s403、根据各候选位置对应的距离参数，以及各候选位置对应的相似度参数进行加权处理，得到各候选位置的距离评价参数。
117.在步骤s401得到各候选位置对应的距离参数，根据步骤s402得到各候选位置对应的相似度参数之后，即可根据各候选位置对应的距离参数，以及各候选位置对应的相似度参数进行加权处理，计算得到各候选位置的距离评价参数，对于各候选位置且j
′
∈[j+1,l]，所得到的各候选位置的距离评价参数可以由下式计算：
[0118][0119]
其中，ω1为任务目标距离权重，ω2为回放目标与已完成目标的相似度权重。
[0120]
s404、根据各候选位置的距离评价参数，选择距离评价参数最高的候选位置为每个时间点的回放目标位置。
[0121]
得到各候选位置的距离评价参数之后，根据下式计算出距离评价参数最高的候选位置为每个时间点的回放目标位置：
[0122][0123]
最后，将转移数据中的已实现目标数据替换成候选位置上的转移数据即得到更新后的转移数据。
[0124]
本技术一实施例还提供了一种对更新后的转移数据中的奖励数据进行更新的方法，在上述实施例的基础上，图5为本技术一实施例提供的又一机械臂控制模型的训练方法的流程示意图，如图5所示，根据更新后的多个转移数据，对初始机械臂控制模型进行训练，生成目标机械臂控制模型，包括：
[0125]
s501、根据更新后的多个转移数据，分别计算多个时间点的目标奖励数据。
[0126]
当对多个转移数据进行更新后，还可以计算多个时间点的目标奖励数据。
[0127]
s502、将更新后的多个转移数据中各时间点的奖励数据更新为各时间点的目标奖励数据，得到多个目标转移数据。
[0128]
计算得到多个时间点的目标奖励数据之后，即可将更新后的多个转移数据中各时间点的奖励数据更新为各时间点的目标奖励数据，得到多个目标转移数据。
[0129]
s503、根据多个目标转移数据，对初始机械臂控制模型进行训练，生成目标机械臂
控制模型。
[0130]
根据多个目标转移数据，对初始机械臂控制模型进行训练，从而生成目标机械臂控制模型。
[0131]
在本实施例中，对转移数据的奖励数据进行更新修正，避免在使用初始机械臂控制模型对初始机械臂控制模型进行训练的过程中，因奖励数据的偏差而导致生成的目标机械臂控制模型与初始机械臂控制模型不一致，在上述实施例的基础上，进一步确保了目标机械臂控制模型的可靠性。
[0132]
图6为本技术一实施例提供的计算目标奖励数据的方法流程示意图，如图6所示，步骤s501中，根据更新后的多个转移数据，分别计算多个时间点的目标奖励数据，包括：
[0133]
s601、根据更新后的多个转移数据中第一时间点之前的第二时间点的已完成目标位置和同一次交互任务的目标位置，计算第一时间点的第一距离参数。
[0134]
在本实施例中，第一时间点为转移数据中的任一时间点，第二时间点为各第一时间点的前一个时间点。
[0135]
以第i个交互轨迹数据ti在时间点j作为第一时间点例，第二时间点的已完成目标位置由表示，同一次交互任务的目标位置由gi表示，第一时间点的第一距离参数例如可以为其中，为轨迹数据ti在时间点j-1的已实现目标数据。
[0136]
s602、根据更新后的多个转移数据中第一时间点的已完成目标位置和同一次交互任务的目标位置，计算第一时间点的第二距离参数。
[0137]
第一时间点的已完成目标位置例如可以由表示，第一时间点的第二距离参数例如可以为
[0138]
s603、根据第一距离参数和第二距离参数，计算第一时间点的目标奖励数据。
[0139]
在步骤s601得到第一时间点的第一距离参数，根据步骤s602得到第一时间点的第二距离参数之后，即可根据第一距离参数和第二距离参数，计算第一时间点的目标奖励数据。
[0140]
在此基础上，图7为本技术一实施例提供的计算目标奖励数据的具体方法的流程示意图，如图7所示，步骤s603中，根据第一距离参数和第二距离参数，计算第一时间点的目标奖励数据，包括：
[0141]
s701、根据第一距离参数和第二距离参数的差值，计算第一时间点的进步奖励数据。
[0142]
在根据步骤s601得到第一时间点的第一距离参数，根据步骤s602得到第一时间点的第二距离参数之后，即可根据下式计算第一时间点的进步奖励数据：
[0143][0144]
s702、根据第一时间点的进步奖励数据，以及更新后的多个转移数据后第一时间点的奖励数据，计算第一时间点的目标奖励数据。
[0145]
当得到各第一时间点的进步奖励数据，也即得到各时间点的进步奖励数据之后，
即可根据第一时间点的进步奖励数据，以及更新后的多个转移数据后第一时间点的奖励数据，即可根据下式计算得到第一时间点的目标奖励数据：
[0146][0147]
最后，对于更新后的多个转移数据将转移数据中的奖励数据替换成的总奖励即得到对奖励数据进行更新后的转移数据。
[0148]
本技术一实施例还提供了一种对训练生成的目标机械臂控制模型进行测试的方法，图8为本技术一实施例提供的目标机械臂控制模型的测试方法的流程示意图，如图8所示，步骤s503中，根据多个目标转移数据，对初始机械臂控制模型进行训练，生成目标机械臂控制模型，可以包括：
[0149]
s801、根据多个目标转移数据，更新初始机械臂控制模型的参数。
[0150]
在获取多个目标转移数据之后，即可根据多个目标转移数据对初始机械臂控制模型的参数进行更新，更新后的初始机械臂控制模型控制预设机械臂的虚拟模型执行交互任务的成功率更高。
[0151]
s802、采用参数更新后的初始机械臂控制模型，控制预设机械臂的虚拟模型对预设工件的虚拟模型执行交互任务，并获取初始机械臂控制模型的控制成功率。
[0152]
当对初始机械臂控制模型的参数进行更新后，采用参数更新后的初始机械臂控制模型，控制预设机械臂的虚拟模型对预设工件的虚拟模型执行多次交互任务，并获取更新后的初始机械臂控制模型的控制成功率，通过控制成功率来判断是否成功对初始机械臂控制模型完成训练。成功率可以为：成功率＝(成功控制的次数/总控制次数)
×
100％。
[0153]
s803、若成功率不满足预设阈值，则重新控制初始机械臂的虚拟模型对预设工件的虚拟模型执行多次交互任务，直至得到的目标机械臂控制模型的控制成功率满足预设阈值。
[0154]
若成功率不满足预设阈值，则重新控制初始机械臂的虚拟模型对预设工件的虚拟模型执行多次交互任务，也即重复以上实施例s101-s105的训练过程，直至得到的初始机械臂控制模型的控制成功率满足预设阈值，将控制成功率满足预设阈值的初始机械臂控制模型视为目标机械臂控制模型，完成对初始机械臂控制模型的训练。
[0155]
需要说明的是，预设阈值可以根据实际需求设定，在本实施例中，预设阈值例如可以为95％，即初始机械臂控制模型控制预设机械臂的虚拟模型进行交互任务的成功率大于95％，才可视为初始机械臂控制模型被成功地训练。
[0156]
在本实施例中，通过对初始机械臂控制模型的控制成功率进行验证，并对成功率不满足预设阈值的初始机械臂控制模型重新进行训练，保证了训练得到的目标机械臂控制模型的对预设机械臂的控制精度和准确度。
[0157]
如下继续对执行本技术上述任一实施例提供的训练装置、机械臂控制系统、计算机设备及存储介质进行相应的解释，其具体的实现过程以及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。
[0158]
图9为本技术一实施例提供的机械臂控制模型的训练装置的结构示意图，如图9所示，该机械臂控制模型的训练装置包括：
[0159]
控制模块901，用于采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据；其中，每个交互轨迹数据为预设机械臂的虚拟模型执行一次交互任务中的轨迹数据。
[0160]
采集模块902，用于从每个交互轨迹数据中采样多个转移数据，多个转移数据包括：预设机械臂的虚拟模型执行对应同一次交互任务的多个时间点的过程数据。
[0161]
确定模块903，用于从多个转移数据中，确定多个时间点的候选回放目标集合，其中，每个时间点的候选回放目标集合包括：预设工件的虚拟模型在每个时间点之后的至少一个时间点的已完成目标位置。
[0162]
更新模块904，用于根据每个时间点的候选回放目标集合，更新每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据。
[0163]
训练模块905，用于根据更新后的多个转移数据，对初始机械臂控制模型进行训练，生成目标机械臂控制模型。
[0164]
在可能的实现示例中，采集模块902，还用于从每个交互轨迹数据中采样预设机械臂的虚拟模型在多个时间点的交互观察数据；从每个交互轨迹数据中采样预设机械臂的虚拟模型在多个时间点的动作数据；其中，动作数据包括：预设工件的虚拟模型的位姿以及预设机械臂的虚拟模型末端的位姿；从每个交互轨迹数据中采样在多个时间点的完成同一次交互任务的奖励数据；从每个交互轨迹数据中采样在多个时间点的同一次交互任务的目标位置；从每个交互轨迹数据中采样在多个时间点的已完成目标位置；根据多个时间点的交互观察数据、动作数据、奖励数据、目标位置以及已完成目标位置，分别生成多个转移数据。
[0165]
在可能的实现示例中，更新模块904，还用于从每个时间点的候选回放目标集合中的各候选位置中，确定每个时间点的回放目标位置；根据每个时间点的回放目标位置，更新每个时间点对应的转移数据中的已完成目标位置，得到更新后的转移数据。
[0166]
在可能的实现示例中，更新模块904，还用于根据每个时间点的各候选位置，以及同一次交互任务的目标位置，计算各候选位置对应的距离参数；根据每个时间点的各候选位置，以及每个时间点的转移数据中的已完成目标位置，计算各候选位置对应的相似度参数；根据各候选位置对应的距离参数，以及各候选位置对应的相似度参数进行加权处理，得到各候选位置的距离评价参数；根据各候选位置的距离评价参数，选择距离评价参数最高的候选位置为每个时间点的回放目标位置。
[0167]
在可能的实现示例中，训练模块905，还用于根据更新后的多个转移数据，分别计算多个时间点的目标奖励数据；将所述更新后的多个转移数据中各时间点的奖励数据更新为所述各时间点的目标奖励数据，得到多个目标转移数据；根据多个目标转移数据，对初始机械臂控制模型进行训练，生成目标机械臂控制模型。
[0168]
在可能的实现示例中，机械臂控制模型的训练装置还包括计算模块，用于根据更新后的多个转移数据中第一时间点之前的第二时间点的已完成目标位置和同一次交互任务的目标位置，计算第一时间点的第一距离参数；根据更新后的多个转移数据中第一时间点的已完成目标位置和同一次交互任务的目标位置，计算第一时间点的第二距离参数；根据第一距离参数和第二距离参数，计算第一时间点的目标奖励数据。
[0169]
在可能的实现示例中，计算模块，还用于根据第一距离参数和第二距离参数的差
值，计算第一时间点的进步奖励数据；根据第一时间点的进步奖励数据，以及更新后的多个转移数据后第一时间点的奖励数据，计算第一时间点的目标奖励数据。
[0170]
在可能的实现示例中，机械臂控制模型的训练装置还包括测试模块，用于根据多个目标转移数据，更新初始机械臂控制模型的参数；采用参数更新后的所述初始机械臂控制模型，控制所述预设机械臂的虚拟模型对所述预设工件的虚拟模型执行交互任务，并获取所述初始机械臂控制模型的控制成功率；若所述成功率不满足预设阈值，则重新控制所述初始机械臂的虚拟模型对所述预设工件的虚拟模型执行多次交互任务，直至得到的所述目标机械臂控制模型的控制成功率满足所述预设阈值。
[0171]
上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。
[0172]
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，简称asic)，或，一个或多个微处理器，或，一个或者多个现场可编程门阵列(field programmable gate array，简称fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，简称cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称soc)的形式实现。
[0173]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0174]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0175]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0176]
上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本技术各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文：read-only memory，简称：rom)、随机存取存储器(英文：random access memory，简称：ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0177]
图10(a)和图10(b)为本技术一实施例提供的机械臂控制系统的结构示意图，如图10(a)和图10(b)所示，该机械臂控制系统包括：计算机设备1、预设机械臂2、控制器3以及环境采集模块4。
[0178]
其中，计算机设备上预先集成有目标机械臂控制模型、以及虚拟作业环境，虚拟作业环境中具有预设机械臂的虚拟模型和预设工件的虚拟模型，目标机械臂控制模型为由上述实施例的机械臂控制模型的训练方法训练得到的模型。
[0179]
环境采集模块例如可以为具有结构光照射功能的相机，可以用于采集实际作业环境的点云环境参数，计算机设备与环境采集模块通信连接，基于通信连接，计算机设备可以获取环境采集模块采集到的点云环境参数，并基于点云环境参数以及预先设置好的预设目标位置，生成虚拟作业环境，计算机设备还可以采用目标机械臂控制模型生成机械臂控制参数，机械臂控制参数用于对虚拟作业环境中的预设机械臂的虚拟模型进行控制，以使预设机械臂的虚拟模型对虚拟作业环境中预设工件的虚拟模型执行多次交互任务。在本实施例中，机械臂控制参数可以为机械臂各关节的旋转角度，也可以为机械臂各关节的扭矩。
[0180]
计算机设备还与控制器通信连接，控制器和预设机械臂连接，以使得计算机设备在基于机械臂控制参数控制虚拟作业环境中预设机械臂的虚拟模型对预设工件的虚拟模型执行交互作业的情况下，通过控制器控制实际作业环境中的预设机械臂对预设工件执行交互作业，也即，通过设置控制器，计算机设备可以同时对虚拟作业环境中的预设机械臂的虚拟模型、实际作业环境中的预设机械臂进行控制。
[0181]
可选的，机械臂控制系统还可以包括预设工件5和储存盒6，储存盒可以为两个或其他数量，可以根据实际需求确定储存盒的数量。在本实施例中，储存盒的数量为两个，预设机械臂可以对两种工件进行分拣，并将两种工件分别放置在不同的储存盒中。
[0182]
机械臂控制系统还可以包括电源7和变压器8，电源与计算机设备、预设机械臂、控制器、环境采集模块连接，用于为计算机设备、预设机械臂、控制器以及环境采集模块供电，变压器用于将电源电压转换为可供计算机设备、预设机械臂、控制器、环境采集模块使用的不同值的电压。
[0183]
综上，本实施例提供了一种机械臂控制系统，包括：计算机设备、预设机械臂、控制器以及环境采集模块，环境采集模块可以采集实际作业环境的点云数据，并将点云数据发送至计算机设备，计算机设备即可根据点云数据生成虚拟作业环境，并根据训练好的目标机械臂控制模型，控制虚拟作业环境中的预设机械臂的虚拟模型对预设工件的虚拟模型执行交互作业，计算机设备还可以通过向控制器发送控制信息，来通过控制器控制实际作业环境中的预设机械臂对预设工件执行交互作业。
[0184]
图11为本技术一实施例提供的计算机设备的结构示意图，如图11所示，该计算机设备包括：处理器100、存储介质200和总线300，存储介质存储有处理器可执行的程序指令，当计算机设备运行时，处理器与存储介质之间通过总线通信，处理器执行程序指令，以执行上述机械臂控制模型的训练方法的步骤。
[0185]
本技术一实施例还提供了一种计算机可读存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述机械臂控制模型的训练方法的步骤。
[0186]
以上仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

技术特征：
1.一种机械臂控制模型的训练方法，其特征在于，包括：采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对所述虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据；其中，每个交互轨迹数据为所述预设机械臂的虚拟模型执行一次交互任务中的轨迹数据；从所述每个交互轨迹数据中采样多个转移数据，所述多个转移数据包括：所述预设机械臂的虚拟模型执行对应同一次交互任务的多个时间点的过程数据；从所述多个转移数据中，确定所述多个时间点的候选回放目标集合，其中，每个时间点的候选回放目标集合包括：所述预设工件的虚拟模型在所述每个时间点之后的至少一个时间点的已完成目标位置；根据所述每个时间点的候选回放目标集合，更新所述每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据；根据更新后的多个转移数据，对所述初始机械臂控制模型进行训练，生成目标机械臂控制模型。2.根据权利要求1所述的方法，其特征在于，所述从所述每个交互轨迹数据中采样多个转移数据，包括：从所述每个交互轨迹数据中采样所述预设机械臂的虚拟模型在所述多个时间点的交互观察数据；从所述每个交互轨迹数据中采样所述预设机械臂的虚拟模型在所述多个时间点的动作数据；其中，所述动作数据包括：所述预设工件的虚拟模型的位姿以及所述预设机械臂的虚拟模型末端的位姿；从所述每个交互轨迹数据中采样在所述多个时间点的完成所述同一次交互任务的奖励数据；从所述每个交互轨迹数据中采样在所述多个时间点的所述同一次交互任务的目标位置；从所述每个交互轨迹数据中采样在所述多个时间点的已完成目标位置；根据所述多个时间点的交互观察数据、动作数据、奖励数据、目标位置以及已完成目标位置，分别生成所述多个转移数据。3.根据权利要求1所述的方法，其特征在于，所述根据所述每个时间点的候选回放目标集合，更新所述每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据，包括：从所述每个时间点的候选回放目标集合中的各候选位置中，确定所述每个时间点的回放目标位置；根据所述每个时间点的回放目标位置，更新所述每个时间点对应的转移数据中的已完成目标位置，得到所述更新后的转移数据。4.根据权利要求3所述的方法，其特征在于，所述从所述每个时间点的候选回放目标集合中的各候选位置中，确定所述每个时间点的回放目标位置，包括：根据所述每个时间点的各候选位置，以及所述同一次交互任务的目标位置，计算所述各候选位置对应的距离参数；根据所述每个时间点的各候选位置，以及所述每个时间点的转移数据中的已完成目标
位置，计算所述各候选位置对应的相似度参数；根据所述各候选位置对应的距离参数，以及所述各候选位置对应的相似度参数进行加权处理，得到所述各候选位置的距离评价参数；根据所述各候选位置的距离评价参数，选择距离评价参数最高的候选位置为所述每个时间点的回放目标位置。5.根据权利要求2所述的方法，其特征在于，所述根据更新后的多个转移数据，对所述初始机械臂控制模型进行训练，生成目标机械臂控制模型，包括：根据所述更新后的多个转移数据，分别计算所述多个时间点的目标奖励数据；将所述更新后的多个转移数据中各时间点的奖励数据更新为所述各时间点的目标奖励数据，得到多个目标转移数据；根据所述多个目标转移数据，对所述初始机械臂控制模型进行训练，生成所述目标机械臂控制模型。6.根据权利要求5所述的方法，其特征在于，所述根据所述更新后的多个转移数据，分别计算所述多个时间点的目标奖励数据，包括：根据所述更新后的多个转移数据中第一时间点之前的第二时间点的已完成目标位置和所述同一次交互任务的目标位置，计算所述第一时间点的第一距离参数；根据所述更新后的多个转移数据中所述第一时间点的已完成目标位置和所述同一次交互任务的目标位置，计算所述第一时间点的第二距离参数；根据所述第一距离参数和所述第二距离参数，计算所述第一时间点的目标奖励数据。7.根据权利要求6所述的方法，其特征在于，所述根据所述第一距离参数和所述第二距离参数，计算所述第一时间点的目标奖励数据，包括：根据所述第一距离参数和所述第二距离参数的差值，计算所述第一时间点的进步奖励数据；根据所述第一时间点的进步奖励数据，以及所述更新后的多个转移数据后所述第一时间点的奖励数据，计算所述第一时间点的目标奖励数据。8.根据权利要求5所述的方法，其特征在于，所述根据所述多个目标转移数据，对所述初始机械臂控制模型进行训练，生成所述目标机械臂控制模型，包括：根据所述多个目标转移数据，更新所述初始机械臂控制模型的参数；采用参数更新后的所述初始机械臂控制模型，控制所述预设机械臂的虚拟模型对所述预设工件的虚拟模型执行交互任务，并获取所述初始机械臂控制模型的控制成功率；若所述成功率不满足预设阈值，则重新控制所述初始机械臂的虚拟模型对所述预设工件的虚拟模型执行多次交互任务，直至得到的所述目标机械臂控制模型的控制成功率满足所述预设阈值。9.一种机械臂控制模型的训练装置，其特征在于，包括：控制模块，用于采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对所述虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据；其中，每个交互轨迹数据为所述预设机械臂的虚拟模型执行一次交互任务中的轨迹数据；采集模块，用于从所述每个交互轨迹数据中采样多个转移数据，所述多个转移数据包
括：所述预设机械臂的虚拟模型执行对应同一次交互任务的多个时间点的过程数据；确定模块，用于从所述多个转移数据中，确定所述多个时间点的候选回放目标集合，其中，每个时间点的候选回放目标集合包括：所述预设工件的虚拟模型在所述每个时间点之后的至少一个时间点的已完成目标位置；更新模块，用于根据所述每个时间点的候选回放目标集合，更新所述每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据；训练模块，用于根据更新后的多个转移数据，对初始机械臂控制模型进行训练，生成目标机械臂控制模型。10.一种机械臂控制系统，其特征在于，所述机械臂控制系统包括：计算机设备、预设机械臂、控制器以及环境采集模块；所述计算机设备上预先集成有所述目标机械臂控制模型、以及虚拟作业环境，其中，所述虚拟作业环境中具有预设机械臂的虚拟模型和预设工件的虚拟模型；所述目标机械臂控制模型为由上述权利要求1-8任一项所述的机械臂控制模型的训练方法训练得到的模型；所述计算机设备与所述环境采集模块通信连接，以获取所述预设机械臂所在实际作业环境中的环境参数，并基于所述环境参数以及预设目标位置，采用所述目标机械臂控制模型生成机械臂控制参数；所述计算机设备和所述控制器通信连接，所述控制器和所述机械臂连接，以使得所述计算机设备在基于所述机械臂控制参数控制所述虚拟作业环境中所述预设机械臂的虚拟模型对所述预设工件的虚拟模型执行交互作业的情况下，通过所述控制器控制所述实际作业环境中的所述预设机械臂对预设工件执行交互作业。

技术总结
本申请提供一种机械臂控制模型的训练方法、装置及机械臂控制系统，涉及机械臂控制技术领域。该方法采用预设的初始机械臂控制模型，控制虚拟作业环境中预设机械臂的虚拟模型对虚拟作业环境中预设工件的虚拟模型执行多次交互任务，生成多个交互轨迹数据；从每个交互轨迹数据中采样多个转移数据；从多个转移数据中，确定多个时间点的候选回放目标集合；根据每个时间点的候选回放目标集合，更新每个时间点对应的转移数据中的已完成目标位置，得到更新后的一个转移数据；根据更新后的多个转移数据和初始机械臂控制模型，生成目标机械臂控制模型。用该方法可以训练得到目标机械臂控制模型，使工程师摆脱了繁杂的示教工作，提高了机械臂的生产效率。机械臂的生产效率。机械臂的生产效率。

技术研发人员：梁威翔杨志新汪显博
受保护的技术使用者：澳门大学
技术研发日：2023.04.26
技术公布日：2023/7/12

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

机械臂控制模型的训练方法、装置及机械臂控制系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

机械臂控制模型的训练方法、装置及机械臂控制系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表