智能机器手臂自动化控制的深度强化学习训练优化方法

未命名 10-14 阅读：155 评论：0

1.本发明涉及一种智能机器手臂自动化控制的深度强化学习训练优化方法，属于分析方法技术领域。

背景技术：

2.在工程领域，机器臂自动控制是机器人领域的一个重要研究方向，随着计算机技术、传感器技术、控制理论、人工智能等方面的发展，机器臂自动控制的应用范围和性能得到了不断提升。机器臂自动控制应用领域广泛，机器臂自动控制可以广泛应用于制造业、医疗、农业、物流等领域，能够提高生产效率、降低人工成本、提高产品质量等。机器臂自动控制控制精度高：通过机器学习和控制理论等技术的不断提升，机器臂自动控制的精度和稳定性得到了很大提高。机器臂的位置、速度和加速度等参数可以实现高精度的控制，能够完成一些精细的任务。机器臂自动控制自适应性强：机器臂自动控制能够通过传感器和数据处理等技术实现自适应性控制，能够应对环境的变化和不确定性，增强了机器臂的鲁棒性和适应性。机器臂自动控制智能化程度高：近年来，深度学习和强化学习等人工智能技术的应用，为机器臂自动控制带来了新的思路和方法。通过深度学习和强化学习等技术，机器臂智能体能够实现更加智能化的控制和决策，能够自主完成复杂的任务。总的来说，随着技术的不断发展，机器臂自动控制的应用前景十分广阔，将会在很多领域发挥重要作用。
3.自动化控制的合理使用可以提高效率与安全性，而强化学习是实现自动化控制的重要途经之一。然而，在一些复杂工程任务和稀疏奖励的强化学习环境中，由于智能体学习过程缓慢、训练精确度不足等因素，会导致机器臂的自动化控制会产生不可控的危害。
4.鉴于此，有必要提出一种机器手臂自动化控制的深度强化学习训练优化方法，以解决上述问题，提高自动化控制训练的速度与准确度。

技术实现要素：

5.本发明的目的在于提供一种智能机器手臂自动化控制的深度强化学习训练优化方法，能够加快最优自动化控制策略的训练过程。
6.为实现上述目的，本发明提供了一种智能机器手臂自动化控制的深度强化学习训练优化方法，用于加速智能机器手臂自动控制的训练过程，主要包括以下步骤：
7.步骤1、针对智能机器手臂的作业要求建立强化学习训练环境模型，用实例化的神经网络模型代替砖瓦编码器并进行网络初始化；
8.步骤2、利用智能机器手臂上的传感器获取机器手臂的两个关节的位置状态信息和机器手臂关节的可行动作信息；
9.步骤3、将步骤2获取的状态信息输入实例化的神经网络，获得每个可选状态-动作对的价值函数，通过ε-greedy方法选择智能体将要执行的动作a，执行动作a，观察奖励和下一状态；
10.步骤4、通过步骤3选择的动作a计算获得对应的离轨因子，并将上述步骤3过程获
得的状态、动作、奖励信息存入经验池；
11.步骤5、从经验池中选取一定条数的数据，利用离轨因子进行神经网络的更新，并更新当前的策略；
12.步骤6、重复步骤2-5，直到机器手臂到达指定的高度或达到最大的更新迭代次数。
13.作为本发明的进一步改进，所述步骤1中，根据智能机器手臂的作业要求进行强化学习环境的环境建模，并使用实例化的神经网络模型代替砖瓦编码器获取状态-动作对的价值函数，环境建模即指稀疏奖励，环境所有未达到目标的步数都会获得-1的奖励，达到目标高度会导致终止，奖励为0。
14.作为本发明的进一步改进，所述步骤2中，智能机器手臂的状态信息包括：机器手臂的顶端高度位置、两个旋转关节的角度、旋转关节的角速度、机器手臂的自身硬件状况以及目标位置信息，通过机器手臂内自带的位置传感器以及速度传感器获取。
15.作为本发明的进一步改进，所述步骤3中，将机器手臂的当前状态信息输入当前的神经网络中，通过神经网络求得所有可选状态-动作对的价值函数，以这些价值函数为基础通过ε-greedy策略选取动作a。
16.作为本发明的进一步改进，所述步骤4中，根据通过ε-greedy策略选取的动作a，和通过贪心策略选取的最优动作a*计算离轨因子，其具体的值为1-ε+ε/n,其中n为机器手臂可选动作的大小。
17.作为本发明的进一步改进，所述步骤4中，将状态、动作、奖励、离轨因子信息存入经验池，使用经验池优化保持数据之间的相互独立。
18.作为本发明的进一步改进，所述步骤5中，运用经验池优化保持数据的独立性的同时，从中选取片段数据利用离轨因子的修正对神经网络参数进行更新，加速神经网络的学习速度。
19.本发明的有益效果是：本发明能够加速智能机器手臂自动化控制的训练速度，修正神经网络训练过程中训练目标，从而缩短训练时间，提高训练效率与准确度，节省计算机的算力资源，获得更加精确的自动化控制策略。
附图说明
20.图1是本发明的算法示意图。
21.图2是本发明提出的方法与传统训练方法的实验对比结果图。
22.图3是本发明的环境建模简单示意图。
具体实施方式
23.为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。
24.在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。
25.另外，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且
还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
26.如图1至图2所示，本发明提出了一种智能机器手臂自动化控制的深度强化学习训练优化方法，通过在神经网络训练过程中使用离轨因子进行目标函数修正，能够保证训练的收敛性，提高收敛到最优策略的速度，使得智能机器手臂更快学习到自动化控制最优策略，主要包括以下步骤：
27.步骤1、针对智能机器手臂的作业要求建立强化学习训练环境模型，用实例化的神经网络模型代替砖瓦编码器并进行网络初始化；
28.步骤2、利用智能机器手臂上的传感器获取机器手臂两个关节的位置状态信息和机器手臂关节的可行动作信息；
29.步骤3、将步骤2获取的状态信息输入实例化的神经网络，获得每个可选状态-动作对的价值函数，通过ε-greedy方法选择智能体将要执行的动作a，执行动作a，观察奖励和下一状态；
30.步骤4、通过步骤3选择的动作a计算获得对应的离轨因子，并将上述步骤3过程获得的状态、动作、奖励等信息存入经验池；
31.步骤5、从经验池中选取一定条数的数据，利用离轨因子进行神经网络的更新，并更新当前的策略；
32.步骤6、重复步骤2-5，直到机器手臂到达指定的高度或达到最大的更新迭代次数。
33.以下将对步骤1-6进行具体说明。
34.步骤1中，我们根据智能机器手臂的作业要求进行强化学习环境的环境建模，环境建模模型使用了模型简化和稀疏奖励设置。将智能机器手臂模型在平面中简化为有两轴的木棍，其一端固定，另一端初始时垂直垂落向下，在训练过程中，将智能体底端到达指定高度时的奖励设为0，环境所有未达到目标的步数都会获得-1的奖励，这样进行的模型简化和稀疏奖励设置能够减少对智能机器手臂的内部控制芯片等专家知识的依赖，避免在获取环境信息过程中花费过多的时间。
35.进一步地，我们使用实例化的神经网络模型代替砖瓦编码器获取状态-动作对的价值函数。使用神经网络来替代砖瓦编码器来获得价值函数能够更好地适应复杂的状态空间和动作空间，从而提高训练算法的表现；在学习过程中通过神经网络可以从样本数据中提取机器手臂的环境信息特征，从而可以更好地泛化到未见过的状态。这意味着神经网络可以更好地处理训练环境噪声和变化，从而提高训练算法的鲁棒性；其次，使用神经网络也可以通过增加神经元的数量和层数来提高模型的表达能力，从而提高算法的性能，使得我们可以更准确地估计状态的价值函数，从而提高算法的表现。
36.步骤2中，在建模完成后利用机器手臂内自带位置传感器以及速度传感器获取智能机器手臂的状态信息比如机器手臂顶端高度位置、两个旋转关节角度、旋转关节角速度、机器手臂自身硬件状况、目标位置信息等具体信息，这些信息通过处理后简化为强化学习训练模型中的状态信息供后续训练使用。
37.步骤3中，将机器手臂的当前状态信息输入当前的神经网络中，通过线性神经网络求得所有可选状态-动作对的价值函数；以这些价值函数为基础通过ε-greedy策略选取动作a。ε-greedy策略是经典的强化学习探索策略，在该策略中智能体有ε的概率采取随机动
作，其余则根据神经网络输出的价值函数值选取价值函数最大的动作。智能体执行选择好的动作a，与环境进行交互，获得奖励和下一状态的信息。
38.步骤4中，根据通过ε-greedy策略选取动作a，和通过贪心策略选取的最优动作a*计算离轨因子，其具体的值为1-ε+ε/n,其中n为机器手臂可选动作的大小。将状态、动作、奖励等信息存入经验池。
39.步骤5中，运用经验池优化保持数据的独立性的同时，从中选取片段数据利用离轨因子的修正对神经网络参数进行更新，加速神经网络的学习速度。通过神经网络进行价值函数的更新，我们用q值表示价值函数，其更新公式为：
40.q(s,a)
←
q(s,a)+α[r+γx(s,a)maxaq(s
′
,a)-q(s,a)]
[0041]
其中，q为状态动作价值函数，s为当前状态，a为选择的动作，α为学习率，γ为折扣因子，r为智能体在状态s下执行动作a所获得的奖励，s
′
为下一状态，x(s,a)表示离轨因子。
[0042]
步骤6中，判断机器手臂是否达到指定高度或者达到终止状态或达到最大步数限制，如果是，则结束本轮训练。
[0043]
以下将结合具体实施例进行说明。
[0044]
这里讨论的实际问题设置为：考虑智能机器手臂自动化控制到达指定高度的训练加速，此处具体操作步骤如下：
[0045]
s1、根据实际工程需求搭建强化学习环境模型，考虑当前工程需求如下：智能机器手臂一端固定，一端垂下，现在需要通过控制机器手臂使得机器手臂能够在最短的时间内到达指定的高度。强化学习环境搭建如图2所示，机器手臂代表我们要训练的智能体，机器手臂可以选择对机器手臂关节处施加向左的力矩、施加向右的力矩或不添加任何力矩；机器手臂每采取一步动作给予-1的奖励，到达指定高度奖励为0。初始化神经网络用来获取状态动作价值函数的估计。
[0046]
s2、利用机器手臂内自带位置传感器以及速度传感器获取智能机器手臂的状态信息比如机器手臂顶端高度位置、两个旋转关节角度、旋转关节角速度、机器手臂自身硬件状况、目标位置信息等具体信息。这些信息通过处理后简化为强化学习训练模型中的状态信息供后续训练使用。
[0047]
s3、将机器手臂的当前状态信息输入当前的神经网络中，通过线性神经网络求得所有可选状态-动作对的价值函数；以这些价值函数为基础通过ε-greedy策略选取动作a。ε-greedy策略是经典的强化学习探索策略，在该策略中智能体有ε的概率采取随机动作，其余则根据神经网络输出的价值函数值选取价值函数最大的动作。智能体执行选择好的动作a，与环境进行交互，获得奖励和下一状态的信息。在实验过程中ε初始化为1，随着训练过程逐步衰减到0.001。
[0048]
s4、根据通过ε-greedy策略选取动作a，和通过贪心策略选取的最优动作a*计算离轨因子，其具体的值为1-ε+ε/n,其中n为机器手臂可选动作的大小。将状态、动作、奖励等信息存入经验池。其中实验里n的值为3。
[0049]
s5、从经验池中选取数据进行网络更新，其具体学习率设置为0.00001。
[0050]
s6、判断机器手臂底端是否达到目标高度，若达到则结束本轮训练。
[0051]
将本发明提出的方法与传统训练方法进行对比，结果统计如图2所示，dqn为传统的深度强化学习训练方法，mretrace为本文所提出的深度强化学习训练加速方法，可以看
出本文所提出的方法收敛速度和实验效果显著大于传统训练方法。
[0052]
综上所述，本发明通过在神经网络训练过程中使用离轨因子进行目标函数修正来深度强化学习训练优化算法，提高机器手臂自动化控制训练的速度和训练稳定性，提高训练效果，让机器手臂能够更快学到最优自动化控制策略。
[0053]
以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

技术特征：
1.一种智能机器手臂自动化控制的深度强化学习训练优化方法，用于对智能机器手臂的自动化控制的训练过程进行加速，其特征在于，主要包括以下步骤：步骤1、针对智能机器手臂的作业要求建立强化学习训练环境模型，用实例化的神经网络模型代替砖瓦编码器并进行网络初始化；步骤2、利用智能机器手臂上的传感器获取机器手臂的两个关节的位置状态信息和机器手臂关节的可行动作信息；步骤3、将步骤2获取的状态信息输入实例化的神经网络，获得每个可选状态-动作对的价值函数；通过ε-greedy方法选择智能体将要执行的动作a，执行动作a，观察奖励和下一状态；步骤4、通过步骤3选择的动作a计算获得对应的离轨因子，并将上述步骤3过程获得的状态、动作、奖励信息存入经验池；步骤5、从经验池中选取一定条数的数据，利用离轨因子进行神经网络的更新，并更新当前的策略；步骤6、重复步骤2-5，直到机器手臂到达指定的高度或达到最大的更新迭代次数。2.根据权利要求1所述的智能机器手臂自动化控制的深度强化学习训练优化方法，其特征在于，所述步骤1中，根据智能机器手臂的作业要求进行强化学习环境的环境建模，并使用实例化的神经网络模型代替砖瓦编码器获取状态-动作对的价值函数，环境建模即指稀疏奖励，环境所有未达到目标的步数都会获得-1的奖励，达到目标高度会导致终止，奖励为0。3.根据权利要求1所述的智能机器手臂自动化控制的深度强化学习训练优化方法，其特征在于，所述步骤2中，智能机器手臂的状态信息包括：机器手臂的顶端高度位置、两个旋转关节的角度、旋转关节的角速度、机器手臂的自身硬件状况以及目标位置信息，通过机器手臂内自带的位置传感器以及速度传感器获取。4.根据权利要求1所述的智能机器手臂自动化控制的深度强化学习训练优化方法，其特征在于，所述步骤3中，将机器手臂的当前状态信息输入当前的神经网络中，通过神经网络求得所有可选状态-动作对的价值函数，以这些价值函数为基础通过ε-greedy策略选取动作a。5.根据权利要求1所述的智能机器手臂自动化控制的深度强化学习训练优化方法，其特征在于，所述步骤4中，根据通过ε-greedy策略选取的动作a，和通过贪心策略选取的最优动作a*计算离轨因子，其具体的值为1-ε+ε/n,其中n为机器手臂可选动作的大小。6.根据权利要求5所述的智能机器手臂自动化控制的深度强化学习训练优化方法，其特征在于，所述步骤4中，将状态、动作、奖励、离轨因子信息存入经验池，使用经验池优化保持数据之间的相互独立。7.根据权利要求6所述的智能机器手臂自动化控制的深度强化学习训练优化方法，其特征在于，所述步骤5中，运用经验池优化保持数据的独立性的同时，从中选取片段数据利用离轨因子的修正对神经网络参数进行更新，加速神经网络的学习速度。

技术总结
本发明提供了一种智能机器手臂自动化控制的深度强化学习训练优化方法，用于训练机器手臂将手抬到一定的高度。主要包括以下步骤：将工程问题建模成强化学习环境，整个机器手臂当作智能体，通过机器手臂的感应系统获取机器手臂目标高度的信息、机器手臂的可选动作信息以及控制过程中机器手臂各关节的位置信息；并利用强化学习算法进行训练，使得机器手臂的顶端可以在尽可能短的时间内达到目标高度。本发明方法能够通过深度强化学习优化算法提高机器手臂自动化控制训练的速度和训练稳定性，使得机器手臂能够更快更准确的学到最优的控制策略，提高机器手臂运作控制的准确性和效率，具有较好的实用价值和经济效益。具有较好的实用价值和经济效益。具有较好的实用价值和经济效益。

技术研发人员：陈兴国秦旺荣彭云非沈云开
受保护的技术使用者：南京邮电大学
技术研发日：2023.08.02
技术公布日：2023/10/8

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

智能机器手臂自动化控制的深度强化学习训练优化方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

智能机器手臂自动化控制的深度强化学习训练优化方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表