用于控制机器狗行进的智能体强化学习方法与装置与流程

未命名 07-22 阅读：111 评论：0

1.本发明属于强化学习领域，更具体地，涉及一种用于控制机器狗行进的智能体强化学习方法与装置。

背景技术：

2.近年来，深度强化学习技术将深度学习的感知能力与强化学习的决策能力结合，取得了突破性的进展，被广泛应用在棋类博弈、游戏ai、自主驾驶、机器狗控制等领域。然而，随着交互环境的复杂性、多样性越来越大，强化学习过程中智能体的学习存在一定程度的不确定性，导致学习进度不稳定，学习曲线波动大，训练不易收敛。智能体强化学习的稳定性对于训练的顺利完成具有重要意义。

技术实现要素：

3.针对现有技术的以上缺陷或改进需求，本发明提供了一种用于控制机器狗行进的智能体强化学习方案，能够在执行过程中，控制智能体接收机器狗各个组成部分的位置及运动信息作为输入状态，计算输出每个关节的控制参数作为动作，并根据机器狗的运动行为和前进距离反馈相应的奖励数值，实现机器狗快速流畅地前进并避免摔倒。
4.为实现上述目的，按照本发明的一个方面，提供了一种用于控制机器狗行进的智能体强化学习方法，训练一个控制机器狗行进的智能体，执行过程中，控制智能体接收机器狗各个组成部分的位置及运动信息作为输入状态，计算输出每个关节的控制参数作为动作，并根据机器狗的运动行为和前进距离反馈相应的奖励数值，所述方法包括如下步骤：
5.(1)训练拟合随机网络模型f
ψ
，该模型接收当前状态数据与动作数据，输出预测状态转移的概率分布；
6.(2)通过智能体控制机器狗与真实环境交互产生若干训练数据条目，同时每个时间步记录状态转移概率分布；
7.(3)针对(2)中得到的训练数据条目，通过对应的状态转移概率分布计算状态转移的熵信息反馈；
8.(4)通过(3)中得到的熵信息反馈衡量环境改变稳定程度，并以此为基础修改训练数据条目奖励项，生成带有熵信息的训练数据集；
9.(5)根据actor-critic框架，通过(4)中得到的带有熵信息的训练数据集更新智能体的评估网络φ，然后通过评估网络更新智能体的决策网络θ；
10.(6)重复步骤(2)-(5)，直到智能体学习达到收敛状态。
11.本发明的一个实施例中，所述步骤(1)具体包括：
12.(1-1)构建机器狗拟合随机网络模型f
ψ
，其中ψ为机器狗拟合随机网络模型的参数，该拟合随机网络模型输入为当前机器狗状态数据s
t
与智能体决策的动作数据a
t
，输出结果构成机器狗状态转移的高斯概率分布参数μ
ψ
(s
t
,a
t
)及σ
ψ
(s
t
,a
t
),并通过该分布采样预测下一状态即：
[0013][0014]
其中符号表示高斯分布，μ
ψ
为机器狗拟合随机网络模型预测状态转移高斯概率分布的均值向量，σ
ψ
为机器狗拟合随机网络模型预测状态转移高斯概率分布的协方差矩阵，随机初始化机器狗拟合随机网络模型，节点值通过均值为0、标准差为0.01的高斯分布采样得到；
[0015]
(1-2)针对机器狗控制中交互产生的真实状态改变数据集，通过最大后验概率训练机器狗拟合随机网络模型。
[0016]
本发明的一个实施例中，所述步骤(1)还包括：
[0017]
(1-3)随机初始化智能体决策网络参数θ，节点值通过均值为0、标准差为0.01的高斯分布采样得到；
[0018]
(1-4)随机初始化智能体评估网络参数φ，节点值通过均值为0、标准差为0.01的高斯分布采样得到。
[0019]
本发明的一个实施例中，所述步骤(1.2)具体包括：
[0020]
(1-2-1)重启机器狗；
[0021]
(1-2-2)对于当前时间步观测并记录其各个躯干的状态值sn；
[0022]
(1-2-3)生成动作值an，其组成元素值均在区间(-1,1)内随机采样获得；
[0023]
(1-2-4)将an转化为指令输入给机器狗执行，获取下一时间步真实的状态s
n+1
及奖励反馈rn；
[0024]
(1-2-5)重复步骤(1-2-2)-(1-2-4)执行n次，构建机器狗拟合随机网络模型的训练数据集
[0025]
(1-2-6)通过优化负对数似然损失l
nll
来训练拟合随机网络模型f
ψ
[0026][0027]
(1-2-7)重复步骤(1-2-1)-(1-2-6)，直到机器狗拟合随机网络模型达到收敛状态；
[0028]
本发明的一个实施例中，所述步骤(2)具体包括：
[0029]
(2-1)智能体控制机器狗与真实环境持续交互产生马尔可夫训练数据条目(s,a,ro,next_s)并组成原始训练数据集do《s,a,ro,next_s》，其中：s表示智能体所观测到的环境状态，即机器狗各个部位的位置及运动信息数据；a表示智能体通过决策网络得到的动作概率分布，并通过采样选择具体动作，即每个关节的控制参数；ro表示智能体直接由机器狗运动结果所获取的奖励反馈；next_s表示下一个时间步的机器狗状态；
[0030]
(2-2)根据训练数据条目记录每个时间步机器狗状态转移概率分布f
ψ
(s,a)计算结果，即状态转移概率分布的μ
ψ
(s,a)与σ
ψ
(s,a)。
[0031]
本发明的一个实施例中，所述步骤(3)具体包括：
[0032]
通过状态转移概率分布f
ψ
(s,a)计算机器狗状态转移的熵信息反馈：
[0033][0034]
其中k为预测维度；
[0035]
本发明的一个实施例中，所述步骤(4)具体包括：
[0036]
(4-1)生成熵反馈奖励值；
[0037]
(4-1-1)通过人工经验设定熵控制系数α；
[0038]
(4-1-2)计算熵反馈奖励值：rh＝αh(s,a)；
[0039]
(4-2)根据熵反馈奖励值更新原始训练数据集；
[0040]
(4-2-1)修改原始训练数据集条目的奖励项r＝r
o-rh；
[0041]
(4-2-2)生成带有熵信息的训练数据集d《s,a,r,next_s》。
[0042]
本发明的一个实施例中，所述步骤(1.1)中，随机初始化机器狗拟合随机网络模型，具体为：将机器狗拟合随机网络模型的参数ψ所有节点值设置为通过均值为0、标准差为0.01的高斯分布采样得到的结果。
[0043]
按照本发明的另一方面，还提供了一种用于控制机器狗行进的智能体强化学习装置，包括至少一个处理器和存储器，所述至少一个处理器和存储器之间通过数据总线连接，所述存储器存储能被所述至少一个处理器执行的指令，所述指令在被所述处理器执行后，用于完成权利要求1-8中任一项所述的用于控制机器狗行进的智能体强化学习方法。
[0044]
总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：
[0045]
(1)本发明提出了一种用于控制机器狗行进的智能体强化学习方法，本发明将熵信息引入了智能体critic的更新中，使得评估网络将状态改变的稳定程度考虑在优化目标内，从而提升智能体对于环境的预测及控制能力，提高学习的稳定性；
[0046]
(2)通过本发明方法，在执行过程中控制智能体接收机器狗各个组成部分的位置及运动信息作为输入状态，计算输出每个关节的控制参数作为动作，并根据机器狗的运动行为和前进距离反馈相应的奖励数值，训练目标是实现机器狗快速流畅地前进，并避免摔倒。
附图说明
[0047]
图1是本发明实施例中用于控制机器狗行进的智能体强化学习方法的流程示意图。
具体实施方式
[0048]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0049]
针对机器人控制领域，训练一个控制机器狗行进的智能体。机器狗与真实狗的生理组成特征相似，由多个躯干和肢体刚体和连接它们的关节组成，关节的旋转活动能够使得躯干和肢体产生运动，有序的整体运动能够使得机器狗做出许多动作，包括跑步、跳跃等，具体的控制参数为机器狗各个可控关节上施加的扭矩。机器狗的状态可视为各个组成躯干的位置及运动信息，由传感器直接观测得到；动作则为各个关节上施加的扭矩数值。
[0050]
执行过程中，控制智能体接收机器狗各个组成部分的位置及运动信息作为输入状
态，计算输出每个关节的控制参数作为动作，所有控制参数均在区间(-1,1)范围内，机器狗接收控制参数后将自动将其转化为控制关节运转的对应实际指令，并根据机器狗的运动行为和前进距离反馈相应的奖励数值，训练目标是实现机器狗快速流畅地前进，并避免摔倒。如图1所示，本发明提供的用于控制机器狗行进的智能体强化学习方法，包括如下步骤：
[0051]
(1)训练拟合随机网络模型f
ψ
，该模型接收当前状态数据与动作数据，输出预测状态转移的概率分布；
[0052]
(1-1)构建机器狗拟合随机网络模型f
ψ
，其中ψ为机器狗拟合随机网络模型的参数，该拟合随机网络模型输入为当前机器狗状态数据s
t
与智能体决策的动作数据a
t
，输出结果构成机器狗状态转移的高斯概率分布参数μ
ψ
(s
t
,a
t
)及σ
ψ
(s
t
,a
t
),并通过该分布采样预测下一状态即：
[0053][0054]
其中符号表示高斯分布，μ
ψ
为机器狗拟合随机网络模型预测状态转移高斯概率分布的均值向量，σ
ψ
为机器狗拟合随机网络模型预测状态转移高斯概率分布的协方差矩阵；
[0055]
随机初始化机器狗拟合随机网络模型，将机器狗拟合随机网络模型的参数ψ所有节点值设置为通过均值为0、标准差为0.01的高斯分布采样得到的结果。
[0056]
(1-2)针对机器狗控制中交互产生的真实状态改变数据集，通过最大后验概率训练机器狗拟合随机网络模型；
[0057]
(1-2-1)重启机器狗；
[0058]
(1-2-2)对于当前时间步观测并记录其各个躯干的状态值sn；
[0059]
(1-2-3)生成动作值an，其组成元素值均在区间(-1,1)内随机采样获得；
[0060]
(1-2-4)将an转化为指令输入给机器狗执行，获取下一时间步真实的状态s
n+1
及奖励反馈rn；
[0061]
(1-2-5)重复步骤(1-2-2)-(1-2-4)执行n次，构建机器狗拟合随机网络模型的训练数据集
[0062]
(1-2-6)通过优化负对数似然损失l
nll
来训练拟合随机网络模型f
ψ
[0063][0064]
(1-2-7)重复步骤(1-2-1)-(1-2-6)，直到机器狗拟合随机网络模型达到收敛状态；
[0065]
(1-3)随机初始化智能体决策网络参数θ，节点值通过均值为0、标准差为0.01的高斯分布采样得到；
[0066]
(1-4)随机初始化智能体评估网络参数φ，节点值通过均值为0、标准差为0.01的高斯分布采样得到；
[0067]
(2)通过智能体控制机器狗与真实环境交互产生若干训练数据条目，同时每个时间步记录状态转移概率分布；
[0068]
(2-1)智能体控制机器狗与真实环境持续交互产生马尔可夫训练数据条目(s,a,ro
,next_s)并组成原始训练数据集do《s,a,ro,next_s》，其中：s表示智能体所观测到的环境状态，即机器狗各个部位的位置及运动信息数据；a表示智能体通过决策网络得到的动作概率分布，并通过采样选择具体动作，即每个关节的控制参数；ro表示智能体直接由机器狗运动结果所获取的奖励反馈；next_s表示下一个时间步的机器狗状态；
[0069]
(2-2)根据训练数据条目记录每个时间步机器狗状态转移概率分布f
ψ
(s,a)计算结果，即状态转移概率分布的μ
ψ
(s,a)与σ
ψ
(s,a)；
[0070]
(3)针对(2)中得到的训练数据条目，通过对应的状态转移概率分布计算状态转移的熵信息反馈；
[0071]
(3-1)对于原始训练数据集中的所有训练数据条目(s,a,ro,next_s)，通过状态转移概率分布f
ψ
(s,a)计算机器狗状态转移的熵信息反馈：
[0072][0073]
其中k为预测维度；
[0074]
(4)通过(3)中得到的熵信息反馈衡量环境改变稳定程度，并以此为基础修改训练数据条目奖励项，生成带有熵信息的训练数据集；
[0075]
(4-1)生成熵反馈奖励值；
[0076]
(4-1-1)通过人工经验设定熵控制系数α；
[0077]
(4-1-2)计算熵反馈奖励值：rh＝αh(s,a)；
[0078]
(4-2)根据熵反馈奖励值更新原始训练数据集；
[0079]
(4-2-1)修改原始训练数据集条目的奖励项r＝r
o-rh；
[0080]
(4-2-2)生成带有熵信息的训练数据条目(s,a,r,next_s)；
[0081]
(4-2-3)通过更新后的训练数据条目得到带有熵信息的训练数据集d《s,a,r,next_s》；
[0082]
(5)根据actor-critic框架，通过(4)中得到的带有熵信息的训练数据集更新智能体的评估网络φ，然后通过评估网络更新智能体的决策网络θ；
[0083]
(6)重复步骤(2)-(5)，直到智能体学习达到收敛状态。
[0084]
进一步地，本发明还提供了一种用于控制机器狗行进的智能体强化学习装置，包括至少一个处理器和存储器，所述至少一个处理器和存储器之间通过数据总线连接，所述存储器存储能被所述至少一个处理器执行的指令，所述指令在被所述处理器执行后，用于完成所述的用于控制机器狗行进的智能体强化学习方法。
[0085]
本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种用于控制机器狗行进的智能体强化学习方法，其特征在于，训练一个控制机器狗行进的智能体，执行过程中，控制智能体接收机器狗各个组成部分的位置及运动信息作为输入状态，计算输出每个关节的控制参数作为动作，并根据机器狗的运动行为和前进距离反馈相应的奖励数值，所述方法包括如下步骤：(1)训练拟合随机网络模型f
ψ
，该模型接收当前状态数据与动作数据，输出预测状态转移的概率分布；(2)通过智能体控制机器狗与真实环境交互产生若干训练数据条目，同时每个时间步记录状态转移概率分布；(3)针对(2)中得到训练数据条目，通过对应的状态转移概率分布计算状态转移的熵信息反馈；(4)通过(3)中得到的熵信息反馈衡量环境改变稳定程度，并以此为基础修改训练数据条目奖励项，生成带有熵信息的训练数据集；(5)根据actor-critic框架，通过(4)中得到的带有熵信息的训练数据集更新智能体的评估网络φ，然后通过评估网络更新智能体的决策网络θ；(6)重复步骤(2)-(5)，直到智能体学习达到收敛状态。2.如权利要求1所述的用于控制机器狗行进的智能体强化学习方法，其特征在于，所述步骤(1)具体包括：(1-1)构建机器狗拟合随机网络模型f
ψ
，其中ψ为机器狗拟合随机网络模型的参数，该拟合随机网络模型输入为当前机器狗状态数据s
t
与智能体决策的动作数据a
t
，输出结果构成机器狗状态转移的高斯概率分布参数μ
ψ
(s
t
,a
t
)及σ
ψ
(s
t
,a
t
),并通过该分布采样预测下一状态即：其中符号表示高斯分布，μ
ψ
为机器狗拟合随机网络模型预测状态转移高斯概率分布的均值向量，σ
ψ
为机器狗拟合随机网络模型预测状态转移高斯概率分布的协方差矩阵，随机初始化机器狗拟合随机网络模型，节点值通过均值为0、标准差为0.01的高斯分布采样得到；(1-2)针对机器狗控制中交互产生的真实状态改变数据集，通过最大后验概率训练机器狗拟合随机网络模型。3.如权利要求2所述的用于控制机器狗行进的智能体强化学习方法，其特征在于，所述步骤(1)还包括：(1-3)随机初始化智能体决策网络参数θ，节点值通过均值为0、标准差为0.01的高斯分布采样得到；(1-4)随机初始化智能体评估网络参数φ，节点值通过均值为0、标准差为0.01的高斯分布采样得到。4.如权利要求1或2所述的用于控制机器狗行进的智能体强化学习方法，其特征在于，所述步骤(1.2)具体包括：(1-2-1)重启机器狗；
(1-2-2)对于当前时间步观测并记录其各个躯干的状态值s
n
；(1-2-3)生成动作值a
n
，其组成元素值均在区间(-1,1)内随机采样获得；(1-2-4)将a
n
转化为指令输入给机器狗执行，获取下一时间步真实的状态s
n+1
及奖励反馈r
n
；(1-2-5)重复步骤(1-2-2)-(1-2-4)执行n次，构建机器狗拟合随机网络模型的训练数据集(1-2-6)通过优化负对数似然损失l
nll
来训练拟合随机网络模型f
ψ
(1-2-7)重复步骤(1-2-1)-(1-2-6)，直到机器狗拟合随机网络模型达到收敛状态。5.如权利要求1或2所述的用于控制机器狗行进的智能体强化学习方法，其特征在于，所述步骤(2)具体包括：(2-1)智能体控制机器狗与真实环境持续交互产生马尔可夫训练数据条目(s,a,r
o
,next_s)并组成原始训练数据集d
o
<s,a,r
o
,next_s>，其中：s表示智能体所观测到的环境状态，即机器狗各个部位的位置及运动信息数据；a表示智能体通过决策网络得到的动作概率分布，并通过采样选择具体动作，即每个关节的控制参数；r
o
表示智能体直接由机器狗运动结果所获取的奖励反馈；next_s表示下一个时间步的机器狗状态；(2-2)根据训练数据条目记录每个时间步机器狗状态转移概率分布f
ψ
(s,a)计算结果，即状态转移概率分布的μ
ψ
(s,a)与σ
ψ
(s,a)。6.如权利要求1或2所述的用于控制机器狗行进的智能体强化学习方法，其特征在于，所述步骤(3)具体包括：通过状态转移概率分布f
ψ
(s,a)计算机器狗状态转移的熵信息反馈：其中k为预测维度。7.如权利要求1或2所述的用于控制机器狗行进的智能体强化学习方法，其特征在于，所述步骤(4)具体包括：(4-1)生成熵反馈奖励值；(4-1-1)通过人工经验设定熵控制系数α；(4-1-2)计算熵反馈奖励值：r
h
＝αh(s,a)；(4-2)根据熵反馈奖励值更新原始训练数据集；(4-2-1)修改原始训练数据集条目的奖励项r＝r
o-r
h
；(4-2-2)生成带有熵信息的训练数据集d<s,a,r,next_s>。8.如权利要求2所述的用于控制机器狗行进的智能体强化学习方法，其特征在于，所述步骤(1.1)中，随机初始化机器狗拟合随机网络模型，具体为：将机器狗拟合随机网络模型的参数ψ所有节点值设置为通过均值为0、标准差为0.01的高斯分布采样得到的结果。9.一种用于控制机器狗行进的智能体强化学习装置，其特征在于：包括至少一个处理器和存储器，所述至少一个处理器和存储器之间通过数据总线连
接，所述存储器存储能被所述至少一个处理器执行的指令，所述指令在被所述处理器执行后，用于完成权利要求1-8中任一项所述的用于控制机器狗行进的智能体强化学习方法。

技术总结
本发明公开了一种用于控制机器狗行进的智能体强化学习方法，执行过程中，控制智能体接收机器狗各个组成部分的位置及运动信息作为输入状态，计算输出每个关节的控制参数作为动作，并根据机器狗的运动行为和前进距离反馈相应的奖励数值，训练目标是实现机器狗快速流畅地前进，并避免摔倒。本发明将熵信息引入了智能体Critic的更新中，使得评估网络将状态改变的稳定程度考虑在优化目标内，从而提升智能体对于环境的预测及控制能力，提高学习的稳定性。本发明还提供了相应的用于控制机器狗行进的智能体强化学习装置。的智能体强化学习装置。的智能体强化学习装置。

技术研发人员：高子文刘俊涛王振杰任威霖王元斌
受保护的技术使用者：中国船舶集团有限公司第七〇九研究所
技术研发日：2023.02.22
技术公布日：2023/7/20

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种沉浸式的管线资源动态展示方法、系统和电子设备与流程 下一篇：协议功能块的封装方法、装置、设备、介质及产品与流程

用于控制机器狗行进的智能体强化学习方法与装置与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

用于控制机器狗行进的智能体强化学习方法与装置与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表