一种用于偏瘫康复的机器人强化学习镜像训练控制系统

未命名 08-15 阅读：140 评论：0

1.本发明属于医疗康复机器人领域，尤其涉及一种用于偏瘫康复的机器人强化学习镜像训练控制系统。

背景技术：

2.中风又称“脑卒中”，是一种急性脑血管疾病，是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一种疾病。脑卒中常导致患者单侧肢体瘫痪，瘫痪后，若患者不能得到有效且正确的康复训练，会造成骨质疏松、肌肉萎缩、体能逐渐下降等病态特征，并且长时间错误康复训练不仅容易损伤膝关节周围的韧带和组织，导致膝关节过伸，踝关节内翻。因此，病人锻炼要在康复理疗师的指导下训练。
3.为了节省理疗师带来的昂贵的时间和金钱成本﹐康复机器人被开发出来。镜像疗法被证明是治疗偏瘫的有效方法。但现有用于偏瘫康复训练的机器人很难准确确定各种患者不确定的阻抗参数；现有基于强化学习的康复训练机器人学习时间长，奖励有限，患者的肌肉激活程度有限。

技术实现要素：

4.发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种用于偏瘫康复的机器人强化学习镜像训练控制系统，使得偏瘫患者可以在机器人的辅助下自主完成康复训练，促使康复训练过程更加安全舒适。
5.本发明为解决技术问题采用如下技术方案：所述系统包括主动机器人与从动机器人，所述主动机器人穿戴于患者健康侧肢体，通过参考阻抗模型自适应控制；所述从动机器人穿戴于患者瘫痪侧肢体，采用强化学习控制。
6.所述系统的动力学模型公式为：
[0007][0008][0009]
其中qi为机器人关节位置坐标，表示n维实数矩阵,i＝m,s，m表示主动机器人，i表示从动机器人，qm表示主动机器人关节位置坐标，qi表示从动机器人关节位置坐标，n表示机器人关节个数，和分别表示主动机器人的关节速度和加速度；和分别表示从动机器人的关节速度和加速度；
[0010]mm
(qm)表示主动机器人惯性矩阵，表示主动机器人向心力矩和科里奥利力矩矩阵，为主动机器人重力力矩，为主动机器人摩擦力矩，表示主动机器人的执行器产生的机器人力矩；
[0011]ms
(qs)表示从动机器人惯性矩阵，表示从动机器人向心力矩和科里奥利力矩矩阵，为从动机器人重力力矩，为从动机器人摩擦力矩，表示从动机器人的执行器产生的机器人力矩；
[0012]
表示主动机器人与健康侧肢体之间的交互力矩，表示从动机器人与瘫痪侧肢体之间的交互力矩。
[0013]
所述主动机器人的关节位置和速度信息经过时间延迟tm传输给从动机器人，从而带动瘫痪侧肢体跟随运动；所述从动机器人和瘫痪侧肢体之间的交互力矩经过时间延迟ts传输给主动机器人，表示为：
[0014]qsd
(t)＝kqqm(t-tm)
[0015][0016]
τ
fld
(t)＝kqτ
il
(t-ts)
[0017]
其中t表示当前时刻，是当前时刻从动机器人的期望位置，是当前时刻从动机器人的期望速度，是从瘫痪侧传递到健康侧的相互作用扭矩，kq＝diag(k
q1
，...，k
qn
)表示镜像矩阵，diag函数用于构造一个对角矩阵，k
qn
表示镜像矩阵kq中第q行第n列的元素；为适应健康侧和瘫痪侧之间的镜像效应，k
q1
～k
qn
取值为1或-1。
[0018]
所述参考阻抗模型的公式为：
[0019][0020]
其中m
md
、b
md
和k
md
分别表示主动机器人的期望惯性、阻尼和刚度矩阵，是参考阻抗模型的输出，表示期望位置，因此和分别表示主动机器人的期望速度和加速度。
[0021]
所述参考阻抗模型接收主动机器人、从动机器人与健康侧、瘫痪侧肢体的交互力矩，生成主动机器人的理想运动轨迹，此时，患者健康侧肢体能够通过施加肌肉力调节主动机器人的运动轨迹。
[0022]
所述主动机器人的控制器目标为跟踪由参考阻抗模型产生的主动机器人的理想运动轨迹，建立滑模变量sm，表示为：
[0023][0024]
其中其中表示主动机器人实际位置与期望位置之间的误差，λ1为常数，数，表示主动机器人实际速度与期望速度之间的误差；
[0025]
主动机器人的估计加速度为：
[0026][0027]
其中λ2是常数。
[0028]
在关节空间所述主动机器人的控制器公式为：
[0029][0030]
所述从动机器人通过强化学习控制器实现强化学习控制，所述强化学习控制器包括状态s、动作a和奖励r，其中，状态s包括机器人状态和患者肢体状态，公式为：
[0031]
s＝[sr，sh]
t
[0032]
其中sr表示机器人状态，sh表示患者肢体状态，t表示矩阵转置；
[0033]
所述机器人状态包括关节位置和关节速度，公式为：
[0034][0035]
其中q
mi
为主动机器人第i个关节的位置，i＝1，2，，...，n，q
si
为从动机器人第i个
关节的位置，为主动机器人第i个关节的关节速度，为从动机器人第i个关节的关节速度；
[0036]
所述患者肢体状态包括通过皮肤表面肌电信号幅值来表征，公式为：
[0037]
sh＝[e
hl1
...e
hlk
，e
il1
...e
ilk
]
t
[0038]
其中e
hli
表示健康侧第i块肌肉的肌电信号幅值，i＝1，2...，k，k为被测肌肉数量，e
ili
为瘫痪侧第i块肌肉的肌电信号幅值；
[0039]
所述动作a为从动机器人关节驱动器输出力矩，公式为：
[0040]
a＝[τ
s1
...τ
sn
]
t
[0041]
其中，τ
sn
表示从动侧第n个关节的执行器扭矩。
[0042]
所述强化学习控制器的奖励函数的构建目标是使患者瘫痪侧肢体的肌肉激活度最大、使主动机器人和从动机器人之间的轨迹跟踪误差最小、从动机器人的加速度最小，同时将用户的情绪纳入强化学习控制器，作为额外的影响因子实时控制康复训练运动强度，所述奖励函数r公式为：
[0043][0044]
其中λ是表示跟踪误差项在奖励函数中的权重的对角线正矩阵，q
sd
表示从动机器人的期望位置，表示从动机器人的期望加速度，γ
ei
是平衡第i个被测肌肉肌电图信号贡献的权重值，e
fli
表示患者健康肢体的肌肉激活程度，e
ili
表示患者患侧肢体的肌肉激活程度；v
fer
为患者情绪识别结果常数，当患者表现出积极的面部表情时，v
fer
＞0；当患者表现出消极的面部表情时，v
fer
＜0；表示从动机器人对于患侧肢体的作用力，γu和γa分别为机器人驱动力矩与加速度的权重值。
[0045]
进一步的，所述主动机器人的位置和速度信息传输给从动机器人，从而带动瘫痪侧肢体跟随运动；从动机器人和瘫痪侧肢体之间的交互力矩传输给主动机器人。
[0046]
进一步的，所述主动机器人采用模型参考自适应阻抗控制，接收主、从动机器人与患者双侧肢体的交互力矩，生成主动机器人的理想运动轨迹。此时，患者健康侧可以通过施加肌肉力调节主动机器人的运动轨迹。
[0047]
进一步的，所述强化学习控制器的状态量包含主、从动机器人的关节位置和关节速度，以及患者健康侧、瘫痪侧肢体的生理电信号；所述强化学习控制器的动作量为从动机器人的关节驱动器输出力矩；所述强化学习控制器的奖励函数的构建目标是使患者瘫痪侧肢体的肌肉激活度最大、使主动机器人和从动机器人之间的轨迹跟踪误差最小、从动机器人的加速度最小。此外，本发明将用户的情绪纳入强化学习控制器，作为额外的影响因子实时控制康复训练运动强度，当患者表现出积极情绪时，可以适当增强机器人的动作；当患者表现出消极情绪时，训练强度就要减弱，甚至停止。
[0048]
进一步的，所述强化学习可以采用深度确定性策略梯度(deep deterministic policy gradient，ddpg)、归一化优势函数(normalized advantage fucntions，naf)等算法实现。
[0049]
与现有技术相比，本发明的有益效果是：
[0050]
1、本发明与传统康复训练方式相比，将理疗师从康复训练中移除，节约了康复训
练成本，减少了患者康复训练过程中的人力资源与经济压力。
[0051]
2、本发明所述的主动机器人采用参考阻抗模型控制，接收主、从动机器人与健康侧、瘫痪侧肢体的交互作用力矩，生成主动机器人的理想运动轨迹，使得患者可以通过健康侧肢体的肌肉力量来调整机器人的运动轨迹，以获得更加舒适恰当的康复训练运动强度。
[0052]
3、本发明所述从动机器人采用强化学习控制，免除机器人动力学模型或阻抗模型中存在的扰动和不确定性，使该系统适应不同瘫痪类型、不同瘫痪程度的患者康复训练。
[0053]
4、本发明集成机器人、患者多模态感知，将机器人运动轨迹、患者生理电信号、患者情绪纳入到从动机器人的强化学习控制控制器中，通过设置适当的奖励函数，可以高效获得通过患者表情实时调整康复训练运动强度。
附图说明
[0054]
下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。
[0055]
图1为本发明系统的整体架构图。
[0056]
图2为本发明系统的信息传递方式示意图。
具体实施方式
[0057]
如图1所示，本发明提供了一种用于偏瘫康复的机器人强化学习镜像训练控制系统，所述用于偏瘫康复的机器人采用北京大艾机器人公司研制的艾动康复训练机器人；所述系统包括主动机器人与从动机器人。主动机器人穿戴于患者健康侧肢体，采用模型参考自适应阻抗控制；从动机器人穿戴于患者瘫痪侧肢体互动，采用强化学习控制。
[0058]
优选的，该用于偏瘫康复的双侧主从式机器人系统在关节空间的动力学模型公式为：
[0059][0060][0061]
其中i＝m,s,(m表示主动机器人，s表示从动机器人，n表示机器人关节个数)为机器人关节位置坐标，和分别表示关节速度和加速度。为惯性矩阵，为向心力矩和科里奥利力矩矩阵，为重力力矩，为摩擦力矩，表示执行器产生的机器人力矩，表示主动机器人与健康侧肢体之间的交互力矩，表示从动机器人与瘫痪侧肢体之间的交互力矩。
[0062]
如图2所示，主动机器人的关节位置和速度信息经过时间延迟tm传输给从动机器人，从而带动瘫痪侧肢体跟随运动；从动机器人和瘫痪侧肢体之间的交互力矩经过时间延迟ts传输给主动机器人，表示为：
[0063]qsd
(t)＝kqqm(t-tm)
[0064][0065]
τ
fld
(t)＝kqτ
il
(t-ts)
[0066]
其中t表示当前时刻，是从动机器人的期望位置，是从瘫痪侧传递到健康侧的相互作用扭矩，kq＝diag(k
q1
，...，k
qn
)表示镜像矩阵，适应健康侧和瘫痪侧之
间的镜像效应，k
q1
～k
qn
取值为1或-1，以下肢康复为例，当运动自由度为髋关节弯曲/伸展、膝关节弯曲/伸展、踝关节背屈/跖屈时，k
qi
＝1；当运动自由度为髋关节外展/内收时，k
qi
＝-1。
[0067]
优选的，建立主动机器人的参考阻抗模型，公式为：
[0068][0069]
其中和分别表示主动机器人的期望惯性、阻尼和刚度矩阵，是该阻抗模型的输出，表示期望位置，因此和分别表示期望速度和加速度。
[0070]
所述参考阻抗模型接收主、从动机器人与健康侧、瘫痪侧肢体的交互力矩，生成主动机器人的理想运动轨迹。同时，患者健康侧通过施加的适当力调节主动机器人的运动轨迹。当瘫痪侧在治疗过程中感到疼痛或不舒服时，健康侧可以减少肌肉力量来约束运动；反之，当瘫痪侧感到阻力而不能主动完成给定的任务时，健康侧可以增加肌肉力量来扩大运动范围。因此，患者可以调整健康侧的肌肉力量调整健康侧和瘫痪侧运动，以获得适当的运动强度。
[0071]
所述主动机器人的控制器目标为跟踪由参考阻抗模型产生的主动机器人的理想运动轨迹。建立滑模变量sm如下：
[0072][0073]
其中λ1为常数，
[0074]
主动机器人的估计加速度为：
[0075][0076]
其中λ2是常数。
[0077]
所述主动机器人的控制器目标为跟踪由参考阻抗模型产生的主动机器人的理想运动轨迹，在关节空间所述主动机器人的控制器公式为：
[0078][0079]
优选的，所述从动机器人的强化学习控制控制器由状态s、动作a和奖励r组成。其中，状态s由机器人状态与患者肢体状态组成。公式为：
[0080]
s＝[sr，sh]
t
[0081]
其中sr表示机器人状态，sh表示患者肢体状态。
[0082]
所述机器人的状态包括关节位置和关节速度，公式为：
[0083][0084]
其中q
mi
(i＝1，2，，...，n)为主动机器人第i个关节的位置，q
si
(i＝1，2，，...，n)为从动机器人第i个关节的位置，为主动机器人关节速度，为从动机器人关节速度。
[0085]
所述患者肢体状态包括通过皮肤表面肌电信号幅值来表征，公式为：
[0086]
sh＝[e
hl1
...e
hlk
，e
il1
...e
ilk
]
t
[0087]
其中e
hli
(i＝1，2...，k，k为被测肌肉数量)表示健康侧第i块肌肉的肌电信号幅值，e
ili
为瘫痪侧第i块肌肉的肌电信号幅值。
[0088]
所述强化学习控制器的动作a为从动机器人关节驱动器输出力矩，公式为：
[0089]
a＝[τ
s1
...τ
sn
]
t
[0090]
所述强化学习控制器的奖励函数的构建目标是使患者瘫痪侧肢体的肌肉激活度最大、使主动机器人和从动机器人之间的轨迹跟踪误差最小、从动机器人的加速度最小。此外，本发明将用户的情绪纳入强化学习控制器，作为额外的影响因子实时控制康复训练运动强度，当患者表现出积极的面部表情时，可以适当增强机器人的动作；当患者表现出消极的面部表情时，训练强度就要减弱，甚至停止。在所述强化学习控制器中，这三者都包含在奖励函数中，公式为：
[0091][0092]
其中λ是表示跟踪误差项在奖励函数中的权重的对角线正矩阵，参数γ
ei
是平衡第i个被测肌肉肌电图信号贡献的权重值。v
fer
为患者情绪识别结果常数，当患者表现出积极的面部表情时，v
fer
＞0，取v
fer
＝0.5；当患者表现出消极的面部表情时，v
fer
＜0，取v
fer
＝-3.5。γu和γa分别为机器人驱动力矩与加速度的权重值，取值分别为0.3与0.5。
[0093]
优选的，可以使用相对熵逆强化学习算法确定上述各项式的权重值。引自boularias，a.，kober，j.and peters，j.(2011)，“relative entropy inverse reinforcement learning”，proceedings of artificial intelligences and statistics，pp.20-27.
[0094]
优选的，所述强化学习可以采用深度确定性策略梯度(deep deterministic policy gradient，ddpg)、归一化优势函数(normalized advantage fucntions，naf)等算法实现。引自mnih，v.，badia，a.p.，mirza，m.，graves，a.，harley，t.，lillicrap，t.p.，silver，d.and kavukcuoglu，k.(2016)，“asynchronous methods for deep reinforcement learning”，proceedings of international conference machine learning，pp.1928-1937.
[0095]
上述控制系统在北京大艾机器人科技有限公司研制的运动康复训练机器人上进行验证，该机器人主动侧轨迹跟踪均方根误差为0.02rad，从动侧的轨迹跟踪均方根误差为0.05rad，这表明该控制器对于轨迹跟踪的误差很小，跟踪效果良好。
[0096]
在康复训练之前，患者运动功能评估(fma)结果为21.8
±
2.2，berg衡量表(bbs)评分结果为25.8
±
4.2，改良ashworth表(mas)评分结果为2.5
±
0.5；康复训练之后上述三中评分表的评分分别为29.5
±
2.5、44.6
±
3.4、1.4
±
0.6；需要注意的是，较高的fma和bbs评分以及较低的mas评分表明康复有所改善，因此，本康复训练系统对偏瘫患者有着明显的康复效果。
[0097]
本发明提供了一种用于偏瘫康复的机器人强化学习镜像训练控制系统，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

技术特征：
1.一种用于偏瘫康复的机器人强化学习镜像训练控制系统，其特征在于，包括主动机器人与从动机器人，所述主动机器人穿戴于患者健康侧肢体，通过参考阻抗模型自适应控制；所述从动机器人穿戴于患者瘫痪侧肢体，采用强化学习控制。2.如权利要求1所述的系统，其特征在于，所述系统的动力学模型公式为：2.如权利要求1所述的系统，其特征在于，所述系统的动力学模型公式为：其中q
i
为机器人关节位置坐标，表示n维实数矩阵,i＝m,s，m表示主动机器人，i表示从动机器人，q
m
表示主动机器人关节位置坐标，q
i
表示从动机器人关节位置坐标，n表示机器人关节个数，和分别表示主动机器人的关节速度和加速度；和分别表示从动机器人的关节速度和加速度；m
m
(q
m
)表示主动机器人惯性矩阵，表示主动机器人向心力矩和科里奥利力矩矩阵，为主动机器人重力力矩，为主动机器人摩擦力矩，表示主动机器人的执行器产生的机器人力矩；m
s
(q
s
)表示从动机器人惯性矩阵，表示从动机器人向心力矩和科里奥利力矩矩阵，为从动机器人重力力矩，为从动机器人摩擦力矩，表示从动机器人的执行器产生的机器人力矩；表示主动机器人与健康侧肢体之间的交互力矩，表示从动机器人与瘫痪侧肢体之间的交互力矩。3.如权利要求2所述的系统，其特征在于，所述主动机器人的关节位置和速度信息经过时间延迟t
m
传输给从动机器人，从而带动瘫痪侧肢体跟随运动；所述从动机器人和瘫痪侧肢体之间的交互力矩经过时间延迟t
s
传输给主动机器人，表示为：q
sd
(t)＝k
q
q
m
(t-t
m
)τ
fld
(t)＝k
q
τ
il
(t-t
s
)其中t表示当前时刻，是当前时刻从动机器人的期望位置，是当前时刻从动机器人的期望速度，是从瘫痪侧传递到健康侧的相互作用扭矩，k
q
＝diag(k
q1
,
…
,k
qn
)表示镜像矩阵，diag函数用于构造一个对角矩阵，k
qn
表示镜像矩阵k
q
中第q行第n列的元素；为适应健康侧和瘫痪侧之间的镜像效应，k
q1
～k
qn
取值为1或-1。4.如权利要求3所述的系统，其特征在于，所述参考阻抗模型的公式为：其中m
md
、b
md
和k
md
分别表示主动机器人的期望惯性、阻尼和刚度矩阵，是参考阻抗模型的输出，表示期望位置，因此和分别表示主动机器人的期望速度和加速度。5.如权利要求4所述的系统，其特征在于，所述参考阻抗模型接收主动机器人、从动机器人与健康侧、瘫痪侧肢体的交互力矩，生成主动机器人的理想运动轨迹，此时，患者健康
侧肢体能够通过施加肌肉力调节主动机器人的运动轨迹。6.如权利要求5所述的系统，其特征在于，所述主动机器人的控制器目标为跟踪由参考阻抗模型产生的主动机器人的理想运动轨迹，建立滑模变量s
m
。7.如权利要求6所述的系统，其特征在于，所述滑模变量s
m
表示为：其中其中表示主动机器人实际位置与期望位置之间的误差，λ1为常数，为常数，表示主动机器人实际速度与期望速度之间的误差；主动机器人的估计加速度为：其中λ2是常数。8.如权利要求7所述的系统，其特征在于，在关节空间所述主动机器人的控制器公式为：9.如权利要求8所述的系统，其特征在于，所述从动机器人通过强化学习控制器实现强化学习控制，所述强化学习控制器包括状态s、动作a和奖励r，其中，状态s包括机器人状态和患者肢体状态，公式为：s＝[s
r
,s
h
]
t
其中s
r
表示机器人状态，s
h
表示患者肢体状态，t表示矩阵转置；所述机器人状态包括关节位置和关节速度，公式为：其中q
mi
为主动机器人第i个关节的位置，i＝1,2,,
…
,n，q
si
为从动机器人第i个关节的位置，为主动机器人第i个关节的关节速度，为从动机器人第i个关节的关节速度；所述患者肢体状态包括通过皮肤表面肌电信号幅值来表征，公式为：s
h
＝[e
hl1
…
e
hlk
,e
il1
…
e
ilk
]
t
其中e
hli
表示健康侧第i块肌肉的肌电信号幅值，i＝1,2...,k,k为被测肌肉数量，e
ili
为瘫痪侧第i块肌肉的肌电信号幅值；所述动作a为从动机器人关节驱动器输出力矩，公式为：a＝[τ
s1
…
τ
sn
]
t
其中，τ
sn
表示从动侧第n个关节的执行器扭矩。10.如权利要求9所述的系统，其特征在于，所述强化学习控制器的奖励函数的构建目标是使患者瘫痪侧肢体的肌肉激活度最大、使主动机器人和从动机器人之间的轨迹跟踪误差最小、从动机器人的加速度最小，同时将用户的情绪纳入强化学习控制器，作为额外的影响因子实时控制康复训练运动强度，所述奖励函数r公式为：其中λ是表示跟踪误差项在奖励函数中的权重的对角线正矩阵，q
sd
表示从动机器人的
期望位置，表示从动机器人的期望加速度，γ
ei
是平衡第i个被测肌肉肌电图信号贡献的权重值，e
fli
表示患者健康肢体的肌肉激活程度，e
ili
表示患者患侧肢体的肌肉激活程度；v
fer
为患者情绪识别结果常数，当患者表现出积极的面部表情时，v
fer
>0；当患者表现出消极的面部表情时，v
fer
<0；表示从动机器人对于患侧肢体的作用力，γ
u
和γ
a
分别为机器人驱动力矩与加速度的权重值。

技术总结
本发明提供了一种用于偏瘫康复的机器人强化学习镜像训练控制系统，采用可穿戴双侧主从动康复机器人辅助偏瘫患者进行康复训练，主动机器人穿戴于患者健康侧肢体，采用模型参考自适应阻抗控制；从动机器人穿戴于患者瘫痪侧肢体，采用强化学习控制。主动机器人的运动数据传递至从动机器人，使得偏瘫患者的瘫痪侧肢体可以在机器人的辅助下模仿健康侧肢体动作，自主完成康复训练。患者可以通过自身肌肉力量来调整健康侧和瘫痪侧机器人的运动，获得更加舒适恰当的康复训练运动强度。本发明可以在保证患者安全的前提下，有效地提高瘫痪侧肢体的肌肉激活程度，提升偏瘫患者康复疗效。提升偏瘫患者康复疗效。提升偏瘫患者康复疗效。

技术研发人员：徐嘉骏赵孟成黄恺真张添一吉爱红
受保护的技术使用者：南京航空航天大学
技术研发日：2023.05.25
技术公布日：2023/8/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：茶灵芝的栽培方法与流程 下一篇：一种逆变器自检方法与流程

一种用于偏瘫康复的机器人强化学习镜像训练控制系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种用于偏瘫康复的机器人强化学习镜像训练控制系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表