一种基于深度强化学习干扰估计器的高性能抗干扰方法

未命名 10-19 阅读：116 评论：0

1.本发明属于抗干扰技术领域，具体涉及一种基于深度强化学习干扰估计器的高性能抗干扰方法。

背景技术：

2.在数控机床、工业机器人、裁床、雕刻机等各类自动化设备机械加工过程中，加工精度都会受负载惯量变化、刀具磨损、不确定性外力及模型不确定性等扰动影响。抗干扰技术作为机械加工的关键技术之一，如何有效抑制扰动是提高控制精度关键。另一方面，测量噪声对加工性能的影响同样不可忽视，噪声过度放大会降低控制性能。因此，如何实现抑制扰动同时弱化噪声的影响是机械加工的关键，对提升加工精度和系统性能，从而满足高端制造的精度需求具有重要实际意义。
3.一种有效解决方案是将控制系统的负载惯量变化、外部扰动等影响视为系统总和扰动，并利用干扰估计技术对其进行估计与补偿。在过去的几十年里，人们提出了几种基于观测器的主动抗干扰技术，例如，扰动观测器、未知输入观测器、扩张状态观测器和等价输入干扰(equivalent-input-disturbance,eid)方法。其中，基于等价输入干扰方法设计简单，且不需被控对象的逆动力学模型以及扰动信息模型，被成功地应用于各种扰动抑制。
4.值得注意的是，当系统存在测量噪声时，基于观测器的扰动估计性能势必会受到噪声影响。对于基于等价输入干扰估计器的闭环控制系统，可以通过调节观测器增益提高扰动抑制性能；高观测器增益可获得高精扰动抑制性能，然而同时也会过度放大噪声。因此，扰动抑制与噪声衰减是一对矛盾问题，需根据不同的控制需求权衡扰动抑制与噪声衰减。根据扰动作用形式不同，扰动可分为突变扰动和慢变扰动。对于突变扰动，需要快速估计干扰并补偿；对于慢变扰动，在扰动抑制同时需尽可能避免噪声放大。
5.因此，考虑自动化装备控制系统存在扰动和测量噪声，设计一种高性能自适应的基于深度强化学习干扰估计器的抗干扰方法，进而提高机械加工精度尤为重要。

技术实现要素：

6.为了减小机械加工过程中控制系统负载惯量变化、外部扰动等因素对运动控制的性能影响，同时考虑测量噪声对扰动估计精度和系统性能的影响，本技术基于等价输入干扰估计器，提出了一种基于深度强化学习干扰估计器的高性能抗干扰方法，设计了一种基于深度强化学习的自适应滤波器结构，通过深度强化学习方法在时变扰动及不确定测量噪声环境下自动学习滤波器增益，针对突变扰动可快速重构扰动信号，在慢变扰动时可有效抑制噪声放大，从而有效提高运动控制系统的综合性能，进而实现机械加工过程中的高精控制。
7.为实现上述目的，本发明所采取的技术方案是：一种基于深度强化学习干扰估计器的高性能抗干扰方法，应用于运动控制系统，所述基于深度强化学习干扰估计器的高性能抗干扰方法，包括：
8.建立运动控制系统的等价输入干扰状态空间模型；
9.设计状态观测器，根据运动控制系统的系统输出y(k)和所述状态观测器的状态观测器增益l得到状态观测值
10.设计内模系统，并根据运动控制系统的等价输入干扰状态空间模型和内模系统建立运动控制系统的状态反馈控制器，所述状态反馈控制器根据内模系统的状态xi(k)和状态观测值得到状态反馈输出uf(k)，公式表示如下；
[0011][0012]
其中，k为采样时刻，且k＝1,2,3
…
为正整数，ki为内模系统的状态xi(k)的反馈增益，k
p
为状态观测值的反馈增益；
[0013]
设计深度强化学习干扰估计器，所述深度强化学习干扰估计器包括等价输入干扰估计器和滤波器f(z)；
[0014]
所述等价输入干扰估计器根据观测器增益l、状态反馈输出uf(k)和系统控制输入u(k)得到总和扰动估计值
[0015]
基于深度强化学习调整所述滤波器的滤波器增益；
[0016]
深度强化学习干扰估计器的最终输出为表示对总和扰动估计值滤波后的扰动估计值，采用公式表示如下：
[0017][0018][0019][0020]
式中，z[]和z-1
[]分别代表z变换和z逆变换，和分别表示扰动估计值和总和扰动估计值的z变换；
[0021]
基于扰动估计值在状态反馈控制输出uf(k)中加入对其的负补偿量，得到带有扰动补偿的系统控制输入表示如下：
[0022][0023]
其中，u(k)表示运动控制系统的系统控制输入。
[0024]
进一步的，所述建立运动控制系统的等价输入干扰状态空间模型，包括：
[0025]
将运动控制系统表示为：
[0026][0027]
式中，x(k)＝[x
1 x2]表示k时刻的运动控制系统的系统状态，x1和x2分别为系统位置和速度，x(k+1)表示k+1时刻的运动控制系统的系统状态，u(k)为运动控制系统的系统控制输入，y(k)为运动控制系统的系统输出，v(k)为传感器测量噪声，a,b,c是具有系统阶数相同维度的系统矩阵，d(k)表示外部扰动，bd表示外部扰动对应的增益矩阵，公式(6)满足约束条件：(a,b,c)构成的运动控制系统具有能观性和能控性；
[0028]
引入等价输入干扰概念，定义de(k)为运动控制系统的等价输入干扰，即de(k)对系统输出产生的影响等价外部扰动d(k)对系统输出y(k)的影响，则改写运动控制系统为：
[0029][0030]
得到运动控制系统的等价输入干扰状态空间模型。
[0031]
进一步的，所述设计状态观测器，包括：
[0032]
设计状态观测器为：
[0033][0034]
式中，表示k+1时刻的状态观测值，a,b,c是具有系统阶数相同维度的系统矩阵，为系统输出y(k)的观测值，l为状态观测器增益。
[0035]
进一步的，所述滤波器采用公式表示如下：
[0036][0037]
式中，z为z变换算子，e为指数函数，t为运动控制系统的采样周期，ωa为截止角频率，φa为滤波器增益。
[0038]
进一步的，所述基于深度强化学习调整所述滤波器的滤波器增益，包括：
[0039]
采用深度q网络在给定干扰和随机传感器测量噪声环境下进行滤波器增益学习；
[0040]
所述深度q网络的状态空间、动作空间、奖励函数设计如下：
[0041]
s(k)＝[y(k)-r(k),x(k),φa(k)]
[0042]
e＝{-e
l
,0,eu},e∈(0,1)
[0043]
φa(k+1)＝φa(k)+a(k),a(k)∈e
[0044]
φa(k)∈(φ
min
,φ
max
)
[0045]
re＝-β
×
abs(y
k-rk)+(φa(k)-φ
min
)
[0046]
式中，s(k)为状态空间，r(k)为输入信号，y(k)为运动控制系统的系统输出，y(k)-r(k)为轨迹跟踪误差，φa(k)表示第k个控制周期的滤波器增益，φa(k+1)表示第k+1个控制周期的滤波器增益，e为动作空间，a(k)表示动作，包含增益φa(k)减速、保持、加速动作，e
l
表示减小值、eu表示增大值，φ
max
、φ
min
表示φa(k)的上、下界，re为奖励函数，abs表示绝对值函数，β为权重参数，设定为正常数，abs(y
k-rk)表示输出误差绝对值，φa(k)-φmin表示关联噪声抑制指标。
[0047]
进一步的，滤波器f(z)采用深度q网络学习调整滤波器增益φa的步骤包括：
[0048]
步骤1：用随机网络参数ω初始化网络q
ω
(s(k),a(k))，复制相同的参数ω-←
ω来初始化目标网络初始化经验回放池r，选取折扣因子γ，探索概率ε；
[0049]
步骤2：从状态空间中选择状态；
[0050]
步骤3：随机生成阈值ra∈[01]，若ra≤ε，选取动作序号argmaxq
ω
(s(k),a(k))，执行动作a(k)；否则，随机选取动作序号，执行动作a(k)；
[0051]
步骤4：调整滤波器增益φa(k+1)＝φa(k)+a(k)；
[0052]
步骤5：计算奖励re＝-β
×
abs(y
k-rk)+(φa(k)-φ
min
)，状态变为s(k+1)；
[0053]
步骤6：将{s(k),a(k),r(k),s(k+1)}存储到经验池r中；
[0054]
步骤7：若r中数据达到数量阈值，从中选取m个数据{s(i),a(i),r(i),s(i+1)}
i＝1,...,m
，对每个数据用目标网络计算临时项随后，最小化目标损失函数更新当前网络q
ω
；
[0055]
步骤8：间隔m次采样后，复制相同的参数ω-←
ω来更新目标网络
[0056]
进一步的，所述内模系统用公式表示如下：
[0057]
xi(k+1)＝aixi(k)+bi[r(k)-y(k)]
[0058]
式中，xi(k+1)表示k+1时刻的内模系统的状态，ai和bi为具有内模系统阶数相同维度的系统矩阵。
[0059]
与现有技术相比，本发明的有益效果为：通过在系统控制输入u(k)中加入对扰动估计的补偿，可有效主动抑制系统总和扰动影响，且扰动估计值中包含了对系统扰动和噪声影响的综合性能权衡，最终实现自动化装备的高精跟踪控制。
附图说明
[0060]
图1为本发明中基于强化学习的等价输入干扰估计器的框架图；
[0061]
图2为本发明加入的系统总和扰动和测量噪声的示意图；
[0062]
图3为本发明强化学习迭代曲线图；
[0063]
图4为本发明滤波器增益φa变化图；
[0064]
图5为本发明扰动估计对比图；
[0065]
图6为本发明输出误差对比图。
具体实施方式
[0066]
为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本技术，并不用于限定本技术。
[0067]
在一个实施例中，如图1所示，提出了一种基于深度强化学习干扰估计器的高性能抗干扰系统，用于机械加工过程中的轨迹跟踪控制，包括：输入信号内模、状态反馈控制器、等价输入干扰估计器和状态观测器。所述输入信号内模，用于对输入信号进行处理，其处理过程通过如下公式表示：
[0068]
xi(k+1)＝aixi(k)+bi[r(k)-y(k)] (1)
[0069]
式中，k为采样时刻，且k＝1,2,3
…
为正整数，xi(k)为系统的内模状态，r(k)为输入信号，y(k)为系统输出，ai和bi为内模矩阵；
[0070]
所述状态反馈控制器，采用极点配置法计算得到状态反馈增益，进而计算得到状态反馈输出uf(k)，采用公式表示如下：
[0071][0072]
式中，ki、k
p
代表状态反馈增益，表示系统状态x(k)的观测值。
[0073]
所述状态观测器，用于运动控制系统的系统状态的观测估计，采用公式表示如下：
[0074][0075]
式中，表示x(k)的观测值，表示系统输出y(k)的观测值，l表示状态观测器增益，uf(k)为状态反馈输出，a,b,c是系统矩阵。
[0076]
所述等价输入干扰估计器，用于对由各种外部扰动组成的总和扰动进行估计，得到总和扰动估计值采用公式如下：
[0077][0078]
式中，表示系统状态x(k)的观测值，b
+
表示穆尔-彭罗斯广义逆矩阵，即b
+
＝(b
t
b)-1bt
，u(k)为控制输入，uf(k)为状态反馈输出，为观测误差，v(k)为系统的测量噪声。
[0079]
所述等价输入干扰估计器最终输出为表示对总和扰动滤波后的扰动估计值，其中滤波器表示为f(z)；则滤波后的扰动估计值采用公式表示如下：
[0080][0081][0082][0083]
式中，z[]和z-1
[]分别代表z变换和z逆变换，和分别表示和的z变换。
[0084]
所述滤波器f(z)，设计了一种基于深度强化学习的智能化学习机制，可根据扰动特征和测量噪声自适应调整滤波器带宽，采用公式表示如下：
[0085][0086]
式中，z为z变换算子，e为指数函数，t为系统的采样周期，ωa为截止角频率，φa为滤波器增益。调整φa可改变系统控制性能从而自适应调整扰动估计和噪声衰减能力。
[0087]
进一步，采用深度q网络学习调整滤波器f(z)增益φa。该方法的状态空间、动作空间、奖励函数设计如下：
[0088]
s(k)＝[y(k)-r(k),x(k),φa(k)] (9)
[0089][0090]
re＝-β
×
abs(y
k-rk)+(φa(k)-φ
min
) (11)
[0091]
s(k)为状态空间，r(k)为输入信号，y(k)为运动控制系统的系统输出，y(k)-r(k)为轨迹跟踪误差，φa(k)表示第k个控制周期滤波器增益；e为动作空间，a(k)表示动作，包含增益φa(k)减速、保持、加速动作，e
l
表示减小值、eu表示增大值，φ
max
、φ
min
表示φa(k)的上、下界，φ
max
一般可设为1。当系统存在突变干扰时，可通过减速动作减小φa(k)，从而提高扰动估计精度并增加闭环系统稳定裕度；相反，当系统更多关注噪声抑制性能时，加速动
作可以增大φa(k)从而消除测量噪声。当系统控制性能良好时，可选择保持动作维持φa(k)不变。re为奖励函数，abs表示绝对值函数，β为权重参数，设定为正常数；第一项abs(y
k-rk)表示输出误差绝对值，是扰动抑制效果的直接体现，其值越小说明扰动重构精度越高；第二项φa(k)-φmin表示关联噪声抑制指标。
[0092]
滤波器f(z)采用深度q网络学习调整滤波器增益φa的步骤如下：
[0093][0094]
综上，可得具有扰动补偿及噪声抑制项的系统控制输入u(k)表示如下：
[0095][0096]
因此，通过在系统控制输入u(k)中加入对扰动估计的补偿，可有效主动抑制系统总和扰动影响，且扰动估计值中包含了对系统扰动和噪声影响的综合性能权衡，最终实现自动化装备的高精跟踪控制。
[0097]
在另一个实施例中，基于深度强化学习干扰估计器的高性能抗干扰系统，运行一种基于深度强化学习干扰估计器的高性能抗干扰方法，具体步骤如下：
[0098]
步骤s1：建立运动控制系统的等价输入干扰状态空间模型。
[0099]
首先，将运动控制系统表示为：
[0100][0101]
式中，x(k)＝[x
1 x2]表示公式(13)所述系统状态，x1和x2分别为系统位置和速度，u(k)为系统控制输入，y(k)为系统输出，v(k)为传感器测量噪声，a,b,c是具有系统阶数相同维度的系统矩阵，d(k)表示由负载惯量变化、刀具磨损、不确定性外力及模型不确定性等带来的外部扰动，bd表示外部扰动对应的增益矩阵。公式(13)满足条件：(a,b,c)构成的系统具有能观性和能控性。
[0102]
其次，引入等价输入干扰概念，定义de(k)为公式(13)的等价输入干扰，即de(k)对系统输出产生的影响等价外部扰动d(k)对系统输出y(k)的影响。则，可得到等价运动控制系统为：
[0103][0104]
步骤s2：设计状态观测器，实现系统的稳定状态估计。
[0105]
设计状态观测器为：
[0106][0107]
式中，表示系统状态的观测值，y(k)为系统输出，为系统输出的观测值，uf(k)为状态反馈输出，l为状态观测器增益。
[0108]
随后，利用极点配置设计状态观测器增益l，实现观测器稳定化设计。
[0109]
步骤s3：深度强化学习干扰估计器，包括等价输入干扰估计器和滤波器，实现精确扰动估计。
[0110]
等价输入干扰估计器用于对由各种外部扰动组成的总和扰动进行估计，得到总和扰动估计值采用公式如下：
[0111][0112]
式中，b
+
表示穆尔-彭罗斯广义逆矩阵，即b
+
＝(b
t
b)-1bt
，u(k)为系统控制输入，为观测误差，表示状态x(k)的观测值，v(k)为测量噪声，uf(k)为状态反馈输出。
[0113]
由分析可知，公式(16)中计算当前需要利用当前时刻的控制输入u(k)，而控制输入u(k)的计算又与有关联，存在因果关系问题。因此，设计如下形式滤波器f(z)，采用公式：
[0114][0115]
式中，t为系统的采样周期，e为指数函数，ωa为截止角频率，φa为滤波器增益。调整φa可改变系统控制性能从而自适应调整扰动估计和噪声衰减能力。
[0116][0117][0118][0119]
式中，z[]和z-1
[]分别代表z变换和z逆变换，表示滤波后的扰动估计值。根据公式(18)，且令f(z)≈1则有：
[0120][0121]
那么，可使得
[0122][0123]
从而，实现总和扰动信号的精确估计。
[0124]
步骤s4：设计基于深度强化学习的滤波器增益调整机制，在高精扰动估计同时有效消除噪声影响。
[0125]
进一步，为权衡扰动估计与噪声衰减问题，可通过调整φa实现扰动抑制和噪声衰减的不同侧重。于是，采用深度q网络在给定扰动和随机测量噪声(如图2所示)环境下进行φa学习，干扰d(t)用公式表示如下：
[0126][0127]
式中，n表示自然数，i＝1,2,
…
,n，d(t)由两组干扰信号累加组成，分别是d1(t)和d2(t)，a
d1
、a
d2
代表幅值，t表示系统时间；则d(k)为干扰d(t)的离散采样信号；测量噪声v(k)＝150random[-11]
×
10-6
，random[-11]代表[-1 1]之间的随机数。
[0128]
再者，深度q网络的状态空间、动作空间、奖励函数设计如下：
[0129]
s(k)＝[y(k)-r(k),x(k),φa(k)] (24)
[0130][0131]
re＝-β
×
abs(y
k-rk)+(φa(k)-φ
min
) (26)
[0132]
s(k)为状态空间，r(k)为输入信号，y(k)为运动控制系统的系统输出，y(k)-r(k)为轨迹跟踪误差，φa(k)表示第k个控制周期滤波器增益；e为动作空间，a(k)表示动作，包含增益φa(k)减速、保持、加速动作，e
l
表示减小值、eu表示增大值，φ
max
、φ
min
表示φa(k)的上、下界，φ
max
一般可设为1。当系统存在突变干扰时，可通过减速动作减小φa(k)，从而提高扰动估计精度并增加闭环系统稳定裕度；相反，当系统更多关注噪声抑制性能时，加速动作可以增大φa(k)从而消除测量噪声。当系统控制性能良好时，可选择保持动作维持φa(k)不变。re为奖励函数，abs表示绝对值函数，β为权重参数，设定为正常数；第一项abs(y
k-rk)表示输出误差绝对值，是扰动抑制效果的直接体现，其值越小说明扰动重构精度越高；第二项φa(k)-φmin关联噪声抑制指标。
[0133]
训练流程如下：
[0134][0135][0136]
通过上述步骤，滤波器可自动权衡扰动抑制和噪声衰减，利用滤波器增益调整后的滤波器根据总和扰动估计值输出扰动估计值根据式(16)-(20)可计算各控制周期扰动估计值
[0137]
步骤s5：设计状态反馈控制器，实现系统的稳定跟踪控制。
[0138]
给定参考输入r(k)，采用输入信号内模提高轨迹跟踪精度，设计内模系统如下：
[0139]
xi(k+1)＝aixi(k)+bi[r(k)-y(k)] (27)
[0140]
式中，xi(k)为内模系统状态，y(k)为系统输出，ai和bi为具有内模系统阶数相同维度的系统矩阵；
[0141]
联合式(14)和式(27)，由此可得运动控制系统的状态反馈控制具体形式为：
[0142]
[0143]
采用极点配置方法设计状态反馈控制器增益ki和k
p
，其中ki为内模系统状态xi(k)的反馈增益，k
p
为状态观测器系统状态的反馈增益，则状态反馈输出uf(k)可以表示为：
[0144][0145]
步骤s6：设计带有扰动补偿的控制输入，实现基于深度强化学习抗干扰的鲁棒控制策略。
[0146]
基于扰动估计在状态反馈控制输出uf(k)中加入对其的负补偿量，得到带有扰动补偿的运动控制系统控制输入u(k)为：
[0147][0148]
从而，基于所提出的基于深度强化学习干扰估计器的智能化抗干扰方法，通过对系统总和扰动的有效补偿和测量噪声的有效抑制，实现高精度跟踪控制。
[0149]
下面通过跟踪直线轨迹案例验证方法的有效性及优越性。
[0150]
运动控制系统矩阵b＝[04.41]
t
，c＝[10]，控制系统总和扰动和测量噪声如图2所示。根据式(29)，运动控制系统的内模设定为bi＝[01]
t
。此外，控制周期h＝10ms，配置等价输入干扰估计参数为l＝[1.32 27.28]，观测器极点poles＝[-200-200]，滤波器参数ωa＝100，状态反馈增益k＝[244.482.50]。配置改进滤波器强化学习动作调整参数e
l
＝eu＝0.1，滤波器增益最小值φ
min
＝0.4，最大值φ
max
＝1，奖励权重项β＝400，深度q网络经验池r＝10000，探索率ε＝0.9，折扣因子γ＝0.9，记忆库每次提取数据n＝64，交换频率m＝1000，学习时长8秒，每隔4个控制周期学习一次。采用“等价输入干扰器”对比验证算法的有效性及优越性，10次迭代的奖励函数均值曲线如图3所示，横坐标表示迭代次数，纵坐标表示累计奖励，图3表明了所提算法的收敛性。滤波器增益自适应调整结果如图4所示，增益可根据总和扰动的快变及慢变特征进行自适应调整；扰动估计对比图如图5所示，输出误差对比图如图6所示。由图5和图6可知，同时受到外部扰动运动控制系统在上述两种控制策略下均能有效抑制扰动抑制与衰减噪声，并具有较高的控制精度。经对比说明，本发明“基于深度强化学习干扰估计器的高性能抗干扰方法”相比传统的“基于等价输入干扰估计器的控制方法”而言在突变扰动时具有较好的扰动抑制效果，而在慢变扰动时对噪声的抑制效果良好。在实际应用中，可根据不同的侧重调节控制效果，从而能够有效提高运动控制系统的轨迹跟踪控制性能，实现高精跟踪控制。
[0151]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

技术特征：
1.一种基于深度强化学习干扰估计器的高性能抗干扰方法，应用于运动控制系统，其特征在于，所述基于深度强化学习干扰估计器的高性能抗干扰方法，包括：建立运动控制系统的等价输入干扰状态空间模型；设计状态观测器，根据运动控制系统的系统输出y(k)和所述状态观测器的状态观测器增益l得到状态观测值设计内模系统，并根据运动控制系统的等价输入干扰状态空间模型和内模系统建立运动控制系统的状态反馈控制器，所述状态反馈控制器根据内模系统的状态x
i
(k)和状态观测值得到状态反馈输出u
f
(k)，公式表示如下；其中，k为采样时刻，且k＝1,2,3
…
为正整数，k
i
为内模系统的状态x
i
(k)的反馈增益，k
p
为状态观测值的反馈增益；设计深度强化学习干扰估计器，所述深度强化学习干扰估计器包括等价输入干扰估计器和滤波器f(z)；所述等价输入干扰估计器根据观测器增益l、状态反馈输出u
f
(k)和系统控制输入u(k)得到总和扰动估计值基于深度强化学习调整所述滤波器的滤波器增益；深度强化学习干扰估计器的最终输出为表示对总和扰动估计值滤波后的扰动估计值，采用公式表示如下：采用公式表示如下：采用公式表示如下：式中，z[]和z-1
[]分别代表z变换和z逆变换，和分别表示扰动估计值和总和扰动估计值的z变换；基于扰动估计值在状态反馈控制输出u
f
(k)中加入对其的负补偿量，得到带有扰动补偿的系统控制输入表示如下：其中，u(k)表示运动控制系统的系统控制输入。2.根据权利要求1所述的基于深度强化学习干扰估计器的高性能抗干扰方法，其特征在于，所述建立运动控制系统的等价输入干扰状态空间模型，包括：将运动控制系统表示为：式中，x(k)＝[x
1 x2]表示k时刻的运动控制系统的系统状态，x1和x2分别为系统位置和速度，x(k+1)表示k+1时刻的运动控制系统的系统状态，u(k)为运动控制系统的系统控制输
入，y(k)为运动控制系统的系统输出，v(k)为传感器测量噪声，a,b,c是具有系统阶数相同维度的系统矩阵，d(k)表示外部扰动，b
d
表示外部扰动对应的增益矩阵，公式满足约束条件：(a,b,c)构成的运动控制系统具有能观性和能控性；引入等价输入干扰概念，定义d
e
(k)为运动控制系统的等价输入干扰，即d
e
(k)对系统输出产生的影响等价外部扰动d(k)对系统输出y(k)的影响，则改写运动控制系统为：得到运动控制系统的等价输入干扰状态空间模型。3.根据权利要求1所述的基于深度强化学习干扰估计器的高性能抗干扰方法，其特征在于，所述设计状态观测器，包括：设计状态观测器为：式中，表示k+1时刻的状态观测值，a,b,c是具有系统阶数相同维度的系统矩阵，为系统输出y(k)的观测值，l为状态观测器增益。4.根据权利要求1所述的基于深度强化学习干扰估计器的高性能抗干扰方法，其特征在于，所述滤波器采用公式表示如下：式中，z为z变换算子，e为指数函数，t为运动控制系统的采样周期，ω
a
为截止角频率，φ
a
为滤波器增益。5.根据权利要求1所述的基于深度强化学习干扰估计器的高性能抗干扰方法，其特征在于，所述基于深度强化学习调整所述滤波器的滤波器增益，包括：采用深度q网络在给定干扰和随机传感器测量噪声环境下进行滤波器增益学习；所述深度q网络的状态空间、动作空间、奖励函数设计如下：s(k)＝[y(k)-r(k),x(k),φ
a
(k)]e＝{-e
l
,0,e
u
},e∈(0,1)φ
a
(k+1)＝φ
a
(k)+a(k),a(k)∈eφ
a
(k)∈(φ
min
,φ
max
)r
e
＝-β
×
abs(y
k-r
k
)+(φ
a
(k)-φ
min
)式中，s(k)为状态空间，r(k)为输入信号，y(k)为运动控制系统的系统输出，y(k)-r(k)为轨迹跟踪误差，φ
a
(k)表示第k个控制周期的滤波器增益，φ
a
(k+1)表示第k+1个控制周期的滤波器增益，e为动作空间，a(k)表示动作，包含增益φ
a
(k)减速、保持、加速动作，e
l
表示减小值、e
u
表示增大值，φ
max
、φ
min
表示φ
a
(k)的上、下界，r
e
为奖励函数，abs表示绝对值函数，β为权重参数，设定为正常数，abs(y
k-r
k
)表示输出误差绝对值，φ
a
(k)-φmin表示关联噪声抑制指标。6.根据权利要求5所述的基于深度强化学习干扰估计器的高性能抗干扰方法，其特征在于，滤波器f(z)采用深度q网络学习调整滤波器增益φ
a
的步骤包括：
步骤1：用随机网络参数ω初始化网络q
ω
(s(k),a(k))，复制相同的参数ω-←
ω来初始化目标网络初始化经验回放池r，选取折扣因子γ，探索概率ε；步骤2：从状态空间中选择状态；步骤3：随机生成阈值r
a
∈[0 1]，若r
a
≤ε，选取动作序号argmaxq
ω
(s(k),a(k))，执行动作a(k)；否则，随机选取动作序号，执行动作a(k)；步骤4：调整滤波器增益φ
a
(k+1)＝φ
a
(k)+a(k)；步骤5：计算奖励r
e
＝-β
×
abs(y
k-r
k
)+(φ
a
(k)-φ
min
)，状态变为s(k+1)；步骤6：将{s(k),a(k),r(k),s(k+1)}存储到经验池r中；步骤7：若r中数据达到数量阈值，从中选取m个数据{s(i),a(i),r(i),s(i+1)}
i＝1,...,m
，对每个数据用目标网络计算临时项随后，最小化目标损失函数更新当前网络q
ω
；步骤8：间隔m次采样后，复制相同的参数ω-←
ω来更新目标网络7.根据权利要求5所述的基于深度强化学习干扰估计器的高性能抗干扰方法，其特征在于，所述内模系统用公式表示如下：x
i
(k+1)＝a
i
x
i
(k)+b
i
[r(k)-y(k)]式中，x
i
(k+1)表示k+1时刻的内模系统的状态，a
i
和b
i
为具有内模系统阶数相同维度的系统矩阵。

技术总结
本发明属于抗干扰技术领域，具体涉及一种基于深度强化学习干扰估计器的高性能抗干扰方法。该控制器包括：输入信号内模、状态反馈控制器、等价输入干扰估计器和状态观测器，所述等价输入干扰估计器，用于对控制系统总和扰动进行估计，通过在系统控制输入中加入对扰动估计的补偿，可有效主动抑制系统总和扰动影响，所述滤波器采用深度Q网络学习调整增益，可改变系统控制性能从而自适应调整扰动估计和噪声衰减能力。本发明通过深度强化学习方法在时变扰动及不确定测量噪声环境下自动学习滤波器增益，针对突变扰动可快速重构扰动信号，在慢变扰动时可有效抑制噪声放大，从而有效提高运动控制系统的综合性能，进而实现机械加工过程中的高精控制。程中的高精控制。程中的高精控制。

技术研发人员：吴祥林文杰黄光普徐轲董辉郭方洪陈积明
受保护的技术使用者：浙江工业大学
技术研发日：2023.07.17
技术公布日：2023/10/15

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于深度强化学习干扰估计器的高性能抗干扰方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度强化学习干扰估计器的高性能抗干扰方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表