一种基于强化学习的失效航天器姿态调整方法与流程

未命名 07-04 阅读：128 评论：0

1.本发明涉及控制系统的强化学习控制技术领域，特别涉及一种基于强化学习的失效航天器姿态快速调整方法。

背景技术：

2.自1957年第1颗人造航天器升空以来，航天器应用与人类社会的发展愈加紧密，但随着进入外层空间物体数量的不断增加，空间碎片环境问题也越发突出。而失效航天器是近地轨道空间碎片的重要产生来源，航天器失效后将长期滞留太空占用轨道资源，并极有可能引发大量碎片产生，造成严重事故，甚至导致链式反应，给空间高价值航天器和正常的航天器活动带来极为不利的影响。因此，迫切需要发展能够实现失效航天器全自主高可靠快速机动控制技术。
3.而目前在研的离轨帆、电动力绳、太阳帆、电推进等形式，其推力级别均在毫牛级别，机动性能差，轨道脱离时间长，当航天器质量较大或轨道较高时，其离轨时间较长，无法满足失效航天器快速处理要求。而固体推进系统可以在短时间内产生极大的总冲量，实现快速点火机动，且易于进行自主性功能模块扩展，在姿态失稳条件下通过全自主系统的高可靠自主机动决策，摆脱对航天器平台姿控能力的依赖，可实现机动过程的全自主性，是航天器全自主高可靠快速机动系统的理想选择。

技术实现要素：

4.本发明针对失效航天器在姿态运动演化前的快速姿态机动控制，提供一种基于强化学习的失效航天器姿态快速调整方法，克服了系统中存在的转动惯量等不确定性和外部扰动影响，确保系统高可靠快速进入末端姿态控制区域。
5.为了实现以上目的，本发明通过以下技术方案实现：
6.一种基于强化学习的失效航天器姿态快速调整方法，包括：步骤s1、基于航天器姿态末端约束，建立失效航天器姿态数学模型与约束模型。步骤s2、基于强化学习算法中的long-term性能指标函数，建立评判标准和critic网络。步骤s3、基于backstepping控制框架结合action网络和所述critic网络，建立自适应控制方法，以控制失效航天器进入末端约束域。
7.可选地，所述步骤s1包括：所述失效航天器姿态数学模型为失效航天器姿态动力学与运动学模型，其计算公式如下：
[0008][0009][0010]
其中，q＝col(qv,q4)为基于四元数的航天器状态描述，qv＝[q1,q2,q3]
t
，下标v表示四元数矢量部分，q1～q4分别表示航天器姿态四元数的四个分量；ω＝[ω
x
,ωy,ωz]
t
表
示航天器本体系b相对惯性系i的旋转角速度，ω
x
,ωy,ωz分别为航天器x,y,z轴的角速度，j表示航天器正定对称的转动惯量矩阵；τ,td分别为控制力矩、航天器受到的外部扰动及系统建模误差；in表示n维的单位矩阵，n＝3。
[0011]
可选地，所述失效航天器的约束模型包括：
[0012]
所述失效航天器末端约束根据所述失效航天器的推力器的安装布局和推力矢量，选择如下：
[0013]-qm≤q2≤qm[0014]-ωm≤ωy≤ωm[0015][0016]
其中，qm,ωm,g
min
,g
max
分别为第二个姿态四元数参数上限、俯仰角速度上限、第三个姿态四元数与偏航角速度之比的上限。
[0017]
通过椭球约束域使得上述约束因素同时满足，所述椭球约束域s2如下：
[0018][0019]
可选地，所述步骤s2包括：基于long-term性能指标函数如下：
[0020][0021]
其中，t＞0为小的强化学习积分步长；γ∈(0,1)为折扣因子；如果控制系统状态进入吸引域中，则控制目标实现，long-term性能指标函数j(t)不会增加；如果控制系统状态背离吸引域，则控制器应调节控制输出，使得控制系统状态朝着末端约束域、或者保持在约束域中；
[0022]
因此，期望的性能指标jd(t)＝0，定义p(s)为包含long-term性能指标；p(s(ξ))如下：
[0023][0024]
其中，s2(t)表示t时刻的椭球约束域，，s(ξ)表示ξ时刻的椭球约束域的平方根，ξ为积分的时间变量，c
p
＞0为需要设计的松弛因子；即：p(s(ξ))＝0表征好的控制输出，而p(s(ξ))＝1表明当前的控制输出较差；1意味着性能指标函数j(t)的持续增加，使得控制结果变差，航天器姿态背离末端约束域；而0意味着性能指标函数j(t)的持续减少，使得控制结果变好，航天器姿态进入末端约束域。
[0025]
可选地，所述步骤s2还包括：构建bellman误差方程，建立j(t-t)与j(t)之间的关系：
[0026]
j(t-t)＝γ-1
(j(t)+pc)
[0027]
其中，为性能指标函数在区间[t-t,t]上奖惩积分；
[0028]
采用时间差分法，完成critic网络的解算：
[0029][0030]
采用rbf神经网络进行估计，求解非线性的性能指标：
[0031][0032]
其中，hc(xc(t))为rbf非线性激活函数，定义xc(t)＝[s,q
vt
,ω
t
]
t
，s表示椭球约束域的平方根，表示理想网络权值的估计。
[0033]
根据backstepping控制框架，定义z2＝qv，z3＝ω-ωc，ωc为设计的虚拟控制量
[0034][0035]
其中，k1为正定对角阵。
[0036]
则rbf神经网络自适应律为：
[0037][0038][0039]
其中，为pc的估计值，δhc(t)＝hc(xc(t))-γhc(xc(t-t))，λc为正定对角的学习矩阵，为待设计的正常数；k＝[1,1,1]为矩阵维数的匹配矩阵。
[0040]
可选地，所述步骤s3包括：action神经网络自适应律为：
[0041][0042]
其中，λa为正定对角的学习速率矩阵，ka为待设计的正常数，ha(xa)表示为rbf非线性激活函数，表示理想网络权值的估计；
[0043]
基于强化学习的预置末端状态约束条件下的高可靠调姿控制律为：
[0044][0045][0046]
其中，定义为了减小在线估计的计算量，采用范数进行估计，得到k
θ
表示待设计的正常数，η为正定对角的学习矩阵，为待设计的正常数；
[0047]
本发明至少具有以下优点之一：
[0048]
本发明考虑航天器姿态末端约束，建立失效航天器姿态数学模型与约束模型，并基于强化学习算法中的long-term性能指标函数，提出评判标准，设计critic网络，可解决含非线性末端约束的航天器姿态机动控制问题。
[0049]
本发明根据backstepping控制框架，简化了控制器设计过程，并克服了系统中存在的转动惯量等不确定性和外部扰动影响，确保系统高可靠快速进入末端姿态控制区域，
确保系统稳定，增强了控制的鲁棒性，具有潜在的应用前景。
附图说明
[0050]
图1为本发明提供的一种基于强化学习的失效航天器姿态调整方法的流程图。
具体实施方式
[0051]
以下结合附图和具体实施方式对本发明提出的一种一种基于强化学习的失效航天器姿态调整方法作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需要说明的是，附图采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂，请参阅附图。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。
[0052]
本实施例考虑在失效航天器自演化阶段三轴角速度均较大的情况下，进行有限次大控制力矩快速姿态调整，通过预置姿态末端状态，并考虑失效航天器转动惯量等建模不确定性和外界干扰，设计一种基于强化学习的机动控制策略，旨在提出一种基于学习迭代智能算法。进一步可基于整型线性规划等控制分配寻优算法，实现失效航天器高可靠快速进入末端姿态控制区域，之后可通过推力器点火离轨。即本实施例提供一种基于强化学习的失效航天器姿态快速调整方法，克服了系统中存在的转动惯量等不确定性和外部扰动影响，确保系统高可靠快速进入末端姿态控制区域。
[0053]
如图1所示，本实施例提供一种基于强化学习的失效航天器姿态快速调整方法，包含以下步骤：
[0054]
步骤s1、考虑航天器姿态末端约束，建立失效航天器姿态数学模型与约束模型；
[0055]
根据假设条件及动力学原理，建立失效航天器姿态动力学与运动学模型为式(1)：
[0056][0057][0058]
其中，q＝col(qv,q4)为基于四元数的航天器状态描述，qv＝[q1,q2,q3]
t
，下标v表示四元数矢量部分，q1～q4分别表示航天器姿态四元数的四个分量。ω＝[ω
x
,ωy,ωz]
t
表示航天器本体系b相对惯性系i的旋转角速度，ω
x
,ωy,ωz分别为航天器x,y,z轴的角速度，j表示航天器正定对称的转动惯量矩阵；τ,td分别为控制力矩、航天器受到的外部扰动及系统建模误差。in表示n维的单位矩阵，在本实施例中，n＝3。
[0059]
对于任意向量χ＝[χ1χ2χ3]
t
，符号χ
×
表示如下的斜对称阵：
[0060][0061]
预置末端约束根据推力器的安装布局和推力矢量，选择如下：
[0062]-qm≤q2≤qm[0063]-ωm≤ωy≤ωmꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0064][0065]
其中，qm,ωm,g
min
,g
max
分别为第二个姿态四元数参数上限、俯仰角速度上限、第三个姿态四元数与偏航角速度之比的上限。为保障上述约束因素的同时满足，这里设计如下的椭球约束域。
[0066][0067]
为了便于后文描述，定义
[0068]
步骤s2、基于强化学习算法中的long-term性能指标函数，提出评判标准，设计critic网络；
[0069]
基于long-term性能指标函数，设计如下的目标函数：
[0070][0071]
其中，t＞0为小的强化学习积分步长。γ∈(0,1)为折扣因子。如果系统状态进入吸引域中，则控制目标实现，long-term性能指标函数j(t)不会增加。如果系统状态背离吸引域，则控制器应调节控制输出，使得系统状态朝着末端约束域、或者保持在约束域中。
[0072]
因此，期望的性能指标jd(t)＝0。定义p(s)为包含long-term性能指标。
[0073]
p(s(ξ))设计如下：
[0074][0075]
其中，s2(t)表示t时刻的椭球约束域，s(ξ)表示ξ时刻的椭球约束域的平方根，ξ为积分的时间变量，c
p
＞0为需要设计的松弛因子。即：p(s(ξ))＝0表征好的控制输出，而p(s(ξ))＝1表明当前的控制输出较差。1意味着指标函数j(t)的持续增加，使得控制结果变差，航天器姿态背离末端约束域。而0意味着指标函数j(t)的持续减少，使得控制结果变好，航天器姿态进入末端约束域。
[0076]
构建bellman误差方程，建立j(t-t)与j(t)之间的关系：
[0077]
j(t-t)＝γ-1
(j(t)+pc)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0078]
其中，为指标函数在区间[t-t,t]上奖惩积分。本发明拟采用时间差分法，完成critic网络的解算。
[0079][0080]
为了方便求解非线性的性能指标j(t)，采用rbf神经网络进行估计
hc(xc(t))为rbf非线性激活函数，定义xc(t)＝[s,q
vt
,ω
t
]
t
，s表示椭球约束域的平方根，表示理想网络权值的估计。
[0081]
经推导，神经网络自适应律设计为
[0082][0083][0084]
其中，为pc的估计值，δhc(t)＝hc(xc(t))-γhc(xc(t-t))，λc为正定对角的学习矩阵，为待设计的正常数。k＝[1,1,1]为矩阵维数的匹配矩阵。
[0085]
s3、基于backstepping控制框架结合action网络，设计自适应控制方法，最终实现失效航天器进入末端约束域。
[0086]
首先，根据backstepping控制框架，引入如下的坐标变换z1＝s,z2＝qv,z3＝ω-ωc，ωc为设计的虚拟控制量：
[0087][0088]
其中，k1为正定对角阵。
[0089]
进一步考虑：
[0090][0091]
目标使z3→
0，考虑失效航天器的转动惯量会出现变化，假设航天器的转动惯量矩阵j是未知的、正定对称的常值矩阵。
[0092]
定义线性乘子l(a):r3→
r3×6[0093][0094]
航天器的转动惯量矩阵j为：
[0095][0096]
令α＝[j
11j12j13j22j23j33
]
t
，则有
[0097]
ja＝l(a)α
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0098]
定义为了减小在线估计的计算量，本发明利用范数进行估计，得到
[0099]
进一步设计action神经网络自适应律估计干扰与建模误差等不确定性td[0100][0101]
其中，ha(xa(t))为rbf非线性激活函数，xa(t)＝[z
2t
,z
3t
]
t
。
[0102]
经推导，action神经网络自适应律设计为
[0103][0104]
其中，λa为正定对角的学习速率矩阵，ka为待设计的正常数，表示理想网络权值的估计。
[0105]
最后，基于强化学习的基于强化学习的预置末端状态约束条件下的高可靠调姿控制律可设计为
[0106][0107][0108]
其中，k
θ
表示待设计的正常数，η为正定对角的学习矩阵，为待设计的正常数。最终实现失效航天器进入末端约束域。
[0109]
本实施例主要解决在存在姿态末端约束、转动惯量不确定性和外部扰动影响下的失效航天器姿态快速姿态机动控制问题，可用于航天器姿态机动控制系统。
[0110]
本实施例针对失效航天器在姿态运动演化前的快速姿态机动控制，设计基于强化学习的预置末端状态约束条件下的高可靠调姿策略，通过预置姿态末端状态，并考虑失效航天器转动惯量等建模不确定性和外界干扰，设计一种基于强化学习的航天器姿态机动控制方法，从而实现失效航天器在姿态运动演化前的快速姿态调整，进入预定点火机动指向。
[0111]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0112]
应当注意的是，在本文的实施方式中所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施方式仅仅是示意性的，例如，附图中的流程图和框图显示了根据本文的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用于执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0113]
另外，在本文各个实施方式中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0114]
尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的
多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

技术特征：
1.一种基于强化学习的失效航天器姿态快速调整方法，其特征在于，包括如下步骤：步骤s1、基于航天器姿态末端约束，建立失效航天器姿态数学模型与约束模型；步骤s2、基于强化学习算法中的long-term性能指标函数，建立评判标准和critic网络；步骤s3、基于backstepping控制框架结合action网络和所述critic网络，建立自适应控制方法，以控制失效航天器进入末端约束域。2.如权利要求1所述的基于强化学习的失效航天器姿态快速调整方法，其特征在于，所述步骤s1包括：所述失效航天器姿态数学模型为失效航天器姿态动力学与运动学模型，其计算公式如下：下：其中，q＝col(q
v
,q4)为基于四元数的航天器状态描述，q
v
＝[q1,q2,q3]
t
，下标v表示四元数矢量部分，q1～q4分别表示航天器姿态四元数的四个分量；ω＝[ω
x
,ω
y
,ω
z
]
t
表示航天器本体系b相对惯性系i的三轴旋转角速度，ω
x
,ω
y
,ω
z
分别为航天器x,y,z轴的角速度，j表示航天器正定对称的转动惯量矩阵；τ,t
d
分别为控制力矩、航天器受到的外部扰动及系统建模误差；i
n
表示n维的单位矩阵，n＝3。3.如权利要求2所述的基于强化学习的失效航天器姿态快速调整方法，其特征在于，所述失效航天器的约束模型包括：所述失效航天器末端约束根据所述失效航天器的推力器的安装布局和推力矢量，选择如下：-q
m
≤q2≤q
m-ω
m
≤ω
y
≤ω
m
其中，q
m
,ω
m
,g
min
,g
max
分别为第二个姿态四元数参数上限、俯仰角速度上限、第三个姿态四元数与偏航角速度之比的上限。通过椭球约束域使得上述约束因素同时满足，所述椭球约束域s2如下：4.如权利要求3所述的基于强化学习的失效航天器姿态快速调整方法，其特征在于，所述步骤s2包括：基于long-term性能指标函数如下：其中，t＞0为小的强化学习积分步长；γ∈(0,1)为折扣因子；如果控制系统状态进入
吸引域中，则控制目标实现，long-term性能指标函数j(t)不会增加；如果控制系统状态背离吸引域，则控制器应调节控制输出，使得控制系统状态朝着末端约束域、或者保持在约束域中；因此，期望的性能指标j
d
(t)＝0，定义p(s)为包含long-term性能指标；p(s(ξ))如下：其中，s2(t)表示t时刻的椭球约束域，s(ξ)表示ξ时刻的椭球约束域的平方根，ξ为积分的时间变量，c
p
＞0为需要设计的松弛因子；即：p(s(ξ))＝0表征好的控制输出，而p(s(ξ))＝1表明当前的控制输出较差；1意味着性能指标函数j(t)的持续增加，使得控制结果变差，航天器姿态背离末端约束域；而0意味着性能指标函数j(t)的持续减少，使得控制结果变好，航天器姿态进入末端约束域。5.如权利要求4所述的基于强化学习的失效航天器姿态快速调整方法，其特征在于，所述步骤s2还包括：构建bellman误差方程，建立j(t-t)与j(t)之间的关系：j(t-t)＝γ-1
(j(t)+p
c
)其中，为性能指标函数在区间[t-t,t]上奖惩积分；采用时间差分法，完成critic网络的解算：采用rbf神经网络进行估计，求解非线性的性能指标采用rbf神经网络进行估计，求解非线性的性能指标其中，h
c
(x
c
(t))为rbf非线性激活函数，定义x
c
(t)＝[s,q
vt
,ω
t
]
t
，s表示椭球约束域的平方根，表示理想网络权值的估计。根据backstepping控制框架，定义z2＝q
v
，z3＝ω-ω
c
，ω
c
为设计的虚拟控制量其中，k1为正定对角阵。则rbf神经网络自适应律为：则rbf神经网络自适应律为：其中，为p
c
的估计值，δh
c
(t)＝h
c
(x
c
(t))-γh
c
(x
c
(t-t))，λ
c
为正定对角的学习矩阵，为待设计的正常数；k＝[1,1,1]为矩阵维数的匹配矩阵。6.如权利要求5所述的基于强化学习的失效航天器姿态快速调整方法，其特征在于，所
述步骤s3包括：action神经网络自适应律为：其中，λ
a
为正定对角的学习速率矩阵，k
a
为待设计的正常数，h
a
(x
a
)表示为rbf非线性激活函数，表示理想网络权值的估计；基于强化学习的预置末端状态约束条件下的高可靠调姿控制律为：基于强化学习的预置末端状态约束条件下的高可靠调姿控制律为：其中，定义为了减小在线估计的计算量，采用范数进行估计，得到表示待设计的正常数，η为正定对角的学习矩阵，为待设计的正常数；

技术总结
本发明公开了一种基于强化学习的失效航天器姿态快速调整方法，包括：步骤S1、基于航天器姿态末端约束，建立失效航天器姿态数学模型与约束模型；步骤S2、基于强化学习算法中的Long-term性能指标函数，建立评判标准和Critic网络；步骤S3、基于Backstepping控制框架结合Action网络和所述Critic网络，建立自适应控制方法，以控制失效航天器进入末端约束域。本发明实现失效航天器在姿态运动演化前的快速姿态调整，进入预定点火机动指向。进入预定点火机动指向。进入预定点火机动指向。

技术研发人员：黄静孟亦真田路路孙俊朱东方
受保护的技术使用者：上海航天控制技术研究所
技术研发日：2022.12.23
技术公布日：2023/4/20

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：拖拽式登机升降系统的制作方法 下一篇：一种测绘无人机户外起飞支架的制作方法

一种基于强化学习的失效航天器姿态调整方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于强化学习的失效航天器姿态调整方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表