状态值预测模型的训练方法及装置
未命名
07-27
阅读:109
评论:0
1.本发明涉及模型训练技术领域,具体而言,涉及一种状态值预测模型的训练方法及装置。
背景技术:
2.超大尺寸高精度探索环境是一种具有超大尺寸与超高精度的环境。环境中有各类障碍、威胁物、重要目标等,智能体需要探索环境的各个区域并完成相应的任务。为了取得较好的探索效果,这里智能体需要采集环境中的各类状态信息来辅助自身的决策,例如智能体在区域中的绝对位置、智能体自身与探索到的环境中的各个威胁物的相对位置、与环境中的重要目标的相对位置等等。
3.然而在超大尺寸高精度探索环境中,状态空间需要处理将不同的且差距较大的量级的状态值一同输入网络进行处理的问题,例如从智能体自身的尺寸量级(例如:1~10),一直到区域尺寸量级(例如:1e5~1e6)的状态值。如果不对不同量级的状态值进行归一化操作的话,会由于各个状态值的量级相差较大,无法取得较好的训练效果。
4.但是在现有技术中,使用传统的状态值归一化操作会导致状态空间序列面对区分度过小的问题,相对于网络接收到的状态输入的数量级而言,状态间的差异会远远小于状态自身的数量级,从而导致难以得到理想的训练结果。
技术实现要素:
5.本发明实施例提供了一种状态值预测模型的训练方法及装置,以至少解决由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。
6.根据本发明实施例的一个方面,提供了一种状态值预测模型的训练方法,包括:根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据所述指数变换基底对所述第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据所述最大量级对所述第一网络进行更新,以得到第二网络;根据所述第二输入状态值对所述第二网络进行训练。
7.进一步地,所述根据第一网络在倒空间中的状态取值空间确定指数变换基底,包括:根据所述第一网络的原状态取值空间,确定所述状态取值空间;根据所述状态取值空间确定所述指数变换基底。
8.进一步地,所述根据所述状态取值空间确定所述指数变换基底,包括:在所述状态取值空间中,根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底。
9.进一步地,所述根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底,包括:从预设基底集合中选取第一基底,并判断所述第一基底是否满足预设条件,其中,所述预设条件包括:所述状态取值空间对应的展开式的和小于或等于第一预设维度,所述第一输入状态值可扩展的最大维度小于或等于第二预设维度、且所述第一输入状态值对应的基底量级小于或等于第一预设量级,其中,所述展开式是对所述状态取值空间
中的每一项进行所述第一基底的指数变换得到的;若满足,则确定所述第一基底为所述指数变换基底。
10.进一步地,所述根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底,还包括:若所述展开式的和大于第一预设维度,或所述第一输入状态值可扩展的最大维度大于第二预设维度,则选取所述预设基底集合中大于所述第一基底的第二基底;基于所述第二基底对所述第一基底进行更新;或,若所述第一输入状态值对应的基底量级大于所述第一预设量级,则选取所述预设基底集合中小于所述第一基底的第三基底;基于所述第三基底对所述第一基底进行更新。
11.进一步地,所述根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底,还包括:若所述预设基底集合中不存在满足所述预设条件的基底,则调整所述第一预设维度为第三预设维度;或,调整所述第二预设维度为第四预设维度;或,调整所述第一预设量级为所述第二预设量级;其中,所述第三预设维度大于所述第一预设维度,所述第四预设维度大于所述第二预设维度,所述第二预设量级大于所述第一预设量级。
12.进一步地,所述根据所述指数变换基底对所述第一网络的第一输入状态值进行预处理,包括:对所述状态取值空间中的每一项进行所述指数变换基底的指数变换,以得到展开式;根据所述展开式一次对多个维度的所述第一输入状态值进行预处理,得到所述第二输入状态值。
13.根据本发明实施例的另一方面,还提供了一种状态值预测模型的训练装置,包括:确定模块,用于根据第一网络在倒空间中的状态取值空间确定指数变换基底;预处理模块,用于根据所述指数变换基底对所述第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;处理模块,用于根据所述最大量级对所述第一网络进行更新,以得到第二网络;训练模块,用于根据所述第二输入状态值对所述第二网络进行训练。
14.根据本发明实施例的另一方面,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的状态值预测模型的训练方法的步骤。
15.根据本发明实施例的另一方面,还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的状态值预测模型的训练方法的步骤。
16.在本发明实施例中,根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据最大量级对第一网络进行更新,以得到第二网络;根据第二输入状态值对第二网络进行训练。本实施例中通过倒空间的状态取值空间的指数变换基底来确定第一输入状态值的最大量级,进而根据第一输入状态值的最大量级对第一输入状态值进行预处理,以减小第一输入状态值的输入区间以及量级,进而解决了由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。
附图说明
17.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的状态值预测模型的训练方法的流程示意图;图2是根据本发明实施例的一种可选的第一网络确定方法的流程示意图;图3是根据本发明实施例的一种可选的原始状态空间的第一输入状态值的处理示意图;图4是根据本发明实施例的一种可选的指数变换基底的确定示意图;图5是根据本发明实施例的一种可选的第一网络对第一输入状态值的处理过程示意图;图6是根据本发明实施例的一种可选的状态值预测模型的训练装置的框架示意图。
实施方式
18.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
19.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例
20.根据本发明实施例,提供了一种状态值预测模型的训练方法,如图1所示,该方法包括:s102,根据第一网络在倒空间中的状态取值空间确定指数变换基底;s104,根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;s106,根据最大量级对第一网络进行更新,以得到第二网络;s108,根据第二输入状态值对第二网络进行训练。
21.在本实施例中,第一网络与第二网络对应的神经网络模型为智能体的智能决策模型,该智能决策模型用于基于各个时刻对应的第一输入状态值进行对应时刻的动作求解,该智能决策模型根据不同的第一输入状态值输出不同的动作。
22.第一网络为原有状态空间对应的智能决策模型,第二网络为在根据指数变换基底计算预处理后数据的最大量级后;根据所述预处理数据的最大量级对第一网络进行更新得到的智能决策模型,第二网络的输入特征的特征维度与量级与第一网络不同。
23.其中,智能体包括但不限于虚拟环境中的虚拟角色或物理环境中的机器人,智能体所处的环境给出初始状态值,即第一输入状态值,第二网络用于根据第一输入状态值输出相应的动作。
24.在本实施例中,通过建立倒空间结构的方式对原有状态空间进行第一输入状态值的预处理,其中,倒空间是实空间的傅里叶变化。
25.在本实施例中,倒空间基矢量的定义是:,其中,为原空间的基矢,分别为倒空间的基矢量。倒空间与原空间满足,其中,当i=j时,否则。由此,可以将原始状态空间投影为其唯一对应的倒空间,且原本状态空间的每一个维度的状态值在倒空间中都有唯一对应状态值与其映射。因此,根据原始状态空间的取值空间,对第一输入状态值完成倒空间映射后,可以得到倒空间下的状态取值空间。
26.然后,根据倒空间中的取值空间对第一输入状态值进行指数变换预处理。指数变换基底基于第二输入状态值的取值空间进行选择,使预处理后的最大量级保持在设定范围内,以得到第二输入状态值。
27.随后,基于预处理后的第一输入状态值可达到的最大量级对应的维度来扩展第一网络的对应输入维度,得到第二网络。当环境产生状态值时,将其映射为对应倒空间中的状态值,并进行预处理,预处理之后的所有第一输入状态值(即第二输入状态值)都将处于同一量级,随后将第二输入状态值(预处理后的第一输入状态值)输入第二网络进行智能体决策以及第二网络的模型训练。
28.第二网络的训练目标包括但不限于第二网络迭代至预设次数或第二网络收敛。
29.需要说明的是,在本实施例中,根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据最大量级对第一网络进行更新,以得到第二网络;根据第二输入状态值对第二网络进行训练。本实施例中通过倒空间的状态取值空间的指数变换基底来确定第一输入状态值的最大量级,进而根据第一输入状态值的最大量级对第一输入状态值进行预处理,以减小第一输入状态值的输入区间以及量级,进而解决了由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。
30.可选地,在本实施例中,根据第一网络在倒空间中的状态取值空间确定指数变换基底,包括但不限于:根据第一网络的原状态取值空间,确定状态取值空间;根据状态取值空间确定指数变换基底。
31.具体地,首先需要对环境原始状态空间进行倒空间映射,计算倒空间下的状态取值空间。根据状态取值空间,选定一个指数变换基底。在一个示例中,状态取值空间对应一个预设基底集合,可以随机选取或者按照预设顺序,从预设基底集合中选一个基底作为指数变换基底。
32.如图2所示,第二网络的获取过程具体可以包括以下步骤:s202,根据第一网络的原状态取值空间,确定状态取值空间;具体地,首先需要对环境原始状态空间进行倒空间映射,计算倒空间下的状态取值空间。
33.s204,根据状态取值空间确定指数变换基底;具体地,状态取值空间对应一个预设基底集合,可以随机选取或者按照预设顺序,从预设基底集合中选一个基底作为指数变换基底。
34.s206,根据状态取值空间确定指数变换基底;根据指数变换基底对第一网络进行更新,以得到第二网络;具体地,根据该指数变换基底计算倒空间下的取值空间对应的最大量级,根据该最大量级扩充第一网络的对应输入维度并替换第一网络,以得到第二网络,然后基于状态输入值以及第二网络开始进行网络训练以及输入值的预测。
35.在实际的应用场景中,第二网络对应的智能体决策的环境推演过程中,其中,智能体包括但不限于虚拟环境中的虚拟角色,物理环境中的机器人,智能体所处的环境包括但不限于物理环境或虚拟环境。
36.智能体所处的环境给出初始状态值,并将其进行倒空间映射,通过预处理生成新维度下的第二输入状态值,将其输入第二网络。第二网络基于接收的预处理后的第二输入状态值进行预测,以输出决策信息。
37.同时,将决策信息传递给智能体决策系统,智能体决策系统基于接收到来自第二网络输出的决策信息后,将之转换为环境可以识别的动作。位于原始状态空间的环境接收到来自智能体执行的动作后进行环境推演,并将环境推演生成的新的状态进行倒空间映射转换以及预处理,与此同时位于原始状态空间的环境会将当前动作产生的结果反馈给第二网络。
38.在此过程中,第二网络基于生成的训练数据同步进行训练,整个过程直至第二网络达到训练目标为止。训练目标包括但不限于第二网络迭代至预设次数。
39.通过上述示例,根据第一网络的原状态取值空间,确定状态取值空间;根据状态取值空间确定指数变换基底;根据指数变换基底对第一网络进行更新,第二网络根据第一输入状态值来预测决策信息,解决了状态值输入区间过大时导致的状态值之间量级差异过大的问题。
40.可选地,在本实施例中,根据状态取值空间确定指数变换基底,包括但不限于:在状态取值空间中,根据第一输入状态值的最大维度以及基底量级确定指数变换基底。
41.在具体的应用场景中,在状态取值空间中,根据第二输入状态值的最大维度以及每个第一输入状态值的基底量级来确定指数变换基底。例如设定倒空间预处理后允许达到的最大维度阈值以及基底量级比例阈值等。
42.在本实施例的一些实施例中,还可以根据第二输入状态值的最大维度、每个第一输入状态值可扩展出的最大维度以及基底量级比例来确定指数变换基底。例如设定倒空间预处理后允许达到的最大维度阈值,每个第一输入状态值可扩展出的最大维度阈值以及基底量级比例阈值等。
43.可选地,在本实施例中,根据第一输入状态值的最大维度以及基底量级确定指数变换基底,包括但不限于:从预设基底集合中选取第一基底,并判断第一基底是否满足预设条件,其中,预设条件包括:状态取值空间对应的展开式的和小于或等于第一预设维度,第一输入状态值可扩展的最大维度小于或等于第二预设维度、且第一输入状态值对应的基底量级小于或等于第一预设量级,其中,展开式是对状态取值空间中的每一项进行第一基底
的指数变换得到的;若满足,则确定第一基底为指数变换基底。
44.具体地,在本实施例中,如图3所示的原始状态空间的第一输入状态值的处理示意图,在一个超大尺寸高精度的空间环境下,所有状态值组成了一个d维状态空间{a1,a2,a3...,an,...},其中n∈[1,d]。对应网络的输入维度为d维,其中各个输入项一一对应为{d1,d2,d3...,dn,...},其中n∈[1,d]。
[0045]
基于倒空间基矢映射变换公式为其中,、分别为原空间与倒空间的基矢量,与原空间满足,其中当i=j时,否则。
[0046]
以具有[x,y,z]三维空间的环境为例,则存在:则存在:则存在:可以得到倒空间映射后的对应状态空间{b1,b2,b3...,bm,...},其中m∈[1, d],通过每一项an的取值空间可以求解对应bm的取值空间。
[0047]
在预设基底集合中选择一个正整数p为指数变换基底。则对倒空间映射后的对应状态空间{b1,b2,b3...,bm,...}中每一项bm进行以p为基底的指数变换,都有唯一的展开等式bm=p
m1 +p
m2 +p
m3 +...+p0+p0,其中m1》m2》m3》...》mi》...》=0,p0数值等于1,p0项的数量小于p,除p0项外其余各项的指数值mi均不相同。
[0048]
如图4所示的指数变换基底的确定示意图,设定倒空间预处理后允许达到的最大维度为,每个状态值可扩展出的最大维度不超过l,基底量级比例不超过r,则对于bm的整个取值空间:如果展开式对空间中任意bm的展开式中的m, i均满足,m1+p 《= l,其中m1为mi中的最大值,且p/m
1 《 r。若基底p满足设定倒空间预处理后的总维度不超过、每个状态值可扩展出的最大维度不超过l、基底量级比例不超过r的要求,则可以确定基底p为第一基底,基于指数变换基底p进行指数变换预处理。
[0049]
可选地,在本实施例中,根据第一输入状态值的最大维度以及基底量级确定指数变换基底,还包括但不限于:若展开式的和大于第一预设维度,或第一输入状态值可扩展的最大维度大于第二预设维度,则选取预设基底集合中大于第一基底的第二基底;基于第二
基底对第一基底进行更新;或,若第一输入状态值对应的基底量级大于第一预设量级,则选取预设基底集合中小于第一基底的第三基底;基于第三基底对第一基底进行更新。
[0050]
具体地,仍与图3所示的示例为例进行说明:如果存在bm的展开式使得,或者存在bm的展开式使得展开式中的m1项满足m1+p 》 l,则需要增加第一基底p的值,在预设基底集合中重新选取第二基底,对第一基底p进行更新,然后重新进行计算,从而得到合适的第一基底p值进行指数变换预处理;如果存在bm的展开式使得展开式中的m1项满足p/m
1 》= r,则需要减少基底p的值,在预设基底集合中重新选取第二基底,对第一基底p进行更新,然后重新进行计算,从而得到合适的p值进行指数变换预处理。
[0051]
可选地,在本实施例中,根据第一输入状态值的最大维度以及基底量级确定指数变换基底,还包括但不限于:若预设基底集合中不存在满足预设条件的基底,则调整第一预设维度为第三预设维度;或,调整第二预设维度为第四预设维度;或,调整第一预设量级为第二预设量级;其中,第三预设维度大于第一预设维度,第四预设维度大于第二预设维度,第二预设量级大于第一预设量级。
[0052]
具体地,仍与图3所示的示例为例进行说明:如果无法获得同时满足上述条件的基底p,则需要增加倒空间预处理后允许达到的最大维度为maxd'、网络输入层的最大值l或者基底量级比例上限r的值,然后重新进行计算,从而得到合适的指数变换基底p值进行指数变换预处理。
[0053]
通过上述示例,可以确定合适的指数变换基底,以解决在保持状态间差异的前提下缩小各个状态值之间量级差异的问题。
[0054]
可选地,在本实施例中,根据指数变换基底对第一网络的第一输入状态值进行预处理,包括但不限于:对状态取值空间中的每一项进行指数变换基底的指数变换,以得到展开式;根据展开式一次对多个维度的第一输入状态值进行预处理,得到第二输入状态值。
[0055]
具体地,如图5所示的对第一输入状态值的处理过程示意图,选定合适的p值后,针对倒空间中的状态空间{b1,b2,b3...,bm,...}中的每一项bm,在其取值空间内都有最大量级m'与其相对应,最大量级m'的计算方式为:对于bm在取值空间中能够取到的最大值bm',m'是满足p
m' 《 bm'的最大整数。对于每一个bm,需要预处理为m'+p个维度的状态值用于网络输入。
[0056]
根据展开式bm=p
m1 +p
m2 +p
m3 +...+p0+p0,将各项展开后,需要使得每个第一输入状态值对应到m'+p个维度之一才能将预处理后的数据输入第二网络。从第1个维度开始,根据bm取值空间计算得到m'后,可以确定m1在这l个维度中的位置为第m'
ꢀ‑ꢀm1 +1个,然后依次确定m2、m3、...、mk的位置,在最后的mk位置确定后,预留到mj=1的位置,后续依次是各个p0项的对应位置。完成多项式bm=p
m1 +p
m2 +p
m3 +...+p0+p0的对应项位置确认后,将存在相应项的维度位置置1,为空(null,不存在相应项)的位置置0,以此作为bm对应的m'+p个维度的状态输入传入网络中。以此类推,完成整个倒空间中状态空间{b1,b2,b3...,bm,...}的预处理,将各个状态值预处理的维度汇总后,对应扩展网络输入层维度,并保持其它层不变,以此作为第二网络。
[0057]
完成网络维度的扩充,得到第二网络后,即可基于第二网络进行决策与训练。决策预训练采用通用的强化学习算法进行。首先初始化环境,使得环境给出初始状态值s0,并将
其进行倒空间映射,然后通过预处理生成新维度下的第二输入状态值s0',将其输入第二网络。第二网络基于接收的预处理后的第二输入状态值进行网络推演,并生成训练数据,同时将决策信息传递给智能体的决策系统,智能体决策系统接收到来自网络的决策信息后将之转换为环境可以识别的动作。
[0058]
然后,位于原始状态空间的环境接收到来自智能体决策系统的动作后进行环境推演,并将环境推演生成的新的状态进行倒空间映射转换以及预处理,与此同时位于原始状态空间的环境会将当前动作产生的结果反馈给第二网络。
[0059]
在此过程中,第二网络基于生成的训练数据同步进行训练,整个过程直至网络达到训练目标为止。
[0060]
在本实施例中,通过根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据最大量级对第一网络进行更新,以得到第二网络;根据第二输入状态值对第二网络进行训练。本实施例中通过倒空间的状态取值空间的指数变换基底来确定第一输入状态值的最大量级,进而根据第一输入状态值的最大量级对第一输入状态值进行预处理,以减小第一输入状态值的输入区间以及量级,进而解决了由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。
[0061]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0062]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例
[0063]
根据本发明实施例,还提供了一种用于实施上述状态值预测模型的训练方法的状态值预测模型的训练装置,如图6所示,该装置包括:确定模块60,用于根据第一网络在倒空间中的状态取值空间确定指数变换基底;预处理模块62,用于根据所述指数变换基底对所述第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;处理模块64,用于根据所述最大量级对所述第一网络进行更新,以得到第二网络;训练模块66,用于根据所述第二输入状态值对所述第二网络进行训练。
[0064]
在本实施例中,通过根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据最大量级对第一网络进行更新,以得到第二网络;根据第二输入状态值
对第二网络进行训练。本实施例中通过倒空间的状态取值空间的指数变换基底来确定第一输入状态值的最大量级,进而根据第一输入状态值的最大量级对第一输入状态值进行预处理,以减小第一输入状态值的输入区间以及量级,进而解决了由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。
实施例
[0065]
根据本发明实施例,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的状态值预测模型的训练方法的步骤。
[0066]
可选地,在本实施例中,存储器被设置为存储用于执行以下步骤的程序代码:s1,根据第一网络在倒空间中的状态取值空间确定指数变换基底;s2,根据所述指数变换基底对所述第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;s3,根据所述最大量级对所述第一网络进行更新,以得到第二网络;s4,根据所述第二输入状态值对所述第二网络进行训练。
[0067]
可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。
实施例
[0068]
本发明的实施例还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的状态值预测模型的训练方法的步骤。
[0069]
可选地,在本实施例中,可读存储介质被设置为存储用于执行以下步骤的程序代码:s1,根据第一网络在倒空间中的状态取值空间确定指数变换基底;s2,根据所述指数变换基底对所述第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;s3,根据所述最大量级对所述第一网络进行更新,以得到第二网络;s4,根据所述第二输入状态值对所述第二网络进行训练。
[0070]
可选地,可读存储介质还被设置为存储用于执行上述实施例1中的方法中所包括的步骤的程序代码,本实施例中对此不再赘述。
[0071]
可选地,在本实施例中,上述可读存储介质可以包括但不限于:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0072]
可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。
[0073]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0074]
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软
件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
[0075]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0076]
在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0077]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0078]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0079]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种状态值预测模型的训练方法,其特征在于,包括:根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据所述指数变换基底对所述第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据所述最大量级对所述第一网络进行更新,以得到第二网络;根据所述第二输入状态值对所述第二网络进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据第一网络在倒空间中的状态取值空间确定指数变换基底,包括:根据所述第一网络的原状态取值空间,确定所述状态取值空间;根据所述状态取值空间确定所述指数变换基底。3.根据权利要求2所述的方法,其特征在于,所述根据所述状态取值空间确定所述指数变换基底,包括:在所述状态取值空间中,根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底,包括:从预设基底集合中选取第一基底,并判断所述第一基底是否满足预设条件,其中,所述预设条件包括:所述状态取值空间对应的展开式的和小于或等于第一预设维度,所述第一输入状态值可扩展的最大维度小于或等于第二预设维度、且所述第一输入状态值对应的基底量级小于或等于第一预设量级,其中,所述展开式是对所述状态取值空间中的每一项进行所述第一基底的指数变换得到的;若满足,则确定所述第一基底为所述指数变换基底。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底,还包括:若所述展开式的和大于第一预设维度,或所述第一输入状态值可扩展的最大维度大于第二预设维度,则选取所述预设基底集合中大于所述第一基底的第二基底;基于所述第二基底对所述第一基底进行更新;或,若所述第一输入状态值对应的基底量级大于所述第一预设量级,则选取所述预设基底集合中小于所述第一基底的第三基底;基于所述第三基底对所述第一基底进行更新。6.根据权利要求4所述的方法,其特征在于,所述根据所述第一输入状态值的最大维度以及基底量级确定所述指数变换基底,还包括:若所述预设基底集合中不存在满足所述预设条件的基底,则调整所述第一预设维度为第三预设维度;或,调整所述第二预设维度为第四预设维度;或,调整所述第一预设量级为所述第二预设量级;其中,所述第三预设维度大于所述第一预设维度,所述第四预设维度大于所述第二预设维度,所述第二预设量级大于所述第一预设量级。7.根据权利要求1所述的方法,其特征在于,所述根据所述指数变换基底对所述第一网
络的第一输入状态值进行预处理,包括:对所述状态取值空间中的每一项进行所述指数变换基底的指数变换,以得到展开式;根据所述展开式一次对多个维度的所述第一输入状态值进行预处理,得到所述第二输入状态值。8.一种状态值预测模型的训练装置,其特征在于,包括:确定模块,用于根据第一网络在倒空间中的状态取值空间确定指数变换基底;预处理模块,用于根据所述指数变换基底对所述第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;处理模块,用于根据所述最大量级对所述第一网络进行更新,以得到第二网络;训练模块,用于根据所述第二输入状态值对所述第二网络进行训练。9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7所述的状态值预测模型的训练方法的步骤。10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7所述的状态值预测模型的训练方法的步骤。
技术总结
本发明公开了一种状态值预测模型的训练方法及装置。其中,该方法包括:根据第一网络在倒空间中的状态取值空间确定指数变换基底;根据指数变换基底对第一网络的第一输入状态值进行预处理,以得到最大量级以及第二输入状态值;根据最大量级对第一网络进行更新,以得到第二网络;根据第二输入状态值对第二网络进行训练。本发明解决了由于相关技术中各个状态值的量级相差较大,无法取得理想的训练效果的技术问题。术问题。术问题。
技术研发人员:徐波 张文圣 徐博 张鸿铭 王燕娜
受保护的技术使用者:中国科学院自动化研究所
技术研发日:2023.05.06
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
