时序数据预训练模型微调方法及装置、时序数据预测模型与流程
未命名
08-14
阅读:133
评论:0
1.本发明涉及数据处理技术领域,具体涉及一种时序数据预训练模型微调方法及装置、时序数据预测模型。
背景技术:
2.近年来,时序数据分析在许多领域发挥着重要的作用,包括金融市场、医疗领域、天文领域等。另电网场景下也配置了丰富的传感器装置,产生了海量的在线监测时序数据,可通过时序预测、异常检测等时序分析技术有效的检测出电网场景下的异常状态,从而提升故障诊断的智能化水平,提前防范重大故障的发生,有力支撑新型电力系统建设。
3.目前常用的时序分析包括半监督训练和自监督训练等,其中自监督训练作为一种通用的模型预训练学习范式,可以学习到时序数据的关键信息和固有模式,而忽略掉数据中存在的噪声,缓解模型对训练数据的过拟合,有利于模型泛化能力的提升。
4.然而,在使用传统预训练模型微调范式的情况下,由于时序训练数据的噪声和规模,预训练后的模型面向下游任务进行微调的过程中仍然会出现过拟合现象,造成了时序模型预测精度的下降,所以为电网时序预训练模型设计合适的模型微调范式是十分必要的。
技术实现要素:
5.有鉴于此,本发明实施例提供了涉及一种时序数据预训练模型微调方法及装置、时序数据预测模型,以解决现有技术中由于时序训练数据的噪声和规模,采用预训练后的模型易出现过拟合现象,造成时序模型预测精度下降的技术问题。
6.本发明提出的技术方案如下:
7.本发明实施例第一方面提供一种时序数据预训练模型微调方法,包括:获取预训练模型和输入时序数据,所述预训练模型包括编码器和解码器,所述编码器用于提取输入时序数据的输入时序特征;采用线性层对所述输入时序特征进行线性计算,生成对应的动态提示特征;结合掩码特征、所述动态提示特征和所述输入时序特征确定增强后的时序特征;将所述增强后的时序特征输入至所述解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。
8.可选地,该时序数据预训练模型微调方法还包括:获取未来时刻的实际时序数据;采用预设损失函数计算所述实际时序数据和预测的时序数据之间的误差损失;根据所述误差损失调整所述线性层的参数。
9.可选地,结合掩码特征、所述动态提示特征和所述输入时序特征输出增强后的时序特征,包括:将输入时序特征和掩码特征拼接,得到拼接后的特征;将所述动态提示特征和所述拼接后的特征按照对应位置相加,得到增强后的时序特征。
10.本发明实施例第二方面提供一种时序数据预训练模型微调装置,包括:数据获取模块,用于获取预训练模型和输入时序数据,所述预训练模型包括编码器和解码器,所述编
码器用于提取输入时序数据的输入时序特征;动态提示模块,用于采用线性层对所述输入时序特征进行线性计算,生成对应的动态提示特征;增强模块,用于结合掩码特征、所述动态提示特征和所述输入时序特征确定增强后的时序特征;解码模块,用于将所述增强后的时序特征输入至所述解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。
11.可选地,该时序数据预训练模型微调装置还包括:优化模块,具体用于获取未来时刻的实际时序数据;采用预设损失函数计算所述实际时序数据和预测的时序数据之间的误差损失;根据所述误差损失调整所述线性层的参数。
12.可选地,增强模块具体用于:将输入时序特征和掩码特征拼接,得到拼接后的特征;将所述动态提示特征和所述拼接后的特征按照对应位置相加,得到增强后的时序特征。
13.本发明实施例第三方面提供一种时序数据预测模型,包括:编码器,用于提取输入时序数据的输入时序特征;动态提示生成器,用于采用线性层对所述输入时序特征进行线性计算,生成对应的动态提示特征,结合掩码特征、所述动态提示特征和所述输入时序特征输出增强后的时序特征;解码器,用于根据所述增强后的时序特征进行解码,得到未来时刻的时序数据。
14.可选地,所述动态提示器包括:拼接层,用于将输入时序特征和掩码特征拼接,得到拼接后的特征;单层线性层,用于根据线性层的权重参数和偏置参数对所述输入时序特征进行线性计算,得到动态提示特征;增强层,用于将所述动态提示特征和所述拼接后的特征按照对应位置相加,得到增强后的时序特征。
15.可选地,所述编码器包括:线性映射层,用于将输入时序数据以每个时间步为单位映射到高维特征空间;第一位置编码层,用于为所述高维特征空间中的高维特征添加时序位置信息第一transformer层,用于基于自注意力机制对不同时间步上添加时序位置信息后的高维特征进行交互,得到输入时序特征。
16.可选地,所述解码器包括:第二位置编码层,用于为所述增强后的时序特征添加位置信息;第二transformer层,用于基于自注意力机制对不同时间步上添加位置信息的增强后的时序特征进行解码,得到解码后的特征;线性预测层,用于将解码后的特征映射为原始维度的未来时刻的时序数据。
17.可选地,该时序数据预测模型还包括:模型优化模块,用于根据未来时刻的时序数据和实际时序数据之间的误差损失调整所述动态提示生成器中的参数。
18.本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的时序数据预训练模型微调方法。
19.本发明实施例第五方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的时序数据预训练模型微调方法。
20.本发明提供的技术方案,具有如下效果:
21.本发明实施例提供的时序数据预训练模型微调方法及装置,通过获取预训练模型和输入时序数据,预训练模型包括编码器和解码器,编码器用于提取输入时序数据的输入
时序特征;采用线性层对输入时序特征进行线性计算,生成对应的动态提示特征;结合掩码特征、动态提示特征和输入时序特征确定增强后的时序特征;将增强后的时序特征输入至解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。由此,该微调方法中,针对每个输入时序特征,考虑了其隐含的上下文知识生成了动态提示特征,该动态提示特征加入到输入时序特征中作为实例级别的提示信息,用于下游任务的模型参数微调,有效避免了时序预训练模型微调过程中的过拟合问题,大大提升了下游时序任务的预测精度。
22.本发明实施例提供的时序数据预测模型,在由编码器和解码器构成的预训练模型的基础上,在编码器和解码器之间增加动态提示生成器,动态提示生成器用于生成输入时序特征的动态提示特征,由此,动态提示生成器的设置,针对每个输入时序特征,考虑了其隐含的上下文知识生成了动态提示特征,该动态提示特征加入到输入时序特征中作为实例级别的提示信息,用于下游任务的模型参数微调,有效避免了时序预训练模型微调过程中的过拟合问题,大大提升了下游时序任务的预测精度。
23.本发明实施例提供的时序数据预测模型,在动态提示生成器中采用单层线性层,即该线性层具有极小参数量。由此,该模型不用存储任何中间层梯度结果,仅需要计算动态提升生成器的梯度信息,大幅降低了模型的显存占用。
附图说明
24.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
25.图1是根据本发明实施例的时序数据预训练模型微调方法的流程图;
26.图2是根据本发明实施例的时序数据预训练模型微调装置的结构框图;
27.图3是根据本发明实施例的时序数据预测模型的结构原理图;
28.图4是根据本发明实施例的动态提示生成器的结构示意图;
29.图5是根据本发明实施例的编码器的结构示意图;
30.图6是根据本发明实施例的解码器的结构示意图;
31.图7是根据本发明实施例提供的计算机可读存储介质的结构示意图;
32.图8是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
33.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
34.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
35.正如在背景技术中所述,由于时序训练数据的噪声和规模,采用预训练后的模型易出现过拟合现象,造成时序模型预测精度下降所以为电网时序预训练模型设计合适的模型微调范式是十分必要的。目前学界内的提示学习方法在不显著改变预训练模型的结构和参数的情况下,通过增加“提示信息”面向下游任务进行模型微调,已经成功应用在自然语言处理和计算机视觉领域。但是未有相关工作针对时序分析领域进行“提示信息”的设计。
36.有鉴于此,本发明实施例时序数据预训练模型微调方法,将提示学习技术引入时序分析领域,针对时序数据的特性,考虑了每个输入数据的隐含上下文知识,形成适用于时序数据的实例级别“提示信息”,用于下游任务的模型参数微调,有效避免了时序预训练模型微调过程中的过拟合问题,大大提升了下游电网时序任务的预测精度。
37.根据本发明实施例,提供了一种时序数据预训练模型微调方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
38.在本实施例中提供了一种时序数据预训练模型微调方法,可用于电子设备,如电脑、手机、平板电脑等,图1是根据本发明实施例时序数据预训练模型微调方法的流程图,如图1所示,该方法包括如下步骤:
39.步骤s101:获取预训练模型和输入时序数据,所述预训练模型包括编码器和解码器,所述编码器用于提取输入时序数据的输入时序特征。具体地,该预训练模型采用transformer模型;在采用本发明实施例提供的微调方法之前,可以先采用历史时序数据作为训练集对transformer模型中的编码器和解码器进行预训练,确定编码器和解码器中的参数,该参数在后续模型微调过程中固定不变。对于transformer模型的预训练过程,可以参照现有技术实现,在此不再赘述。需要说明的是,输入时序数据可以是由电网系统中获取的时序数据,该输入时序数据作为训练数据,用于模型微调过程。
40.其中,编码器由线性映射层、位置编码层以及两个transformer块组成。线性映射层用于将输入时序数据以每个时间步为单位映射到高维特征空间;位置编码层为高维特征空间中的高维特征添加时序位置信息;两个transformer块基于自注意力机制对不同时间步上添加时序位置信息的高维特征进行交互。在编码器中,transformer块的添加会存在参数量和模型精度的平衡问题,参数越多模型精度一般会更佳,但模型速度会变慢;该方法在编码器中采用两个transformer块不仅能保持整体模型的推理速度,同时能够保证模型的精度。
41.在采用该模型微调方法时,先获取预训练模型中的编码器和输入时序数据,该编码器能够将输入时序数据映射到特征空间,完成输入时序特征的提取。若直接将该输入时序特征传输至解码器中进行解码,由于时序数据的噪声和规模,容易出现过拟合现象,预测精度较低。由此,该模型微调方法先对编码器输出的输入时序特征进行提示信息的设计,向
输入时序特征中加入提示信息,能够有效避免过拟合问题。
42.步骤s102:采用线性层对所述输入时序特征进行线性计算,生成对应的动态提示特征。具体地,该模型微调方法采用提示学习的方法生成提示信息加入到输入时序特征中。其中,现有的提示学习具体是通过改造下游任务、增加专家知识,使任务输入和输出适合原始语言模型,从而在零样本或少样本的场景中获取良好的任务效果。然而,采用现有的提示学习得到的提示特征通常是用共享可学习的参数来表示,即最终得到的提示特征是表示整个训练集合的特征。
43.在该实施方式中,生成的提示特征是动态的,即根据当前的输入数据生成动态提示特征,该动态提示特征代表了当前数据的上下文特征,包含了实例级别的信息;其中,实例级别可以理解为输入数据这一个级别,每个输入数据就是一个实例,即针对每个输入数据分别生成了对应的动态提示特征,即提示特征随输入数据的变化而变化,是动态生成的,相比所有输入数据均采用相同提示特征的非实例级别的特征,该动态提示特征的表达能力更强、更具体。
44.具体地,线性计算可以采用单层线性层实现。采用单层线性层对输入时序特征进行处理,可以生成预测时间步上的动态提示特征。其中,该线性计算过程可以采用如下公式实现:
45.d=w
·
f+b
46.其中,f∈rh×d表示输入时序特征,h表示输入时序数据的长度,d表示每个时间步特征向量的维度,例如时间步为小时,在输入时序特征中,d表示每个小时对应的特征向量维度,该特征向量维度可以是512。w∈r
l
×h为线性层的权重参数,l表示预设时序数据的长度,b∈rd为线性层的偏置参数,d∈r
l
×d为生成的动态提示特征。具体地,线性层中的权重参数和偏置参数均为可学习参数。
47.需要说明的是,线性层采用单层线性层,即该线性层具有极小参数量。由此,该微调方法中不用存储任何中间层梯度结果,大幅降低了该微调方法的显存占用。
48.步骤s103:结合掩码特征、所述动态提示特征和所述输入时序特征确定增强后的时序特征。其中,掩码特征由预训练模型确定,即在对transformer模型预训练的过程中,不仅确定编码器和解码器中的参数,掩码特征也同时确定。掩码特征的作用是为了确定哪些位置上的特征是缺失的。掩码特征具体由m∈rd以预测时序长度l复制扩展得到,即掩码特征表示为在掩码特征中,d表示一个维度为d的一维向量,其包含d个可学习参数。具体地,在预训练模型中确定掩码特征之后,结合输入时序特征和每个输入时序特征对应的动态提示特征得到增强后的时序特征。
49.步骤s104:将所述增强后的时序特征输入至所述解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。具体地,在该微调方法中,将生成的增强后的时序特征代替编码器输出的输入时序特征输入至解码器中解码,该解码器通过对transformer模型的训练确定。
50.具体地,解码器由位置编码层、单个transformer块以及线性预测层组成,首先位置编码层为增强后的时序特征添加位置信息,然后transformer块基于自注意力机制对不同时间步上的特征信息进行解码,最后线性预测层将解码特征映射为原始维度的预测时序数据。
51.本发明实施例提供的时序数据预训练模型微调方法,通过获取预训练模型和输入时序数据,预训练模型包括编码器和解码器,编码器用于提取输入时序数据的输入时序特征;采用线性层对输入时序特征进行线性计算,生成对应的动态提示特征;结合掩码特征、动态提示特征和输入时序特征确定增强后的时序特征;将增强后的时序特征输入至解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。由此,该微调方法中,针对每个输入时序特征,考虑了其隐含的上下文知识生成了动态提示特征,该动态提示特征加入到输入时序特征中作为实例级别的提示信息,用于下游任务的模型参数微调,有效避免了时序预训练模型微调过程中的过拟合问题,大大提升了下游时序任务的预测精度。
52.在一实施方式中,时序数据预训练模型微调方法还包括:获取未来时刻的实际时序数据;采用预设损失函数计算所述实际时序数据和预测的时序数据之间的误差损失;根据所述误差损失调整所述线性层的参数。
53.具体地,该时序数据预训练模型微调方法采用线性层生成了每个输入时序特征的动态提示特征,为了使得微调之后模型的预测结果更加准确,还可以对模型进行优化,即对线性层中可学习参数即权重参数和偏置参数进行调整。需要说明的是,该优化过程主要针对线性层中的参数进行调整,对于编码器和解码器中参数,在上述微调过程以及这里的优化过程均是固定的,或者说不对编码器和解码器中的参数进行更新,防止丢失编码器或解码器训练过程中学习到的信息。
54.通过上述步骤s101至步骤s103预测得到了未来时刻的时序数据,其中,该未来时刻相对输入时序数据属于未来时刻,例如输入时序数据是2022年2月10日上午十一时到十二时的数据,则预测的未来时刻的时序数据可以是2022年2月10日上午十二时到下午一时的数据。在模型优化时,可以直接获取该未来时刻的时序数据,即相应时刻的实际时序数据,计算实际时序数据和预测的时序数据之间的损失误差,基于该损失误差对线性层中的参数进行调整。
55.具体地,预设损失函数可以采用均方损失误差,即损失函数可以表示为:
56.l=mse(pred,target)
57.其中,mse为均方误差损失,pred和target分别为预测的时序数据和实际时序数据,l为计算的损失误差。在其他实施例中,也可以采用其他的损失函数计算损失误差,本发明实施例对损失函数的具体选择不作限定。
58.在一实施方式中,结合掩码特征、所述动态提示特征和所述输入时序特征输出增强后的时序特征,包括:将输入时序特征和掩码特征拼接,得到拼接后的特征;将所述动态提示特征和所述拼接后的特征按照对应位置相加,得到增强后的时序特征。
59.具体地,将输入时序特征f∈rh×d和掩码特征拼接时,可以采用特征拼接函数,在长度的维度上将两个特征进行拼接,则拼接后的特征表示为:
[0060][0061]
其中,concat为特征拼接函数,拼接后的特征定义为c∈r
(+l)
×d。
[0062]
增强后的时序特征表示为其中,d表示动态提示特征,add为元素按位加函数,为增强后的时序特征。
[0063]
本发明实施例还提供一种时序数据预训练模型微调装置,如图2所示,该装置包
括:
[0064]
数据获取模块,用于获取预训练模型和输入时序数据,所述预训练模型包括编码器和解码器,所述编码器用于提取输入时序数据的输入时序特征;具体内容参见上述方法实施例对应部分,在此不再赘述。
[0065]
动态提示模块,用于采用线性层对所述输入时序特征进行线性计算,生成对应的动态提示特征;具体内容参见上述方法实施例对应部分,在此不再赘述。
[0066]
增强模块,用于结合掩码特征、所述动态提示特征和所述输入时序特征确定增强后的时序特征;具体内容参见上述方法实施例对应部分,在此不再赘述。
[0067]
解码模块,用于将所述增强后的时序特征输入至所述解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。具体内容参见上述方法实施例对应部分,在此不再赘述。
[0068]
本发明实施例提供的时序数据预训练模型微调装置,通过获取预训练模型和输入时序数据,预训练模型包括编码器和解码器,编码器用于提取输入时序数据的输入时序特征;采用线性层对输入时序特征进行线性计算,生成对应的动态提示特征;结合掩码特征、动态提示特征和输入时序特征确定增强后的时序特征;将增强后的时序特征输入至解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。由此,该微调装置中,针对每个输入时序特征,考虑了其隐含的上下文知识生成了动态提示特征,该动态提示特征加入到输入时序特征中作为实例级别的提示信息,用于下游任务的模型参数微调,有效避免了时序预训练模型微调过程中的过拟合问题,大大提升了下游时序任务的预测精度。
[0069]
可选地,该时序数据预训练模型微调装置还包括:优化模块,具体用于获取未来时刻的实际时序数据;采用预设损失函数计算所述实际时序数据和预测的时序数据之间的误差损失;根据所述误差损失调整所述线性层的参数。
[0070]
可选地,增强模块具体用于:将输入时序特征和掩码特征拼接,得到拼接后的特征;将所述动态提示特征和所述拼接后的特征按照对应位置相加,得到增强后的时序特征。
[0071]
本发明实施例提供的时序数据预训练模型微调装置的功能描述详细参见上述实施例中时序数据预训练模型微调方法描述。
[0072]
本发明实施例还提供一种时序数据预测模型,如图3所示,该模型包括:编码器,用于提取输入时序数据的输入时序特征;动态提示生成器,用于采用线性层对所述输入时序特征进行线性计算,生成对应的动态提示特征,结合掩码特征、所述动态提示特征和所述输入时序特征输出增强后的时序特征;解码器,用于根据所述增强后的时序特征进行解码,得到未来时刻的时序数据。
[0073]
具体地,编码器和解码器通过对transformer模型训练得到,即编码器和解码器共同构成了预训练模型,该时序数据预测模型是在该预训练模型的基础上,在编码器和解码器之间增加动态提示生成器。其中,动态提示生成器的数据处理过程参照上述时序数据预训练模型微调方法实施例中步骤s102和步骤s103的描述,在此不再赘述。
[0074]
本发明实施例提供的时序数据预测模型,在由编码器和解码器构成的预训练模型的基础上,在编码器和解码器之间增加动态提示生成器,动态提示生成器用于生成输入时序特征的动态提示特征,由此,动态提示生成器的设置,针对每个输入时序特征,考虑了其隐含的上下文知识生成了动态提示特征,该动态提示特征加入到输入时序特征中作为实例
级别的提示信息,用于下游任务的模型参数微调,有效避免了时序预训练模型微调过程中的过拟合问题,大大提升了下游时序任务的预测精度。
[0075]
在一实施方式中,如图4所示,所述动态提示器包括:拼接层,用于将输入时序特征和掩码特征拼接,得到拼接后的特征;单层线性层,用于根据线性层的权重参数和偏置参数对所述输入时序特征进行线性计算,得到动态提示特征;增强层,用于将所述动态提示特征和所述拼接后的特征按照对应位置相加,得到增强后的时序特征。
[0076]
具体地,拼接层使用特征拼接函数实现特征拼接,拼接后的特征采用如下公式表示:
[0077][0078]
其中,concat为特征拼接函数,f∈rh×d表示输入时序特征,表示掩码特征,拼接后的特征定义为c∈r
(+l)
×d。
[0079]
单层线性层的计算过程可以采用如下公式实现:
[0080]
d=w
·
f+b
[0081]
其中,w∈r
l
×h为线性层的权重参数,l表示预设时序数据的长度,b∈rd为线性层的偏置参数,d∈r
l
×d为生成的动态提示特征。
[0082]
增强层采用元素按位加函数实现,则增强后的特征表示为:其中,d表示动态提示特征,add为元素按位加函数,为增强后的时序特征。
[0083]
本发明实施例提供的时序数据预测模型,在动态提示生成器中采用单层线性层,即该线性层具有极小参数量。由此,该模型不用存储任何中间层梯度结果,仅需要计算动态提升生成器的梯度信息,大幅降低了模型的显存占用。
[0084]
在一实施方式中,如图5所示,所述编码器包括:线性映射层,用于将输入时序数据以每个时间步为单位映射到高维特征空间;第一位置编码层,用于为所述高维特征空间中的高维特征添加时序位置信息;第一transformer层,用于基于自注意力机制对不同时间步上添加时序位置信息后的高维特征进行交互,得到输入时序特征。具体地,第一transformer层由两个功能相同的transformer块构成,不仅能保持整体模型的推理速度,同时能够保证模型的精度。
[0085]
在一实施方式中,如图6所示,所述解码器包括:第二位置编码层,用于为所述增强后的时序特征添加位置信息;第二transformer层,用于基于自注意力机制对不同时间步上添加位置信息的增强后的时序特征进行解码,得到解码后的特征;线性预测层,用于将解码后的特征映射为原始维度的未来时刻的时序数据。其中,第二transformer层由单个的transformer块构成。
[0086]
在一实施方式中,如图3所示,该时序数据预测模型还包括:模型优化模块,用于根据未来时刻的时序数据和实际时序数据(目标时序数据)之间的误差损失调整所述动态提示生成器中的参数。具体地,误差损失的计算可以采用均方误差损失,即误差损失表示为:
[0087]
l=mse(pred,target)
[0088]
其中,mse为均方误差损失,pred和target分别为未来时刻的时序数据和实际时序数据,l为计算的损失误差。
[0089]
本发明实施例还提供一种存储介质,如图7所示,其上存储有计算机程序601,该指
令被处理器执行时实现上述实施例中时序数据预训练模型微调方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
[0090]
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flashmemory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
[0091]
本发明实施例还提供了一种电子设备,如图8所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图8中以通过总线连接为例。
[0092]
处理器51可以为中央处理器(central processing unit,cpu)。处理器51还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
[0093]
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的时序数据预训练模型微调方法。
[0094]
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0095]
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1所示实施例中的时序数据预训练模型微调方法。
[0096]
上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
[0097]
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
技术特征:
1.一种时序数据预训练模型微调方法,其特征在于,包括:获取预训练模型和输入时序数据,所述预训练模型包括编码器和解码器,所述编码器用于提取输入时序数据的输入时序特征;采用线性层对所述输入时序特征进行线性计算,生成对应的动态提示特征;结合掩码特征、所述动态提示特征和所述输入时序特征确定增强后的时序特征;将所述增强后的时序特征输入至所述解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。2.根据权利要求1所述的时序数据预训练模型微调方法,其特征在于,还包括:获取未来时刻的实际时序数据;采用预设损失函数计算所述实际时序数据和预测的时序数据之间的误差损失;根据所述误差损失调整所述线性层的参数。3.根据权利要求1所述的时序数据预训练模型微调方法,其特征在于,结合掩码特征、所述动态提示特征和所述输入时序特征输出增强后的时序特征,包括:将输入时序特征和掩码特征拼接,得到拼接后的特征;将所述动态提示特征和所述拼接后的特征按照对应位置相加,得到增强后的时序特征。4.一种时序数据预训练模型微调装置,其特征在于,包括:数据获取模块,用于获取预训练模型和输入时序数据,所述预训练模型包括编码器和解码器,所述编码器用于提取输入时序数据的输入时序特征;动态提示模块,用于采用线性层对所述输入时序特征进行线性计算,生成对应的动态提示特征;增强模块,用于结合掩码特征、所述动态提示特征和所述输入时序特征确定增强后的时序特征;解码模块,用于将所述增强后的时序特征输入至所述解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。5.一种时序数据预测模型,其特征在于,包括:编码器,用于提取输入时序数据的输入时序特征;动态提示生成器,用于采用线性层对所述输入时序特征进行线性计算,生成对应的动态提示特征,结合掩码特征、所述动态提示特征和所述输入时序特征输出增强后的时序特征;解码器,用于根据所述增强后的时序特征进行解码,得到未来时刻的时序数据。6.根据权利要求5所述的时序数据预测模型,其特征在于,所述动态提示器包括:拼接层,用于将输入时序特征和掩码特征拼接,得到拼接后的特征;单层线性层,用于根据线性层的权重参数和偏置参数对所述输入时序特征进行线性计算,得到动态提示特征;增强层,用于将所述动态提示特征和所述拼接后的特征按照对应位置相加,得到增强后的时序特征。7.根据权利要求5所述的时序数据预测模型,其特征在于,所述编码器包括:线性映射层,用于将输入时序数据以每个时间步为单位映射到高维特征空间;
第一位置编码层,用于为所述高维特征空间中的高维特征添加时序位置信息;第一transformer层,用于基于自注意力机制对不同时间步上添加时序位置信息后的高维特征进行交互,得到输入时序特征。8.根据权利要求5所述的时序数据预测模型,其特征在于,还包括:模型优化模块,用于根据未来时刻的时序数据和实际时序数据之间的误差损失调整所述动态提示生成器中的参数。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-3任一项所述的时序数据预训练模型微调方法。10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-3任一项所述的时序数据预训练模型微调方法。
技术总结
本发明公开了一种时序数据预训练模型微调方法及装置、时序数据预测模型,包括:获取预训练模型和输入时序数据,预训练模型包括编码器和解码器,编码器用于提取输入时序数据的输入时序特征;采用线性层对输入时序特征进行线性计算,生成对应的动态提示特征;结合掩码特征、动态提示特征和输入时序特征确定增强后的时序特征;将增强后的时序特征输入至解码器解码,基于待预测的未来时刻,进行未来时刻的时序数据的预测。通过实施本发明,针对每个输入时序特征,考虑了其隐含的上下文知识生成了动态提示特征,作为实例级别的提示信息,用于下游任务的模型参数微调,有效避免了时序预训练模型微调过程中的过拟合问题,提升了下游时序任务的预测精度。任务的预测精度。任务的预测精度。
技术研发人员:刘浩 甘津瑞 吴鹏 周飞 姚一杨 王剑 邵进
受保护的技术使用者:国网浙江省电力有限公司信息通信分公司 国家电网有限公司
技术研发日:2023.05.22
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
