基于聚类和动态划分时间序列的电站风机状态预测方法与流程

未命名 07-12 阅读:100 评论:0


1.本发明属于电站风机状态预测技术领域,具体为基于聚类和动态划分时间序列的电站风机状态预测方法。


背景技术:

2.风机作为燃煤电站重要的辅机设备之一,在多个过程中发挥作用,包括烟气循环、设备密封、脱硝脱硫等。为保障电站的安全运行并提高经济效益,对风机精确的状态预测具有重要意义。由于风机处于频繁变工况的状态下,部分监测参数可能存在大幅波动,从而影响预测精度。因此针对风机参数这类具有时间特性的采样数据,本时刻的采样值与前段时间的采样值有关,即数据是连续变化的。在利用模型进行预测时,需要充分挖掘其输入序列中的时间信息。
3.长短期记忆网络(long short-term memory,lstm网络),是一种能够接受多个时刻输入的神经网络,它能够输入时刻t到时刻t-n的数据,在计算过程中基于时刻t-n输入数据得到的信息会被lstm网络隐含层神经元有选择地往下传递给时刻t-n+1的计算过程。利用lstm网络能够充分挖掘输入时间序列中的信息。
4.为提高模型的预测精度,需要对输入数据进行分类,因为同类型的数据其特征比较一致,有利于建模时获取规律。k-means聚类算法是一种迭代求解的聚类分析算法,它基于给定的聚类数目k,利用某个距离函数将样本数据划分到k个类别中,重复操作直到满足某个终止条件。
5.为提高对风机这类工业数据的预测精度,希望能够采用先进行分类再预测的方式进行预测,但常规的分类方法,如k-means聚类算法或cnn等,都是基于数据的幅值大小进行分类,而这样分类后得到的新数据组很可能会破坏原有数据的时间连续性,因此这样分类后是无法使用lstm网络这类要求输入时间连续的预测网络。因此亟需一种基于聚类和动态划分时间序列的电站风机状态预测方法,既可以通过分类提高子模型的预测精度,又可以利用lstm这类网络挖掘时间特性,并通过加权得到更优值,对提高对风机的预测精度具有重要意义。


技术实现要素:

6.本发明的目的是提供一种基于聚类和动态划分时间序列的电站风机状态预测方法,其特征在于,包括以下步骤:
7.s1:采集电站风机跨度时间一周的运行数据,采样周期为1min,对采集的数据集进行预处理,形成由单个采样点数据构成的时间序列;
8.s2:选取电站风机电流变化量δi=i
t-i
t-1
和电站风机电流i共同作为电站风机状态划分的基准参数;
9.s3:利用k-means聚类技术进行电站风机状态划分,设置状态分类数k=2;
10.s4:实现分类建模,根据s3的分类结果对原始数据进行标记,每类数据将对应一个
状态预测模型,从每类样本中选取数据,通过动态划分时间序列构造各状态预测模型的训练集和测试集,将电站风机电流作为预测的目标变量,为每个状态预测模型选取输入变量,利用相关分析方法或主成分分析方法,进行相应状态预测模型的训练及测试;
11.s5,在线预测时将数据同时输入各类状态预测模型,根据输入序列中的数据分类情况设置权重系数初始值,以最终计算所得值与实际观测值的偏差为指标,基于搜索算法对权重系数寻优,实现精确的电站风机状态预测。
12.所述s4中动态划分时间序列,包括如下步骤:
13.s41:将所述s1中时间序列,动态划分为多个长度为n的时间组序列;
14.s42:计算每个时间组序列的标签,所述标签的格式为:“a/n,b/n”;
15.其中:a为时间组中包含第一分类采样点的个数;b为时间组中包含第二分类采样点的个数;
16.s43:根据s42中时间组序列的标签,选取组内占比较大的采样点分类,作为该时间组序列的分类,并将该时间组序列加入各状态预测模型的训练集和测试集。
17.所述s41中动态划分为多个长度为n的时间组序列的步骤为:
18.选取时间序列中第1个到第n个采样点数据为第一个时间组;
19.选取时间序列中第2个到第n+1个采样点数据为第二个时间组;
20.以此类推,直到选取时间序列中最后一个采样点数据为止。
21.所述s4中每个状态预测模型选取的输入变量为:电站风机电流、电机功率、前轴承温度、电机前轴承温度、轴承水平振动、轴承垂直振动作。
22.所述s4中状态预测模型为lstm模型。
23.所述s5中基于搜索算法对权重系数寻优的步骤为:
24.s51:根据s42中得到的每个时间组序列的标签计算初始权重wi,即:w1=a/n,w2=b/n;
25.s52:为初始权重设置偏置bi,计算实际权重xi,即:x1=w1+b1,x2=w2+b2;
26.s53:确定需要搜索的参数为:b1,b2;
27.s54:将训练集的数据同时输入各类状态预测模型,得到预测输出值o1,o2;
28.s55:计算加权输出值为o=x1o1+x2o2;
29.s56:计算加权输出值与真实值的均方误差e;
30.s57:将e最小做为目标函数,b1,b2作为搜索变量,搜索范围设置为(0,0.1),利用遗传算法进行寻优,求解出b1,b2,完成权重系数寻优。
31.本发明的有益效果在于:
32.(1)提高风机状态的预测精度。现有研究中的风机状态划分方法只基于数据进行静态划分,没有充分利用输入时间序列中的信息。本方法基于k-means聚类算法对引风机状态进行划分后,仍沿时间序列构造状态预测模型的输入集及标签集进行训练,是一种动态划分方法。在线预测时根据此方法对输入序列进行动态划分和分类预测,适用于电站风机频繁变工况的特性,能有效提高预测精度。
33.(2)提高整体预测速度。使用搜索算法对各预测模型输出值的权重系数进行寻优,由于搜索问题可简化为简单的单目标线性寻优,能有效提高整体预测速度。
附图说明
34.图1为本发明公开基于聚类和动态划分时间序列的电站风机状态预测方法流程图;
35.图2为本发明实施例中利用k-means聚类技术进行电站风机状态划分的结果示意图;
36.图3为本发明实施例中4种预测方法的预测效果对比图。
具体实施方式
37.本发明提供一种基于聚类和动态划分时间序列的电站风机状态预测方法,以下结合附图对本发明作进一步的详细说明。如图1所示的本发明实施例公开一种基于聚类和动态划分时间序列的电站风机状态预测方法,具体包括如下步骤:
38.s1:采集电站风机跨度时间一周的运行数据,采样周期为1min,对采集的数据集进行预处理,形成由单个采样点数据构成的时间序列;
39.对采集的数据集进行预处理,并将前80%样本作为总体训练样本集,后20%作为总体验证样本集。所述预处理包括但不限定于对数据进行归一化处理。
40.s2:对风机数据进行分析,根据工程经验,考虑到电站风机电流i是表征引风机运行状态的重要参数,选取电站风机电流变化量δi=i
t-i
t-1
和电站风机电流i共同作为电站风机状态划分的基准参数;
41.选择电站风机电流变化量δi以及电站风机电流i不仅计算简单,而且能体现数据最基本的分布和变化特征,电站风机电流数据值反映数据的大小分布,电站风机电流变化量反映数据的变化特性。
42.s3:利用k-means聚类技术进行电站风机状态划分,设置状态分类数k=2;
43.利用k-means方法对引风机进行状态分类,在本实施例中选取最简单的分类情况,设置分类数量为2。分类结果如图2所示,k-means分类基于数据大小进行简单分类,数据的分布范围约为(28,40),根据分类结果:两个聚类中心点分别为(32.69,0.00181),(29.56,-0.00155)。
44.在本实施例中,k-means方法具有原理简单,易于实现的特点,过多的类别对预测效果没有显著改善,因此在本实施例中,仅基于数据大小将数据分为大数据类k1和小数据类k2,设置k1类数据的标签向量为(1,0),k2类标签向量为(0,1),采用简单的聚类分类方法能够有效提高模型预测的效率。
45.s4:实现分类建模,根据s3的分类结果对原始数据进行标记,即大数据类k1或小数据类k2,每类数据将对应一个状态预测模型,即d1和d2。从每类样本中选取数据,通过动态划分时间序列构造各状态预测模型的训练集和测试集,将电站风机电流作为预测的目标变量,为每个状态预测模型选取输入变量,利用相关分析方法或主成分分析方法,进行相应状态预测模型的训练及测试;
46.在本实施例中,所述s4中状态预测模型d1和d2均为lstm模型。
47.考虑到电站风机参数具有时间特性,在利用模型进行预测时,需要充分挖掘输入序列中的时间信息。lstm网络是一种能够接受多个时刻输入的神经网络,不同于普通的神经网络只能输入时刻t的数据去计算输出,lstm网络能够输入时刻t到时刻t-n的数据,在计
算过程中基于时刻t-n输入数据得到的信息会被lstm网络隐含层神经元有选择往下传递给时刻t-n+1的计算过程,即基于时刻t-n+1数据的计算过程中不仅能够利用时刻t-n+1的数据,还能够利用上一时刻即t-n传来的信息,以此类推,最终基于时刻t的计算输出就能包含其之前n个时刻的数据信息,充分利用lstm网络充分挖掘输入时间序列中的时间信息。
48.在s3中对时间序列中单个采样数据完成分类的基础上,为适应lstm网络的输入要求,利用lstm网络实现输入信息挖掘,需要进一步将单个数据构成的时间序列转化为时间组数据序列,即将时刻t到时刻t-n+1的n个采样数据组成一个时间组,将时间组输入lstm进行计算。
49.所述s4中动态划分时间序列,包括如下步骤:
50.s41:将所述s1中时间序列,动态划分为多个长度为n的时间组序列;
51.所述s41中动态划分为多个长度为n的时间组序列的步骤为:
52.选取时间序列中第1个到第n个采样点数据为第一个时间组;
53.选取时间序列中第2个到第n+1个采样点数据为第二个时间组;
54.以此类推,直到选取时间序列中最后一个采样点数据为止。
55.在本实施例中,上述分组方法能够使用较少的采集数据,最大限度的获得较多的时间组数据序列,即能够获得更丰富的状态预测模型的训练集和测试集,有助于提高状态预测模型的预测效果。
56.s42:计算每个时间组序列的标签,所述标签的格式为:“a/n,b/n”;
57.其中:a为时间组中包含第一分类采样点的个数;b为时间组中包含第二分类采样点的个数;
58.在本实施例中,按照时间组内两类数据的数量占比对时间组进行划分,即设置一个时间组中共有n个数据,其中k1类有a个,k2类有b个,则该时间组的标签为:“a/n,b/n”。依照上述标签设置方法,能够保证标签的取值范围位于0-1内,且标签内两个子值相加为1,满足归一化的要求。
59.s43:根据s42中时间组序列的标签,选取组内占比较大的采样点分类,作为该时间组序列的分类,并将该时间组序列加入各状态预测模型的训练集和测试集。
60.在本实施例中,为达到分类建模的目标,对时间组数据进行分类,以训练不同的lstm模型。同类型的数据其特征相对一致,有利于建模时获取规律。例如有一组数据分布在0-10之间,此时数据分布较为分散,若将其进一步细分为0-5和5-10两组进行特征抓取,此时每组内的数据分布变得集中,能够有效提高模型预测精度。
61.在本实施例中,在依次得到所有时间组的标签后,选取组内占比较大的采样点分类,将该时间组归入相应类别,即根据特征向量电流的分类结果对时间组进行对应划分。当全部划分完成后,将数据分为训练集(占总数据的80%)和验证集(20%),利用对应的数据完成两个lstm模型(d1、d2)的训练及验证。
62.所述s4中每个状态预测模型选取的输入变量为:电站风机电流、电机功率、前轴承温度、电机前轴承温度、轴承水平振动、轴承垂直振动作。
63.s5,在线预测时将数据同时输入各类状态预测模型,根据输入序列中的数据分类情况设置权重系数初始值,以最终计算所得值与实际观测值的偏差为指标,基于搜索算法对权重系数寻优,实现精确的电站风机状态预测。
64.所述s5中基于搜索算法对权重系数寻优的步骤为:
65.s51:根据s42中得到的每个时间组序列的标签计算初始权重wi,即:w1=a/n,w2=b/n;
66.s52:为初始权重设置偏置bi,计算实际权重xi,即:x1=w1+b1,x2=w2+b2;
67.s53:确定需要搜索的参数为:b1,b2;
68.s54:将训练集的数据同时输入各类状态预测模型,得到预测输出值o1,o2;
69.s55:计算加权输出值为o=x1o1+x2o2;
70.s56:计算加权输出值与真实值的均方误差e;
71.s57:将e最小做为目标函数,b1,b2作为搜索变量,搜索范围设置为(0,0.1),利用遗传算法进行寻优,求解出b1,b2,完成权重系数寻优。
72.在本实施中权重系数寻优得到的结果为:b1=0,b2=0.014。
73.至此完成本实施例公开一种基于聚类和动态划分时间序列的电站风机状态预测方法。通过动态划分时间序列的预测方法,使用分类技术提高子模型的预测精度,利用lstm网络挖掘时间特性,最后通过加权得到更优值,实现精确的电站风机状态预测。
74.本实施例的有效性可以通过下面的测试方法来进一步说明。
75.运行时,首先将采样数据中取出电流值作为特征变量,计算(i,

i)和两个聚类中心的欧氏距离,归一化后得到该采样点的分类标签,将各个采样点数据划分入k1和k2类;
76.再按所述s4中动态划分时间序列的方法,进一步将构造各个时间组,对时间组进行划分,得到时间组的标签值也就是初始权重w1,w2,叠加偏置b1,b2后得到实际权重x1,x2;
77.将采样数据同时输入两个训练好的lstm模型中得到相应预测输出o1,o2,按所述s55中算式计算得到加权输出值o。
78.建立并训练一个普通的lstm预测模型d,将同一组参数分别输入d、d1、d2,如图3所示,通过比较能够看出基于分类预测模型的加权计算值相对单一预测值具有更好的预测效果。四种模型的预测均方差对比结果如表1所示:
79.表1:四种模型的预测均方差对比表
[0080] msed0.4916d10.1839d20.3585加权预测值0.1770
[0081]
综上所述,由于初始权重w1,w2是根据每组输入数据的特征变量范围及其变化特性动态确定,实现了动态划分及预测。因此克服了常规的分类方法,基于数据的幅值大小进行分类,破坏原有数据的时间连续性,且无法使用要求输入时间连续的预测网络的问题。通过动态划分时间序列的预测方法,使用分类技术提高子模型的预测精度,利用lstm网络挖掘时间特性,最后通过加权得到更优值,实现精确的电站风机状态预测。

技术特征:
1.一种基于聚类和动态划分时间序列的电站风机状态预测方法,其特征在于,包括如下步骤:s1:采集电站风机跨度时间一周的运行数据,采样周期为1min,对采集的数据集进行预处理,形成由单个采样点数据构成的时间序列;s2:选取电站风机电流变化量δi=i
t-i
t-1
和电站风机电流i共同作为电站风机状态划分的基准参数;s3:利用k-means聚类技术进行电站风机状态划分,设置状态分类数k=2;s4:实现分类建模,根据s3的分类结果对原始数据进行标记,每类数据将对应一个状态预测模型,从每类样本中选取数据,通过动态划分时间序列构造各状态预测模型的训练集和测试集,将电站风机电流作为预测的目标变量,为每个状态预测模型选取输入变量,利用相关分析方法或主成分分析方法,进行相应状态预测模型的训练及测试;s5,在线预测时将数据同时输入各类状态预测模型,根据输入序列中的数据分类情况设置权重系数初始值,以最终计算所得值与实际观测值的偏差为指标,基于搜索算法对权重系数寻优,实现精确的电站风机状态预测。2.根据权利要求1所述的基于聚类和动态划分时间序列的电站风机状态预测方法,其特征在于,所述s4中动态划分时间序列,包括如下步骤:s41:将所述s1中时间序列,动态划分为多个长度为n的时间组序列;s42:计算每个时间组序列的标签,所述标签的格式为:“a/n,b/n”;其中:a为时间组中包含第一分类采样点的个数;b为时间组中包含第二分类采样点的个数;s43:根据s42中时间组序列的标签,选取组内占比较大的采样点分类,作为该时间组序列的分类,并将该时间组序列加入各状态预测模型的训练集和测试集。3.根据权利要求2所述的基于聚类和动态划分时间序列的电站风机状态预测方法,其特征在于,所述s41中动态划分为多个长度为n的时间组序列的步骤为:选取时间序列中第1个到第n个采样点数据为第一个时间组;选取时间序列中第2个到第n+1个采样点数据为第二个时间组;以此类推,直到选取时间序列中最后一个采样点数据为止。4.根据权利要求1所述的基于聚类和动态划分时间序列的电站风机状态预测方法,其特征在于,所述s4中每个状态预测模型选取的输入变量为:电站风机电流、电机功率、前轴承温度、电机前轴承温度、轴承水平振动、轴承垂直振动作。5.根据权利要求1所述的基于聚类和动态划分时间序列的电站风机状态预测方法,其特征在于,所述s4中状态预测模型为lstm模型。6.根据权利要求2所述的基于聚类和动态划分时间序列的电站风机状态预测方法,其特征在于,所述s5中基于搜索算法对权重系数寻优的步骤为:s51:根据s42中得到的每个时间组序列的标签计算初始权重w
i
,即:w1=a/n,w2=b/n;s52:为初始权重设置偏置b
i
,计算实际权重x
i
,即:x1=w1+b1,x2=w2+b2;s53:确定需要搜索的参数为:b1,b2;s54:将训练集的数据同时输入各类状态预测模型,得到预测输出值o1,o2;s55:计算加权输出值为o=x1o1+x2o2;
s56:计算加权输出值与真实值的均方误差e;s57:将e最小做为目标函数,b1,b2作为搜索变量,搜索范围设置为(0,0.1),利用遗传算法进行寻优,求解出b1,b2,完成权重系数寻优。

技术总结
本发明公开了属于电站风机状态预测技术领域的一种基于聚类动态划分时间序列的电站风机状态预测方法。在离线状态下利用能表征风机运行状态的监测参数数据,基于k-means聚类算法实现风机状态分类并对原始数据进行标记,根据标记好的数据训练相关状态预测模型。在线预测时将数据序列同时输入各状态预测模型,根据输入序列中的数据分类情况设置权重系数初始值,以最终计算值与实际观测值的偏差为指标,基于搜索算法对权重系数寻优,实现精确的电站风机状态预测。电站风机状态预测。电站风机状态预测。


技术研发人员:吕游 魏玮 陈江 曾卫东 樊启祥
受保护的技术使用者:华能集团技术创新中心有限公司 西安热工研究院有限公司
技术研发日:2023.03.27
技术公布日:2023/7/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐