基于高斯过程回归和深度学习的PM2.5浓度预测方法
未命名
10-19
阅读:145
评论:0
基于高斯过程回归和深度学习的pm2.5浓度预测方法
技术领域
1.本发明涉及软件应用技术领域,特别涉及基于高斯过程回归和深度学习的pm2.5浓度预测方法。
背景技术:
2.pm2.5又称细颗粒物,细颗粒。它是指环境空气中空气动力学当量直径≤2.5微米的可入肺颗粒物。它能较长时间悬浮于空气中,是空气质量监测和城市空气污染的关键指标之一。随着公众环保意识的不断提高,以pm2.5为代表的特征污染物的区域性复合型大气污染引起政府乃至全社会各方面人士的广泛关注。为此建立合理、准确的pm2.5浓度预测模型,可以有助于制定有效的预防措施,规划政府的社会活动,从而避免严重的空气污染带来的危害。
3.pm2.5浓度数据作为典型的时空序列数据,具有空间上的聚集性、时间上的周期性、时空关联性和不确定性突变性等特点。因此通过传统的数值方法对pm2.5浓度进行预测时效果不佳。
4.近年来人工智能发展迅速,并与多种应用场景深度融合。它强大的学习能力和推理能力引起了很多学者的关注。人工神经网络作为应用广泛的人工智能技术之一,是模拟非线性现象的重要工具,可以弥补传统递归方法的不足,因此适用于pm2.5浓度的预测。随着空气质量持续改善进程的推进,单一时间的单点pm2.5浓度预测值已不能满足为智能决策系统提供更全面信息的要求。相对于单点预测,区间预测可以成功捕捉到预期结果的不确定性,为量化时间序列预测的不确定性和提高模型的稳健性提供了一个新的框架。而高斯过程回归作为一种用于非线性回归问题的非参数概率技术,提供了由估计方差解释的预测不确定性。此外高斯过程回归的协方差函数是由捕捉许多函数特性的基核组成的,非常适合用于一系列实际的预测应用,使得高斯过程回归开发的混合模型在对具有复杂属性的系统进行建模时具有高度的适应性和灵活性。
5.因此,如何将深度学习与高斯过程回归融合产生新的混合模型,使其在点预测和区间预测方面表现优异,是亟需解决的理论和实际工程问题。
技术实现要素:
6.本发明实施例提供的基于高斯过程回归和深度学习的pm2.5浓度预测方法,包括:
7.步骤1:获取pm2.5浓度历史数据;所述pm2.5浓度历史数据包括为pm2.5浓度真实值的输入变量和为pm2.5浓度预测值的输出变量;
8.步骤2:按照预设比例将所述pm2.5浓度历史数据划分成训练数据集及测试数据集,并对所述训练数据集和所述测试数据集进行预处理;
9.步骤3:构建融合卷积神经网络和长短时记忆网络的pm2.5浓度点预测模型,将预处理后的所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取理想参数,并基于所述理想参数,对所述pm2.5浓度点预测模型进行配置;
10.步骤4:将预处理后的所述测试数据集输入至配置完成的所述pm2.5浓度点预测模型,获得所述输出变量的点预测结果;
11.步骤5:构建高斯过程回归和深度学习的pm2.5浓度预测混合模型,将所述点预测结果输入至所述pm2.5浓度预测混合模型,获得所述点预测结果对应的概率分布函数和预测区间。
12.优选的,所述步骤2中,对所述训练数据集和所述测试数据集进行预处理,包括:
13.对所述训练数据集和所述测试数据集中的异常值进行筛查与剔除;
14.对筛查与剔除结果进行归一化处理,归一化处理公式如下:
15.y
*
=(y-min)/(max-min)
16.其中,y为筛查与剔除结果中的任一原始数据值,min为筛查与剔除结果中最小的原始数据值,max为筛查与剔除结果中最大的原始数据值,y
*
为筛查与剔除结果中的任一原始数据值对应的已归一化数据值。
17.优选的,所述步骤3中,将预处理后的所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取理想参数,包括:
18.设置所述pm2.5浓度点预测模型的神经网络参数;
19.将所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取每次训练的准确度和对应优化参数;
20.将最大所述准确度对应的所述优化参数作为理想参数;
21.其中,设置所述pm2.5浓度点预测模型的神经网络参数,包括:
22.将所述pm2.5浓度点预测模型的cnn层初始化函数设置为kaiming;
23.将所述pm2.5浓度点预测模型的lstm、clstm、gru层初始化函数设置为orthogonal;
24.将所述pm2.5浓度点预测模型的优化器设置为adam;
25.将所述pm2.5浓度点预测模型的学习率设置为1e-3;
26.将所述pm2.5浓度点预测模型的损失函数设置为mse;
27.将所述pm2.5浓度点预测模型的批大小设置为20;
28.将所述pm2.5浓度点预测模型的丢弃率设置为0.2。
29.优选的,所述步骤5,还包括:
30.计算得出的点预测、区间预测的各项指标,并将pm2.5浓度预测混合模型与cnn-gpr模型、lstm-gpr模型、gpr模型作对比,得出较优的模型,
31.所述点预测的指标按照以下公式计算:
[0032][0033][0034]
[0035][0036]
其中,yi是第i个观测值,var是第i个观测值的平均值,yi为pm2.5浓度预测混合模型、cnn-gpr模型、lstm-gpr模型、gpr模型进行pm2.5预测输出的第i个预测值,是方差,n是预测样本个数,e和σ为运算符,mae为平均绝对误差,rmse为平均平方根误差,r为相关系数;
[0037]
所述区间预测的指标按照以下公式计算:
[0038][0039][0040][0041][0042]
其中,是第i个点预测值的预测区间上限,是第i个点预测值的预测区间下限,α是可信度。
[0043]
优选的,所述步骤1中,获取pm2.5浓度历史数据,包括:
[0044]
获取目标区域对应的预设的pm2.5监测站点分布图;
[0045]
对所述pm2.5监测站点分布图进行预处理,获得可信站点分布图;
[0046]
基于所述可信站点分布图,确定监测缺失点位;
[0047]
基于所述监测缺失点位和所述目标区域对应的预设的区域地图,规划移动监测路线;
[0048]
基于所述移动监测路线,控制移动监测小车对所述监测缺失点位进行pm2.5监测,获取第一历史监测数据;
[0049]
获取所述可信站点分布图中每一可信站点进行pm2.5监测的第二历史监测数据;
[0050]
整合所述第一历史监测数据和所述第二历史监测数据,获得pm2.5浓度历史数据。
[0051]
优选的,对所述pm2.5监测站点分布图进行预处理,包括:
[0052]
依次遍历所述pm2.5监测站点分布图中每一pm2.5监测站点;
[0053]
每次遍历时,基于预设的信息获取模板,获取遍历到的所述pm2.5监测站点的站点信息;
[0054]
基于预设的第一特征提取模板,对所述站点信息进行特征提取,获得多个第一特征;
[0055]
将所述第一特征与预设的指示特征库中的第二特征进行匹配,若匹配符合,获取匹配符合的所述第二特征对应的预设的第二特征提取模板和特征要求;
[0056]
基于所述第二特征提取模板,对所述站点信息进行特征提取,获得多个第三特征;
[0057]
判断所述第三特征是否满足所述特征要求,若否,从所述pm2.5监测站点分布图中
剔除遍历到的所述pm2.5监测站点;
[0058]
当需要剔除的所述所述pm2.5监测站点均剔除后,将所述pm2.5监测站点分布图作为可信站点分布图。
[0059]
优选的,基于所述可信站点分布图,确定监测缺失点位,包括:
[0060]
在所述所述可信站点分布图中以每一可信站点为圆心,预设的半径长度长为半径,作圆形范围;
[0061]
基于预设的网格划分规则规则,将所述可信站点分布图划分成多个网格区域;
[0062]
依次遍历每一所述网格区域;
[0063]
每次遍历时,提取遍历到的所述网格区域中除所述圆形范围之外的剩余区域;
[0064]
基于预设的第三特征提取模板,对所述剩余区域进行特征提取,获得多个第四特征;
[0065]
汇总所述第四特征,获得第四特征集;
[0066]
将所述第四特征集与预设的指标特征集进行匹配,获取匹配度;
[0067]
若所述匹配度大于等于预设的匹配度阈值,基于监测缺失点位设置要求,在所述剩余区域内设置监测缺失点位;
[0068]
将设置的监测缺失点位作为新的可信站点,以新的可信站点为圆心,所述半径长度长为半径,作新的圆形范围;
[0069]
继续遍历所述所述网格区域;
[0070]
其中,所述监测缺失点位设置要求,包括:
[0071]
设置的监测缺失点位与设置的监测缺失点位周边任一所述圆形范围的圆心的第一直线距离大于等于预设的第一直线距离阈值且设置的监测缺失点位与设置的监测缺失点位周边任一所述圆形范围的最小直线距离大于等于预设的第二直线距离阈值且设置的任意两两监测缺失点位之间的第三直线距离大于等于预设的第三直线距离阈值。
[0072]
优选的,基于所述监测缺失点位和所述目标区域对应的预设的区域地图,规划移动监测路线,包括:
[0073]
确定所述区域地图中对应于所述监测缺失点位的地图位置;
[0074]
确定所述地图位置中与预设的监测小车初始位置之间的第四直线距离最小的目标地图位置;
[0075]
以所述目标地图位置为路线起点,规划途经其余所述地图位置的最短路线,并作为移动监测路线。
[0076]
本发明的有益效果如下。
[0077]
1、卷积神经网络和长短时记忆网络可以用来充分提取过程数据的信息,提高模型处理复杂非线性数据的能力。用高斯过程回归来收集数据,产生精确的区间预测。
[0078]
2、基于高斯过程回归和深度学习的pm2.5浓度预测方法,通过整合卷积神经网络提取的空间信息和长短时记忆网络提取的时间特征,并使用高斯回归过程模型进行区间预测,能够实现对pm2.5浓度的准确预测,上述方法根据每日pm2.5浓度的变化,预测出未来时间的pm2.5浓度,同时给出点预测结果和对应的区间预测结果,输出结果具有良好的可信性。
[0079]
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变
得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0080]
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
[0081]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0082]
图1是根据本发明的方法的总体流程图。
[0083]
图2是根据本发明实施例中的clstm模型结构示意图。
[0084]
图3是根据本发明实施例中的数据集的划分、预测的实施示意图。
[0085]
图4是根据本发明实施例中的clstm与gpr混合模型流程图。
[0086]
图5是根据本发明实施例中的点预测结果图a。
[0087]
图6是根据本发明实施例中的点预测结果图b。
[0088]
图7是根据本发明实施例中的区间预测结果图a。
[0089]
图8是根据本发明实施例中的区间预测结果图b。
[0090]
图9是根据本发明实施例中的四种模型的点预测结果比较表。
[0091]
图10是根据本发明实施例中的四种模型的区间预测结果比较表。
具体实施方式
[0092]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0093]
本发明实施例提供了基于高斯过程回归和深度学习的pm2.5浓度预测方法,如图1所示,包括:
[0094]
步骤1:获取pm2.5浓度历史数据;所述pm2.5浓度历史数据包括为pm2.5浓度真实值的输入变量和为pm2.5浓度预测值的输出变量;
[0095]
步骤2:按照预设比例将所述pm2.5浓度历史数据划分成训练数据集及测试数据集,并对所述训练数据集和所述测试数据集进行预处理;
[0096]
步骤3:构建融合卷积神经网络和长短时记忆网络的pm2.5浓度点预测模型,将预处理后的所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取理想参数,并基于所述理想参数,对所述pm2.5浓度点预测模型进行配置;
[0097]
步骤4:将预处理后的所述测试数据集输入至配置完成的所述pm2.5浓度点预测模型,获得所述输出变量的点预测结果;点预测结果就是一个单纯的数,例如63;
[0098]
步骤5:构建高斯过程回归和深度学习的pm2.5浓度预测混合模型,将所述点预测结果输入至所述pm2.5浓度预测混合模型,获得所述点预测结果对应的概率分布函数和预测区间。比如点预测结果是a,预测区间就为[a-1.96σ,a+1.96σ],σ为pm2.5浓度预测混合模型产生的一个参数,概率分布函数为点预测结果发生概率分布;
[0099]
所述步骤2中,对所述训练数据集和所述测试数据集进行预处理,包括:
[0100]
对所述训练数据集和所述测试数据集中的异常值进行筛查与剔除;筛查与剔除时可设定阈值,当异常值大于阈值时,进行剔除;
[0101]
对筛查与剔除结果进行归一化处理,归一化处理公式如下:
[0102]y*
=(y-min)/(max-min)
[0103]
其中,y为筛查与剔除结果中的任一原始数据值,min为筛查与剔除结果中最小的原始数据值,max为筛查与剔除结果中最大的原始数据值,y
*
为筛查与剔除结果中的任一原始数据值对应的已归一化数据值。
[0104]
所述步骤3中,将预处理后的所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取理想参数,包括:
[0105]
设置所述pm2.5浓度点预测模型的神经网络参数;
[0106]
将所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取每次训练的准确度和对应优化参数;
[0107]
将最大所述准确度对应的所述优化参数作为理想参数;
[0108]
其中,设置所述pm2.5浓度点预测模型的神经网络参数,包括:
[0109]
将所述pm2.5浓度点预测模型的cnn层初始化函数设置为kaiming;
[0110]
将所述pm2.5浓度点预测模型的lstm、clstm、gru层初始化函数设置为orthogonal;
[0111]
将所述pm2.5浓度点预测模型的优化器设置为adam;
[0112]
将所述pm2.5浓度点预测模型的学习率设置为1e-3;
[0113]
将所述pm2.5浓度点预测模型的损失函数设置为mse;
[0114]
将所述pm2.5浓度点预测模型的批大小设置为20;
[0115]
将所述pm2.5浓度点预测模型的丢弃率设置为0.2。
[0116]
所述步骤5,还包括:
[0117]
计算得出的点预测、区间预测的各项指标,并将pm2.5浓度预测混合模型与cnn-gpr模型、lstm-gpr模型、gpr模型作对比,得出较优的模型,
[0118]
所述点预测的指标按照以下公式计算:
[0119][0120][0121][0122][0123]
其中,yi是第i个观测值,var是第i个观测值的平均值,yi为pm2.5浓度预测混合模型、cnn-gpr模型、lstm-gpr模型、gpr模型进行pm2.5预测输出的第i个预测值,是方差,n是预测样本个数,e和σ为运算符,mae为平均绝对误差,rmse为平均平方根误差,r为相关系数;
[0124]
所述区间预测的指标按照以下公式计算:
[0125][0126][0127][0128][0129]
其中,是第i个点预测值的预测区间上限,是第i个点预测值的预测区间下限,α是可信度。
[0130]
上述技术方案的工作原理及有益效果为:
[0131]
s100、选取环境监测站的每日pm2.5浓度历史数据,所述历史数据包括输入变量及输出变量,并且将所述数据集划分训练数据集及测试数据集,然后对所述训练数据集及测试数据集进行数据预处理;
[0132]
s200、构建融合卷积神经网络和长短时记忆网络的pm2.5浓度点预测模型,将所述训练数据集输入所述pm2.5浓度点预测模型进行训练,对模型进行多次试验得到理想参数,再利用所述参数输入所述pm2.5浓度点预测模型提升模型表现效果;
[0133]
s300、将所述测试数据集输入训练好的所述pm2.5浓度点预测模型,得到所述输出变量的点预测结果;
[0134]
s400、构建基于高斯过程回归和深度学习的pm2.5浓度预测混合模型,将所述输出变量的点预测结果输入训练好的所述pm2.5浓度预测混合模型,得到所述输出变量的点预测结果和对应的概率分布函数,以及输出变量点预测结果对应的预测区间。
[0135]
对于步骤s100
[0136]
s100、选取环境监测站的每日pm2.5浓度历史数据,所述历史数据包括输入变量及输出变量,并且将所述数据集划分训练数据集及测试数据集,然后对所述训练数据集及测试数据集进行数据预处理。
[0137]
所述步骤s100包含以下步骤:
[0138]
s110、对所述数据集按照8:2的比例进行划分训练数据集及测试数据集后,构建一次的所述训练数据集及所述测试数据集,
[0139]
s120、对所述数据集中的异常值进行筛查与剔除,然后通过以下公式对数据集实施归一化处理:
[0140]y*
=(y-min)/(max-min)
[0141]
其中,y为输入变量的原始数据值,min是输入变量中每组原始数据的最小值,max是输入变量中每组原始数据的最大值,y
*
为输入变量中每组原始数据对应的已归一化数据值。
[0142]
其中,所述输入变量包括监测站点每日pm2.5浓度历史数据,所述输出变量包括每日pm2.5浓度预测值。
[0143]
对于步骤s200
[0144]
s200、构建融合卷积神经网络和长短时记忆网络的pm2.5浓度点预测模型,将所述训练数据集输入所述pm2.5浓度点预测模型进行训练,对模型进行多次试验得到理想参数,再利用所述参数输入所述pm2.5浓度点预测模型提升模型表现效果。
[0145]
所述步骤s200包含以下步骤:
[0146]
s210、设置所述pm2.5浓度点预测模型的神经网络参数,所述模型包括输入层、隐藏层及输出;
[0147]
s220、训练所述pm2.5浓度点预测模型,根据多次训练的准确度,优化参数,最终得到最优的参数及最优模型。
[0148]
其中,所述参数包括输入层的神经元数、隐藏层的神经元数、输出层的神经元数、学习率、批大小及迭代次数。
[0149]
对于步骤s300
[0150]
s300、将所述测试数据集输入训练好的所述pm2.5浓度点预测模型,得到所述输出变量的点预测结果。
[0151]
对于步骤s400
[0152]
s400、构建基于高斯过程回归和深度学习的pm2.5浓度预测混合模型,将所述输出变量的点预测结果输入训练好的所述pm2.5浓度预测混合模型,得到所述输出变量的点预测结果和对应的概率分布函数,以及输出变量点预测结果对应的预测区间。
[0153]
所述步骤s400包含以下步骤:
[0154]
s410、将前一次的训练集及测试集中的输入变量作为一次的训练集与测试集中的输入变量,将所述输出变量的点预测结果,构建后一次作为二次的训练集及测试集的输出变量;
[0155]
s420、将二次的所述训练集及测试集输入到所述pm2.5浓度预测混合模型,得到所述输出变量的点预测结果和对应的概率分布函数,以及输出变量点预测结果对应的预测区间;
[0156]
s430、基于所述概率分布函数的均值、标准差以及预设置信度,确定各点预测结果在预设置信度下的预测区间。
[0157]
其中,在计算点预测指标中的名词解释:
[0158]
(1)均方根误差rmse:用于计算预测值与观测值偏差的平方和与观测次数比值的平方根,rmse越大说明预测值误差越大。
[0159]
(2)平均绝对百分比误差mae:用于计算预测值与观测值的平均绝对误差的百分比,mape越小说明预测模型越完美。
[0160]
(3)相关系数r:用于衡量预测值与真实值的线性相关程度。
[0161]
(4)决定系数r2:用于衡量预测值与真实值的偏离程度,在0~1之间,越接近1表明预测值与真实值越吻合。
[0162]
所述点预测的指标按照以下公式计算:
[0163]
[0164][0165][0166][0167]
其中,yi是第i个观测值,var是第i个观测值的平均值,yi是第i个预测值,是方差,n是预测样本个数。
[0168]
其中,在计算区间预测中的名词解释:
[0169]
(1)区间覆盖率cp:用于计算预测区间覆盖观测值的百分比,cp越接近1,则说明区间覆盖的观测值越多;
[0170]
(2)区间平均宽度maw:用于计算预测区间的平均宽度,maw越小,则说明区间预测可靠性越高;
[0171]
(3)区间预测的综合指标mc:综合maw与cp的指标,mc值越小说明区间预测效果越好。
[0172]
所述区间预测的指标按照以下公式计算:
[0173][0174][0175][0176][0177]
其中,是第i个点预测值的预测区间上限,是第i个点预测值的预测区间下限,α是可信度。
[0178]
将计算得出的点预测和区间预测的评价指标,并与cnn-gpr模型、lstm-gpr模型及gpr模型作对比,得出较优的模型,结合图5至图8。
[0179]
具体地,参照图9表格中点预测结果所示:在点预测中,对于监测站点1和2,以上四种模型的预测精度均较好,gpr模型表现最差,说明深度学习模型在点预测方面表现优异,获得更高的预测精度。其中clstm-gpr模型的四项指标均优其他模型,说明本发明方案的方法得到的点预测结果精度最高。
[0180]
参照图10表格中区间预测结果所示:在区间预测中,对于监测站点1和2的预测,以上四种模型的比较呈现一样的趋势:均有较高的cp,gpr模型略胜一筹;对于mwp,gpr模型的预测区间最大;但对于综合指标mc,clstm-gpr最小,说明本发明方案的方法得到的区间预测结果综合表现最好。
[0181]
图2是clstm模型结构示意图。input gate为输入层,forget gate为遗忘层,output gate是输出层,c
t-1
、h
t-1
、x
t
为输入,o
t
,c
t
,h
t
为输出,图2已更新图;图3是数据集的划分、预测的实施示意图。dataset1为数据集1,dataset2为数据集2,peridod为时间,train data为训练数据集,test data为测试数据集;图4是clstm与gpr混合模型流程图。test set为测试集;train set为训练集;deep learning model training为深度学习模型训练;gpr model training为gpr模型训练;intervals parameters为区间参数;图5是点预测结果图a。图6是点预测结果图b。图7是区间预测结果图a。图8是区间预测结果图b。图9是四种模型的点预测结果比较表。图10是四种模型的区间预测结果比较表。rmse(root mean squared error)均方根误差;mae(mean absolute error)平均绝对误差;相关系数r,是用来衡量两个变量之间相关性的强弱;决定系数r2,对模型进行线性回归后,评价回归模型系数拟合优度。cp(coverage probability)覆盖率,定义为观测值落在预测区间内的概率;mwp(mean width percentage)平均宽度百分比,定义为间隔宽度对观察的平均百分比;mc为mwp/cp自定义的指标。图5、6、7和8中的cnn分别为cnn-gpr,lstm为lstm-gpr,clstm为clstm-gpr。图5、6、9可得出clstm-gpr模型对1号和2号监测站的pm2.5浓度都取得了良好的点预测结果。主要是看图9点预测指标,图5、6只是辅助。图7、8、10是可得出clstm-gpr模型对1号和2号监测站的pm2.5浓度都取得了良好的区间预测结果。主要是看图10的区间预测指标。
[0182]
本技术卷积神经网络和长短时记忆网络可以用来充分提取过程数据的信息,提高模型处理复杂非线性数据的能力。用高斯过程回归来收集数据,产生精确的区间预测。基于高斯过程回归和深度学习的pm2.5浓度预测方法,通过整合卷积神经网络提取的空间信息和长短时记忆网络提取的时间特征,并使用高斯回归过程模型进行区间预测,能够实现对pm2.5浓度的准确预测,上述方法根据每日pm2.5浓度的变化,预测出未来时间的pm2.5浓度,同时给出点预测结果和对应的区间预测结果,输出结果具有良好的可信性。
[0183]
在一个实施例中,所述步骤1中,获取pm2.5浓度历史数据,包括:
[0184]
获取目标区域对应的预设的pm2.5监测站点分布图;
[0185]
对所述pm2.5监测站点分布图进行预处理,获得可信站点分布图;
[0186]
基于所述可信站点分布图,确定监测缺失点位;
[0187]
基于所述监测缺失点位和所述目标区域对应的预设的区域地图,规划移动监测路线;
[0188]
基于所述移动监测路线,控制移动监测小车对所述监测缺失点位进行pm2.5监测,获取第一历史监测数据;
[0189]
获取所述可信站点分布图中每一可信站点进行pm2.5监测的第二历史监测数据;
[0190]
整合所述第一历史监测数据和所述第二历史监测数据,获得pm2.5浓度历史数据。
[0191]
上述技术方案的工作原理及有益效果为:
[0192]
目标区域为需要进行pm2.5浓度预测的区域,例如:广州市天河区等。目标区域对应的预设的pm2.5监测站点分布图为目标区域内pm2.5监测站点的分布示意图,pm2.5监测站点为pm2.5监测仪等。但是,pm2.5监测站点的分布不一定均匀,需要确定监测缺失点位,控制移动监测小车对监测缺失点位进行pm2.5监测,移动监测小车上配备pm2.5监测仪等。目标区域对应的预设的区域地图为标记有建筑和道路等的地图。另外,pm2.5监测站点由于遭破坏、老旧、维护不及时等原因可能会出现监测不精准,导致监测数据不可信,因此,还需
筛选出可信站点。整合可信站点的第一历史监测数据和移动监测小车的第二历史监测数据,则获得pm2.5浓度历史数据。其次,可信站点与移动监测小车在进行pm2.5监测时,均会进行pm2.5浓度实时监测以及pm2.5浓度预测,则获得输入变量和输出变量。利用可信站点与移动监测小车的配合,对目标区域内进行均匀pm2.5浓度监测,提升了pm2.5浓度历史数据获取的全面性和精准性。将pm2.5浓度历史数据输入至神经网络模型进行训练至收敛后得到能够代替人工进行pm2.5浓度预测的人工智能模型,获取最近时间段内的pm2.5浓度监测数据,输入该人工智能模型,则可进行pm2.5浓度预测。
[0193]
在一个实施例中,对所述pm2.5监测站点分布图进行预处理,包括:
[0194]
依次遍历所述pm2.5监测站点分布图中每一pm2.5监测站点;
[0195]
每次遍历时,基于预设的信息获取模板,获取遍历到的所述pm2.5监测站点的站点信息;
[0196]
基于预设的第一特征提取模板,对所述站点信息进行特征提取,获得多个第一特征;
[0197]
将所述第一特征与预设的指示特征库中的第二特征进行匹配,若匹配符合,获取匹配符合的所述第二特征对应的预设的第二特征提取模板和特征要求;
[0198]
基于所述第二特征提取模板,对所述站点信息进行特征提取,获得多个第三特征;
[0199]
判断所述第三特征是否满足所述特征要求,若否,从所述pm2.5监测站点分布图中剔除遍历到的所述pm2.5监测站点;
[0200]
当需要剔除的所述所述pm2.5监测站点均剔除后,将所述pm2.5监测站点分布图作为可信站点分布图。
[0201]
上述技术方案的工作原理及有益效果为:
[0202]
对照预设的信息获取模板,获取能够用于验证pm2.5监测站点监测数据是否可信的站点信息,包括:设备型号信息、投入使用时长信息和维护记录信息等。对照预设的第一特征提取模板,提取出站点信息的能够反映以哪一角度验证pm2.5监测站点监测数据是否可信的第一特征,包括:站点信息类型有设备型号、站点信息类型有投入使用时长和站点信息类型有维护记录等。预设的指示特征库中的第二特征为识别站点信息以哪一角度验证监测数据是否可信的特征,例如:第二特征为站点信息类型有维护记录,则从维护记录的角度进行验证。将第一特征与第二特征进行匹配,若匹配符合,确定验证角度,获取匹配符合的第二特征对应的预设的第二特征提取模板和特征要求,第二特征提取模板和特征要求为从确定的验证角度进行验证的验证工具,例如:验证角度为从维护记录的角度进行验证,则第二特征提取模板为从维护记录信息中提取历史维护频率和最近一次维护时间与当前时间的时间间隔,特征要求为历史维护频率≥3次/月,最近一次维护时间与当前时间的时间间隔≤12天。基于验证工具,对pm2.5监测站点进行剔除,全部剔除后,获得可信站点分布图。引入预设的指示特征库,快速确定从哪一角度验证pm2.5监测站点监测数据是否可信,减少了验证资源,提升了验证效率,另外,引入验证工具即第二特征提取模板和特征要求,快速对pm2.5监测站点进行可信验证,必要时进行剔除,提升了预处理的效率。
[0203]
在一个实施例中,基于所述可信站点分布图,确定监测缺失点位,包括:
[0204]
在所述可信站点分布图中以每一可信站点为圆心,预设的半径长度长为半径,作圆形范围;
[0205]
基于预设的网格划分规则规则,将所述可信站点分布图划分成多个网格区域;
[0206]
依次遍历每一所述网格区域;
[0207]
每次遍历时,提取遍历到的所述网格区域中除所述圆形范围之外的剩余区域;
[0208]
基于预设的第三特征提取模板,对所述剩余区域进行特征提取,获得多个第四特征;
[0209]
汇总所述第四特征,获得第四特征集;
[0210]
将所述第四特征集与预设的指标特征集进行匹配,获取匹配度;
[0211]
若所述匹配度大于等于预设的匹配度阈值,基于监测缺失点位设置要求,在所述剩余区域内设置监测缺失点位;
[0212]
将设置的监测缺失点位作为新的可信站点,以新的可信站点为圆心,所述半径长度长为半径,作新的圆形范围;
[0213]
继续遍历所述网格区域;
[0214]
其中,所述监测缺失点位设置要求,包括:
[0215]
设置的监测缺失点位与设置的监测缺失点位周边任一所述圆形范围的圆心的第一直线距离大于等于预设的第一直线距离阈值且设置的监测缺失点位与设置的监测缺失点位周边任一所述圆形范围的最小直线距离大于等于预设的第二直线距离阈值且设置的任意两两监测缺失点位之间的第三直线距离大于等于预设的第三直线距离阈值。
[0216]
上述技术方案的工作原理及有益效果为:
[0217]
预设的网格划分规则规则为将可信站点分布图划分成mxn(m行n列)个网格区域,行间距和列间距相同。预设的半径长度为,例如:300米。剩余区域为可信站点监测覆盖之外的区域,对照预设的第三特征提取模板,提取出剩余区域的能够反应剩余区域内是否需要设置监测缺失点位的第四特征,包括:剩余区域总面积和区域质心与区域边界线上任一点的直线距离等。预设的指标特征集为由能够说明剩余区域内需要设置监测缺失点位的特征构成,例如:剩余区域总面积≥0.3平方公里(反映未能进行pm2.5监测的区域较大),区域质心与区域边界线上任一点的直线距离≥120米的距离数目占比≥70%(反映未能进行pm2.5监测的区域较集中)。将第四特征集与指标特征集进行匹配,获取匹配度,若匹配度大于等于预设的匹配度阈值,基于监测缺失点位设置要求,在剩余区域内设置监测缺失点位。将设置的监测缺失点位作为新的可信站点,以新的可信站点为圆心,半径长度长为半径,作新的圆形范围,目的是后续再进行监测缺失点位设置时避免重复设置。监测缺失点位设置要求是为了使得设置的监测缺失点位再形成新的圆形范围后尽可能与原先的圆形范围重叠范围最小,提升监测效率和利用率。引入预设的第三特征提取模板和预设的指标特征集,快速确定剩余区域内是否需要进行监测缺失点位设置,提升了系统的工作效率,另外,引入监测缺失点位设置要求,提升了在剩余区域内设置监测缺失点位的合理性。
[0218]
在一个实施例中,基于所述监测缺失点位和所述目标区域对应的预设的区域地图,规划移动监测路线,包括:
[0219]
确定所述区域地图中对应于所述监测缺失点位的地图位置;
[0220]
确定所述地图位置中与预设的监测小车初始位置之间的第四直线距离最小的目标地图位置;
[0221]
以所述目标地图位置为路线起点,规划途经其余所述地图位置的最短路线,并作
为移动监测路线。
[0222]
上述技术方案的工作原理及有益效果为:
[0223]
预设的监测小车初始位置为监测小车出发位置,例如:监测小车仓库等。以第四直线距离最小选取路线起点,规划移动监测路线,无需监测小车开始前往时花费太多时间,提升监测调度效率。另外,监测小车会自适应识别监测缺失点位是否抵达,若否,则前往监测缺失点位最近的能够抵达位置进行pm2.5监测作为监测缺失点位的pm2.5浓度监测数据。
[0224]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
技术特征:
1.一种基于高斯过程回归和深度学习的pm2.5浓度预测方法,其特征在于,包括:步骤1:获取pm2.5浓度历史数据;所述pm2.5浓度历史数据包括为pm2.5浓度真实值的输入变量和为pm2.5浓度预测值的输出变量;步骤2:按照预设比例将所述pm2.5浓度历史数据划分成训练数据集及测试数据集,并对所述训练数据集和所述测试数据集进行预处理;步骤3:构建融合卷积神经网络和长短时记忆网络的pm2.5浓度点预测模型,将预处理后的所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取理想参数,并基于所述理想参数,对所述pm2.5浓度点预测模型进行配置;步骤4:将预处理后的所述测试数据集输入至配置完成的所述pm2.5浓度点预测模型,获得所述输出变量的点预测结果;步骤5:构建高斯过程回归和深度学习的pm2.5浓度预测混合模型,将所述点预测结果输入至所述pm2.5浓度预测混合模型,获得所述点预测结果对应的概率分布函数和预测区间。2.如权利要求1所述的一种基于高斯过程回归和深度学习的pm2.5浓度预测方法,其特征在于,所述步骤2中,对所述训练数据集和所述测试数据集进行预处理,包括:对所述训练数据集和所述测试数据集中的异常值进行筛查与剔除;对筛查与剔除结果进行归一化处理,归一化处理公式如下:y
*
=(y-min)/(max-min)其中,y为筛查与剔除结果中的任一原始数据值,min为筛查与剔除结果中最小的原始数据值,max为筛查与剔除结果中最大的原始数据值,y
*
为筛查与剔除结果中的任一原始数据值对应的已归一化数据值。3.如权利要求1所述的一种基于高斯过程回归和深度学习的pm2.5浓度预测方法,其特征在于,所述步骤3中,将预处理后的所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取理想参数,包括:设置所述pm2.5浓度点预测模型的神经网络参数;将所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取每次训练的准确度和对应优化参数;将最大所述准确度对应的所述优化参数作为理想参数;其中,设置所述pm2.5浓度点预测模型的神经网络参数,包括:将所述pm2.5浓度点预测模型的cnn层初始化函数设置为kaiming;将所述pm2.5浓度点预测模型的lstm、clstm、gru层初始化函数设置为orthogonal;将所述pm2.5浓度点预测模型的优化器设置为adam;将所述pm2.5浓度点预测模型的学习率设置为1e-3;将所述pm2.5浓度点预测模型的损失函数设置为mse;将所述pm2.5浓度点预测模型的批大小设置为20;将所述pm2.5浓度点预测模型的丢弃率设置为0.2。4.如权利要求1所述的一种基于高斯过程回归和深度学习的pm2.5浓度预测方法,其特征在于,所述步骤5,还包括:计算得出的点预测、区间预测的各项指标,并将pm2.5浓度预测混合模型与cnn-gpr模
型、lstm-gpr模型、gpr模型作对比,得出较优的模型,所述点预测的指标按照以下公式计算:所述点预测的指标按照以下公式计算:所述点预测的指标按照以下公式计算:所述点预测的指标按照以下公式计算:其中,y
i
是第i个观测值,var是第i个观测值的平均值,y
i
为pm2.5浓度预测混合模型、cnn-gpr模型、lstm-gpr模型、gpr模型进行pm2.5预测输出的第i个预测值,是方差,n是预测样本个数,e和σ为运算符,mae为平均绝对误差,rmse为平均平方根误差,r为相关系数;所述区间预测的指标按照以下公式计算:所述区间预测的指标按照以下公式计算:所述区间预测的指标按照以下公式计算:所述区间预测的指标按照以下公式计算:其中,u
i(α)
是第i个点预测值的预测区间上限,l
i(α)
是第i个点预测值的预测区间下限,α是可信度。5.如权利要求1所述的一种基于高斯过程回归和深度学习的pm2.5浓度预测方法,其特征在于,所述步骤1中,获取pm2.5浓度历史数据,包括:获取目标区域对应的预设的pm2.5监测站点分布图;对所述pm2.5监测站点分布图进行预处理,获得可信站点分布图;基于所述可信站点分布图,确定监测缺失点位;基于所述监测缺失点位和所述目标区域对应的预设的区域地图,规划移动监测路线;基于所述移动监测路线,控制移动监测小车对所述监测缺失点位进行pm2.5监测,获取第一历史监测数据;获取所述可信站点分布图中每一可信站点进行pm2.5监测的第二历史监测数据;整合所述第一历史监测数据和所述第二历史监测数据,获得pm2.5浓度历史数据。6.如权利要求5所述的一种基于高斯过程回归和深度学习的pm2.5浓度预测方法,其特征在于,对所述pm2.5监测站点分布图进行预处理,包括:
依次遍历所述pm2.5监测站点分布图中每一pm2.5监测站点;每次遍历时,基于预设的信息获取模板,获取遍历到的所述pm2.5监测站点的站点信息;基于预设的第一特征提取模板,对所述站点信息进行特征提取,获得多个第一特征;将所述第一特征与预设的指示特征库中的第二特征进行匹配,若匹配符合,获取匹配符合的所述第二特征对应的预设的第二特征提取模板和特征要求;基于所述第二特征提取模板,对所述站点信息进行特征提取,获得多个第三特征;判断所述第三特征是否满足所述特征要求,若否,从所述pm2.5监测站点分布图中剔除遍历到的所述pm2.5监测站点;当需要剔除的所述所述pm2.5监测站点均剔除后,将所述pm2.5监测站点分布图作为可信站点分布图。7.如权利要求5所述的一种基于高斯过程回归和深度学习的pm2.5浓度预测方法,其特征在于,基于所述可信站点分布图,确定监测缺失点位,包括:在所述所述可信站点分布图中以每一可信站点为圆心,预设的半径长度长为半径,作圆形范围;基于预设的网格划分规则规则,将所述可信站点分布图划分成多个网格区域;依次遍历每一所述网格区域;每次遍历时,提取遍历到的所述网格区域中除所述圆形范围之外的剩余区域;基于预设的第三特征提取模板,对所述剩余区域进行特征提取,获得多个第四特征;汇总所述第四特征,获得第四特征集;将所述第四特征集与预设的指标特征集进行匹配,获取匹配度;若所述匹配度大于等于预设的匹配度阈值,基于监测缺失点位设置要求,在所述剩余区域内设置监测缺失点位;将设置的监测缺失点位作为新的可信站点,以新的可信站点为圆心,所述半径长度长为半径,作新的圆形范围;继续遍历所述所述网格区域;其中,所述监测缺失点位设置要求,包括:设置的监测缺失点位与设置的监测缺失点位周边任一所述圆形范围的圆心的第一直线距离大于等于预设的第一直线距离阈值且设置的监测缺失点位与设置的监测缺失点位周边任一所述圆形范围的最小直线距离大于等于预设的第二直线距离阈值且设置的任意两两监测缺失点位之间的第三直线距离大于等于预设的第三直线距离阈值。8.如权利要求5所述的一种基于高斯过程回归和深度学习的pm2.5浓度预测方法,其特征在于,基于所述监测缺失点位和所述目标区域对应的预设的区域地图,规划移动监测路线,包括:确定所述区域地图中对应于所述监测缺失点位的地图位置;确定所述地图位置中与预设的监测小车初始位置之间的第四直线距离最小的目标地图位置;以所述目标地图位置为路线起点,规划途经其余所述地图位置的最短路线,并作为移动监测路线。
9.一种基于高斯过程回归和深度学习的pm2.5浓度预测系统,其特征在于,包括:获取模块,用于获取pm2.5浓度历史数据;所述pm2.5浓度历史数据包括为pm2.5浓度真实值的输入变量和为pm2.5浓度预测值的输出变量;划分模块,用于按照预设比例将所述pm2.5浓度历史数据划分成训练数据集及测试数据集,并对所述训练数据集和所述测试数据集进行预处理;第一构建模块,用于构建融合卷积神经网络和长短时记忆网络的pm2.5浓度点预测模型,将预处理后的所述训练数据集输入至所述pm2.5浓度点预测模型中进行多次训练,获取理想参数,并基于所述理想参数,对所述pm2.5浓度点预测模型进行配置;输入模块,用于将预处理后的所述测试数据集输入至配置完成的所述pm2.5浓度点预测模型,获得所述输出变量的点预测结果;第二构建模块,用于构建高斯过程回归和深度学习的pm2.5浓度预测混合模型,将所述点预测结果输入至所述pm2.5浓度预测混合模型,获得所述点预测结果对应的概率分布函数和预测区间。10.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行实现权利要求1至9中任一项所述的一种基于高斯过程回归和深度学习的pm2.5浓度预测方法。
技术总结
本发明提供基于高斯过程回归和深度学习的PM2.5浓度预测方法,包括:步骤1:获取PM2.5浓度历史数据;PM2.5浓度历史数据包括为PM2.5浓度真实值的输入变量和为PM2.5浓度预测值的输出变量;步骤2:按照预设比例将PM2.5浓度历史数据划分成训练数据集及测试数据集,并对训练数据集和测试数据集进行预处理;步骤3:构建融合卷积神经网络和长短时记忆网络的PM2.5浓度点预测模型,将预处理后的训练数据集输入至PM2.5浓度点预测模型中进行多次训练,获取理想参数,并基于理想参数,对PM2.5浓度点预测模型进行配置;步骤4:将预处理后的测试数据集输入至配置完成的PM2.5浓度点预测模型,获得输出变量的点预测结果;步骤5:构建高斯过程回归和深度学习的PM2.5浓度预测混合模型,将点预测结果输入至PM2.5浓度预测混合模型,获得点预测结果对应的概率分布函数和预测区间。预测结果对应的概率分布函数和预测区间。预测结果对应的概率分布函数和预测区间。
技术研发人员:黄明智 何家安 李小勇 吴凤儿 易晓辉 陈振国
受保护的技术使用者:华南师范大学
技术研发日:2023.05.10
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
