一种基于生活物资流动的疫情态势预测方法与流程

未命名 08-15 阅读:104 评论:0


1.本发明涉及疫情预测技术领域,特别指一种基于生活物资流动的疫情态势预测方法。


背景技术:

2.在传染病的传播初期不少居民会去购买生活物资而导致大规模人员聚集,没有采购到足够物资的人群也通过其它平台订购生活物资,增加了传播的风险,因此产生了基于生活物资进行疫情预测的需求,而传统上并不存在相关的预测方法,仅凭工作人员的经验,导致预测的准确性不佳。
3.因此,如何提供一种基于生活物资流动的疫情态势预测方法,实现提升疫情预测的准确性,成为一个亟待解决的技术问题。


技术实现要素:

4.本发明要解决的技术问题,在于提供一种基于生活物资流动的疫情态势预测方法,实现提升疫情预测的准确性。
5.本发明是这样实现的:一种基于生活物资流动的疫情态势预测方法,包括如下步骤:
6.步骤s10、通过爬虫技术获取疫情历史数据;
7.步骤s20、基于arima模型创建一疫情态势预测模型,利用所述疫情历史数据对疫情态势预测模型进行预训练;
8.步骤s30、获取生活物资流动数据,对所述生活物资流动数据进行预处理,得到物资数据集;
9.步骤s40、将所述物资数据集划分为训练集和验证集;
10.步骤s50、利用所述训练集和验证集对预训练后的疫情态势预测模型进行训练和验证;
11.步骤s60、利用验证通过后的所述疫情态势预测模型进行疫情态势预测。
12.进一步地,所述步骤s10具体包括:
13.步骤s11、爬虫基于header和cookie获取目标网页,基于所述目标网页的elements部分定位selector部分,基于所述selector部分查找tr子类的网页内容;
14.步骤s12、通过正则表达式从所述网页内容中匹配疫情历史数据,将所述疫情历史数据存储到excel文件中。
15.进一步地,所述步骤s20中,所述arima模型的公式为:
[0016][0017]
其中,l表示滞后算子;i表示当前时间序列的差分次数;li表示当前差分的时间序列的滞后算子;p表示自回归项的阶数,即时间序列的前p个数据对当前数据有影响;d表示差分次数,即时间序列需要做d次差分才能平稳;q表示移动平均项的阶数,即时间序列前q
个差分数据对当前差分数据的影响程度;x
t
表示时间序列;θi表示模型ma在当前差分次数的系数;ε
t
表示残差,即时间序列的随机波动部分;φi表示模型ar在当前差分次数的系数。
[0018]
进一步地,所述步骤s30具体为:
[0019]
获取生活物资流动数据,对所述生活物资流动数据进行至少包括删除重复值、填补缺失值、删除异常值的预处理后,得到物资数据集。
[0020]
进一步地,所述步骤s40具体为:
[0021]
通过交叉验证法将所述物资数据集划分为训练集和验证集。
[0022]
进一步地,所述步骤s50具体为:
[0023]
设定一收敛条件以及一准确率阈值,利用所述训练集对预训练后的疫情态势预测模型进行训练,直至满足所述收敛条件;
[0024]
利用所述验证集对训练后的所述疫情态势预测模型进行验证,判断所述疫情态势预测模型的预测准确率是否大于准确率阈值,若是,则进入步骤s60;若否,则扩充所述训练集继续训练。
[0025]
本发明的优点在于:
[0026]
通过爬虫技术获取疫情历史数据,利用疫情历史数据对基于ari ma模型创建的疫情态势预测模型进行预训练;对获取的生活物资流动数据进行预处理得到物资数据集,通过交叉验证法将物资数据集划分为训练集和验证集,利用训练集和验证集对预训练后的疫情态势预测模型进行训练和验证,利用验证通过后的疫情态势预测模型进行疫情态势预测,由于先利用疫情历史数据对疫情态势预测模型进行预训练,再利用生活物资流动数据对预训练后的疫情态势预测模型进行训练,以提高生活物资特征对疫情态势预测模型的影响权重,且ari ma模型具有结构简单、适用性强、数据解析能力强的优点,最终极大的提升了疫情预测的准确性,可基于疫情预测结果解决居民的生活物资发放问题,不仅不会影响生活,还可以避免在生活物资发放过程中造成疫情的二次传播。
附图说明
[0027]
下面参照附图结合实施例对本发明作进一步的说明。
[0028]
图1是本发明一种基于生活物资流动的疫情态势预测方法的流程图。
[0029]
图2是本发明疫情历史数据中感染人数的示意图。
[0030]
图3是本发明基于自适应权重均值的深度双q网络模型的示意图。
[0031]
图4是本发明疫情态势预测模型的残差自相关示意图。
[0032]
图5是本发明疫情态势预测模型的残差偏自相关示意图。
[0033]
图6是本发明未预训练的疫情态势预测模型(0,1,0)拟合和预测示意图。
[0034]
图7是本发明预训练的疫情态势预测模型模型(0,2,1)的预测结果示意图。
[0035]
图8是本发明未发放生活物资预测与实际总计的感染人数差值的示意图。
具体实施方式
[0036]
本技术实施例中的技术方案,总体思路如下:先利用疫情历史数据对疫情态势预测模型进行预训练,再利用生活物资流动数据对预训练后的疫情态势预测模型进行训练,以提高生活物资特征对疫情态势预测模型的影响权重,且arima模型具有结构简单、适用性
强、数据解析能力强的优点,进而提升疫情预测的准确性。
[0037]
请参照图1至图8所示,本发明一种基于生活物资流动的疫情态势预测方法的较佳实施例之一,包括如下步骤:
[0038]
步骤s10、通过爬虫技术获取疫情历史数据;
[0039]
步骤s20、基于arima模型创建一疫情态势预测模型,利用所述疫情历史数据对疫情态势预测模型进行预训练;
[0040]
疫情态势预测是很明显的时间序列预测问题,而对时间序列数据进行分析和预测,比较完善和精确的算法是博克思-詹金斯(box-jenkins)方法,其常用模型包括:自回归模型(ar模型)、滑动平均模型(ma模型)、arma模型(自回归-滑动平均混合模型)、arima模型(差分整合移动平均自回归模型),其中arima(p,d,q)模型是arma(p,q)模型的扩展,相对于其它时间序列模型具有结构简单、适用性强和数据解释能力强的优点;
[0041]
步骤s30、获取生活物资流动数据,对所述生活物资流动数据进行预处理,得到物资数据集;
[0042]
步骤s40、将所述物资数据集划分为训练集和验证集;
[0043]
步骤s50、利用所述训练集和验证集对预训练后的疫情态势预测模型进行训练和验证;
[0044]
步骤s60、利用验证通过后的所述疫情态势预测模型进行疫情态势预测。
[0045]
所述步骤s10具体包括:
[0046]
步骤s11、爬虫基于header和cookie获取目标网页,基于所述目标网页的elements部分定位selector部分,基于所述selector部分查找tr子类的网页内容;
[0047]
爬虫爬取数据前,需要先安装python的requests库和beautifulsoup库,并在程序中引入文件;由于《tr》是网页内容主体的网页标签,保存着我们需要的网页内容;
[0048]
步骤s12、通过正则表达式从所述网页内容中匹配疫情历史数据,将所述疫情历史数据存储到excel文件中;
[0049]
正则表达式为了对网页内容进行过滤,即将代码部分剔除,留下文字和数据。
[0050]
所述步骤s20中,所述arima模型的公式为:
[0051][0052]
其中,l表示滞后算子(lag operator);i表示当前时间序列的差分次数;li表示当前差分的时间序列的滞后算子;p表示自回归项的阶数,即时间序列的前p个数据对当前数据有影响;d表示差分次数,即时间序列需要做d次差分才能平稳;q表示移动平均项的阶数,即时间序列前q个差分数据对当前差分数据的影响程度;x
t
表示时间序列;θi表示模型ma在当前差分次数的系数;ε
t
表示残差,即时间序列的随机波动部分;φi表示模型ar在当前差分次数的系数。
[0053]
通过最小二乘法对上式进行参数求解,求解发现当数据d阶差分后,序列基本趋于平稳,以此确定arima模型中的参数d。
[0054]
最小二乘法的公式为其中是选定的一组线性无关的函数,ak是待定系数(k=1,2,

n),拟合准则是使yi(i=1,2,

n)与f(xi)的距离di的平方和最小,称为最小二乘准则,最终拟合结果为arima模型(0,
2,1)。
[0055]
所述步骤s30具体为:
[0056]
获取生活物资流动数据,对所述生活物资流动数据进行至少包括删除重复值、填补缺失值、删除异常值的预处理后,得到物资数据集。
[0057]
所述步骤s40具体为:
[0058]
通过交叉验证法将所述物资数据集划分为训练集和验证集。
[0059]
所述步骤s50具体为:
[0060]
设定一收敛条件以及一准确率阈值,利用所述训练集对预训练后的疫情态势预测模型进行训练,直至满足所述收敛条件;
[0061]
利用所述验证集对训练后的所述疫情态势预测模型进行验证,判断所述疫情态势预测模型的预测准确率是否大于准确率阈值,若是,则进入步骤s60;若否,则扩充所述训练集继续训练。
[0062]
本发明一种基于生活物资流动的疫情态势预测方法的较佳实施例之二,包括如下步骤:
[0063]
步骤s10、通过爬虫技术获取疫情历史数据:
[0064][0065]
步骤s20、基于arima模型创建一疫情态势预测模型,利用所述疫情历史数据对疫情态势预测模型进行预训练;
[0066]
基于预训练结果发现:数据一阶差分后,序列基本趋于平稳,确定模型中参数d=1,对一阶差分后的序列进行acf、pacf分析,当第一个时滞后,逐渐趋向于0,即第一时滞截断,q=0;而pacf的分析中,相关值未超过有效边界,p=0;故本发明通过预训练求解参数,得到具体模型为arima(0,1,0);
[0067]
步骤s30、获取生活物资流动数据,对所述生活物资流动数据进行预处理,得到物资数据集;
[0068]
生活物资流动数据为a市covid-19疫情期间病毒感染人数数据、a市各区涉及人口数量与生活物资投放点数量,分别如下表:
[0069]
日期全市总计a区b区c区e区f区g区xx月xx日2532113
ꢀꢀ
1 xx月xx日2901025391541xx月xx日403714124273021
xx月xx日495
ꢀꢀꢀꢀ
22 xx月xx日330585237121457xx月xx日31016018781211xx月xx日348852012332314
[0070]
区域名称涉及人口数(万人)生活物资投放点数量a区57.894b区48.9261c区32.6181d区38.5470e区42.69f区36.8215g区20.337h区22.8279i区21.710
[0071]
数据预处理过程中,发现并不存在缺失值和重复值,由于arima模型需要对输入数据取对数,而将数据取对数后存在部分inf和-inf格式数值,故需要对得到的这些数据进行异常值处理,即将inf和-inf值转换为nan值,再将nan值替换为均值;
[0072]
步骤s40、将所述物资数据集划分为训练集和验证集;
[0073]
步骤s50、利用所述训练集和验证集对预训练后的疫情态势预测模型进行训练和验证;
[0074]
步骤s60、利用验证通过后的所述疫情态势预测模型进行疫情态势预测。
[0075]
将所述疫情态势预测模型的预测结果与实际值通过评价函数进行评价,评价函数采用均方误差(mse)计算差值,公式为:
[0076][0077]
结果证明相较没有进行预训练的模型,本发明的arima模型对于基于生活物资大规模流动状况,可以进行有效的疫情态势预测,并且通过比较证明生活物资的科学分发是能够延缓疫情爆发速度的。
[0078]
综上所述,本发明的优点在于:
[0079]
通过爬虫技术获取疫情历史数据,利用疫情历史数据对基于arima模型创建的疫情态势预测模型进行预训练;对获取的生活物资流动数据进行预处理得到物资数据集,通过交叉验证法将物资数据集划分为训练集和验证集,利用训练集和验证集对预训练后的疫情态势预测模型进行训练和验证,利用验证通过后的疫情态势预测模型进行疫情态势预测,由于先利用疫情历史数据对疫情态势预测模型进行预训练,再利用生活物资流动数据对预训练后的疫情态势预测模型进行训练,以提高生活物资特征对疫情态势预测模型的影响权重,且arima模型具有结构简单、适用性强、数据解析能力强的优点,最终极大的提升了疫情预测的准确性,可基于疫情预测结果解决居民的生活物资发放问题,不仅不会影响生活,还可以避免在生活物资发放过程中造成疫情的二次传播。
[0080]
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理
解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

技术特征:
1.一种基于生活物资流动的疫情态势预测方法,其特征在于:包括如下步骤:步骤s10、通过爬虫技术获取疫情历史数据;步骤s20、基于arima模型创建一疫情态势预测模型,利用所述疫情历史数据对疫情态势预测模型进行预训练;步骤s30、获取生活物资流动数据,对所述生活物资流动数据进行预处理,得到物资数据集;步骤s40、将所述物资数据集划分为训练集和验证集;步骤s50、利用所述训练集和验证集对预训练后的疫情态势预测模型进行训练和验证;步骤s60、利用验证通过后的所述疫情态势预测模型进行疫情态势预测。2.如权利要求1所述的一种基于生活物资流动的疫情态势预测方法,其特征在于:所述步骤s10具体包括:步骤s11、爬虫基于header和cookie获取目标网页,基于所述目标网页的elements部分定位selector部分,基于所述selector部分查找tr子类的网页内容;步骤s12、通过正则表达式从所述网页内容中匹配疫情历史数据,将所述疫情历史数据存储到excel文件中。3.如权利要求1所述的一种基于生活物资流动的疫情态势预测方法,其特征在于:所述步骤s20中,所述arima模型的公式为:其中,l表示滞后算子;i表示当前时间序列的差分次数;l
i
表示当前差分的时间序列的滞后算子;p表示自回归项的阶数,即时间序列的前p个数据对当前数据有影响;d表示差分次数,即时间序列需要做d次差分才能平稳;q表示移动平均项的阶数,即时间序列前q个差分数据对当前差分数据的影响程度;x
t
表示时间序列;θ
i
表示模型ma在当前差分次数的系数;ε
t
表示残差,即时间序列的随机波动部分;φ
i
表示模型ar在当前差分次数的系数。4.如权利要求1所述的一种基于生活物资流动的疫情态势预测方法,其特征在于:所述步骤s30具体为:获取生活物资流动数据,对所述生活物资流动数据进行至少包括删除重复值、填补缺失值、删除异常值的预处理后,得到物资数据集。5.如权利要求1所述的一种基于生活物资流动的疫情态势预测方法,其特征在于:所述步骤s40具体为:通过交叉验证法将所述物资数据集划分为训练集和验证集。6.如权利要求1所述的一种基于生活物资流动的疫情态势预测方法,其特征在于:所述步骤s50具体为:设定一收敛条件以及一准确率阈值,利用所述训练集对预训练后的疫情态势预测模型进行训练,直至满足所述收敛条件;利用所述验证集对训练后的所述疫情态势预测模型进行验证,判断所述疫情态势预测模型的预测准确率是否大于准确率阈值,若是,则进入步骤s60;若否,则扩充所述训练集继续训练。

技术总结
本发明提供了疫情预测技术领域的一种基于生活物资流动的疫情态势预测方法,包括如下步骤:步骤S10、通过爬虫技术获取疫情历史数据;步骤S20、基于ARIMA模型创建一疫情态势预测模型,利用所述疫情历史数据对疫情态势预测模型进行预训练;步骤S30、获取生活物资流动数据,对所述生活物资流动数据进行预处理,得到物资数据集;步骤S40、将所述物资数据集划分为训练集和验证集;步骤S50、利用所述训练集和验证集对预训练后的疫情态势预测模型进行训练和验证;步骤S60、利用验证通过后的所述疫情态势预测模型进行疫情态势预测。本发明的优点在于:极大的提升了疫情预测的准确性。极大的提升了疫情预测的准确性。极大的提升了疫情预测的准确性。


技术研发人员:吴志雄 徐春梅 张惠臻 侯济恭
受保护的技术使用者:南威软件股份有限公司
技术研发日:2023.03.21
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐