一种台风灾害风险评估和动态预报方法
未命名
09-17
阅读:138
评论:0
1.本发明涉及自然灾害风险评估技术领域,具体涉及一种台风灾害风险评估和动态预报方法。
背景技术:
3.目前自然灾害风险的评估方法主要有三种:一是物理模型驱动的风险评估方法;二是基于指标体系的风险评估方法;三是基于数据驱动的风险评估方法。
4.物理模型驱动的风险评估,国内外学者通过研究灾害危险性-结构易损性-灾害损失的演化机理,采用物理方程和数值仿真,模拟基础设施系统在自然灾害作用下可能造成的各种功能损失、经济损失和社会影响。同时,基于复杂网络理论的模拟分析平台通过接入历史和现有的灾害数据、基础设施数据、人员数据等进行静态或动态仿真模拟,实现对自然灾害风险的分析评估。该方法的优点在于精细度高,支持精细化应急决策,然而该方法对数据的精细完备程度要求较高,对算力要求也高。在数据相对缺乏的情况下,该方法对于区县级以上的行政区域无法实现高效的灾害风险评估,灾害风险评估无法实现全省大尺度全域覆盖。
5.基于指标体系的风险评估方法通常是基于各类灾害风险要素构建灾害风险的指标体系,再利用赋权方法确定指标权重,例如《全国气象灾害风险评估技术规范(台风)》则采用这类方法进行风险评估。该方法虽然易于操作,但未考虑致灾因子与承灾体之间的相互作用机理,本质上是一种相对的定性风险评估方法,是对承灾体长期灾害风险水平与规律的静态反映,无法应用在基于灾害事件的动态风险预报中。
6.许多学者采用历史灾情数据结合数据驱动的方法(如数理统计分析和机器学习方法)建立了灾害损失预测模型和灾害风险评估模型。数据驱动模型的优势在于它能从复杂问题和海量数据中提取特征参数和关键信息,避免了大量的物理模拟分析,从而节省了计算时间。因此,数据驱动模型相较于其他模型,更利于实现浙江省全域各区县的台风灾害风险评估。
7.目前的区域尺度台风灾害风险预测研究主要集中在省级尺度及以上、基于台风事件的全过程灾损预测,且尚未实现在实时灾场演变过程中的区县级别动态风险评估,无法支持更为精细的实时应急决策。
技术实现要素:
8.本发明为了克服以上技术的不足,提供了一种台风灾害风险评估和动态预报方法。
9.本发明克服其技术问题所采用的技术方案是:
10.一种台风灾害风险评估和动态预报方法,包括步骤:
11.步骤一、选取预测指标:预测指标至少包括危险性指标、脆弱性指标和暴露性指标,其中,危险性指标至少包括大风和台风带来的降雨,暴露性指标至少包括考虑承灾体数
量的暴露性以及考虑地形和水系的孕灾环境;
12.步骤二、提取危险性指标:单个台风过程内,提取各区县行政区域内的预设的若干个时间长度的最大雨量、过程雨量、平均极大风速,具体可以根据实际情况选择时间长度,比如选取1h、3h、6h、12h、24h的最大雨量、过程雨量、平均极大风速;
13.步骤三、相关性分析:将步骤一中选取的预测指标与损失等级进行皮尔逊相关性分析,针对不同类型的指标,根据该类型指标选择大于预设的相关性阈值的指标作为输入指标;
14.步骤四、主成分分析:主成分分析是为了探究多个可能相关变量间的相关程度,寻找最大或最小相关方向,通过主成分分析法将与降雨量相关的危险性指标进行降维,达到数据压缩或去噪的目的,避免冗余变量可能会对后面的模型训练产生干扰。
15.步骤五、样本集划分:将样本划分为全量样本和非零样本,并将变量划分为降维后的变量组合和原有变量组合,且保留一个台风事件的数据作为验证集,其余台风事件的数据作为训练集,其中,全量样本为包含灾损数据为0的样本,非零样本不包含灾损数据为0的样本;
16.步骤六、构建机器学习模型;
17.步骤七、机器学习模型训练与测试:将划分好的训练集数据输入到机器学习模型进行训练,通过调用sklearn库中的xgboost算法进行模型训练,并结合网格调参算法实现对目标函数的优化与模型超参数的优化,采用多种评价指标对机器学习模型的效果进行评价,预设的指标均达到误差允许的范围则完成机器学习模型的训练;然后输入划分好的测试集到训练好的机器学习模型中以测试机器学习模型的实际泛化性能;
18.步骤八、得出预报结果:通过不断更新实测数据和最新的预报气象数据,并将其输入到步骤六构建的机器学习模型中,对机器学习模型输入的危险性指标进行动态更新,从而实现台风灾害风险的实时更新预报。
19.进一步地,步骤一中,脆弱性指标和暴露性指标均可通过年鉴或公开数据查询得到;
20.脆弱性指标是针对某地区的特点和数据的可获取情况,选择第一产业比重、人均gdp、城镇居民人均可支配收入、农村居民人均可支配收入、城乡居民储蓄存款年末余额、境内公路里程、每千人拥有医生、每千人拥有床位数作为脆弱性指标;
21.暴露性指标是根据我国对直接经济损失的定义,至少包括农业损失、基础设施损失以及家庭财产损失,再结合该地区的数据可获得性,选定农作物播种面积、生产总值、农业产值、年末总人口作为暴露性指标;
22.孕灾环境至少考虑地形因子和水系因子,地形因子包括高程的变化和地形的变化两方面,选取平均高程、平均坡度、平均坡向和河网密度作为孕灾环境指标。
23.进一步地,台风事件过程中记录气象数据的气象站在区县行政区域内是离散分布的,相当于每个气象站点都有一个降雨量和风速,需要先将每小时降雨量和每小时平均风速在区县行政区域内平均,得到该小时内降雨和风速的平均值,即该区县行政区域的降雨和风速的代表值。
24.步骤二中,设某台风事件过程经历共计a个小时,设某区县行政区域内包括b个气象站,通过滑动时间窗口的方法提取台风事件过程中的n小时最大雨量,具体计算如下式
(1)~(3):
[0025][0026][0027][0028]
上式中,表示该区县行政区域第f时刻的降雨量或极大风速的代表值,x
fz
表示第f时刻第z个气象站记录的降雨量或极大风速,x
(n)
表示该区县行政区域的n小时的最大雨量,n≤a,w表示该区县行政区域的平均极大风速。
[0029]
进一步地,步骤三中,皮尔逊相关性分析的公式如下:
[0030][0031]
上式中,x、y分别表示两个随机变量,ρ
x,y
的值介于-1到1之间,用于度量变量x与变量y之间的相关关系,μ
x
、μy分别表示两个随机变量x、y的均值,σ
x
、σy分别表示两个随机变量x、y的标准差。一般认为相关系数的绝对值大于等于0.6即为强相关,在对不同类型指标进行选择时,应选择该类型内相关性较大的指标。
[0032]
进一步地,步骤四中,主成分分析后取累积方差贡献率达到90%的变量作为降维后的主成分,形成不同变量组合,然后将这些不同变量组合输入到构建的构建机器学习模型中进行比较,主成分分析采用软件spss中的降维功能实现,故这里不再作原理赘述。
[0033]
进一步地,步骤六中,构建机器学习模型具体包括:
[0034]
1)构建目标函数
[0035]
目标函数分为两部分:一部分是损失函数,一部分是正则;xgboost又叫极度梯度提升树,是机器学习算法的一种,属于前向迭代的机器学习模型,其包含多棵树,设样本数量为n个,对于第t颗树,第i个样本,1≤i≤n,机器学习模型的预测值如下式(5)所示:
[0036][0037]
上式中,表示第t次迭代之后样本i的预测结果,fk(xi)表示第k次迭代之后样本i的预测结果,表示第t-1棵树的预测结果,f
t
(xi)表示第t棵树的预测结果;
[0038]
进一步得到原始目标函数,如式(6)所示:
[0039]
[0040]
上式中,表示机器学习模型的损失函数,表示整个机器学习模型对第i个样本的预测值,yi表示第i个样本的真实值,ω(fj)表示第j棵树的复杂度,这里为原始目标函数中的正则化项;
[0041]
将式(6)中的正则项进行拆分,化为式(7):
[0042][0043]
上式中,obj
(t)
表示第t棵树的目标函数,c表示常数;
[0044]
2)泰勒公式二阶展开近似
[0045][0046]
上式中,gi对应的是损失函数一阶导数,hi对应的是损失函数二阶导数;
[0047]
3)树的参数化
[0048]
树的复杂度计算如下式(9):
[0049][0050]
上式中,γ表示对叶子节点数的惩罚系数,t表示当前这颗树叶子节点的个数,λ表示对叶子节点值的惩罚系数,表示叶子节点值的l2范数;
[0051][0052][0053]
上式中,gj表示叶子节点j所包含的样本的一阶导数累加之和,hj表示叶子节点j所包含的样本的二阶导数累加之和,ij表示叶子节点j所包含的样本集合;
[0054]
将式(9)~(11)代入式(8)化简得:
[0055][0056]
其中,
[0057]
至此,就建立好了机器学习模型。
[0058]
进一步地,步骤七中,采用多种评价指标对机器学习模型的效果进行评价包括:
[0059][0060][0061][0062][0063][0064]
上式中,acc表示指准确率,cks表示cohen’s kappa score,f1
l
表示l等级灾损的f1分数,f1m表示宏平均f1分数,f1w表示加权平均f1分数,c0表示灾情等级预测正确的样本,n表示指样本数量,pe表示指真值和假值偶然一致的概率,p
1l
表示l等级灾损的精确率,p
2l
表示l等级灾损的召回率,c
0l
表示l等级灾损预测正确的样本数目,q表示样本类别数。
[0065]
本发明的有益效果是:
[0066]
(1)通过对危险性、孕灾环境、暴露性和脆弱性指标的筛选与分析,建立最符合该机器学习模型的预测指标,实现更加全面和准确的预测。
[0067]
(2)现有技术并未将灾损预测的研究尺度缩小到区县一级,而更多是停留在省级及以上层面。本发明通过搜集区县一级的相关数据,建立起区县一级的机器学习模型,实现基于事件的台风灾害直接经济损失等级预报。本发明的机器学习模型的交叉验证的准确率为76%,独立样本检验的准确率为74%,该机器学习模型在一定程度上弥补了区县一级台风灾损预测的空白,具有较大的参考价值。
[0068]
(3)本发明对机器学习模型在实际场景中的运用进行了探索,通过利用实测与预报的气象数据对机器学习模型输入的危险性指标进行更新,实现对各区县进行逐小时实时更新预报。
附图说明
[0069]
图1为本发明实施例所述的建立机器学习模型的流程图。
[0070]
图2为本发明实施例所述的危险性、孕灾环境、暴露性和脆弱性指标与损失等级的相关性系数。
[0071]
图3为本发明实施例所述的测试集样本的混淆矩阵。
[0072]
图4为本发明实施例所述的2019年台风“利奇马”对浙江省造成的直接经济损失等级分布示意图。
[0073]
图5为本发明实施例所述的机器学习模型产生的其中4个时刻的浙江省直接经济损失等级预测图,其中,图5(a)代表时刻080814的浙江省直接经济损失等级预测图,图5(b)
代表时刻080912的浙江省直接经济损失等级预测图,图5(c)代表时刻081012的浙江省直接经济损失等级预测图,图5(d)代表时刻081112的浙江省直接经济损失等级预测图。
[0074]
图6为本发明实施例所述的随着时间推移各个时刻所预报的不同灾情等级的区县数量的示意图,其中,图6(a)代表随着时间推移各个时刻所预报的灾情等级1的区县数量,图6(b)代表随着时间推移各个时刻所预报的灾情等级2的区县数量,图6(c)代表随着时间推移各个时刻所预报的灾情等级3的区县数量,图6(d)代表随着时间推移各个时刻所预报的灾情等级4的区县数量。
具体实施方式
[0075]
为了便于本领域人员更好的理解本发明,下面结合附图和具体实施例对本发明做进一步详细说明,下述仅是示例性的不限定本发明的保护范围。
[0076]
本实施例所述的一种台风灾害风险评估和动态预报方法,包括步骤:
[0077]
步骤一、选取预测指标:预测指标至少包括危险性指标、脆弱性指标和暴露性指标,其中,危险性指标至少包括大风和台风带来的降雨,暴露性指标至少包括考虑承灾体数量的暴露性以及考虑地形和水系的孕灾环境。
[0078]
步骤二、提取危险性指标:单个台风过程内,提取各区县行政区域内的预设的若干个时间长度的最大雨量、过程雨量、平均极大风速。
[0079]
步骤三、相关性分析:将步骤一中选取的预测指标与损失等级进行皮尔逊相关性分析,针对不同类型的指标,根据该类型指标选择大于预设的相关性阈值的指标作为输入指标。
[0080]
步骤四、主成分分析:通过主成分分析法将与降雨量相关的危险性指标进行降维。
[0081]
步骤五、样本集划分:将样本划分为全量样本和非零样本,并将变量划分为降维后的变量组合和原有变量组合,且保留一个台风事件的数据作为验证集,其余台风事件的数据作为训练集,其中,全量样本为包含灾损数据为0的样本,非零样本不包含灾损数据为0的样本。
[0082]
步骤六、构建机器学习模型。
[0083]
步骤七、机器学习模型训练与测试:将划分好的训练集数据输入到机器学习模型进行训练,采用多种评价指标对机器学习模型的效果进行评价,预设的指标均达到误差允许的范围则完成机器学习模型的训练;然后输入划分好的测试集到训练好的机器学习模型中以测试机器学习模型的实际泛化性能。
[0084]
步骤八、得出预报结果:通过不断更新实测数据和最新的预报气象数据,并将其输入到步骤六构建的机器学习模型中,对机器学习模型输入的危险性指标进行动态更新,从而实现台风灾害风险的实时更新预报。
[0085]
本实施例以浙江省各区县为研究对象,进一步利用更加精细准确的实测气象站点数据,综合考虑危险性、孕灾环境、暴露性和脆弱性指标,选取预测变量。利用机器学习算法xgboost在分类问题上具有高精度、速度快的优点,构建台风灾害风险评估模型,在此基础上结合实测和预报的气象数据,对模型输入的危险性指标进行动态更新,实现浙江省全域各区县台风灾害风险的实时更新预报。建立机器学习模型的流程如图1所示。
[0086]
具体地,本实施例搜集了2012-2019年对浙江省具有较大影响的10次历史台风事
件(分别为海葵、苏力、潭美、菲特、麦德姆、灿鸿、苏迪罗、莫兰蒂、玛利亚、利奇马)的区县级灾情数据、台风登陆前后108小时浙江省全域测站的气象数据以及对应年份的浙江省各区县社会经济数据,数据说明详见表1所示。同时,为实现台风灾害风险的实时更新,搜集了2019年台风利奇马在浙江省的逐小时wrf气象预报数据,精度为1km。
[0087]
表1数据说明
[0088][0089]
一般来说,台风灾害的风险等级是多类灾情的综合反映,此处为了简化模型,本实施例选取直接经济损失作为评估灾情严重情况的指标,并根据浙江省历年的灾害情况,划分损失等级作为台风灾害的风险等级,如表2所示。
[0090]
表2台风灾情等级划分标准
[0091][0092]
台风灾害风险是危险性(危险性指标是主要的致灾因子)、孕灾环境、暴露性和脆弱性指标等综合作用的结果,基于此并考虑数据的可获得性,以此选择机器学习模型的预测指标。主要包括以下四方面:
[0093]
(1)危险性。台风登陆带来的大风、降雨等构成了台风灾害的致灾因子。本实施例以台风影响过程(统一选取登陆前36h和登陆后72h)为统计标准,以区县一级行政区划为统计单元,选取了1h、3h、6h、12h、24h的最大雨量、过程雨量、平均极大风速作为危险性指标。通过提取区县内各气象站的平均逐小时降雨量和极大风速作为该区县的逐小时代表降雨量和极大风速,以此来提取各区县的危险性指标。
[0094]
(2)孕灾环境。主要考虑地形和水系这两个因子,地形因子包括高程和地形的变化两方面,选取平均高程、平均坡度、平均坡向和河网密度作为孕灾环境指标。
[0095]
(3)暴露性指标。在我国的直接经济损失统计中,直接经济损失主要由农业损失、基础设施损失以及家庭财产损失构成,结合数据的可获得性,选定农作物播种面积、生产总值、农业产值、年末总人口作为暴露性指标。
[0096]
(4)脆弱性指标。针对浙江省各区县的特点与基础数据的收集情况,选择第一产业
比重、人均gdp、城镇居民人均可支配收入、农村居民人均可支配收入、城乡居民储蓄存款年末余额、境内公路里程、每千人拥有医生、每千人拥有床位数作为脆弱性指标。
[0097]
将初选的指标与损失等级进行相关性分析,并按照危险性、孕灾环境、暴露度和脆弱性进行分类,相关性系数如图2所示,颜色越深代表指标之间的相关性越大,越浅则相关性越小。为避免指标冗余,提高机器学习模型预测的准确率,故选取与损失等级相关性较大的指标作为最终的输入因子,最终选择的台风灾害风险评估预测变量如表3所示。
[0098]
表3台风灾害风险评估预测变量
[0099][0100]
考虑到危险性指标中与降雨量相关的几个指标具有强相关性,采用主成分分析法将与降雨量相关的6个危险性指标进行降维,分析获得第一主成分的累积方差贡献率在全量样本和非零样本中分别达到94.9%和93.7%,因此可以考虑取第一主成分作为降雨量相关的代表指标。因此将全部预测变量和进行主成分分析后的预测变量作为机器学习模型输入进行对比分析,进一步分析危险性指标存在强相关性对机器学习模型训练的影响。同时,考虑到样本中的零样本(即灾损数据为零的样本)占比超过50%,故将样本划分为全量样本(包含灾损数据为0的样本)和非零样本(不包含灾损数据为0的样本),探究零样本对机器学习模型训练效果的影响。
[0101]
将前9次台风事件的样本作为训练集,将2019年发生的台风“利奇马”作为测试集。机器学习模型采用“gbtree”算法,目标函数设置为处理多分类器问题的softmax函数,采用十折交叉验证对训练集进行训练,即将训练集随机分成10份,每次训练取出其中9份进行拟合,最后一份作为验证,通过网格调参对机器学习模型进行训练,以acc、cks、f1m和f1w四个评价指标综合评价机器学习模型的效果,从而得出最佳的超参数,完成对机器学习模型的训练。最终机器学习模型交叉验证的acc、cks、f1m和f1w分别为0.76、0.49,0.48和0.74,测试集样本检验的acc、cks、f1m和f1w分别为0.74、0.62,0.68和0.73,测试集样本的混淆矩阵如
图3所示,图中的方块颜色越深,代表该部分样本的数量越多,越浅则数量越少。
[0102]
利用台风事件“利奇马”作为预报案例,预报的时间范围是2019年8月8日14时至2019年8月11日12时(本实施例中,简称080814~081112),共71个时刻。图4为2019年台风“利奇马”对浙江省造成的直接经济损失等级分布示意图。真实台风事件下,全省各气象站会实时监测降雨量、风速等气象要素。与此同时,气象预报数据也会随着时间的推移不断更新预报。本实施例中的预报数据为浙江省气象局提供的台风“利奇马”wrf气象预报数据,具体有080812、080900、080912、081000、081012、081100共6个时刻的预报场(网格精度为5公里),每个预报场包括对未来72小时风雨数据的逐小时预报,预报场每12小时更新一次。因此,在每一个当前时刻,将事件起始时间(080814)至当前的实测气象数据和最新预报气象数据合并,并以此提取危险性指标作为机器学习模型的输入,可对“利奇马”台风造成的浙江省直接经济损失等级进行滚动预报,辅助决策者直观地感受到此次台风所造成的损失等级和风险变化趋势。
[0103]
机器学习模型共产生71个时刻的浙江省直接经济损失等级预测图,抽取其中的4个时刻作为代表时刻,如图5所示,具体如图5(a)、图5(b)、图5(c)、图5(d)所示,图名表示当前时间,其中黑色实线代表台风的历史路径,黑色圆点代表当前时间台风所在的位置。图6展示了随着时间推移,各个时刻所预报的不同灾情等级的区县数量,具体地,图6(a)、图6(b)、图6(c)、图6(d)分别代表灾情等级1、等级2、等级3、等级4的区县数量,实线为机器学习模型预测的区县数量,虚线为实际区县数量。
[0104]
从图5(a)结果可以看出,在台风登陆前(台风“利奇马”于8月10日2时于温岭市登陆),气象局所作出的预报气象数据偏大,导致机器学习模型在预测浙江省的受灾情况时偏于严重。但随着时间的推移,通过实测气象站收集的数据不断更新危险性指标,使输入的危险性指标越来越接近于真实情况,图中4个时刻(080814、080912、081012、081112)的直接经济损失等级预测准确率依次为51.7%、52.8%、68.5%、74.2%,准确率在逐步提升,最后趋于稳定,最终等于作为独立样本检验时的预测结果。因此,结合实测气象站数据对机器学习模型进行预报更新有利于提高机器学习模型在实际应用时的预测准确率,在防灾决策应用中具有实操性和较大指导意义。
[0105]
从图6(a)、图6(b)、图6(c)、图6(d)可以看出,随着时间的推移,不同等级的区县数量会发生波动,且曲线在台风登陆前波动幅度较大,这是由于台风轨迹在登陆前的预测难度较大,预报的气象数据与实测数据有所差距,机器学习模型对直接经济损失等级预测存在较大不确定性导致的。台风登陆后,受灾区县的危险性指标(降雨和极大风速)基本定型,曲线的形态逐渐趋于稳定。
[0106]
以上仅描述了本发明的基本原理和优选实施方式,本领域人员可以根据上述描述做出许多变化和改进,这些变化和改进应该属于本发明的保护范围。
技术特征:
1.一种台风灾害风险评估和动态预报方法,其特征在于,包括步骤:步骤一、选取预测指标:预测指标至少包括危险性指标、脆弱性指标和暴露性指标,其中,危险性指标至少包括大风和台风带来的降雨,暴露性指标至少包括考虑承灾体数量的暴露性以及考虑地形和水系的孕灾环境;步骤二、提取危险性指标:单个台风过程内,提取各区县行政区域内的预设的若干个时间长度的最大雨量、过程雨量、平均极大风速;步骤三、相关性分析:将步骤一中选取的预测指标与损失等级进行皮尔逊相关性分析,针对不同类型的指标,根据该类型指标选择大于预设的相关性阈值的指标作为输入指标;步骤四、主成分分析:通过主成分分析法将与降雨量相关的危险性指标进行降维;步骤五、样本集划分:将样本划分为全量样本和非零样本,并将变量划分为降维后的变量组合和原有变量组合,且保留一个台风事件的数据作为验证集,其余台风事件的数据作为训练集,其中,全量样本为包含灾损数据为0的样本,非零样本不包含灾损数据为0的样本;步骤六、构建机器学习模型;步骤七、机器学习模型训练与测试:将划分好的训练集数据输入到机器学习模型进行训练,采用多种评价指标对机器学习模型的效果进行评价,预设的指标均达到误差允许的范围则完成机器学习模型的训练;然后输入划分好的测试集到训练好的机器学习模型中以测试机器学习模型的实际泛化性能;步骤八、得出预报结果:通过不断更新实测数据和最新的预报气象数据,并将其输入到步骤六构建的机器学习模型中,对机器学习模型输入的危险性指标进行动态更新,从而实现台风灾害风险的实时更新预报。2.根据权利要求1所述的台风灾害风险评估和动态预报方法,其特征在于,步骤一中,脆弱性指标和暴露性指标均可通过年鉴或公开数据查询得到;脆弱性指标是针对某地区的特点和数据的可获取情况,选择第一产业比重、人均gdp、城镇居民人均可支配收入、农村居民人均可支配收入、城乡居民储蓄存款年末余额、境内公路里程、每千人拥有医生、每千人拥有床位数作为脆弱性指标;暴露性指标至少包括农业损失、基础设施损失以及家庭财产损失,再结合该地区的数据可获得性,选定农作物播种面积、生产总值、农业产值、年末总人口作为暴露性指标;孕灾环境至少考虑地形因子和水系因子,地形因子包括高程的变化和地形的变化两方面,选取平均高程、平均坡度、平均坡向和河网密度作为孕灾环境指标。3.根据权利要求1所述的台风灾害风险评估和动态预报方法,其特征在于,步骤二中,设某台风事件过程经历共计a个小时,设某区县行政区域内包括b个气象站,通过滑动时间窗口的方法提取台风事件过程中的n小时最大雨量,具体计算如下式(1)~(3):
上式中,表示该区县行政区域第f时刻的降雨量或极大风速的代表值,x
fz
表示第f时刻第z个气象站记录的降雨量或极大风速,x
(n)
表示该区县行政区域的n小时的最大雨量,n≤a,w表示该区县行政区域的平均极大风速。4.根据权利要求1所述的台风灾害风险评估和动态预报方法,其特征在于,步骤三中,皮尔逊相关性分析的公式如下:上式中,x、y分别表示两个随机变量,ρ
x,y
的值介于-1到1之间,用于度量变量x与变量y之间的相关关系,μ
x
、μ
y
分别表示两个随机变量x、y的均值,σ
x
、σ
y
分别表示两个随机变量x、y的标准差。5.根据权利要求1所述的台风灾害风险评估和动态预报方法,其特征在于,步骤四中,主成分分析后取累积方差贡献率达到90%的变量作为降维后的主成分,形成不同变量组合。6.根据权利要求1所述的台风灾害风险评估和动态预报方法,其特征在于,步骤六中,构建机器学习模型具体包括:1)构建目标函数目标函数分为两部分:一部分是损失函数,一部分是正则;xgboost又叫极度梯度提升树,是机器学习算法的一种,属于前向迭代的机器学习模型,其包含多棵树,设样本数量为n个,对于第t颗树,第i个样本,1≤i≤n,机器学习模型的预测值如下式(5)所示:上式中,表示第t次迭代之后样本i的预测结果,f
k
(x
i
)表示第k次迭代之后样本i的预测结果,表示第t-1棵树的预测结果,f
t
(x
i
)表示第t棵树的预测结果;进一步得到原始目标函数,如式(6)所示:上式中,表示机器学习模型的损失函数,表示整个机器学习模型对第i个样本的预测值,y
i
表示第i个样本的真实值,ω(f
j
)表示第j棵树的复杂度,这里为原始目标函数中的正则化项;
将式(6)中的正则项进行拆分,化为式(7):上式中,obj
(t)
表示第t棵树的目标函数,c表示常数;2)泰勒公式二阶展开近似上式中,g
i
对应的是损失函数一阶导数,h
i
对应的是损失函数二阶导数;3)树的参数化树的复杂度计算如下式(9):上式中,γ表示对叶子节点数的惩罚系数,t表示当前这颗树叶子节点的个数,λ表示对叶子节点值的惩罚系数,表示叶子节点值的l2范数;范数;上式中,g
j
表示叶子节点j所包含的样本的一阶导数累加之和,h
j
表示叶子节点j所包含的样本的二阶导数累加之和,i
j
表示叶子节点j所包含的样本集合;将式(9)~(11)代入式(8)化简得:其中,7.根据权利要求1所述的台风灾害风险评估和动态预报方法,其特征在于,步骤七中,采用多种评价指标对机器学习模型的效果进行评价包括:
上式中,acc表示指准确率,cks表示cohen’s kappascore,f1
l
表示l等级灾损的f1分数,f1
m
表示宏平均f1分数,f1
w
表示加权平均f1分数,c0表示灾情等级预测正确的样本,n表示指样本数量,p
e
表示指真值和假值偶然一致的概率,p
1l
表示l等级灾损的精确率,p
2l
表示l等级灾损的召回率,c
0l
表示l等级灾损预测正确的样本数目,q表示样本类别数。
技术总结
本发明公开了一种台风灾害风险评估和动态预报方法,包括:选取预测指标:至少包括危险性指标、脆弱性指标和暴露性指标;提取危险性指标:提取各区县行政区域内的预设的若干个时间长度的最大雨量、过程雨量、平均极大风速;相关性分析:将选取的预测指标与损失等级进行皮尔逊相关性分析;主成分分析:将与降雨量相关的危险性指标进行降维;样本集划分;构建机器学习模型;机器学习模型训练与测试;得出预报结果:对机器学习模型输入的危险性指标进行动态更新,从而实现台风灾害风险的实时更新预报。本发明的机器学习模型通过利用实测与预报的气象数据对机器学习模型输入的危险性指标进行更新,实现对各区县进行逐小时实时更新预报。报。报。
技术研发人员:林沛延 王乃玉 林陪晖
受保护的技术使用者:浙江大学
技术研发日:2023.03.30
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
