基于网络大数据的震后灾情应急动态监测方法与流程
未命名
08-15
阅读:136
评论:0
1.本发明涉及地震灾情应急监测技术领域,具体涉及一种应用人工智能技术快速获取网络地震应急监测信息的技术,是一种震后灾情网络大数据应急动态监测的方法和系统。
背景技术:
2.地震是对社会经济造成损失最大的突发性灾害之一,地震发生后,快速准确获取灾情数据能为实施救援提供信息支持至关重要。地震监测数据为准确制定救援方案,评估地震损失提供科学依据。
3.目前,现有的地震灾情应急监测常规方法是,地震灾情情况采用人工现场调查汇总数据,兼用卫星遥感技术解译地物实体受灾状况,这一方法所需时间长,收集信息不全面,调查费时耗力,难以保障快速地震应急监测的需求。
技术实现要素:
4.本发明鉴于上述现有技术存在的问题,提供一种应用网络大数据的快速获取地震应急监测信息的方法。通过本发明的技术方案,实现震后灾情数据快速自动获取、信息识别和定位,融合多源数据,建立地震应急数据的时空可视化图像,实现基于网络信息的地震应急动态监测。
5.本发明的技术方案:
6.基于网络大数据的震后灾情应急动态监测方法,包括以下步骤:
7.1)获取震后网络数据。以社交媒体平台、媒体网站和地震地方政府网站为信源,利用合法的网站爬虫程序,经过目标优化的地震灾情主题词筛选,建立震后网络原始数据集。
8.2)原始数据整理,处理无效数据。对收集的原始数据清洗,去除数据集中不一致和不完整的无效、冗余和头文件等内容,建立震后灾情规范数据集。
9.3)从步骤2)的数据集按时间顺序转换为数据表,利用正则技术,分解并提取其中的时间、来源、标题、地点的数据属性,包括:发布时间、事件时间、事件地点、信息来源、发布人名称(昵称)、信息来源等特征,添加数据表的属性字段,建立结构化数据集。
10.4)利用tf-id文本关键词抽取技术对所述结构化数据集进行数据分析,以地震应急监测需求为目标筛选,确定最优网络应急监测指标,包括死亡、受伤、房屋、道路、救援队伍、救援物资、受灾人口、地质次生灾害、心理,共9个指标。建立所述地震应急监测指标的字典集,采用词频统计技术,确定指标对应的语义,扩大数据检索的全面性和准确性。利用tf-id值较小值为网络不可直接从网络获取信息,标记为不可识别指标,其余指标标记为可识别指标。对不可识别指标,转到步骤8);
11.5)对步骤3)结构化数据集总表按照震后应急监测指标添加选中特征的标签进行多维分解,利用采用朴素贝叶斯算法和lstm算法等人工智能技术,分解出截止当前时间点之内的按时间顺序排列的9个包括应急指标关键词的多个分指标数据集。
12.6)分指标数据集信息提取:按照指标特征分别对每个分指标数据集提取其中对应指标的数字型和文本描述型数据,采用数据变换和规范化的方法进行量化取值,将量化结果保存为按时间顺序的结果数据表,地点名称采用地州、县、镇、村四级字段详细记录。
13.7)建立云上地理信息数据库,集成灾区社会、经济和自然等数据集。
14.数据库中的数据包括常驻人口密度、矢量图行政区划图、道路、水系、dem、卫星遥感图像、poi矢量点数据、统计年鉴、人口普查数据等gis格式的多源数据。
15.8)对不可识识别指标,以网络获取的信息和云上数据库为参数,建立灾损模型计算不可识别指标。
16.9)将数据集接入地理信息系统,基于结果数据表的四级地名与poi矢量点逐级关联,增加事件的地理经纬度坐标,建立地震应急监测矢量点文件。
17.9)将9个指标数值与相应的矢量数据关联,得到该指标带有地理坐标的矢量图层。
18.10)对矢量数据的量化数值制图,输出地震应急监测的空间分布图。
19.与现有技术相比,本发明的有益技术效果:
20.本发明提供一种应用网络大数据的快速获取地震应急监测信息的方法,包括:获取震后网络数据;建立结构化数据集;对结构化数据集进行数据分析,确定最优网络地震应急监测指标,并标记标记不可识别指标和可识别指标;分解出分指标数据集;分指标数据集信息提取;建立云上多源地理信息数据库;建立地震应急监测矢量点文件;得到地震应急监测指标带有地理坐标的矢量图层;输出地震应急监测的空间分布图。采用本发明的技术方案,可快速高效全面地收集信息,实现震后灾情数据快速自动获取、信息识别和定位,融合多源数据,建立地震应急数据的时空可视化图像,实现基于网络信息的地震应急动态监测,提高准确性,保障快速地震应急监测的需求。
附图说明
21.图1为本发明提供的一种人工智能与网络大数据结合的地震灾情应急监测方法的流程框图。
22.图2为本发明实施例实现的一种人工智能与网络大数据结合的地震灾情应急监测系统的结构框图。
具体实施方式
23.下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
24.图1为本发明实施例提供的一种人工智能与网络大数据结合的地震灾情应急监测方法流程,具体实施实现了一种人工智能与网络大数据结合的地震灾情应急监测系统,其结构如图2所示,包括:震后网络数据集建立模块、数据分解模块、量化指标模块、多源数据库模块、预测模型建立模块、应急监测数据空间化模块和地震应急监测数据可视化制图模块。其中,震后网络数据集建立模块基于原始数据采集,建立原始震后灾情数据集;数据分解模块用于对数据进行属性结构化整合,并按时间顺序将收集的记录分解,提取每一列字段,建立标准化数据库;量化指标模块用于建立应急监测指标,得到包括应急指标关键词的多个分指标数据集;多源数据库模块用于建立集成灾区社会、经济和自然多源数据的云上
地理信息数据库;预测模型建立模块用于对网络不可识别指标建立估算预测模型,包括受灾人口指标预测模型建立;应急监测数据空间化模块用于对地震应急监测矢量数据以时间间隔为索引进行空间统计,构建地震应急监测时间序列变化数据;地震应急监测数据可视化制图模块用于通过制图显示灾情空间分布特征并进一步检测灾情的环境状况。
25.本发明方法具体实施包括如下步骤:
26.s101步骤1、原始数据采集,建立原始震后灾情数据集;包含如下操作:
27.s102启动预先编制的网络爬虫数据收集程序,输入优选的震后信息主题词,优选的主题词有震中地点名称、地震发生时间、震中所在行政省市县名、此地区重要区域名称组成。
28.s103运行特定目标的信源网站收集震后灾情的新闻、公告和自媒体消息等信息的程序,建立震后灾情信息的原始数据。特定信源目为以用户多、更新快的权威媒体、政府网站、自媒体平台。经过比较选择确定的信源是:央视新闻网、新华网、微博、微信公众号、受灾地方政府网站。
29.s104爬虫算法遵循深度优先和广度优先相结合的原则对互联网数据进行遍历、分析和存储,收集尽可能多的地震相关信息。具体是,基于选择的信源公开网页文本对其内容与主题词相关性进行评分,从而判断是否收录进入数据库。
30.s105将收集到的文本条目按时间顺序保存到原始震后数据集中,建立原始震后灾情数据集。
31.s201步骤2、数据清洗和整理
32.对原始震后灾情数据进行信息冗余判断、符号信息处理、数字信息的数据处理,删除无用标签、特殊符号、停用词;其中重复记录采用相似度算法模型加以判断去除。
33.s301步骤3、数据结构化。对s201处理的数据进行属性结构化整合,按时间顺序将收集的记录分解,提取每一列字段,建立标准化数据库earthquakedata1。
34.s302利用正则匹配等技术从earthquakedata1中的文本中字符匹配,分解出发布时间、事件时间、事件地点、信息来源、发布人名称(昵称)、信息来源等特征并存储到数据库中。
35.s401步骤4、筛选基于网络大数据的地震应急监测指标;
36.地震应急监测需求指标是表征地震应急状况的一组数据,可根据网络数据特点和应急管理需求来确定。本发明具体是利用tf-id(term frequency
–
inverse document frequency)文本关键词抽取技术和结巴分词器模型对所述数据集earthquakedata1分析,通过文本关键词建立网络大数据的地震应急监测指标。过程是,地震应急监测需求指标集,记为[index1];对网络收集的文本利用结巴分词器技术进行分词处理,建立词汇样本库data1,计算地震应急监测需求指标的词频矩阵和词频矩阵向量,求tf-idf值,将词汇经过词频统计和逆文档频率统计,选出tf-idf值高的前30个词汇为网络大数据地震应急指标的热点词汇集,记为[index2]。将2个数据集进行交集计算,即[index1]∩[index2],计算结果为[index3],即为网络应急监测指标,包括死亡、受伤、房屋、道路、救援队伍、救灾物资、受灾人口、地质次生灾害、心理,共9个指标。增加网络可识别判断,词频统计值高(》0.1)的指标为可识别指标,赋值为1;对词频统计值较低(《0.1)而逆文档频率较高(》10)的指标赋值为0,表示为网络不可识别指标。在后面步骤中分别处理可识别指标和不可识别指标。
[0037]
s402建立指标的数据指标字典,扩展指标的描述和范畴,精确识别地震应急监测数据的标准。根据网络大数据统计,将9个指标对应的语义扩充,构建判断监测指标的条件和模型。各指标模型如:y1=x1(i1,i2…in
),y2=x2(j1,j2,
…jm
)
……
y9=x9(q1,q2qk)。
[0038]
上式中,y1~y9为文本所属类别,x1~x9为地震网络应急监测指标函数,i-q为指标中对应的扩展词汇。
[0039]
s501对s301结构化数据总表按照震后应急监测指标添加命中特征的标签进行多维分解,建立多维分指标数据库。利用朴素贝叶斯算法和lstm算法等人工智能技术,建立截止当前时间点之内的按时间顺序排列的9个包括应急指标关键词的分指标数据集。进行多维分解的方法包括步骤s502~s503。
[0040]
s502数据分析过程如下:对输入的文本记录分词处理,利用朴素贝叶斯算法对earthquakedata1的大量文本标注后的新闻信息中的每个词汇进行了概率分析,得到了每个词汇在每一类新闻中的分布概率,选出各指标模型进行拟合,得到每个语句类型的概率评估结果,依据该概率评估结果,来判断本条新闻的最优归属指标类型。
[0041]
s503将判断的结果文本输出到对应的分指标数据集的“详细内容”字段中,增加指标名称字段,并保留原来记录的结构和属性,输出带有发布时间、详细信息、事件信息、来源属性等9个分指标数据库earthquakedata2(i1,i2...i9)。
[0042]
s601监测数据信息提取。对分指标数据集earthquakedata2(i1,i2...i9)利用lstm算法(long short-term memory)对分指标数据集的规范化处理,按文本词汇的连接规律识别和判断震后对文本记录进一步简化,提取关键信息和数字,填入结果表,按分表的记录逐行循环判断,建立结果文件。信息提取的过程是:读取一定时间的分指标数据集earthquakedata2中的一个指标记录ei,对读取的记录中的第i条语句ci,采用结巴分词技术进行分词,将分词转化为字符串x1,x2…
,遍历字符串与对应指标的数据字典比较,将包涵数据字典的语句ci
‘
输出到结果数据集的一个说明字段中。之后将保存到说明字段的语句分别数字型指标和文字描述型指标分别按不同的模型提取信息,提取的信息di保存到结果数据集的一个目标字段中。其中数字型指标用isdigit()函数从结果数据集说明字段的数字型集合di提取数值,描述型指标从结果数据集说明字段的文字描述型集合si提取信息,用包含指标字典的ci
‘
语句的n条语句叠加实现。提取结果为di,按文字描述型指标模型提取目标数据si,提取的数据为di保存在结果数据集的目标字段中。具体如下式:
[0043][0044]
最后进行结果更新,对返回读取下一个时间的分指标数据集earthquakedata2的指标记录e
i2
,提取结果与结果数据集目标字段数据比较。如果数字性指标数值相等,则不计入结果数据记录中,数值不同则增加记录保存数据;对于描述型指标进行语义相似性分析,根据第三相似定理原理分别对ci‘
与c
i2
‘
语句中的分词字符串单值相同作为判据的方法判别,比较字符串,如果比较相同为“true”,则设置比较值comi=1,否则为0,经过下式计算,p≥0.7表示语句相同,则不计入结果数据记录中,否则增加记录保存数据;
[0045]
[0046]
将目标结果保存为按时间顺序的结果数据表,地点名称采用地州、县、镇、村四级字段详细记录。在9个指标中,不同指标具有不同的识别模型。
[0047]
s602死亡人数:提取的是数字,根据死亡和判断模型,判断与死亡相关的关键语句,并中中查找出现的数字,输入到结果数据库的字段中,判断下一个记录死亡人数是否一样,如果一样,进入下一条判断,如果不一样记录新的数值,直至所有记录循环结束;受伤人数与死亡人数数字提取方法基本相同。
[0048]
s603其他指标提取。房屋受损:根据房屋受损模型,判断出描述房屋状况的关键语句,用文本格式将关键句保留;基础设置受损:根据基础设施受损模型,将描述的电力、通讯的受损语句记录,保存到数据库的字段中;交通受损:根据交通受损模型,将描述交通受损或完好的语句,保存到数据库的字段中,并增加判断定位的模型,提取语句中提到的地点和路名信息;救援队伍:根据救援队伍模型,将描述救援队伍的语句提取,保存到数据库的字段中,运行预先设置的判断救援队伍类型的模型,判断出医疗、消防、部队、救援队、专业队的类别,增加到数据库的类别字段中;救援物资:运行救援物资模型,将描述救援物资的救援物资的语句提取,保存到数据库的字段中,运行预先设置的判断物资类型的模型,识别提供物资的种类,如水、帐篷、棉被等,保存到物资类型的字段中;次生灾害:运行次生灾害模型,将描述次生灾害的语句提取,保存到数据库的字段中;心理状况:运行心理状况模型,将描述灾民心理状况的语句提取,保存到数据库的字段中。
[0049]
s701建立云平台地震前数据库。以gis格式包括常驻数据人口密度、矢量图行政区划图、道路、水系、dem、卫星遥感图像、poi矢量点数据、统计年鉴、人口普查数据等多源数据。
[0050]
s702受灾人口指标计算。这一指标是网络不可识别指标,计算方法是在原有的受灾人口模型基础上增加了流动人口密度和旅游人口密度参量,增加这一参量后,提高了受灾人口的估算精度,并保障了地震对人口密度大,且救灾安置难度大的这一部分人口的考虑。修正的估算模型如下式:
[0051][0052]
上式中,pop
dis
受灾人口总数,n和m是受灾区域网格行数和列数,受灾面积的行列数值用网络获取地震烈度图和县级行政矢量图叠加得到;popdis为受灾人口,ii为地震强度,从网络信息获取,pa为强度概率,popi为受灾区域内(i,j)点利用人口普查数据计算的人口密度、popf为流动人口密度,利用人口普查数据计算,pop
t
是旅游人口密度,利用受灾景区的旅游信息和宾馆分布计算。
[0053]
s703经过计算的受灾人口数值输入地震灾情应急监测数据集。
[0054]
s801数据集接入地理信息系统。过程是:基于结果表的四级地名与poi矢量点逐级关联;增加事件的地理经纬度坐标;点矢量与行政县多边形进行空间关联,获取事件点准确的所属县域填入四级地名的县名称字段中,建立地震应急监测矢量数据集。
[0055]
对于数字型的监测指标数据集,采用地点关联的方法提取地点的经纬度坐标,存入数据库集。
[0056]
对于文本型的监测指标,读取文本中的地点名称,提取地点的经纬度坐标和地理
坐标转换,存入数据库中。
[0057]
s901震后灾情应急监测数据制图。在云平台对数字型的监测指标,用圆点符号显示数值指标,以热点图显示受灾严重的重点区域。对于事件描述的文本型的监测指标,将实时收到的高分辨率遥感图像作底图,叠加震后灾情应急监测数据,显示灾情空间分布特征并进一步检测灾情的环境状况。
[0058]
s1001地震应急监测时间序列空间化。在gis的地震区域的县行政多边形、乡行政多边形、交通道路、河流、dem等图层中,输入地震应急监测矢量数据集。在地震的不同阶段采用不同步长单位,地震后72小时内4小时,震后72小时至震后5天12小时,在震后6-15天为1天。对地震应急监测矢量数据以时间间隔为索引进行空间统计,构建地震应急监测时间序列变化数据。
[0059]
s1101云上地震应急监测信息可视化图表。将地震应急监测时间序列变化矢量数据中的属性数据表上传至云上数据库,用excel中的统计图功能,以时间为x坐标,数字型指标为y坐标,生成时间变化曲线和柱状图。
[0060]
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
技术特征:
1.一种基于网络大数据的震后灾情应急动态监测方法,包括以下步骤:1)获取震后网络数据,建立震后灾情网络原始数据集;利用网站爬虫程序工具,经过优化的地震灾情主题词筛选,建立震后网络原始数据集;经优化的主题词包括:震中地点名称、地震发生时间、震中所在行政省市县名、地区重要区域名称组成;2)对原始数据进行整理,包括处理无效数据;对收集的原始数据清洗,去除数据集中不一致和不完整的无效、冗余和头文件,建立震后灾情规范数据集;3)将步骤2)的数据集按时间顺序转换为数据表,利用正则技术,提取其中的时间、来源、标题、地点的数据属性特征,包括:发布时间、事件时间、事件地点、信息来源、发布人名称、信息来源,添加数据表的属性字段,建立结构化数据集;4)根据所述结构化数据集数据,以地震应急监测需求为目标筛选,确定最优网络地震应急监测指标,包括死亡指标、受伤指标、房屋指标、道路指标、救援队伍指标、救援物资指标、受灾人口指标、地质次生灾害指标和心理指标;建立地震应急监测指标的字典集;采用词频统计技术,确定地震应急监测指标对应的语义,扩大数据检索;并确定和标记不可识别指标和可识别指标;对不可识别指标,转到步骤8);5)对步骤3)结构化数据集按照震后应急监测指标添加选中特征的标签进行多维分解,分解出按时间顺序排列的包括地震应急监测指标关键词的多个分指标数据集;包括:首先进行数据分析:对输入的文本记录分词处理,利用朴素贝叶斯算法对步骤3)的结构化数据集中的文本标注后的新闻信息中每个词汇进行概率分析,得到每个词汇在每一类新闻中的分布概率,选出各指标模型并进行拟合,通过概率对每个语句的类型进行概率评估,依据概率评估结果判断新闻的最优归属类型;然后将判断的结果文本作为对应的分指标数据集的“详细内容”字段中,增加指标名称字段,并保留原来记录的结构和属性,即得到带有发布时间、详细信息、事件信息、来源属性的多个分指标数据集;6)对步骤5)得到的分指标数据集进行信息提取;按照指标特征分别对每个分指标数据集提取其中对应指标的数字型和文本描述型数据,进行量化后将量化结果保存为按时间顺序的结果数据表;地点名称采用地州、县、镇、村四级地名;7)建立云上多源地理信息数据库,其中gis格式的多源数据包括常驻人口密度、矢量图行政区划图、道路、水系、dem、卫星遥感图像、poi矢量点数据、统计年鉴、人口普查数据;8)基于网络获取的信息和云上多源地理信息数据库,通过建立灾损模型计算不可识别指标;不可识别指标包括受灾人口指标;建立受灾人口的灾损模型中增加流动人口密度和旅游人口密度参数,表示为:上式中,pop
dis
受灾人口总数,n和m是受灾区域网格行数和列数,受灾面积的行列数值用网络获取地震烈度图和县级行政矢量图叠加得到;popdis为受灾人口,i
i
为地震强度,从
网络信息获取,p
a
为强度概率,pop
i
为受灾区域内利用人口普查数据计算的人口密度;pop
f
为流动人口密度;pop
t
是旅游人口密度;将得到的数据集接入地理信息系统,可进行震后数据的空间可视化及制图输出;通过上述步骤,即实现基于网络大数据的震后灾情应急动态监测。2.如权利要求1所述基于网络大数据的震后灾情应急动态监测方法,其特征是,步骤1)具体是以社交媒体平台、媒体网站和地震地方政府网站为信息源,利用网站爬虫程序,经过目标优化的地震灾情主题词筛选,获取震后网络数据,由此建立震后网络原始数据集。3.如权利要求1所述基于网络大数据的震后灾情应急动态监测方法,其特征是,步骤4)具体是利用tf-id文本关键词抽取技术对所述结构化数据集数据进行分析。4.如权利要求3所述基于网络大数据的震后灾情应急动态监测方法,其特征是,步骤4)中,通过tf-id值判断不可识别指标或可识别指标。5.如权利要求1所述基于网络大数据的震后灾情应急动态监测方法,其特征是,步骤6)信息提取的过程具体是:读取一定时间的分指标数据集中的一个指标记录e
i
,对读取的记录中的第i条语句ci,采用结巴分词技术进行分词,将分词转化为字符串x1,x2…
,遍历字符串与对应指标的数据字典比较,将包涵数据字典的语句ci’输出到结果数据集的一个说明字段中;之后将保存到说明字段的语句分别按数字型指标和文字描述型指标模型提取信息,提取的信息di保存到结果数据集的一个目标字段中;其中数字型用isdigit()函数从结果数据集说明字段的数字型集合di提取数值;描述型从结果数据集说明字段的文字描述型集合si提取信息,用包含指标字典的ci’语句的n条语句叠加实现;提取结果为di,按文字描述型指标模型提取目标数据si,提取的数据为di保存在结果数据集的目标字段中。6.如权利要求1所述基于网络大数据的震后灾情应急动态监测方法,其特征是,进行空间可视化及制图输出包括:基于结果数据表的四级地名与poi矢量点逐级关联,增加事件的地理经纬度坐标,建立地震应急监测矢量点文件;将多个地震应急监测指标数值与相应的矢量数据关联,得到地震应急监测指标带有地理坐标的矢量图层;对矢量数据的量化数值制图,即输出地震应急监测的空间分布图。7.一种基于权利要求1所述基于网络大数据的震后灾情应急动态监测方法实现的系统,其特征是,系统包括:震后网络数据集建立模块、数据分解模块、量化指标模块、多源数据库模块、预测模型建立模块、应急监测数据空间化模块和地震应急监测数据可视化制图模块;震后网络数据集建立模块基于原始数据采集,建立原始震后灾情数据集;数据分解模块用于对数据进行属性结构化整合,并按时间顺序将收集的记录分解,提取每一列字段,建立标准化数据库;量化指标模块用于建立应急监测指标,得到包括应急指标关键词的多个分指标数据集;多源数据库模块用于建立集成灾区社会、经济和自然多源数据的云上地理信息数据库;
预测模型建立模块用于对网络不可识别指标建立估算预测模型,包括受灾人口指标预测模型建立;应急监测数据空间化模块用于对地震应急监测矢量数据以时间间隔为索引进行空间统计,构建地震应急监测时间序列变化数据;地震应急监测数据可视化制图模块用于通过制图显示灾情空间分布特征并进一步检测灾情的环境状况。
技术总结
本发明公布了一种基于网络大数据的震后灾情应急动态监测方法,包括:获取震后网络数据;建立结构化数据集;对结构化数据集进行数据分析,确定最优网络地震应急监测指标,并标记标记不可识别指标和可识别指标;分解出分指标数据集;分指标数据集信息提取;建立云上多源地理信息数据库;建立地震应急监测矢量点文件;得到地震应急监测指标带有地理坐标的矢量图层;输出地震应急监测的空间分布图;实现震后灾情数据快速自动获取、信息识别和定位,融合多源数据,建立地震应急数据的时空可视化图像,实现基于网络信息的地震应急动态监测。实现基于网络信息的地震应急动态监测。实现基于网络信息的地震应急动态监测。
技术研发人员:刘雪萍 李素菊 刘龙飞 简小虎
受保护的技术使用者:应急管理部国家减灾中心
技术研发日:2023.04.26
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
