基于网络爬虫方式的智能评估方法

未命名 07-19 阅读:125 评论:0


1.本发明涉及智能评估技术领域,特别涉及一种基于网络爬虫方式的智能评估方法。


背景技术:

2.我国自然灾害频发,每年因自然灾害所造成的国民gdp损失达数十亿元,对我国社会发展、城市化进展、国民经济带来巨大损失,因此针对全国自然灾害gdp损失评估的研究对全国自然灾害的评估、预判、防范有着十分重要的意义,对我国易发生自然灾害的地区的防灾减灾工程提供了参考依据。
3.目前,国内外并没有一个有效的关于全国自然灾害gdp损失评估方法与体系。国内外关于灾害评估的研究方向往往以风险评估、风险预测、单个灾害损失量、整体防灾减灾能力评估为主,同时前人针对风险评估的过程中,常掺杂着大量的人为因素对最终风险评估的干扰,从而导致评估结果准确性较差。
4.因此,针对上述问题,本发明首次提出一种基于网络爬虫方式的智能评估方法。首先以网络微博、网络新闻、灾害报告、论文、网络报纸等为平台,确定各种自然灾害对国家gdp所造成损失的关键词汇,依据爬虫获取关键词汇建立自然灾害对我国gdp造成损失的评价体系。统计出全国各个自然灾害事件发生的概率并作为评价体系中各级指标的权重。统计各个层次的指标出现的概率,包括三级指标中各个指标的出现概率以及二级指标中各个指标的条件概率,依次为基础采用贝叶斯网络法对各个指标进行权重的分配,从而客观地评价出自然灾害对国家gdp所造成的损失。该方法优势在于,针对全国自然灾害gdp损失评估的过程中,所有关于自然灾害的数据均是客观数据,没有任何人为因素的影响,相对于传统方法相比,告别了主观因素对评估结果的干扰,提高了评估结果的客观性、科学性。


技术实现要素:

5.本发明提供一种基于网络爬虫方式的智能评估方法,主要利用客观事实数据,对灾害事件的权重进行统计,通过对网络资源爬虫方式获取三级指标发生概率以及二级指标的条件概率,进一步获取各级指标的客观权重,完成全国自然灾害gdp损失的评估,提高评估的精准性。
6.本发明提供一种基于网络爬虫方式的智能评估方法,包括:
7.步骤1:根据来源类型,构建网络资源,且从每个来源类型的第一资源中筛选与目标灾害相关的损失关键词,并建立损失评价体系;
8.步骤2:采用网络爬虫方式对所有第一资源分别进行资源检索;
9.步骤3:根据资源检索结果,统计锁定时间段内的不同灾害类型的灾害事件的第一出现概率,来作为相应二级指标的第一出现权重,进而确定每个三级指标基于对应二级关键指标的第二出现权重;
10.步骤4:基于所述第一出现权重以及第二出现权重,确定每个二级指标的出现条件
概率,进而确定相应二级指标的指标条件概率;
11.步骤5:基于指标条件概率以及相应一级指标的设定权重,计算得到对应一级指标的第三出现权重;
12.步骤6:基于每个第三出现权重以及相匹配的灾害损失,获取得到灾害评估结果。
13.优选的,进而确定每个三级指标基于对应二级关键指标的第二出现权重,包括:
[0014][0015]
其中,p(a
11
)表示三级指标a
11
基于对应二级指标a1的第二出现权重;p(a1a
11
)表示二级指标a1的第一出现权重;p(a1|a
11
)表示对应二级指标a1的出现条件概率。
[0016]
优选的,基于所述第一出现权重以及第二出现权重,确定每个二级指标的出现条件概率,进而确定相应二级指标的指标条件概率,包括:
[0017][0018]
其中,p'(ak)表示相应二级指标的指标条件概率;p(a1|a
1k
)表示相应二级指标a1基于对应第三指标a
1k
的出现条件概率;p(a1|a
11
)表示相应二级指标a1基于对应第三指标a
11
的出现条件概率;p(a1|a
12
)表示相应二级指标a1基于对应第三指标a
12
的出现条件概率;p(a1|a
1j
)表示相应二级指标a1基于对应第三指标a
1j
的出现条件概率。
[0019]
优选的,基于指标条件概率以及相应一级指标的设定权重,计算得到对应一级指标的第三出现权重,包括:
[0020][0021]
其中,wi'表示对应一级指标的第三出现权重;pi表示对应一级指标的指标条件概率;wi表示对应一级指标的设定权重;n表示对应一级指标的指标个数。
[0022]
优选的,基于每个第三出现权重以及相匹配的灾害损失,获取得到灾害评估结果,包括:
[0023][0024]
其中,gi表示对应一级指标的灾害损失因子;s表示灾害评估结果。
[0025]
优选的,根据来源类型,构建网络资源,包括:
[0026]
获取每个来源类型的类型编码,并从资源数据库中匹配与所述类型编码一致的初始资源;
[0027]
基于所述资源数据库的检索工具,来获取相应的匹配日志,并对所述匹配日志进行聚类分析,得到每个聚类结果对应的聚类类型,确定历史匹配窗口;
[0028]
获取每个历史匹配窗口的窗口编码以及窗口使用频次,向对应历史匹配窗口赋予第一权重;
[0029]
统计同聚类类型中所有历史匹配窗口的总窗口使用频次以及对应同聚类类型中每次匹配资源基于该次总匹配资源的资源占比,向对应聚类类型赋予第二权重;
[0030]
基于所述第一权重以及第二权重,得到对应初始资源的资源有效性;
[0031]
对所述资源有效性进行排序,并对前n0个初始资源所对应的来源类型进行全部保留,对剩余初始资源所对应的来源类型进行临时保留;
[0032]
判断全部保留的来源类型所对应的资源信息是否满足资源构建标准;
[0033]
若满足,则将对应的资源信息作为网络资源;
[0034]
若不满足,则获取每个剩余来源类型的资源关系网络以及资源使用网络;
[0035]
根据所述资源关系网络以及资源使用网络,从匹配的剩余初始资源中筛选可用资源;
[0036]
构建对应可用资源的第一可用函数,同时,构建满足资源构建标准的第二可用函数;
[0037]
根据所述第一可用函数对所述第二可用函数进行资源扩展,得到网络资源。
[0038]
优选的,根据所述第一可用函数对所述第二可用函数进行资源扩展,得到网络资源,包括:
[0039]
确定所述第一可用函数所涉及到的资源来源的第一数量以及确定所述第二可用函数所涉及到的资源来源的第二数量;
[0040]
根据临时保留的资源来源的第三数量、第一数量以及第二数量,计算所述第一可用函数对所述第二可用函数的适配系数;
[0041][0042]
其中,p0表示适配系数;b1表示基于第一可用函数确定的所有可用资源;b2表示基于第二可用函数确定的所有网络资源;l n表示对数函数符号;m3表示第三数量;m1表示第一数量;m2表示第二数量;表示第一可用函数所涉及来源数量的第一权重;表示第二可用函数所涉及来源数量的第二权重;
[0043]
当所述适配系数大于或等于预设系数时,将所述第一可用函数涉及到的可用资源补充到所述第二可用函数涉及到的网络资源中;
[0044]
否则,确定每个剩余来源的来源资源存在的相关资源,并补充到所述第二可用函数涉及到的网络资源中。
[0045]
优选的,根据来源类型,构建网络资源,且从所述网络资源中的每个第一子资源中筛选与目标灾害相关的损失关键词,并建立损失评价体系,包括:
[0046]
筛选每个第一子资源中的损失初始词,并与词性数据库进行匹配,向每个损失初始词进行词性标注,其中,每个第一子资源中包括n1个损失初始词;
[0047]
对每个第一子资源中的每个损失初始词按照进行随机组合,获取得到个组合阵列,其中,rand表示随机函数;n1表示对应第一子资源中所包含的损失初始词的总个数;[]表示取整函数;
[0048]
按照组合阵列的词性组合,从词分析数据库中调取词分析方式,对相应词性组合
进行匹配分析,将数量最大的前两个匹配分析结果进行保留,并构建匹配子矩阵,其中,所述匹配子矩阵为2行列;
[0049]
基于所有匹配子矩阵,构建得到初始矩阵,其中,初始矩阵为2
×
m4列列,其中,m4表示第一子资源的资源个数;表示从所有第一子资源中所对应的列的最大数量,且对所述初始矩阵中的空闲位置进行0设置;
[0050]
并对所述初始矩阵中的一致行向量进行留一删除,得到第一矩阵;
[0051]
锁定所述第一矩阵中存在的最多有效元素的第一行,并将所述第一行分别与其余每一行进行交集匹配,同时,锁定同元素基于列的出现次数大于预设个数的第一元素;
[0052]
根据交集匹配结果以及第一元素,确定损失关键词;
[0053]
将所有损失关键词进行整合,建立损失评价体系。
[0054]
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0055]
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
[0056]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0057]
图1为本发明实施例中一种基于网络爬虫方式的智能评估方法的流程图;
[0058]
图2为本发明实施例中资源关系网络图;
[0059]
图3为本发明实施例中资源使用网络图。
具体实施方式
[0060]
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0061]
本发明提供一种基于网络爬虫方式的智能评估方法,如图1所示,包括:
[0062]
步骤1:根据来源类型,构建网络资源,且从每个来源类型的第一资源中筛选与目标灾害相关的损失关键词,并建立损失评价体系;
[0063]
步骤2:采用网络爬虫方式对所有第一资源分别进行资源检索;
[0064]
步骤3:根据资源检索结果,统计锁定时间段内的不同灾害类型的灾害事件的第一出现概率,来作为相应二级指标的第一出现权重,进而确定每个三级指标基于对应二级关键指标的第二出现权重;
[0065]
步骤4:基于所述第一出现权重以及第二出现权重,确定每个二级指标的出现条件概率,进而确定相应二级指标的指标条件概率;
[0066]
步骤5:基于指标条件概率以及相应一级指标的设定权重,计算得到对应一级指标的第三出现权重;
[0067]
步骤6:基于每个第三出现权重以及相匹配的灾害损失,获取得到灾害评估结果。
[0068]
优选的,进而确定每个三级指标基于对应二级关键指标的第二出现权重,包括:
[0069][0070]
其中,p(a
11
)表示三级指标a
11
基于对应二级指标a1的第二出现权重;p(a1a
11
)表示二级指标a1的第一出现权重;p(a1|a
11
)表示对应二级指标a1的出现条件概率。
[0071]
优选的,基于所述第一出现权重以及第二出现权重,确定每个二级指标的出现条件概率,进而确定相应二级指标的指标条件概率,包括:
[0072][0073]
其中,p'(ak)表示相应二级指标的指标条件概率;p(a1|a
1k
)表示相应二级指标a1基于对应第三指标a
1k
的出现条件概率;p(a1|a
11
)表示相应二级指标a1基于对应第三指标a
11
的出现条件概率;p(a1|a
12
)表示相应二级指标a1基于对应第三指标a
12
的出现条件概率;p(a1|a
1j
)表示相应二级指标a1基于对应第三指标a
1j
的出现条件概率。
[0074]
优选的,基于指标条件概率以及相应一级指标的设定权重,计算得到对应一级指标的第三出现权重,包括:
[0075][0076]
其中,wi'表示对应一级指标的第三出现权重;pi表示对应一级指标的指标条件概率;wi表示对应一级指标的设定权重;n表示对应一级指标的指标个数。
[0077]
优选的,基于每个第三出现权重以及相匹配的灾害损失,获取得到灾害评估结果,包括:
[0078][0079]
其中,gi表示对应一级指标的灾害损失因子;s表示灾害评估结果。
[0080]
该实施例中,网络资源指的是网络新闻、微博、网络年鉴、论文等以网络为依托所获取的资源信息。
[0081]
该实施例中,损失评价体系包括工业损失、社会损失、服务业损失以及农业损失,将上述四种损失作为一级指标,且还可以将一级指标分解为数个二级指标,比如,工业产量损失、工厂停电、工人失业、服务业从业人数下降、失业人口、人口受灾量、经济损失、干旱面积、降水量、农业灌溉率、农民收入、粮食产量等。
[0082]
该实施例中,网络爬虫方式可以采用较为常用的八爪鱼免费爬虫工具。
[0083]
该实施例中,三级指标为对应灾害相关的损失关键词,比如,针对工业产量损失,可以再次细致划分,比如,细致到不同区域的产量损失等。
[0084]
该实施例中,自然灾害包括:火灾、洪涝灾害、旱灾、滑坡等。
[0085]
该实施例中,在确定第二出现权重的过程中,例如以火灾为例,全国范围内火灾事件所造成的人员损失、房屋损失、爆炸等事件发生的概率,即为三级指标相对于其对应的二
级指标的权重。依次类推,分别求出各个二级指标与三级指标的权重。统计全国近几年发生各种自然灾害事件的概率,包括火灾、洪涝灾害、旱灾、滑坡等自然灾害。每个自然灾害事件出现的概率即为该灾害事件的权重,即二级指标的权重w1=p1/p1+p2+p3...+pn。再分别统计三级指标相对于其对应的二级指标的权重,例如以火灾为例,全国范围内火灾事件所造成的人员损失、房屋损失、爆炸等事件发生的概率,即为三级指标相对于其对应的二级指标的权重。依次类推,分别求出各个二级指标与三级指标的权重。
[0086]
该实施例中,将各灾害事件所造成的损失与其权重进行结合,即可评估出全国自然灾害所造成的损失。
[0087]
该实施例中,确定灾害评估结果是依次为基础采用贝叶斯网络法对各个指标进行权重的分配,从而客观地评价出自然灾害对国家gdp所造成的损失。
[0088]
上述技术方案的有益效果是:主要利用客观事实数据,对灾害事件的权重进行统计,通过对网络资源爬虫方式获取三级指标发生概率以及二级指标的条件概率,进一步获取各级指标的客观权重,完成全国自然灾害gdp损失的评估,提高评估的精准性。
[0089]
本发明提供一种基于网络爬虫方式的智能评估方法,根据来源类型,构建网络资源,包括:
[0090]
获取每个来源类型的类型编码,并从资源数据库中匹配与所述类型编码一致的初始资源;
[0091]
基于所述资源数据库的检索工具,来获取相应的匹配日志,并对所述匹配日志进行聚类分析,得到每个聚类结果对应的聚类类型,确定历史匹配窗口;
[0092]
获取每个历史匹配窗口的窗口编码以及窗口使用频次,向对应历史匹配窗口赋予第一权重;
[0093]
统计同聚类类型中所有历史匹配窗口的总窗口使用频次以及对应同聚类类型中每次匹配资源基于该次总匹配资源的资源占比,向对应聚类类型赋予第二权重;
[0094]
基于所述第一权重以及第二权重,得到对应初始资源的资源有效性;
[0095]
对所述资源有效性进行排序,并对前n0个初始资源所对应的来源类型进行全部保留,对剩余初始资源所对应的来源类型进行临时保留;
[0096]
判断全部保留的来源类型所对应的资源信息是否满足资源构建标准;
[0097]
若满足,则将对应的资源信息作为网络资源;
[0098]
若不满足,则获取每个剩余来源类型的资源关系网络以及资源使用网络;
[0099]
根据所述资源关系网络以及资源使用网络,从匹配的剩余初始资源中筛选可用资源;
[0100]
构建对应可用资源的第一可用函数,同时,构建满足资源构建标准的第二可用函数;
[0101]
根据所述第一可用函数对所述第二可用函数进行资源扩展,得到网络资源。
[0102]
该实施例中,来源类型包括:网络新闻、微博、网络年鉴、论文类型,且不同的类型所存在的编码是不一样的,所以,可以从资源数据库中调取与编码一致的初始资源,比如,网络新闻的编码为0000,此时,以编码为纽带,来从资源数据库中调取编码为0000的资源,其中,资源数据库包含不同网络平台中所存储的不同年份、月份之下的所有与自然灾害有关的资源。
[0103]
该实施例中,每个资源类型都存在匹配的检索工具,保证资源匹配的效率,检索工具是为了实现信息检索服务,方便实现对资源的检索。
[0104]
该实施例中,比如,编码为0000的检索工具为工具1,基于工具1所生成的匹配日志,也就是按照编码0000从数据库进行资源匹配的过程所对应的日志信息。
[0105]
该实施例中,聚类分析指的是按照日志信息的内容类型对匹配日志进行分类,来得到聚类结果。
[0106]
该实施例中,每个聚类结果所对应的聚类中心的信息类型可以视为对应的聚类类型,且历史匹配窗口是基于聚类类型-窗口映射表确定得到的,该映射表是包含不同匹配的聚类类型以及该聚类类型的匹配子过程在内的,且匹配子过程的实现窗口即为历史匹配窗口。
[0107]
该实施例中,比如,针对类型编码为0000的历史匹配窗口为1、2以及3,且窗口1的编码为aaa1,窗口2的编码为aaa2,窗口3的编码为aaa3,其中,计算第一权重公式如下:
[0108][0109]
其中,qj表示第j个历史匹配窗口的第一权重;qj表示第j个历史匹配窗口基于编码-设置映射表的设置权重;m01表示与同个类型编码下的不同窗口编码所匹配的历史窗口的窗口数量;pj表示第j个历史匹配窗口的窗口使用频次;
[0110]
该实施例中,编码-设置映射表是包括不同的窗口编码以及与窗口编码匹配的设置权重,其都是与预先设定好的,由于每个匹配过程都是提前由程序代码设置好才可以进行匹配操作。
[0111]
该实施例中,总窗口使用频次指的是上边提及到的m01,资源占比与第二权重是一样的,且资源占比=对应同聚类类型中每次匹配资源/该匹配日志下的所有聚类类型对应的匹配资源,也就是该匹配日志下的所有聚类类型对应的匹配资源即为该次总匹配资源。
[0112][0113]
资源平均占比指的是同匹配日志下的所有资源占比的平均值;sum{qj}表示对所有qj进行求和;sum表示求和函数符号;
[0114]
该实施例中,排序指的是由大到小的排序,n0指的从所有初始资源对应的资源有效性中筛选前n0个,且初始资源的总个数是大于n0的,且大于或等于1的整数。
[0115]
该实施例中,全部保留指的是可以将保留的资源作为网络资源,但是在作为网络资源之前还需要判断是否满足资源构建标准,资源构建标准指的是所保留的相应来源类型的资源是否完整,比如,该资源中需要包括3个信息需求,但是实际所获取的只有2个信息需求,此时,就判定不满足资源构建标准。
[0116]
比如,剩余初始资源对应的来源类型为论文类型,且资源关系网络指的是从知网、万方等不同平台来获取的资源情况,进而构建的网络,其中,资源使用网络指的是从知网中所获取的有用自然灾害资源以及从万方中所获取的有用自然灾害资源等所构成的,且其中可以作为有效资源使用的来构建得到资源使用网络。
[0117]
针对资源关系网络如图2所示,针对资源使用网络如图3所示。
[0118]
该实施例中,可用资源是基于资源筛选机制对资源关系网络以及资源使用网络进行资源锁定,来得到的可用资源,此时的可用资源单纯是为了确定资源中所存在的有价值内容,且资源筛选机制也就是基于网络来筛选有价值内容。
[0119]
比如,存在资源01、02以及03,且锁定的01在知网中,且01具备价值,此时,就将资源01作为有价值内容。
[0120]
该实施例中,第一可用函数是基于可用资源以及可用资源的类型来源中的细致来源来确定的,第二可用函数是基于满足资源构建标准的类型来源以及该类型来源的资源来确定的。
[0121]
第一可用函数={细致来源,有价值内容};
[0122]
第二可用函数={}满足资源构建标准的类型来源,有价值内容}。
[0123]
该实施例中,资源扩展的目的是为了将第一可用函数中的有价值内容中的一部分补充到第二可用函数所对应的资源中。
[0124]
上述技术方案的有益效果是:通过确定类型编码方便来匹配资源,通过对匹配日志进行聚类分析,来对窗口进行权重的赋予,计算得到资源有效性,保证数据库匹配资源的合理性,避免匹配的不合理,且通过对保留的资源构建一个函数以及对临时保留的资源构建一个函数,进而实现对资源的扩展,保证资源的可靠性,为后续分析损失灾害提供基础,保证确定损失的高效率。
[0125]
本发明提供一种基于网络爬虫方式的智能评估方法,根据所述第一可用函数对所述第二可用函数进行资源扩展,得到网络资源,包括:
[0126]
确定所述第一可用函数所涉及到的资源来源的第一数量以及确定所述第二可用函数所涉及到的资源来源的第二数量;
[0127]
根据临时保留的资源来源的第三数量、第一数量以及第二数量,计算所述第一可用函数对所述第二可用函数的适配系数;
[0128][0129]
其中,p0表示适配系数;b1表示基于第一可用函数确定的所有可用资源;b2表示基于第二可用函数确定的所有网络资源;l n表示对数函数符号;m3表示第三数量;m1表示第一数量;m2表示第二数量;表示第一可用函数所涉及来源数量的第一权重;表示第二可用函数所涉及来源数量的第二权重;
[0130]
当所述适配系数大于或等于预设系数时,将所述第一可用函数涉及到的可用资源补充到所述第二可用函数涉及到的网络资源中;
[0131]
否则,确定每个剩余来源的来源资源存在的相关资源,并补充到所述第二可用函数涉及到的网络资源中。
[0132]
该实施例中,第一可用函数涉及到的资源来源为来源为w1以及w2,此时,第一数量为2,第二可用函数涉及到的资源来源为w3、w4、w5,此时,第二数量为3,第三数量为保留的资源来源,比如是包含w1、w2以及w6在内,此时,第三数量为3。
[0133]
该实施例中,预设系数的取值为0.1。
[0134]
该实施例中,相关资源指的是剩余来源的来源资源中资源相关性高的资源,且相关性高的资源指的是任意两个资源中存在相关系数大于0.8的资源,亦或者是所有资源之间的相关系数大于0.3的资源。
[0135]
上述技术方案的有益效果是:通过确定不同资源来源的数量的,来计算第一可用函数对第二可用函数的适配系数,来实现对网络资源的补充,保证后续分析的效率。
[0136]
本发明提供一种基于网络爬虫方式的智能评估方法,根据来源类型,构建网络资源,且从所述网络资源中的每个第一子资源中筛选与目标灾害相关的损失关键词,并建立损失评价体系,包括:
[0137]
筛选每个第一子资源中的损失初始词,并与词性数据库进行匹配,向每个损失初始词进行词性标注,其中,每个第一子资源中包括n1个损失初始词;
[0138]
对每个第一子资源中的每个损失初始词按照进行随机组合,获取得到个组合阵列,其中,rand表示随机函数;n1表示对应第一子资源中所包含的损失初始词的总个数;[]表示取整函数;
[0139]
按照组合阵列的词性组合,从词分析数据库中调取词分析方式,对相应词性组合进行匹配分析,将数量最大的前两个匹配分析结果进行保留,并构建匹配子矩阵,其中,所述匹配子矩阵为2行列;
[0140]
基于所有匹配子矩阵,构建得到初始矩阵,其中,初始矩阵为2
×
m4列列,其中,m4表示第一子资源的资源个数;表示从所有第一子资源中所对应的列的最大数量,且对所述初始矩阵中的空闲位置进行0设置;
[0141]
并对所述初始矩阵中的一致行向量进行留一删除,得到第一矩阵;
[0142]
锁定所述第一矩阵中存在的最多有效元素的第一行,并将所述第一行分别与其余每一行进行交集匹配,同时,锁定同元素基于列的出现次数大于预设个数的第一元素;
[0143]
根据交集匹配结果以及第一元素,确定损失关键词;
[0144]
将所有损失关键词进行整合,建立损失评价体系。
[0145]
该实施例中,词分析数据库包括不同的词分析方式以及与词分析方式匹配的组合词性在内,且组合词性与词分析方式是一一对应的,且是根据词性组合中所包含的词性为基础确定的,且词性组合为该组合阵列中所有词的词性。
[0146]
该实施例中,匹配分析主要是基于该方式来确定下该词性组合中所涉及到的词之间的匹配关系,且用数值表示,取值范围为[0,1],匹配关系越紧密,对应的值越大。
[0147]
该实施例中,因为同个第一子资源中针对每个损失初始词都会有其相关的组合阵列,所以,组合阵列中有几行,就会存在几个值,进而从该第一子资源所涉及到的所有值中来筛选最大的两个值进行保留,来构建匹配子矩阵。
[0148]
该实施例中,第一子资源指的是自然灾害相关的报告内容,且该报告内容是包含不止关键词在内的,会存在关键词相关的各种数值结果等在内的,但是,此时值需要提取相
关的损失初始词,比如,火灾导致的建筑灾害面积、火灾导致的农业灾害面积等,此时,损失初始词为火灾灾害等。
[0149]
该实施例中,词性数据库是包含不同的灾害类型等在内的,且灾害类型比如,水灾以及水灾灾害大小、火灾以及火灾灾害大小、冰雹灾以及灾害大小等分别对应的词性表示在内的,进而后续进行词性标注,可以有效的知晓损失初始词所代表的含义。
[0150]
该实施例中,比如,第一子资源:[损失初始词1损失初始词2损失初始词3....],此时,当损失初始词有2个,此时,由2个词进行随机组合,比如,以损失初始词1为例,随机组合为:损失初始词1以及损失初始词2、损失初始词1以及损失初始词3,也就是以哪个损失初始词进行随机组合就需要包含对应损失初始词在内。
[0151]
该实施例中,针对损失初始词1的组合阵列,比如存在9个损失初始词:且对应的词性组合为也就是对损失初始词1、2、3的词性进行分析,且对应的匹配子矩阵
[0152]
该实施例中,初始矩阵就是将所有匹配子矩阵按照获取顺序来依次放置,得到矩阵,由于有的匹配子矩阵中的行元素的数量多,有的匹配子矩阵中的行元素的数量少,就需要对元素少的行向量按照数量多的行元素进行数量上的一致补齐,且补齐内容为0。
[0153]
该实施例中,留一删除指的是,如果存在3个一样的含向量,删除2个保留1个即可。
[0154]
该实施例中,最多有效元素指的是该行向量中除去元素为0的剩余元素个数。
[0155]
该实施例中,交集匹配指的是该第一行与剩余每行中存在一样的损失初始词,并以第一行的元素为基础,来向剩余每一行中的交集元素进行第一标注,来确定每行标注个数以及标注的元素。
[0156]
该实施例中,第一元素指的是列中出现次数大于预设个数的元素,且列并不一定是同列,但是是包含每行所对应的一个列元素在内的。
[0157]
比如:第一行:{元素1元素2元素3元素4元素5}
[0158]
行1:{元素1元素2元素7};
[0159]
行2:{元素2元素9};
[0160]
行3:{元素1元素2元素3}
[0161]
此时,第一行与行1的交集匹配结果为{元素1元素2},第一行与行2的交集匹配结果为{元素2};第一行与行3的交集匹配结果为{元素1元素2元素3};
[0162]
其中,比如,当交集匹配的元素个数大于2时,就可以将对应行的元素7以及第一行的元素4和5进行保留;
[0163]
其中,同元素1的出现次数为3,同元素2的出现次数为4,同元素3的出现次数为3,同元素4的出现次数为1,同元素5的出现次数为1,同元素7和9的出现次数也为1。
[0164]
该实施例中,当预设次数为2时,对应的第一元素的为元素1、2、3。
[0165]
所以最后得到的损失关键词为:元素1、2、3、4、5、7在内的,进而所有的损失关键词即为对应的体系。
[0166]
上述技术方案的有益效果是:通过确定每个子资源的初始词以及与数据库进行匹配以及词性标注,来进行随机组合,构建匹配子矩阵,为保留可靠的词提供基础,且通过构建矩阵以及矩阵处理,方便保留有效行避免多于操作,且通过进行交集匹配以及次数比较,为确定损失关键词提供双重保证,保证损失评价体系构建合理性,进而保证后续损失确定的效率与精准度。
[0167]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

技术特征:
1.一种基于网络爬虫方式的智能评估方法,其特征在于,包括:步骤1:根据来源类型,构建网络资源,且从所述网络资源中的每个第一子资源中筛选与目标灾害相关的损失关键词,并建立损失评价体系;步骤2:采用网络爬虫方式对所有第一子资源分别进行资源检索;步骤3:根据资源检索结果以及损失评价体系,统计锁定时间段内的不同灾害类型的灾害事件的第一出现概率,来作为相应二级指标的第一出现权重,进而确定每个三级指标基于对应二级关键指标的第二出现权重;步骤4:基于所述第一出现权重以及第二出现权重,确定每个二级指标的出现条件概率,进而确定相应二级指标的指标条件概率;步骤5:基于指标条件概率以及相应一级指标的设定权重,计算得到对应一级指标的第三出现权重;步骤6:基于每个第三出现权重以及相匹配的灾害损失,获取得到灾害评估结果。2.根据权利要求1所述的基于网络爬虫方式的智能评估方法,其特征在于,进而确定每个三级指标基于对应二级关键指标的第二出现权重,包括:其中,p(a
11
)表示三级指标a
11
基于对应二级指标a1的第二出现权重;p(a1a
11
)表示二级指标a1的第一出现权重;p(a1|a
11
)表示对应二级指标a1的出现条件概率。3.根据权利要求2所述的基于网络爬虫方式的智能评估方法,其特征在于,基于所述第一出现权重以及第二出现权重,确定每个二级指标的出现条件概率,进而确定相应二级指标的指标条件概率,包括:其中,p'(a
k
)表示相应二级指标的指标条件概率;p(a1|a
1k
)表示相应二级指标a1基于对应第三指标a
1k
的出现条件概率;p(a1|a
11
)表示相应二级指标a1基于对应第三指标a
11
的出现条件概率;p(a1|a
12
)表示相应二级指标a1基于对应第三指标a
12
的出现条件概率;p(a1|a
1j
)表示相应二级指标a1基于对应第三指标a
1j
的出现条件概率。4.根据权利要求3所述的基于网络爬虫方式的智能评估方法,其特征在于,基于指标条件概率以及相应一级指标的设定权重,计算得到对应一级指标的第三出现权重,包括:其中,w
i
'表示对应一级指标的第三出现权重;p
i
表示对应一级指标的指标条件概率;w
i
表示对应一级指标的设定权重;n表示对应一级指标的指标个数。5.根据权利要求4所述的基于网络爬虫方式的智能评估方法,其特征在于,基于每个第三出现权重以及相匹配的灾害损失,获取得到灾害评估结果,包括:
其中,g
i
表示对应一级指标的灾害损失因子;s表示灾害评估结果。6.根据权利要求1所述的基于网络爬虫方式的智能评估方法,其特征在于,根据来源类型,构建网络资源,包括:获取每个来源类型的类型编码,并从资源数据库中匹配与所述类型编码一致的初始资源;基于所述资源数据库的检索工具,来获取相应的匹配日志,并对所述匹配日志进行聚类分析,得到每个聚类结果对应的聚类类型,确定历史匹配窗口;获取每个历史匹配窗口的窗口编码以及窗口使用频次,向对应历史匹配窗口赋予第一权重;统计同聚类类型中所有历史匹配窗口的总窗口使用频次以及对应同聚类类型中每次匹配资源基于该次总匹配资源的资源占比,向对应聚类类型赋予第二权重;基于所述第一权重以及第二权重,得到对应初始资源的资源有效性;对所述资源有效性进行排序,并对前n0个初始资源所对应的来源类型进行全部保留,对剩余初始资源所对应的来源类型进行临时保留;判断全部保留的来源类型所对应的资源信息是否满足资源构建标准;若满足,则将对应的资源信息作为网络资源;若不满足,则获取每个剩余来源类型的资源关系网络以及资源使用网络;根据所述资源关系网络以及资源使用网络,从匹配的剩余初始资源中筛选可用资源;构建对应可用资源的第一可用函数,同时,构建满足资源构建标准的第二可用函数;根据所述第一可用函数对所述第二可用函数进行资源扩展,得到网络资源。7.根据权利要求6所述的基于网络爬虫方式的智能评估方法,其特征在于,根据所述第一可用函数对所述第二可用函数进行资源扩展,得到网络资源,包括:确定所述第一可用函数所涉及到的资源来源的第一数量以及确定所述第二可用函数所涉及到的资源来源的第二数量;根据临时保留的资源来源的第三数量、第一数量以及第二数量,计算所述第一可用函数对所述第二可用函数的适配系数;其中,p0表示适配系数;b1表示基于第一可用函数确定的所有可用资源;b2表示基于第二可用函数确定的所有网络资源;ln表示对数函数符号;m3表示第三数量;m1表示第一数量;m2表示第二数量;表示第一可用函数所涉及来源数量的第一权重;表示第二可用函数所涉及来源数量的第二权重;当所述适配系数大于或等于预设系数时,将所述第一可用函数涉及到的可用资源补充到所述第二可用函数涉及到的网络资源中;否则,确定每个剩余来源的来源资源存在的相关资源,并补充到所述第二可用函数涉及到的网络资源中。8.根据权利要求1所述的基于网络爬虫方式的智能评估方法,其特征在于,根据来源类
型,构建网络资源,且从所述网络资源中的每个第一子资源中筛选与目标灾害相关的损失关键词,并建立损失评价体系,包括:筛选每个第一子资源中的损失初始词,并与词性数据库进行匹配,向每个损失初始词进行词性标注,其中,每个第一子资源中包括n1个损失初始词;对每个第一子资源中的每个损失初始词按照进行随机组合,获取得到个组合阵列,其中,rand表示随机函数;n1表示对应第一子资源中所包含的损失初始词的总个数;[]表示取整函数;按照组合阵列的词性组合,从词分析数据库中调取词分析方式,对相应词性组合进行匹配分析,将数量最大的前两个匹配分析结果进行保留,并构建匹配子矩阵,其中,所述匹配子矩阵为2行列;基于所有匹配子矩阵,构建得到初始矩阵,其中,初始矩阵为2
×
m4列列,其中,m4表示第一子资源的资源个数;表示从所有第一子资源中所对应的列的最大数量,且对所述初始矩阵中的空闲位置进行0设置;并对所述初始矩阵中的一致行向量进行留一删除,得到第一矩阵;锁定所述第一矩阵中存在的最多有效元素的第一行,并将所述第一行分别与其余每一行进行交集匹配,同时,锁定同元素基于列的出现次数大于预设个数的第一元素;根据交集匹配结果以及第一元素,确定损失关键词;将所有损失关键词进行整合,建立损失评价体系。

技术总结
本发明提供了一种基于网络爬虫方式的智能评估方法,包括:步骤1:根据来源类型,构建网络资源,且从所述网络资源中的每个第一子资源中筛选与目标灾害相关的损失关键词,并建立损失评价体系;步骤2:采用网络爬虫方式对所有第一资源分别进行资源检索;步骤3:根据资源检索结果,统计锁定时间段内的不同灾害类型的灾害事件的第一出现概率,来作为相应二级指标的第一出现权重,进而确定每个三级指标基于对应二级关键指标的第二出现权重;步骤4:基于所述第一出现权重以及第二出现权重,确定每个二级指标的出现条件概率,进而确定相应二级指标的指标条件概率等步骤。标条件概率等步骤。标条件概率等步骤。


技术研发人员:雷添杰 刘布春 李翔宇 朱宣谕 李昊阳 王赛鸽 杨晓娟 王麒粤 韩锐 季子琦
受保护的技术使用者:中国农业科学院农业环境与可持续发展研究所
技术研发日:2023.04.26
技术公布日:2023/7/18
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐